大数据与Hadoop之间是什么关系

2024-12-25 21:06:20

推荐回答（5个）

回答1：

大数据是一系列技术的统称，经过多年的发展，大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节，这些环节涉及到诸多大数据工作岗位，这些工作岗位与物联网、云计算也都有密切的联系。

大数据技术的三个重点：Hadoop、spark、storm。Hadoop本身就是大数据平台研发人员的工作成果，Hadoop是目前常见的大数据支撑性平台，Hadoop平台提供了分布式存储（HDFS）、分布式计算（MapReduce）、任务调度（YARN）、对象存储（Ozone）和组件支撑服务（Common）。

回答2：

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

简单说，Hadoop或者说Hadoop生态圈，是为了解决大数据应用场景而出现的，它包含了文件系统、计算框架、调度系统等，Spark是Hadoop生态圈里的一种分布式计算引擎。

回答3：

Hadoop中有很多方法可以加入多个数据集。MapReduce提供了Map端和Reduce端的数据连接。这些连接是非平凡的连接，并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接，合并连接和倾斜连接（skewed join），并且Hive提供了map端的连接和完整外部连接来分析数据。

一个重要的事实是，通过使用各种工具，比如MapReduce、Pig和Hive等，数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据，Anoop指出，通常，在大数据/Hadoop的世界，一些问题可能并不复杂，并且解决方案也是直截了当的，但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。

一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。

回答4：

因为当数据非常巨大时，如 XXX TB 甚至 XXX PB, 区区一台服务器就很难处理过来了。
所以就需要使用 N 台服务器，组成一个群集，共同处理庞大的数据，这样就能极大提升效率了。
Hadoop其实就是一个分布式的文件系统，数据会分布到 N 台服务器中，一旦需要处理数据，则 N 台服务器共同进行处理，再把各个中间结果汇总成最后的结果。
当然，这需要特别的算法，不能再使用传统的算法了，这就要使用 MapReduce 框架了。
我们万能的淘宝就是使用了 hadoop 的，你想想上年双十一那一千亿交易额，其中累积起来的数据可是很惊人的。

回答5：

大数据是一系列技术的统称，经过多年的发展，大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节，这些环节涉及到诸多大数据工作岗位，这些工作岗位与物联网、云计算也都有密切的联系。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构，是用Java语言开发的一个开源分布式计算平台，适合大数据的分布式存储和计算平台。
Hadoop是目前被广泛使用的大数据平台，本身就是大数据平台研发人员的工作成果，Hadoop是目前比较常见的大数据支撑性平台，Hadoop平台提供了分布式存储（HDFS）、分布式计算（MapReduce）、任务调度（YARN）、对象存储（Ozone）和组件支撑服务（Common）。
随着Hadoop的不断发展，基于Hadoop的大数据生态越发完善，目前包括Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez、Zookeeper等组件陆续被开发出来，这些组件极大的丰富了Hadoop自身的应用。加米谷大数据培训，6月大数据开发零基础班、提高班，成都小班面授，预报名中！随着组件的增多，Hadoop自身也越来越重，因此目前很多大数据工程师更愿意使用Spark，因为Spark更轻，基于内存速度也更快。
可以这样简单地理解：
1、大数据是一个高层次的概念（相当于互联网的概念），而Hadoop只是承载大数据的一个平台框架一种实现方式而已（类似于各种物理电脑网络）。
2、大数据包含的内涵广泛得多，而Hadoop只是其中一部分实现。
我们平常所说的大数据包含：采集、传输、存储、分析、可视化等等；而Hadoop更多是用于提取、存储、分析的一个系统平台而已。
3、实现大数据平台的框架除了Hadoop之外，还有其他更多的平台。
由于Hadoop是一个开源的大数据系统平台，所以你们听得最多。除了Hadoop平台外，还有其他系统平台。
所以，大数据不等于Hadoop，大数据与Hadoop也不是包含关系。
大数据开发人员可以通过Hadoop提供的系统级服务支持从而帮助企业完成大数据改造，对于开发人员来说，只需要关注于具体的服务实现就可以了，系统级功能已经由Hadoop提供了实现。所以，Hadoop是大数据开发人员的重要基础。