欢迎重视大数据系列课程

前语

说到大数据,大抵逃不过两个问题,一个是海量的数据该怎样存储,另外一个便是那么多数据该怎样进行查询核算呢。好在这些问题前人都有了处理方案,而Hadoop便是其间的佼佼者,是目前市面上最流行的一个大数据软件,那它包括哪些内容呢?有什么特点呢?

Hadoop介绍

说到Hadoop,咱们的了解是什么?

狭义上了解,Hadoop指的是Apache软件基金会的一款用java语言完成,开源的软件,答应用户使用简单的编程模型完成跨机器集群对海量数据进行散布式核算处理。

广义上,Hadoop指的是围绕Hadoop打造的大数据生态圈,如下图所示, 其间Hadoop是整个生态圈的底座、地基,构建出整个大数据的生态体系。

当我们说大数据Hadoop,究竟在说什么?

Hadoop怎样来的?

Hadoop之父:Doug Cutting

《The Google file system》:谷歌散布式文件体系GFS

《MapReduce: Simplified Data Processing on Large Clusters》:谷歌散布式核算结构MapReduce

《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储体系

Hadoop三大核心组件

hadoop首要由3大部分组成,俗称Hadoop三剑客:

Hadoop HDFS(散布式文件存储体系)

全称散布式文件体系,本质是一个文件体系,由于数据量很大,总不能将将所有数据存储到一台”电脑”上,哪有那么大磁盘的电脑,那么是不是能够存储到多个不同的”电脑”上,也便是散布式的,把文件存储在不同的节点中,首要是为了处理海量数据存储的问题,它处在生态圈的底层与核心位置。

Hadoop MapReduce(散布式核算结构)

MapReduce作为大数据生态圈第一代散布式核算结构,首要是处理了海量数据的核算问题。

传统的核算方法一般都是将数据从各个节点上加载过来,然后统一核算。这样有个最大的弊端便是核算十分慢,只有一个节点工作。而MapReduce核算结构能够散布在各个节点上并行核算,最终进行归并。

注意,MapReduce只是一个核算结构,或许说编程模型,不是一个软件,无需部署。

Hadoop YARN(集群资源管理和使命调度渠道)

YARN是散布式通用的集群资源管理体系和使命调度渠道,怎样了解呢?

大数据的很多核算使命,比如MapReduce使命、或许其他的Spark使命等等,他们在核算的时候需求CPU、内存、磁盘等资源,那么多个使命进行运算的时候需求有个管理者去给他们进行资源分配、调度等,这个管理员便是YARN。

Hadoop优点

Hadoop为什么这么流行,这和它的众多优点分不开。

  • 扩容才能

Hadoop是在可用的核算机集群间分配数据并完成核算使命的,这些集群可方便灵敏的方法扩展到数以千计的节点。

  • 本钱低

Hadoop集群答应通过部署普通廉价的机器组成集群来处理大数据,以至于本钱很低。垂青的是集群整体才能。

  • 效率高

通过并发数据,Hadoop能够在节点之间动态并行的移动数据,使得速度非常快。

  • 可靠性

能主动维护数据的多份仿制,并且在使命失利后能主动地重新部署(redeploy)核算使命。所以Hadoop的按位存储和处理数据的才能值得人们信赖。

  • 开源

由于Hadoop开源,所以整个社区活跃度很高,很多企业都是根据Hadoop构建他们的大数据渠道。

Hadoop架构变迁

Hadoop也一直在迭代晋级,如今已经到了3.0年代了,那么每个大版本有什么不同呢?

1.Hadoop 1.0年代

当我们说大数据Hadoop,究竟在说什么?

Hadoop1.0年代只有HDFS(散布式文件存储)和MapReduce(资源管理和散布式数据处理)两部分。

2.Hadoop 2.0年代

当我们说大数据Hadoop,究竟在说什么?

Hadoop2.0年代引入了YARN作为统一的集群资源管理和使命调度渠道,它不仅能够提交自己的使命,还能够提交其他的一些使命,是一个很大的革新,也是确保Hadoop的控制位置的一大原因。

3.Hadoop 3.0年代

Hadoop 3.0架构组件和Hadoop 2.0相似, 但是3.0着重于性能优化

Hadoop初体验

好了,上面基本讲清楚Hadoop的基本内容,那Hadoop终究长啥样呢?至于装置这边就不介绍了。

Hadoop散布式文件体系

咱们能够在web上看到hadoop的文件体系,其实和咱们的目录没啥不同。

当我们说大数据Hadoop,究竟在说什么?

YARN集群资源管理和使命调度渠道

咱们也能够在浏览器输入指定的地址看到之前都提交过上面样的核算使命。

当我们说大数据Hadoop,究竟在说什么?

至于MapReduce是看不到的,它只是一个核算结构,提交到这个Yarn上。

总结

本文讲解了大数据开发中最流行的软件Hadoop, 它首要分为3部分,管理文件存储的hdfs, 统一管理资源和使命的调度渠道Yarn,以及供给了一种核算引擎MapReduce, 根据这三个”磐石”,能够构建出整个大数据生态。

如果本文对你有帮助的话,请留下一个赞吧

本文正在参加「金石计划 . 分割6万现金大奖」