携手创造，共同生长！这是我参与「日新计划 8 月更文挑战」的第14天，点击检查活动概况

⭐️前面的话⭐️

✉️坚持和尽力一定能换来诗与远方！
引荐书本：《王道408》，《深入理解 Java 虚拟机-周志明》，《Java 核心技能卷》
算法刷题：✅力扣牛客网
Github
码云Gitee

大数据概论

概念

大数据（Big Data）：指无法在一定时间范围内用常规软件东西进行捕捉、办理和处理的数据集合，是需求新处理形式才能具有更强的决议计划力、洞察发现力和流程优化才能的海量、高增长率和多样化的信息资产。

大数据首要处理，海量数据的采集、存储和剖析核算问题。

特点 4V

很多 Volume
- 到现在，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当时，典型个人核算机硬盘的容量为TB量级，而一些大企业的数据量已经挨近EB量级。
高速 Velocity
- 大数据区别于传统数据挖掘的最明显特征。海量数据面前，处理数据的功率就是企业的生命。
多样 Variety
- 分为结构化数据和非结构化数据。
- 非结构化数据越来越多，包含日志、音频、视频、图片、地理位置信息等，多类型的数据对数据的处理才能提出了更高要求。
低价值密度 Value
- 价值密度的高低与数据总量的巨细成反比。
- 怎么快速对有价值数据”提纯“成为现在大数据背景下待处理的难题。

使用场景

抖音：引荐你喜爱的视频
电商：广告引荐，给用户引荐可能喜爱的产品
零售：剖析用户消费习气，为用户购买产品供给方便，然后提高产品销量。经典案例，纸尿布 + 啤酒。
物流仓储：京东物流
稳妥：海量数据挖掘及风险猜测，精准营销，提高精细化定价才能。
金融：帮助金融机构引荐优质客户
房产：精准推测与营销
人工智能 + 5G + 物联网 + 虚拟与实际

发展前景

大数据部分间业务流程剖析

大数据部分内安排架构

Hadoop入门

课程晋级内容
- yarn
- 生产调优手册
- 源码
课程特色
- 新 hadoop 3.1.3
- 细从搭建集群开始每一个装备每一行代码都有注释
- 真 20+企业案例 30+企业调优从百万代码中阅览源码
- 全全套材料
技能根底要求
- JavaSE
- maven
- Idea
- Linux常用命令

1 概述

1.1 是什么

分布式体系根底结构
首要处理，海量数据的存储和海量数据的剖析核算问题
广义上讲，指一个更广泛的概念——Hadoop生态圈

1.2 发展历史（了解）

能够说Google是Hadoop的思维之源（Google在大数据方面的三篇论文)
- GFS—>HDFS
- Map-Reduce —>MR
- BigTable—>HBase

1.3 发行版本（了解）

Apache
Cloudera
Hortonworks

1.4 优势（4高）

高牢靠性：底层保护多个数据副本
高扩展性：在集群间分配任务数据，可方便地扩展数以千计的结点

高效性：并行工作的，以加快任务处理速度

高容错性：能够自动将失利的任务重试

1.5 组成（面试重点）

1.x、2.x、3.x区别

HDFS 架构概述（分布式文件体系）（存储）

Hadoop Distributed File System
处理存储问题

YARN（资源办理器）

Yet Another Resource Negotiator
Hadoop的资源办理器，首要办理CPU和内存

MapReduce 架构概述（核算）

MapReduce将核算进程分为两个阶段：Map 和 Reduce

1）Map 阶段并行处理输入数据
2）Reduce 阶段对Map 成果进行汇总

三者联系

1.6 大数据技能生态体系

图中涉及的技能名词解释如下：

1）Sqoop：Sqoo是一款开源的东西，首要用于在Hadoop、Hive 与传统的数据库 (MySQL) 间进行数据的传递，能够将一个联系型数据库（例如 : MySQL, Oracle 等）中的数据导进到 Hadoop 的 HDFS中，也能够将HDFS的数据导进到联系型数据库中。

2）Flume.：Flllm 是一个高可用的、高牢靠的，分布式的海量日志采集、聚合和传输的体系，Flume 支撑在日志体系中定制各类数据发送方，用于搜集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息体系；

4）Spark：Spark 是当时最盛行的开源大数据内存核算结构。能够根据Hadoop上存储的大数据进行核算。

5）Flink：是当时最盛行的开源大数据内存核算结构。用于实时核算的场景比较多。

6）Oozie：Oozie是一个办理 Hadoop 作业 (job) 的工作流程调度办理体系。

7）Hbase: HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的联系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive 是根据 Hadoop 的一个数据仓库东西，能够将结构化的数据文件映射为一张数据库表，并供给简单的SQL查询功用，能够将SQL语句转换为 MapReduce 任务进行运行。其优点是学习成本低，能够经过类SQL语句快速完成简单的 MapReduce 计算，不用开发专门的 MapReduce 使用，十分适合数据仓库的计算剖析。

9）ZooKeeper：它是一个针对大型分布式体系的牢靠协调体系，供给的功用包含：装备保护、名字服务、分布式同步、组服务等。

1.7 引荐体系结构图

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Hadoop 学习（一）——大数据概论与Hadoop概述