携手创造,共同生长!这是我参与「日新计划 8 月更文挑战」的第14天,点击检查活动概况
⭐️前面的话⭐️
✉️坚持和尽力一定能换来诗与远方!
引荐书本:《王道408》,《深入理解 Java 虚拟机-周志明》,《Java 核心技能卷》
算法刷题:✅力扣牛客网
Github
码云Gitee
大数据概论
概念
大数据(Big Data):指无法在一定时间范围内用常规软件东西进行捕捉、办理和处理的数据集合,是需求新处理形式才能具有更强的决议计划力、洞察发现力和流程优化才能的海量、高增长率和多样化的信息资产。
大数据首要处理,海量数据的采集、存储和剖析核算问题。
特点 4V
-
很多 Volume
-
高速 Velocity
- 大数据区别于传统数据挖掘的最明显特征。海量数据面前,处理数据的功率就是企业的生命。
-
多样 Variety
- 分为结构化数据和非结构化数据。
- 非结构化数据越来越多,包含日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理才能提出了更高要求。
-
低价值密度 Value
- 价值密度的高低与数据总量的巨细成反比。
- 怎么快速对有价值数据”提纯“成为现在大数据背景下待处理的难题。
使用场景
- 抖音:引荐你喜爱的视频
- 电商:广告引荐,给用户引荐可能喜爱的产品
- 零售:剖析用户消费习气,为用户购买产品供给方便,然后提高产品销量。经典案例,纸尿布 + 啤酒。
- 物流仓储:京东物流
- 稳妥:海量数据挖掘及风险猜测,精准营销,提高精细化定价才能。
- 金融:帮助金融机构引荐优质客户
- 房产:精准推测与营销
- 人工智能 + 5G + 物联网 + 虚拟与实际
发展前景
大数据部分间业务流程剖析
大数据部分内安排架构
Hadoop入门
-
课程晋级内容
- yarn
- 生产调优手册
- 源码
-
课程特色
- 新 hadoop 3.1.3
- 细 从搭建集群开始 每一个装备 每一行代码都有注释
- 真 20+企业案例 30+企业调优 从百万代码中阅览源码
- 全 全套材料
-
技能根底要求
- JavaSE
- maven
- Idea
- Linux常用命令
1 概述
1.1 是什么
- 分布式体系根底结构
- 首要处理,海量数据的存储和海量数据的剖析核算问题
- 广义上讲,指一个更广泛的概念——Hadoop生态圈
1.2 发展历史(了解)
-
能够说Google是Hadoop的思维之源(Google在大数据方面的三篇论文)
- GFS—>HDFS
- Map-Reduce —>MR
- BigTable—>HBase
1.3 发行版本(了解)
- Apache
- Cloudera
- Hortonworks
1.4 优势(4高)
- 高牢靠性:底层保护多个数据副本
- 高扩展性:在集群间分配任务数据,可方便地扩展数以千计的结点
- 高效性:并行工作的,以加快任务处理速度
- 高容错性:能够自动将失利的任务重试
1.5 组成(面试重点)
-
1.x
、2.x
、3.x
区别
HDFS 架构概述(分布式文件体系)(存储)
- Hadoop Distributed File System
- 处理存储问题
YARN(资源办理器)
- Yet Another Resource Negotiator
- Hadoop的资源办理器,首要办理CPU和内存
MapReduce 架构概述(核算)
MapReduce将核算进程分为两个阶段:Map 和 Reduce
- 1)Map 阶段并行处理输入数据
- 2)Reduce 阶段对Map 成果进行汇总
三者联系
1.6 大数据技能生态体系
图中涉及的技能名词解释如下:
1)Sqoop:Sqoo是一款开源的东西,首要用于在Hadoop、Hive 与传统的数据库 (MySQL) 间进行数据的传递,能够将一个联系型数据库(例如 : MySQL, Oracle 等)中的数据导进到 Hadoop 的 HDFS
中,也能够将HDFS的数据导进到联系型数据库中。
2)Flume.:Flllm 是一个高可用的、高牢靠的,分布式的海量日志采集、聚合和传输的体系,Flume 支撑在日志体系中定制各类数据发送方,用于搜集数据;
3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息体系;
4)Spark:Spark 是当时最盛行的开源大数据内存核算结构。能够根据Hadoop上存储的大数据进行核算。
5)Flink:是当时最盛行的开源大数据内存核算结构。用于实时核算的场景比较多。
6)Oozie:Oozie是一个办理 Hadoop
作业 (job) 的工作流程调度办理体系。
7)Hbase: HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的联系数据库,它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive 是根据 Hadoop 的一个数据仓库东西,能够将结构化的数据文件映射为一张数据库表,并供给简单的SQL查询功用,能够将SQL语句转换为 MapReduce 任务进行运行。其优点是学习成本低,能够经过类SQL语句快速完成简单的 MapReduce 计算,不用开发专门的 MapReduce 使用,十分适合数据仓库的计算剖析。
9)ZooKeeper:它是一个针对大型分布式体系的牢靠协调体系,供给的功用包含:装备保护、名字服务、分布式同步、组服务等。
1.7 引荐体系结构图