携手创造,共同生长!这是我参与「日新计划 8 月更文挑战」的第14天,点击检查活动概况


⭐️前面的话⭐️

✉️坚持和尽力一定能换来诗与远方!
引荐书本:《王道408》,《深入理解 Java 虚拟机-周志明》,《Java 核心技能卷》
算法刷题:✅力扣牛客网
Github
码云Gitee


大数据概论

概念

大数据(Big Data):指无法在一定时间范围内用常规软件东西进行捕捉、办理和处理的数据集合,是需求新处理形式才能具有更强的决议计划力、洞察发现力和流程优化才能的海量、高增长率和多样化的信息资产。

大数据首要处理,海量数据的采集、存储和剖析核算问题。

Hadoop 学习(一)——大数据概论与Hadoop概述

特点 4V

  • 很多 Volume

    • 到现在,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当时,典型个人核算机硬盘的容量为TB量级,而一些大企业的数据量已经挨近EB量级。
  • 高速 Velocity

    • 大数据区别于传统数据挖掘的最明显特征。海量数据面前,处理数据的功率就是企业的生命。
  • 多样 Variety

    • 分为结构化数据和非结构化数据。
    • 非结构化数据越来越多,包含日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理才能提出了更高要求。
  • 低价值密度 Value

    • 价值密度的高低与数据总量的巨细成反比。
    • 怎么快速对有价值数据”提纯“成为现在大数据背景下待处理的难题。

使用场景

  • 抖音:引荐你喜爱的视频
  • 电商:广告引荐,给用户引荐可能喜爱的产品
  • 零售:剖析用户消费习气,为用户购买产品供给方便,然后提高产品销量。经典案例,纸尿布 + 啤酒。
  • 物流仓储:京东物流
  • 稳妥:海量数据挖掘及风险猜测,精准营销,提高精细化定价才能。
  • 金融:帮助金融机构引荐优质客户
  • 房产:精准推测与营销
  • 人工智能 + 5G + 物联网 + 虚拟与实际

发展前景

大数据部分间业务流程剖析

Hadoop 学习(一)——大数据概论与Hadoop概述

大数据部分内安排架构

Hadoop 学习(一)——大数据概论与Hadoop概述

Hadoop入门

  • 课程晋级内容

    • yarn
    • 生产调优手册
    • 源码
  • 课程特色

    • 新 hadoop 3.1.3
    • 细 从搭建集群开始 每一个装备 每一行代码都有注释
    • 真 20+企业案例 30+企业调优 从百万代码中阅览源码
    • 全 全套材料
  • 技能根底要求

    • JavaSE
    • maven
    • Idea
    • Linux常用命令

1 概述

1.1 是什么

  • 分布式体系根底结构
  • 首要处理,海量数据的存储和海量数据的剖析核算问题
  • 广义上讲,指一个更广泛的概念——Hadoop生态圈

1.2 发展历史(了解)

  • 能够说Google是Hadoop的思维之源(Google在大数据方面的三篇论文)

    • GFS—>HDFS
    • Map-Reduce —>MR
    • BigTable—>HBase

1.3 发行版本(了解)

  • Apache
  • Cloudera
  • Hortonworks

1.4 优势(4高)

  • 高牢靠性:底层保护多个数据副本
  • 高扩展性:在集群间分配任务数据,可方便地扩展数以千计的结点

Hadoop 学习(一)——大数据概论与Hadoop概述

  • 高效性:并行工作的,以加快任务处理速度

Hadoop 学习(一)——大数据概论与Hadoop概述

  • 高容错性:能够自动将失利的任务重试

1.5 组成(面试重点)

  • 1.x2.x3.x区别

Hadoop 学习(一)——大数据概论与Hadoop概述

HDFS 架构概述(分布式文件体系)(存储)

  • Hadoop Distributed File System
  • 处理存储问题

Hadoop 学习(一)——大数据概论与Hadoop概述

YARN(资源办理器)

  • Yet Another Resource Negotiator
  • Hadoop的资源办理器,首要办理CPU和内存

Hadoop 学习(一)——大数据概论与Hadoop概述

MapReduce 架构概述(核算)

MapReduce将核算进程分为两个阶段:Map 和 Reduce

  • 1)Map 阶段并行处理输入数据
  • 2)Reduce 阶段对Map 成果进行汇总

Hadoop 学习(一)——大数据概论与Hadoop概述

三者联系

Hadoop 学习(一)——大数据概论与Hadoop概述

1.6 大数据技能生态体系

Hadoop 学习(一)——大数据概论与Hadoop概述

图中涉及的技能名词解释如下:

1)Sqoop:Sqoo是一款开源的东西,首要用于在Hadoop、Hive 与传统的数据库 (MySQL) 间进行数据的传递,能够将一个联系型数据库(例如 : MySQL, Oracle 等)中的数据导进到 Hadoop 的 HDFS中,也能够将HDFS的数据导进到联系型数据库中。

2)Flume.:Flllm 是一个高可用的、高牢靠的,分布式的海量日志采集、聚合和传输的体系,Flume 支撑在日志体系中定制各类数据发送方,用于搜集数据;

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息体系

4)Spark:Spark 是当时最盛行的开源大数据内存核算结构。能够根据Hadoop上存储的大数据进行核算。

5)Flink:是当时最盛行的开源大数据内存核算结构。用于实时核算的场景比较多。

6)Oozie:Oozie是一个办理 Hadoop 作业 (job) 的工作流程调度办理体系

7)Hbase: HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的联系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive 是根据 Hadoop 的一个数据仓库东西,能够将结构化的数据文件映射为一张数据库表,并供给简单的SQL查询功用能够将SQL语句转换为 MapReduce 任务进行运行。其优点是学习成本低,能够经过类SQL语句快速完成简单的 MapReduce 计算,不用开发专门的 MapReduce 使用,十分适合数据仓库的计算剖析

9)ZooKeeper:它是一个针对大型分布式体系的牢靠协调体系,供给的功用包含:装备保护、名字服务、分布式同步、组服务等。

1.7 引荐体系结构图

Hadoop 学习(一)——大数据概论与Hadoop概述