这是我参加「第四届青训营 」笔记创作活动的的第12天

课程材料

课程链接:live./4354/yc_Dat…

课程PPT:bytedance.feishu.cn/file/boxcnU…

学员手册:/post/713013…

完整手册:bytedance.feishu.cn/docx/doxcnE…

一、企业数据架构

实时数据中心建设思路与企业实践|青训营笔记

  • 企业整体数据架构:根底引擎、数据集成/出产/服务、开发和治理东西
  • 要害模块及数据流向

    • 数据集成

      • 事务数据搜集:数据库变更数据搜集(CDC)、事务日志搜集(事务数据->数据处理体系)

      实时数据中心建设思路与企业实践|青训营笔记

      • 大数据体系内传输:基于Flink丰富的connector体系 (数据体系内)

      实时数据中心建设思路与企业实践|青训营笔记

    • 数据出产:实时和离线出产pipeline (数据体系内)

    实时数据中心建设思路与企业实践|青训营笔记

    • 数据服务:统一数据服务架构(数据体系->事务体系)

    实时数据中心建设思路与企业实践|青训营笔记

二、数据中心事例

实时数据中心建设思路与企业实践|青训营笔记

  • 以房产事务举例说明数据中心建造方针和要求
  • 房产事务介绍:房产服务渠道、经纪人、客户
  • 数据中心核心方针剖析:供需、进程、成果
  • 数据中心查询要求:查询条件、数据成果、技术要求

三、实时数据出产

  • 事例出产计划剖析:数据探查、明确方针口径和产出粒度、出产架构、核算难点
  • 数据探查:剖析数据信息是否齐全,即基于原始数据核算方针可行性
  • 数据架构:lambda架构和全量核算架构比对,确定合适的出产架构计划

实时数据中心建设思路与企业实践|青训营笔记

  • 核算难点处理

    • 全量数据获取:hybrid source

    实时数据中心建设思路与企业实践|青训营笔记

    • 准确核算

      • 去重&更新处理:基于retract机制
      • 乱序问题处理:流join乱序问题计划
    • 核算功率

      • MiniBatch-聚合核算
      • MiniBatch-join

      实时数据中心建设思路与企业实践|青训营笔记

  • 数据质量

    实时数据中心建设思路与企业实践|青训营笔记

    • 使命稳定性:消费LAG、JVM、资源、算子
    • 数据正确性:和离线比对、趋势比对、异常值占比
  • 实时数仓

    实时数据中心建设思路与企业实践|青训营笔记

    • 数据分层:数据复用,削减重复开发
    • 数据办理:格式、元数据

四、数据服务

实时数据中心建设思路与企业实践|青训营笔记

  • 整体架构:查询引擎、查询优化和履行、稳定性、元数据
  • 事例查询计划剖析

    • 如何更快的查询

      • 原始信息挑选和相关功率
      • 核算处理功率
      • 只重视方针所需数据
  • 重视方针信息

    • 列存
  • 原始信息挑选功率

  • 原始信息相关

    • join计划及优化
  • 核算功率

    • 向量化
  • 履行计划优化:RBO、CBO
  • 应用层优化

    • 宽表构建
    • 提高信息密度:bit化、bitmap
  • 查询稳定性

    • 熔断、限流、降级
  • 元数据办理:方针口径办理、查询生成