1 数据剖析渠道的挑战

在智能数据年代多样性运用、海量数据、实时处理对数据渠道提出挑战

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

数据运用快速发展,现阶段主要对立是数据的供需对立

数据渠道建造重心转向支撑事务运用上线,现阶段的主要对立是

数据渠道无法满意事务部分日益增长的==数据消费==需求的无法处理多样化==数据供应==之间的对立

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

1.1 当前典型的数据架构

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

1.2主要痛点

  • 七国八制,组件多,开发方式不一致,数据格局不一致,需求重复转化;
  • 组件间数据流转开发杂乱,流转效率不高;跨集群,跨组件数据一致性差;
  • 依赖于Oracle供给实时数据接入和交互式查询,剖析的扩展性差;

1.3 GaussDB(DWS)全体处理方案

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

1.3.1 处理思路:

—套架构支撑实时、此量和交互式查询

与Kafka/Flink等组件联合供给批比流合—才能 与Hadoop、OBS联合供给历史数据存储、归档、数钢交流和查询才能

1.3.2周边配套的云服务:

数据接入: Kafka:做流式弋规接入; DRS:从事务数据库中实时同步增量数据; CDM:从事务数据库或者文本数据同步批量数据。

数据存储: DWS本地存储:数据有存储在DWS的数据盘; HDFS:与大数MRS配合方案时,大数据加口工后的数据能够运用DWS表面方式读取; OBS:大量数热导入到DWS时,能够先放到OBS上,再以DWS表面方式写入到DWS;或者是历史数据能够归档到OBS中,运用是能够以DWS表面方式读取。 数据办理: DAYU:做数据加工、数据办理、事务调度。

数据展示: BI东西:专业BI东西能够运用严选中的永洪、帆软。

2GaussDB(DWS)怎么支撑实时、批量和交互式查询的

2.1 GaussDB(DWS)产品策略:一套架构支撑实时、批量和交互式查询

产品方针:围绕==企业级内核==(高功能,高扩展,高可用,交融剖析,智能运维)、==实时剖析==、==云原生==三大方向构筑业界第一数据仓库关键竞争力:

  • 架构归一:一套架构支撑规范数仓、实时数仓、云数仓,支撑一站式实时、批量和交互式查询
  • 业界首创:实时数仓、2048节点大集群、逻辑集群(流程IT)
  • 持续抢先:大规模集群(G行,480节点上线)、功能抢先,非对称容灾(RTO<30min)、在线扩容、Cloud-Native运维

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

2.2 GaussDB(DWS)实时处理技能:实时数据接入+实时剖析

方案价值 实时数据接入:支撑lot数据接入和买卖数据实时接入,lot时序数据接入10w/s/节点,流数据接入60w/s/节点; 数据更新秒级同步:买卖数据实时接入,支撑增删改数据 实时数据和维度数据、历史数据相关剖析:实时数仓能够存储维度数据、历史数据,并支撑相关剖析,负载阻隔。 关键技能 数据复制:买卖数据实时接入,支撑增删改数据 流引擎:流数据接入、持续计算

时序引擎:时序数据接入、实时兼并

Delta引擎:微批数据接入、实时兼并

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

运用举例:

某国有稳妥实时体系:40+节点,~500TB数据,3W+表分钟级实时接入,全体替换掉100+单机SQL server库。

2.3 GaussDB(DWS)批量处理技能:高功能+大集群

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

运用举例:

某国有大行EDW体系:480节点,3PB+数据,3W+批处理作业

2.4 GaussDB(DWS)交互式查询技能

中心问题:怎么处理高并发点查询;怎么怎么处理Adhoc杂乱SQL;怎么避免烂SQL搞跨整集群

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

分布式查询优化中心技能

  • 分布式查询重写: 30+查询重写技能,10+项分布式查询重写,查询重写相关专利4篇
  • 分布式查询优化:依据Poisson的预算模型、大局/单点cOst预算模型
  • —健式SQL调优:简易SQL调优

反常资源实时监控中心技能

  • 运转态实时视图:实时监控运转状态和资源消耗
  • 依据规则的反常资源实时监控

运用举例

某国有大行剖析师渠道:480节点,3PB数据,每天支撑10w+笔查询,1w+剖析师。

3 实时、批量和交互式查询一站式剖析的开发实践及案例

3.1 GaussDB(DWS)一站式技能负载感知的优化执行技能,完结多种负载混合办理

多种技能提高混合负载并发才能 1.优化器动态感知体系负载,依据资源情况生 成最优执行方案。

  1. CN行列操控大局并发,资源池行列操控局部 并发,运用资源池优先级办理混合负载杂乱场景。
  2. 分时复用机制,限额配额分酉配机制确保资源 的阻隔的基础上完结充沛运用。
  3. 快慢车道完结杂乱查询和简单查询的混合运 行。
  4. 资源限额确保资源绝对阻隔,资源配额确保 体系充沛运用。

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

3.2 GaussDB(DWS)—站式技能逻辑集群,支撑多事务一致办理和阻隔,完结纵向扩展

在企业传统的数据剖析体系中,各体系烟囱式建造、资源无 法池化同享,各个事务分散部署,缺少统—办理。

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

将不同用户的数据存放在不同的物理节点组(逻辑集群),元数据统―办理,完结数据共桌的同时完结资源的绝对阻隔。

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

3.3 GaussDB(DWS)—站式技能交融剖析,互联互通,支撑直接读写HDFS/OBS数据

多种互联互通:

  • 经过Extension Connector和Oracle、Hive等数据源互联互通
  • 经过FDW表面机制完结和HDFS、oBS数据读写,支撑HDFS表面、OBS表面、MPP表面
  • HDFS表面支撑ORC/txt/csv/Parquet文件格局,OBS表面支撑ORC/txt/csv文件格局

运用通明,兼容规范SQL:

  • 规范ANSI SQL2003
  • 规范开发接口JDBC、ODBC
  • 支撑SQL2003规范拜访HDFS、OBS

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

3.4 场景一:分时复用资源,完结实时、交互式查询一站式

资源池行列完结资源阻隔与负载办理,处理事务中心痛点:

  • 事务高峰期,批量作业一启动,实时查询大量排队等候,影响运用
  • 某事务部分上线烂SQL,吃光一切体系资源,影响其他部分正常运用
  • 多ISV合作,互相抢占集群资源,影响作业功能目标
  • 运用资源池分时方案,合理规划不同类型作业执行时刻,充沛运用体系资源

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

3.5 场景二:多逻辑集群完结实时、批量、交互式查询的库内数据流转

体系特色

  • 在一套集群内,规划不同的节点,分别承载实时数据接 入,批量处理以及高并发查询
  • T+0数据接入实时集群,供给实时剖析和微批运算
  • T+0数据依据时刻戳,选用Insert into … Select的方式守时导入到批量集群
  • 批量计算后的剖析汇总数据依据时刻戳,选用Insert into … Select的方式守时导入到交互式查询逻辑集群

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

优缺点剖析

  • 体系资源彻底阻隔,各事务可无干扰并行运转
  • 数据同步可运用SQL,便利高效,不需求额定数据存储空间
  • 数据同步需拷贝数据

3.6 场景三:多集群互联互通,分别承载实时、批量、交互式查询,完结集群间数据流转

体系特色

  • 规划不同的物理集群,分别承载实时数据接入,批量处理以及高并发查询
  • T+0数据接入实时集群,供给实时剖析和微批运算
  • 实时集群T+0数据依据时刻戳,选用OBS表面导出的方式导出 到OBS,批量集群选用OBS表面导入的方式导入到批量集群
  • 批量计算后的剖析汇总数据依据时刻戳,选用OBS表面导出的方式导出到OBS,查询集群选用OBS表面导入的方式导入交互式查询逻辑集群
  • GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

优缺点剖析

  • 体系资源彻底阻隔,各事务可无干扰并行运转
  • 数据同步可运用SQL,便利高效
  • 需求规划表面,并有额定空间存储同步数据

3.7 典型案例(RY)︰批量与查询事务一站式

按照数仓规划模型,将事务数据加工链路映射至读写分离的逻辑集群

  1. 事务范畴需求加工,清洗,汇总的贴源数据、明细 数据,从数据湖直接抽取入库批量逻辑集群
  2. 公共维数据,从数据湖抽取到批量和查询逻辑集群
  3. 在批量集群中进行目标计算、汇总计算,加工成各 类目标维数据、集巿数据
  4. 面向事务对象萃取标签(事实规则类、统计类、算 法类)汇总数据,经过ETL导入到查询逻辑集群。
  5. 剖析师、事务人员从查询逻辑集群中进行联机剖析

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

3.8 典型案例(SD城商)︰一套体系分时完结批量和交互式查询

体系特色:混合负载

批量作业和实时查询,集群规模:12节点 4*12DN,5CN 数据量12OT+

**批量体系 **完结数据归档,数据加工,五大会计报表作业,共17W/天

  1. 数据归档,xx家商业银行,xxx家村镇银行的曰增量数据 批量入库,每日23:00 — 1:00;

  2. 数据加工,中心作业7W个2h内加工完结。

实时体系 手机银行终端724小时实时查询事务

  1. 个人用户量1xxxW+,企业用户量xxW+,买卖量xxxW+ 笔/天,并行日间批量作业10W+个;
  2. 实时查询在批量高峰期3s内呼应,跑批和实时作业互不 影响。

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

4一站式剖析的未来规划

4.1 GaussDB(DWS)云数仓,依据云存储完结冷热数据,跨集群数据同享,数据同步

依据本地盘进行功能加快,OBS作为冷数据区、同享交流区,备份数据区,完结一体化的数据仓库

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

4.2 GaussDB(DWS)云数仓,依据云存储完结跨集群数据同享

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

关键技能:

  • 文件级多版别,完结多集群读写不抵触依据云存储完结一份
  • 数据跨集群同享拜访,并确保数据一致性

4.3 GaussDB(DWS)云数仓,依据云存储完结跨集群数据同步

GaussDB(DWS)怎么完结实时,批量和交给式查询一站式开发

关键技能

  • 单SQL完结跨集群数据同步,通明拜访
  • 流水线文件读写,异步传输,功能高;