大数据是企业数字化转型中,支撑企业经营和成绩增加的首要手法之一。而实时化、云原生化现已成为大数据技术发展的必然趋势。

4月18日,火山引擎春季 FORCE 原动力大会在上海举行。在会上,火山引擎发布了云原生大数据实时核算渠道产品——流式核算 Flink 版。脱胎于字节跳动在业界最大规划的实时核算集群实践,流式核算 Flink 产品在比如实时 ETL、实时数仓/湖、实时机器学习、实时风控等场景中均有所探究,协助客户构建云上增加新动力,助力事务敏捷创新。

火山引擎发布流式计算 Flink 产品,助力构建大数据实时计算平台

字节实践 – 日常峰值百亿 QPS

从 2017 年开端,字节跳动开端测验使用 Flink 作为首要的流式核算引擎。在尔后的两年时间,流式核算团队支撑了字节内部实时样本拼接、模型训练和引荐算法实时化等事务,更是完成了公司内 JStorm 作业的 100% 迁移。到 2019 年,字节内部 Flink 的应用敏捷扩大,几乎覆盖包括抖音、头条、西瓜在内的各个产品。与此一起,团队开端积极参与到社区的共建中,在 2020 年李本超同学受邀成为 Apache Flink Committer。近两年,团队在 Flink OLAP 方向也进行了不少探究。在调度、运行时、SQL 等各个方面都进行了全方面的优化,极大提高性能,单集群可支撑 200+ QPS,目前现已在 User Growth、飞书、电商等十多个事务场景落地,每天的查询规划超越 50W 次。

截止目前,根据流式核算 Flink 构建的实时事务场景现已涉及到字节几乎所有的事务和产品,包括实时数仓、实时风控、商业化、电商、游戏、小说、教育、房产、财经等,日常实时峰值超 100 亿 QPS。与此一起流批一体在视频云、实时计数特征、电商、SQL数据同步等场景均得到了广泛的使用和落地,已上线 6K+ Flink Batch SQL 使命。

企业级增强 – 流式核算 Flink 版

火山引擎流式核算 Flink 版依托于字节跳动在业内最大规划实时核算集群实践。火山引擎流式核算 Flink 版根据火山引擎容器服务(VKE/VCI),供给 Serverless 极致弹性,是开箱即用的新一代云原生全保管实时核算渠道。在 100% 兼容开源 Flink 的前提下,深度优化 30+ 企业级产品功能增强,包括以下特性:

  • 开发功率提高。 流式核算 Flink 版支撑算子等级 Debug 输出、Queryable State、Temporal Table Function DDL,在开发功率上对开源版本 Flink 有明显提高。
  • 可靠性提高。 流式核算 Flink 版针对单个 Task 进行 Checkpoint,提高了大并发下的 Checkpoint 成功率。单点使命恢复和节点黑名单机制功能,保障了对故障节点的快速响应,避免事务全体重启。
  • Serverless 云原生架构 极致弹性,1‰ 核精细调度。
  • 易用性增强。 极简 SQL 开发,开箱即用、免运维、支撑流式数据全生命周期管理。
  • 高性能低价格。 高性价比、高 SLA 保证、超低 TCO。

火山引擎发布流式计算 Flink 产品,助力构建大数据实时计算平台
火山引擎流式核算 Flink 产品全体架构

从全体架构而言,Source/Sink 端支撑多种数据存储类型,凭借容器集群基础设施,构建极致弹性与灵活的资源调度渠道;引擎层做到 Runtime & API 在流批一体方面的统一,并经过服务渠道构建智能诊断、自动调优等高阶辅助开发才能。

目前,火山引擎流式核算 Flink 版产品已构成交融核算、存储、智能等多种才能的产品解决方案。在具备跨云及多云才能的一起,将一直坚持大数据技术“云原生化、实时化和智能化” 的发展方向,为企业数字化转型供给的动力