更多技术沟通、求职机会,欢迎重视字节跳动数据渠道微信公众号,回复【1】进入官方沟通群

跟着大数据开发场景下需求运维办理的使命越来越多,在日常运维中开发者常常会面临以下几个问题:

  1. 使命多,依靠关系杂乱:很难查找到重要使命的一切上游使命并进行监控。如果监控一切使命,又会发生许多无用报警,导致有用报警被忽视;

  2. 装备运维本钱高:每个使命的运转状况不一样,许诺完结时刻不一样,如果单独对每个使命设置监控,剖析及人工对齐使命服务级别协议(SLA)本钱非常高;

  3. 报警方式多样性:对于小时级的使命,不同时段的报警及时性要求不同,普通监控无法满意不同时段多样的报警需求。

为了帮助企业开发者更好地解决这一问题,及时平稳完结日常运维、高效保证数据质量,字节跳动数据渠道开发套件数据开发团队自研了基于依靠关系的全链路智能监控报警——基线监控,它能依据使命运转状况,智能决策是否报警、何时报警、怎么报警以及向谁报警,贯穿整条使命产出链路,防止出现环节缺失,保证链路完整性。目前基线监控已在字节跳动内部得到广泛使用,掩盖抖音、电商、广告等 100+个项目,服务级别协议(SLA)使命的基线监控掩盖率超过 80%

当前,该才能已经过火山引擎 DataLeap 向企业开放。企业能够经过火山引擎 DataLeap 的基线监控功用,有效降低监控装备本钱、防止无效报警及报警泛滥。

火山引擎 DataLeap 推出全链路智能监控报警平台

图:火山引擎 DataLeap 监控规模

火山引擎 DataLeap 默认监控的规模包括:基线保证使命及保证使命上游的一切使命。如上图所示,保证使命 D,E 及它们一切的上游节点都会纳入基线监控规模,而使命 C,F 不受基线监控。值得一提的是,火山引擎 DataLeap 的基线监控答应用户装备基线监控只掩盖 “指定项目” 下的使命,此时基线监控的规模就只包含了保证使命及这些项目下的上游使命。

火山引擎 DataLeap 推出全链路智能监控报警平台

图:火山引擎 DataLeap 基线监控全体架构

火山引擎 DataLeap 基线监控全体架构基线办理模块、基线实例生成、基线埋点检测等构成,各模块具体来看:

  1. 基线办理模块:担任基线创立、更新、删除等操作,办理基线元信息,包括保证使命,许诺时刻,余量及报警装备等;
  2. 基线实例生成:火山引擎 DataLeap 每天守时触发生成基线实例,生成实例的同时依据保证使命,由下而上逐层遍历 (BFS)一切上游使命并生成基线监控埋点。

生成基线监控埋点的过程中,火山引擎 DataLeap 会计算每个使命节点的猜测运转时长,许诺时刻,预警时刻,预警最晚开端时刻,许诺最晚开端时刻。此外,火山引擎 DataLeap 会给基线监控使命添加基线犯错/变慢报警规则,当使命执行触发规则后,经过基础报警服务发送基线报警事情;

  1. 监控埋点校验:系统维护一个延迟行列,火山引擎 DataLeap 会依据校验时刻点(预警最晚开端时刻,许诺最晚开端时刻以及破线加剧时刻校验点),同时火山引擎 DataLeap 会守时触发监控埋点校验使命实例运转状况,如果在时刻点实例未运转成功,发生基线预警/破线报警事情,发送报警。

未来,火山引擎 DataLeap 的研发人员将持续针对基线监控进行优化,如基线要害路径剖析、基线实例生成功率优化等,不断提高基线监控算法功能,完善基线链路剖析才能,提升用户体会,向企业级商场提供更强大的全链路监控运营服务。

点击跳转 大数据研发治理DataLeap 了解更多