*作者｜涯海

审阅&校正：白玙

编辑&排版：雯燕*

在陪伴很多企业一起经历事务上云与云上原生之后，咱们能够看到每个企业的运维监控体系建立进程都十分艰辛。这是因为企业事务发展迅速，对 IT 的要求也益发苛刻且杂乱。这不仅仅表现在运维团队架构与工作流程上，也表现在东西选型与渠道建立上。虽然不同阶段不同规划的企业需求面临各种各样现实问题，但仍然有些最佳实践有迹可循，今天咱们好好聊一下东西选型与渠道建立思路与实践要害点。

东西选型与渠道建立必然趋势

要特别阐明的是，监控渠道不是随意下载一个开源监控东西就能够，它需求依据监控的事务特色进行整合与二次开发，以到达与实践事务情况相吻合。经过大量实践后，咱们发现企业普遍存在的监控体系需求与发展方向：

自动识别与收集

云原生带来了跨技能栈与高动态的技能架构。因而面向杂乱多变的被监控环境，收集器尽可能做到对环境的自动识别，对目标的自主收集成为一切的开端。数据都无法收集，怎么监控？

数据管理能力不断强化

云、容器和微服务的呈现使被监控的目标数量增加了几个数量级。当事务飞速发展，面临几亿乃至十亿等级时序数据，咱们该怎么管理？

数据看板体系成为刚需

跟着数据量爆发式增加，传统的线图、直方图、散点图等数据展示方法很难让运维人员找到数据背后的异常或躲藏瓶颈。怎么针对不同事务或许不同监控目标，找到更合适的数据看板以及展示方法，成为了每个运维人员的必修课。

中台纽带效果

跟着技能飞速发展，监控体系在全体运维体系的中台纽带效果越来越显着，运维监控从传统的流程驱动转变为数据驱动。怎么更便捷的与其它很多运维子体系对接整合，也是运维团队在监控体系建立之初需求考虑的问题。

企业监控体系演进历程

结合上述特色，咱们讲企业监控体系的演进历程归纳为以下阶段。

推行期：服务器数量 50～100 台之间

这个阶段因为服务器数量较少、事务规划较小，因而，运维团队对监控的需求也相对简略。能够完成根本的告诉问题、快速定位与解决问题即可。此刻的渠道建立首要是让研发、运维等同学能够逐渐熟悉产品运用，并经过体会和反馈，确认是否满意企业 IT 运维以及事务特征需求，这其间几个要害特色包含：

（1）布置简略，有成熟的文档与服务体系，上手易用；

（2）稳定运转，SLA 保障；

（3）告警体系的告诉方法不必太丰富，但保证相对及时、可用；

（4）低本钱费用或免费。

依据以上需求，很多草创企业可能会挑选 Nagios，Cacti，Zabbix，Ganglia 等开源东西。热门的开源监控产品文档相对完好，可快速上手且有大量企业实践可供参阅。但这儿存在问题就在于开源产品的性能、运用场景无法满意跟着事务场景的发展以及事务量增加，进而呈现各种各样的问题。与此同时，高可用成为丧命问题，毕竟开源社区不会时间有志愿者帮咱们排查毛病。

爆发期：服务器数量 200～1000 台之间

这个阶段因为服务器数量变多、技能架构发生了变化、组件越发丰富，监控需求也开端变得杂乱。但面临很多服务模块或运维体系，咱们需求分批次有序接入，在保证稳定性的前提下，快速上量、统一技能栈。监控体系首要用于告警告诉，发现问题并避免相同问题再次发生。这其间具有几个要害特色：

（1）监控内容汇总与分类

因为监控目标以及信息跟着技能架构与事务规划扩大而增多，需求针对软硬件、事务等不同维度的数据完成全覆盖式监控。并针对不同监控用处，需求对监控进行分类汇总，比如体系根底监控数据、网络监控数据和事务监控数据。尽可能多的监控覆盖，赶快发现重要问题，保证事务稳定运转。

（2）多种告警方法，及时无漏报

依据监控目标的重要程度、紧急程度进行分类，并经过邮件、微信、短信、电话等不同等级不同方法进行告警告诉，每个监控对应到不同责任人，保证每个告警都有人及时跟进处理。

（3）告警战略优化与信息收敛

因为需求监控的服务越来越多，告警信息数量激增，每天都可能收到上千封报警邮件。过多的告警信息就失去了精准奉告的意义。怎么对告警战略进行配置和优化，尽量减少不必要的告警邮件，成为战略设置的中心。

成熟期：服务器数量 1000 台以上

因为事务持续增加，对服务器的需求越来越大，当服务器超越 1000 台今后，意味着中心体系需求悉数接入，并构建新的稳定性保障体系，包含监控大盘、告警告诉、应急值班等。才干保证整个事务与技能大盘的稳定。这其间，需求关注：

（1）监控延时与告警滞后

当事务规划越老越大，因为组件或服务的耦合联系，很可能因为部分的细小毛病导致整个事务体系的瘫痪。因而，及时发现问题成为了一切的大前提。但假设还在挑选时开源产品，这时可能就有不小的费事。以 Zabbix 举例，当规划到达一定量后，有时候会呈现监控数据不能及时显现，告警延时等问题。咱们的确能够经过各种优化方法进行调整。但事务呈现问题而形成的损失并不能挽回。

（2）监控体系自身的 SLA

当收集运维数据飞速增加，监控体系自身的高可用也成为了重要关注点。毕竟，失去了监控体系意味着对整个技能与事务的运转状态失去了操控。

更具性价比的解决计划：运用实时监控服务 ARMS

面临上述不同阶段的痛点，ARMS 成为了最佳的解决计划。与此同时，阿里云推出 ARMS 3.0 普惠计划旨在经过更灵敏的计费计划，协助不同类型的用户在不同运用阶段，以更合理的本钱获取更高性价比的可观测体会。在 2021 年 10 月行将推出的运用监控根底版（按量计费）形式支撑 0 元用：目标免费存储 3 天，调用链根底采样免费存储 1 天，功用与原有根底版保持一致，可按量付费延长存储周期或提高链路采样。概况可参阅运用监控根底版功用列表或产品计费阐明。

依据上述阶段的用户诉求，ARMS 3.0 运用监控推出了配套的灵敏计费战略：

（1）试用期：ARMS 提供新用户 15 天免费运用，全面评估 ARMS 产品与事务符合程度。

（2）推行期：ARMS 提供根底版免费额度，运用监控目标免费存储 3 天，调用链根底采样免费存储 1 天。零门槛无限期运用，不必忧虑推行期间的费用问题。

（3）爆发期：ARMS 根底版支撑按流量计费，能够按需调整指定运用的调用链采样率，或延长存储周期。

（4）成熟期：依据事务流量类型自由挑选按流量计费或按节点计费。

按流量计费，用多少算多少

跟着微服务和 Kubernetes 的遍及，微服务拆分越来越细，单个 Pod 流量越来越小。按节点计费形式就显得不行灵敏，在事务流量不变的情况下，本钱随节点规划快速增加显然不行合理。

为了解决小流量和弹性流量用户的可观测本钱问题，ARMS 3.0 推出了运用监控根底版（按量计费）形式：调用链根底采样免费存储 1 天，付费采样链路依照 0.2 元/(百万条Trace*天) 进行计费，单条 Trace 最多可包含 10 条 Span 调用，超出部分按份额折算。目标数据 3 天内免费，可按需付费延长存储周期，如下表所示。

以 ARMS 某根底版用户为例，该用户创建了约 300 个 Pod，原始调用总量约为 54 亿次/天，调用链采样率为 10%，实践存储量约 5400 万 Trace/天。依照原根底版链路存储1天，目标存储 3 天计算，晋级为按流量计费后费用可节省 90% 以上。

超大流量，按节点计费更合算

一些 ToC 类型的事务流量十分大，而且对问题可追溯的时间跨度要求高，需求长周期存储。此刻，能够挑选 ARMS 专家版按节点计费形式，链路存储 30 天，目标存储 90天，一价全包，费用封顶，更合适大流量中心运用接入。专家版还可享受容器服务 ACK 或 EDAS 用户半价优惠，购买预付费流量包最低可至 1.308 元/(探针*天)，详见 ARMS 产品价格阐明。

常见问题

Q：新老用户怎么晋级至运用监控新根底版（按量计费）形式？

A：2021 年 10 月今后，新用户试用期完毕后，挑选注册根底版，默许进入按量计费形式；存量根底版用户能够在运用监控 -> 运用列表页面上方点击晋级至新计费形式。新根底版链路免费采样依赖 Agent 晋级至 2.7.1.3 版别，能够在运用监控 -> Agent 列表 -> java版别阐明页面挑选对应区域进行下载，arms.console.aliyun.com/#/tracing/a… 。

Q：新根底版（按量计费）默许是免费的吗？免费多久？

A：注册新根底版（按量计费）后，默许是完全免费的，假如不调整存储周期或调用链采样率能够无限期免费运用，十分合适小流量或测试运用接入。

Q：根底版包含哪些功用？与开源和专家版有什么区别？

A：根底版支撑调用链、服务监控、JVM/主机监控、告警等根底 APM 功用，与开源能力根本持平。专家版在内存/线程/异常等确诊方面会有大幅增强，按节点计费，调用链存储 30 天，目标存储 90 天，更合适大流量或中心出产运用。

Q：除运用监控外，ARMS 前端监控、云拨测和 Prometheus 监控是否支撑按量计费？

A：ARMS 前端监控、云拨测和 Prometheus 监控均支撑按量计费，而且能够经过预付费取得优惠扣头，概况请参阅 ARMS 产品价格阐明。

演进实录｜不同阶段的企业如何搭建监控体系？