近日,在云才智推出数据可视化编列渠道FlyFish后,又重磅推出开源运维办理渠道OMP(Operation Management Platform)。这款由云才智自主规划与研发,集轻量级、聚合型、智能运维为一体的归纳办理渠道,具备纳管、布置、监控、巡检、自愈、备份、恢复等功用,可为用户供给便捷的运维才能和事务办理,在进步运维人员等作业效率的一同,也提高了事务的连续性和安全性。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

GitHub地址: github.com/CloudWise-O…

Gitee地址:gitee.com/CloudWise/O…

为什么云才智要推出这款功用如此强大的开源运维办理渠道OMP呢?让咱们来听听该项目担任人云才智技能总监Simon的心声:“咱们想把云才智在智能运维范畴所积累十余年的立异实践经验,以开源的方法赋能给广阔的开发者,经过OMP来真实处理运维人的痛点,让运维作业可以更简略与高效,未来咱们期望与行业内一切人一同来推动AIOps社区的发展。”

OMP的初衷:切实处理运维痛点

在数字化转型如火如荼的当下,公司项目与产品都在快速迭代升级。这对软件开发者与客户一线驻守的工程师,在快速装置、快速定位、主动剖析、监控告警、毛病自愈等方面,都提出了新的需求和挑战。

比如当遇到主机登陆不统一的问题时,有的客户答应SSH直连,有的客户需求跳板机,有的客户却只答应显示器操作。产品上线后往往短少成熟的保障机制,假如没有精准的监控、告警、自愈体系,一旦遇到反常或毛病将会非常被动,很难快速处理问题。 甚至在产品依据前期的规划布置后,因为短少定期的巡检及剖析,运维人员难以快速掌握当前事务体系的运行状况及事务处理才能从而给出优化计划。

以上的这些问题是咱们经过多方调研了解到运维人员常会遇到的作业场景,以下是咱们简略总结的运维痛点:

  • 主机环境多样性,难以统一办理。如混合云、私有云、跨IDC、虚拟化、容器化等;
  • 事务改变难度较大,主动编列才能较低;
  • 事务监控多渠道难以完成数据联动;
  • 事务出现反常难以完成毛病自愈;
  • 事务运行状况难以进行评价与剖析;
  • 运维常识匮乏,短少专家指导及专家处理计划。

为了切实帮助运维人员处理以上运维痛点,云才智以下降交付难度与提高产品的可保护性的规划初衷,打造了OMP(运维办理渠道),该渠道目前具有主机纳管、使用办理、使用监控、状况巡检等中心特性。

OMP中心特性

主机纳管

可纳管一切主机资源,并实时监控主机运行状况,支撑在线办理。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

使用办理

供给常用基础组件、使用服务及符合规范的自研产品,支撑装置布置、改变发布、弹性扩缩容、在线配置优化等服务状况办理。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

使用监控

包括规范监控、定制监控、链路监控、智能监控等多种事务场景,可经过大数据智能测算,感知未来趋势,将反常控制在发生前。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

状况巡检

定期进行事务目标、运行状况汇总,可按需主动履行并发送报告。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

以上这些特性规划源自云才智多年深耕于运维范畴所获的立异理念,更有为广阔客户供给专业服务的实践经验。OMP优异的不止有搭载云才智高精技能与算法的特性,还有中心技能架构。

OMP中心技能架构

如下面OMP架构图所示,OMP前端根据Ant Design规划的React结构,后端使用Django结构,集成SaltStack等组件,完成基础功用。Agent端经过saltstack agent端完成对服务的装置管控,并自研monitor agent完成对数据的目标收集。

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

其间监控组件采用了当前比较流行的Prometheus、Grafana、AlertManager、Loki等开源产品。在数据储存方面,OMP使用了MySQL存储耐久数据,Redis用于存储暂时数据、缓存及简略的音讯队列。

OMP未来开源计划

在进一步完善OMP技能架构与中心特性的立异实践中,咱们也发现仅有这些特性与功用,或还不足以支撑广阔开发者对运维的一切需求,因此咱们仍在持续开源着OMP其他功用,比如以下这些模块,请我们拭目以待的一同,欢迎给咱们提出宝贵的开发主张。

毛病自愈: 当事务体系出现反常或毛病时,按照预定的自愈策略进行毛病治理,极大下降毛病对事务影响,减少企业丢失。

备份/恢复: 针对中心数据进行备份异地并主动履行并发送备份,到达异地+异地的存储作用,使用户数据足够安全。

精简东西: 搭建运维常用东西、指令、脚本、SQL等,下降误操作及技能门槛,可按需自行保护与扩大东西,为日常运维供给便利。

常识文库: 积累运维常用技能、处理计划、事务功用等常识,按需自行保护并扩大常识内容。

小智解答: 当需求如操作文档、处理计划、常用技能等内容时可快速检索,当需求技能支撑时,可申请人工支撑。

开源社区加快立异

自本年8月份云才智建立AIOps社区以来,社区先后共享了数据可视化编列渠道-FlyFish、云服务办理渠道-摩尔渠道、Hours算法以及智能运维开源数据集-GAIA数据集等产品,FlyFish开源一周便斩获我国开源云联盟2021优异开源项目奖。

未来,云才智将在AIOps社区中愈加注重OMP的立异与推广,与广阔用户、研究者、开发者一同建造和谐、容纳、开放的OMP开发者社区。