作者:晟白

随着行业不断开展,大数据&AI也逐步呈现云原生化的趋势。杂乱的事务场景及其背面涉及到的不同技能方向的开源和自研,使得产品运维面对技能杂乱度高、规模大、场景多等挑战。

阿里巴巴云原生大数据运维渠道 SREWorks,沉积了团队近10年经过内部事务锻炼的 SRE 工程实践,今日正式对外开源,秉承“数据化、智能化”运维思维,帮助运维行业更多的从业者选用“数智”思维做好高效运维。

一 SREWorks 是什么?

谷歌在2003年提出了一种岗位叫做 SRE (Site Reliability Engineer,站点可靠性工程师),它是软件工程师和体系办理员的结合,注重运维人员的开发才能,要求运维日常小事在50%以内,另外50%精力开发主动化东西削减人力需求。

SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专心于以使用为中心的一站式“云原生”、“数智化”运维 SaaS 办理套件,供给企业使用&资源办理及运维开发两大中心才能,帮助企业完成云原生使用&资源的交给运维。

阿里云大数据 SRE 团队天然接近大数据和AI,对大数据&AI技能非常熟悉,且具有随取随用的大数据&AI算力资源,一向努力饯别“数据化”、“智能化”的运维理念,行业里的 DataOps(数据化运维)最早由该团队提出。SREWorks 中有一套端到端的 DataOps 闭环工程化实践,包含标准的运维数仓、数据运维渠道、运营中心等。
随着云原生年代大趋势的到来,阿里云大数据 SRE 团队将SREWorks运维渠道开源,期望为运维工程师们供给开箱即用的运维渠道。

二 SREWorks 有什么优势?

回归到运维范畴的需求,不管上层产品和事务形态怎样改动,运维本质上处理的仍是“质量、成本、功率、安全”相关需求。SREWorks 用一个运维 SaaS 使用界面来支撑上述需求,一同以“数智”思维为内核驱动 SaaS 才能,详细包含交给、监测、办理、操控、运营、服务六部分。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

体系化运维渠道分层架构

从“质量、成本、功率、安全”四个维度动身看运维本质相关作业,运维除了要搭渠道、建标准、做标准,还要用主动理念提高功率,用数据驱动测验/开发/运维,用智能手法提前发现/猜测风险问题等。这些能够看成是方法论。怎么能从理论快速取得一套体系化、工程化、产品化的才能实践,去支撑满足上述四个维度的需求,就是 SREWorks 所考虑的问题。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

阿里云大数据 SRE 团队使用分层思维构筑了 SREWorks 渠道产品体系,学习经典 SPI(SaaS/PaaS/IaaS)三层划分思路,SREWorks 由“运维 SaaS 使用场景层、运维 PaaS 中台服务层、运维 IaaS 接入层”三部分构成。

SREWorks 中还融入了运维标准、标准化思维,使用产品承载主动化流程、数据驱动、智能内核的方法论。从代码到线上事务服务的整个过程,运维或多或少地参加了其间一些作业,因而,环绕使用的生命周期,在SaaS场景层划分了“交给、监测、办理、操控、运营、服务”六大区。如下图所示,每块内容里都有代表性的中心功用。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

SREWorks 中一致以使用抽象来描绘事务体系,在开发人员将研发完成的使用制品交给上线后,就会对线上使用实例生命周期进行监测、办理、操控。SREWorks所拥有的运维数据才能会供给增值化的运营、服务,为有需求的人员供给快捷的视图、办理才能等。

“交给、监测、办理、操控、运营、服务”六大场景在SREWorks产品手册中有详细的定义及边界阐明。

完好的数据化运维体系实践

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

一套数据化运维体系,会把一切体系的运维数据悉数采集起来、真实打通,并深度发掘这些数据的价值,为运维供给数据决议计划;一同构建数据化运维事务模型,根据该模型树立标准化运维数仓,建造数据运维渠道,在渠道中标准运维数据的采集、存储、核算及剖析,并供给一系列数据化服务,供上层运维场景使用。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

有了运维相关的量化数据,对运维作业的描绘和衡量将更加立体化,能够树立长期可继续优化的运维作业形式,完成真实的运维价值。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

服务化的 AIOps 智能运维渠道

在阿里云大数据 SRE 团队看来, AIOps 的呈现并没有改动运维的表现形式,仍旧仍是“交给、监测、办理、操控、运营、服务”的界面,仅仅在很多运维数据化作业的基础之上,使用AI才能探究、发掘智能化运维场景。因而,在一开始构筑 AIOps 工程实践时,就坚持打造“感知、决议计划、执行”的闭环,类似主动驾驶的理念。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

SREWorks将量身定制的算法与运维场景化结合,能够提前猜测、关联剖析,增强风险防备、毛病定界定位才能,完成传统手法无法取得的运维价值。详细而言,将每一个智能化的运维服务包装成感知的“监测器”、决议计划的“剖析器”、执行的“战略器”,供健康办理、变更办理等系列服务调用,即可增强已有运维场景,处理一些一般手法无法处理的问题。

运维中台化、低代码化及云原生化运维开发体会

SREWorks 套件本身也是云原生化的使用,并且选用运维中台思维构建,在中台里构建很多的PaaS 化运维服务才能,在前台环绕“交、监、管、控、营、服”六大场景供给SaaS 化运维场景使用。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

大部分页面为企业后端操控台类体系,不太需求很帅炫的交互设计,故而,运维开发范畴的前端开发始终难于追赶前端盛行趋势。针对这些特征,SREWorks 立异性地设计了一套 Serverless 体会的前端开发形式。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

三 为什么要开源?

阿里云大数据 SRE 团队之前在多次技能分享时要点介绍过“DataOps、AIOps”的才能,但都是纯理论层面的介绍。详细在 SRE 范畴,到底在工程实践上完成这一套理论?对运维的需求、界面、内核这三层的了解怎么落地?
为了把数据化、智能化这套数智内核故事讲明白,阿里云大数据 SRE 团队将具有低门槛、高功率特征的云原生运维渠道SREWorks开源出来。
他们坚定地认为,运维团队更需求拥抱云原生,只有这样,运维才能在云原生浪潮下找到一席之地。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

该团队也期望, SREWorks 的开源,能让更多从业者使用“大数据和AI”的才能做好运维,完成“数据+智能”的运维渠道内核
据介绍,SREWorks背靠阿里云核算渠道系列“大数据&AI”产品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,开源版中相同选取了这些产品对应的开源版别,比如开源版 Flink、Elasticsearch 等。

后续规划

SREWorks渠道现在每个月会进行一次迭代开发使命,后续将由版别办理员一致维护合入相关功用及问题修正等内容,以确保最新的云原生化运维才能继续进入后期版别中。

当前, SREWorks 中有一套 OAM(Open Application Model)标准的工程化实践,能够把该实践看成是 SREWorks 的中心引擎。环绕该引擎,SREWorks团队建造了系列运维中台服务,包含主动化、数据化、智能化才能,之后也将跟从社区 OAM 标准的开展,继续迭代。

写在最终

今日 SREWorks 的开源仅仅迈出的一小步,非常期待得到开发者的反馈。SREWorks中也设计了插件化扩展才能,欢迎使用 SREWorks 来打造归于自己的运维渠道。最终,假如您对 SRE、DataOps、AIOps 或云原生等范畴有爱好,都能够参加到我们的建造中来,这将是我们极大的侥幸,一同交流,一同打造最具特征的 SRE 云原生运维渠道!

项目地址:github.com/alibaba/sre…\

还有了解更多大数据&Al开源项目:
www.aliyun.com/activity/bi…