作者：格鲁、楚乔

一、项目布景

当时云音乐中心目标，绝大多数由数据仓库团队供给数据支撑。数据质量系统规范的评价，依托网易数帆数据开发管理渠道的数据质量中心（简称：dqc）功用。在目标异动的监控运用方面，首要经过事前规矩设定、事中使命监控、事后反常触达等过程，完成数据质量的全链路监控。其精确性，强依靠于人工阈值设置的合理性，而在事务开展的不同阶段或时刻周期下，目标的动摇趋势形态、特色往往是不同的，人工阈值缺少普适性。归纳来看，现有监控方法存在以下缺乏：

缺少灵活性：阈值设置太宽，简略漏报；设置太紧，误报严峻。
无法感知事务的动态改变：如：缓慢持续改变趋势、节假日效应等。

二、项目思路和计划

dau作为云音乐中心KPI目标，本文计划的选型、可行性评价，以云音乐dau目标作为试点运用事例。在dau目标改变方面，dqc存在无法及时、精确感知目标反常。如：在21年某月设置的动摇阈值，在22年上半年误报率十分高，被迫调整阈值以适应改变；在2022年X月底，某端dau呈现持续缓慢下降的趋势，现有dqc无法感知。

2.1 目标

更精确：进步目标异动发现的精确性
更科学：进步目标异动监测的科学性
易复用：可快速复用到其他事务和目标

2.1 行业事例

在目标反常发现方面，业内有较多的运用产品，详细如下：

公司	美团外卖	腾讯Metis	百度运维部	滴滴出行	阿里巴巴	美团AIOps
年份	2017年4月	2017年8月	2017年9月	2017年9月	2018年9月	2020年10月
技能结构	直接检测	直接检测	先分类，再检测	先分类，再检测	先分类，再检测	先分类，再检测
选用技能	固定阈值、 Holt Winters	3 sigma、 EWMA、多项式模型、 XGBoost	固定阈值、同环比模型、决策树	智能阈值、同环比模型、 Holt Winters、残差概率密度	N Sigma、孤立森林	XGBoost

2.2 技能选型

2.2.1 可选计划

（1）3-sigma

原理

3准则又称为拉依达准则, 3原理能够简略描述为：若数据服从正态分布，则反常值被定义为一组成果值中与均匀值的偏差超越三倍规范差的值。即在正态分布的假设下，距离均匀值三倍之外的值呈现的概率很小，因此可认为是反常值。

限制
- 3准则限制于正态或近似正态分布的样本数据，以丈量次数充沛大为前提（样本>10），当丈量次数少的情形用准则剔除粗大误差是不够可靠的。

（2）Holt Winters

原理

常见时刻序列数据处理算法有全期均匀法、移动均匀法、指数滑润法。简略的全期均匀法是对时刻数列的曩昔数据悉数加以同等使用；移动均匀法则不考虑较远期的数据，并在加权移动均匀法中给予近期数据更大的权重；而指数滑润法则兼容了全期均匀和移动均匀所长，不放弃曩昔的数据，可是仅给予逐步减弱的影响程度，即跟着数据的远离，赋予逐步收敛为零的权数。

据滑润次数不同，指数滑润法分为：一次指数滑润法、二次指数滑润法和三次指数滑润法等。一次指数滑润法针对没有趋势和季节性的序列，二次指数滑润法针对有趋势但没有季节性的序列，三次指数滑润法针对有趋势也有季节性的序列。

限制
- 指数滑润法是一种时刻序列猜测方法，其猜测根据来源于历史数据，对营销活动引起需求改变无法感知。
- 不管是否自适应，指数滑润法都较难找到最优的指数滑润系数参数，对需求改变的调整存在滞后性，无法对一定时刻内需求骤变进行猜测。

（3）XGBoost

原理

XGBoost是Boost系列算法中的一员，Boost根本思想在于经过多个简略的弱分类器，构建出精确率很高的强分类器。简略地来说，XGBoost每一步都发生一棵练习好的CART子树，一棵子树处理一个数据特征维度，终究将一切子树的成果加权计算得到终究的猜测。

限制
- XGBoost作为监督算法，练习数据集有必要存在标签列。
- 算法参数多，调参复杂，需求对XGBoost进行众多调试才能发挥XGBoost优势。

2.2.2 评价目标

召回率（Recall）：表明原始样本数据的反常点有多少被算法猜测正确。
精确率（Precision）：表明算法猜测为反常的点中有多少是真正的反常点。
正确率（Acc）：表明算法猜测当时数据点是否反常的正确率。
F1-score：召回率和精确率的归纳目标，越高表明算法体现越好。

2.2.3 数据集

200个原始数据，其间反常点个数为19个。目标趋势如下，其间标示圆点为反常点。

2.2.4 评价战略

运用dqc的计算逻辑进行猜测，其间7日环比改变率超越5%认为是反常点
运用3 sigma的计算逻辑进行猜测
运用holt winters算法进行猜测，其间输入数据为20210401到当日全量的dau
运用XGBoost算法进行猜测，其间XGBoost算法的输入数据为单个特征（dau时刻序列数据）
运用XGBoost算法进行猜测，其间XGBoost算法的输入数据为7个特征（7个连续dau数据一组）

2.2.5 评价定论

数据成果

算法/度量	Recall	Precision	Acc	反常点	猜测点	漏报	错报
dqc	26%	11%	72%	19	5	14	41
3sigma	11%	50%	91%	19	2	17	2
holt winter	84%	47%	90%	19	16	3	18
xgboost	84%	55%	92%	19	16	3	13
xgboost（多特征）	89%	81%	97%	19	17	2	4
交融算法	100%	53%	92%	19	19	0	15

可视化成果

XGBoost算法的体现明显优于dqc、Holt Winters等算法，能找出最多的反常点并且错报最少。
- dqc虽然能找出部分反常点，可是在固定阈值时错报率太高；实际运用时假如挑选较为小的阈值将会经常错报，假如设置较大阈值将会漏报。
- 3sigma找不到反常点，也不进行报错，可能需求用其他阈值（非3sigma）。
- Holt Winters算法虽然找出了大部分反常点（Recall高），可是错报率也稍高（Precision低），并且需求一定的数据才能猜测精确，上限低。
- XGBoost算法找出了大部分反常点，错报率低。其间两个XGBoost算法运用了不同数量的特征，运用多特征的xg算法体现优于单特征XGBoost算法，表明XGBoost算法上限高，能够运用更多的相关特征来进步XGBoost算法。
- 交融算法找到了一切反常点，可是错报率相对进步。
后续能够挑选更好的多个算法的交融战略，进步鲁棒性。
以上算法运用的数据存在手动标示，可能存在不合理的反常点。

2.2 技能结构

2.2.1 技能架构

根据当时杭研猛犸大数据渠道质量中心，交融机器学习算法功用等，技能架构规划如下：

2.2.2 处理流程

处理流程

结合2.2.5评价成果，归纳评价目标的好坏。关于目标异动发现，采取dqc+模型猜测结合方法。详细流程如下：

交融战略

考虑到dqc异动发现阈值设置严厉时的误报，以及dqc阈值设置宽松时漏报，经过整合算法猜测反常在多个目标的体现优势，制定战略集，进而判定目标反常与否，示意图如下：

三、项目影响力与产出价值

3.1 技能价值

更精确：目标异动发现召回率进步74%，精确率进步40%，正确率进步20%等
更科学：整合模型猜测优势，经过模型学习才能，可感知事务的动态改变，一起解决了dqc阈值缺少灵活性的问题
易复用：容器化布置，装备化接入，快速复用

3.2 产品价值

联合杭研渠道技能才能，在产品化方面做了探究。

拓展“数据质量中心”功用，在DQC监控功用的基础上，接入机器学习渠道。功用流程如下：

3.2.1 功用结构

3.2.2 产品装备

功用装备：在原有上下限、动摇阈值、反常值监控的基础上，供给机器学习算法猜测反常的功用，并关于周期性、周期动摇等供给可装备化功用。

成果反应：成果反应，首要针对有监督学习算法，关于异动猜测的成果，人工确认后，反应给渠道，进一步进步模型的可靠性。

四、项目未来规划和展望

4.1 模型迭代

功用优化：当时计划在数据目标上，虽然有极高的召回率和杰出的精确率，但还存在一定量的误报，虽很好的满意了目标异动发现的事务要求，但还需优化。
普适性：算法的运用有其适用的场景，在覆盖更多事务和目标方面，是否仍然有杰出的体现，或需求拓展更多模型算法的接入，还有待挖掘。

4.2 产品化迭代

根据当时智能算法特色，推进产品化终究落地需求解决两个问题：

（1）怎么引导用户挑选相应的目标，从而让智能算法发生正向而不是负向收益。

解决计划：明确当时算法适用的目标，并经过产品引导的方法，帮助用户挑选适当的目标，比如周期性要求。另外结合一些技能手段，获取到原始数据样本，并结合数据样本特色主动匹配对应的算法模型。

（2）怎么解决初始样本数据缺乏导致算法猜测作用不睬想问题。

解决计划：能够将目标数据分为三个阶段，更高阶段关于智能算法依靠更强，也更智能，猜测作用也更好。

①新目标，还未投产或许数据样本缺乏

②已有目标，现已投产并且数据样本充足

③已有目标，数据样本充足并且能够人工标示

关于第①阶段的新目标，智能算法很难获得较好的推荐，需求引导用户装备阈值，作为目标冷启动阶段的有效监控手段，一起结合成果反应机制，不断搜集用户反应，完善数据样本及标示，并在数据样本满足并算法作用评价后切换成第二种或许第三种.。

关于第②阶段的目标，能够经过一些统计学或许无监督的算法猜测阈值，一起结合成果反应机制，不断搜集用户反应，完善数据样本及标示，并在数据样本满足并算法作用评价后切换成第三种.。

关于第③阶段的目标，数据现已比较老练，能够很好的使用 Xgboost 等较老练的猜测算法或许机器学习练习模型，以获取更好的猜测成果，一起结合成果反应机制，不断搜集用户反应，完善数据样本及标示，并完善算法的精确率和召回率等目标。

后记

从“数字化”到“数智化”的演进，数据建造的技能系统，趋于生态化和多元化。技能的交融创新，赋予数据以才智的法力。笔者的实践经验，始于开源技能，感谢开源的力量。如网易价值观所倡导：从0到1是创新，从1到1.1也是。我们会持续坚持极客精神，为数据智能，奉献酷爱！

限于本文的作者水平,文中如有错误欢迎批评指正。

参考文献

[1] 东杰. 外卖订单量猜测反常报警模型实践[EB/OL]. 2017年04月21日.tech.meituan.com/2017/04/21/…. [2] roganhuang. 时刻序列的智能反常检测计划[EB/OL]. 2021年03月30日. cloud.tencent.com/developer/a…. [3] 运小博. 反常检测：百度是这样做的[EB/OL]. 2019年10月27日. developer.baidu.com/article/det…. [4] 用户1263954. 滴滴出行海量数据场景下的智能监控与毛病定位实践[EB/OL]. 2018年04月04日. cloud.tencent.com/developer/a…. [5] 王肇刚. 阿里巴巴智能监控新场景的探究[EB/OL]. 2018年12月12日. zhuanlan.zhihu.com/p/52197598. [6] 胡原,锦冬,俊峰等. AIOps在美团的探究与实践——毛病发现篇[EB/OL]. 2020年10月15日. tech.meituan.com/2020/10/15/….

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

机器学习模型在云音乐指标异动预测的应用实践