—> * 原文地址:Why Is My Data Drifting?

  • 原文作者:Simona Maggio
  • 译文出自:翻译方案
  • 本文永久链接:github.com/xgithub官网地址itu/gold-m…
  • 译者:ios是什么意思chzh9311
  • 校对者:samyu2000

为什么我的数据会漂移?

使用于实践项目的机器学习(ML)Markdown模型通常都配置了检github喵绅士测数据漂移的体系。MLOps 体系便是其间iOS之一,它能够在检测到漂移时宣布警报,可是咱们还需求知道数github怎样读据中哪些部分改动了,以及模型发生了什么样的异常,以此来选择后续策略。

这篇文章介绍了怎样使用域判别分类器来辨认极点异常的特征和样本,而且演示github喵绅士了怎样运用 SHAP 来进行数据损坏状况的剖析。

【译】为什么我的数据会漂移?

一个数据损坏的现象

导致得到的数据呈现异常的因素有许多:有噪声的数据收集、Go性能较差的传感器、数据中毒侵犯等markdownpad等。这些数据损坏的比方是协方差漂移的一种,用于剖析特征散布的漂移检测器能够有用捕获这种漂移。欲温习数据漂移的相关内容,能够参看这篇文章 [1]。

现在,幻想自己是一名数据科学家,你正在研讨出名的成年人数据集,测验经过一个人的年纪、教育、工作等ios14.4值得晋级吗信息来猜测他 / 她一年的收入是否超越 50,000 美元。

咱们在这个数据集上选了一个随机片段作为咱们的练习集ios模拟器,并在这个练习集上为这个二分类任务练习了一个猜测器。咱们对这个练习的模型很满意,并将它和一个漂移检测体系一同安置在使用程序中。

这个markdownpad成年人数据集的剩下部分是真实有用的数据。不幸的是,这一方针域数据集的一部分损坏了。

【译】为什么我的数据会漂移?

为了演示,咱们用常数替换的办法污染了方针域数据集 25% 的数据。这随机损坏了几个特征,即 race(种族),marital_status(婚姻状况),fnlwgt(毕竟权重),和 edios8备忘录ucation_numarkdown是什么意思m(受教育ios下载指数)。数值型特征经过替换为特征散布的中位数的办法来损坏,而分类型特征则经过替换为一个固定的随机类别来损坏。

在这个比方中,25% 的方针域样本的这四个特github是干什么的征被替换为图 1 所示的常量。用于检测数据改动的漂移检测器正确地宣布了警报。然后呢?

怎样找到漂移最严峻的样本?

一个域判别分类器能够协助咱们。这个次级机器学习模型运用一半的源练习集和一半的新方针域数据集进行练习,然后猜测一个样本归于本来的域仍是新域

正如这篇文章 [2] 里详细介绍的那样,域分类器实践上是一个很盛行的漂移检测器。所以运用它的优点在于不仅能检测数据改动,markdown软件也能够辨认异常样本。假定在你的监控体系中已经有了一个预练习好的分类器,也就一同有了一个异常检测器。

作为第一个假定,咱们能够用域分类器给出的归于新域的概率分数作为其漂移分数,而且标出 k 个异常最明显的样本。可是假定有上百个特征, 弄清提取出来的样本中哪iOS些是异常最明显的markdown教程github永久回家地址mi比较困难了。咱们需求辨认漂移最严峻的特征来缩小查找规模。

为了结束这一点,我markdownpad们能够做一些假定,比方,咱们假定,对域的判别公积金最重要的特征与ios下载异常有更严密的关联。在这种状况下,咱们能够运用一个特征重要性衡量原则,此衡量原则应当是适合这个域分类器的,例如,关于github怎样读随机森林分类器,能够运用均匀不纯度减少数(MDI)作为衡量规范。

在机器学习领域有许多种特征重要性衡量原则,这些规范都有自己的局限性。这也是及其学习中经过 SHAP 引入沙普利值的原因之一。假定你工作细胞想更github怎样下载文件多地了解沙普公积金利值和 SHAP,你能够看一看这本适当不错的《Interpretable Machine Learning》[3]。

说明漂移

用 SHAP 东西包 [4],公积金咱们能够说明域分类器的输出,特别是关于一个给定的样本,各种特征对github永久回家地址mi其归于新域的概率有多ios8备忘录少贡献。经过查询异常最严峻的样本的沙普利值,咱们就能看出markdown笔记哪些因素使域分类器将一个样本归类为异常,由此发现漂移的特征。

【译】为什么我的数据会漂移?

markdown语法图 2 中咱们比较了成年宫崎骏人数据集的域分类器github喵绅士特征重要性和markdown编辑器 SHAP 特征重要性(一个特征的悉数沙普利值的必定值的均匀值)。咱们发现他们为这些宫颈癌特征赋予了不同的等级,SHAP 正确markdown是什么意思地捕获了 3ios14桌面 个损坏最严峻的特ios14.4值得晋级吗征。重要性衡量原则的选择会影响到漂移特征的辨github下载认,因此有必要选择比不纯度更可靠的办法。

可是,并不是随意地选择 3 个漂移最严峻的特征,而是将特征的重要性值和在未辨认的域中均匀散布的特征重要性值(特征总数的倒数)做比照。之后,咱们就能够辨认出那些github永久回家地址mi杰出的特征。正如下面图 3 所示的那样,racemarital_status,和 fnlwgt 就凸显出来了。

【译】为什么我的数据会漂移?

假定我龚俊们在图 4 中画出悉数方针域的数据集样本的沙普利值,并将真实漂移的github中文官网样本用赤色显现,就会发现沙普利值能够很明晰地体现markdown语法出异常样本和异常特征。在图表中的每一行,运用一系列点来表明相同的方针域样本,而这些点的github官网横坐标便是行左边标明markdown是什么意思的特征对应的沙普利值。这儿,咱们能够查询到之前选择的异常特征(racemarital_status,和 fn枸杞lwgt),以及毕竟辨认出来的漂移特征 education_num,具有双峰散布的特征。

【译】为什么我的数据会漂移?

依托沙普利值的功率特性,域分类器对一个样本的猜测分数就界说为其悉数ios14桌面特征的沙普利值的和。所以,从图 4 所示的图表中咱们可枸杞以揣度,未被损坏的特征几乎不影响(但并非工商银行彻底不影响)对新域分类机器学习的猜测工作细胞,究竟它ios是什么意思们的沙普利值是以 0 为中心散布的,这一点对那些异常样本特别明显。

直接可视化漂移样本

咱们要开端打包并运用这些东西进行实践操作,标记出那些可疑的样本和异常的特征。

首要,让咱们来看github官网地址一看 10 个异常最明显的特征和样本,或许咱们可巧能直观地了解发生了什么。

【译】为什么我的数据会漂移?

在这个特别的现象下,咱们或许容易就能辨认到(而且发现可疑之处)Markdown,悉数获取到的样本的某些特征值都是常宫颈癌量,但这或许并不是普遍规律。可是,假定漂移呈现在散布层级,例如选择性过失,查询单个样本就不是那么有用了。它们或许只是在源数据集的一个子集内的惯例样本Go,因此技术上讲不能算作异常。可是,究竟咱们无法事前知道咱们在面临什么样的漂移,查询一下单个样本依然是个好办法!

图 6 所示的是 SHAP 选择曲线图,其间每条公积金曲线代表一个异常样本。这种图表能够协助咱们发现漂移的状况。咱们也能够发现曲线在朝ios下载向更高的域分类器漂移评分改动。

【译】为什么我的数据会漂移?

在这种状况下,悉数异常都是由同一个损坏的特征构成的,可是关于一组因为不同原因此漂移的样本,SHAP 选择曲线图能够有枸杞用地体现出这些趋势。

当然,对特征散布的规范剖析仍是必不可少的,特别是在咱们能够选择关键markdown编辑器关注那些最枸杞可疑markdown是什么意思的特征的时分。在图 7 中,咱们将 100 个异常最明显样本的漂移特征的散布用赤色标出,并将它们和源练习集的散布进行比较。判别剖析更契合人类的直觉,所以这是一种判别新数据集漂移品种的简略办法。在本例中,经过查询特征散布,ios14.4值得晋级吗咱们能够立刻发现特征取值是常量,这并不契合期望的散布。

【译】为什么我的数据会漂移?

总结

当咱们将模型使用于意料之外的数据改动,并想监控模型时,咱们能够运用域分类器等漂移检测器,在发现漂移时辨认ios体系异常样本。标出漂移最严峻的样本并深化查询,这一系列进程能够组织成为漂移剖析的流水线。而异常能被标记应该归功于域分类器的重要性衡量原则。

可是,要注意特征重要机器学习性衡量原则或许存在的不连续性,以及假定你有更多的核算资源,能够考虑运用 SHAP 来结束与漂移相关的更准确的关联性衡量。毕竟,将有用的 SHAP 可视化东西github喵绅士,和参照未漂移的散布给出的漂移特征散布的判别剖析相结合,能够让你的漂移剖析更加简略高效。

参看

[1] A Primeios是什么意思r ongithub中文官网 Data Drift

[2] Domai宫颈癌n Classifier — Towards reliable MLOps with Drift Detectors

[3] Shapley Values — Interpretable Machineios14.4值得晋级吗 Learning — C. Molnar

[4] SHapley Additive exios14.4怎样样Planations package

假定发现译文存在过错或其他需求改善的当地,欢迎到 翻译方案 对译文进行批改并 PR,也可获得相应奖励积分。文章开始的 本文github永久回家地址mi永久链接 即为本文宫颈癌在 GitHub 上的 MarkDown 链接。


翻译方案 是一个翻译优质互联网技术文章的社区,文章来源为 上的英文同享文章。内容掩盖 Android、iOS、前端、后端、区块链、产品、规划、人工智能等领域,想要检查更多优质译文请继续关注 翻译方案、官方微博、知乎专栏。