图解机器学习术语-a系列

公众号：尤而小屋
作者：Peter
修改：Peter

大家好，我是Peter~

最近看到国外一位大神对机器学习知识点制作的彩图，通过图解的方式来解说一个知识点，比如过拟合、auc、boosting算法等，十分的形象，比如：

支持向量机

L2正则化进程

原地址：machinelearningflashcards.com/，作者：Chris Albon

全图

先看一个比较全面的图形：这儿面有Dropout、TF-IDF、SVC等

A系列

今日共享A系列的内容。

AIC-赤池信息量原则

赤池信息量原则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种规范，是由日本统计学家赤池弘次创建和发展的。

赤池信息量原则建立在熵的概念基础上。

AIC越小，模型越好，通常挑选AIC最小的模型

n：观测值
$2\hat \sigma ^2$ ：样本方差
d：特征值
RSS：残差平方和

Accuracy-准确率

表明在检测样本中实践值和猜测值持平的占比

Adaboost算法

AdaBoost全称为Adaptive Boosting，中文名称叫做自适应提高算法

给每个样本分配权重，均为 $wi=1nw_i=\frac{1}{n}$ ；其间n为样本数量
训练一个“弱”模型，通常情况下是决策树DT
关于每个方针：

如果猜测错误，加大权重，w上涨
如果猜测正确，降低权重，w下降

再训练一个新的弱模型，其间权重较大的样本分配较高的优先权
重复步骤3和4；直到全部样本被完美猜测，或许训练出当时规划的决策树

调整R方

在这儿介绍下 $R^2$ 和 $R2\hat R^2$ ，参阅：www.jiqizhixin.com/graph/techn…

决定系数（英语：coefficient of determination，记为R2或r2）在统计学中用于衡量因变量的变异中可由自变量解说部分所占的份额，以此来判别统计模型的解说力。

假定一数据集有 $y_1,…y_i…,y_n$ 共n个调查值（实践值），对应的模型猜测值分别为 $f_1,…,f_n$ 。那么咱们界说残差：

$e_i = y_i − f_i$

均匀调查值为：

$y=1n∑i=1nyi\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}$

总的误差平方和TSS：给出了y的改变总量

$TSS=∑i(yi−y)2TSS=\sum_{i}\left(y_{i}-\bar{y}\right)^{2}$

回归平方和：

$S_{\text {reg }}=\sum_{i}\left(f_{i}-\bar{y}\right)^{2}$

残差平方和RSS：RSS给出了实践点到回归线距离的总平方。残差，咱们能够说是回归线没有捕捉到的距离。因此，RSS作为一个全体给了咱们方针变量中没有被咱们模型解说的改变。（实践值和模型猜测值的差异，没有被咱们捕捉到）

$RSS=∑in(yi−fi)2=∑inei2RSS=\sum_{i}^n\left(y_{i}-f_{i}\right)^{2}=\sum_{i}^n e_{i}^{2}$

现在，如果TSS给出Y的总改变量，RSS是未被解说的改变量，那么TSS-RSS给出了y的改变，并且这部分改变是被咱们的模型解说的！咱们能够简单地再除以TSS，得到由模型解说的y中的改变份额。

那么，咱们界说R的改变统计量 $R^2$ 为：

$R2=TSS−RSSTSS=1−RSSTSSR^{2}=\frac{TSS-RSS}{TSS} = 1-\frac{RSS}{TSS}$

很显然，RSS和R方是负相关的。

调整R方考虑了用于猜测方针变量的自变量数量：

$R2=1−(1−R2)n−1n−p−1\bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-p-1}$

n表明数据会集的数据点数量
p表明自变量的个数
R代表模型确定的R方值

Agglomerative clustering-层次聚类

一切的调查目标先以自己为群组
将满意特定原则的目标集合在一起
重复上面的进程，群组不断增大，直到某个端点的位置饱满

ALPHA

岭回归通过对系数的巨细施加赏罚来解决普通最小二乘法的一些问题。 ridge coefficients ( 岭系数 ) 最小化一个带罚项的残差平方和：

$min⁡w∥Xw−y∥22+∥w∥22\min _{w}\|X w-y\|_{2}^{2}+\alpha\|w\|_{2}^{2}$

参阅资料

www.datacamp.com/tutorial/tu…

blog.csdn.net/guangyacyb/…

AVOID over-fitting

如何避免过拟合？

简化模型
穿插验证
正则化
获取更多数据
集成学习

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。