深度学习数学基础-概率与信息论

开启成长之旅！这是我参加「日新计划 2 月更文应战」的第 4 天，点击检查活动详情。

前言

概率论学科界说

概率论是用于表明不确认性声明的数学框架。它不仅供给了量化不确认性的办法，也供给了用于导出新的不确认性声明（statement）的公理。概率论的常识在机器学习和深度学习领域都有广泛运用，是学习这两门学科的根底。

概率与信息论在人工智能领域的运用

在人工智能领域，概率论首要有两种用处。

首要，概率定律告知咱们 AI 体系应该怎么推理，基于此咱们设计一些算法来核算或许估算由概率论导出的表达式。
其次，咱们能够用概率和计算从理论上分析咱们提出的 AI 体系的行为。

尽管概率论答应咱们在存在不确认性的情况下做出不确认的陈述和推理，但信息论答应咱们量化概率散布中不确认性的数量。

3.1，为什么要运用概率论

这是因为机器学习有必要始终处理不确认的量，有时或许还需求处理随机（非确认性）的量，这儿的不确认性和随机性或许来自多个方面。而运用运用概率论来量化不确认性的论据，是来源于 20 世纪 80 时代的 Pearl (1988) 的工作。

不确认性有三种或许的来源:

被建模体系内涵的随机性。
不完全观测。
不完全建模：运用了一些有必要放弃某些观测信息的模型。

3.2，随机变量

随机变量（random variable）是能够随机地取不同值的变量，它可所以离散或许接连的。

离散随机变量具有有限或许可数无限多的状况。留意这些状况不必定非要是整数; 它们也或许仅仅一些被命名的状况而没有数值。接连随机变量伴随着实数值。留意，随机变量仅仅对或许状况的描绘；它有必要与指定这些状况中的每一个的或许性的概率散布相结合。

咱们一般用无格局字体 (plain typeface) 中的小写字母来表明随机变量自身，而用手写体中的小写字母来表明随机变量能够取到的值。例如， $x_1$ 和 $x_2$ 都是随机变量 $x\textrm{x}$ 或许的取值。关于向量值变量，咱们会将随机变量写成 $x\mathbf{x}$ ，它的一个或许取值为 $x\boldsymbol{x}$ 。

中文维基百科用 $X$ 表明随机变量，用 $f_{X}(x)$ 表明概率密度函数，本文笔记，不同末节内容两者混用。

3.3，概率散布

概率散布（probability distribution）是用来描绘随机变量或一簇随机变量在每一个或许取到的状况的或许性巨细。

假如狭义地讲，它是指随机变量的概率散布函数。具有相同概率散布函数的随机变量必定是相同散布的。接连型和离散型随机变量的概率散布描绘方法是不同的。

3.3.1，离散型变量和概率质量函数

离散型变量的概率散布能够用概率质量函数（probability mass function, PMF，也称概率密度函数）来描绘。咱们一般用大写字母 $P$ 来表明概率质量函数，用 $x∼P(x)\textrm{x} \sim P(\textrm{x})$ 表明随机变量 $x\textrm{x}$ 遵从的散布。

尽管一般每一个随机变量都会有一个不同的概率质量函数，可是概率质量函数也能够一起作用于多个随机变量，这种多个变量的概率散布被称为联合概率散布（joint probability distribution）。 $P(x=x,y=y)P(\textrm{x} = x, \textrm{y} = y)$ 表明 $x=x\textrm{x} = x$ 和 $y=y\textrm{y} = y$ 一起产生的概率，有时也可简写为 $P (x ， y)$ 。

假如一个函数 $P$ 是随机变量 $x\textrm{x}$ 的 PMF，有必要满意以下条件：

$P$ 的界说域有必要是 $x\textrm{x}$ 一切或许状况的调集。
$∀x∈x,0≤P(x)≤1\forall x \in \textrm{x}, 0 \leq P(x)\leq 1$ 。不或许产生的工作概率为 0，能够确保必定产生的工作概率为 1。
$∑x∈xP(x)=1\sum_{x \in \textrm{x}}P(x)=1$ ，归一化（normalized）。

常见的离散概率散布族有：

伯努利散布
二项散布：一般用二项散布来核算概率的条件是，每次抽出样品后再放回去，而且只能有两种实验成果，比方黑球或红球，正品或次品等。
几何散布
Poisson 散布（泊松散布）：Poisson 近似是二项散布的一种极限方法。
离散均匀散布：即关于随机变量 $x\textrm{x}$ ，因为其是均匀散布(uniform distribution)，所以它的 PMF 为 $P(x=xi)=1kP(\textrm{x}=x_{i}) = \frac{1}{k}$ ，一起 $∑iP(x=xi)=∑i1k=kk=1\sum_{i}P(\textrm{x} = x_{i}) = \sum_{i}\frac{1}{k} = \frac{k}{k} = 1$ 。

3.3.2，接连型变量和概率密度散布函数

接连型随机变量的概率散布能够用概率密度函数（probability desity function, PDF）来描绘。

一般用小写字母 $p$ 来表明随机变量 $x\textrm{x}$ 的概率密度函数 PDF，其有必要满意以下条件：

$p$ 的界说域有必要是 $x\textrm{x}$ 一切或许状况的调集。
$∀x∈x,p(x)≥0\forall x \in \textrm{x}, p(x)\geq 0$ 。留意，并不要求 $p(x)≤1p(x)\leq 1$ 。
$∫p(x)dx=1\int p(x)dx=1$ 。

概率密度函数 $p (x)$ 给出的是落在面积为 $x\delta x$ 的无限小的区域内的概率为 $p(x)xp(x)\delta x$ 。

因而，咱们能够对概率密度函数求积分来取得点集的实在概率质量。特别地， $x$ 落在调集 $S\mathbb{S}$ 中的概率能够经过 $p (x)$ 对这个调集求积分来得到。在单变量的比方中， $x$ 落在区间 $[a, b]$ 的概率是 $∫[a,b]p(x)dx\int_{[a,b]}p(x)dx$ 。

常见的接连概率散布族有：

均匀散布
正态散布：接连型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形，因而又被称之为钟形曲线，其间 $\mu$ 是均匀值， $\sigma$ 是规范差。正态散布是一种理想散布。 $f(x)=12e(−12(x−)2){f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}}$
伽玛散布
指数散布

3.4，边际概率

边际概率如同运用并不多，所以这儿了解界说和概念即可。边际概率的通俗了解描绘，来源于数学篇 – 概率之联合概率、条件概率、边际概率和贝叶斯法则(笔记)。

有时分，咱们知道了一组变量的联合概率散布，但想要了解其间一个子集的概率散布。这种界说在子集上的概率散布被称为边际概率散布(marginal probability distribution)。

关于离散型随机变量 $x\textrm{x}$ 和 $y\textrm{y}$ ，知道 $P(x,y)P(\textrm{x}, \textrm{y})$ ，能够根据下面的求和法则（sum rule）来核算边际概率 $P(x)P(\textrm{x})$ ：

$∀x∈x,P(x=x)=∑yP(x=x,y=y)\forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y)$

“边际概率”的称号来源于手算边际概率的核算进程。当 $P (x, y)$ 的每个值被写在由每行表明不同的 $x$ 值，每列表明不同的 $y$ 值构成的网格中时，对网格中的每行求和是很天然的工作，然后将求和的成果 $P (x)$ 写在每行右边的纸的边际处。

接连性变量的边际概率则用积分代替求和：

$\int p(x,y)dy$

3.5，条件概率

条件概率（conditional probability）便是工作 A 在工作 B 产生的条件下产生的概率，表明为 $P (A ∣ B)$ 。

设 $A$ 与 $B$ 为样本空间中的两个工作，其间 $P (B)$ > 0。那么在工作 $B$ 产生的条件下，工作 $A$ 产生的条件概率为：

P(A∣B)=P(A∩B)P(B)P(A|B)={\frac {P(A\cap B)}{P(B)}}

花书中希望的条件概率界说（表达式不一样，但含义是一样的，维基百科的界说更容易了解名字含义，花书中的公式更多的是从数学中表达）:

将给定 $x=x\textrm{x} = x$ 时， $y=y\textrm{y} = y$ 产生的条件概率记为 $P(y=y∣x=x)P(\textrm{y} = y|\textrm{x} = x)$ ，这个条件概率的核算公式如下： $P(y=y∣x=x)=P(y=y,x=x)P(x=x)P(\textrm{y}=y|\textrm{x}=x)=\frac{P(\textrm{y}=y, \textrm{x}=x)}{P(\textrm{x}=x)}$ 条件概率只在 $P(x=x)≥0P(\textrm{x}=x)\geq 0$ 时有界说，即不能核算以从未产生的工作为条件的条件概率。

3.5.1，条件概率的链式法则

任何多维随机变量的联合概率散布，都能够分解成只有一个变量的条件概率相乘的方法，这个规矩被称为概率的链式法则（chain rule）。条件概率的链式法则如下:

P(a,b,c)=P(a∣b,c)P(b,c)P(b,c)=P(b∣c)P(c)P(a,b,c)=P(s∣b,c)P(b∣c)P(c)\begin{aligned} P(a,b,c) &= P(a|b,c)P(b,c) \\ P(b,c) &= P(b|c)P(c) \\ P(a,b,c) &= P(s|b,c)P(b|c)P(c) \\ \end{aligned}

3.6，独立性和条件独立性

两个随机变量 $x\textrm{x}$ 和 $y\textrm{y}$ ，假如它们的概率散布能够表明成两个因子的乘积方法，而且一个因子只包括 $x\textrm{x}$ 另一个因子只包括 $y\textrm{y}$ ，咱们就称这两个随机变量是彼此独立的（independent）：

$∀x∈x,y∈y,p(x=x,y=y)=p(x=x)⋅p(y=y)\forall x \in \textrm{x},y \in \textrm{y},p(\textrm{x}=x, \textrm{y}=y)=p(\textrm{x}=x)\cdot p(\textrm{y}=y)$

两个彼此独立的随机变量一起产生的概率能够经过各自产生的概率的乘积得到。

假如关于 $x$ 和 $y$ 的条件概率散布关于 $z$ 的每一个值都能够写成乘积的方法，那么这两个随机变量 $x$ 和 $y$ 在给定随机变量 $z$ 时是条件独立的(conditionally independent):

$∀x∈,y∈y,z∈z,p(x=x,y=y∣z∈z)=p(x=x∣z∈z)⋅p(y=y∣z∈z)\forall x \in ,y \in \textrm{y},z \in \textrm{z}, p(\textrm{x}=x, \textrm{y}=y|z \in \textrm{z})= p(\textrm{x}=x|z \in \textrm{z})\cdot p(\textrm{y}=y|z \in \textrm{z})$

选用一种简化方法来表明独立性和条件独立性: $x⊥y\textrm{x}\perp \textrm{y}$ 表明 $x\textrm{x}$ 和 $y\textrm{y}$ 彼此独立， $x⊥y∣z\textrm{x}\perp \textrm{y}|\textrm{z}$ 表明 $x\textrm{x}$ 和 $y\textrm{y}$ 在给定 $z\textrm{z}$ 时条件独立。

3.7，条件概率、联合概率和边际概率总结

条件概率（conditional probability）便是工作 A 在工作 B 产生的条件下产生的概率。条件概率表明为 $P (A ∣ B)$ ，读作“A 在 B 产生的条件下产生的概率”。
联合概率表明两个工作一起产生的概率。A 与 B 的联合概率表明为 $P(A∩B)P(A\cap B)$ 或许 $P (A, B)$ 或许 $P (A B)$ 。
仅与单个随机变量有关的概率称为边际概率。

3.8，希望、方差和协方差

为了便于了解，本章中的希望和方差的数学界说首要选用中文维基百科中的界说。

在概率散布中，希望值和方差或规范差是一种散布的重要特征，希望、数学希望、均值都是一个意思。计算中的方差（样本方差）是每个样本值与整体样本值的均匀数之差的平方值的均匀数，其含义和概率散布中的方差是不一样的。

3.8.1，希望

在概率论和计算学中，一个离散性随机变量的希望值（或数学希望，亦简称希望，物理学中称为期待值）是实验中每次或许的成果乘以其成果概率的总和。换句话说，希望值像是随机实验在相同的机会下重复多次，一切那些或许状况均匀的成果，也可了解为该变量输出值的加权均匀。

希望数学界说

假如 $X$ 是在概率空间 $(,F,P)(\Omega ,F,P)$ 中的随机变量，那么它的希望值 $E⁡(X)\operatorname{E}(X)$ 的界说是：

$E⁡(X)=∫XdP\operatorname {E}(X)=\int_{\Omega }X {d}P$

并不是每一个随机变量都有希望值的，因为有的时分上述积分不存在。假如两个随机变量的散布相同，则它们的希望值也相同。

1，假如 $X$ 是离散的随机变量，输出值为 $x1,x2,…x1,x2,…x_{1},x_{2},\ldots x_{1},x_{2},\ldots$ ，和输出值相应的概率为 $p1,p2,…p1,p2,…{\displaystyle p_{1},p_{2},\ldots }p_{1},p_{2},\ldots$ （概率和为 1）。

若级数 $∑ipixi\sum_{i}p_{i}x_{i}$ 肯定收敛，那么希望值 $E⁡(X)\operatorname {E}(X)$ 是一个无限数列的和。

$E⁡(X)=∑ipixi\operatorname {E}(X)=\sum_{i}p_{i}x_{i}$

2，假如 $X$ 是接连的随机变量，且存在一个相应的概率密度函数 $f (x)$ ，若积分 $dx\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$ 肯定收敛，那么 $X$ 的希望值能够核算为：

$dx\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$

尽管是针关于接连的随机变量的，但与离散随机变量的希望值的核算算法却同出一辙，因为输出值是接连的，所以仅仅把求和改成了积分。

希望值 $E$ 是线性函数:

$E⁡(aX+bY)=aE⁡(X)+bE⁡(Y)\operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y)$

$X$ 和 $Y$ 为在同一概率空间的两个随机变量（能够独立或许非独立）， $a$ 和 $b$ 为任意实数。

花书中希望的数学界说（表达式不一样，但含义是一样的）:

1，某个函数 $f (x)$ 相关于概率散布 $P (x)$ 的希望（希望值）是当从 $P$ 中抽取 $x$ 时 $f$ 所取的均匀或均匀值。关于离散型随机变量，希望能够经过求和得到： $Ex∼P[f(x)]=∑xP(x)f(x)\mathbb{E}_{\textrm{x}\sim P}[f(x)] = \sum_{x} P(x)f(x)$

2，关于接连型随机变量能够经过求积分得到： $Ex∼p[f(x)]=∫p(x)f(x)dx\mathbb {E}_{\textrm{x}\sim p}[f(x)] = \int p(x)f(x)dx$

希望运用

在计算学中，估算变量的希望值时，常常用到的办法是重复测量此变量的值，再用所得数据的均匀值来估量此变量的希望值。
在概率散布中，希望值和方差或规范差是一种散布的重要特征。

整体均值数学界说

一般来说，一个有限的容量为 $N$ 、元素的值为 $x_{i}$ 的整体的整体均值为：

$=∑iNxiN\mu = \frac{\sum_i^N x_{i}}{N}$

3.8.2，方差

在概率论和计算学中，方差（英语：variance）又称变异数、变方，描绘的是一个随机变量的离散程度，即该变量离其希望值的距离，是随机变量与其整体均值或样本均值的离差的平方的希望值。

方差差是规范差的平方、散布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表明有 $2\sigma^2$ 、 $s^2$ 、 $Var⁡(X)\operatorname {Var} (X)$ 、 $V(X)\displaystyle V(X)$ ，以及 $V(X)\displaystyle \mathbb {V} (X)$ 。

方差作为离散衡量的长处是，它比其他离散衡量（如均匀差）更易于代数运算，但缺点是它与随机变量的单位不同，而规范差则单位相同，这便是核算完成后一般选用规范差来衡量离散程度的原因。

方差的正平方根称为该随机变量的规范差。

有两个不同的概念都被称为“方差”。一种如上所述，是理论概率散布的方差。而另一种方差是一组观测值的特征，分别是整体方差（一切或许的观测）和样本方差（整体的一个子集）。

方差数学界说

设 $X$ 为遵守散布 $F$ 的随机变量，假如 $E⁡[X]\operatorname{E}[X]$ 是随机变量 $X$ 的希望值（均值 $=E⁡[X]\mu=\operatorname{E}[X]$ ），则随机变量 $X$ 或许散布 $F$ 的方差为 $X$ 的离差平方的希望值:

$E⁡(X)=E⁡[(X−)]2=E⁡[X−E⁡(X)]2\operatorname{E}(X) = \operatorname{E}[(X – \mu)]^2 = \operatorname{E}[X – \operatorname{E}(X)]^2$

方差的表达式可展开如下：

Var⁡(X)=E⁡[(X−E⁡[X])2]=E⁡[X2−2XE⁡[X]+E⁡[X]2]=E⁡[X2]−2E⁡[X]E⁡[X]+E⁡[X]2=E⁡[X2]−E⁡[X]2\begin{aligned} \operatorname{Var}(X) &=\operatorname{E} \left[(X-\operatorname {E} [X])^{2}\right] \\ &=\operatorname{E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname{E}[X]^{2}\right] \\ &=\operatorname{E} \left[X^{2}\right]-2\operatorname{E}[X]\operatorname{E}[X]+\operatorname{E}[X]^{2} \\ &=\operatorname{E} \left[X^{2}\right]-\operatorname{E}[X]^{2} \\ \end{aligned}

也便是说， $X$ 的方差等于 $X$ 平方的均值减去 $X$ 均值的平方。

整体方差数学界说

一般来说，一个有限的容量为 $N$ 、元素的值为 $x_{i}$ 的整体的整体方差为：

$2=1N∑i=1N(xi−)2\sigma^{2} = {\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}$

花书中方差的界说: 方差（variance）衡量的是当咱们对 $x$ 根据它的概率散布进行采样时，随机变量 $x\textrm{x}$ 的函数值会呈现多大的差异，或许说一个随机变量的方差描绘的是它的离散程度，也便是该变量离其希望值的距离。方差界说如下： $\mathbb{E}[(f(x) – \mathbb{E}[f(x)])^2]$

3.8.3，希望与方差的运算性质

希望与方差运算性质如下:

来源: 知乎文章-【AP计算】希望E(X)与方差Var(X)。

3.8.4，协方差

协方差也叫共变异数（英语：Covariance），在概率论与计算学中用于衡量两个随机变量的联合变化程度。

协方差数学界说

希望值分别为 $E⁡(X)=\operatorname E(X)=\mu$ 与 $E⁡(Y)=\operatorname E(Y)=\nu$ 的两个具有有限二阶矩的实数随机变量 $X$ 与 $Y$ 之间的协方差界说为：

$cov⁡(X,Y)=E⁡((X−)(Y−))=E⁡(X⋅Y)−\operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu$

协方差表明的是两个变量的整体的差错，这与只表明一个变量差错的方差不同。

协方差的肯定值假如很大则意味着变量值变化很大而且它们一起距离各自的均值很远。假如协方差是正的，那么两个变量都倾向于一起取得相对较大的值。假如协方差是负的，那么其间一个变量倾向于取得相对较大的值的一起，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量目标如相联系数(correlation)将每个变量的奉献归一化，为了只衡量变量的相关性而不受各个变量规范巨细的影响。

3.9，常用概率散布

下表列出了一些常用概率散布的方差。

3.9.1，伯努利散布

伯努利散布（英语：Bernoulli distribution），又名两点散布或许 0-1 散布，是一个离散型概率散布，为留念瑞士科学家雅各布伯努利而命名。若伯努利实验成功，则伯努利随机变量取值为 1。若伯努利实验失利，则伯努利随机变量取值为 0。记其成功概率为 $0≤p≤10\leq p\leq 1$ ，失利概率为 $q = 1 - p$ 。其有如下性质:

其概率质量函数为:

x=0f_{X}(x) = p^{x}(1-p)^{1-x} = \left\lbrace\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right.

其希望值为:

E⁡[X]=∑i=01xifX(x)=0+p=p\operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = p

其方差为:

Var[X]=∑i=01(xi−E⁡[X])2fX(x)=(0−P)2(1−P)+(1−P)2P=p(1−p)=p⋅q\begin{aligned} Var[X] &= \sum_{i=0}^{1} (x_{i}-\operatorname {E} [X])^2f_{X}(x) \\ &= (0-P)^2(1-P) + (1-P)^2P \\ &= p(1-p) \\ &= p\cdot q \\ \end{aligned}

3.9.2，Multinoulli 散布

Multinoulli 散布(多项式散布，也叫领域散布 categorical dis- tribution)是一种离散概率散布，它描绘了随机变量的或许成果，该随机变量能够选用 $k$ 个或许类别之一，概率为每个类别分别指定，其间 $k$ 是一个有限值。

3.9.3，高斯散布

有几种不同的办法用来说明一个随机变量。最直观的办法是概率密度函数，这种办法能够表明随机变量每个取值有多大的或许性。

高斯散布 Gaussian distribution（也称正态散布 Normal distribution）是一个十分常见的接连概率散布。高斯散布在计算学上十分重要，常常用在天然和社会科学来代表一个不确认的随机变量。

若随机变量 $X$ 遵守一个方位参数为 $\mu$ 、规范参数为 $\sigma$ 的正态散布，记为：

\sim N(\mu,\sigma^2)

则其概率密度函数为 $e−(x−)222f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$ 。

正态散布的数学希望值 $\mu$ 等于方位参数，决定了散布的方位；其方差 $2\sigma^2$ 的开平方或规范差 $\sigma$ 等于规范参数，决定了散布的幅度。

正态散布概率密度函数曲线呈钟形，也称之为钟形曲线（类似于寺庙里的大钟，因而得名）。咱们一般所说的规范常态散布是方位参数 $=0\mu = 0$ ，规范参数 $2=1\sigma ^{2} = 1$ 的正态散布（见右图中赤色曲线）。

选用正态散布在许多运用中都是一个明智的挑选。当咱们因为缺乏关于某个实数上散布的先验常识而不知道该挑选怎样的方法时，正态散布是默许的比较好的挑选，其间有两个原因。

榜首，咱们想要建模的许多散布的实在情况是比较挨近正态散布的。
第二，在具有相同方差的一切或许的概率散布中，正态散布在实数上具有最的不确认性。因而，咱们能够以为正态散布是对模型加入的先验常识量最少的散布。

3.9.4，指数散布和 Laplace 散布

在概率论和计算学中，指数散布（Exponential distribution）是一种接连概率散布，表明一个在 $x = 0$ 点处取得边界点 (sharp point) 的散布，其运用指示函数(indicator function) $1x≥01_{x\geq0}$ 来使得当 $x$ 取负值时的概率为零。指数散布能够等同于形状母数 $\alpha$ 为 $1$ 的伽玛散布。

指数散布能够用来表明独立随机工作产生的时刻距离，比方旅客进入机场的时刻距离、电话打进客服中心的时刻距离等。

若随机变量 $X$ 遵守母数为 $\lambda$ 或 $\beta$ 的指数散布，则记作

$X∼Exp()X\sim {\text{Exp}}(\lambda )$ 或 $X∼Exp()X\sim {\text{Exp}}(\beta )$

两者含义相同，仅仅 $\lambda$ 与 $\beta$ 互为倒数联系。指数散布的概率密度函数为：

x<0.f(x;{\color {Red}\lambda })=\left\lbrace{\begin{matrix}{\color {Red}\lambda }e^{-{\color {Red}\lambda }x}&x\geq 0,\\0&,\;x<0.\end{matrix}}\right.

指数分配概率密度函数曲线如下所示。

3.10，常用函数的有用性质

深度学习中的概率散布有一些常常呈现的函数，比方 logistic sigmoid 函数:

$(x)=11+exp(−x)\sigma(x) = \frac{1}{1+exp(-x)}$

logistic sigmoid 函数一般用来产生伯努利散布的参数 $p$ ，因为它的范围是 $(0, 1)$ ，位于 $p$ 参数值的有效范围内。下图 3.3 给出了 sigmoid 函数的图示。从图中能够显着看出，sigmoid 函数在变量取肯定值十分大的正值或负值时会呈现饱和(saturate)现象，意味着函数会变得很平，而且对输入的细小改变会变得不敏感。

sigmoid 函数的一些性质在后续学习 BP 算法等内容时会很有用，咱们需求紧记：

(x)=exp(x)exp(x)+exp(0)ddx(x)=(x)(1−(x))1−(x)=(−x)\begin{aligned} \sigma(x) &= \frac{exp(x)}{exp(x)+exp(0)} \\ \frac{d}{dx}\sigma(x) &= \sigma(x)(1 – \sigma(x)) \\ 1 – \sigma(x) &= \sigma(-x) \\ \end{aligned}

3.11，贝叶斯定理

本末节仅仅简略介绍根本概念和公式，更全面和深化的了解建议看《机器学习》书本。

贝叶斯定理（英语：Bayes' theorem）是概率论中的一个定理，描绘在已知一些条件下，某工作的产生概率。比方，假如已知某种健康问题与寿数有关，运用贝叶斯定理则能够经过得知或人年龄，来愈加精确地核算出或人有某种健康问题的概率。

一般，工作 A 在工作 B 已产生的条件下产生的概率，与工作 B 在工作 A 已产生的条件下产生的概率是不一样的。可是，这两者是有确认的联系的，贝叶斯定理便是这种联系的陈述。贝叶斯公式的一个用处，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率散布有关。

作为一个遍及的原理，贝叶斯定理关于一切概率的解说是有效的。这必定理的首要运用为贝叶斯推断，是推论计算学中的一种推断法。这必定理称号来自于托马斯贝叶斯。

来源中文维基百科-贝叶斯定理

3.11.1，贝叶斯定理公式

贝叶斯定理是关于随机工作 A 和 B 的条件概率的一则定理。

$P(A∣B)=P(A)P(B∣A)P(B)P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}$

其间 A 以及 B 为随机工作，且 $P (B)$ 不为零。 $P(A∣B)P(A\mid B)$ 是指在工作 B 产生的情况下工作 A 产生的概率。

在贝叶斯定理中，每个名词都有约定俗成的称号：

$P(A∣B)P(A\mid B)$ 是已知 B 产生后，A 的条件概率。也称作 A 的事后概率。
$P (A)$ 是 A 的先验概率（或边际概率）。其不考虑任何 B 方面的要素。
$P(B∣A)P(B\mid A)$ 是已知 A 产生后，B 的条件概率。也可称为 B 的后验概率。某些文献又称其为在特定 B 时，A 的似然性，因为 $P(B∣A)=L(A∣B)P(B\mid A)=L(A\mid B)$ 。
$P (B)$ 是 B 的先验概率。

3.11.2，贝叶斯理论与概率密度函数

贝叶斯理论亦可用于概率散布，贝叶斯理论与概率密度的联系是由求极限的方法树立：

$P(x∣y)=P(x)P(y∣x)P(y)P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})}$

留意到 $P (y)$ 呈现在上面的公式中，它一般运用 $P(y)=∑xP(y∣x)P(x)P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x)$ 来核算所以咱们并不需求事先知道 $P(y)P(\textrm{y})$ 的信息。

中文维基百科中贝叶斯理论与概率密度联系界说: $f(x)f(y)f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}$

3.12，接连型变量的技术细节

接连型随机变量和概率密度函数的深化了解需求用到数学分支测度论(measure theory)的相关内容来扩展概率论，测度论超出了本书领域。

原书中有测度论的简要介绍，本笔记不做记载和摘抄，感兴趣的能够阅读原书。

3.13，信息论-相对熵和穿插熵

信息论是运用数学、电子学和核算机科学的一个分支，早期备用在无线通信领域。在深度学习中，首要是运用信息论的一些关键思想来表征(characterize)概率散布或许量化概率散布之间的相似性。

信息论的根本主意是一个不太或许的工作居然产生了，要比一个十分或许的工作产生，能供给更多的信息。

界说一个工作 $x=x\textrm{x} = x$ 的自信息(self-information) 为

-\text{log}P(x)

在本文中，咱们总是用 $log\text{log}$ 来表明天然对数，其底数为 $e$ 。因而咱们界说的 $I (x)$ 单位是奈特(nats)。一奈特是以 $1e\frac{1}{e}$ 的概率观测到一个工作时取得的信息量。其他的材猜中或许运用底数为 2 的对数，单位是比特(bit)或许香农(shannons); 经过比特衡量的信息仅仅经过奈特衡量信息的常数倍。

自信息只处理单个的输出。咱们能够用香农熵(Shannon entropy)来对整个概率散布中的不确认性总量进行量化:

H(\textrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)]

换句话说，一个概率散布的香农熵是指遵从这个散布的工作所产生的希望信息总量。

假如咱们关于同一个随机变量 $x\textrm{x}$ 有两个独自的概率散布 $P(x)P(\textrm{x})$ 和 $Q(x)Q(\textrm{x})$ ，则能够用 KL 散度（ Kullback-Leibler (KL) divergence，也叫相对熵）来衡量这两个概率散布的差异：

DKL(P∥Q)=Ex∼p[logP(x)Q(x)]=Ex∼p[logP(x)−logQ(x)]D_{KL}(P\parallel Q) = \mathbb{E}_{\textrm{x}\sim p}\begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{\textrm{x}\sim p}[log P(x) – log Q(x)]

KL 散度有许多有用的性质，最重要的是它是非负的。KL 散度为 0 当且仅当 $P$ 和 $Q$ 在离散型变量的情况下是相同的概率散布，或许在接连型变量的情况下是 “几乎处处” 相同的。

一个和 KL 散度密切联系的量是穿插熵(cross-entropy) $H(P, Q) = H(P) + D_{KL}(P||Q)$ ，其核算公式如下:

-\mathbb{E}_{\textrm{x}\sim p}log Q(x)

和 KL 散度相比，少了左面一项，即熵 $H (P)$ 。能够看出，最小化 KL 散度其实便是在最小化散布之间的穿插熵。

上式的写法是在前面所学内容数学希望的根底上给出的，还有一个写法是《机器学习-周志华》书中附录 C 中给出的公式，更为直观了解： $KL(P∥Q)=∫−∞+∞p(x)logp(x)q(x)dxKL(P\parallel Q) = \int_{-\infty }^{+\infty} p(x)log \frac{p(x)}{q(x)} dx$ 其间 $p (x)$ 和 $q (x)$ 分别为 $P$ 和 $Q$ 的概率密度函数。这儿假设两个散布均为接连型概率散布，关于离散型概率散布，只需求将积分替换为对一切离散值遍历求和。

KL 散度满意非负性和不满意对称性。将上式展开可得： $KL散度KL(P∥Q)=∫−∞+∞p(x)logp(x)dx−∫−∞+∞p(x)logq(x)dx=−H(P)+H(P,Q)\text{KL 散度} KL(P\parallel Q) = \int_{-\infty }^{+\infty}p(x)logp(x)dx – \int_{-\infty }^{+\infty}p(x) logq(x)dx = -H(P) + H(P,Q)$ $穿插熵H(P,Q)=Ex∼plogQ(x)=−∫−∞+∞p(x)logq(x)dx\text{穿插熵} H(P,Q) = \mathbb{E}_{\textrm{x}\sim p} log Q(x) = – \int_{-\infty }^{+\infty} p(x) logq(x)dx$

其间， $H (P)$ 为熵（entropy）， $H (P, Q)$ 为穿插熵（cross entropy）。

在信息论中，熵 $H (P)$ 表明对来自 $P$ 的随机遍历进行编码所需的最小字节数，而穿插熵 $H (P, Q)$ 表明运用 $Q$ 的编码对来自 $P$ 的变量进行编码所需的字节数。因而 KL 散度能够为是运用基于 $Q$ 的编码对来自 $P$ 的变量进行编码所需的“额定字节数”；明显，额定字节数非负，当且仅当 $P = Q$ 时额定字节数为 0。

3.14，结构化概率模型

略

参考资料

zh.m.wikipedia.org/zh-hans/%E6…
《深度学习》
《机器学习》

本文首发于 github。最新版以 github 为主。假如看完文章有所收获，必定要先点赞后收藏。毕竟，赠人玫瑰，手有余香。

本文大部分内容来自《深度学习》（花书）第三章概率与信息论和维基百科，但从中抽取重要的常识点，并对部分概念和原理加以自己的总结，适合当作原书的弥补资料阅读，也可当作快速阅读机器学习原理根底常识的参考资料。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。