0 感言

进行本章时是第一次进行“可学性”理论的学习，希望自己能够理解这一概念。不过值得庆幸的是有组里学长之前PPT的帮助。

最近要开始忙毕业论文了，所以这一篇完了会咕一阵子更新环复杂度第三章的学习变量是什么意思，希望自己能测试工程师学清楚并且有不错的算法的特征表述 (然而主体还是组里同学的PPT只是小修小改这复杂度些，再次向组里的同学表示感谢！)

2.0 什么是可学性 (learnable)

在考虑算法变量设计的时候，对于一个任务，我们要考虑其是变量英语否可学，即从理论上对其是否可行进行大致分析。

2.1 可学性的基本概念

样本空间 (输入空间) $X$
标记空间 (输出空间) $Y = {- 1, + 1}$
样本集 $D={(xi,yi)}i=1m,xi∈X,yi∈YD变量英语={(x_i,y_i)}_{i=1}^m变量类型有哪些, x_iinmathcal{X},y_iinmathcal{Y}$

对于这样一个样本，假设 $D$ 是 $X Y$ 上的联合分布， $DXmathcal{D}_算法的五个特性{mathcal{X}}$ 是样本空间 $X$ 上的边缘分布，假设 $D$ 中所有样本从 $D$ 中独立同分布 (independent and identically distributed, $i . i . d$ ) 采样得到 $D∼DmDsimmathcal{D}^m$

泛化误差和经验误差

对于一个学习算法 $L$ ，对其输入样本集 $D$ ，使apple用映射 $h : X \mapsto Y$ 对其进行输出，为了评价 $L$ 和 $h$ 的质量，引入 泛化误差 (generalization error环复杂度) 的概念

E(h;D)=P(x,y)∼D(h(x)≠y)=E(x,y)∼D[I(h(x)≠y)]E测试你适合学心理学吗(h;mathcal{D})=P_{(bold{x},y)simmathcal{D}}(h(bold{x})ne y)=E_{时间复杂度(bold{x},y)simmathcal{D}}[mathbb{I}(h(bold{x})ne y)]

但是泛化误差只是个理想化概念，现实中我们对于 $D$ 无从知晓，所以引入 经验误差 (empiapplicationrical error) 的概念来估计泛化误差。(在环复杂度数据独立同分布假设下，经验误差的期望等于泛化误差 )

E(h;D)=1m∑i=1mI(h测试手机是否被监控(xi≠yi)复杂度怎么计算的)hat{E}(时间复杂度h;D)=frac{1}{m}sum_{i=1}^mma测试英文thbb{I}(h(变量泵bold{x_i}ne y_i))

简记 $E (h; D) = E (h), E (h; D) = E (h)$ ，下给出证明

ED∼Dm(E(h;D)算法的空间复杂度是指)=ED∼Dm(1m变量名的命名规则∑i算法分析的目的是=1mI(h(xi≠yi)))=1m∑i=1mE(算法是指什么xi,yi)∼D(I变量名的命名规则(h(xi≠yi))=1mE(h;D)=E(h;D)Q.E.D.E_{Dsimmathcal{D}^m}(hat测试用例{E}(h;D))=E_{Dsimmathcal{D}^m}(frac{1approve}{m}sum_{i=1}^mmathbb{I}(h(bold{x_i变量的定义}ne y_i)))\ =frac{1}{m}sum_{i=1}^m E_{(mathbb{x_i},y_i)simmathcal{D}}(mathbb{I}(h(bold{x_i}ne y_i)) =frac{1}{m}times E(h;mathcal{D})=E(h;mathcal{D}) text{Q.E.D.}

若 $h$ 在 $D$ 上的经验误差为0，则称 $h$ 与变量的定义 $D$ 一致，否则称其不一致，对于任意两个 $X \mapsto Y$ 上的映射 $h_1,h_2$ ，可通过不合 (disagreement) 来度量它们之间的差别，即

dis(h1,h2)=Px∼DX(h1(x)≠h2(x))dis(h_1,h_2)=P_{bold{x}simmathcal{D}_mathcal{X}}(h_1(x)ne h_2(x))

概念和概念类

定义概念 (concept) 为算法的时间复杂度取决于样本空间到标记空间的映射：变量类型有哪些 $c : X \mapsto Y$
若对任何 $(x, y)$ 有 $c (x) = y$ 成立，则称算法设计与分析 $c$ 为目标概念
所有我们希望学得的目标概念所组成的集合称为 概念类 (concept class) $C$
例子
- 对测试仪于所有平面几何图形构成的样本空间，目标概念“三角application形”把所有三测试仪角形映射为1，其他几何图形映射为-1；类似地测试你的自卑程度，{变量三角形，四边圈复杂度形，五边形}可构成一个任务的概念类。
- 对于所有 $R$ 上的区间构成的样本空间，目标概念“开区间approve”把所有开区测试抑郁症间映射为1，其他区间映射为-1；类似地，{开区间，闭区间}空间复杂度可构成一测试个任务的概念类。

假设空间

给定学习算法 $L$ ，它所考虑的所有可能概念的集合称为 假设空间 (hypothesis space) $H$ ，假设空间中的元素则称为假设 (hypothesis)。
目标概念和假设的关系
- 目标概念和假设的形式都是样本空间到标记空间的映appstore射 (概念)
- 一个目标概念 $c (x)$ 决定样本 $x$ 的真实变量标记 $y$ ，而 $h (x)$ 只是学测试抑郁程度的问卷习算法 $L$ 所认application为的标记 $y$
概念类和假设环形复杂度空间的关系
- 由于学习算法事先并不知道概念类的真实存在，因此变量类型有哪些通常有 $H \neq = C$

可分性

若目标概念 $c \in H$ ，则 $H$ 中存在假设能将所有样本正确分开，我们称以 $c$ 为目标的这个学习问题测试抑郁症对假设空间 $H$ 是 可分的 (separable)，否则称该学习问题为 不可分的 (non-separable)。
可分性仅代表学习测试英文算法的上限
- 只表示测试你的自卑程度目标概念的存在性，不考虑寻找目标概念的难度
可分性在严格性上具有局限性
- 有时，由于噪声或appstore者异常值的影响，数据并非完全可区分的，算法只能区分绝大多数的样本
因此可分性没有完全定义学习算法的有效性

2.2 PAC可appear学性

PAC (Probably Approximately Correct) 可学

基本概复杂度怎么计算的念
- 给定训练集 $D$ ，我们希望基于学习算法 $L$ 学得的模型所对应的假设变量与函数 $h$ 尽可能接近目标概念 $c$
- 为测试手机是否被监控什么无法精确学习：存在各种偶然性，例如训练集有限引发的采样偶然性
尽可能接近 的准确含义：以较大的概率学得误差满足预设上限的模型：概率近似正确 (Probab排序复杂度ly A测试抑郁症的20道题pproximately Correct, PAC)
PAC辨识 (PAC Identify)：对 $0 <, < 1$ ，所有 $c \in C$ ，和分布 $D$ ，若存在学习算法 $L$ ，其输出假设 $f \in H$ 满足 $P (E (h) \leq 环形复杂度) \geq 1 -$ ，则称学习算变量法 $L$ 能从假设空间 $H$ 中PAC辨识概念类 $C$
- 概率 $P (\cdot)$ 的意义此处appointment未明确，应结合后面PAC可学的approach定义理解
PAC可学 (PAC Learnable)：令m表示从分布 $D$ 独立同分布采样得appetite到的样本数量， $0 <, < 1$ ，对所有分布 $D$ ，若存在学习算法 $L$ 和多项式函数 $p o l y (\cdot, \cdot, \cdot, \cdot)$ ，使得对于任何 $m≥poly(1,1,size(x),size(c))mge poly(frac{1}{epsilon},frac{1}{delta},size(x变量是什么意思),s测试ize(c))$ ， $L$ 能从假设空间 $H$ 中PAC辨识概念类 $C$ ，则称概念类 $C 算法导论$ 对假设空算法的五个特性间 $H$ 而言是PAC可学的
- 在此处重新理解PAC辨识中的算法的五个特性概率P，可认为是相对于训练的偶然性
- $s i z e (x), s i 圈复杂度 z e (c)$ 理解为样本变量和概念的表示复杂度

图例1.其他的关于PAC可学的定义

PAC 学习算法及其复杂度

PAC学习算法：若学习算法 $L$ 使概念类 $C$ 为P变量之间的关系AC可学，且算法的空间复杂度是指 $L$ 的运行时间也是多算法的空间复杂度是指项式函数 $poly(1,1,size(x),size(c))poly(frac{1}测试抑郁症的20道题{epsilon},frac{1}{delta},si算法工程师ze(x),size(c))$ ，变量与函数则称概念类 $C$ 是高效PAC可appreciate学的，appstore则称 $L$ 为概念类 $C$ 的 PAC 学习算法
- 这里的空间复杂度运行时间应理解为 $L$ 从 $H$ 中PAC辨识 $C$ 所需的运行时间，可作为学习算法的时间复杂度
样本复杂度：满足PAC学习算法 $L$ 所需的 $m≥poly(1,1,size(x),size(c))mge poly(frac{1}{epsilon},frac{1}{appearancedelta},size(x),size(c))$ 中最小的m，成为学习算法 $L$ 的样本复杂度
若学习算法 $L$ 处理每个样本的时间为常数，则 ℒ 的时间复杂度等价于样本复杂度

PAC 理论的特性

PAC 是一个分布无关的理论模型
- 其对数据分布 $D$ 不作任何假设
PAC 要测试抑郁症求数据独立采样自同一分布 (即独立算法的五个特性同分布，i.i.d.)
- 特别地，强调测试集和训练集来自同一分布
PAC 考虑的是针对某个概念类 $C$ 而不是特定概念的可学性
- 目标概念 $c \in C$ 对学测试抑郁程度的问卷习算法来说是未知的

恰 PAC 可学和不可知 PAC 可学

若 $H = C$ ，即学习算法的能力与学习任务恰好匹配，则称为 恰PAC可学
- 看似合理，并不实际，一般考虑 $H \neq = C$
若 $C \in / H$ ，则 $L$ 无法学得的近似，但我们仍可以找到 $H$ 中泛化误差最小的假设为目标，学习其近似，环路复杂度称为不可知学习：

令 m 表示从分布 $D$ 独立同分布采样得到的样本数量， $0 <, < 1 appreciate$ ，测试抑郁症的20道题对所有分布 $D$ ，若存在学习算法 $L$ 和多项式函数 $p o l y (测试仪 \cdot, \cdot, \cdot, \cdot)$ ，使得对于任何 $m≥poly(1,1,size(x),size(c))mge poly(frac{1}{epsilon},frac{1}{delta},size(x),size(c))$ ， $L 算法的特征$ 能从假设空间 $H$ 中输出满足下述条件的假设 h
$P(E(h)−min⁡h′∈HE′(h)≤)≥1−Pleft(E(h)-min_{h’inmathcal{H}} E'(h)leepsilonright)ge1-delta$
则称假设空间 $H$ 是 不可排序复杂度知PAC可学 的。

再谈变量之间的关系泛化误差和经验误差

用经验误差近似泛化误差的合理性
是否任何时候变量英语都可以作近似？能否进一步刻画近似程度？

引理 (第一章中的 Hoeffding 不等式)：若训练集 $D$ 包含 m 个从分布 $D$ 上独立同分布采样而得的样本， $0 < < 1$ ，则对任意 $h \in H$ ，有

P(E变量泵(h)−E(变量的定义h)≥)≤exp⁡(−2m2)P(E(h)−E(h)≤−)≤exp⁡(−2m2)P(∣E(h)−E(h)∣≥)≤环形复杂度2exp⁡(−2m2)Pleappearft(hat{E}(h)-E(h)geepsilonright)leexp{(-算法设计与分析2mepsilon^2)}\ Pleft(hat{E}(h)-E(h)le-epsilonright)leexp{(-2mepsilon^2)}\ Pleft(|hat{E}(h)-E(h)|geepsilonr算法ight)le2测试手机是否被监控exp{(-2mepsilon^2)}

定理：若训练集 $D 测试你适合学心理学吗$ 包含 m 个从分布 $D$ 上独立同分布采样而得的样本，则对任意 $h \in H$ ，有

P(∣E(h)−E(h)∣<12m算法分析的目的是ln⁡算法工程师2)≥1−Pleft(|hat{E}(h)-E(h)|<sqrt{frac{1}{2m}ln{frac{2}{delta}}}right)ge1-delta

解释：样本数目 m 较大时，经验误差可以作为泛化误差的近似

证明：由引理 $P(∣E变量是什么意思(h)−E(h)∣≥)≤2exp⁡(−2m2)Pleft(|hat{E}(h)-E(h)|环复杂度geepsilonright)le2exp{(-2mepsilon^2)}$ ，不妨令 $=2exp⁡(−2m2)delta=2exp{(-2mepsilon^2)}$ ，即 $=12mlapproachn⁡2epsilon=sqrt{frac{1}{2m}ln{frac{2}{delta}}}$ ，代入引理有

P(∣E(h)−E(h)∣≥12mln⁡2)≤Pleft(|hat{E}(h)-E(h)|gesqrt{frac{1}{2m}ln{frac{2}{delta}}}right)ledelta

即算法导论

P(∣E(h)−E(h)∣<12mln⁡2)≥1−Pleft(|hat{E}(h)-E(h)|<sqrt{frac{1}{2mappointment}ln{frac{2}{delta}}}right)ge1-delta

2.3 实例分测试抑郁症析

布尔合取式的学习

布尔合取式概念类

令样本 $x∈Xn={0,1}nxinmathcal{X}_n={0,1}^n$ 表示对 n 个布尔变量 $bi(i∈[n])b_i (iin[n])$ 的一种赋值，布尔合取式概念是形如 $bi,bib_i,neg b_i$ 的文字所构成的合取式
- 例： $c=b1∧b3∧b4c=b_1landneg b_3land b_4$ 意味着对 ${x∈X:x1=1,x3=0,x4=1}{xinmathcal{X}_:x_1=算法1,x_3=0,x_4=1}$ 有 $c (x) = 1$
所有布尔合取式概念组成了布尔合取式apple概念类 $Cnmathcal{C}_n$
下面通过构造学习算法 $L$ 来证明 $Cnmathcal{C}_n$ 是高效PAC可学的
- 即证明：存在一个多项式函数 $p o l y (\cdot, \cdot, \cdot, \cdot)$ ，当样本集大小 $m≥poly(1,1,size(x),size(c))mge po变量名ly(frac{1}{epsil环路复杂度on},frac{1}{delta},size(x),size(c))$ 时， $L$ 输出的假设满足要求 $P (E (h) \leq) \geq 1 -$
- 这里 $s i z e (x)$ 和 $s i z e (c)$ 对应合取式中的文字个数，因空间复杂度此 $s i z e (x) \leq 1 n, s i 时间复杂度 z e (c) \leq 2 n$
学习算法测试你适合学心理学吗 $L$ 构造：
- 假设空间： $H=Cnmathcal{H}=mathcal{C}_n$
- 初始化： $h=b1∧b2∧…∧bn∧bn(h(x)≡0,∀x∈X)h=b_1landneg b_2land…land b_nlandneg b_n (h(x)equiv0, forall xinmath变量名cal{X})$
- 学习过程：只使用训练集中的正例，删除h中所有与正例矛盾的文字 $\forall (x, 1), \forall u \in [n]$
  - 若 $xi=变量之间的关系0x_i=0$ ，则从h中删除 $b_i$
  - 若 $x_i=1$ ，则从h中删除 $b_i$
考虑任变量名意目标概念 $c∈Cn测试仪cinmathcal{C}_n$ ，分析 $L$ 学习到其近似的概率
- c 包含的文字在任何时测试仪刻仍出现在 h 中
- 考虑出现在 h 中但未出现在 c 中的文字 $b ~$ 对满足 $b ~ = 0$ 的正例 x,h 由于包测试含 $b ~$ 而在 x 上出错；但变量是什么意思同时，x 也恰能使算法从 h 中删除 $b ~$
- 令 $P (b ~)$ 表示此类样本出现的概率，有
$P(b~)=Px∼DX(c(x)=1∧b~(x)=0)P(tilde{b})=P_{xsimmathcal{D}_approach{mathcal{X}}}left(c(x)=1land tilde{b}(x)=0right)$
- 由于 h 所犯的每个错误都可变量名归因于 h 中application至少有一个文字 $b ~$ ，从而可得
$P(U_{ti算法工程师lde{b}in h}tilde{b})lesum_{tilde{b}in h}P(tilde{b测试抑郁症})$
- 称满足 $P(b~)≥2nP(tilde{b})gefrac{epsilon}{2n}$ 的文字 $b ~$ 为“坏字”，若 h 不包含任何坏字，则有
$sum_{tilde{b}in h}P(tilde{b})le 2ncdotfrac{epsilon}{2n}=epsilon$
- 对任何给定的坏字 $b ~$ ，随机抽取一个样本导致其被删除的概率为 $P 圈复杂度 (b ~)$ ，于是学习算法在使用 m 个测试手机是否被监控样本后坏字 $b ~$ 仍未被从 h 中删除的概率最多为 $(1−2n)mle环形复杂度ft(1-frac{epsiloapproachn}{2n}right)^m$
- 考虑所有 2n 个approach文字，则 h 中存在坏字未appearance被删除的概率至多为 $2n(1−2变量的定义n)m2n测试英文left测试你的自卑程度(1-fr算法的空间复杂度是指ac{epsilon}{2n}right)^m$ ，从而可知 h 不包含任何坏字的概率至少为 $1−2n(1−2n)m1-2nleft(1-frac{epsilon}apple{2n}right)^m$ ，故
$P(E(h)≤)排序复杂度≥1−2n(1−2n)mP(E(hAPP)leepsilon)ge1-2nleft(1-frac{epsilon}{2n}righappearancet)^m$
- 当 $(1−2n)m≤exp⁡(−m2n)≤2nleft(1-frac{epsilon算法是指什么}{2n}right)^mleexpleft(-测试frac{mepsilon}{2n}righ测试英文t)测试抑郁程度的问卷lefrac{delta}{2n}$ ，即 $m≥测试抑郁症pappstoreoly(1,1,n)mge polyleft(f变量与函数rac{1}{epsilon},frac{1}{delta},nright)$ 时，有
$P (E (h) \leq) \geq 1 -$
- 上已得证布尔变量与函数合取式概念类 $Cnmathcal{C}_n$ 是PAC可学的
- 注意到 $L$ 处理每个样本所需的计算时间至多为 n 的线性函数，因此概念类 $Cnmathcal{C}_n算法分析的目的是$ 是高效PAC可学的

k-DNF 与 k-CNF 的学习

k-DNF 概念类

k项析取范式 (k-term Disjunctive Normal Form): 多个布尔合取式的析取，每个变量值析取式至多包含k个文字
- 例： $(x1变量名∧x2∧变量泵x3)∨(x1∧x3)(x_1landneg x_2land x_3)lor(neg x_1land x_3)$ 是一个 3-DNF 公式
所有 k-DNF 组成概念类 $Ck−DNFma变量之间的关系thcal{C}^{k−DNF}$
$Ck−DNFmathcal{变量英语C}^{k−DNF}$ 在 DNF 公式表示下）不是高效 PAC 可学的，除非 $N P = R P$
- 证明大致流程：利用三着色问题 (NPC) 与 k-DNF 之间的关系
  
  如果 $Ck−DNFmathcal{C}^{算法的特征k−DNF}$ 高效 PAC 可学，我们可以设计一个随机多项式时间的算法来解决三着色问题

k-CNF 概念类

k项合取范式 (k-term Conjunctive Normal Form): 多个布尔析取式的合取，每个析取式至多包测试用例含k个文字
- 例： $(x1∨x2∨x3)∧(x1∨x3)(x_1lorneg x_2lor x_3)lan测试仪dapplication(neg x_1lor x_3)$ 是一个 3-CNF 公式
所有 k-CNF 组成概念类 $Ck−CNFmathcal{C}^{k−CNF}$
$Ck−CNFmathcal{C}^{k−算法分析的目的是CN环复杂度F}$ 与 $Ck−DNFmathcal{C}^{k−DNF}$ 的关系
- 每一个 k-DNF 公式可以写成一个等价的算法的空间复杂度是指 k-CNF 公式 (因为 $\lor$ 对 $\land$ 满足分配率appear)
- 因此， $Ck−CNF⊂Ck−DNFmathcal{C}^{k−C算法导论NF}subsetmathcal{C}^{k−DNF}$
$Ck−CNFmathcal{C}^{k−CNF}$ 是高效 PAC 可学的
- 对于包含 n 个布尔变量的集合 $B={b_1,…,b_n}$ ，考虑其中任意k个布尔变量形成的k元组 $(bi1,bi2,…,bik)(b_{i_1},b_{圈复杂度i_2},…,b_{i_k})$ ，构造一个新的布尔变量集合
$A={abi1,bi2,…,bik=bi1∨bi2∨⋯∨bik},∣A∣=O(nk)A={a_{b_{i_1}测试用例,b_{i_2},…,b_{i_k}}=b_{i_1}lor b_{i_2}lorcdotslor b_{i_k}}apple, |A|=maappearancethcappetiteal{O}(n^k)$
- B 上的任意 k-CNF 概念 $c∈Ck−CNFcinmathcal{C}^{k-CNF}$ 都能转化为 A 上的布尔合取式概念 $c^{'}$
- 前已证明布尔合取式概念类是高效 PAC 可学的，因此 k-CNF 类也是高效 PAC 可学的
即便对同一个概念类，选择不同的表示方法可能会导致不同的学习性

轴平行矩形的学习

轴平行矩形概念类

有限假设空approve间总能通过简单的经验风险最小化原则进行PAC学习
- 令 $H$ 为可分的有限假设空间，D 为从 $D$ 独立同分布采样得到的大小为 m 的训练集，学习算法 $L$ 基于训算法复杂度练集 D 输出与训练集一致的假测试抑郁症设 $h \in H$ ，对于 $0 <, < 1$ ，若 $m \geq 1 (ln ∣ H ∣ + ln 1)$ ，则有 $P (环复杂度 E (h) \leq) \geq 1 -$
轴平行矩形是平面 $R2mathbb{圈复杂度R}^2$ 上四条边均与坐标轴平行的矩形区变量值域
$R2mathbb{R}^2$ 中每个点对应于一个数测试抑郁症据样本，即 $X=R2mathcal{X}=mathbb{R}^2$
概念 c 是某个特定的轴平行矩形，对该矩形中的点 x 有 $c (x) = 1$ ，否则 $c (x) = - 1$
概念类 $C$ 是 $R2mathbb{R}^2$ 上所有轴平行矩形的集合
下证轴平行矩形概念类是PAC可学的
学习算法错误分析
- 轴平行矩形 $R$ 表示目标概念， $R ~$ 表示一个假设
- $R ~$ 的错误区域为 $(变量类型有哪些 R - R ~) \cup (R ~ - R)$ (即除去重合部分的剩余部分)

图例2.轴平行矩形目标概念 $R$ 与假设 $R ~$ ，蓝色部分+表示正例，白测试仪色部分x表示反例

学习算法 $L$ 的构造
- 对于训练集 D，测试抑郁症输出一个包含了 D 中所有正例的最小轴平行矩形 $R^D$
学习算法 $L$ 的误差分析
- 令 $P (R)$ 表示 R测试用例区域的概率质量，即按照分布 $D$ 随机生成算法导论的点落在区域 R 中的概率
- 学习算法 $L$ 的错误尽可能出现在 $R-R^D$ 上
- 不妨设 $P (R) >$ ，否则 $R^D$ 的误差已满足要求

图例3.学习算法 $L$ 输出的包含了训练集 D 中所有正例的最小平行轴平行矩形 $R^D$

数据样本数目的增加如何影响误差
- 沿 R 的四条边定义4个轴平行矩形区域 $r1,r2,r3,r4r_1,r_appetite2,r_3,算法分析的目的是r_4$ ，使得每个区域的概率质量均为 $4frac{epsilon}{4}$ ，于是 $P(r1∪r2∪r3∪r4)≤P(r_1cup r_2cup r_3cup r_4)leepsilon$
- 若 $R^D$ 与 $r_1,r_2,r_3,r_4$ 都相交，则 $R^D$ 的算法复杂度错误区域将被这4个区域完全覆盖，有 $E(RD)≤P(r1∪r2∪r3∪r4)≤E(R^D)le P(r_1cup r测试英文_2cup r_3cup r_4)leepsilon$
- 考虑 $E(RD)>E(R^DAPP)>epsilon$ 的情况，由上可知 $R^D$ 与 $r_i$ 不相交
- 训练集 D 中每个样本是从 $D$ 中随机采样得测试你的自卑程度到的，其出现在 $r_i$ 中的概率为 $4frac{变量是什么意思epsilon}{测试抑郁症的20道题4}$ ；设 D 包含 m 个样本，则有
$PD∼Dm(E(RD)>)≤PD∼Dm(⋃i=14{RD∩ri=∅})≤∑i=14PD∼Dm({RD∩ri=∅})测试手机是否被监控≤4e−m4P_{Dsim mathcal{D}^m}(E(R^D)>epsilon)le P_{Dsim ma变量thcal{D}^m}left(bigcup_{i=1}^4{R^Dcap r_i=empty}right)lesum_{i=1}^4P_{Dsim mathcal{D}^m}left({R^Dca变量泵p r_i=empty}right)\ le4e^{-frac{mepsilon}{4}}$
- 令 $4e−m/m≤4e^{-mepsilon/m}ledelta$ 即可确保
$PD∼Dm(变量之间的关系E(RD)≤)=测试1−PD测试手机是否被监控∼Dm(E(RD)>)≥1−P_{Dsim mathcal{D}^m}left(E(R^D)leepsilonright)=1-算法是指什么P_{Dsim mathcal{D}^m}left(E(R^D)&gt圈复杂度;epsil算法设计与分析onright)ge1-epsilon$
于是可以求解得 $m≥4ln⁡4mgefrac{4}{epsilon}ln{frac{变量4}{delta}}$

图例4.区域 $r_1,r_2,r_3,r_4$ 的位置情况

上已得证轴平变量英语行举行概念类 $C$ 是PAC可学的
注意到 $L$ 处理每个样本所需的算法分析的目的是计算时间为常数，因此概念类 $C$ 是高效 PAC 可学的

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

《机器学习理论导引》第二章学习笔记