就线性分类模型而言,可以将其表示为: hθ(x)=g(θTx), g(z)=1{z≥0}
那么,我们认为,这个线性分类器的训练误差就可以表示为它分类错误的样本比例: ˆε(hθ)=ˆεs(hθ)=1mm∑i=11{hθ(x(i))≠y(i)}
经验风险最小化
Empirical Risk Minimization,ERM
经验风险最小化,最终导出一组参数,能够使得训练误差最小: ˆθ=argminˆεs(hθ)
我们再定义一个假设类H={hθ,θ∈Rn+1},它是所有假设的集合。在线性分类中,也就是所有线性分类器的集合。
那么,我们可以重新定义一次ERM: ˆh=argminh∈Hˆε(h)
但这仍然不是目标,我们的目标是使得泛化误差 Generalization Error最小化,也即新的数据集上分类错误的概率: ε(h)=P(x,y)∼D(h(x)≠y)
(1)ˆε≈ε,训练误差近似于泛化误差(理解为,泛化误差和训练误差之间的差异存在上界)
(2)ERM输出的泛化误差ε(ˆh)存在上界;
我们引出两个引理:
联合界引理(Union Bound)
A1,A2,…,Ak是k个事件,他们之间并不一定是独立分布的,有: P(A1∪…∪Ak)≤P(A1)+⋯+P(Ak)
Hoeffding不等式(Hoeffding Inequality)
z1,…zm是m个iid(independent and identically distribution,独立同分布),他们都服从伯努利分布,P(zi=1)=ϕ,那么对ϕ的估计: ˆϕ=1mm∑i=1zi
于是,给定γ>0,有: P(|ˆϕ−ϕ|>γ)≤2exp(−2γ2m)Hoeffding不等式的直观解释就是,下图中的阴影面积,会有上界。
image-20190106143941030
image-20190106143941030
一致收敛
Uniform Conversions
对于某个hj∈H,我们定义zi=1{hj(x(i))≠y(i)}∈{为第i个样本被分类错误的指示函数的值,对于logistic而言,它服从伯努利分布。
那么:
- 泛化误差:P(zi=1)=ε(hj)
- 训练误差:ˆε(hj)=1m∑mi=1zi
根据Hoeffding不等式,我们能够得到: P(|ˆε(hj)−ε(hj)|>γ)≤2e−2γ2m
等价于:不存在hj使|ˆε(hj)−ε(hj)|>γ的概率≥1−2ke−2γ2m。
等价于:H中任意的hj使得|ˆε(hj)−ε(hj)|≤γ的概率≥1−2ke−2γ2m。
我们将上面这个结论称之为一致收敛 Uniform Conversions,也就是说事实上,所有的假设,训练误差和泛化误差之间都存在上界。
样本复杂度,误差界以及偏差方差权衡
上面的结论,我们可以引出以下的一些推论:
样本复杂度 Sample Complexity
给定γ,δ,需要多大的训练集合(m)?其中δ指的是泛化误差和训练误差之差大于γ的概率。
我们知道,δ≤2ke−2γ2m,可求解: m≥12γ2log(2kδ)
误差界 Error Bound
给定δ,m时,我们会得到多大的误差上界γ。
经过求解可以得到: P(∀h∈H,|ˆε(hj)−ε(hj)|≤√12mlog(2kδ))≥1−δ
偏差方差权衡 Bias Variance Tradeoff
我们定义: ˆh=argminh∈Hˆε(h), 使得训练误差最小的h h∗=argminh∈Hε(h), 使得泛化误差最小的h
那么: ε(ˆh)≤ˆε(ˆh)+γ,derived from (3) ≤ˆε(h∗)+γ,derived from (1) ≤ε(h∗)+γ+γ, derived from (3)
给定大小为k的假设集合H,给定m,δ,那么: ε(ˆh)≤(minh∈Hε(h))⏟ε(h∗)+2√12mlog(2kδ)⏟γ
可以想象,为了得到最佳的假设h∗,我们尽可能增大H(能够减小ε(h∗)),但随之而来的就是γ的增大,所以需要在这两者之间进行权衡,我们指的就是偏差方差权衡 Bias Variance Tradeoff。

由此,我们得到一个推论:
给定δ,γ,为了能够保证ε(ˆh)≤(minh∈Hε(h))+2γ的概率不小于1−δ(ERM得到的假设的一般误差,与最佳假设的一般误差之间,差值不大于2γ)
我们需要保证: m≥12γ2log(2kδ)