经验风险最小化

就线性分类模型而言,可以将其表示为: hθ(x)=g(θTx), g(z)=1{z0}

其中,训练集表示为: S={(x(i),y(i))}mi=1,(x(i),y(i))D
这里假设了训练数据都是独立同分布的。

那么,我们认为,这个线性分类器的训练误差就可以表示为它分类错误的样本比例: ˆε(hθ)=ˆεs(hθ)=1mmi=11{hθ(x(i))y(i)}

在这里,我们把训练误差也称为风险(risk),由此我们导出了经验风险最小化。

经验风险最小化

Empirical Risk Minimization,ERM

经验风险最小化,最终导出一组参数,能够使得训练误差最小: ˆθ=argminˆεs(hθ)

我们再定义一个假设类H={hθ,θRn+1},它是所有假设的集合。在线性分类中,也就是所有线性分类器的集合。

那么,我们可以重新定义一次ERM: ˆh=argminhHˆε(h)

对上述公式的直观理解就是:从假设类中选取一个假设,使得训练误差最小。我们这里用了ˆh表示估计,因为毕竟不可能得到最好的假设,只能得到对这个最好的假设的估计。

但这仍然不是目标,我们的目标是使得泛化误差 Generalization Error最小化,也即新的数据集上分类错误的概率: ε(h)=P(x,y)D(h(x)y)

接下去,为了证明:

  • (1)ˆεε,训练误差近似于泛化误差(理解为,泛化误差和训练误差之间的差异存在上界)

  • (2)ERM输出的泛化误差ε(ˆh)存在上界;

我们引出两个引理:

  • 联合界引理(Union Bound)

    A1,A2,,Ak是k个事件,他们之间并不一定是独立分布的,有: P(A1Ak)P(A1)++P(Ak)

  • Hoeffding不等式(Hoeffding Inequality)

    z1,zm是m个iid(independent and identically distribution,独立同分布),他们都服从伯努利分布,P(zi=1)=ϕ,那么对ϕ的估计: ˆϕ=1mmi=1zi

    于是,给定γ>0,有: P(|ˆϕϕ|>γ)2exp(2γ2m)

    Hoeffding不等式的直观解释就是,下图中的阴影面积,会有上界。

    image-20190106143941030image-20190106143941030
    image-20190106143941030

一致收敛

Uniform Conversions

对于某个hjH,我们定义zi=1{hj(x(i))y(i)}{为第i个样本被分类错误的指示函数的值,对于logistic而言,它服从伯努利分布。

那么:

  1. 泛化误差:P(zi=1)=ε(hj)
  2. 训练误差:ˆε(hj)=1mmi=1zi

根据Hoeffding不等式,我们能够得到: P(|ˆε(hj)ε(hj)|>γ)2e2γ2m

接着,我们定义训练误差和泛化误差之间的差大于γ|ˆε(hj)ε(hj)|>γ)为事件Aj,根据以上结论,我们可知: P(Aj)2e2γ2m
那么根据联合界引理: P(hjH,|ˆε(hj)ε(hj)|>γ) =P(A1A2Ak) ki=1P(Ai) ki=12e2γ2m =2ke2γ2m
可以表述为:存在hj使|ˆε(hj)ε(hj)|>γ的概率2ke2γ2m

等价于:不存在hj使|ˆε(hj)ε(hj)|>γ的概率12ke2γ2m

等价于:H中任意的hj使得|ˆε(hj)ε(hj)|γ的概率12ke2γ2m

我们将上面这个结论称之为一致收敛 Uniform Conversions,也就是说事实上,所有的假设,训练误差和泛化误差之间都存在上界。

样本复杂度,误差界以及偏差方差权衡

上面的结论,我们可以引出以下的一些推论:

样本复杂度 Sample Complexity

给定γ,δ,需要多大的训练集合(m)?其中δ指的是泛化误差和训练误差之差大于γ的概率。

我们知道,δ2ke2γ2m,可求解: m12γ2log(2kδ)

这个,也被称为样本复杂度(类似于时间复杂度),指的是,只要满足上面这个条件,任意hH,都能得到|ˆε(hj)ε(hj)|γ

误差界 Error Bound

给定δ,m时,我们会得到多大的误差上界γ

经过求解可以得到: P(hH,|ˆε(hj)ε(hj)|12mlog(2kδ))1δ

也就是误差上界是:γ=12mlog(2kδ)

偏差方差权衡 Bias Variance Tradeoff

我们定义: ˆh=argminhHˆε(h), 使得训练误差最小的h h=argminhHε(h), 使得泛化误差最小的h

假如: hH,|ˆε(hj)ε(hj)|γ

那么: ε(ˆh)ˆε(ˆh)+γ,derived from (3) ˆε(h)+γ,derived from (1) ε(h)+γ+γ, derived from (3)

于是,我们得到如下定理:

给定大小为k的假设集合H,给定m,δ,那么: ε(ˆh)(minhHε(h))ε(h)+212mlog(2kδ)γ

的概率不低于1δ

可以想象,为了得到最佳的假设h,我们尽可能增大H(能够减小ε(h)),但随之而来的就是γ的增大,所以需要在这两者之间进行权衡,我们指的就是偏差方差权衡 Bias Variance Tradeoff

image-20190106154201189image-20190106154201189
image-20190106154201189

由此,我们得到一个推论:

给定δ,γ,为了能够保证ε(ˆh)(minhHε(h))+2γ的概率不小于1δ(ERM得到的假设的一般误差,与最佳假设的一般误差之间,差值不大于2γ

我们需要保证: m12γ2log(2kδ)