SVM(四)非线性决策边界

当数据中存在异常点时,比如上述的情况,导致原先可以用直线a分割的数据现在不得不用b来进行,以保证完美的分割。由此我们引出了非线性决策边界non-linear decision boundaries)来解决这样的问题。

观察原SVM问题的目标: \[ \min_{w, b} \frac{1}{2}||w|^2 \\\ \text{ s.t. }y^{(i)} \cdot (w^T \cdot x^{(i)}+b) \geq 1, i=1,\ldots,m

Read More

SVM(三)核函数

在SVM(二)中,我们看到了如下的表示形式: \[ W(\alpha)=\sum_{i=1}\alpha_i-\frac{1}{2}\sum_{i=1}\sum_{j=1}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j) \] 这里,内积\((x_i \cdot x_j)\)就是最简单的核函数的形式。一般核函数会被写成\(\langle x^{(i)}, x^{(j)} \rangle\)的形式。

有时候,我们会将一些特征转换到高维空间上,就像我们在之前的过拟合&局部加权回归中提到的,比如特征\(x\)表示的是房屋面积,我们需要预测房子是否会在6个月内被卖出,我们有时候会将这个特征映射成如下的形式: \[ x \rightarrow \begin{bmatrix}

Read More

SVM(二)最优间隔分类器

最优间隔分类器Optimal Margin Classifier)。其目标是使得最小几何间隔最大化(SVM(一)概念): \[ \text{目标(1):} \\\ \max_{w, b} \gamma \\\ \text{ s.t. } y^{(i)} \cdot ((\frac{w}{||w||})^T \cdot x^{(i)}+\frac{b}{||w||}) \geq \gamma, i=1,\ldots,n \] 我们知道,\(\hat{\gamma} = \frac{\gamma}{||w||}\),所以上面的目标可以等同于: \[

Read More

SVM(一)概念

SVM,指的是支持向量机(support vector machines)。

支持向量机,假设数据是线性可分的,那么我们就能找到一个超平面,将数据分成两类。但是一旦线性可分,我们就可能找到无数的超平面,都可以将数据分成两类:

但是很明显,上图中虽然a, c都对数据进行了有效的分割。但很明显,都不如b分割的好。

我们可以用“间隔”这个概念来定义这个超平面(在二维上是线)对数据的分割优劣。在分类正确的情况下,间隔越大,我们认为对数据的分类越好。

Read More

广义线性模型

广义线性模型,英文名为Generalized Linear Model,简称GLM。

之前,涉及到两种的两种模型: 1. 线性拟合模型,假设了\(P(y|x;\theta)\)是高斯分布 2. 二分类问题,假设了\(P(y|x;\theta)\)满足伯努利分布

但以上两者知识一种更广泛的,被称为『指数分布族』(The Exponential Family)的特例。

指数分布族

\[

Read More

二分类问题

在二分类问题中,输出\(y\in \{0, 1\}\)。同样的,我们也可以用线性拟合来尝试解决二分类问题(如下图左),但数据点比较异常时,容易出现下图右这样的情况:

一般,在二分类问题中,我们会选用『logistic函数』来拟合(因为形状像S,又称为『sigmoid函数』): \[ h_\theta (x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} \] logistic函数\(g(z)=1/(1+e^{-z})​\)的形状如下: 可以定义 \[

Read More

线性模型的概率解释

关于:为何在进行线性回归时,选择用最小二乘拟合(距离的平方和)来进行,而不是选用其他的模型(比如三次方或四次方)?

我们更新一下假设函数,使之变为: \[ y^{(i)} = \theta^Tx^{(i)} + \varepsilon^{(i)} \] 其中,\(\varepsilon^{(i)}\)是误差项,表示未捕获的特征(unmodeled effects),比如房子存在壁炉也影响价格,或者其他的一些随机噪音(random noise)。

一般,会假设误差项\(\varepsilon^{(i)} \sim N(0, \sigma^2)\)(满足正态分布),也就是: \[

Read More