发布时间:2023-07-15 16:00
在学习表示定理之前我们要先理解什么是线性模型,这个概念听过很多次,但真正追究起来并不是很清楚,在下面参考的第一二篇文章中对广义线性模型进行了讲解,在此我也不做总结,一是能力有限怕带跑偏了,二是本篇内容的重点不在此。其中比较明确的一点就是线性模型始终试图找到一个超平面对数据进行划分,例如逻辑回归,它是用超平面 w T x + b w^{T}x+b wTx+b对数据进行划分,只不过对超平面的划分结果进行了非线性处理;引入核技巧的SVM则是先对数据进行了非线性映射,然后对映射后的特征空间用 w T x + b w^{T}x+b wTx+b进行划分;所以这两者都属于线性模型。
表示定理的内容如下:
对于任何采用L2正则化的线性模型,其目标函数形式为:
m i n w ∑ i = 1 n e r r ( y i , w T x i ) + λ w T w min_{w}\sum_{i=1}^{n}err(y_{i},w^{T}x_{i})+\lambda w^{T}w minw∑i=1nerr(yi,wTxi)+λwTw,那么其最优解可以表示为: w ∗ = ∑ i = 1 n α i x i w^{*}=\sum_{i=1}^{n}\alpha _{i}x_{i} w∗=∑i=1nαixi。证明如下:
我们可以假设最优解 w ∗ = w ∥ ∗ + w ⊥ ∗ w^{*}=w_{\parallel}^{*}+w_{\perp}^{*} w∗=w∥∗+w⊥∗,其中:
w ∥ ∗ w_{\parallel}^{*} w∥∗属于由向量组{ x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn}生成的子空间 s p a n ( x i ) span(x_{i}) span(xi);
w ⊥ ∗ w_{\perp}^{*} w⊥∗属于 s p a n ( x i ) span(x_{i}) span(xi)的正交补空间;
那么对于任意训练样本 x i x_{i} xi:
w ∗ T x i = ( w ∥ ∗ + w ⊥ ∗ ) T x i = w ∥ ∗ T x i w^{*T}x_{i}=(w_{\parallel}^{*}+w_{\perp}^{*})^{T}x_{i}=w_{\parallel}^{*T}x_{i} w∗Txi=(w∥∗+w⊥∗)Txi=w∥∗Txi,表明 w ∗ w^{*} w∗与 w ∥ ∗ T w_{\parallel}^{*T} w∥∗T误差相同;
w ∗ T w ∗ = w ∥ ∗ T w ∥ ∗ + w ⊥ ∗ T w ⊥ ∗ ≥ w ∥ ∗ T w ∥ ∗ w^{*T}w^{*}=w_{\parallel}^{*T}w_{\parallel}^{*}+w_{\perp}^{*T}w_{\perp}^{*}\geq w_{\parallel}^{*T}w_{\parallel}^{*} w∗Tw∗=w∥∗Tw∥∗+w⊥∗Tw⊥∗≥w∥∗Tw∥∗,表明 w ∗ w^{*} w∗的L2正则化项大于等于 w ∥ ∗ w_{\parallel}^{*} w∥∗的L2正则化项。
可以看出 w ∗ w^{*} w∗是最优解,当且仅当 w ⊥ ∗ = 0 w_{\perp}^{*}=0 w⊥∗=0,即最优解 w ∗ = w ∥ ∗ = ∑ i = 1 n α i x i w^{*}=w_{\parallel}^{*}=\sum_{i=1}^{n}\alpha _{i}x_{i} w∗=w∥∗=∑i=1nαixi。
我们进一步延伸,将最优解 w ∗ = ∑ i = 1 n α i x i w^{*}=\sum_{i=1}^{n}\alpha _{i}x_{i} w∗=∑i=1nαixi带入模型进行训练,假设输入样本为x,可得 w ∗ T x = ∑ i = 1 n α i x i T x w^{*T}x=\sum_{i=1}^{n}\alpha _{i}x_{i}^{T}x w∗Tx=∑i=1nαixiTx,此时出现了 x i T x x_{i}^{T}x xiTx,这个形式很容易引入核技巧,即用 k ( x i , x ) k(x_{i},x) k(xi,x)代替 x i T x x_{i}^{T}x xiTx,这也就是说任何采用L2正则化的线性模型均可采用核技巧。
我们以SVM为例加深理解,SVM的目标函数是:
m i n w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ξ i min_{w,b}\frac{1}{2}||w||^{2}+C\sum_{i=1}^{n}\xi _{i} minw,b21∣∣w∣∣2+C∑i=1nξi
s . t . y i ( w . x i + b ) ⩾ 1 − ξ i , i = 1 , 2 , . . . , n s.t.y_{i}(w.x_{i}+b)\geqslant 1-\xi _{i},i=1,2,...,n s.t.yi(w.xi+b)⩾1−ξi,i=1,2,...,n
ξ i ⩾ 0 , i = 1 , 2 , . . . , n \xi _{i}\geqslant 0,i=1,2,...,n ξi⩾0,i=1,2,...,n
我们定义函数
e r r ( x ) = { 0 x ≤ 0 x x > 0 err(x)=\left\{\begin{matrix} 0 & x\leq 0\\ x & x>0 \end{matrix}\right. err(x)={0xx≤0x>0,那么可以将该目标函数转化为:
m i n w , b ∑ i = 1 n e r r ( 1 − y i ( w . x i + b ) ) + λ ∣ ∣ w ∣ ∣ 2 min_{w,b}\sum_{i=1}^{n}err(1-y_{i}(w.x_{i}+b))+\lambda ||w||^{2} minw,b∑i=1nerr(1−yi(w.xi+b))+λ∣∣w∣∣2(不理解的话可以参照李航老师《统计学习方法》中的7.2.4节进行学习),显然这是一个采用L2正则化的线性模型最优化问题,可以采用表示定理得到最优解 w ∗ = ∑ i = 1 n α i x i w^{*}=\sum_{i=1}^{n}\alpha _{i}x_{i} w∗=∑i=1nαixi,这和SVM采用对偶问题得到的 w = ∑ i = 1 n α i ′ y i x i w=\sum_{i=1}^{n}\alpha _{i}^{'}y_{i}x_{i} w=∑i=1nαi′yixi形式是一致的。
其实上一节写完就可以结束了,但感觉既然引出SVM了,就把KSVM也唠叨一下,这部分的难点在于如何理解再生核希尔伯特空间(RKHS),可以参照我之前的一篇博客https://blog.csdn.net/qq_40824311/article/details/102636765,其实把RKHS理解了,这部分就没什么东西了。
对我来说理解RKHS最重要的一点是把函数和一个无限维的向量等价起来。RKHS是一个函数空间,空间的基是无穷多个函数,按向量来理解的话RKHS就是一个由无穷多个无穷维基向量构成的向量空间。
RKHS中的表示定理如下:
上图来自《Learning with Kernels》的4.2节,我们进行证明:
取该RKHS中任意的 f f f,将其表示为
f = f ∥ + f ⊥ = ∑ i = 1 m α i k ( x i , . ) + f ⊥ f=f_{\parallel}+f_{\perp}=\sum_{i=1}^{m}\alpha _{i}k(x_{i},.)+f_{\perp} f=f∥+f⊥=∑i=1mαik(xi,.)+f⊥,其中:
f ∥ f_{\parallel} f∥属于训练样本对应的函数集合{ k ( x 1 , x ) , k ( x 2 , x ) , . . . , k ( x m , x ) k(x_{1},x),k(x_{2},x),...,k(x_{m},x) k(x1,x),k(x2,x),...,k(xm,x)}生成的子空间 s p a n ( k ( x i , x ) ) span(k(x_{i},x)) span(k(xi,x));
f ⊥ f_{\perp} f⊥属于 s p a n ( k ( x i , x ) ) span(k(x_{i},x)) span(k(xi,x))的正交补空间(将函数当做向量对正交补空间进行理解)。
对于任意的训练样本 x j x_{j} xj,由核函数的再生性可知
f ( x j ) = < f , k ( . , x j ) > = < ∑ i = 1 m α i k ( x i , . ) + f ⊥ , k ( . , x j ) > = ∑ i = 1 m α i k ( x i , x j ) f(x_{j})=
而 Ω ( ∣ ∣ f ∣ ∣ ) = Ω ( ∣ ∣ ∑ i m α i k ( x i , . ) ∣ ∣ H 2 + ∣ ∣ f ⊥ ∣ ∣ H 2 ) ≥ Ω ( ∣ ∣ ∑ i m α i k ( x i , . ) ∣ ∣ H 2 ) \Omega (||f||)=\Omega \begin{pmatrix} ||\sum_{i}^{m}\alpha _{i}k(x_{i},.)||_{H}^{2}+||f_{\perp}||_{H}^{2} \end{pmatrix}\geq \Omega \begin{pmatrix} ||\sum_{i}^{m}\alpha _{i}k(x_{i},.)||_{H}^{2} \end{pmatrix} Ω(∣∣f∣∣)=Ω(∣∣∑imαik(xi,.)∣∣H2+∣∣f⊥∣∣H2)≥Ω(∣∣∑imαik(xi,.)∣∣H2),不等号是因为 Ω \Omega Ω是严格单调递增函数。
由上可知当且仅当 f ⊥ = 0 f_{\perp}=0 f⊥=0时 f f f可以达到最优。
同样,我们回顾KSVM中最终的决策超平面: ∑ i = 1 m α i ′ y i k ( x i , x ) \sum_{i=1}^{m}\alpha _{i}^{'}y_{i}k(x_{i},x) ∑i=1mαi′yik(xi,x),这与表示定理中的形式是一样的。
另外注意这个最优只是该RKHS中的最优,并不是所有函数中的最优。
参考:
(1)https://zhuanlan.zhihu.com/p/22876460
(2)https://xg1990.com/blog/archives/304
(1)http://txshi-mt.com/2017/10/02/NTUML-21-Kernel-Logistic-Regression/