PLS系列002之多因变量线性PLS

别说谁变了你拦得住时间么 提交于 2019-12-22 13:41:21

1 多因变量线性PLS

在多元线性回归模型中,若一组自变量X=(x1,x2,x3,,xi,xp)X=({{x}_{1}},{{x}_{2}},{{x}_{3}},\cdots ,{{x}_{i}},\cdots {{x}_{p}})和一组因变量Y={y1,y2,y3,,yj,,yq}Y=\{{{y}_{1}},{{y}_{2}},{{y}_{3}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}\},当数据样本满足高斯-马尔科夫假设条件时,由least squares(最小二乘)有:Y^=(XTX)1XTY\hat{Y}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}Y,其中Y^\hat{Y}YY的线性最小方差无偏估计量,但是要求矩阵XTX{{X}^{T}}X可逆。
而当XX中样本点个数比变量个数(维数)明显过少或变量存在严重多重共线性,则最小二乘估计量失效,并会引发一系列问题。而Partial Least Squares Regression提出采用分成提取的办法解决如上问题,我们可以知道PLS的几个突出特点:
①在自变量存在严重多重共线性时可以进行回归建模;
②在样本点个数比变量个数(维数)明显过少时可以进行回归建模;
③PLS模型可以识别系统信息与噪声;
④PLS模型中,每一个自变量xi{{x}_{i}}的回归系数容易解释;
⑤PLS最终回归模型中包含原有的所有自变量。

1.1 算法设计思想

设一组自变量X=(x1,x2,,xi,,xp)X=({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{i}},\cdots ,{{x}_{p}})和一组因变量Y={y1,y2,,yj,,yq}Y=\{{{y}_{1}},{{y}_{2}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}\} (XXn×pn\times p矩阵,YYn×qn\times q矩阵,其中nn是样本点数即行数)即有pp个自变量和qq个因变量,为了探索因变量和自变量的统计关系,观测出nn个样本点,由此构造出样本数据表XXYY,PLS分别在XXYY中提取出各自的潜变量t1{{t}_{1}}u1{{u}_{1}},它们分别为自变量与因变量的线性组合(也就是说t1{{t}_{1}}x1,x2,,xi,xp{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}的线性组合,u1{{u}_{1}}y1,y2,,yj,,yq{{y}_{1}},{{y}_{2}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}的线性 组合),二者满足条件:

①两组潜变量分别最大程度承载自变量与因变量的变异信息;
②二者之间的协方差最大化(相关程度最大)。

在提取第1个成分t1{{t}_{1}}u1{{u}_{1}}后,PLS分别进行XXt1{{t}_{1}}的回归与YYu1{{u}_{1}}的回归。若回归方程已达到满意精度,则算法终止;否则,将利用YYu1{{u}_{1}}解释后的残余信息与XXt1{{t}_{1}}解释后的残余信息(残差矩阵)实施第2轮成分提取,如此循环下去,直到一个较满意精度算法终止。如果最后XX总共提取mm(即我们假设)个成分t1,t2,,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}},PLS最后进行yj(j=1,2,,q){{y}_{j}}(j=1,2,\cdots ,q)t1,t2,,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}的回归得到回归方程,最后将此回归方程中的t1,t2,,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}均用x1,x2,,xi,xp{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}替换,最终得到yj(j=1,2,,q){{y}_{j}}(j=1,2,\cdots ,q)关于原来自变量x1,x2,,xi,xp{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}的回归方程。

1.2 计算推导

在PLS进行之前,首先要进行预备分析,目的是判断自变量(因变量)是否存在多重共线性,判断因变量与自变量是否存在相关关系,进而决定是否需要采用PLS方法建模,具体计算方法:记矩阵Z=(X,Y)Z=(X,Y),求ZZ的各列数据之间的简单相关系数。然后考虑是否采用PLS,若采用:
①样本数据XXYY标准化预处理
②记t1{{t}_{1}}XX的第1个成分有t1=Xw1\color{red}{{t}_{1}}=X{{w}_{1}},其中w1{{w}_{1}}XX的第1个轴(单位列向量w1=1\left\| {{w}_{1}} \right\|\text{=}1)。
u1{{u}_{1}}YY的第1个成分有u1=Yv1\color{red}{{u}_{1}}=Y{{v}_{1}},其中v1{{v}_{1}}XX的第1个轴(单位列向量v1=1\left\| {{v}_{1}} \right\|\text{=}1)。
t1{{t}_{1}}u1{{u}_{1}}列向量,行数为nn,即正好是样本集合数。
w1{{w}_{1}}列向量,行数为pp,即正好是自变量个数
v1{{v}_{1}}列向量,行数为qq,即正好是因变量个数
t1{{t}_{1}}u1{{u}_{1}}满足(1)中两个条件则有:

变异信息最大Var(t1)max,Var(u1)maxVar({{t}_{1}})\to \max ,Var({{u}_{1}})\to \max
相关程度最大r(t1,u1)maxr({{t}_{1}},{{u}_{1}})\to \max
综合可得协方差最大Cov(t1,u1)=r(t1,u1)Var(t1)Var(u1)maxCov({{t}_{1}},{{u}_{1}})=r({{t}_{1}},{{u}_{1}})\sqrt{Var({{t}_{1}})Var({{u}_{1}})}\to \max

由于1n<Xw1,Yv1>=Cov(t1,u1)\frac{1}{n}<X{{w}_{1}},Y{{v}_{1}}>=Cov({{t}_{1}},{{u}_{1}})nn为常数,则:
max<Xw1,Yv1>=(Xw1)TYv1=w1TXTYv1s.t{w1Tw1=w12=1v1Tv1=v12=1 \begin{aligned} & \max <X{{w}_{1}},Y{{v}_{1}}>={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}} \\ & s.t\left\{ \begin{matrix} w_{_{1}}^{T}{{w}_{1}}={{\left\| {{w}_{1}} \right\|}^{2}}=1 \\ v_{_{1}}^{T}{{v}_{1}}={{\left\| {{v}_{1}} \right\|}^{2}}=1 \\ \end{matrix} \right. \\ \end{aligned}
根据拉格朗日算法有:
f=w1TXTYv1λ(w1Tw11)μ(v1Tv11) f=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}-\lambda (w_{_{1}}^{T}{{w}_{1}}-1)-\mu (v_{_{1}}^{T}{{v}_{1}}-1)
ff分别求关于w1,v1,λ,μ{{w}_{1}},{{v}_{1}},\lambda ,\mu的偏导且置0(求),有:
{fw1=XTYv12λw1=0fv1=YTXw12μv1=0fλ=(w1Tw11)=0    fμ=(v1Tv11)=0     \left\{ \begin{matrix} \frac{\partial f}{\partial {{w}_{1}}}={{X}^{T}}Y{{v}_{1}}-2\lambda {{w}_{1}}=0 \\ \frac{\partial f}{\partial {{v}_{1}}}={{Y}^{T}}X{{w}_{1}}-2\mu {{v}_{1}}=0 \\ \frac{\partial f}{\partial \lambda }=-(w_{_{1}}^{T}{{w}_{1}}-1)=0\ \ \ \ \\ \frac{\partial f}{\partial \mu }=-(v_{_{1}}^{T}{{v}_{1}}-1)=0\ \ \ \ \ \\ \end{matrix} \right.
由上式可推出:2λ=2μ=w1TXTYv1=(Xw1)TYv1=<Xw1,Yv1>2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}\text{=}<X{{w}_{1}},Y{{v}_{1}}>
θ1=2λ=2μ=w1TXTYv1{{\theta }_{1}}=2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}},则θ1{{\theta }_{1}}是优化问题的目标函数且使是θ1{{\theta }_{1}}达到最大必须有有:
{XTYv1=θ1w1YTXw1=θ1v1 \left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right.
将上面组合式结合得:
XTY(1θ1YTXw1)=θ1w1XTYYTXw1=θ12w1{{X}^{T}}Y(\frac{1}{{{\theta }_{1}}}{{Y}^{T}}X{{w}_{1}})={{\theta }_{1}}{{w}_{1}}\Rightarrow {{X}^{T}}Y{{Y}^{T}}X{{w}_{1}}=\theta _{_{1}}^{2}{{w}_{1}}
同理可得:
YTXXTYv1=θ12v1 {{Y}^{T}}X{{X}^{T}}Y{{v}_{1}}=\theta _{_{1}}^{2}{{v}_{1}}
可见,w1{{w}_{1}}是矩阵XTYYTX{{X}^{T}}Y{{Y}^{T}}X的特征向量,对应的特征值为θ12\theta _{_{1}}^{2}θ1{{\theta }_{1}}为目标函数值且为最大。则w1{{w}_{1}}XTYYTX{{X}^{T}}Y{{Y}^{T}}X最大特征值θ12\theta _{_{1}}^{2}的单位特征向量(列向量)。同理,v1{{v}_{1}}YTXXTY{{Y}^{T}}X{{X}^{T}}Y最大特征值θ12\theta _{_{1}}^{2}的单位特征向量(列向量)。
我们通过求得w1{{w}_{1}}v1{{v}_{1}}之后即可得到第1成分:
{t1=Xw1u1=Yv1\left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}} \\ \end{aligned} \right.
由(1)式我们可以进一步推导出:θ1=<t1,u1>=w1TXTYv1{{\theta }_{1}}\text{=}<{{t}_{1}},{{u}_{1}}>=w_{1}^{T}{{X}^{T}}Y{{v}_{1}}
然后分别进行XXYYt1{{t}_{1}}的回归(这里YYt1{{t}_{1}}的回归):
{X=t1p1T+X1Y=u1q1T+Y1Y=t1r1T+Y1\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{X}_{1}} \\ & Y={{u}_{1}}q_{1}^{T}+Y_{1}^{*} \\ & Y={{t}_{1}}r_{1}^{T}+{{Y}_{1}} \\ \end{aligned} \right.
其中,回归系数向量:
{p1=XTt1t12q1=YTu1u12r1=YTt1t12 \left\{ \begin{aligned} & {{p}_{1}}=\frac{{{X}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ & {{q}_{1}}=\frac{{{Y}^{T}}{{u}_{1}}}{{{\left\| {{u}_{1}} \right\|}^{2}}} \\ & {{r}_{1}}=\frac{{{Y}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ \end{aligned} \right.
(计算方法:将X=t1p1T+X1X={{t}_{1}}p_{1}^{T}+{{X}_{1}}转置后右乘t1Tt_{1}^{T})
另外,X1{{X}_{1}}Y1{{Y}_{1}}则为XXYY的残差信息矩阵。(回归系数向量可利用PLS回归性质推导?)
在PLS方法中,我们称ww为模型效应权重(Model Effect Weights),vv为因变量权重(Dependent Variable Weights),pp为模型效应载荷量(Model Effect Loadings)。 模型效应指的就是X即自变量O(∩_∩)O哈哈~
得分向量tt,载荷向量pp,权重向量ww.
③用残差信息矩阵X1{{X}_{1}}Y1{{Y}_{1}}取代XXYY,求第2个成分t2{{t}_{2}}u2{{u}_{2}}和第2个轴w2{{w}_{2}}v2{{v}_{2}},即:
{t2=X1w2u2=Y1v2 \left\{ \begin{aligned} & {{t}_{2}}={{X}_{1}}{{w}_{2}} \\ & {{u}_{2}}={{Y}_{1}}{{v}_{2}} \\ \end{aligned} \right.
θ2=<t2,u2>=w2TX1TY1v2 {{\theta }_{2}}=<{{t}_{2}},{{u}_{2}}>=w_{2}^{T}X_{1}^{T}{{Y}_{1}}{{v}_{2}}
w2{{w}_{2}}是对应于矩阵X1TY1Y1TX1X_{1}^{T}{{Y}_{1}}Y_{1}^{T}{{X}_{1}}最大特征值θ2{{\theta }_{2}}的特征向量(列向量),v2{{v}_{2}}是对应于矩阵Y1TX1X1TY1Y_{1}^{T}{{X}_{1}}X_{1}^{T}{{Y}_{1}}最大特征值的特征向量(列向量),于是回归方程:
{X1=t2p2T+X2Y1=t2r2T+Y2 \left\{ \begin{aligned} & {{X}_{1}}={{t}_{2}}p_{2}^{T}+{{X}_{2}} \\ & {{Y}_{1}}={{t}_{2}}r_{2}^{T}+{{Y}_{2}} \\ \end{aligned} \right.
其中,回归系数向量:
{p2=X1Tt2t22r2=Y1Tt2t22 \left\{ \begin{aligned} & {{p}_{2}}=\frac{X_{1}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ & {{r}_{2}}=\frac{{{Y}_{1}}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ \end{aligned} \right.
X1=t2p2T+X2X1T=p2t2T+X2TX1Tt2=p2t2Tt2+X2Tt2X1Tt2=p2t2Tt2X1Tt2=p2t2Tt2 \begin{aligned} & {{X}_{1}}={{t}_{2}}p_{2}^{T}+{{X}_{2}}\Leftrightarrow X_{1}^{T}=p_{2}^{{}}t_{2}^{T}+X_{2}^{T}\Leftrightarrow X_{1}^{T}{{t}_{2}}=p_{2}^{{}}t_{2}^{T}{{t}_{2}}+X_{2}^{T}{{t}_{2}} \\ & \Leftrightarrow X_{1}^{T}{{t}_{2}}=p_{2}^{{}}t_{2}^{T}{{t}_{2}}\Leftrightarrow X_{1}^{T}{{t}_{2}}=p_{2}^{{}}t_{2}^{T}{{t}_{2}} \\ \end{aligned}
④如此利用剩下的残差信息矩阵不断迭代计算,我们假设XX的秩为mm(即可以有A个成分):
{X=t1p1T+t2p2T++tmpmT+XmY=t1r1T+t2r2T++tmrmT+Ym \left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T}+{{X}_{m}} \\ & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}\text{+}{{Y}_{m}} \\ \end{aligned} \right.
等价于
{X=(t1t2tm)(p1Tp2TpmT)+Xm=(t1t2tm)(p1p2pm)T+XmY=(t1t2tm)(r1Tr2TrmT)+Ym=(t1t2tm)(r1r2rm)T+Ym \left\{ \begin{aligned} & X=\left( \begin{matrix} {{t}_{1}} & {{t}_{2}} & \cdots & {{t}_{m}} \\ \end{matrix} \right)\left( \begin{matrix} p_{1}^{T} \\ p_{2}^{T} \\ \vdots \\ p_{m}^{T} \\ \end{matrix} \right)+{{X}_{m}}=\left( \begin{matrix} {{t}_{1}} & {{t}_{2}} & \cdots & {{t}_{m}} \\ \end{matrix} \right){{\left( \begin{matrix} p_{1}^{{}} & p_{2}^{{}} & \cdots & p_{m}^{{}} \\ \end{matrix} \right)}^{T}}+{{X}_{m}} \\ & Y=\left( \begin{matrix} {{t}_{1}} & {{t}_{2}} & \cdots & {{t}_{m}} \\ \end{matrix} \right)\left( \begin{matrix} r_{1}^{T} \\ r_{2}^{T} \\ \vdots \\ r_{m}^{T} \\ \end{matrix} \right)+{{Y}_{m}}=\left( \begin{matrix} {{t}_{1}} & {{t}_{2}} & \cdots & {{t}_{m}} \\ \end{matrix} \right){{\left( \begin{matrix} r_{1}^{{}} & r_{2}^{{}} & \cdots & r_{m}^{{}} \\ \end{matrix} \right)}^{T}}+{{Y}_{m}} \\ \end{aligned} \right.
t1,t2,,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}可表示成X ⁣ ⁣{ ⁣ ⁣ x1,x2,,xp  ⁣ ⁣} ⁣ ⁣ X\text{= }\!\!\{\!\!\text{ }{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}}\text{ }\!\!\}\!\!\text{ }的线性组合
其中Ym{{Y}_{m}}为第mm个残差矩阵,提取的主成分个数m<(X)m<(X)
由于wh=k=1h1(EwkpkT)wh &  th=Xwhw_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}\ \And \ \ {{t}_{h}}=Xw_{h}^{*} (在多因变量线性偏最小二乘法性质中)则有:
Y=t1r1T+t2r2T++tmrmT+Ym   =(Xw1)r1T+(Xw2)r2T++(Xwm)rmT+Ym   =X(i=1mwiriT)+Ym \begin{aligned} & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}+{{Y}_{m}} \\ & \ \ \ =(Xw_{1}^{*})r_{1}^{T}+(Xw_{2}^{*})r_{2}^{T}+\cdots +(Xw_{m}^{*})r_{m}^{T}+{{Y}_{m}} \\ & \ \ \ =X\left( \sum\limits_{i=1}^{m}{w_{i}^{*}r_{i}^{T}} \right)+{{Y}_{m}} \\ \end{aligned}
B=i=1mwiriTB=\sum\limits_{i=1}^{m}{{{w}_{i}}r_{i}^{T}}即为PLS回归方程的回归系数向量,有:
Y=XB+Fm Y=XB\text{+}{{F}_{m}}

1.3 PLS性质

根据
{XTYv1=θ1w1YTXw1=θ1v1 \left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right.

{t1=Xw1u1=Yv1 \left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}} \\ \end{aligned} \right.
可以得到:
{th=Xh1whuh=Yh1vhwh=1θhXh1TYvh=1θhXh1Tuhvh=1θhYh1TXwh=1θhXh1Tth \left\{ \begin{matrix} \begin{aligned} & {{t}_{h}}={{X}_{h-1}}{{w}_{h}} \\ & {{u}_{h}}={{Y}_{h-1}}{{v}_{h}} \\ \end{aligned} \\ {{w}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}Y{{v}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}{{u}_{h}} \\ {{v}_{h}}=\frac{1}{{{\theta }_{h}}}Y_{h-1}^{T}X{{w}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}{{t}_{h}} \\ \end{matrix} \right.
①轴w1,w2,,wm{{w}_{1}},{{w}_{2}},\cdots ,{{w}_{m}}之间相互直交
②成分t1,t2,,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}之间相互直交
thTXl=0(lh)t_{h}^{T}{{X}_{l}}=0(l\ge h)
phTwh=(thTXh1th2)wh=thT(Xh1wh)th2=thTthth2=1p_{h}^{T}{{w}_{h}}=(\frac{t_{h}^{T}{{X}_{h-1}}}{{{\left\| {{t}_{h}} \right\|}^{2}}}){{w}_{h}}=\frac{t_{h}^{T}({{X}_{h-1}}{{w}_{h}})}{{{\left\| {{t}_{h}} \right\|}^{2}}}=\frac{t_{h}^{T}{{t}_{h}}}{{{\left\| {{t}_{h}} \right\|}^{2}}}=1
⑤轴wh{{w}_{h}}与后续回归系数向量正交即whTpl=whTXl1Ttltl2=0w_{h}^{T}{{p}_{l}}=w_{h}^{T}\frac{X_{l-1}^{T}{{t}_{l}}}{{{\left\| {{t}_{l}} \right\|}^{2}}}=0
(重要)h1\forall h\ge 1,有Xh{{X}_{h}}XX的关系式:
Xh=Xk=1h(EwkpkT) {{X}_{h}}=X\prod\limits_{k=1}^{h}{(E-{{w}_{k}}p_{k}^{T})}
其中EE为单位矩阵
证明(数学归纳法):
h=1h=1时,X1=Xt1p1T=XXw1p1T=X(Ew1p1T){{X}_{1}}=X-{{t}_{1}}p_{1}^{T}=X-X{{w}_{1}}p_{1}^{T}=X(E-{{w}_{1}}p_{1}^{T})
设在h=kh=k时成立,则证h=k+1h=k+1时也成立:
Xk+1=Xktk+1pk+1T=Xk(Xkwk+1)pk+1T       =Xk(Ewk+1pk+1T)       =[Xh=1k(EwhphT)](Ewk+1pk+1T) \begin{aligned} & {{X}_{k+1}}={{X}_{k}}-{\color{red}{t_{k+1}}}p_{k+1}^{T}={{X}_{k}}-{\color{red}({{X}_{k}}{{w}_{k+1}})}p_{k+1}^{T} \\ & \ \ \ \ \ \ \ ={{X}_{k}}(E-{{w}_{k+1}}p_{k+1}^{T}) \\ & \ \ \ \ \ \ \ =\left[ X\prod\limits_{h=1}^{k}{(E-{{w}_{h}}p_{h}^{T})} \right](E-{{w}_{k+1}}p_{k+1}^{T}) \\ \end{aligned}
则得证。
⑦任一成分th{{t}_{h}}是原自变量XX的线性组合即:
th=Xh1wh=Xk=1h1(EwkpkT)wh=Xwh{{t}_{h}}={{X}_{h-1}}{{w}_{h}}=X\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}=Xw_{h}^{*}
其中
wh=k=1h1(EwkpkT)wh=whk=1h1(EwkpkT)=wh{(Ew1p1T)(Ew2p2T)  (Ewh1ph1T) } \begin{aligned} & w_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}={{w}_{h}}\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})} \\ & ={{w}_{h}}\left\{ \left( E-{{w}_{1}}p_{1}^{T} \right)\left( E-{{w}_{2}}p_{2}^{T} \right)\ \ \cdots \left( E-{{w}_{h-1}}p_{h-1}^{T} \right)\ \right\} \\ \end{aligned}
EE为单位矩阵。
【编程计算问题】
初始化chg=Echg=E
h=1 求w1=w1×(EO)=w1×chgw_{1}^{*}={{w}_{1}}\times \left( E-O \right)={{w}_{1}}\times chg
h=2 chg发生变化,chg=chg×(Ew1p1T)chg=chg\times \left( E-{{w}_{1}}p_{1}^{T} \right),求w2=w2×chgw_{2}^{*}={{w}_{2}}\times chg
h=3 chg发生变化,chg=chg×(Ew2p2T)chg=chg\times \left( E-{{w}_{2}}p_{2}^{T} \right),求w3=w3×chgw_{3}^{*}={{w}_{3}}\times chg

以上证明过程(王惠文书有)。

1.4 交叉性检验

由于PLS过程中后续的成分已经不可以为解释YY而提供更有意义信息时,采取更多的后续成分只会破会回归模型的统计趋势,引导错误回归结论,所以PLS并不需要构造出这些全部的成分进行回归建模,而可以采用PCA方法(Principal Component Analysis),可以截取m个成分(m<(X)m<(X)),我们仅仅使用这mm个成分就能得到一个性能较好的回归模型。
在PLS建模中mm取多少合适,这可以考察增加1个新成分后,能否对PLS模型的预测能力有明显的改善来取舍。
nn个样本点分成2步使用:
①排除某个样本点ii的样本点集合(n1n-1个样本点),用这n1n-1个样本点使用hh个成分采用PLS得到YY关于XX的一个回归方程。
②把刚才排除的样本点ii代入刚才得到的YY关于XX的回归方程,得到yj(j=1,2,,q){{y}_{j}}(j=1,2,\cdots ,q)在样本点在ii上的预测值y^hj(i){{\hat{y}}_{hj(-i)}}
对于每一个i(1=1,2,,n)i(1=1,2,\cdots ,n),重复以上①②步,则可以得到yj{{y}_{j}}的预测误差平方和PRESShjPRES{{S}_{hj}},有:
PRESShj=i=1n(yijy^hj(i))2 PRES{{S}_{hj}}\text{=}\sum\limits_{i=1}^{n}{{{({{y}_{ij}}-{{{\hat{y}}}_{hj(-i)}})}^{2}}}
并且YY预测误差平方和PRESShjPRES{{S}_{hj}},有:
PRESSh=j=1qPRESShj PRES{{S}_{h}}\text{=}\sum\limits_{j=1}^{q}{PRES{{S}_{hj}}}
这里我们对PRESShPRES{{S}_{h}}做如下解释:
PRESShPRES{{S}_{h}}是从所有nn个样本点中舍弃某个样本点x(i)=(i=1,2,,n){{x}^{(i)}}=(i=1,2,\cdots ,n)之后,用剩余的n1n-1个样本点拟合出含hh个主成分的回归方程,再对在x(i)=(i=1,2,,n){{x}^{(i)}}=(i=1,2,\cdots ,n)点上对因变量进行预测的预测误差平方和。
这里对SS(h1)S{{S}_{(h-1)}}做如下解释:
SS(h1)S{{S}_{(h-1)}}是用所有nn个样本点拟合出的含h1h-1个主成分的回归方程的拟合误差平方和。
我们把增加一个样本点所构成的误差我们称之为扰动误差,而扰动误差决定回归方程的稳健能力即PRESShjPRES{{S}_{hj}}的值,扰动误差越大,稳健能力越差,就会增加PRESShjPRES{{S}_{hj}}的值。
另一方面,我们再采取所有样本点集合,多元回归出提取hh个成分的回归方程,记第ii个样本点的拟合值y^hj(i){{\hat{y}}_{hj(i)}},则可以得到yj{{y}_{j}}的误差平方和SShjS{{S}_{hj}},有:
SShj=i=1n(yijy^hj(i))2 S{{S}_{hj}}\text{=}\sum\limits_{i=1}^{n}{{{({{y}_{ij}}-{{{\hat{y}}}_{hj(i)}})}^{2}}}
并且YY误差平方和SShjS{{S}_{hj}},有:
SSh=j=1qSShj S{{S}_{h}}\text{=}\sum\limits_{j=1}^{q}{S{{S}_{hj}}}
一般有:
PRESSh>SSh & SSh1>SSh PRES{{S}_{h}}>S{{S}_{h}}\ \And \ S{{S}_{h-1}}>S{{S}_{h}}
其中SSh1S{{S}_{h-1}}是用全部样本点多元回归出的具有h1h-1个成分的回归方程的拟合误差,我们比较PRESShPRES{{S}_{h}}SSh1S{{S}_{h-1}}PRESShPRES{{S}_{h}}是增加了1个成分th{{t}_{h}}但是导致回归方程的稳健能力改变,而在一定程度上回归方程的稳健能力即hh个成分回归方程的扰动误差小于h1h-1个成分回归方程的拟合误差,则认为回归方程的稳健能力得到提高即新的PLS得到的回归方程的预测精度明显改善,故PRESSh/SSh1  {PRES{{S}_{h}}}/{S{{S}_{h-1}}}\;越小越好。由于在SIMCA-P软件中认为:
PRESShSSh10.952\frac{PRES{{S}_{h}}}{S{{S}_{h-1}}}\le {{0.95}^{2}}
即当PRESSh0.952SSh1PRES{{S}_{h}}\le {{0.95}^{2}}S{{S}_{h-1}}时,增加新的成分th{{t}_{h}}有效
我们将上面的PRESSh/SSh1  {PRES{{S}_{h}}}/{S{{S}_{h-1}}}\;检验标准进行改进得到交叉有效性的定义,得到对每一个因变量yj{{y}_{j}}有:
Qhj2=1PRESShjSS(h1)j Q_{hj}^{2}=1-\frac{PRES{{S}_{hj}}}{S{{S}_{(h-1)j}}}
则对于YY,有:
Qh2=1j=1qPRESShjj=1qSS(h1)j=1PRESShSSh1 Q_{h}^{2}=1-\frac{\sum\limits_{j=1}^{q}{PRES{{S}_{hj}}}}{\sum\limits_{j=1}^{q}{S{{S}_{(h-1)j}}}}=1-\frac{PRES{{S}_{h}}}{S{{S}_{h-1}}}
交叉性检验标准:
Qh210.952=0.0975Q_{h}^{2}\ge 1-{{0.95}^{2}}=0.0975时,增加成分th{{t}_{h}}是有效的,回归模型得到显著改善。
k{1,2,,q}\exists k\in \left\{ 1,2,\cdots ,q \right\},有:Qh20.0975Q_{h}^{2}\ge 0.0975

Reference

  • 王惠文.偏最小二乘方法原理及其应用
  • 郭建校. 改进的高维非线性PLS回归方法及应用研究[D]. 天津大学, 2010.
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!