注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

偏最小二乘法  

2014-04-09 16:13:12|  分类: 数据挖掘 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

资料来源:百度百科 偏最小二乘法
sas9.0软件里有PLS分析 SIMCA-p
 
  最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。 
  偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析
  与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
  在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。
  多重相关性的诊断
  1 经验式诊断方法
  1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
  2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。
  3、对重要自变量的回归系数进行t检验,其结果不显著。
  特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。
  4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。
  5、重要自变量的回归系数置信区间明显过大。
  6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
  7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。
  但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。
  2 方差膨胀因子
  最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为
  (4-5) (VIF)j =(1-R j2)-1
  式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。
  所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。
  (VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。
  不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为
  Cov(B)= σ2 (X'X)-1
  式中,σ2是误差项方差。所以,对于回归系数b j,有
  Var(b j)= σ2cjj
  cjj是(X'X)-1矩阵中第j个对角元素。可以证明,
  cjj =(VIF)j
  岭回归分析
  1 岭回归估计量
  岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。
  根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
  在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为
  rXXb=ryX
  式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。
  岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+
  (4-8) (rXX+ cI) bR=ryX
  所以,在岭回归分析中,标准化回归系数为
  (4-9) bR =(rXX+ cI)-1 ryX
  2 岭回归估计量的性质
  (1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即
  (4-10) bR =(I+ crXX-1)-1b
  (2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0< c< c0时,一致地有
  (4-11) E|| bR -β||2≤ E|| b -β||2
  (3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即
  (4-12) || bR ||<|| b ||
  岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为
  E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β
  关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上,岭迹中的回归系数已变得比较稳定,并且方差膨胀因子也变得足够小。
  从理论上,最佳的c值是存在的,它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而,困难却在于c的最优值对不同的应用而有所不同,对其选择还只能凭经验判断。
  其他补救方法简介
  最常见的一种思路是设法去掉不太重要的相关性变量。由于变量间多重相关性的形式十分复杂,而且还缺乏十分可靠的检验方法,删除部分多重相关变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增长。另一方面,在一些经济模型中,从经济理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重相关性。这时采用剔除部分相关变量的做法就不符合实际工作的要求。
  另一种补救的办法是增加样本容量。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。
  此外,还可以采用变量转换的方式,来削弱多重相关性的严重性。一阶差分回归模型有可能减少多重相关性的严重性。然而,一阶差分变换又带来了一些其它问题。差分后的误差项可能不满足总体模型中关于误差项不是序列相关的假定。事实上,在大部分情形下,在原来的误差项是不自相关的条件下,一阶差分所得到的误差项将会是序列相关的。而且,由于差分方法损失了一个观察值,这在小样本的情况下是极不可取的。另外,一阶差分方法在截面样本中是不宜利用的。
  1 主成分分析
  主成分分析的计算结果必然受到重叠信息的影响。因此,当人为地采用一些无益的相关变量时,无论从方向上还是从数量上,都会扭曲客观结论。在主成分分析之前,对变量系统的确定必须是慎之又慎的。
  2 特异点的发现
  第i个样本点(样本量为n)对第h主成分的贡献率是
  (5-32) CTR(i)=Fh2(i)/(nλh) (若远超过1/n,为特异点)
  3 典型相关分析
  从某种意义上说,多元回归分析、判别分析或对应分析等许多重要的数据分析方法,都可以归结为典型相关分析的一种特例,同时它还是偏最小二乘回归分析的理论基石。
  典型相关分析,是从变量组X中提取一个典型成分F=Xa,再从变量组Y中提取一个成分G=Yb,在提取过程中,要求F与G的相关程度达到最大。
  在典型相关分析中,采用下述原则寻优,即
  max<F,G>=aX'Yb a'X'Xa=1, b'Y'Yb=1
  其结果为,a是对应于矩阵V11-1 V12 V22-1 V21最大特征值的特征向量,而b是对应于矩阵V22-1 V21V11-1 V12最大特征值的特征向量,这两个最大特征值相同。其中,
  V11=X'X,V12=X'Y,V22=Y'Y。
  F与G之间存在着明显的换算关系。
  有时只有一个典型成分还不够,还可以考虑第二个典型成分。
  多因变量的偏最小二乘回归模型
  1 工作目标
  偏最小二乘回归分析的建模方法
  设有q个因变量和p个自变量。为了研究因变量与自变量的统计关系,观测了n个样本点,由此构成了自变量与因变量的数据表X和Y。偏最小二乘回归分别在X与Y中提取出t和u,要求:(1)t和u应尽可能大地携带它们各自数据表中的变异信息;(2)t和u的相关程度能够达到最大。在第一个成分被提取后,偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t解释后的残余信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了多个成分,偏最小二乘回归将通过施行yk对X的这些成分的回归,然后再表达成yk关于原自变量的回归方程。
  2 计算方法
  首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E0=( E01,…,E0p)n×p,Y的相应矩阵记为F0=( F01,…,F0q)n×q。
  第一步 记t 1是E0的第一个成分,t 1= E0w1,w1是E0的第一个轴,它是一个单位向量,即|| w1||=1。
  记u 1是F0的第一个成分,u 1= F0c1,c1是F0的第一个轴,并且|| c1||=1。
  于是,要求解下列优化问题,即
  (7-1)
  记θ1= w1'E0'F0c1,即正是优化问题的目标函数值。
  采用拉格朗日算法,可得
  (7-8) E0'F0F0'E0w1=θ12 w1
  (7-9) F0'E0E0'F0c1=θ12 c1
  所以,w1是对应于E0'F0F0'E0矩阵最大特征值的单位特征向量,而c1是对应于F0'E0E0'F0矩阵最大特征值θ12的单位特征向量。
  求得轴w1和c1后,即可得到成分
  t 1= E0w1
  u 1= F0c1
  然后,分别求E0和F0对t 1的回归方程
  (7-10) E0= t 1 p1'+ E1
  (7-12) F0= t 1r1'+ F1
  式中,回归系数向量是
  (7-13) p1= E0' t 1/|| t 1||2
  (7-15) r1= F0' t 1/|| t 1||2
  而E1和F1分别是两个方程的残差矩阵。
  第二步 用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有
  t 2= E1w2
  u 2= F1c2
  θ2=< t2, u2>= w2'E1'F1c2
  w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量,而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数
  p2= E1' t 2/|| t 2||2
  r2= F1' t 2/|| t2||2
  因此,有回归方程
  E1= t 2 p2'+ E2
  F1= t 2r2'+ F2
  如此计算下去,如果X的秩是A,则会有
  (7-16) E0= t 1 p1'+…+t A pA'
  (7-17) F0= t 1r1'+ …+t A rA'+ FA
  由于t1,…,t A均可以表示成E01,…,E0p的线性组合,因此,式(7-17)还可以还原成yk*= F0k关于xj*= E0j的回归方程形式,即
  yk*=αk1 x1*+…+αkp xp*+ FAk, k=1,2,…,q
  FAk是残差矩阵FA的第k列。
  3 交叉有效性
  如果多一个成分而少一个样本的预测误差平方和(所有因变量和预测样本相加)除以少一个成分的误差平方和(所有的因变量和样本相加)小于0.952,则多一个成分是值得的。
  4 一种更简洁的计算方法
  用下述原则提取自变量中的成分t 1,是与原则式(7-1)的结果完全等价的,即
  (7-24)
  (1)求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1,求成分t 1,得
  t 1= E0w1
  E1= E0-t 1 p1'
  式中, p1= E0' t 1/|| t 1||2
  (2)求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2,求成分t2,得
  t 2= E1w2
  E2= E1-t 2 p2'
  式中, p2= E1' t 2/|| t2||2
  ……
  (m)至第m步,求成分tm= Em-1wm,wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量.
  如果根据交叉有效性,确定共抽取m个成分t1,…,tm可以得到一个满意的观测模型,则求F0在t1,…,tm上的普通最小二乘回归方程为
  F0= t 1r1'+ …+t mrm'+ Fm
  偏最小二乘回归的辅助分析技术
  1 精度分析
  定义自变量成分th的各种解释能力如下
  (1)th对某自变量xj的解释能力
  (8-1) Rd(xj; th)=r2(xj, th)
  (2)th对X的解释能力
  (8-2) Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p
  (3)t1,…,tm对X的累计解释能力
  (8-3) Rd(X; t1,…,tm)= Rd(X; t1) + …+ Rd(X; tm)
  (4)t1,…,tm对某自变量xj的累计解释能力
  (8-4) Rd(xj; t1,…,tm)= Rd(xj; t1) + …+ Rd(xj; tm)
  (5)th对某因变量yk的解释能力
  (8-5) Rd(yk; th)=r2(yk, th)
  (6)th对Y的解释能力
  (8-6) Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q
  (7)t1,…,tm对Y的累计解释能力
  (8-7) Rd(Y; t1,…,tm)= Rd(Y; t1) + …+ Rd(Y; tm)
  (8)t1,…,tm对某因变量yk的累计解释能力
  (8-8) Rd(yk; t1,…,tm)= Rd(yk; t1) + …+ Rd(yk; tm)
  2 自变量x j在解释因变量集合Y的作用
  x j在解释Y时作用的重要性,可以用变量投影重要性指标VIP j来测度
  VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)]
  式中,whj是轴wh的第j个分量。注意 VIP1 2+ …+ VIP p2=p
  3 特异点的发现
  定义第i个样本点对第h成分th的贡献率Thi2,用它来发现样本点集合中的特异点,即
  (8-10) Thi2=thi2/((n-1)s h2)
  式中,s h2是成分th的方差。
  由此,还可以测算样本点i对成分t1,…,tm的累计贡献率
  (8-11) Ti2= T1i2+ …+ Tmi2
  当
  Ti2≥m(n2-1)F0.05(m,n-m)/(n2 (n-m))
  时,可以认为在95%的检验水平上,样本点i对成分t1,…,tm的贡献过大。
  单因变量的偏最小二乘回归模型
  1 简化算法
  第一步 已知数据E0,F0,由于u 1= F0,可得
  w1= E0'F0/|| E0'F0||
  t 1= E0w1
  p1= E0' t 1/|| t 1||2
  E1= E0-t 1 p1'
  检验交叉有效性。若有效,继续计算;否则只提取一个成分t 1。
  第h步(h=2,…,m) 已知数据Eh-1,F0,有
  wh= Eh-1'F0/|| Eh-1'F0||
  t h= Eh-1wh
  ph= Eh-1' t h/|| t h||2
  Eh= Eh-1-th ph'
  检验交叉有效性。若有效,继续计算h+1步;否则停止求成分的计算。
  这时,得到m个成分t1,…,t m,实施F0在t1,…,t m上的回归,得
  F0^= r1t 1+ …+ rmt m
  由于t1,…,t m均是E0的线性组合,即
  t h= Eh-1wh= E0wh*
  所以F0^可写成E0的线性组合形式,即
  F0^= r1 E0w1*+ …+ rm E0wm*= E0[r1 w1*+ …+ rm wm*]
  最后,也可以变换成y对x1,…,x p的回归方程
  y^= α0+α1x1+ …+αp xp
  评论这张
 
阅读(202)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017