注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

SVM笔记  

2011-12-22 15:28:31|  分类: SVM |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
SVM:支持向量机。
SVM关注的是VC维和样本的维数是无关,样本的维数可以是上万维的,所以SVM适合用于解决文本分类(因为核函数的引入)。
一个足够复杂的函数(相应的VC维数很高),能够记住每个样本的分类,当它应用于非样本数据的时候,变的一塌糊涂,(即具有较差的泛化能力和推广能力)。
置信风险和两个量有关:第一样本数量,给定的样本数量越大,则学习结果约有可能正确,此时置信风险越小;第二:分类函数的VC维数,显然VC维数,推广能力越差,置信风险变大。
泛化误差界公式:
R(w)≤Remp(w)+Ф(n/h)
其中 R(w) 为真实风险,Remp(w)就是经验风险,Ф(n/h) 是置信风险,统计学习的目标是从经验风险最小化变为寻求经验风险和置信风险和的最小化,即结构风险最小。
SVM就是最小化结构风险的算法。
小样本,相对于算法的复杂度而言,SVM需要的样本数量相对较少。
SVM擅长处理线性不可分的数据,松弛变量和核函数技术的引进是SVM的精华。(PS:对与文本分类是否线性可分未知)
  评论这张
 
阅读(154)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017