注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

【转载】SAS 常用过程之 PROC UNIVARIATE  

2013-05-29 15:28:42|  分类: SAS |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

PROC UNIVARIATE 含七道指令它们的格式如下(每道指令结束后才用逗号分开):

PROC UNIVARIATE 选项串;

VAR 变量名称串;

BY 变量名称串;

FREQ 变量名称;

WEIGHT 变量名称;

ID 变量名称串;

OUTPUT OUT=统计值输出文件名称    统计值关键字符串=统计值变量;

备注:在一个 UNIVARIATE 程序中,可以多次使用 OUTPUT 指令但其他六道指令只能出现一次,此外PROC UNIVARIATE 指令后的六道指令可以按任何顺序出现。


指令 #1: PROC UNIVARIATE 语句的选项串有下列七个选项可供选择:

常用选项:

(1) DATA=输入资料文件名称

       指明到底对那一个资料文件进行分析,若省略此选项则 SAS 会自动找出在本程序之前最后形成的资料文件并对它进行分析。

(2) NOPRINT

       使用此选项分析结果将不在result里输出。

(3) PLOT

       使用此选项UNIVARIATE 过程将产生三种图形:茎叶图 (Stem-And-Leaf Plot) 、平行条状图 (Horizontal Bar Chart)、盒状图          (Box Plot)、正态分布拟合图 (Normal Probability Plot)(参阅 Tukey 1977)。

(4) FREQ

       使用此选项 UNIVARIATE 过程将对变量各个取值的频数及百分比进行分析

(5) NORMAL

      此选项可用来要求 UNIVARIATE 过程检定分析的变量是否呈现正态分布并且输出其检验结果。

不常用选项:

(6) PCDLDEF={1/2/3/4/5}此选项是用来决定计算百分位数 (Percentiles)的方法

PCDLDEF=1 表示用第一种计算方法以此类推 ,若省略此选项则UNIVARIATE程序会自动采用用第四种计算方法。

(7) VARDEF={N/DF/WEIGHT (或 WGT) / WDF} 此选项决定计算变异数所用的分母

N 观察体总数

        DF 观察体总数减去 1 这是本选项的内设值

        WEIGHT (或 WGT) 加权后的观察体总数

        WDF 上述 WEIGHT 值减去 1

指令 #2 VAR 变量名称串

 此指令列举需要进行描述性统计分析的数值变量名称,若省略将对输入资料文件中所有数值变量进行分析,若选用 OUTPUT 指令

 则不可省略 VAR 指令

指令 #3 BY 变量名称串

程序依据此指令所列举的变量将观测进行分组,然后对每组观测分别执行分析,选用此指令时资料文件内的数据必须先按照 BY           变量的值做由小到大的重新排列,这个步骤可由 PROC SORT 过程完成。

指令 #4 FREQ 变量名称

这个变量必须是一个数值变量,其值代表观察测重复出现的次数,若此变量的值含小数则取其整数部分若其值小于 1 则此观测将        被剔除在计算过程之外。

指令 #5 WEIGHT 变量名称

这个变量称为加权变量,用以说明所要分析的变量的权重是多大,其主要功用在于计算加权平均数、加权标准差、及加权变异            数。

注意:若选用了 WEIGHT 指令则 UNIVARIATE 程序将不计算偏度与峰度这两个统计值,这两个统计值将以缺失(.)表示,此外WEIGHT 指令对四分位数极端分数及观察体总数的计算并不发生任何作用(freq选项会对其有影响)。

指令 #6 ID 变量名称串

用来标示输出的变量。

指令 #7 OUTPUT OUT=统计值输出文件名称      统计值关键字符串=关键值变量

保存计算的N mean std等关键统计量

(1) OUT=统计值输出文件名称

存储要输出的关键统计的表名,省略此选项则 SAS 将以内设的命名方式自动给予 DATAn 的文件名 (如 DATA1 DATA2...) n 按输出文件产生的先后顺序由 1 逐次累加而成

(2) 统计值关键字符串

这些关键字代表要输出的统计值,首先说明要保存哪些统计值,然后对要存储的统计值给予变量名。

UNIVARIATE 程序内有二十六个统计值:

统计值及对应含义
N 非缺失值个数
NMISS 缺失值个数
NOBS 观察体总数
MEAN 平均数
SUM 变量值的总和
STD 标准差
VAR 变异系数(标准误)
SKEWNESS 偏度
KURTOSIS 峰度
SUMWT 所有观察体在 WEIGHT 变量上的总和
MAX 变量的最大值
MIN 变量的最小值
RANGE 最大值减去最小值所得的差
Q3 第三个四分位数
MEDIAN 中位数 (第 50 的百分位数)
Q1 第一个四分位数
QRANGE Q3 减去 Q1 之差
P1 第 1 的百分位数
P5 第 5 的百分位数
P10 第 10 的百分位数
P90 第 90 的百分位数
P95 第 95 的百分位数
P99 第 99 的百分位数
MODE 众数如果有不只一个众数取最小值的那一个
SIGNRANK 等级符号检定法 (The Signed Rank Statistic Lehmann 1975)
NORMAL 常态分配的检定 (Test Statistic for Normality)若观察体个数少于 51 则采用Shapiro-Wilk 的 W Statistic 的方法检定否则采用用 Kolomogorov

备注:这些关键字的表达方式是统计值关键字 = 变量名

些代表统计值的变量名称必须根据 VAR 指令内所列举的变量顺序对应地一 一列举未列举者不予输出请看下面这个例子

PROC UNIVARIATE;

VAR X Y;

BY SEX;

OUTPUT OUT=MSD MEAN=MX MY STD=SDX;

假如分组变量 SEX 的值是 1 或 2 则 UNIVARIATE 程序所产生的报表输出文件将是两个 SEX 组在变量 X 与 Y 上的描述性统计值,OUTPUT 指令的界定这个输出数据集WORK.MSD (暂时的文件), MSD数据集包括四个变量即SEXMX MY 及 SDX, 其中 SEX 是分组变量、MX 与 MY 分别是变量 X 与 Y 的平均数、DX 是变量 X 的标准差,由于关键字 STD 后只界定一个变量名称 (SDX) 故此变

量自动指 VAR 指令内所列举的第一个变量,变量 Y 的标准差因未界定其相对应的变量名称因此不输出。


注 意 事 项:

1.缺失数据的处理,处理的方法依遗漏数据的性质而异

(1) VAR 指令中的变量

若观察体在 VAR 指令之某个变量上含遗漏数据则该观察体将被排除在这个变量的计算过程之外,然而若在其他变量上无遗漏数据仍会被纳入其他 VAR 变量的计算过程内,这些含遗漏数据的观察体个数及它们占总观察体数的百分比将被纳入报表输出文件

(2) WEIGHT 指令中的变量

若在 WEIGHT 的加权变量上含遗漏数据则观察体的加权变量值就是 0 这些观察体仍然而会被纳入百分位数的计算以及极端分数的挑选

(3) FREQ 指令中的变量

若在 FREQ 指令的次数变量上含遗漏数据则观察体将被剔除在所有计算过程之外

(4) BY 指令中的变量

若在BY 的分组变量上含遗漏数据则这些观察体在分析的过程中自成一个分组

(5) ID 指令中的变量

若在 ID 的识别变量上有遗漏数据则在需要识别观察体的地方仍以遗漏值 (.)呈现



  评论这张
 
阅读(155)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017