(医学统计之星:张文彤)
上次更新日期:2002年08月05日
在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:
【Variables框】
用于选入需要进行相关分析的变量,至少需要选入两个。
【Correlation Coefficients复选框组】
用于选择需要计算的相关分析指标,有:
【Test of Significance单选框组】
用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
【Flag significant correlations】
用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。
【Options钮】
弹出Options对话框,选择需要计算的描述统计量和统计分析:
例9.1 请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。
解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:
这种做法严格说来是有问题的,我这样做主要是想偷懒。
例9.1的输出结果如下所示:
Correlations

在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。
如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。
上表的标题内容翻译如下:
| Italy | South Korea | ||
| Italy | Pearson积距相关系数 P值(双侧) 样本数 | 1.000 . 300 | .910 .000 300 |
| South Korea | Pearson积距相关系数 P值(双侧) 样本数 | .910 .000 300 | 1.000 . 300 |
Nonparametric Correlations

此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。
【Variables框】
用于选入需要进行偏相关分析的变量,至少需要选入两个。
【Controlling for框】
用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。
【Test of Significance单选框组】
意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
【Display actual significince level复选框】
用于确定是否在结果中给出确切的P值,一般选中。
【Options钮】
弹出Options对话框,选择需要计算的描述统计量和统计分析:
偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:
Partial Corr
- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -
Controlling for.. JUDGE3
JUDGE1 JUDGE2
JUDGE1 1.0000 .5632
( 0) ( 297)
P= . P= .000JUDGE2 .5632 1.0000
( 297) ( 0)
P= .000 P= .(Coefficient / (D.F.) / 2-tailed Significance)
" . " is printed if a coefficient cannot be computed
这些结果一目了然,不用再解释了吧,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义。
请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。
Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。
【Variables框】
用于选入需要进行距离相关分析的变量,至少需要选入两个。
【Label cases by框】
选择一个变量用于给各个记录加上标签,可以不选。
【Compute Distances单选框组】
其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。
【Measure单选框组】
用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。
【Measure钮】
和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:
选择Dissimilarities时各种数据类型可用的测距方法有:
1、计量资料
2、计数资料
3、二分类变量
选择Similarities时各种数据类型可用的测距方法有:
1、计量资料
2、二分类变量
3、其他类型变量