第二章 描述性统计命令与输出结果说明
作者:赵耐青 授权刊登:医学统计之星
本 节STATA 命 令 摘 要
|
by 分组变量:]summarize 变 量 名1 变 量 名2 … 变 量 名m[,detail] ci 变 量 名1 变 量 名2 … 变 量 名m [, level(#) binomial poisson exposure(varname) by(分组变 量) ] cii 样 本 量 均 数 标 准 差 [, level(#) ] tab1 变量名 [,generate(变量名)] |
· 资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度)
例: 某 地 测 定 克 山 病 患 者 与 克 山 病 健 康 人 的 血 磷 测 定 值 如 下 表( 数 据 摘 自 四 川 医 学 院 主 编 的 卫 生 统 计 学,1978 出 版, p21):
|
患 者 |
2.6 |
3.24 |
3.73 |
3.73 |
4.32 |
4.73 |
5.18 |
5.58 |
5.78 |
6.40 |
6.53 |
||
|
健康人 |
1.67 |
1.98 |
1.98 |
2.33 |
2.34 |
2.50 |
3.60 |
3.73 |
4.14 |
4.17 |
4.57 |
4.82 |
5.78 |
并 假 定 这 些 数 据 已 以STATA 格 式 存 入 ex2.dta 文 件 中, 其 中 变 量 x1 为 患 者 的血 磷 测 定 值 数 据, 变 量 x2 为 健 康 人 的血 磷 测 定 值 数 据。 上 述 数 据 也 可 以 用 变 量 x 表 示 血 磷 测 定 值, 分 组 变 量 group=0 表 示 患 者 组 和 group=1 表 示 健 康 组( 如: 患 者 组 中 第 一 个 数 据 为 2.6, 则 x=2.6,group=0; 又 如: 健 康 组 中 第 三 个 数 据 为 1.98, 则 x 为 1.98 以 及 group 为 1), 并 假 定 这 些 数 据 已 以 STATA 格 式 存 入 ex2a.dta 文 件 中。
计 算 资 料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例:
use ex2,clear
summarize x1 x2
结 果:
|
变量 样本数 均 数 标准差 最小值 最大值 Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------------------------- x1 | 11 4.710909 1.302977 2.6 6.53 x2 | 13 3.354615 1.304368 1.67 5.78 |
即: 本 例 中 急 性 克 山 病 患 者 组 的 样 本 数 为 11,血 磷 测 定 值 均 数 为 4.711 (mg%), 相 应 的 标 准 差 为 1.303, 最 小 值 为2.6 以 及 最 大 值 为6.53;健 康 组 的 样 本 量 为 13,血 磷 测 定 值 均 数 为3.3546, 相 应 的 标 准 差 为 1.3044, 最 小 值 为1.67 以 及 最 大 值 为5.78。
计 算 资 料 均 数, 标 准 差, 中 位 数, 低 四 分 位 数 和 高 四 分 位 数 的 命 令 summarize 以 及 子 命 令 detail, 仍 以 述 资 料 为 例:
use ex2,clear
summarize x1 x2,detail
结 果:
|
x1 ------------------------------------------------------------- Percentiles Smallest( 最 小 值) 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11(样本数) 25% 3.73 (低四分位) 3.73 Sum of Wgt. 11 50% 4.73 (中位数) (最大值) Mean 4.710909(均数) Largest Std. Dev. 1.302977(标准差) 75% 5.78(高四分位) 5.58 90% 6.4 5.78 Variance 1.697749 (方差) 95% 6.53 6.4 Skewness -.0813446(偏度) 99% 6.53 6.53 Kurtosis 1.809951 (峰度) x2 ------------------------------------------------------------- ④ Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% ① 2.33 2.33 Sum of Wgt. 13 50% ② 3.6 Mean 3.354615 ⑤ ⑥ Largest Std. Dev. 1.304368 75% ③ 4.17 4.17 90% 4.82 4.57 ⑥Variance 1.701377 95% 5.78 4. 82 ⑦Skewness .2963943 99% 5.78 5.78 ⑧ Kurtosis 1.875392 |
由 上 述 结 果 可 知:summarize 命 令 并 使 用 子 命 令 detail, 不 仅 可 以 得 到 各 变 量 资 料 的 均 数 和⑥ 标 准 差, 而 且 可 以 得 到 主 要 的 非 参 数 描 述 指 标: ①低 四 分 位 (lower quartile), ②中 位 数 (Median) 以 及 ③高 四 分 位 (upper quartile)。 对 于 非 正 态 资 料, 一 般 不 应 用 均 数 ± 标 准 差 进 行 描 述, 而 应 使 用 中 位 数 以 及(低 四 分 位- 高 四 分 位, 称 interquartile range, IQR) 进 行 描 述。 如: 若 本 资 料 不 正 态 [1] , 则 x1 的Median 以 及IQR 为: 4.73 (3.73-5.78) 以 及 x2 的Median 以 及 IQR 为 : 3.6 (2.33-4.17)。⑥ 为 样 本 方 差;⑦ 为 偏 度, 偏 度 的 绝 对 值 越 小, 表 明 该 数 据 的 正 态 对 称 性 越 好; ⑧峰 度, 峰 度 值 越 大 表 明 该 数 据 的 正 态 峰 越 明 显;④ 在 该 数 据 中 最 小 的 四 个 数 据;⑤在 该 数 据 中 最 大 的 四 个 数 据。
若 调 用 ex2a.dta 文 件, 进 行 描 述 性 统 计, 可 用 下 列 命 令:
use ex2a,clear
sort group ( 将 资 料 以 group 变 量 为 例 从 小 到 大 排 序)
by group:summarize x
结 果:
|
-> group= 0 x ------------------------------------------------------------- Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 -> group= 1 x ------------------------------------------------------------- Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 |
上 述 结 果 与 前 面 的 结 果 对 应 相 同。
· 根 据 样 本 数 据 计 算 可 信 限 [2]
95% 可 信 限 计 算:
正 态数 据:ci 变量名
0-1 数 据:ci 变量名, binomial
poisson 分 布 数 据: ci 变 量 名,poisson
90% 可 信 限 计 算( 其 它 可 信 限 类 推)
正 态数 据:ci 变量名, level(90)
0-1 数 据:ci 变量名, level(90) binomial
poisson 分 布 数 据: ci 变 量 名,level(90) poisson
以 ex2.dta 为 例 计 算 x1,x2 的 95% 可 信 限。
|
use ex2.dta,clear ① ② ③ ④ Variable | Obs Mean Std. Err. [95% Conf. Interval] ---------+---------------------------------------------------------------------- x1 | 11 4.710909 .3928624 3.835557 5.586261 x2 | 13 3.354615 .3617667 2.566393 4.142837 |
以 上 结 果 中:① 为 样 本 数;② 为 均 数;③ 为 标 准 误;④ 为 95% 的 可 信 限, 因 此 x1 的95% 可 信 限 为[3.8356,5.5863],x2 的 95% 可 信 限 为[2.5664,4.1428]。
· 根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限 [3] 。
若 数 据 服 从 正 态 分 布, 并 已 知 样 本 均 数 和 标 准 差 以 及 样 本 数, 则95% 可 信 限 计 算 为:
cii 样 本 数 样 本 均 数 标 准 差[,level(#)]
例: 已 知 样 本 数 为 90 样 本 均 数 为 40 以 及 样 本 标 准 差 为 12, 则: 计 算 该 样 本 均 数 的 95% 可 信 限 为
|
cii 90 40 12 Variable | Obs Mean Std. Err. [95% Conf. Interval] ----------+---------------------------------------------------------------------- | 90 40 1.264911 37.48665 42.51335 |
该 样 本 均 数 的90% 可 信 限 为 [37.48665, 42.51335]
|
cii 90 40 12,level(90) Variable | Obs Mean Std. Err. [90% Conf. Interval] ---------+--------------------------------------------------------------------------- | 90 40 1.264911 37.89752 42.10248 |
· 计 数 资 料 中 频 数 和 比 例
STATA 命 令:
tab1 变 量 名[,g( 新 变 量 名)
因 为 该 命 令 主 要 适 用 描 述 计 数 资 料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分 析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。
例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。
|
x: |
2.23 |
1.14 |
2.63 |
1 |
1.35 |
2.01 |
1.64 |
1.13 |
1.01 |
1.70 |
|
group: |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|
x: |
5.59 |
0.96 |
6.96 |
1.23 |
1.61 |
2.94 |
1.96 |
3.68 |
1.54 |
2.59 |
|
group: |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
|
x: |
4.5 |
3.92 |
10.33 |
8.23 |
2.07 |
4.9 |
6.84 |
6.42 |
3.72 |
6 |
|
group: |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
|
x: |
1.35 |
1.06 |
0.74 |
0.96 |
1.16 |
2.08 |
0.69 |
0.68 |
0.84 |
1.34 |
|
group: |
4 |
4 |
4 |
4 |
4 |
4 |
4 |
4 |
4 |
4 |
|
x: |
1.4 |
1.51 |
2.49 |
1.74 |
1.59 |
1.36 |
3 |
4.81 |
5.21 |
5.12 |
|
group: |
5 |
5 |
5 |
5 |
5 |
5 |
5 |
5 |
5 |
5 |
tab1 group,g(a)