UID276625
阅读权限1
专业分
贡献分
爱医币
鲜花
注册时间2006-12-30
|
第九章 数值变量资料的统计分析
统计 ┌统计描述:总结合描述重要特点。
分析 └统计推断:根据观察到的样本资料推断总体。
第一节 数值变量资料的统计描述
统计描述的任务就是用表、图和数字的形式概括原始资料的主要信息。
通常,获得一定数量观察资料,原始资料 → 描述 → 推断
↘指标的选择视分布。
1.样本含量n较小时,将n个观察值从小到大排列以观察其分布规律。
2.n较大时,编制频数表观察其分布规律。
一、频数表(frequency table):表明观察值在某一特征上的频数。
1.频数表的编制步骤:
例9-1 某市2002年150名20岁~30岁的正常成年男子的尿酸浓度( )的资料如下,试编制频数表。
1)计算极差或全距(range)(R):R = 最大值-最小值。
本例R=428.7-278.6=150.1( )。
2)决定组数、组段和组距:通常分10~15个组段,组段数的多少主要根据研究目的及观察例数确定。组段数不宜太多或太少。
相邻两组段最小值之差称组距(class interval)。一般都用等距。
本例拟分10个组段,则组距=极差/组段数,即组距为150.1/10=15.01( ),取整为15 。
注意:
第一个组要包含最小值,最末组要包含最大值。
每个组段包含该组段的下限值,不包含本组段的上限值,最后一个组段要标出上下限。
3)列表划记:划分好组段后,整理成表9-2的形式,将原始数据用划记法录入,得各个组段的频数。
2. 直方图:更形象描述频数分布情况,可以用直方图表达。
3. 频数表和直方图的意义:
(1)简洁形象地表达数据的特征:集中趋势和离散趋势
(2)确定变量的分布类型
(3)发现异常值
二、平均水平指标:
频数表对原始资料包含的信息做了精选和概括,但还不够。我们希望用更精炼的一、两个数字概括原始资料的信息,一般计量资料用两个数字分别描述资料的集中趋势和离散水平。
平均数是(average)描述资料的平均水平(或集中趋势)的指标。
有三个常用指标:算术平均数、几何平均数、中位数。
1. 均数 (mean) :算术均数(arithmetic mean)的简称,它是一样本观察值的总和除以个体值数目。
(1) 计算方法:
① 直接法:
例9-2 有8名正常成年女子的血清甘油三酯(mmol/L)的测定值分别为1.34,0.96,1.11,1.52,1.12,0.91,1.33,1.24,求其算术均数。
1.191
② 加权法(Weighting method):当不掌握原始数据而只有频数表时, 可计算均数的近似值,用组中值计算。
尿酸浓度 组中值(xi) 频数(fi) fi x fi xi2
270- 277.5 2 555.0 154012.5
285- 292.5 9 2632.5 770006.3
300- 307.5 11 3382.5 1040119.0
315- 322.5 22 7095.0 2288138.0
330- 337.5 24 8100.0 2733750.0
345- 352.5 27 9517.5 3354919.0
360- 367.5 20 7350.0 2701125.0
375- 382.5 15 5737.5 2194594.0
390- 397.5 11 4372.5 1738069.0
405- 412.5 8 3300.0
427.5 1361250.0
420-435 427.5 1 182756.3
合计 — 150
(fi ) 52470.0
(fixi) 18518738.0
(fixi2)
( )
(2)均数的应用:资料呈正态或近似正态分布。大多数正常人的生理、生化指标,如身高、体重、胸围、血红蛋白、白细胞数等,都适宜用均数表达其平均水平。
2. 几何均数 ( geometric mean) :用G表示,是将n个观察值x的乘积再开n次方,所得的n次方根(或各观察值x对数值均值的反对数)。
(1)几何均数的应用:等比级数资料或原始观察值呈偏态分布,经对数转换后可转换为正态分布或近似正态分布的资料,如抗体的平均滴度、细菌计数等。
滴度资料,例:10, 100, 1000, 10000, 100000。其算术均数为22222, 代表性很差。
(2)计算方法
①直接法:
例9-3 有8份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64, 1:128,1:256,求平均抗体效价。
用各抗体效价的倒数计算,得:
=lg-1(1.355)= 22.65
血清的抗体平均效价为1:22.65。
②加权法(Weighting method):当观察例数较多或频数表资料时采用加权法计算。
公式为:
例9-4 某地34名儿童接种麻疹疫苗后,血清血凝抑制抗体滴度的测定结果见表9-4,求平均滴度。
表9-4 某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的计算表
抗体滴度(1) 频数 (2)
滴度倒数X(3) (4)
(5)=(2)×(4)
1:2.5 3 2.5 0.3979 1.1937
1:5.0 7 5.0 0.6990 4.8930
1:10.0 14 10.0 1.0000 14.0000
1:20.0 6 20.0 1.3010 7.8062
1:40.0 4 40.0 1.6021 6.4084
合计 34 - - 34.3013( )
该地34名儿童的血清血凝抑制抗体的平均滴度为1:10.206。
注意:计算几何均数的观察值不能小于或等于0,因为无法求对数。
同一组数据的几何均数小于算术均数。
3.中位数(median,M)和百分位数(percentile,Px):
中位数:把n个变量值从小到大排列,位置居中的变量值。
百分位数:把n个变量值从小到大排列,第x百分位次对应的变量值称为第x百分位数。
(1) 计算方法:
①直接法:将样本值由小到大排队,
n是奇数时, M = X(n+1)/2
例9-5 某医生观察5名小细胞未分化型肺癌患者,其生存期(月)分别为4,18,21,23,41,求中位数。
本例n=5,为奇数,M = X[(n+1)/2] = X3 = 21(月)
n是偶数时, M = (X(n/2)+X(n/2+1))/2
例9-6 10名某传染病病人的潜伏期(天)分别为1,1,2,2,2,3,4,6,8,10,求中位数。
本例n=10,为偶数,
M={X(n/2)+X[(n/2)+1]}}/2 = (X5+X6)/2 = (2+3)/2 = 2.5(天)
②频数表法:当不掌握原始数据而只有频数表时,可以计算中位数的近似值。
(1) 找到中位数所对应的名次, n/2
(2) 找到该名次所在组段,
L、ⅰ、fχ 分别为Pх所在组段的下限、组距和频数;
ΣfL为小于L的各组段的累计频数,n为总例数。
例9-7 某研究者测得某年某市308名6岁以下儿童的尿铅值,见表9-5,试计算中位数M及P25,P75,P95百分位数。
计算步骤:
① 按所分组段由小到大计算累计频数和累计频率;
② 确定Pχ所在组段;
③求中位数M或其它的百分位数Px。
表9-5 308名6岁以下儿童的尿铅值中位数及百分位数的计算表
尿铅值 (mmol/L)(1) 例数f(2) 累计频数Σf(3) 累计频率(%)(4)=(3)/n
0~ 27 27 8.77
25~ 54 81 26.30
50~ 95 176 57.14
75~ 55 231 75.00
100~ 39 270 87.66
125~ 21 291 94.48
150~ 12 303 98.38
175~ 5 308 100.00
合计 308(Σf) - -
本例n=308
=50+(25/95)×(308×50%-81)= 69.21(mmol/L)
P25=25+(25/54) ×(308×25%-27)=48.15(mmol/L)
P75=75+(25/55) ×(308×75%-176)=100.00(mmol/L)
P95=150+(25/12) ×(308×95%-291)=153.33(mmol/L)
(2)中位数的应用:适用于描述任何分布,特别是偏态分布资料(如某些传染病或食物中毒的潜伏期)以及频数分布的一端或两端无确切数据资料(如血铅、发汞值)的中心位置。
对于正态分布总体,均数等于中位数。
百分位数的应用:描述一组数据某一百分位的位置,最常用的百分位数是P50,即中位数。
也可用多个百分位数的结合来描述一组观察值的分布特征,如P25和P75合用时,反应中间50%观察值的分布情况。
制定95%的医学参考值范围(reference ranges)。
三、离散程度指标:
例:三组同年龄﹑同性别儿童体重(kg)数据如下:
甲组 26 28 30 32 34
乙组 24 27 30 33 36
丙组 26 29 30 31 34
考虑:除平均水平外,还有变异程度(即个体变异)。
需用离散程度指标反应一组同质观察值的变异度,只有将反应集中趋势与变异度的指标两者结合起来,才能全面地反应频数分布的一组数值变量资料的特征。
常用的度量指标:全距、方差、标准差,四分位数间距和变异系数。
1.极差或全距(range, R):
极差大,表明个体值较分散, 变异程度高。
缺点:不能较好地反应每个个体的变异性;这个度量指标只依赖于最大值和最小值, 而最大值和最小值又常随样本的不同而差别较大,即指标R的稳健性很差。
2.四分位数间距:四分位数为特定的百分位数,用Q表示。
下四分位数QL=P25,上四分位数QU=P75
四分位数间距(quartile interval)即:Q=QU-QL。
四分位数间距内包含全部变量值的1/2,可看作中间1/2变量值的全距。其数值越大,变异度越大,反之,变异度越小。
例9-7中,已求得QU=P75=100.00(mmol/L),QL=P25=48.15(mmol/L),则四分位数间距为Q=QU-QL=100.00-48.15=51.85(mmol/L)。
四分位数间距的优点是,稳定性比极差好,但仍未考虑全部观察值的变异度,适用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。
3.方差(variance):为了全面地考虑各个观察值的离散情况,克服极差和四分位数间距未能充分利用每个观察值所提供的变异信息的缺点,应寻找一种能利用每个观察值所提供的变异信息的指标。
总体中每个变量X与总体均数μ之差 ,称为离均差。
。故将离均差平方后再相加,即 , 称为离均差平方和。
变异度除与离均差平方和的大小有关外,还与观察值的个数有关,应取其均数,即:
由于实际工作中,只能用 作为μ的估计值,用样本例数n代替N,计算方差,但这样算得的方差常常比 要小些。
调整方法:英国统计学家W•S•Gosset提出用(n-1)代替n,于是得到了计算样本方差S2的公式:
式中n-1称为自由度(degree of freedom),用df或ν表示。
4.标准差(standard deviation):方差由于取平方之故,使原始数据的变量值单位为平方单位(如cm2,kg2),为恢复原单位,可将方差开平方,得总体标准差σ和样本标准差S。
σ=
S=
标准差是测量观察值围绕均数分散程度最好的指标。标准差越大,表明个体之间的变异越大,数据越分散;反之,标准差越小,表明个体之间的变异越小,数据越集中,故由标准差的大小即可反映出均数对它所代表的一组数据的代表性的好坏。这就是集中趋势与离散趋势的综合分析。
标准差的计算公式:
直接法:S= 加权法:S=
例9-8 6名男婴的出生体重(kg)为2.85,2.90,2.96,3.00,3.05,3.18,求标准差。
本例n=6, =17.94, =53.709,代入式(9-13)得:
S= =0.117(kg)
6名男婴体重标准差为0.117kg。
例9-9 利用表9-3中资料计算150名正常成年男子的尿酸浓度标准差。
S= =33.25( )
150名正常成年男子的尿酸浓度标准差为33.25 。
方差和标准差适用于描述服从正态分布资料的变异程度。
5.变异系数( coefficient of variation,CV):反应资料的相对变异程度,便于资料间的相互比较。
应用:比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异度。
关心的不是标准差的数值大小, 而是相对于均值而言, 标准差有多大, 这就是变异系数,无量纲, 是一个相对数。
例9-10 某地25岁男子100名,平均身高171.21cm,标准差为5.34cm;体重均数为59.72kg,标准差4.16kg。试比较其身高和体重的变异程度。
身高CV=(5.34/171.21)×100% = 3.12%
体重CV=(4.16/59.72)×100% = 6.97%
我们可以说, 相对于均数而言,比较计算所得的两个变异系数,可见该地25岁男子之间体重的变异度比身高的变异大。
小结:
1.数值变量描述的指标应用:
对称或正态分布 非正态布 对数正态分布
集中趋势
M G
变异程度 S Q Slgx
2.度量衡单位不同或均数相差悬殊多组资料变异程度的比较,用CV。 |
|