统计学课件

小*杨 · 发表于 2008-4-27 23:44

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？注册

x

第十二章直线相关与回归

         前面第九章中我们讨论了对单一连续型变量的部分统计分析方法，着重于比较该单个变量的组间差别。
 

相关是研究随机变量之间相互联系的密切程度和方向。

回归是研究随机变量之间的数量依存关系。 

本章介绍简单的相关与回归，即只涉及两变量。
第一节  直线相关第二节  Spearman等级相关第三节  直线回归第四节  直线相关与回归分析的关系
第一节  直线相关一、相关的概念二. 相关分析的资料来源三、直线相关的统计描述四．相关系数的假设检验
第一节直线相关
一、相关的概念：
  当两指标间不***则为相关，即某一指标的取值与另一指标的取值多少有关。
统计学中用一个统计量描述直线相关的密切程度，这个统计量称相关系数，记为r。
相关系数的绝对值必然在0到1之间，即：

相关系数的大小表示相关的密切程度，
例：体重与肺活量，胸围与肺活量
 
相关系数的符号表示相关的方向，
例：胆固醇与冠心病，水中氟含量与龋齿

三、直线相关的统计描述： 1．散点图：
   考察相关性最简单而直观的办法是散点图。以两条互相垂直的座标轴分别表示两个变量，n对观察值对应于座标平面的n个点，便构成一幅散点图。

本资料绘制成散点图（Scatter plot）如下：

2. 相关系数的计算：

  根据例12-1的资料，散点图已观察两变量之间有直线趋势，现计算相关系数。
四．相关系数的假设检验： r≠0原因：① 由于抽样误差引起，ρ=0    ② 存在直线相关关系，ρ≠0  常用方法有t 检验和查表法。
（一） t 检验：
1. 检验假设：
  H0：ρ=0 H1：ρ≠0 α=0.05

（二）查表法：
根据自由度查表12-3，相关系数r界值表，查出r0.05()，
   若r r0.05() , 则认为P0.05，不拒绝H0。
   若r r0.05() , 则认为P0.05，拒绝H0，接受H1。

   本例=15-2=13，查r界值表，r0.05(13)=0.514，r0.01(13)=0.641，r=0.7194> r0.01(13) , P<0.01。
  按=0.05的水准，按=0.05的水准，拒绝H0 ,接受H1 ，与t检验结论相同。
第二节  Spearman等级相关
   线性相关适用于双变量正态分布，在实际应用中，当资料不符合上述条件时，可采用等级相关推断其相关性。
①不服从双变量正态分布。
   ②总体分布类型未知。
   ③原始数据是用等级表示的。
1.等级相关系数rs的计算：

计算等级相关系数的步骤如下：
  （1）将每个变量的观察值分别由小到大排列编秩，当观察值相同时，取平均秩次。
（2）求每对观察值等级的差数（d）及差数的平方（d2），并计算d2。
  （3）求Spearman等级相关系数。
2. Spearman等级相关系数的假设检验：
(1) 建立检验假设：
H0：总体的Spearman 相关系数等于0
H1：总体的Spearman 相关系数不等于0
   =0.05
(2)查表：根据观察单位数n和查表12-4中的rs界值。
若rs<rs（n,0.05）则P>0.05，不拒绝H0，认为rs无统计学意义。
若rsrs（n,0.05）则P0.05，则拒绝H0，接受H1，认为rs有统计学意义。

      本例n=10, rs（10,0.05）=0.648，rs>rs（10,0.05）则P<0.05，按α=0.05水准，拒绝H0，接受H1，认为rs有统计学意义，即子痫抽搐次数与新生儿窒息之间有负向的等级相关关系。

第三节    直线回归
   随着所探索问题的深入，研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值，如医学研究中常需要从某项指标估算另一项指标，如果这指标分别是测量变量X 和Y，我们希望由X 推算Y的值。
         我们称X为自变量，Y则称为依赖于X 的因变量。
  如果Y与X的关系呈线性时，我们可以用直线回归（linear regression）描述两者的关系。

一、回归的概念：

         100多年前，有位英国遗传学家(Galton)注意到当父亲身高很高时，他的儿子的身高一般不会比父亲身高更高。同样如果父亲很矮，他的儿子也一般不会比父亲矮，而会向一般人的均值靠拢。当时这位英国遗传学家将这现象称为回归。
         后来人们借用“回归”这个词来描述通过自变量的数值预测因变量的平均水平。

二、直线回归的统计描述（例12-1）：（一）散点图：见图12-1。

怎样的  最好地代表了所有的Y，需要有个标准。经典的标准是最小二乘(least squares)原则：即每个观察点距离回归直线的纵向距离的平方和最小。

例12-3 以例12-1的资料为例，已计算得该校女中学生的胸围和肺活量之间存在正相关关系，试继续进行线性回归分析。1.绘制散点图：见图12-1。

三、回归系数的统计推断：    样本回归系数的假设检验（t检验）： 1. 建立检验假设：  H0：β=0，H1：β≠0，α=0.05

第四节直线相关与回归分析的关系一、直线回归与相关的区别和联系：

应用上: 说明变量间的依存变化关系用回归；说明变量间的相互变化关系用相关。

2.联系：
(1)同一组资料，r与b正负号一致。
二、应用相关与回归分析时应注意的问题：
1．进行相关与回归分析时要有实际意义。

2．相关关系不一定是因果关系，也可能仅是表面上的伴随关系。

小  结
THE    END

小*杨 · 发表于 2008-4-27 23:45

一、医学统计的基本内容
1. 统计学：统计学是一门科学和艺术，专门处理数据中的变异性。
如何处理：通过数据收集、整理、分析。
   目的：得到可靠的结果。

2. 医学统计学：统计学应用于医药卫生领域即称为医学统计学。

3. 几个基本概念：
⑴ 总体、样本、个体、随机抽样、抽样误差
⑵ 同质、变异、变量
⑶ 参数、统计量
⑷ 随机事件、概率

4. 三种资料类型：
数值变量，即计量资料
无序分类变量，即计数资料
有序分类变量，即等级资料

5. 统计工作基本步骤：
统计设计：研究什么(总体样本)、怎样分组(随机对照)、收集什么资料(指标要求)、怎样统计分析(据分布选方法)
搜集资料：准确可靠及时、盲法设计
整理与分析资料：正确选用统计方法。

6．制作统计表和绘制统计图的基本要求，常用统计表和统计图的应用（选用）。
二、数值变量资料的统计分析
1．频数表(直方图)意义：
①较具体地、直观地描述一组数据的特征和类型；
②有助于正确选用统计指标和便于计算；
③有助于发现异常值。

2．各种反应平均水平和离散程度的指标的意义、正确应（选）用、计算及适用条件（资料类型、分布）。
平均水平指标：

离散程度的指标：


3．正态分布的图形及其特征：
  1)正态曲线在横轴上方，均数处最高。
  2)正态分布以均数为中心，左右对称。
   均数、中位数及几何均数相等。
  3)正态分布有两个参数，μ和σ 。
   μ是位置参数，决定正态曲线的中心位置。σ是变异度参数，决定正态曲线的陡峭或扁平程度。σ越大，曲线越陡峭，σ越小，曲线越扁平。
  4)正态曲线下的面积分布有一定规律。

4. 正态曲线下面积的分布规律：
 曲线下总面积为1或100％

 常用的区间及其面积有：
①均数加减1.96倍标准差范围外双侧尾部面积共5％
②均数加减2.58倍标准差范围外双侧尾部面积共1％

5.参考值范围的制定及适用条件：（正态、对数正态、百分位数法）
6.均数的抽样误差与标准误：
  标准误用来说明样本均数的抽样误差大小。


7．t分布：
  若变量X～N（，2），
  则样本均数
  据此可作标准正态变换：

在未知情况下，只好用S作为其估计值，这时：

t的分布不同于标准正态分布，称为t分布。
其特征是：单峰，t分布曲线下面积分布规律随自由度而变化(要查表)。

自由度

8．总体均数的区间估计：
  已知σ时，
  未知σ时，
  未知σ，n足够大时，
9．假设检验的基本步骤和基本思想

10．t检验：
样本与总体比较的t检验：

配对设计t检验：


成组设计t检验：

小*杨 · 发表于 2008-4-27 23:46

复习
一、医学统计的基本内容：
1. 统计学：是应用学科：研究设计、数据的收集、整理与分析。
2. 医学统计学：统计学应用于医药卫生领域即称为医学统计学。
3. 几个基本概念
⑴ 总体、样本、个体、随机抽样、抽样误差
⑵ 同质、变异、变量
⑶参数、统计量
⑷ 随机事件、概率
4. 三种资料类型：
5. 统计工作基本步骤是：
• 统计设计：研究什么(总体样本)、怎样分组(随机对照)、收集什么资料(指标要求)、怎样统计分析(据分布选方法)
• 搜集资料：准确可靠及时、盲法设计
• 整理与分析：正确选用统计方法
6．制作统计表和绘制统计图的基本要求，常用统计表和统计图的应用（选用）

二、数值变量资料的统计分析
1．频数表(图)意义：
①较具体地、直观地描述一组数据的特征和类型；
②有助于正确选用统计指标和便于计算；
③有助于发现异常值
2．各种反应平均水平和离散程度的指标的意义、正确应（选）用、计算及适用条件（资料类型、分布）
3．正态分布的图形及其特征
4. 正态曲线下面积的分布规律
• 曲线下总面积为1或100％
• 常用的区间及其面积有：
①均数加减1.96倍标准差范围外双侧尾部面积共5％
②均数加减2.58倍标准差范围外双侧尾部面积共1％
5. 参考值范围的制定及适用条件（正态、对数正态、百分位数法）
6. 均数的抽样误差与标准误
标准误用来说明样本均数的抽样误差大小
7．t分布
若变量X～N（，2），
则样本均数

据此可作标准正态变换：

在未知情况下，只好用S作为其估计值，这时令

则t的分布不同于标准正态分布，称为t分布
• 其特征是：单峰，t分布曲线下面积分布规律随自由度而变化(要查表)
8．总体均数的区间估计：
9．假设检验的基本步骤和基本思想
假设H0为真
                                        
求得在H0条件下：
  获得现有样本以及更极端样本的概率P值
  求得现有统计量以及更极端统计量的概率P值


(1) 若P较大，无理由怀疑、拒绝H0

(2) 若P较小，有理由怀疑、拒绝H0

10．样本与总体比较的t检验
配对设计t检验

成组设计t检验


11．方差分析的基本思想和目的：
方差分析的基本思想是首先将总变异进行分解，对于完全随机设计而言，变异分解为组间变异和组内变异，然后比较平均变异MS组间和MS组内，比较时采用两者的比值F值，若F值大于某个临界值，表示处理组间的效应不同，若F值小于某个临界值，表示处理组间效应相同。

方差分析的目的是比较各组的总体均数是否相同。
掌握完全随机设计及随机区组设计方差分析变异及自由度的分解。
掌握完全随机设计方差分析的计算步骤(方差分析表)。

三、分类变量资料的统计分析
1．相对数的意义和应用相对数的注意事项
2. 常用相对数指标的计算方法和适应范围
3. 率的标准化法的意义，直接法标化率的计算
4．率的标准误以及率的可信区间的计算
5．率的u检验与2检验的适用条件以及其计算

四、秩和检验
1．参数检验和非参数检验的优缺点
2. 秩和检验的基本思想
3．几种不同设计类型资料秩和检验的编秩方法和统计量的选用

小*杨 · 发表于 2008-4-27 23:48

方法简介：
   检验（chi-square test或称卡方检验）是英国统计学家Pearson在1900年提出的一种用途广泛的假设检验方法。
本节介绍其用于两个或两个以上***样本的率（或构成比）的比较以及配对设计分类资料比较的检验方法。
一、 2检验的基本思想：
例10-8 某医生用A、B两种药物治疗急性下呼吸道感染，A药治疗74例，有效68例， B药治疗63例，有效52例，结果见表10-7。问两种药的有效率是否有差别？

  式中A为实际频数(actual frequency),即每个格子的实际发生数，T为理论数（theoretical frequency）,是根据无效假设推算出来的。

  2 值反应的是实际频数与理论频数的吻合程度，在无效假设H0成立的情况下，理论数和实际数相差不应该太大，出现较大的2值的概率较小，或说2值越大，就越有理由推翻无效假设H0。

四格表资料2值的自由度：
在行合计与列合计固定的情况下，一个格子的数值确定之后，其它三个格子的数值也就确定下来。自由度为1。
也可以根据以下通式计算：

   若2≥20.05（）（根据自由度和检验水准查表10-11 2值表得出），
   ，则可按=0.05的检验水准拒绝H0成立的无效假设。
   若2值<20.05（），则还不能拒绝H0。

二、四格表资料的2 检验
（一）检验的基本步骤：（以例10-8的资料说明）

（二）四格表资料专用公式：
（三）连续性校正的公式：

例10-9  某医生收集到两种药物治疗白色葡萄球菌败血症疗效的资料，结果见表10-8，问两种药物疗效之间的差别有无统计学意义？

三、配对设计分类变量资料       的 2检验
例10-10 用两种不同的方法对53例肺癌患者进行诊断，收集得表10-9的资料，问两种检测结果有无差别？
设计与配对设计的数值变量资料相同。
结果为二分类变量。
只有四种可能的情况，所以组成以上四格表。
      检验方法：甲          乙
                           +          +
                           +          -
                           -             +
                           -             -
计算公式：比较两种方法的差异，只需比较b，c格。
检验步骤：
1.检验假设:
  H0:1=2
  H1:12
  =0.05

2.计算2值：本例


3. 确定概率P 值和判断结果：
   配对四格表资料的自由度 =1，查2界值表，20.05（1）=3.84，2＞20.05（1）,P＜0.05,按=0.05的检验水准，拒绝H0，接受H1，可认为两种方法的阳性检出率不相同，乙法的阳性检出率较高。
四、行×列表资料的 2检验
例  1979年某地暴发松毛虫病，333例患者以14岁为界分为两组，资料如下表，试考察两组病人病变类型的构成比有无不同？
行×列表 2检验的计算公式：
检验步骤
1．检验假设：
H0:两组患者各型松毛虫病的构成比相同
H1:两组患者各型松毛虫病的构成比不全相同
 = 0.05。
2．计算2值：

3．确定概率P值和判断结果：
=(4-1)(2-1)=3，查2值表，20.05（3）=7.81，20.005（3）=12.84，220.005（4），P0.005。
按=0.05的检验水准，拒绝无效假设H0,接受备择假设H1，认为两组患者各型松毛虫病的构成比不相同。
结合资料可发现，成年组中症状较轻的皮炎型比重较儿童组大，症状重的类型比重较儿童组小。
行列表资料2检验的注意事项
1．进行行列表资料2检验时，要求不能有1/5以上的格子理论数小于5，或者不能有任意一个格子的理论数小于1，否则易导致分析的偏性。

  出现这些情况时可采取以下措施：
当格子中理论数较小：
①在可能的情况下再增加样本含量；

2．如假设检验的结果是拒绝无效假设，只能认为各总体率或构成比之间总的来说有差别。
   如果想进一步了解彼此之间的差别，需将行列表分割，再进行2检验（详见统计学专著）。

小结：
2检验的基本思想。

小*杨 · 发表于 2008-4-27 23:51

目的要求
掌握医学统计学中重要的基本概念。
掌握统计资料的类型。
熟悉统计工作的步骤。
学会编制频数表，了解频数表的用途。
掌握集中趋势和离散程度指标的含义和计算方法以及适用的范围。
实习一基本概念及数值变量资料的统计描述
讨论内容

3.某种菌苗通过皮下注射，对20名观察者进行免疫，21天后观察结果，分别采用三种原始形式记录，结果如下表。

请问三种记录各属何种类型的资料。变量类型是可以转换的吗？就此例进行说明。

4.调查某疫苗在儿童中接种后的预防效果，在某地全部1000名易感儿童中进行接种，经一定时间后从中随机抽取300名儿童做效果测定，得阳性人数228名。若要研究该疫苗在该地儿童中的接种效果，则____。

A.  该研究的样本是1000名易感儿童
B.  该研究的样本是228名阳性儿童
C.  该研究的总体是300名易感儿童
D.  该研究的总体是1000名易感儿童
E.  该研究的总体是228名阳性儿童

5.下列资料中属于计量资料的是：
A. 病人的血型
B. 粪便潜血试验结果（+，++，……）
C. 某地乙肝发病情况
D. 小鼠染毒后细胞转化率分别为
20%，75%……
E.临床试验的疗效(治愈，好转……）

6.大便潜血试验中“是否有红细胞”是不是计量资料？
7.红细胞计数是不是计数资料？

(3)某地抽样调查2000名儿童贫血资料如下：

小*杨 · 发表于 2008-4-27 23:53

第九章数值变量资料的统计分析

统计 ┌统计描述：总结合描述重要特点。
  分析 └统计推断：根据观察到的样本资料推断总体。

第一节数值变量资料的统计描述

统计描述的任务就是用表、图和数字的形式概括原始资料的主要信息。

通常，获得一定数量观察资料，原始资料 → 描述  → 推断
                                          ↘指标的选择视分布。

1.样本含量n较小时，将n个观察值从小到大排列以观察其分布规律。
2.n较大时，编制频数表观察其分布规律。

一、频数表（frequency table）：表明观察值在某一特征上的频数。
1.频数表的编制步骤：
例9-1 某市2002年150名20岁~30岁的正常成年男子的尿酸浓度（）的资料如下，试编制频数表。

1）计算极差或全距（range）（R）：R = 最大值-最小值。
本例R＝428.7-278.6=150.1（）。

2）决定组数、组段和组距：通常分10～15个组段，组段数的多少主要根据研究目的及观察例数确定。组段数不宜太多或太少。

相邻两组段最小值之差称组距（class  interval）。一般都用等距。

本例拟分10个组段，则组距＝极差／组段数，即组距为150.1/10=15.01（），取整为15 。

注意：
第一个组要包含最小值，最末组要包含最大值。
每个组段包含该组段的下限值，不包含本组段的上限值，最后一个组段要标出上下限。

3）列表划记：划分好组段后，整理成表9-2的形式，将原始数据用划记法录入，得各个组段的频数。

2. 直方图：更形象描述频数分布情况，可以用直方图表达。

3. 频数表和直方图的意义：
（1）简洁形象地表达数据的特征：集中趋势和离散趋势
（2）确定变量的分布类型
（3）发现异常值

二、平均水平指标：
频数表对原始资料包含的信息做了精选和概括，但还不够。我们希望用更精炼的一、两个数字概括原始资料的信息，一般计量资料用两个数字分别描述资料的集中趋势和离散水平。

平均数是（average）描述资料的平均水平（或集中趋势）的指标。
有三个常用指标：算术平均数、几何平均数、中位数。

1. 均数 (mean) ：算术均数(arithmetic mean)的简称，它是一样本观察值的总和除以个体值数目。

(1) 计算方法：

① 直接法：
例9-2 有8名正常成年女子的血清甘油三酯（mmol/L）的测定值分别为1.34，0.96，1.11，1.52，1.12，0.91，1.33，1.24，求其算术均数。
1.191

② 加权法(Weighting method)：当不掌握原始数据而只有频数表时, 可计算均数的近似值，用组中值计算。

尿酸浓度组中值（xi）频数（fi） fi x fi xi2
270- 277.5 2 555.0 154012.5
285- 292.5 9 2632.5 770006.3
300- 307.5 11 3382.5 1040119.0
315- 322.5 22 7095.0 2288138.0
330- 337.5 24 8100.0 2733750.0
345- 352.5 27 9517.5 3354919.0
360- 367.5 20 7350.0 2701125.0
375- 382.5 15 5737.5 2194594.0
390- 397.5 11 4372.5 1738069.0
405- 412.5 8 3300.0
427.5 1361250.0
420-435 427.5 1 182756.3
合计 — 150
（fi ） 52470.0
（fixi） 18518738.0
（fixi2）

（）

（2）均数的应用：资料呈正态或近似正态分布。大多数正常人的生理、生化指标，如身高、体重、胸围、血红蛋白、白细胞数等，都适宜用均数表达其平均水平。
2. 几何均数 ( geometric mean) ：用G表示，是将n个观察值x的乘积再开n次方，所得的n次方根（或各观察值x对数值均值的反对数）。
(1)几何均数的应用：等比级数资料或原始观察值呈偏态分布，经对数转换后可转换为正态分布或近似正态分布的资料，如抗体的平均滴度、细菌计数等。
滴度资料，例：10, 100, 1000, 10000, 100000。其算术均数为22222, 代表性很差。
(2)计算方法
①直接法：


例9-3  有8份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64, 1:128,1:256,求平均抗体效价。

用各抗体效价的倒数计算，得：

=lg-1(1.355)= 22.65
血清的抗体平均效价为1：22.65。

②加权法(Weighting method)：当观察例数较多或频数表资料时采用加权法计算。
公式为：


例9-4 某地34名儿童接种麻疹疫苗后，血清血凝抑制抗体滴度的测定结果见表9-4，求平均滴度。

表9-4  某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的计算表
抗体滴度（1）频数 (2)
滴度倒数X（3）    （4）
（5）=（2）×（4）

1:2.5 3 2.5 0.3979 1.1937
1:5.0 7 5.0 0.6990 4.8930
1:10.0 14 10.0 1.0000 14.0000
1:20.0 6 20.0 1.3010 7.8062
1:40.0 4 40.0 1.6021 6.4084
合计 34 - - 34.3013( )

该地34名儿童的血清血凝抑制抗体的平均滴度为1：10.206。

注意：计算几何均数的观察值不能小于或等于0，因为无法求对数。
同一组数据的几何均数小于算术均数。

3.中位数(median，M)和百分位数（percentile，Px）：
  中位数：把n个变量值从小到大排列，位置居中的变量值。

百分位数：把n个变量值从小到大排列，第x百分位次对应的变量值称为第x百分位数。
(1) 计算方法：

①直接法：将样本值由小到大排队,
      n是奇数时, M = X(n+1)/2

例9-5  某医生观察5名小细胞未分化型肺癌患者，其生存期（月）分别为4，18，21，23，41，求中位数。
本例n=5，为奇数，M = X[（n+1）/2] = X3 = 21（月）

      n是偶数时, M = (X(n/2)+X(n/2+1))/2

例9-6  10名某传染病病人的潜伏期(天)分别为1，1，2，2，2，3，4，6，8，10，求中位数。
本例n=10，为偶数，
   M={X(n/2)+X[(n/2)+1]}}/2 = (X5+X6)/2 = (2+3)/2 = 2.5(天)

②频数表法：当不掌握原始数据而只有频数表时,可以计算中位数的近似值。
(1) 找到中位数所对应的名次, n/2
(2) 找到该名次所在组段,


L、ⅰ、fχ 分别为Pх所在组段的下限、组距和频数；
ΣfL为小于L的各组段的累计频数，n为总例数。

例9-7 某研究者测得某年某市308名6岁以下儿童的尿铅值，见表9-5，试计算中位数M及P25，P75，P95百分位数。

计算步骤：
① 按所分组段由小到大计算累计频数和累计频率；
② 确定Pχ所在组段；
③求中位数M或其它的百分位数Px。
表9-5  308名6岁以下儿童的尿铅值中位数及百分位数的计算表
尿铅值 (mmol/L)（1）例数f（2）累计频数Σf（3）累计频率(%)(4)=(3)/n
0～ 27    27    8.77
25～ 54    81    26.30
50～ 95 176    57.14
75～ 55 231    75.00
100～ 39 270    87.66
125～ 21 291    94.48
150～ 12 303    98.38
175～    5 308 100.00
合计 308（Σf） - -

本例n=308

=50+(25/95)×(308×50%-81)= 69.21（mmol/L）
P25=25+(25/54) ×（308×25%-27）=48.15（mmol/L）
P75=75+(25/55) ×（308×75%-176）=100.00（mmol/L）
P95=150+(25/12) ×（308×95%-291）=153.33（mmol/L）

(2)中位数的应用：适用于描述任何分布，特别是偏态分布资料(如某些传染病或食物中毒的潜伏期)以及频数分布的一端或两端无确切数据资料(如血铅、发汞值)的中心位置。
  对于正态分布总体，均数等于中位数。

百分位数的应用：描述一组数据某一百分位的位置，最常用的百分位数是P50，即中位数。

也可用多个百分位数的结合来描述一组观察值的分布特征，如P25和P75合用时，反应中间50%观察值的分布情况。
制定95%的医学参考值范围(reference ranges)。

三、离散程度指标：
例：三组同年龄﹑同性别儿童体重（kg）数据如下：
甲组    26  28  30  32  34
乙组    24  27  30  33  36
      丙组    26  29  30  31  34

考虑：除平均水平外，还有变异程度（即个体变异）。
需用离散程度指标反应一组同质观察值的变异度，只有将反应集中趋势与变异度的指标两者结合起来，才能全面地反应频数分布的一组数值变量资料的特征。

常用的度量指标：全距、方差、标准差，四分位数间距和变异系数。

1.极差或全距(range, R)：
极差大，表明个体值较分散, 变异程度高。

缺点：不能较好地反应每个个体的变异性；这个度量指标只依赖于最大值和最小值, 而最大值和最小值又常随样本的不同而差别较大，即指标R的稳健性很差。

2.四分位数间距：四分位数为特定的百分位数，用Q表示。
下四分位数QL=P25，上四分位数QU=P75
四分位数间距（quartile interval）即：Q=QU-QL。
四分位数间距内包含全部变量值的1/2，可看作中间1/2变量值的全距。其数值越大，变异度越大，反之，变异度越小。

例9-7中，已求得QU=P75=100.00(mmol/L)，QL=P25=48.15(mmol/L)，则四分位数间距为Q=QU-QL=100.00-48.15=51.85（mmol/L）。

四分位数间距的优点是，稳定性比极差好，但仍未考虑全部观察值的变异度，适用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。

3.方差（variance）：为了全面地考虑各个观察值的离散情况，克服极差和四分位数间距未能充分利用每个观察值所提供的变异信息的缺点，应寻找一种能利用每个观察值所提供的变异信息的指标。
总体中每个变量X与总体均数μ之差，称为离均差。

。故将离均差平方后再相加，即 , 称为离均差平方和。

变异度除与离均差平方和的大小有关外，还与观察值的个数有关，应取其均数，即：

由于实际工作中，只能用作为μ的估计值，用样本例数n代替N，计算方差，但这样算得的方差常常比要小些。

调整方法：英国统计学家W•S•Gosset提出用(n-1)代替n，于是得到了计算样本方差S2的公式：

式中n-1称为自由度（degree of freedom），用df或ν表示。

4.标准差（standard deviation）：方差由于取平方之故，使原始数据的变量值单位为平方单位（如cm2，kg2），为恢复原单位，可将方差开平方，得总体标准差σ和样本标准差S。
σ=
S=
标准差是测量观察值围绕均数分散程度最好的指标。标准差越大，表明个体之间的变异越大，数据越分散；反之，标准差越小，表明个体之间的变异越小，数据越集中，故由标准差的大小即可反映出均数对它所代表的一组数据的代表性的好坏。这就是集中趋势与离散趋势的综合分析。



标准差的计算公式：
直接法：S=    加权法：S=

例9-8  6名男婴的出生体重(kg)为2.85，2.90，2.96，3.00，3.05，3.18,求标准差。

本例n=6,  =17.94,  =53.709，代入式（9-13）得：
   S= =0.117（kg）
6名男婴体重标准差为0.117kg。

例9-9  利用表9-3中资料计算150名正常成年男子的尿酸浓度标准差。
S= =33.25（）
150名正常成年男子的尿酸浓度标准差为33.25 。

方差和标准差适用于描述服从正态分布资料的变异程度。

5.变异系数( coefficient of variation，CV)：反应资料的相对变异程度，便于资料间的相互比较。

应用：比较度量单位不同或均数相差悬殊的两组（或多组）资料的变异度。
关心的不是标准差的数值大小, 而是相对于均值而言, 标准差有多大, 这就是变异系数，无量纲, 是一个相对数。


例9-10  某地25岁男子100名，平均身高171.21cm，标准差为5.34cm；体重均数为59.72kg，标准差4.16kg。试比较其身高和体重的变异程度。

身高CV=(5.34/171.21)×100% = 3.12%
体重CV=(4.16/59.72)×100% = 6.97%

我们可以说, 相对于均数而言，比较计算所得的两个变异系数，可见该地25岁男子之间体重的变异度比身高的变异大。

小结：
1.数值变量描述的指标应用：
对称或正态分布非正态布对数正态分布
集中趋势
M G
变异程度 S Q Slgx

2.度量衡单位不同或均数相差悬殊多组资料变异程度的比较，用CV。

[中级考试] 统计学课件

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子