马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?注册
x
本帖最后由 ffxxff770603 于 2015-2-28 20:39 编辑
第二章定量数据的统计描述 第一节 频 数 分 布 一、频数表(frequencytable) 一种表格式的统计表,同时列出观察指标的取值区间及其在各区间的出现的频数。 收集到的原始资料多是杂乱无章的,为了了解数据的分布规律,有必要对数据进行分组,制作频数表以及直方图。 频数表的编制步骤: 1、确定组数:组数一般为 8 ~ 15组。 2、确定组距:用i表示,i =全距/组数,一般取整数。 全距(range)用R表示,观察值中的最大值和最小值之差。 R=最大值-最小值 R= 5.95-3.82=2.13 i=R/10=2.13/10=0.213≈0.2 这是等组距的问题, 但对于一些数据中有特大或特小的数值而言,也可采用不等距,以避免出现组段频数为0的情况。 3、确定组段:确定组段的上、下限。 要求第一组包括最小的观察值,最后一组包括最大的观察值。各组段不能重叠,每一组段均为半开半闭区间。 如[112,114)或表示“112~”,意义为:112≤x<114 第一组 “3.80~” 3.80≤x<4.00 第二组 “4.00~” 4.00≤x<4.20 最后一组“5.80~6.00” 5.80≤x ≤ 6.00 4、列表划记:用划记法得到每组的频数。 二、频数分布表的用途 1、代替繁杂的原始数据,便于进一步分析。 2、便于观察数据的分布类型。 正态分布(normaldistribution) :其特征是中间组段的频数最多,两侧的频数分布对称,并按一定规律下降。 偏态分布的基本特征是,频数分布不对称。 正偏态分布:频数分布的高峰向左偏移,长尾向右侧延伸。 负偏态分布:频数分布的高峰向右偏移,长尾向左侧延伸。 集中趋势(centraltendency):变量值集中位置. ——平均水平指标 离散趋势(tendencyof dispersion):变量值围绕集中位置的分布情况。 ——变异水平指标 不同分布类型的资料描述集中趋势和离散趋势的指标不同。 第二节 集中趋势的统计指标 平均数(average)常用于描述一组变量值的集中趋势,是反应同质资料的平均水平或集中位置的统计指标,常作为一组数据的代表用于分析和组间比较。 平均数有多种,常用的有算术均数、几何均数和中位数……. 一、算术均数(mean)简称均数 (一)计算方法有:直接法和加权法。 1.直接法 将所有的观察值 x1,x2,…,xn 直接相加再除以观察例数。
2.加权法
适用于频数表资料。频数表 当观察例数较多时,资料通常要分组编成频数表,用组中值视为各组观察值的代表值,分别乘以各组的频数得到各组观察值之和,然后将它们相加的大观察值的总和再除以总例数。 k:频数表的组段数, f :频数, xi:组中值。 (二)均数的应用 主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。 例如大多数正常人的生理、生化指标(身高、体重、腰围、臀围、血红蛋白、白细胞数等)都适宜用均数表达其集中趋势。 二、几何均数(geometric mean) 用 G 表示,是将 n 个观察值 x 的乘积再开 n 次方所得的根。 特点:数值按大小顺序排列后,各观察值呈倍数或近似倍数关系。 (一)计算方法:直接法和加权法 直接法 加权法 (二)应用: 对数正态分布资料,原始数据呈正偏态分布。几何均数在医学研究领域多用于血清学和微生物学中。如抗体滴度、效价、细菌计数等。 三、中位数和百分位数 (一)中位数(median)一般用M表示。 将一组观察值从小到大按顺序排列:X1≤X2…≤Xn , 居中心位置的数值即为中位数。 中位数是一个位置指标,以中位数为界,将变量分为左右两半。 1. 计算方法有直接法和频数表法。 (1)直接法: (2)频数表法: (二)百分位数(percentile) 是指在一组数据中找到这样一个值,在一组从小到大排序的数据中,全部观察值的X%小于Px,而其余(100-X)%大于Px。 频数表法 百分位数的应用 1、资料分布呈明显偏态(正或负偏态分布); 2、频数分布两端无确定数值时; 3、资料的分布情况不明。 例如,某些传染病或食物中毒的潜伏期、人体的某些测定指标(如发汞、尿铅),其平均水平可用中位数来表示。 第三节 变异程度的统计描述 一、极差和四分位数间距 (一)极差(Range) 也称全距,用符号R表示。R=最大值-最小值 (二)四分位数间距(quartile) 把所有的观察值从小到大排序后,分成四个数目相等的段落,每个段落的观察值数目各占总例数的25%,取中间50%观察值的数据范围。用符号Q表示,Q=P75-P25。 二、离均差平方和、方差、标准差和变异系数 (一)离均差平方和(sum of square, SS) 间接反应全体观察值的总偏差,表示离散程度。 (二)方差(mean of square, MS/Variance) 反应一组数据的平均离散水平,平均每例变异的大小。 n-1为自由度(degree of freedom,df) (三)标准差(standard deviation, SD或S) 样本标准差用S表示 , 其度量单位与均数和原始值一致,所以最常用。 标准差的意义和用途 意义: 说明资料的离散趋势(或变异程度),标准差的值越小,说明变异程度越小,均数对个体观测值的代表性越好。适合于对称分布尤其是正态分布资料。 用途: 1、用于计算变异系数;2、用于计算标准误;3、结合均值与正态分布的规律,估计参考值的范围。 (四)变异系数(Coefficient of Variation, CV) 主要用于 度量单位不同的变量间;或均数差别较大的变量间变异程度的比较。 本章小结 1.正态或近似正态分布资料一般选用算术均数来描述; 2.对数正态分布或等比资料一般选用几何均数; 3.偏态分布资料、频数分布两端无确定数值时,资料的分布情况不明,一般选用中位数来描述。 4.极差较粗,适合于任何分布; 5.标准差与均数的单位相同,最常用,适合于正态分布; 6.四分位数间距用于各类型分布的资料,但更适合偏态分布资料; 7.变异系数主要用于单位不同或均数相差悬殊资料。 平均指标和变异指标分别反应资料的不同特征,常配套使用 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距。
|