首页 > 精品范文库 > 1号文库
社会统计学总结(合集)
编辑:梦回唐朝 识别码:10-995063 1号文库 发布时间: 2024-05-13 22:11:38 来源:网络

第一篇:社会统计学总结

一、算数平均数:某一总体值总体单位平均所得的标志值的水平,是反映集中趋势最常用、最基本的平均指标。

二、中位数:把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值。

三、平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。

四、标准差:各变量值对其算术平均数的离差平方的算数平均数的算数平方根,又称均方差。

五、方差:为标准差的平方。

六、众数:出现次数最多的变量值。用Mo表示。众数也是常用的反映现象集中趋势的代表性数值.七、在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。

八、皮尔逊相关系数:对于定距变量,根据其变量值的数学特征,我们自然可以引进更为精确的量化指标来反映它们之间的关程度。用来测量两个定距变量相关程度和方向的积差系数。它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。九、一元回归分析:关于X为自变量、Y为不确定的因变量的变量关系,其中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示的回归分析。

十、中心极限定理:从任意一个总体中抽取样本量为n的样本,当n充分大时(在社会现象中,指n≥50),样本均值的抽样分布近似服从正态分布。

十一、P 值(显著度):1.是一个概率值

2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 3.被称为观察到的(或实测的)显著性水平H0 能被拒绝的最小值

十二、置信水平:总体参数值落在样本统计值某一区间的概率,也称置信度 正态分布

1.由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出

2.描述连续型随机变量的最重要的分布,许多现象都可以由正态分布来描述 3.可用于近似离散型随机变量的分布 例如: 二项分布

4.经典统计推断的基础

原假设: 待检验的假设,又称“0假设”

备择假设:与原假设对立的假设,又称研究假设

十三、否定域:不大可能出现的结果

十四、异众比率:非众数的频数与总体单位数的比值

十五、总体参数值:关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。

十六、样本统计值:关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表。

十七、Z分数:原始数据与均值之间的大小,实际表达变量值距算术平均数有几个标准差。

十八、均值的标准误差:是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用样本均值的标准误来衡量抽样误差的大小。

十九、斯皮尔曼相关系数:主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。

二十、置信水平与置信区间的关系:

置信水平:总体参数值落在样本统计值某一区间的概率,也称置信度,或者说,总体参数值落在样本统计值某一区间的把握性程度。它反映的是绰约那个的可靠性程度。

置信区间:在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。

二十一、区间估计与假设检验的关系:

1、区间估计 立足于大概率,用已知样本统计量和标准误差,确定一个有概率意义的区间(置信区间),可理解为正向求解问题。

2、假设检验 立足于小概率,利用反证法原理,首先依据两种可能性建立两种假设,再从第一种假设出发,计算出特定统计量,判断该种假设是否成立。

3、联系:区间估计和假设检验可以看作同一个问题的不同表达方式。区间估计和假设检验都是根据样本信息对总体参数进行推断,都是以抽样分布为理论依据,都是建立在概率基础上的推断,使用同一样本、同一统计量、同一分布,二者可以相互转换。

二十二、假设检验的理论基础: 采用逻辑上的反证法;依据统计上的小概率原理

假设检验的基本步骤:(1)、建立虚无假设和研究假设,通常是将原假设作为(2)、根据需要选择适当的显著性水平(3)、根据样本数据计算出统计值,并根据显著性水平查处对应的临界值。(4)、将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。二

十三、中心极限定理的重要性:中心极限定理对大样本均值正态分布性质的揭示,为未知总体的研究奠定了理论基础。

二十四、标准差与标准误差的区别:

1、标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度;

2、标准误差是样本均值的标准差,衡量的是样本均值的离散程度。

二十五、置信水平与置信区间的关系:

1、置信水平表示总体参数值落在样本统计值某一区间的概率,也称置信度。用(1-α)表示。

2、置信区间指在一定的置信度下,样本值与总体值之间的误差范围,反映抽样的精确程度。

使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较小的置信水平则会得到一个较准确(较窄)的区间。

当置信水平1-α=0.90时,Zα/2=1.65;1-α=0.95时,Zα/2=1.96;1-α=0.99,Zα/2=2.58 二

十六、相关关系与因果关系的联系与区别:

区别:

1、相关关系是指两个以上的变量的样本观测值序列之间表现出来的随机数学关系,用相关系数来衡量。

2、因果关系是指两个或两个以上变量在行为机制上的依赖性,结果变量由原因变量决定,原因变量的变化会引起结果变量的变化。有单向因果关系和互为因果关系之分。

联系:具有因果关系的变量一定具有数学上的相关关系,而具有相关关系的变量不一定有因果关系。

二十七、公式:

1、皮

2、回归方程:

3、置信区间相关公式(双侧检验):(1)、对于大样本的总体均值在1-α置信水平下的置信区间为:

σ为总体标准差,S为样本标准差,当σ未知,用S来替代。(2)、对于小样本且σ未知时:

(3)、总体比例在1-α置信水平下的置信区间为

(4)、在抽样分布中:

1、Z作为检验大样本统计量,σ未知时:

2、t作为小样本检验统计量时,σ未知:

当计算的Z值或t值等于或大于显著性水平下的Z值和t值,那么否定零假设。

第二篇:社会统计学教案

一、大样本(Large-sample)总体均值检验

根据大样本的假定(n≥50)(这在社会调查中都是满足的)。样本均值X趋向于正态分布:XN(,2n)

其中,:总体均值;2:总体方差;当2未知时,可以用样本方差S2来代替,2S2;n:样本容量。其标准化形式为:

ZXnN(0,1)

该值当原假设H0:0成立的条件下,可以唯一地为样本值所确定。因此,大样本总体均值检验所用的统计量为

ZXnX0X

有了统计量Z,再根据显著性水平,就可以对大样本均值检验作如下的归纳:

(一)原假设H0:0

(二)备择假设H1:

单边 双边

H1:0 H1:0

或 H1:0

(可以省略)

(三)统计量

ZX0XXnN(0,1)

如果未知,可以用s。

(四)拒绝域

单边 1.ZZ(H1:0)

Z2.ZZ(H1:0)

Z双边

ZZ2或ZZ2

2Z2Z22

[例]1.为了验证统计报表的正确性,作了共五十人的抽样调查,人均收入的结果有:X=871元,S=21元

问能否证明统计报表中人均收入=880元是正确的(显著性水平=0.05)。解:根据题意,可写作如下的假设

H0:880元

H1:880元 则统计量可选为:ZX880X880 Snn拒绝域:因为=0.05,查附表得拒绝域的临界值Z2=1.96

2拒绝域21.96接收域拒绝域1.96

根据样本值,代入统计量表达式中,得

ZX8808718803.03 S21n50因为Z=3.03>1.96,所以拒绝原假设,即根据抽样调查不能认为人均收入为880元,因此可以认为统计报表是有误的。

[例]2.接上题,如果根据以上的样本资料,但却采用区间估计的方法。试问是否也能作出对原有假设H0:880的判断? 解:可以。根据样本值:

X=871(元);S=21(元);1-=1-0.05=95% 下面计算置信度为95%的区间估计值: 因为Z2=1.96,所以

[XZ2n,XZ2n]≈[8711.962121,8711.96] 5050=[8715.82,8715.82]=[865.18,876.82]

现在根据小概率原理来推论总体880是否成立,首先假设总体均值确为880的话,那么95%样本计算出来的区间估计都应该包含880。而现在一次样本的调查结果,区间[865.18,876.82]并没有包含880,也就是出现了小概率事件。从而推翻了原假设:880(元)。

第三篇:统计学总结

统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。

医学统计学(Medical Statistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。

统计学方法的特点: 1.用数量反映质量

2.统计逻辑:用群体规律估算/推测个体 3.手段:常通过部分个体估计总体

同质和变异(考试重点)

 同质(homogeneity):据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌……  变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。

总体、样本和研究单位(考试重点)

 总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。 样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。 样本含量(sample size):样本中包含的研究单位数。 观察单位(observed unit):也叫个体或研究单位,它是研究中的个体(inpidual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。

变量、变量值和资料(考试重点)

 变量(variable):按特定目的确定的研究单位的某种特征或属性。

 变量值(value of variable):变量的观察或检测结果,也叫变量的观测值。 资料(data):在特定目的指引下而确定的变量及其变量值。 计量资料(measurement/quantitative/numerical data):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。

 计数资料(enumeration/qualitative/categorical/ nominal data):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。

 等级资料(ordinal categorical/rank/semi-quantitative data):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效)

参数和统计量(考试重点)

 参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。 统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。

 总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。

误差、随机误差、系统误差和非系统误差(考试重点) 误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。

 按误差产生的原因分为:系统误差、非系统误差和随机误差。

 系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。

 非系统误差(nonsystematic error):由于研究者偶然 失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error) 测量值 = 真值 + 随机误差 + 非随机误差

 随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。 抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)

频率、概率和小概率事件(考试重点)

 频率(relative frequency): 一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种

 概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现 f 次,f/n 则称为随机事件A出现的频率。当 n 逐渐增大时,频率 f/n 趋向于一个常数,则称该常数为随机事件A的概率,可记为 P(A),简记为P。概率的取值范围: 0≤ P(A)≤1。

 频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。

 小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。

医学统计工作的基本步骤 1.设计(design)

 设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。

 包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计 和 临床实验设计。

2.收集资料(collection of data)(1)资料来源

 第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。

 第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。

(2)对资料要求

 完整:观察单位及观察指标应尽可能地完整  准确:即真实、可靠。真实是统计学的灵魂  及时:即时限性

3.整理资料(sorting data)

 目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(data screening)

 评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。

4.分析资料(analysis of data)(考试重点)

 目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。

 包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。

资料的类型

 定量资料: 可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。

 无序资料: 二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。

 有序数据:可直接进行量化处理。

统计描述:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。极差(range)也称全距,即最大值和最小值之差,记作R。(考试重点)

编制频数表的步骤 1.求极差 2.确定组距(i)

3.写组段(分为12个组段)组下限(L):每个组段的起点 组上限(U):每个组段的终点

4.分组段划记并统计频数

(1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。

(2)偏态分布 :

 右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。(考试重点)

 左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(考试重点)频数表和频数分布图用途 1.描述数据分布类型

2.描述频数分布的特征

3.便于发现一些特大或特小的可疑值; 4.便于进一步做统计分析和处理。

集中趋势:遴选最合适的代表值。

离散趋势:评判代表值对总体代表的程度。

集中趋势的描述(考试重点)统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。(考试重点)常用的平均数有:算术均数、几何均数、中位数

 算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。(考试重点)适用于对称分布,特别是正态分布或近似正态分布的资料。

 几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。 中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料。

 百分位数(percentile)是一种位置指标,用

来表示,读作第X 百分位分数。

离散趋势的描述(考试重点)

常用统计指标:极差、四分位数间距、方差、标准差和变异系数。

极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。

四分位数间距,用QR表示:QR=p75-p25 下四分位数:QL=P25 上四分位数;QU=P75 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。

标准差:方差的开方

变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。(考试重点)

正态分布的概念:如果随机变量X的分布服从概率密度函数

(X)2221f(X)e2

X则称服从正态分布,记作

N

(, )μ为X的总体均数,

2为总体方差。X

百分位数法:公式:双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或

医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。

双侧 :即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。

单侧: 即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。

计算医学参考值范围的常用方法:

 正态分布法(当资料服从正态分布)

 百分位数法(当资料不服从正态分布)

抽样误差:由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)

标准误(standard error, SE):表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式

X n

t 分布: 若某一随机变量X服从总体均数为X、总体标准差为2N(, ),的正态分布则可通过u变换()将一般正态分布转化为标准正态分布N(0,12),即u分布.t 分布特征

1.单峰分布,以0为中心,左右对称; 2.自由度3.当越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;

X逼近, SX逼近, t分布逼近u分布,故标准正态分布是t分布的特例

参数估计 :用样本统计量推断总体参数。总体均数估计:用样本均数推推断总体均数

点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。

区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidence bound/confidence interval, CI);预先给定的概率1-α称为可信度或置信度(confidence level),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。

可信区间的两个要素

(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。它愈接近1愈好,如99%的可信区间比95%的可信区间要好。

(2)精确度:即区间的宽度。区间愈窄愈精确,如95%的可信区间比99%的可信区间要好。

假设检验的步骤

1.建立检验假设,确定检验水准

① =0:即检验假设,常称无效假设或零/原假设,用H0表示。

② 0:即备择假设,常称对立假设,用H1表示。③ :即检验水准,也称显著性水准。是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。2.计算检验统计量

应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。3.确定P值

按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。

4.下结论

 将上述计算所得概率P与检验水准进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论。

 若P≤,则结论为按所取的检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论)。;

 若P>,则结论为按检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。

t检验和u检验的应用条件

1.t检验应用条件

样本含量n较小时(如n<60)(1)正态分布

(2)方差齐性

2.u 检验应用条件

样本含量n较大,或n虽小但总体标准差已知(1)方差齐性(homogeneity of variance)总变异:全部测量值大小不同,这种变异称为总变异。

离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。

组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。

均方差,均方(mean square,MS)。

MS组间MS组内SS组间组间SS组内组内完全随机设计:(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。

随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。

率:说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数

构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。

相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。

应用相对数的注意事项

1、计算相对数应有足够数量即分母不宜太小。

2、不能以构成比代替率 3.正确计算合计率 4.注意资料的可比性

动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。

二项分布的适用条件

1.每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和

恒等于1;

2.每次试验产生某种结果(如“阳性”)的概率π固定不变;

3.重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出

现的概率。

Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。

Poisson分布的适用条件

假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,„)。则在满足下面三个条件时,有X~P(λ)。

1.普通性

在充分小的观测单位上X的取值只能为1个,不能同时取多个值。2.平稳性

X的取值只与观测单位的大小有关,而与观测单位的位置无关。

3.独立增量性

在某个观测单位上X的取值与其他各观测单位上X的取值无关。

卡方检验目的:推断两个总体率或构成比之间有无差别

多个总体率或构成比之间有无差别

多个样本率的多重比较

两个分类变量之间有无关联性

频数分布拟合优度的检验。检验统计量:X2 应用:计数资料

X2分布的一个基本性质是可加性

参数检验

如果总体分布为已知的数学形式,对其总体参数作假设检验。如: t 检验和 F 检验。

非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-free test),它直接对总体分布作假设检验。

秩转换的非参数检验应用范围: 对于计量资料:

1.不满足正态和方差齐性条件的小样本资料;

2.分布不明的小样本资料;

3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选); 对于等级资料: 若选行×列表资料的 x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。

wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。

直线回归

目的:研究应变量Y对自变量X的数量依存关系。

特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。

回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)

ˆabX(91)直线回归方程的一般表达式为

Ya 为回归直线在 Y 轴上的截距,b为回归系数,即直线的斜率.残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。

直线回归方程的求法:原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小.22SSlll2回决定系数(coefficient of determination)RXYXXXYSS总lYYlXXlYY

取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。

(YY)SSSS总=SS回+SS残,总即,为Y的离均差平方和,表示未考虑X与Y的回归关

2系时Y的总变异。

直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系

相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。

相关系数没有单位,其值为-1≥ r≥ 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。

(XX)(YY)l样本相关系数的计算公式为

rXY lXXlYY(XX)2(YY)2

秩相关适用条件:双变量计量资料: ①资料不服从双变量态分布; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。

曲线拟合: 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。

几种曲线拟合:对数曲线、指数曲线、抛物线、S型曲线

统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;

统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。

制表的基本要求

(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。

(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。

(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。

常用统计图

1.直条图(bar chart)2.圆图(pie chart)和百分比条图(percent bar chart)3.线图(line graph)4.直方图(histogram)5.统计地图(statistical map)6.其他特殊分析图

箱式图(box plot)茎叶图(stem-leaf plot)误差条图(error bar chart)

线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。

箱式图(box plot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。

多因素试验资料的方差分析设计类型:析因设计 各因素各水平的全面组合 处理组合数 g = 各因素水平数之积。

正交试验:非全面组合,g个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。

嵌套试验:非各处理因素各水平的全面组合,而是各因素按隶属关系系统分组,各因素水平没有交叉。

裂区设计:两因素析因设计的特殊形式。

单独效应 指其他因素的水平固定时,同一因素不同水平间的差别。主效应 指某一因素各水平间的平均差别/不考虑其他因素下的效应。

交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。

析因设计变异分解 SS总SS处理SS误差 SSASSBSSABSS误差

重复测量资料

目的:推断处理、时间、处理×时间作用于试验对象的试验指标的作用。

资料特征:处理因素 g(≥1)个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(≥2)个时点获得m个测量值,共计gnm个测量值。方法:方差分析

单组前后测量设计与配对设计的区别区别

区别点 配对设计 单组前后测量设计

N 两实验单位 可随机分配

观测时间 同期 两时间点 N 试验数据与差值关系 独立

分析指标平均差值平均差值、相关回归

推断 组间差别 前后差别

logistic回归 分析目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。

用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。

logistic回归种类: 1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。

优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:

P/(1P 1)ORj1 P0/(1P0)

logistic回归的应用及注意事项 1.流行病学危险因素分析 2.便于控制混杂因素效应 3.预测与判别

等级变量和无序分类变量的数量化 样本含量的计算(经验标准和科学计算)

模型拟合优度(偏差、显著性检验、假决定系数、AIC、BIC和预测准确率)二分类logistic回归、有序logistic回归和多分类logistic回归的选择

第四篇:生物统计学总结

生物统计学学习心得

这学期要结束了,在老师的指导下,经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。下面是我学习这门课程的一些收获和体会,还有对生物统计学简单的总结。

1.收获

生物统计学是在生物的基础上进行数学统计分析,具有很强的逻辑性。在运用的过程中,公式较多,应用性强,需要多记多用,才能充分的发挥其功能。生物统计学的内容包括试验设计、资料整理与描述、统计假设检验、方差分析等。这门课程,让我学会了怎样根据实际情况进行试验设计(制定试验方案、实施试验方案、分析实验结果);学会了怎样从一堆无规则的数据中提取有用的信息,通过整理数据和分析,进行相应的假设从而得出结论。

2.体会

2.1生物统计学的作用

生物统计学为人们提供了数据整理和分析方法;提供了由样本推断总体的方法;判断实验效应的真实性和分析现象间的关系;提供了设计试验的原则和方法。它是一种方法论,在生物领域有着不可或缺的地位。它为我们提供了解决实验过程中各种疑难杂症的方法,有了生物统计,再复杂的数据也不攻自破。

2.2怎样学好生物统计学

当我刚接触到生物统计学时,感觉它是一门很揪心的科目,部分理论非常抽象,学起来很困难。后来在老师的讲解下慢慢的觉得,其实它也没那么难。学习生物统计时不要老想去完全明白那些理论的每一个字,只要在老师的讲述下理解了那些理论的含义,然后通过例题将这些理论带到实践中去,基本上就可以学会了。所以想要学好生物统计,就要先学会理解。最基本的就是熟悉概念,这样在审题的时候就能立刻明白题目的主干意思,有利于进一步寻找解题方案。明白了题目意思后,搜索脑海中所学的试验方法,选择相应的试验方案,就是什么类型的题目,对应什么类型的解题方案,这样才能解决一道困难的题目。为了更深入的学习生物统计,除了要求平时上课仔细听课,课后的作业也要认真完成,还要学会总结分类,这样对书本的知识点就有一个全面的了解,巩固了对生物统计学

内容的掌握。生物统计很重要,我们一定要学好。不管是对于生物这门学科,还是对于我们的生活,它都有很大的帮助。

3.总结

生物统计学是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门科学,是现代生物学研究不可缺少的工具。

通过学习生物统计学,就个人而言,我收获了很多。生物统计学是贯穿生物学科的一门重要工具,我们要充分认识到它的重要性,积极主动的学好生物统计,以便于以后的研究发展。同时,对于还有一年就毕业了的我们,专业知识储备的还并不够,所以我们应该养成每天学习的习惯,不断的提高自己,并好好珍惜眼前学习的机会。

第五篇:卫生统计学总结

卫生统计学总结

王玉林 石河子大学医学院预防医学系

(一)简答题

一.方差分析的基本思想是什么?

方差分析的基本思想就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。

二.标准差和标准误的区别与联系?

标准差和标准误都是变异指标,但它们之间有区别,也有联系。

1.区别:①概念不同:标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均

数的抽样误差;

②用途不同:标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。

标准误用于估计参数的可信区间,进行假设检验等。

③它们与样本含量的关系不同:当样本含量 n 足够大时,标准差趋向稳定;而标

准误随n的增大而减小,甚至趋于0。

2.联系:标准差,标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。

三.假设检验的原理是什么?

假设检验:统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异。

假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,而不是全部。

1.两类假设

对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设。备则假设:因变量的变化、差异确实是由于自变量的作用

往往是我们对研究结果的预期,用H1表示。

虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在 观察到的差异只是随机误差在起作用,用H0表示。2.小概率原理

小概率原理:小概率事件在一次试验中几乎是不可能发生的

至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显著性水平α。在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。之后将其与我们实现界定好的显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。

3.两类错误 第Ⅰ类错误:当虚无假设正确时,我们拒绝了它所犯的错误,也叫α错误 研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有” 第Ⅱ类错误:当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫β错误 假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂” 两类检验的关系 ①α+β不一定等于1 ②在其他条件不变的情况下,α与β不可能同时减小或增大 4.检验的方向性

单侧检验:强调某一方向的检验,显著性的百分等级为α

双侧检验:只强调差异不强调方向性的检验,显著性百分等级为α/2 对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯β错误的概率较小,我们也说它的检验效力更高。5.假设检验的步骤

①根据问题要求,提出虚无假设和备择假设 ②选择适当的检验统计量 ③确定检验的方向性并规定显著性水平④计算检验统计量的值 ⑤将统计量的值与临界值对比做出决策

附:假设检验基本推断原理:小概率事件在一次随机试验中不(大)可能发生。

假设检验基本逻辑:在零假设成立的情形下计算统计量和P值,把“不太可能出现的 假阳性”当做“不可能出现假阳性”,从而拒绝零假设。

四.直线相关与直线回归的区别与联系?

1.区别:①相关分析资料双变量正态分布,回归资料只要求Y为正态分布,X可是正态分布

资料,也可为一般变量。

②意义上,相关说明互相关系,回归反应依存关系。2.联系:①同一资料,r与b的正负号相同

②r与b的假设检验等价,同一资料tb=tr

③用回归解释相关R2=SS回/SS总

五.应用相对数时的注意事项?

1.理解相对数的含义不可望文生义 2.频率型指标的解释要紧扣总体与属性 3.计算相对数时分母应有足够数量 4.正确计算合计率 5.注意资料的可比性 6.样本相对数的统计推断

六.非参数检验的特点和适用范围

1.特点:①对样本所来自的总体分布形式没有要求。

②收集资料方便,可用“等级”或“符号”来记录观察结果。

③多数非参数检验方法比较简便,易于理解和掌握。

④缺点是损失信息量,适用于参数检验的资料用非参数检验会降低检验效能。2.适用范围:①等级资料。②偏态分布资料。③方差不齐,且不能通过变量变换达到齐性。

④个体数据偏离过大,或一端或两端无界的资料。⑤分布类型不明。⑥初步分析。七.卡方检验的用途?

1.单样本分布的拟合优度;

2.比较两个或多个独立样本频率或独立样本频率分布; 3.比较配对设计两样本和两频率分布。

八.均数比较的方法有哪些?

1.t检验

①单样本资料的t检验:样本均数与总体均属比较的t检验,推断样本是否来自已知总体。

应用条件:计量资料,具有独立性、正态性、方差齐性。

②两独立样本资料的t检验:推断两样本总体均数是否相等(或两样本是否来自同一总体)。

应用条件:计量资料,具有独立性、正态性、方差齐性。

③配对设计资料的t检验:配对计量资料比较的t检验,差值均数的比较,包括异体配对和

自身配对。

应用条件:计量资料,具有独立性、正态性、方差齐性。2.方差分析

①完全随机设计资料的方差分析:多个样本均数的比较。

应用条件:计量资料,具有独立性、正态性、方差齐性。②随机区组设计资料的方差分析:多个样本均数的比较。

应用条件:计量资料,具有独立性、正态性、方差齐性。

③析因设计资料的方差分析:分析个实验因素的单独效应、主效应和因素间的交互效应。

应用条件:计量资料,具有独立性、正态性、方差齐性。

3.非参数检验

①单样本资料的秩和检验:用于不满足t检验条件的单样本定量变量资料的比较,推断样本中位数与已知总体中位数是否相等。

应用条件:计量资料,不具有独立性、正态性、方差齐性。

②配对设计资料的秩和检验:当差值d不满足正态分布时使用,推断两个总体中位数是否相等,即两种处理效应是否相同。

应用条件:计量资料,差值具有正态性。③两独立样本比较的秩和检验:推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。

应用条件:两样本来自非正态总体或方差不齐。

④多组独立样本比较的秩和检验:推断定量变量或有序分类变量的多个总体分布有无差别。

应用条件:多个独立样本对应总体不满足正态性或方差齐性。⑤随机区组设计的秩和检验:多个样本均数的比较。

应用条件:多个独立样本对应总体不满足正态性或方差齐性。

九.参考值范围和可信区间的区别与联系

1.从意义来看

95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。2.从计算公式看

若指标服从正态分布,95%参考值范围的公式是:

±1.96s。总体均数95%可信区间的公式是:。

前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。

十.频率分布表(图)的用途是什么?

1.揭示资料的分布类型

2.描述分布的集中趋势和离散趋势 3.便于发现某些特大和特小的可疑值 4.便于进一步计算指标和统计分析

(二)名词解释

1.医学统计学(medical statistics)应用概率论和数理统计学原理结合医学实际解决医学科研中设计,资料收集、整理、分析的科学。

2.总体(population)是根据研究目的确定的同质研究对象的全体。3.样本(sample)是指从研究总体中抽取的一部分有代表性的个体。

4.同质(homogeneity)是指同一总体中个体的性质、影响条件或背景相同或非常相近。5.变异(variation)是指同质的个体之间存在的差异。6.参数(parameter)是指反映总体特征的统计指标。

7.样本统计量(statistic)由样本观察资料计算出来的反映样本特征的两称为样本统计量。8.频率分布表(frequency distribution table)当变量值个数较多时,对各变量值出现的频率列表即为频率分布表,简称频率表。

9.二项分布(binomial distribution)是指在只会产生两种可能结果的n次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,3...,n的一种概率分布。

10.医学参考值范围(reference range)是指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。

11.抽样误差(sampling error)由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得样本统计量与相应的总体参数往往是不同的,这种差异称为抽样误差。

12.置信区间(confidence interval,CI)区间估计是将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。

13.统计推断(statistical inference)由样本信息对相应总体的特征进行推断称为统计推断。14.假设检验(hypothesis testing)若对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,称为假设检验。

15.析因设计(factorial design)是将两个或多个实验因素的个水平进行全面组合的实验,能够分析个实验因素的单独效应、主效应和因素间的交互效应。

16.单独效应(simple effect)是指其他因素水平固定时,同一因素不同水平的效应之差。17.主效应(main effect)是指某一因素单独效应的平均值。

18.交互效应(interaction)是指两个或多个因素间的效应互不独立的情形。

19.参数检验(parametric test)凡是以特定的总体分布为前提,对未知的总体参数做推断的假设检验方法统称为参数检验。

20.非参数检验(nonparametric test)不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,故又称任意分布检验(distribution-free test)。

21.线性相关系数(linear correlation coefficient)是表示两个随机变量之间线性相关强度和方向的统计量。

22.回归系数(regression coefficient)回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,依变量所期望的变化量。(回归系数βj表示在控制其他自变量时,自变量Xj变化一个单位所引起logit(π)的改变量)

23.决定系数(coefficient of determination)回归平方和与总离均差平方和之比称为决定系数。它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例。24.生存分析(survival analysis)就是将终点事件的出现与否和达到终点所经历的时间结合起来分析的一类统计分析方法。

社会统计学总结(合集)
TOP