抽样及抽样分布
抽样术语
抽样
抽样(sampling),从总体中抽取作为研究对象的样本的操作程序。
元素
元素(elements)是构成样本的最基本单元,同时也是构成总体的最基本单元。
总体
总体(population)是作为研究对象的特定范围内的所有元素的集合论。
样本
样本(sample)是从总体中按照一定方式抽取出一定数量元素的集合。
抽样单元
抽样单元(sampling unit),是一次直接抽样所使用的抽样单位。
按个体抽取,抽样单位即为个体;按班级抽取,抽样单元即为班级;按村抽取,抽样单元即为村。
在大多数情况下,抽样单元与元素完全一致,但有两个例外,即整群抽样和多级抽样。整群抽样的抽样单元一定大于元素;多级抽样的抽样单元一定大于等于元素,且随着级别的变化而变化。
抽样框
抽样框(sampling frame),又称抽样范围,是将总体所涵盖的全部抽样单元进行编号排列而形成的清单。
参数值
参数值(parameter),又称总体值,是总体的某一变量的综合描述。
常见参数值:总体平均值、总体标准差
统计值
统计值(statistic),又称样本值,是对样本某一变量的综合描述,是总体某一变量的综合描述的估计值,即参数值的估计值。
常见统计值:样本平均值、样本标准差
抽样意义
从样本中计算出来的数值,叫作统计值。对应的总体中的数值,则称为参数值。需要使用推论统计法用样本统计值去推测总体的参数值。
抽样过程
- 界定总体:总体的定义,越清楚越好。有样本所得的研究结果,原则上只能推论到这个所界定的总体范围。
- 搜集全部名单:根据总体的定义,收集一份全部个案的名单组成抽样框。
- 决定样本规模:在决定样本大小时,应根据所能付出的研究代价的最大限度抽取最大的样本。
- 选取样本个案:设计抽样方案,从抽样框中选取所需的个案。
- 评估样本质量:根据一些在总体与样本中都能容易找到的特征来评估样本的质量。
抽样原则
按照研究目的的不同,可以有三种不同的抽样原则:
- 同质性抽样,是控制实验的抽样原则,即参加实验的元素,尽可能减少干扰变量。
- 代表性抽样,是问卷调查的抽样原则,即保证样本的多样性和代表性。代表性抽样分为:
- 随机抽样(也叫概率抽样)
- 简单随机抽样
- 系统抽样
- 分层抽样
- 整群抽样
- 非随机抽样(也叫非概率抽样)。
- 判断抽样
- 便利抽样(偶遇抽样)
- 配额抽样(定额抽样)
- 滚雪球抽样(机缘抽样)
- 随机抽样(也叫概率抽样)
- 目的性抽样,是质化研究的抽样原则,也叫判断抽样。目的性抽样分为四种:
- 典型案例抽样
- 极端/异常案例抽样
- 关键案例抽样
- 最大变异性抽样(覆盖所有人口特征)。
抽样方法
随机抽样,是总体中的每一个元素都有同等概率进入到样本中。也叫概率抽样。随机抽样方式比较:
- 简单随机抽样最具代表性,但成本高。
- 系统抽样很具代表性,成本低于简单随机抽样。
- 分层抽样能很好保证代表性,成本非常高。
- 多级整群抽样,能保证一定程度的代表性,成本较低。
简单随机抽样
简单随机抽样(simple random sampling)是从含有 N 个抽样单元的总体中,一次抽取 n 个单元,是全部的 N 个抽样单元都有相等的概率被抽中。
具体操作方法有:使用计算机软件生成随机数、查随机数表。
简单随机抽样适用条件:
- 较小规模的总体
- 有明确总体
- 有完整的抽样框
系统抽样
系统抽样(systematic sampling),是从一个规模为 N 的总体中抽取出 n 个样本,设想将总体中的 N 个抽样单元按照一定的顺序排序,在规定范围内随机抽取一个初始单元,然后按照事先规定的规则抽取其他样本单元。
系统抽样中最为常见的是等距抽样。
等距抽样是从一个规模为 N 的总体中抽取 n 个样本,设想将总体中的 N 个抽样单元按照一定的顺序排序,根据样本量占总体的百分比确定一个抽样间距,然后每个一个抽样间距就抽取 1 个抽样单元,最终组成含 n 个抽样单元的样本。
抽样间距k=N/n
。抽样间距,可四舍五入。
等距抽样是需要注意抽样间距与抽样单元排列周期性问题。
假如对某电视台某年内的每日节目进行抽样分析,如果抽样间距为 7,则会导致抽样出的样本都几种在星期几的情况,从而影响样本代表性。
解决的办法有:
- 掌握总体元素排列周期,选择适当的抽样间距。
- 打乱总体元素排列的周期性。
系统抽样的适用条件:
- 较大规模的总体
- 明确的总体
- 完整的抽样框
- 总体中元素的随机排列
- 总体中元素具有较高的同质性
- 总体中不同类别元素的数量相差不大
分层抽样
分层抽样(stratified sampling),是在总体的各个构成部分具有异质性的前提下,按照一定的标准将总体分为互不重叠的不同层(stratification),然后再从每个层中分别抽取随机样本。
所谓“层”就是通常所说的“类别”。
总体–>确定分层特征,分为不同的层–>再在各个层中随机抽取子样本–>子样本合并后,形成最终样本。
分层的目的在保持样本结构和总体结构的一致性,因此,分层应该注意如下内容:
- 分层的标准是一个变量(如年龄、学历、籍贯等)
- 作为分层标准的变量应与调查目标高度相关。
- 层与层之间的关系应当在逻辑上周延。
- 不同层的元素应尽量异质,同一层内部的元素应尽量同质。
分层抽样的两种类型:
- 按比例分层抽样,一般我们使用按比例分层抽样,各子样本在总样本中所占比例 = 各层在总体总所占比例。
- 非比例分层抽样(最优分层抽样),各子样本在总样本中所占比例不等于各层在总体中所占比例。
在非比例分层抽样中,不同层的元素进入样本的概率不同,分析时需要修正。
非比例分层抽样,在需要各层之间实现样本分配最优化或需要专门研究某一个层的情况下使用。
分层抽样的适用条件:
- 较小规模的总体
- 明确的总体
- 完整的抽样框
- 详细的抽样元素分层特征信息。
整群抽样
整群抽样(cluster sampling),将总体划分为若干个“群”,以“群为抽样单位从中抽取随机样本。常见的群有班级、专业、学院、部门等。
整群抽样通常采用分级(分阶段)方式。也叫做多级整群抽样,或多阶段整群抽样。
例如:要调查全国高校毕业生阅读倾向,则可分为四个阶段,第一阶段,按省、直辖市、自治区等省级行政区划划分;第二阶段,在个省中按高校划分;第三阶段,在高校中按学院或专业划分。最后在学院或专业中抽取毕业生。
多级整群抽样需要注意平衡类别和个体。
多级整群抽样的适用条件:
- 特大规模的总体
- 无需非常明确的总体
- 无需完整的抽样框
除了随机抽样外,还有非随机抽样。比如偶遇抽样、判断抽样、配额抽样、滚雪球抽样等。
样本规模
社会调查最重要的工作,就是通过样本推论总群体的特性,为了确保推论的准确性,调查方的样本必须具有随机化、代表性与足够的数量。调查法的样本多为超过千人的大样本设计。
实验法与相关法的样本需求与统计分析方法的数学原理有关,实验的组数越多,样本需要越多,每一组至少有 30 个被试才能维系抽样分布的正态性,当有 K 组时,样本数则至少为 30 的 K 倍。
此外,样本的需求还与统计分析时的要求有关,如涉及到量表的使用时,以因素分析(factor analysis)为例,样本数约为题目数量的 10 倍,一个 50 题的量表,需要 500 人的样本,如此才可能获得较为稳定的统计分析数据。
使用置信区间确定样本规模
确定样本量的两个公式:
\[ \tag{公式一} n \approx \dfrac{(Z_{\alpha/2})^2\sigma^2}{E^2} \]
- 其中 n 为样本量
- \(\sigma^2\)为方差,反映抽样个体值和整体平均值之间的偏离程度。
- \(E\) 为抽样误差,可以根据均值的百分比设定。
- \(Z_{\alpha/2}\)为可靠性系数,即置信度,置信度为 95%时,\(Z_{\alpha/2}\)等于 1.96。该值可通过查表获得,可视为已知的值。
但是由于有总体的值\(\sigma^2\)和 \(E\),所以该公式无法直接使用。故有了第二个公式:
假设抽样均值为 y,则相对抽样误差\(h=E/y\),引入变异系数\(C=\sigma/y\)。上一公式同时除以 y,则有
\[ \tag{公式二} n \approx \dfrac{(Z_{\alpha/2})^2C^2}{h^2} \leqslant \dfrac{(Z_{\alpha/2})^2}{h^2} \]
这样就可以根据相对误差和置信度来计算样本规模了。
相对抽样误差(假设:C=0.4)
置信度 | 1% | 2% | 3% | 4% | 5% |
---|---|---|---|---|---|
95% | 6147 | 1537 | 683 | 384 | 246 |
90% | 4330 | 1082 | 481 | 271 | 173 |
样本量的经验参考值
总体规模 | 样本比例 |
---|---|
100 人以下 | 50%以上 |
100-1000 人 | 50%-20% |
1000-5000 | 30%-10% |
5000-10000 | 15%-3% |
1 万-10 万 | 5%-1% |
10 万以上 | 1%以下 |
影响样本规模的因素
从整体考虑的话,样本规模的影响因素有:
- 总体的规模
- 估计的把握性与精确性要求
- 总体的异质性程度
- 调查的主要目标
- 分类比较的程度
- 抽样方法
- 统计分析的需求
- 调查者所拥有的经费、人力和时间
- 数据收集方式(有效回收率、问卷发放方式)
实验法与相关法的样本需求与统计分析方法的数学原理(如第一类型与第二类型错误、统计检验力)有关,实验的组数越多,样本需要越多,以统计的正态性为基础,每一组须至少有30个被试才能维系抽样分布的正态性,当有K组时;样本数则为30的K倍之多。
相关法的样本需求与研究所使用的测验与量表长度有关,量表越长,样本需求越高。 此外,当统计分析较为繁复时,样本也须较大,样本的大小必须能够提供一个变量足够的统计变异量,同时能够维持正态分布的假设不被违反。 Ghiselli, Campbel,& Zedeck (1981)建议牵涉到量表的使用时,样本人数不宜少于300。以因素分析( factor analysis) 为例,样本数约为题数的10倍,一个50题的量表,即需500人样本,如此才能获得较为稳定的统计分析数据。
整体而言,三种研究方法中,以调査法所需要的样本规模最大,而以实验法所需的样本最少,相关法居中。调査法的样本数需求大,为考虑问卷发放与数据处理的便利性,调査研究所使用的工具受到相当的限制(如题目较少)。实验法的重点在于样本是否随机分配到不同的组别,样本越多虽然可以提高统计检验力,然而实验效果是否显著,主要并非取决于统计的程序,而是控制的严谨程度与实验的效果。相关研究的重点在于测验的信效度,因此样本的大小与研究设计及信效度的提升有关( Cohen,1988)。
抽样分布
抽样分布是指,当从同一总体中重复抽取大小相等的样本时,某个统计量的所有可能值的分布。抽样分布是统计学中的一个核心概念,它描述了从总体中抽取样本时,某个统计量(如样本均值、样本比例等)的概率分布。这个概念在进行统计推断时特别重要,因为它帮助我们理解和量化从样本数据推断总体参数时的不确定性。
- 样本均值的抽样分布:最常见的抽样分布之一,特别是当样本量较大时,由于中心极限定理,样本均值的分布通常接近正态分布。
- 样本比例的抽样分布:用于比例数据,例如二项分布的样本比例。
抽样分布使我们能够评估从样本中得到的统计量与总体参数之间的差异,它提供了从样本数据推断总体特征时所需的理论基础,为构建置信区间和执行假设检验提供了理论依据。通过理解抽样分布,统计学家和研究人员能够更准确地评估他们的推断结果的可靠性。
置信区间与置信水平
置信区间(Confidence interval)是一种用来表示估计值不确定性的区间估计。它给出了一个范围,我们相信这个范围内包含了某个未知的总体参数(如均值、比例等)的真实值。置信水平是与置信区间相联系的一个概念,它表示置信区间包含总体参数真实值的可信程度,通常以百分比表示,如95%置信水平。
假设你要估计一个班级学生的平均身高。你可能会说:“我相信这个班级学生的平均身高在1.6米到1.7米之间。”这里的“1.6米到1.7米”就是一个置信区间。它表明你相信真正的平均身高会落在这个区间内。但是,这个估计并不是绝对准确的,它有一个可能的误差范围。如果你说这个估计(1.6米到1.7米)是基于95%的置信水平,这就好比说:“如果我们用同样的方法多次估计班级平均身高,那么大约有95%的情况下,这个班级的真实平均身高会落在我们计算出的置信区间内。”换句话说,置信水平给出了你对这个估计区间准确性的信心程度。
将置信区间和置信水平结合起来看,它们提供了一种量化估计结果不确定性的方法。高置信水平意味着更大的信心,但通常也会导致更宽的置信区间,反映了较高的不确定性。在实际应用中,这两个概念帮助我们理解和解释数据,同时也提示我们任何基于样本数据的估计都存在一定的不确定性。
置信区间的计算公式
置信区间的计算公式取决于估计的参数(如均值、比例等),样本的大小,以及数据是否符合某些分布(如正态分布)。以下是几种常见情况下置信区间的计算公式:
均值的置信区间(总体方差已知)
当总体方差已知时,均值的置信区间可以使用以下公式计算:
\[\bar{x} \pm z \times \frac{\sigma}{\sqrt{n}}\]
其中:
- \(\bar{x}\) 是样本均值。
- \(z\) 是标准正态分布的z分数(例如,对于95%置信水平,\(z\)约等于1.96)。
- \(\sigma\) 是总体标准差。
- \(n\) 是样本大小。
均值的置信区间(总体方差未知)
当总体方差未知且样本量较小时,使用t分布:
\[\bar{x} \pm t \times \frac{s}{\sqrt{n}}\]
其中:
- \(\bar{x}\) 是样本均值。
- \(t\) 是t分布的t分数,依赖于置信水平和自由度(自由度一般为 \(n - 1\))。
- \(s\) 是样本标准差。
- \(n\) 是样本大小。
比例的置信区间
对于比例的置信区间,公式为:
\[\hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
其中:
- \(\hat{p}\) 是样本比例。
- \(z\) 是标准正态分布的z分数。
- \(n\) 是样本大小。
参考文献
- 陈正昌, 贾俊平. (2016). 统计分析与R. 中国人民大学出版社.
- 贾俊平. (2021). 统计学——Python实现. 高等教育出版社.
- 李沛良. (2001). 社会研究的统计应用. 社会科学文献出版社.
- 张文彤. (2017). SPSS统计分析基础教程(第3版). 高等教育出版社.