抽样方法

研究方法

作者

yangjh

发布于

2022年11月23日

抽样术语

抽样

抽样（sampling），从总体中抽取作为研究对象的样本的操作程序。

元素

元素（elements）是构成样本的最基本单元，同时也是构成总体的最基本单元。

总体

总体（population）是作为研究对象的特定范围内的所有元素的集合论。

样本

样本（sample）是从总体中按照一定方式抽取出一定数量元素的集合。

抽样单元

抽样单元（sampling unit），是一次直接抽样所使用的抽样单位。

按个体抽取，抽样单位即为个体；按班级抽取，抽样单元即为班级；按村抽取，抽样单元即为村。

在大多数情况下，抽样单元与元素完全一致，但有两个例外，即整群抽样和多级抽样。整群抽样的抽样单元一定大于元素；多级抽样的抽样单元一定大于等于元素，且随着级别的变化而变化。

抽样框

抽样框（sampling frame），又称抽样范围，是将总体所涵盖的全部抽样单元进行编号排列而形成的清单。

参数值

参数值（parameter），又称总体值，是总体的某一变量的综合描述。

常见参数值：总体平均值、总体标准差

统计值

统计值（statistic），又称样本值，是对样本某一变量的综合描述，是总体某一变量的综合描述的估计值，即参数值的估计值。

常见统计值：样本平均值、样本标准差

抽样意义

从样本中计算出来的数值，叫作统计值。对应的总体中的数值，则称为参数值。需要使用推论统计法用样本统计值去推测总体的参数值。

抽样过程

界定总体：总体的定义，越清楚越好。有样本所得的研究结果，原则上只能推论到这个所界定的总体范围。
搜集全部名单：根据总体的定义，收集一份全部个案的名单组成抽样框。
决定样本规模：在决定样本大小时，应根据所能付出的研究代价的最大限度抽取最大的样本。
选取样本个案：设计抽样方案，从抽样框中选取所需的个案。
评估样本质量：根据一些在总体与样本中都能容易找到的特征来评估样本的质量。

抽样原则

按照研究目的的不同，可以有三种不同的抽样原则：

同质性抽样，是控制实验的抽样原则，即参加实验的元素，尽可能减少干扰变量。
代表性抽样，是问卷调查的抽样原则，即保证样本的多样性和代表性。代表性抽样分为：
1. 随机抽样（也叫概率抽样）
  - 简单随机抽样
  - 系统抽样
  - 分层抽样
  - 整群抽样
2. 非随机抽样（也叫非概率抽样）。
  - 判断抽样
  - 便利抽样（偶遇抽样）
  - 配额抽样（定额抽样）
  - 滚雪球抽样（机缘抽样）
目的性抽样，是质化研究的抽样原则，也叫判断抽样。目的性抽样分为四种：
- 典型案例抽样
- 极端/异常案例抽样
- 关键案例抽样
- 最大变异性抽样（覆盖所有人口特征）。

抽样方法

随机抽样，是总体中的每一个元素都有同等概率进入到样本中。也叫概率抽样。随机抽样方式比较：

简单随机抽样最具代表性，但成本高。
系统抽样很具代表性，成本低于简单随机抽样。
分层抽样能很好保证代表性，成本非常高。
多级整群抽样，能保证一定程度的代表性，成本较低。

简单随机抽样

简单随机抽样（simple random sampling）是从含有 N 个抽样单元的总体中，一次抽取 n 个单元，是全部的 N 个抽样单元都有相等的概率被抽中。

具体操作方法有：使用计算机软件生成随机数、查随机数表。

简单随机抽样适用条件：

较小规模的总体
有明确总体
有完整的抽样框

系统抽样

系统抽样（systematic sampling），是从一个规模为 N 的总体中抽取出 n 个样本，设想将总体中的 N 个抽样单元按照一定的顺序排序，在规定范围内随机抽取一个初始单元，然后按照事先规定的规则抽取其他样本单元。

系统抽样中最为常见的是等距抽样。

等距抽样是从一个规模为 N 的总体中抽取 n 个样本，设想将总体中的 N 个抽样单元按照一定的顺序排序，根据样本量占总体的百分比确定一个抽样间距，然后每个一个抽样间距就抽取 1 个抽样单元，最终组成含 n 个抽样单元的样本。

抽样间距k=N/n。抽样间距，可四舍五入。

等距抽样是需要注意抽样间距与抽样单元排列周期性问题。

假如对某电视台某年内的每日节目进行抽样分析，如果抽样间距为 7，则会导致抽样出的样本都几种在星期几的情况，从而影响样本代表性。

解决的办法有：

掌握总体元素排列周期，选择适当的抽样间距。
打乱总体元素排列的周期性。

系统抽样的适用条件：

较大规模的总体
明确的总体
完整的抽样框
总体中元素的随机排列
总体中元素具有较高的同质性
总体中不同类别元素的数量相差不大

分层抽样

分层抽样（stratified sampling），是在总体的各个构成部分具有异质性的前提下，按照一定的标准将总体分为互不重叠的不同层（stratification)，然后再从每个层中分别抽取随机样本。

所谓“层”就是通常所说的“类别”。

总体–>确定分层特征，分为不同的层–>再在各个层中随机抽取子样本–>子样本合并后，形成最终样本。

分层的目的在保持样本结构和总体结构的一致性，因此，分层应该注意如下内容：

分层的标准是一个变量（如年龄、学历、籍贯等）
作为分层标准的变量应与调查目标高度相关。
层与层之间的关系应当在逻辑上周延。
不同层的元素应尽量异质，同一层内部的元素应尽量同质。

分层抽样的两种类型：

按比例分层抽样，一般我们使用按比例分层抽样，各子样本在总样本中所占比例 = 各层在总体总所占比例。
非比例分层抽样（最优分层抽样），各子样本在总样本中所占比例不等于各层在总体中所占比例。

在非比例分层抽样中，不同层的元素进入样本的概率不同，分析时需要修正。

非比例分层抽样，在需要各层之间实现样本分配最优化或需要专门研究某一个层的情况下使用。

分层抽样的适用条件：

较小规模的总体
明确的总体
完整的抽样框
详细的抽样元素分层特征信息。

整群抽样

整群抽样（cluster sampling），将总体划分为若干个“群”，以“群为抽样单位从中抽取随机样本。常见的群有班级、专业、学院、部门等。

整群抽样通常采用分级（分阶段）方式。也叫做多级整群抽样，或多阶段整群抽样。

例如：要调查全国高校毕业生阅读倾向，则可分为四个阶段，第一阶段，按省、直辖市、自治区等省级行政区划划分；第二阶段，在个省中按高校划分；第三阶段，在高校中按学院或专业划分。最后在学院或专业中抽取毕业生。

多级整群抽样需要注意平衡类别和个体。

多级整群抽样的适用条件：

特大规模的总体
无需非常明确的总体
无需完整的抽样框

除了随机抽样外，还有非随机抽样。比如偶遇抽样、判断抽样、配额抽样、滚雪球抽样等。

样本规模

社会调查最重要的工作，就是通过样本推论总群体的特性，为了确保推论的准确性，调查方的样本必须具有随机化、代表性与足够的数量。调查法的样本多为超过千人的大样本设计。

实验法与相关法的样本需求与统计分析方法的数学原理有关，实验的组数越多，样本需要越多，每一组至少有 30 个被试才能维系抽样分布的正态性，当有 K 组时，样本数则至少为 30 的 K 倍。

此外，样本的需求还与统计分析时的要求有关，如涉及到量表的使用时，以因素分析（factor analysis）为例，样本数约为题目数量的 10 倍，一个 50 题的量表，需要 500 人的样本，如此才可能获得较为稳定的统计分析数据。

使用置信区间确定样本规模

确定样本量的两个公式：

\[ \tag{公式一} n \approx \dfrac{(Z_{\alpha/2})^2\sigma^2}{E^2} \]

其中 n 为样本量
\(\sigma^2\)为方差，反映抽样个体值和整体平均值之间的偏离程度。
\(E\) 为抽样误差，可以根据均值的百分比设定。
\(Z_{\alpha/2}\)为可靠性系数，即置信度，置信度为 95%时，\(Z_{\alpha/2}\)等于 1.96。该值可通过查表获得，可视为已知的值。

但是由于有总体的值\(\sigma^2\)和 \(E\)，所以该公式无法直接使用。故有了第二个公式：

假设抽样均值为 y，则相对抽样误差\(h=E/y\)，引入变异系数\(C=\sigma/y\)。上一公式同时除以 y，则有

\[ \tag{公式二} n \approx \dfrac{(Z_{\alpha/2})^2C^2}{h^2} \leqslant \dfrac{(Z_{\alpha/2})^2}{h^2} \]

这样就可以根据相对误差和置信度来计算样本规模了。

相对抽样误差（假设：C=0.4）

置信度	1%	2%	3%	4%	5%
95%	6147	1537	683	384	246
90%	4330	1082	481	271	173

样本量的经验参考值

总体规模	样本比例
100 人以下	50%以上
100-1000 人	50%-20%
1000-5000	30%-10%
5000-10000	15%-3%
1 万-10 万	5%-1%
10 万以上	1%以下

影响样本规模的因素

从整体考虑的话，样本规模的影响因素有：

总体的规模
估计的把握性与精确性要求
总体的异质性程度
调查的主要目标
分类比较的程度
抽样方法
统计分析的需求
调查者所拥有的经费、人力和时间
数据收集方式（有效回收率、问卷发放方式）

实验法与相关法的样本需求与统计分析方法的数学原理(如第一类型与第二类型错误、统计检验力)有关,实验的组数越多,样本需要越多,以统计的正态性为基础,每一组须至少有30个被试才能维系抽样分布的正态性,当有K组时;样本数则为30的K倍之多。

相关法的样本需求与研究所使用的测验与量表长度有关,量表越长,样本需求越高。此外,当统计分析较为繁复时,样本也须较大,样本的大小必须能够提供一个变量足够的统计变异量,同时能够维持正态分布的假设不被违反。 Ghiselli, Campbel,& Zedeck (1981)建议牵涉到量表的使用时,样本人数不宜少于300。以因素分析( factor analysis) 为例,样本数约为题数的10倍,一个50题的量表,即需500人样本,如此才能获得较为稳定的统计分析数据。

整体而言,三种研究方法中,以调査法所需要的样本规模最大,而以实验法所需的样本最少,相关法居中。调査法的样本数需求大,为考虑问卷发放与数据处理的便利性,调査研究所使用的工具受到相当的限制(如题目较少)。实验法的重点在于样本是否随机分配到不同的组别,样本越多虽然可以提高统计检验力,然而实验效果是否显著,主要并非取决于统计的程序,而是控制的严谨程度与实验的效果。相关研究的重点在于测验的信效度,因此样本的大小与研究设计及信效度的提升有关( Cohen,1988)。