测量
测量的基本概念
测量(measurement)是运用一套符号系统去描述某个被观察对象的某个属性(attribute)的过程。
测量就是按照一定的程序和规则,给物体的属性安排数字。
变异(variety)是统计的根本,有学者认为提出了社会科学研究的三个基本原则,认为变异性原则是其中首要的一个原则。1
变量与常数
变量(variable)表示某一属性因时间、地点、人、物不同而不同的内容。一个变量包括两个重要的概念,其一是所指涉的属性,就是变量的名称,其二是变量的数值。
随机变量(random variable)是指由随机实验结果来决定其取值的变量。它具有两个关键属性:随机性和变异性。
常数(constant),表示某一属性不因时间、地点、人、物不同而不同。
变量的分类
变量按照因果关系可分为自变量 (independent variable;IV)和因变量 (dependent variable;DV);
按照值是否连续,分为离散变量 (discrete variable)和连续变量 (continuous variable);
按照数值的意义,分为量化变量 (quantitative variable)和质性变量 (qualitative variable),把质性变量又叫做类别变量 (categorical variable)
测量的层次
数据的性质决定测量所使用的尺度(scale)或层次(level)
定类尺度(nominal scale),用来评估所属种类。定类变量在测量时可采用互斥、穷尽原则提供选项。
定序尺度(ordinal scale),用来测量有顺序关系的类别。
定距尺度(interval scale),用来测定变量在某个属性上的程度特性。
定比尺度(ratio scale),是具有真正零点的定距尺度。
定类尺度
每一种类别以一个数字来表示,变量的数值仅代表不同的类别,没有任何的强度、顺序、大小等数学上的意义。
定类尺度必须符合两个原则,第一是互斥,第二是完整。因此建立一套适当的分类架构(classification schemes)是测量顺利进行的重要工作。
降低类别的模糊性,使填答者能够清楚地选择一个合适的选项。
定序尺度
定序尺度的测量,除了具有分类意义之外,各类别之间存在特定的大小顺序关系。
定序尺度所测得的数值随具有顺序的意义,但是由于没有特定的单位,除了大小顺序之外,数值没有数学逻辑运算的功能与意义。
定距尺度
定距尺度测量得到的数值,除了具有分类、顺序意义之外,数值大小反映了两个被观察者的差距。
等距尺度是一种具有标准化单位的测量工具,因为具备了标准化的单位,才能确定不同的测量值的差距。许多社会现象的测量或心理特质的测量,多采用等距尺度。
等距尺度的一个重要特征,是其单位只有相对的零点,而无绝对的零点。
定比尺度
当一个测量尺度使用了某个标准化的单位,同时又具有一个绝对零点,就是定比尺度。
测量层次的选择
不同的测量层次具有对应的分析或处理方法。在实际工作中,研究者通常不回去特别区分定距和定比尺度,而将两者一视同仁,以相同的数据分析与统计方法来处理。
高层次的测量结果可以转化为低层次的测量结果。但低层次的测量结果无法转化为高层次的测量结果。因此,我们应该在具体的研究过程中,寻找高层次的测量尺度进行测量工作。
概念化与操作化
概念(concept)是我们赋予术语的一致含义,从而帮助沟通、测量和研究。概念在现实世界中并不存在,因此无法直接衡量。
概念化(conceptualization)是对抽象概念的精细化和具体化,是明确概念的的模糊心理意象。操作化(operationalization)是特定研究程序的发展,最终实现在真实世界中得到抽象概念的实证观察结果。
操作化是概念化的延伸,是我们如何识别现实世界中给定变量的不同属性的最终说明。
Conceptualization is the refinement and specification of abstract concepts, and operationalization is the development of specific research procedures (operations) that will result in empirical observations representing those concepts in the real world.
测量存在的一切
对于一个变量,通常存在多种测量变量的方式。如电视暴力就可通过武器的展示次数、武力使用次数等等方式进行测量。
如果一个概念存在,我们就可以测量它。
概念(concept)是“理念(conception)的家族树”,按照卡普兰的定义,概念是一种结构,是从你对它的概念、我们对它的概念以及所有使用过这个术语的人的概念中建构出来的概念。概念是不可能被直接观察到的,因为它是我们创造出来的。
概念源于精神意象(概念),它总结了看似相关的观察和经验的集合。尽管观察和经验是真实的,至少在主观上是真实的,但概念只是精神创造,是虚构的。
通常我们会陷入这样一个陷阱:相信术语具有真正的含义。当我们开始认真对待这些术语并试图精确地使用它们时,这种危险似乎会变得更加严重。
测量的步骤
- 概念化(Conceptualization)
- 语词定义(Nominal Definition)
- 操作化定义(Operational Definition)
- 在现实世界中测量(Measurements in the real world)
概念化(conceptualization)
Catherine Marshall 和 Gretchen Rossman 提出“概念漏斗”
(Designing Qualitative Research),通过这个漏斗,研究者的兴趣变得越来越集中。例如对同情心的普遍兴趣可以缩小到“关心他人福利的个人”,并进一步集中在“什么样的经验塑造了富有同情心的人的发展”。
指标和维度
概念化的产物,就是一个或多个指标(indicators),指标可表明我们正在研究的概念是否存在。
概念的特定方面用术语维度(dimensions)来表示:如我们可以说同情的“感觉维度”和同情的“行动维度”。概念的不同维度通常会为我们深入理解某个概念铺平道路。
概念化涉及到指定维度和标识各种指标。
指标的可互换性(interchangeability)
指标的可互换性意味着,如果几个不同的指标在某种程度上都代表着相同的概念,那么这几个指标在反映概念的行为方式上起着相同的作用。(如果它是真实的,并且可以被观察到。)
The interchangeability of indicators means that if several different indicators all represent, to some degree, the same concept, then all of them will behave the same way that the concept would behave if it were real and could be observed.
操作化
操作化的选择
对一个概念进行操作化,具有许多种选择。
变量范围(精度)
根据研究的需要和实际情况,研究人员需要确定某个变量的范围究竟设定在什么范围内合适。比如,你的研究中年龄范围是否要包括3岁以下的婴儿?人们对某个事物的态度,是否要简单归结为不喜欢、喜欢,还是从强烈反对到非常支持?
再比如,你只需要知道一个人是否已婚,或者不知道他或她是否从未结婚,或是单身、丧偶、离婚或再婚,会不会有什么不同?当然,对于这些问题没有一般的答案。答案来自于你的研究目的,或者你为什么要做一个特别的测量。不过,我们可以提到一个有用的指导方针。当你不确定要测量多少细节时,越细越好,而不是越粗越好。
概念的多个维度(意义)
一个概念,往往有多个维度。比如人们对不文明语言的态度,就有多个考察的维度:
- 人们在网络中对不文明语言的宽容程度如何?
- 人们在什么范围中能够容忍不文明语言的使用?
- 不文明语言在多大程度上被视为与同伴建立情感联系的手段?
- 不文明语言在多大程度上被视为人身攻击的工具?
在你的研究中,你必须清楚哪些维度是重要的。
测量水平(Levels of Measurements)
概念化和操作化的过程,可以看成是详述变量及其取值的过程。变量的取值必须穷尽及互斥。测量的水平或级别共有四种:定类(nominal)、定序(ordinal)、定距(interval)以及定比(ratio)
单个还是多个指标
有的概念,可以有多个指标进行测量。一些简单的概念,如年龄、性别、体重就能通过单个指标进行测量。一些复杂的概念,我们通常采用复合测量的办法,如通过平均绩点(GPA)来测量学生在学校期间的学习表现。
概念的定义和研究目的
我们知道,研究目的有描述和解释两种。其中概念的定义,对于以描述为目的的研究而言,具有非常重要的意义,因为概念的定义,决定了研究者描述研究的内容。例如:什么是暴力?不同的定义,对某一时段的电视节目而言,定义不同,则节目中包含的暴力内容的比例就不同。
反而对于以解释为研究目的的研究而言,核心概念的不同定义,不一定对概念之间关系有实质性影响。例如:不管新技术的定义为何,都不太会影响年轻人比老年人更容易接受新技术这样一个命题。
测量的信度与效度
信度与效度用来衡量测量一个变量的成功程度。
信度(reliability)
测量的信度,或者可靠度,是指使用特定的技术,反复测量同一个对象,每次是否会产生相同的结果。(在内容分析法中,信度就是指不同的编码员,对同一个内容是否会产生相同的编码。)对于信度,有一些基本的处理方法:
重测信度(Test-Retest Method)
有时,研究人员有条件进行多次相同的测量。如果您不希望信息发生变化,那么您应该期望两次得到相同的响应。这种一致性将证明足够的测试-重新测试可靠性。如果答案不同,测量方法可能不可靠。
通常,一个测量工具,必须经过重测,有高重测信度后,才可正式投入使用。
替代形式方法(Alternate-Form Method)
研究人员基于相同的测量项目池(the pool of measurement items),开发出两个版本的测量工具,使用两个不同的版本,测量同一组人,如果具有可接受的替代信度,则研究人员就对工具抱有信心。
内部一致性方法(Internal Consistency Method)
这项技术,基于这样一个假设:在一个给定的测量中,不同的指标之间应该相互相关,换句话说,他们应该表现得始终如一。内部一致性方法可以有几种形式。
半可靠性(split-half reliability)
假设你已经创建了一个问卷,其中包含十个你认为可以衡量浪漫爱情的项目。使用半分割技术,随机将这十个项目分配给两组五个项目。每一组都应该提供衡量浪漫爱情的标准,并且每一组都应该以他们对调查对象的分类方式做出回应。这两部分之间的相关性很高,则可靠性高。
项目总可靠性(item-total reliability)
此技术将度量中每个项的一致性或相关性与度量中所有项的总分进行比较。当一个度量具有较高的项目总可靠性时,它意味着它的组件项与所有项目的总分正相关。如果一个给定的项目与总分没有很好的相关性,那么它的表现就不可靠,应该从度量中去掉。
使用已有量表(Using Established Measures)
采用广泛采用的量表,尤其是已经被证明具有高可靠性的量表,也是确保测量信度的方法之一。但需要注意,随着社会的变化,一些年代过久的工具,可能需要进行根本性的修订。
研究者的可靠性
研究者(访问员、编码员)的可靠性也会产生测量不可靠的问题。有几种解决方案,如:调查主管回访、多个编码员独立编码。
信度系数(Reliability Coefficients)
信度系数用来描述一致性的程度。信度系数有多种:相关系数r、K-R 20、克朗巴赫的α;科恩的kappa。这些系数的值从0到1,表示一致性的程度。
信度系数至少应该不小于0.7。
效度(Validity)
测量有效性指的是测量充分反映概念真正意义的程度。
内容有效性
内容有效性(content validity)指的是一次测量,在多大程度上涵盖了概念中包含的意义范围或维度。也就是说,对概念的测量,要在周延的维度上进行。比如,测量数学计算能力,就不应该仅仅测量加法,其它运算都应该测量。
第一种解决内容有效性的方法是表面效度(face validity),指的是测量是否与我们关于某个概念的心理图像相抵触。例如:工人在图书馆的借阅数量感觉上与工人的工作士气没有多少关联,但是向工会提出申诉的数量,就可视为工作士气的一部分。
第二种解决有效性的方法是专家组有效性(expert panel validity),指的是有该领域的一组专家评估一项测量的有效性。
第三种解决有效性的方法是用过因素分析(factor analysis),因子分析可用于分析测量的多维结构。通过确定哪些项目在人们的头脑中似乎是组合在一起的,进而证明测量的有效性。例如:Kathleen Ellis的研究
标准效度(Criterion Validity)
第二种主要的效度形式是标准效度,它分为预测效度(predictive validity)和并行效度(concurrent validity)两种形式。这两种形式的共同点是通过一个度量与某个外部标准的关系来评估它的有效性。为了预测有效性,一个度量必须证明它可以预测未来的行为。
建构效度(Construct Validity)
建构效度,是基于变量之间的逻辑关系。在判别结构效度中,测量的变量与理论上不同变量的度量存在偏离或负相关。例如,假设您想研究婚姻满意度的来源和后果。作为研究的一部分,您开发了一个婚姻满意度的度量标准,并希望评估其有效性。除了制定衡量标准之外,您还将对可变婚姻满意度与其他变量之间的关系产生一定的理论预期。如果这些理论预期存在,则建构效度高。
谁来决定有效性?
研究者有时会互相批评,因为他们暗地里认为自己比他人更优秀。那谁来决定有效性呢?研究者应将同行和研究参与者视为对他们所研究概念最有用的意义和测量方法达成一致的来源。
信度与效度的关系
信度与效度之间存在一种张力。概念操作化时的名义定义以及度量规范似乎剥夺了这些概念的丰富意义,也就是说,在某种程度上,对可靠性的追求,使得概念的丰富内涵受到限制,产生测量效度下降的问题。指定具体、可靠的测量措施往往会削弱我们理解中的概念的丰富意义,这是不可避免的。最好的解决方案是尽可能周延概念的不同维度。
给任何概念赋予特定含义的唯一理由是效用,应该以帮助我们了解周围世界的方式来测量概念。
参考资料
- 邱皓政. (2013). 量化研究与统计分析. 重庆大学出版社.
- 菲利普·帕尔姆格林, 丽贝卡·B.鲁宾. (2018). 传播研究量表手册(Ⅰ) (邓建国, 译). 复旦大学出版社.
脚注
谢宇(2006)提出社会科学研究的三个基本原则:即变异性原则(Variability Principle),社会分组原则(Social Grouping Principle)和社会情境原则(Social Context Principle)。
社会分组实际是简化,简化就有代价,在社会科学中就体现为误差,是知识上的缺陷。
社会情景不同与社会分组,社会情景(例如“某个时代的中国”)是边界的,社会分组是没有边界(例如“性别”)的。↩︎