Content Analysis
内容分析(Content Analysis)是一种研究技术,用于解读文本中的意义、主题、模式、情感等。它可以用于对大量的文本数据(如新闻报道、社交媒体帖子、访谈记录等)进行客观、系统的和定量化的描述。其目的通常是揭示隐藏在文本背后的特定模式或趋势。
内容分析法的发展反映了它如何从一种简单的文本分析技术发展为一个多学科、多方法的研究领域。随着技术的进步和研究需求的变化,内容分析法也在不断地适应和进化。
内容分析起源于20世纪初,当时主要用于研究战争宣传中的信息。在第二次世界大战期间,该方法被用来分析对敌宣传中的模式。
政治传播和宣传研究的先驱之一。Lasswell对战时宣传进行了深入研究,并开发了内容分析的初步方法来分析传播材料。
Lasswell在1927年发布的这部著作中,深入探讨了第一次世界大战中的宣传方法。他使用内容分析来研究战争期间的宣传材料,从中发现了宣传的主要技术和策略。
主要发现包括:
Lasswell为内容分析提供了一种系统化的方法,强调了对宣传材料的客观、定量的分析。这为后来的内容分析研究奠定了基础。
这个时期,内容分析开始受到学术界的关注,尤其在传媒研究领域。研究者开始使用这种方法来分析新闻报道、广告和电视节目的内容。
“Content Analysis in Communication Research” Bernard Berelson (1952): 这本书是20世纪中叶内容分析研究的经典之作。Berelson详细地解释了如何进行内容分析,为后来的研究者提供了宝贵的方法论指导。
随着社会科学的发展,内容分析在多个学科中都得到了应用,如社会学、心理学、政治学等。这一时期,计算机技术的发展为内容分析的自动化提供了可能。
克劳斯·克里彭多夫Klaus Krippendorff:他对内容分析的方法论做出了重要贡献,特别是在确保其可靠性和效度方面。
Robert P. Weber:他的工作为内容分析提供了清晰的指导和说明,强调了内容分析在定量研究中的应用。
随着互联网和社交媒体的兴起,内容分析成为了研究网络内容的主要工具之一。新的计算工具和软件,如NVivo和ATLAS.ti,进一步简化了大规模数据集的分析过程。
社交媒体平台内容分析:研究者开始对这些平台上的内容进行深入分析,探讨如何构建网络身份、网络社群的形成和维护,以及如何在网络上进行公共沟通。
中国古代学者虽然没有像现代那样正式地定义和使用“内容分析法”,但他们的研究方法和思考方式中确实有类似的思路和技术。
内容分析法在当下正面临着前所未有的机遇和挑战。在技术的推动下,这一研究方法的应用范围和深度都得到了显著的扩展。然而,与此同时,它也带来了一系列新的伦理和技术问题,需要研究者和实践者共同面对和解决。
以GPT、BERT和Transformer为代表的深度学习模型被广泛应用于内容分析,尤其是在复杂的文本分析任务中。
随着计算机技术和数据科学的发展,内容分析法逐渐从手动、定性的分析转向数字化、自动化和定量的分析。例如,利用机器学习和自然语言处理技术对大规模文本数据进行分析。
社交媒体和在线平台上的内容更新速度非常快,这要求内容分析法能够提供实时或近实时的分析结果。例如,实时情感分析或舆情监控。
为了帮助研究者和决策者更好地理解分析结果,现代内容分析工具往往配备了先进的数据可视化功能。
随着自动化内容分析的普及,如何确保算法的透明性和公正性成为了一个热门话题。研究者开始关注算法偏见,并探索如何避免或减少这种偏见。
除了纯文本内容,现代内容分析法还开始涉及图像、视频和音频等多种数据类型。例如,结合图像识别技术分析社交媒体上的图像内容。
随着大规模数据的收集和分析,如何确保个人隐私和数据安全成为了内容分析的重要议题。
使用统计方法对文本内容进行系统化、客观和数值化的描述和分析。
优点
局限性
通过总结和对比广告策略组件的方法-目的概念化模型、社交货币理论以及使用与满足理论,本项研究搭建了品牌内容分类与社交货币理论分析框架,并借助Atlas.ti 7等软件对联想、华为、HTC和三星的微信公众号进行内容分析。研究发现,消费电子品品牌通过社交媒体进行的内容营销,其信息可被分为产品、娱乐、社交互动、品牌互动以及自我实现五类。品牌通过微信公众号进行内容营销打造社交货币时,实用信息和社交内容比自我实现内容的沟通效果更为显著,而社交媒体策略能力对内容营销策略与社交货币之间的关系存在影响。
对文本内容进行深入、细致的解读和理解,而不仅仅是数值化的描述。
优点
局限性
研究聚焦受众对女性主义广告的感知效果,采取扎根理论和文本分析方法,从消费者微博评论中提炼出用户语境下女性主义广告的效果框架,并且对5000条微博评论文本进行内容分析,探讨不同议题的女性主义广告在微博语境下的传播效果及其差异。研究深入分析既存的真实评论样本后发现:广告的心理效果可分为品牌态度、广告态度和行为三个方面;广告的社会效果则存在认同性和批判性两种解读立场;不同受众在性别歧视、性别刻板印象、社会规范、美的定义及主体性认知等讨论主题下具有截然不同的观点;受众未全然接受广告信息,而是对于广告背后蕴含的意识形态有所警惕。这表明女性主义广告在社交媒体上引起的“发声”可以作为一种文化象征,折射出受众对性别议题的看法与意见,从而助推性别平等议题的讨论与发展。
结合定量和定性方法,对文本内容进行全面和多层次的分析。
优点
局限性
随着人口的增长,消费的增长,世界环境承受着空前的压力。不少企业为了体现自己的社会责任,在广告中采取环保诉求,告诉消费者产品在生产和消费的过程中对于环境是很友好的。本研究采取内容分析和批判解读相结合的方法,分析中国的杂志广告中的绿色诉求情况。通过分析《瞭望》和《中国新闻周刊》的广告,我们发现绿色诉求的公益广告数量微乎其微,耗能产品(汽车和家电)使用的绿色广告最多,而总体上国外品牌比国内品牌更多使用绿色广告。综合来看,“漂绿”营销在中国的广告中也是存在的。最后,论文相应提出一些值得管理部门和国内企业关注的建议。
研究者在实施内容分析之前,通常都必须首先形成可验证的研究问题或研究假设,这是成功的研究设计的关键环节。当研究问题特别是研究假设很明确时,量化内容分析才是最有效率的。
品牌在微信公众号上用内容营销打造社交货币时,实用信息和社交内容比自我实现内容的沟通效果更为显著。
根据研究者对我国消费品牌进行海外营销的案例追踪,以及 2015 年中国外文局对外传播研究中心发布的《2014年中国国家形象全球调查》,本项研究选取了四个消费电子产品品牌的公众号(联想、华为终端、HTC 资讯、三星)发布于 2015 年 1 月 1 日到 2015 年 6 月 31 日期间的信息为样本。在这 4 个品牌中,联想和华为都是来自中国大陆的全球电子产品品牌,同属海外民众熟悉度最高的中国品牌。选择 HTC 和三星是因为它们都是来自中国大陆以外的著名全球电子产品品牌。集中研究一类产品的品类有助于避免因为产品品类影响品牌的内容营销策略。
本项研究选取从 2015 年 1 月 1 日到 2015 年 6 月 31 日期间的信息是基于以下考虑: 由于传播活动是持续不断进行的,品牌企业也在不断积累内容营销的经验,因此选择最近时间段的信息最能反映经营现状,同时网络内容分析也更需要强调样本下载的及时性。
确定恰当的分析单位,即确定哪一个或谁将是一项内容分析研究中所要描述或解释的个体单位。
内容分析往往包括两种类型的内容单位。一是分析单位(unit of analysis),也即被研究的现象或一般目标,比如研究新闻报道的平衡性问题,分析单位可以是每篇新闻报道,也可以是新闻报道中出现的每个新闻消息源。
另一个单位类型是记录单位(unit of recording),也即在个体层面上所测量的具体单位,比如在以单篇新闻报道为分析单位的研究中,可将单个新闻消息源作为记录单位,以此来计算来自官方政府或不同党派、学界精英、普通民众等不同消息源在每篇新闻报道的消息源总数中所占比例,因此记录单位有时等同于计数单位或测量单位。
①上述公众号的多媒体内容被按品牌分别复制到四个多媒体研究档并保存; ②研究者首先采用Atlasti7对10%的图片和视频进行编码。
在内容分析中,类目建构是联系理论架构和实际操作的最直接、最关键的一座桥梁。
编码记录是在单位化的文本与对文本的阅读之间,在图像与人们从图像中所看到的之间,或者在观察与对它们的情境阐释之间搭建桥梁。
编码是否成功有效,除了取决于变量识别、类目建构和编码方案制定的科学性和有效性以外,编码员对变量和类目体系建构的理解和对文本内容的把握也相当重要,因此编码员的培训在内容分析中是一个重要环节,进行编码员间的信度测试也成为了内容分析的一个关键组成部分,这是国际传播学界早已广泛达成的一个共识。
因此本项研究使用全部样本的10%计算了简单一致率和 Cohen’s Kappa 随机因素的信度,分别为0.928 和0.900。如果网络内容分析研究的信度系数大于0.82,即被认定可行,因此本项研究内容分析的信度较高。
文本一旦在以编码方式进行记录后,就要运用分析构念和具体方法来处理编码所获得的数据,从而有效识别数据模式和数据之间的关系,并揭示数据隐含的意义,从而做出一定的推断。
传统的定量内容分析经常使用描述性统计方法,如频数、百分比、平均值和排序等,除此以外,推断性统计方法,如卡方检验、t检验、方差分析和回归分析等在当代内容分析研究中也越来越受到重视和推广使用。
在实际开始搜集和分析数据资料之前,研究者首先需要明确自己的研究问题和研究对象,然后再着手构建研究设计。研究方法首先都是一种思考方式,加之一组有针对性的分析策略,从而使研究能有系统、有步骤地展开。研究设计既是思考方式的重要体现,也是分析策略的组成部分。
减少研究证据的诸多模糊性,增强研究证据的有效性和说服力,就是研究设计的根本之所在。简言之,一个好的设计确保理论、数据收集分析和解释能有机地融合。
内容分析者在分析前需要思考、把握、规划和决定的几个方面有:
内容分析法的运用同样需要懂得遵循科学的原则(如演绎和归纳的推理过程)、比较的原则、研究假设的推导和验证以及理论的建构和检验。
推论贯穿于内容分析研究过程的始终。推论既充分体现在研究问题和假设形成中,也隐含在编码方案的构建和人工编码环节上,还可以反映在分析者对量化统计结果的诠释以及研究结论的推断上。
在逻辑学中至少有三种推论的方式,即归纳、演绎和外展推理。
归纳推论是由诸多类似的个案一般化为一个通则。比如这里的个案是“这些豆子都是从这个袋中取出的”,我们发现“这些豆子都是白色的”,由此我们可以推论出一个法则“这个袋子中取出的所有豆子都是白色的”。这种推论在逻辑上虽然不是确定无疑的,但具有相当程度的正确的可能性。
由较小的样本对较大的总体进行统计意义上的推广以及研究假设的统计显著性的测量,都涉及这种推论。
演绎推论隐含在其前提假定中,它是一个由一般到特殊的过程。比如,这里有个一般法则是“这个袋中取出的所有豆子都是白色的”,而个案是“从袋中取出的豆子”,那么我们可以得到一个推论的结果,即“取出的豆子都是白色的”。
这一推论方式在内容分析特别是量化内容分析研究中,很大程度上体现在由既有理论、前人研究或大的现实背景推导出具体的研究问题和研究假设,以及由相关概念衍生出相应的变量和编码类目这两个研究环节上,而且进一步由此指导编码员在编码中进行推论。
外展推理过程则跨越了逻辑上不同的领域,从一种特殊情况到另一种特殊情况。假设我们看到的结果是“这些豆子都是白色的”,而我们同时又知道这样一个法则“这个袋子中取出的所有豆子都是白色的”,那么我们可以推出这样的个案情况,也即“这些豆子都是从袋中取出的”。这种推论方式对内容分析而言具有特殊意义,尤其是在通过内容分析推导内容本身以外的信息时,大多都是采用此种推论方式。
文献对于研究来说,具有生命线一般的重要意义。就内容分析而言,以过往研究为基础,研究者可以从多方面获益:
根据其性质和使用目的的不同,内容分析研究常常运用的文献可分为理论性文献与非理论性文献。
理论性文献对内容分析的研究设计具有至关重要的作用,集中体现在如下四个方面:
非理论性文献又分为技术性文献和非技术性文献。
技术性文献是指:
技术性文献的作用:
非技术性文献,包括私人信函、日记、传记、政府公报和政府搜集的数据统计、机构所出的定期报告、报纸和录音带等。
非技术性文献的作用:
理论是一系列互为关联的构念(概念)、定义和命题,通过将变量间的关系具体化来呈现对现象的系统见解,目的旨在解释和预测现象。
理论可以帮助内容分析研究设计者聚焦于某些概念,以这些概念在理论中被界定的方式衍生出编码规则和赋值,从而发展出编码方案。
从问题的性质来看,问题可以是事实性的,也可以是关乎价值的,又或可为政策服务的。
研究目的和研究问题基本确定之后,研究者在正式开展研究设计前需要考虑的是根据内容分析的基本形式来确定数据资料的选择和使用。
最后两个途径可以被称为“聚合的”形式,它们提供了确定信息产生前因和信息接收效果的有力手段。
在计数时一方面要保证被计数的单位(unit)之间相互独立,更要确保各单位在意义上的确有所区分。
克里本多夫特别指出,单位化的成功依赖于三个方面:
内容分析研究中,至少需要分清楚四种不同的单位:
抽样单位(sampling unit)为了抽取样本而将研究的目标总体划分成的互不重叠且有穷尽的各个元素或元素的集合。在一项分析中,抽样单位具有“选择性包含”(selective inclusion)的性质。从统计学上来讲,抽样单位必须具有相互独立性,因为用推断统计来验证统计假设是建立在这个基础上而得以预测的。
克里本多夫建议内容分析者在界定抽样单位时应该确保两点,也就是:①抽样单位之间的联系(如果这种联系存在的话)不要使分析造成某种偏差;②在单个的抽样单位中需要包含所有相关信息,或者至少保证这种信息的缺失不会使分析变得贫乏。
“分析单位(unit of analysis)是用来考察和总结同类事物特征、解释其中差异的单位”,也就是研究者描述和解释的个体单位。从量化统计意义上来讲,分析单位是“进行假设检验或回答问题等统计分析时所用的单位”。在内容分析中,分析单位往往与抽样单位不一致。
分析单位则可能是字词、标题、体裁、段落、篇章、角色、人物行为、单件作品(例如一本书、一封信件、一篇新闻报道)、概念、语义、时间或空间(比如报纸新闻的版面尺寸、版面大小、广播电视节目镜头或脚注的时长等),或者是以上各项的不同组合等。
记录/计数单位是“一个以既定类别为特征的具体内容部分”,以此为单位就某一内容特征或属性独立描述、分类、记录或者编码,因此有的学者也以编码单位来指称这种单位。
从层级上来讲,记录/计数单位应该是内容的最小组成部分,在此部分中分析者对某个所指事物或属性的出现(也即一种内容要素的单次出现)进行计数。在一项内容分析中,记录单位可能是多个。
克里本多夫指出,记录单位也可以在不同层级的包含性(inclusion)上有所区分并得以描述
情境单位是“在描述一个记录单位的特征时所要考察的最大的内容主体部分”,也就是说,情境单位为确立记录单位的边界和描述记录单位的特征提供了需要考察的背景信息,并在信息之间设立了限制。
与抽样单位、分析单位和记录单位不同的是,情境/观察单位不用于计数,各自之间不需要相互独立,也可以相互重合,并在记录单元的描述中得到探讨。
艾尔·巴比曾经引用过一个经典例子,是通过对电视商业广告来研究电视暴力及其赞助者之间的关系,其研究问题是“男性用品的制造商比其他赞助者更有可能赞助暴力性节目吗?”研究以每则商业广告为分析单位,以每则广告和该广告之间的电视节目为观察单位,也就是同时观察这两个单位,并以电视节目中出现的暴力实例为记录/计数单位,分别记录每则广告是男性产品还是非男性产品及其前后所伴随的电视暴力实例的数目,通过比较男性和非男性产品广告所伴随的暴力实例之间的差异比较,确定男性产品的厂商的确比其他厂商更可能赞助暴力性的电视节目。
文字作品和图片影像等,既具有物理属性,又富含人类思想意义,因此辨识和界定单位的方式大体上可以分为两类:一是自然区分,二是意义区分。以意义为基础的单位化在分析成效方面要比自然单位较有优势些。
自然区分可以分为物理区分和句法区分。
物理区分基于一种物理介质的切分机制而对内容资料进行的单位化,这种切分是将物理介质的自身结构施之于分析目标所指的资料,由此生成的单位与人们在该介质中通常辨认到的间断恰好相一致,也即这种单位化是一种非人为结果。
研究者以各个党派的独立政党候选人为分析单位,并以每一个拍摄镜头为观察单位,根据拍摄镜头的结构特征(如拍摄长度、摄像机角度和运动)以及对拍摄镜头的编辑处理,来确定每个镜头中的每个候选人是否被歪曲呈现或表现得不那么吸引人。
语言文本中容易识别的按照句法定义的单位,其中,字词是“用于书写性文件资料的最小单位,而且就信度而言也是最安全的单位”。这种单位特别是字词对风格分析、心理诊断推论和可读性研究尤其具有重要作用。
分析者在使用句法区分时,需要注意文本层次与编码提取内容的性质之间的关系问题。一般来讲,文本层次越低,越能反映内容的微属性,反之,文本层次越高,在此层次上的句法区分越容易造成不易获取微属性内容,但在文本主题的提炼上却比较富有成效。
意义区分的类别区分、命题区分和主题区分等三种。
类别区分(categorial distinctions)。顾名思义,就是通过属于某一种类或类别的内容也即它们具有的共性特征来界定单位。
本次研究基于罗兰·巴德的叙事代码概念框架,对抽样的文本进行了叙事学文本分析,发现在Quora平台中主动建构中国积极形象的叙述者,从行动代码的角度看,具有早期受到媒体误导,与中国社会或与中国人接触后,发现与生活事实不符,进而主动搜索信息、了解真相的经历。从阐释代码的分析发现,绝大多数叙述采用的是平铺直叙的方式,极少采用后置悬念的阐释代码。从语义代码看,这些平台中的意见领袖和知识精英,运用了诸如对比、比喻、举例等多种手段进行叙事。从知识代码看,文本最大量的依然是西方社会规则或意识形态下的“知识”,虽然叙述者的立场已经亲近中国,但很少采用中国社会规范下的“知识”。从象征代码的分析发现,叙述者能采用象征代码唤起读者主动性的文本极少,使用象征代码的文本,具有突出的传播效果。
命题区分(propositional distinctions)。它是根据特殊的结构来描述分析单位,这些结构包括具有特殊命题的形式,或在概念元素之间表现出某些语义上的关联。
卡尔·罗伯兹(Carl Roberts)在将语言学路径引入内容分析时,建议将从句(clauses)作为单位,有感知、认知、辩护和评价等四种从句类型可供选择。感知从句描述的是一种行为,如“绝大多数商人支持共和党”;认知从句将一种现象归入某一类别或从该类别中排除出去,如“他是一个政客”或“这不是一句科学的陈述”;辩护从句说明一种行为是否合理;而评价从句则强调一种现象在多大程度上适合归入一个具体的类别。
主题区分(thematic distinctions)。它是利用相对综合性的语义单位比如主题(这也许综合了类别、主题、形象和思想等)来切分内容资料的单位化方式,这种区分在极大程度上取决于分析者对文本中表达了一个完整的思想或主旨的理解,在此基础上来寻找和切分语义单位。
麦克里兰德研究团队对于主体成就动机的推断分析,该研究虽然也是以任何一个体现某种中心意义的语义(一句话、一段话甚至几段话)为主题单位的,但研究者所关注指涉的主题意义是有所限定的,仅与主体动机相关,而且这种主题单位是依据较大的情境单位而确定的。研究者首先从文本中寻找表明了作为主体的个人目标陈述以及个人在与其他人竞争中根据他们自己的优秀标准来断言其成功与否的故事,然后以六个与动机相关的方面将故事个人特征化,如有需求或动机,期待目标达成,或在未能实现其目的时沮丧,或在试图达到目的时采取工具性行为,这种行为可能会受到阻碍也可能会受到环境或其他人的帮助,结果引发消极或积极的情感。在一个故事中,凡以上述这六组词中的任何一个为中心意义的语义成分就构成了一个主题单位。最后,研究者再对这些主题单位进行评分加总,由此推断主体的成就动机的高低。
以主题为分析或记录单位的研究,一方面因其在描述方面的丰富性以及它们与读者理解的关联性,而使得这种单位对抱有再现目的的内容分析者颇具吸引力;另一方面,由于对主题单位的识别需要编码员具有极高的辨识度并付出极大的认知力度,而且在辨识过程中往往不得不依赖于贯穿整个文本的文本特征,因此即使是经过小心培训的编码者也会很容易在确定主题分类时产生分歧,从而导致以这种单位为基础的内容分析在编码信度方面较难达到理想状态。
在实际分析中,如果不是以自然个体的人为分析单位的话,分析单位与记录单位往往是一致的,都是指分析者根据内容属性将其编码划类,归入某一内容类别并实际计数的那个单位。
分析单位的确定有诸多考虑因素。首先是取决于研究目的。另外要考虑的是如何操作化界定所要研究的变量,在为研究设立变量时,变量的操作化定义相当关键。
变量必须明确,能让编码员在培训后容易识别。因此分析单位的确定直接关系到最终它如何被编码。
以文字内容为研究对象的分析单位主要有字词、词对、句子、段落、主题/断言(theme/assertion)、条目/篇章(item/article)、空间(space)、新闻框架(news frame)、消息来源(news source)、指称(reference)和人物(character)等。其中,字词、词对、句子、段落、条目/篇章、空间、指称和人物等均为自然区分的单位,而主题/断言和新闻框架则是意义区分的单位。
内容分析的编码中所生成的是所选字词或字词类别的频次列表。长期以来,这种单位最为广泛地运用于三类研究中:第一类研究是由拉斯韦尔开创的政治象征分析。第二类以字词为分析单位的运用是在可读性研究中,也就是判定传播内容资料在阅读和理解方面的难易程度。 第三类是文学风格的分析,如对许多英国诗人、莎士比亚或当代诗人的研究。
字词变异而来的一种分析单位是词对(word-pair),为了揭示词语的这种意义,可以通过考察相互接近或共现的词出现的频率,也即通过一个词经常伴随的另一个词来揭示该词的含义。而且这种共词分析(co-word analysis)可以提供一种语境,在很大程度上可以消解一个词语的含混意义或有歧义的地方。
不少学者在研究群体形象偏见或新闻框架时以词对为分析单位。例如,在一项研究美国电视新闻和公共事务节目中如何框架化女性主义者和女性主义的内容分析中,研究者以词对为分析单位进行共词分析,认为通过计算女性与特定词语相关的频率,可以评估女性主义和女性主义者与某些词语、概念、态度和价值观之间关系的程度,从而更全面地揭示和解释媒体所展现的女性主义者和女性主义的主题和新闻框架。他们通过计算机软件Wordlink筛出距离目标词汇(表示女性、女性主义者和女性主义的词汇如“feminism”、“feminist”、“feminists”、“women”和“woman”等)前后七个单词的词语,将所有词对记录下来,然后与由前人总结出的六个指导性媒体框架(妖魔化框架、个人化和平凡化框架、目标框架、牺牲品框架、能动框架和奋斗场所框架等)进行比较。
自然独立的句子和段落(特别的一种变异是新闻导语)属于句法单位,这种自然切分的单位易于辨识,而且较之于字词来讲,从语义上有相对独立、完整的含义,且能在一定程度构成语境以供分析者更好地判定文本的意义,如主题分析和风格分析等;同时相对于篇章而言,像段落这样的分析单位也不至于过于宽泛,以致无法捕捉到文本的消息源、象征使用、叙述语言或主题等这方面的诸多信息。因此,以句子和段落为分析单位在实际运用中也相当常见。
内容分析中使用最频繁的分析单位是项目(item),也就是内容资料生产者所使用的那个完整的“自然”单位。
较之于句子和段落等,项目这种分析单位在较大规模上对资料归类,也正是因为这个原因,它经常被内容分析者使用。当研究目标和所使用的类目系统属于一般化性质的,不是直接指涉具体内涵(比如当我们只是在一般性内容上比较几家报纸或几家新闻电视台)时,以篇章作为分析单位是合适的。
空间(space)分析单位是指书写文字所占面积大小这样以空间为单位化区分基础的分析单位(如报纸杂志版面尺寸和页面,或者排版上的行和段落等),这种单位使项目篇章内的区分更为精确。
而在以版面尺寸比如英寸为分析单位的情况下,那么也许一个论题是六英寸,另一个则是五英寸。如此将所有报道样本进行编码后,就会计算每种论题的总英寸数,从而更为精确地计算出各种论题在新闻报道中的分量,以此作为论题重要性的衡量指标之一。
作为分析单位的主题(theme)是一个具有特别的中心意义的语义单位,它也许就是文本中的一个完整的句子,也可能是围绕一个中心思想而构成的包含多个语句的语言片段,也即分析者需要从中提炼出一个主题。
在内容分析中,特别是在研究传播对民意的影响时,主题是最为有用的单位,因为其形式通常可以讨论议题和态度问题。
内容分析研究中,有不少研究者关注新闻报道平衡和偏向问题,其中涉及的一个与新闻产制密切相关的重要议题就是新闻常规与消息来源的使用问题。
比如在一项对美国日报男性与女性记者的新闻报道差异进行的内容分析中,消息源是分析单位,编码员针对每个消息源及所援引的内容记录消息源的性别和种族、叙事话题和语调,然后记录下该消息源所出现的那篇报道的记者性别,在此基础上再总和所有新闻报道样本中所有消息源的性别、种族、内容话题和叙事语调的类别总数和百分比,及其在男女记者所写的报道中各自的总体分布,这样就能将消息源的具体运用的情况直接与使用消息源的记者的性别相互关联起来,进而从变量的关系和比较中体现出男女记者的报道差异。
以事件为单位的分析主要聚焦于研究事件的新闻价值及其与新闻报道之间的关系研究。
例如,著名学者帕梅拉·舒梅克(Pamela J. Shoemaker)与其合作者在探讨怎样的国际事件会更多地得到美国主流媒体的新闻报道时,就是以国际事件为分析单位,对每个事件所具有的各种新闻价值如事件的离异性(deviance)、美国卷入事件的程度、涉及国家与美国的经济联系和文化相似性等进行编码分析,并记录该事件在美国主流媒体样本中的报道量和报道显著性,在此基础上将事件的新闻价值与其获得报道的情况关联起来。
类目的建构从本质上说就是一种概念化和操作化的设计。根据研究目的需要,识别关键变量、准确并详细地阐述和定义恰当的类目至关重要。如何设计出能准确反映内容及其方向(direction)的类目系统,且能将内容方向分析中的一个最大障碍即编码者的偏向最小化,是所有内容分析需要极力达成的目标。
变量可以分为自变量、因变量、控制变量、中介变量、调节变量等等。
有时候,有些变量并非某个研究的兴趣点,与特定研究目标无关,但却能够影响因变量和研究进程,我们把这样一类变量统称为额外变量(extraneous variable)。
比如研究两种不同的广告宣传手法对受众购物倾向的影响,在这里“广告宣传手法”是自变量,“购物倾向”是因变量,广告播放时间和参加实验者的特征(如原有的商品知识基础、购物经验、朋友邻居的介绍)等都是一些额外变量,虽然不是研究的兴趣,却会干扰自变量和因变量的对应关系。
每引入一个概念或变量,都需要小心进行界定,大多会涉及两个面向的定义,即概念化定义(conceptual definition)和操作化定义(operational definition)。
概念化定义指的是用来描述变量的术语,是研究者对精确描述他/她所想要研究的对象的概念陈述。
有研究者对性角色(sex roles)这个概念,提出了这样一个概念化定义:“一个既定社会认为对于一种性别的成员来说比另一种性别更为合适的行为或活动的集合。”
理论上来说,对于任何一个变量,都应该首先进行概念化;但在实际上,如果该变量的含义本身比较明了,而当前的研究并未在概念的内涵层面上突破此前的界定,很少引起歧义,则不需要专门进行概念化的界定工作,比如互联网接入、互联网使用、电视新闻接触频率等这样一些概念。
概念定义的另一面向是操作化定义,指的是将概念和命题转换成可以进行经验观察的指标的过程,也即用可感知、可度量的事物对抽象的概念化定义作出界定、说明和衡量的过程,或者用调查指标来反映抽象概念的方法,是“实际、具体的测量技巧的建构”。
具体到内容分析而言,操作化也即意味着一份编码方案(coding scheme)的建构。
思考哪些变量是关键性的,以及这些变量的关键性特征,也就是对全面理解某种特定媒介所承载的信息而言至关重要的那些变量。识别和拣选出这种变量及其关键性特征既不容易,但也极具创造性。
研究引入了摄像机镜头的聚焦或视距(长镜头、中镜头、近距和特写)和镜头长短等一些她们认为对于研究快节奏媒介而言至关重要的变量,而且她们对这些关键变量在镜头开始和结束部分都分别进行了测量。由于这些变量的引入,加之细微的测量,她们发现,之所以人们普遍有女性被描绘为受害者形象这样一种印象,其实是因为音乐视频中在将女性展现为攻击性行为的接受者时,不但镜头持续时间长,而且较之于男性而言更多地使用近距或超近距镜头,以致使观众印象更为深刻,留下持久的记忆。而实际上,这些视频中女性其实更多的是攻击性行为的实施者,而非接受者。
四种技巧或路径来选择变量:①采用普适性变量;②利用理论和前人研究搜集汇总变量;③经由扎根或“浮现”过程来实现变量的识别;以及④发现反映介质特殊性的关键变量。
有些变量是可以运用于所有媒介信息单位并广为研究者使用的,这种变量在很大程度上是没有内容具体性的,也无需针对某种媒介的既定特征,具有普遍性的适用范围,因此我们可以称之为普适性变量(universal variables)。
语义意义(也即个体的人如何区分概念)划分为三个主要维度,即评价、能力和活动。
感官的普遍特征:①范围(extension):一种知觉的显而易见的空间量度(比如在内容分析中可以是一部电影中一个镜头持续的时间,或者一篇新闻报道所占的版面大小,等等);②强度(intensity):一种知觉的显而易见的强度(比如照相镜头有多近);③亮度(brightness):一种知觉的显而易见的刺激度(比如镜头的黑暗对比度或者颜色的明亮度等);④品质(quality):涵盖了属性的方方面面,(如镜头中的场景或背景)。
理论和前人研究亦对内容分析者具有不可低估的启发和指导意义。总的来说,其利用价值主要体现在三个方面:①提供不同类型的信息效果的预测(如提供研究的基本原理,但通常不提供仅通过内容分析就可以测试的假设), ②提供对信息来源的推测,以及③提供在一个内容分析中变量与变量间关系的预测。
例如罗杰斯和法拉斯从关系沟通理论的构念中发展出了对人们在面对面互动中的对称性、短暂性和互补性的测量方法。他们的概念基础还包括了其他学者的一系列相关研究。在应用中,其编码方案使他们得以研究单个发言者的行为、发言者之间的互动以及传播过程中的系统性方面。
研究者可能需要将自己浸入内容信息的世界里,也即深深扎根于信息内容之中,并对研究内容中具有代表性的子集进行质性考察。
研究者想要对肥皂剧的关系发展进行内容分析,那么他/她必须成为或者至少暂时成为一个肥皂剧迷。如果要研究单口相声的非语言风格,研究者必须成为相声的名义上的鉴赏家。也就是说,研究者不但要熟悉了解其研究对象,而且需要通读并读透所要分析的文本。
如何寻找和拣选出适用于特定媒介的关键变量呢?对于特定媒介的信息内容研究而言,可能会同时有形式变量和内容变量与之特别相关。
新媒体方面,一批对网站的质性特征和属性深感兴趣的学者提供了用来评估网站的相当广泛的变量集,所测量的变量大致归为四种类别,如功能性、可用性、效能和网站可靠性等。
不断有学者对网站的交互性特质进行多重维度的解析,并分析了网站的其他属性如持续性和永久性,以及健康网站的可信度。
如何根据其不同的性质来构建指涉关键变量的类目体系并实现变量的操作化呢?研究者只有首先决定他们所要分析的内容的性质以及理论在其研究中的作用,才能充分应对内容分析设计和实施所带来的挑战。
内容分析法在本质上是一种编码运作,编码蕴含着概念化和操作化逻辑。不同性质的内容而言,其归类标准和操作化的方式和难易程度会有很大的不同。
客观性内容,较少体现内容创建者的主观意识投射,因而在分析者对内容进行归类的过程中基本上是能够一眼辨识的,无需调动分析者的主观性理解和判断。与客观性内容不同,主观性内容在进行归类或定性判断时,则往往需要分析者的主观感知和理解。
如影视剧中家庭组成成员(有无小孩、种族、双亲或单亲家庭)、新闻报道或节目展现中所指涉的人物类型(军人、正规警察、公民、政府官员、外交官)和种族(美国黑人、白人、西班牙裔、亚裔及其他)、音乐主唱的性别、广告内容中的产品类型和模特视线姿态等。
如杂志广告中模特的美丽类型,东西方女性杂志广告中的美丽形象大为不同,西方模特比亚洲模特更多地呈现“性感”,或较多地使用“时髦”的形象,而亚洲模特则更多呈现“可爱/邻家女孩”的形象。
主观性内容在类目建构时需要进行明确的概念化和操作化界定。
显性内容:外在于表面的、容易观察得到的内容。学术性研究中,内容分析一般都会超越显性内容,进一步分析我们所说的隐性内容,也即将关注点转移至信息表面成分下的意义。
隐性内容涵盖诸多领域。但大体上可以将其区分为两种类型,一种是关注内容本身的模式,另一种则更关注于编码者对内容意义的诠释,称为投射内容。
分析者对MTV人物的魅力进行了五点制评级,从非常有吸引力到讨厌的/丑陋的。魅力显然是投射内容的一个例子,因为它非常依赖于编码者个人的主体意识图式。
变量的操作化实质上就是这样一个在抽象的概念层次与具体的经验层次建立桥接关系的过程。不同内容类型的变量对操作化的要求以及操作化实现的难易程度不是同等的。主观性内容和隐性内容一般都需要在理论基础上经过小心谨慎的界定,通过各种适切的方式来实现变量的操作化,从而使相关内容得以测量。
概念特别是复杂抽象的概念往往不是单面向的,因此在对一个代表复杂概念的变量进行操作化的时候,往往首先是对其概念所指涉的不同维度进行分解。而这种对概念维度的探索和分解,往往是建立在既有理论或前人研究的基础之上的,并且要结合研究项目所特别针对的具体内容来建构和定义。
在新闻报道分析中,也经常面临着概念维度的分解问题。比如,以建构主义的视角来看,新闻建构可以被操作化为选择(selection)、再现(presentation)和评价(evaluation)等三个维度。
网络“交互性”(interactivity)这样一个含义复杂的概念:第一个维度“用户获得信息所必须付出的努力”分别包含选择的复杂性、添加信息的容易性以及人际交流的便利性。第二个维度在“网站创建者必须付出的努力(以减少用户所需的努力)”这一维度中,保罗则将交互性操作化为四个类目,分别为信息监控的使用、对用户的回应、网站导航的便利性以及信息的及时性。
还可以采取问题解答、层层推进的方式,将概念如剥洋葱一般层层剥离,从而逐步触及概念的核心指向之所在。
有些时候,可以直接将某一变量以计算的形式将其转化为可测量的公式。
在研究新闻报纸的个人暴力犯罪(PVC)报道时:
为了使概念界定的变量下各类目所涵盖的范围更加明晰化,研究者可以在给出定义的同时提供一些具体实例,以使读者更好地理解概念所指。
为满足对内容效度的要求需要进行多重测量。当两种以上的测量方式通过数学方式合并成一个指数。这种变量操作化的方式称之为指数法。
进行新闻框架分析时,设立了多项自定义词库,其中,“税收”词库包括了对以下词汇的测量:公寓、抵押、抵押贷款、超额征税、税收、可征税的、课税、已税的、纳税人、税金和征税等。“税收”一项的总体指数就是所有该项词库内的单个词汇出现频率的总和。
一项内容分析的好与坏、成功与失败,关键就在于它的类目。对于内容分析而言,大量应对的是定类变量,类目建构在很大程度上是为定类变量设立下属类别系统,予以不同赋值。发展出完整、精确的内容类目是为了尽可能降低编码者的偏见误差。
研究者在设计时需要不断地自问这样一个问题:“什么类目可以最有效地产生满足研究问题需要的数据?”可以依照研究问题本身性质、研究所形成的具体假设或者需要回答的问题(也即研究目的)、所要分析的内容和所选择的分析类型来寻找分类提示。其次要确定一整套对内容信息分类的标准。
内容分析由研究问题开始,并且问题的性质应该使人想到研究者的首要问题之一:什么样的类目将最有效地服务于数据的需要从而达到回答和解决研究问题的要求?也就是说,分析者首先要在问题本身的性质中找到一些提示来构建类目。内容建构的第二个提示来源涉及研究假设。
类目组成的界定方法在区分开放式的或有限定的形式的基础上,主要分为三种:①至少在原则上,数字型变量(numerical variable)通常设定为开放式的,没有最大也无最小,比如记录镜头持续的时长。②既可以含蓄地界定变量,只是指明其范围,比如在社会调查和语义学研究中常常用到的语义量表(如“亲社会的—反社会的”,其间含有7点,但并不标注具体对应的语义)。③也可以明确地界定它们,列出所有替代的赋值,如上文提到候选人报道倾向和电视节目类型的类目赋值。
“说了什么”有客观事物和主题意义之分,它们包括方法和行为,经常与价值、特征或能力相关联。
“怎么说”则分成内容方向,也即内容所反映出的态度或情感倾向、强度和密度,以及如何陈述和结构形式(如新闻标题的字体大小、视觉图像的版面位置和色彩等)的问题。
方向类目指的是对一个主题、目标人物等的赞成或反对的处理方式。其相关研究的问题是,某传播主体对某一特定的主题是赞成还是反对,或是持中立态度?
使什么类目包括或不包括什么明确化,这对于分析者来说是一种负责任的表现。定义越准确和完整,编码和分类数据的工作越容易。为了使其分类有用,方向的定义必须足够大至能够覆盖每一种可能出现的情况,但是一般很难做到这样。
与方向紧密相连的是强度问题。严格地来说,强度是指通过显现内容的符号或符号组合形成的对某种观点产生的评价倾向程度,也即涉及赞同或抨击既定人、组织或活动的语言的强度。
詹尼斯和法德勒为测量不平衡发展了一个统计概念,叫做不平衡系数。
找出关键变量,在变量和类别建构的概念定义和操作化定义的基础上设计制作出编码表。如同问卷调查中的问卷一样,编码表是内容分析研究的测量工具。
创建编码方案的目的在于使研究主旨所关涉的变量及其下属类别界定清楚并列举完整,从而最大可能地消除编码员之间的个人差异。
制作完成编码表的同时,研究者还需要给出与编码表相应的编码指南,详尽地说明编码表的建构逻辑、变量和类别的定义以及编码过程中判定将某一编码单位归入某一类别的标准,对于那些可能产生歧义的类别,有时还需要给出编码实例。编码指南和编码表常常统称为编码方案(coding scheme)。
所有内容分析项目都应该至少由两个或多个编码员来完成,学术论文一般也都要求汇报是否有编码员培训。
在挑选编码员时,内容分析者还应注意不要低估编码员对所研究的现象的熟悉程度这个问题的重要性。拥有共同的相似背景(比如涉入文本的类似历史、类似教育和类似的社会敏感性等)会有助于编码信度的达成。
在培训中,需要向编码员详细解释每个变量和每个类目的意义所指、涵盖的现象范围,并予以实例讲解,同时研究者也可能要相应地完善定义和类目,调整指南,并修改编码表。
传播学界广泛认可的一个共识是,内容分析的一个关键组成部分是测试编码员间信度(intercoder reliability)。
纽恩多夫曾指出:
“考虑到内容分析的一个目标是识别和记录信息的相对客观的(或者至少是主体间的)特征,信度至关重要。如果不确立信度,内容分析测量是无用的。”
这种选择要基于变量的特性,包括变量的测量层次、在编码类别中的预期分布,以及编码员的个数。从目前的研究文献来看,通常不推荐使用百分比一致性(percent agreement)这种方法,因为它没有考虑到编码员偶然一致性的情况。
测试指数可以人工计算,而另一些则需要借助计算机完成。国外已开发出一些专门的软件如PRAM来计算测试编码员信度,有些统计软件包也带有这方面的应用程序。
哪种信度测试,信度系数达到或高于0.90,都是可以接受的。在此之下,如果是等于或大于0.80,那么在大多数情况下是可以接受的。低于此标准的话,则存在着很大的不同意见。虽然有学者称70%的一致性即可被认为是可靠的,也有学者曾指出可以将超过0.75~0.80的相关系数视为高信度,内容分析专家克里本多夫虽然没有具体指明信度系数的类型,但他提出,只有在信度高于0.80时才报告变量的结果,当信度系数为0.67~0.80时只能对变量作出“高度不确定且小心谨慎的结论”。一般来讲,百分比一致性系数的接受门槛是85%。
在内容分析中,信度往往进行两次评估,一次是正式研究开始之前的试点评估,一次是研究信度报告所需的最终评估。
在为一项内容分析研究抽取样本的同时,另外抽取一个具有代表性的独立样本,用于编码员培训和信度的试点评估。编码员必须独立完成编码,不要借助咨询或指导。而且,如有可能,研究者本人在此阶段不应作为编码员。
在信度试点评估的基础上对信度水平获得足够信心后,需要使用另一套随机抽取的具有代表性的子样本对研究项目所需要编码的整个样本进行信度的最终评估,以此代表整个研究过程中编码员的表现。研究报告或发表论文中所汇报的信度系数就是由最终评估获得的。该阶段的信度测试所需的样本量大小取决于许多因素,但一般而言应该不少于50个单位,或者是整个样本的10%,而且很少有多于300个单位的时候。
编码员之间如果达到足够的一致程度,那么每位编码员的编码决定有理由被纳入至最后的编码数据
而且信度测试样本所获得的结果仅能说明在评估信度过程中所发现的潜在的编码员之间不一致的数据一致的问题。处理解决的办法根据数据和编码员的特点而定,或者随机选取不同编码员的编码决定,或者以多数人决定为准的原则(如果编码员数量为奇数的话),或者将研究者本人或另一位专家当做最后裁决者,又或者研究者与编码员商讨并解决不一致的问题。不论采取何种方式,研究者都需要说明选取该处理办法的合理性。
即便是编码员间信度测试充分,读者也只能根据所提供的信息来评价一项研究,这些信息必须完整和清晰。至少需要提供如下信息:
其他可用于参考的信息还包括:①达到所获信度水平所需要的编码员培训时间(如多少小时);②信度测试编码中的不一致问题如何在整体样本中得以解决;以及③读者从哪里以及怎样(比如从作者处)可以获取到关于编码工具、程序和指南的细节信息。
所谓信度(reliability),是指测量数据独立于测量工具的程度,也即根据一种测量程序,不同的研究者对同一现象进行重复测试产生一致结果的程度。
编码员间信度(intercoder reliability),它被定义为“独立的编码者评估一则信息或人工制品的特征并达到相同结论的程度”,也就是说,不同的编码员在运用同一份编码表中相同的类别设定去分析相同内容时所达到的一致程度。
编码员间信度是使主观编码数据具备有效性的根本标准,用以测量两个或两个以上编码员对一组信息评估的一致程度。在新闻传播学研究和其他社会科学学科中,编码者间信度常常作为内容分析的一个重要部分,一种总结中介信息实质内容的标准方法。
编码者间信度测试方法多种多样,社会科学领域中最通行的有如下几种:百分比一致性(percent agreement)、斯科特pi、科恩kappa、克里本多夫alpha、以及共变(如斯皮尔曼rho和皮尔森r等)。
自20世纪70年代后,研究者通常会考虑到编码员的偶然一致成分,开始更多地使用一些排除了偶然因素的一致性系数指标。常见的替代方法有斯科特pi、科恩kappa和克里本多夫alpha等,这些方法更为保守,计算起来也更为复杂,因为要对偶然一致进行数学校正,融入至公式中。
其中,克里本多夫alpha适合于同时有两个以上的编码员的研究。其他测试多用于两位编码员的情况。
使用 Python 的第三方包 krippendorff 可以方便地计算:
import numpy as np
import krippendorff
print("Example from https://en.wikipedia.org/wiki/Krippendorff's_Alpha")
print()
reliability_data_str = (
"* * * * * 3 4 1 2 1 1 3 3 * 3", # coder A
"1 * 2 1 3 3 4 3 * * * * * * *", # coder B
"* * 2 1 3 4 4 * 2 1 1 3 3 * 4", # coder C
)
print("\n".join(reliability_data_str))
print()
reliability_data = [
[np.nan if v == "*" else int(v) for v in coder.split()] for coder in reliability_data_str]
print("Krippendorff's alpha for nominal metric: ", krippendorff.alpha(reliability_data=reliability_data,
level_of_measurement="nominal"))
print("Krippendorff's alpha for interval metric: ",
krippendorff.alpha(reliability_data=reliability_data))