内容摘要:最近几年,国内学术界对实证研究方法的讨论愈加频繁。
关键词:
作者简介:
一、问题的提出
最近几年,国内学术界对实证研究方法的讨论愈加频繁。多数反思是在社会学“本土化”和实证主义的范畴中展开的,并在某种程度上呈现出人文主义和科学主义的分野。然而,在笔者看来,除了方法论、议题和范式等层面的讨论,我们还应该在研究设计层面加以探讨。
以大数据为代表的新数字革命对人类社会生活的冲击仍然在不断“发酵”。互联网的连通性,加快了社会科学研究范式的迭代。伴随数字化时代的到来,实证社会科学将面临哪些基础性挑战、实证研究如何在数字化中通过精巧的研究设计直面这些挑战,正是本文要着力回答的。
二、传统实证社会学的方法困境
国内从方法论角度对实证社会科学在数字时代所面临新挑战的相关讨论并不多。需要强调的是,这里所说的数字化是指对个人、群体或组织等的社会事实进行数字刻画和表达。多数挑战并非数字化所催生的,而是从实证社会科学诞生以来就已存在。
(一)宏观解释与微观解释
社会学向来都非常强调结构对社会和社会互动的解释,不论这种结构是源自外部的还是社会建构的。
早期的实证社会学更为关心宏观层面的结构与社会行为的关联。涂尔干在《社会学方法的准则》中提出“社会事实”,即超越个体和行为,对人们的行为产生外部“约制”的普遍性力量。在笔者看来,涂尔干眼中的社会事实主要是以社会结构为存在形式的。
其后,随着社会学的学术中心从欧陆移至北美,经历了一个从宏观结构逐渐到微观结构的转向。一代又一代的社会学家主要从科学化和实用性两个维度去追求社会学的“美国化”。默顿提出的中层理论,目的之一是追求科学量化,以消解知识积累与社会学论题越来越细碎化之间的张力,但其在方法论层面试图去调和宏观与微观结构之间“脱节”的问题。
20世纪90年代以来,在如何解决宏观和微观解释之间“裂痕”的问题上有了重要推进。科尔曼在《社会理论的基础》中提出了“科尔曼之舟”,力图解释微观行为如何与宏观层次结构关联在一起。而后,赫斯特罗姆又将社会学的“分析”传统拉回,提出“期望—信念—机会”(D-B-O)因果机制分析模型,试图实现“宏观—微观—宏观”的勾连。
(二)数据驱动与理论驱动
理论和数据是实证社会学的两个基本构件。在华莱士所提出的科学环中,基于演绎的理论驱动的实证分析摆在了重要位置。理论驱动研究有两个前提假定:其一是经验事实可能被既定的理论所解释,其二是研究者对理论的内涵和机制有深刻理解。然而,理论驱动的实证研究更擅长于检验现有的理论。
除此之外,以归纳为基础的数据驱动型研究也是社会科学的传统路径。数据驱动强调从经验资料出发,挖掘数据中的显著规律,进而对理论进行检验和拓展。数据驱动不再以既有的理论为单一起点,对于探索新机制的挖掘有着自身独特的优势。在定量数据的处理中,如何对变量进行符合理论预期的分类,除了直接从理论出发,还可以借助于统计模型来识别。
相较于理论驱动的实证研究,数据驱动研究在传统的社会科学中并不是主流。这背后和社会科学的研究目标有直接关联。因为传统的社会科学是以理论解释为主要目标的。在统计模型和模型中变量的解释力之间,我们一般认为变量的解释力才是关键。此外,社会现象错综复杂,纳入模型的变量始终无法穷尽,也强化了传统实证研究的这种理论驱动审美偏好。
(三)相关与因果
社会科学分支学科对社会现象的研究多以寻求因果关系为核心。实证主义强调科学的解释,追求因果解释也就理所当然。然而,识别因果关系在实证研究中绝非易事。譬如,统计分析的基本逻辑是将数据分割为系统模型和残差项,残差项包含了我们未知甚至难以穷尽的变量,内生性问题始终存在。同时,社会学的因果分析更加强调宏观社会结构对微观行为的约束,分析资料大多数属于截面的、非实验性的,这使得因果分析方法的前提假定更容易被违背。
尽管因果分析作为实证研究的“终极追求”已是学界共识,但是大数据时代的到来,作为因果关系成立前提条件的相关关系又重回研究视野。例如,在统计模型中,控制变量和核心(单个)自变量的多重交互项会随着变量数的增加呈现几何式增长,而传统方法并没有给予较好的处理。当然,或许可以说这些复杂关联缺乏理论支撑,但仍然不能否认这种模型设定对单个因果关系可能产生冲击。
(四)同质性与异质性
通过抽样调查获取分析资料是社会科学较为普遍的研究方法,其根本源自同质性与异质性之间的矛盾。社会统计善于发现各种差异并寻求形成差异的解释,但这又是以同质性为前提的。在社会调查中,随机抽样要解决的是如何通过有限的样本“捕捉”到足够的变异,以代表总体的分布。
而在统计推断中,我们分析自变量对因变量的影响,实质上是把自变量作为干预要素,比较它在因变量上的组别差异。这里存在前提假定:(1)个体在受到干预之前,其他特征上的属性是一致的;(2)这种干预对于任一个体的影响效应也是一样的。事实上,这两个假定往往被违背,违背假定1带来了异质性偏误,违背假定2则是内生性偏误。为了克服异质性对统计分析结果的冲击,倾向值匹配(PSM)、内生转换模型等先后被应用于实证分析中。
同时,实证研究在进行分组比较的时候,主要采用均值法,其理论支撑即是大数法则;但它又通过平均数掩盖了异质性,陷入了“均值人”的泥潭之中。“均值人”与社会事实的偏差,还受制于特定社会情境。这也是其他范式对实证主义的批评之一。
(五)信度与效度
量化和测量是实证社会学必不可少的前提条件,测量又是量化的基础。社会学的大多数测量应当属于基础测量,该类测量主要面临着信度和效度之间的张力。
以社会分层和流动领域为例,社会流动对FGH命题等一系列理论进行检验的跨国比较研究曾盛极一时。而要开展有效的跨国比较研究,必须解决如何测量阶层地位的问题。20世纪七八十年代,在欧美形成了以EGP框架、CAMSIS框架和Wright框架为代表的分层框架。以上框架看似较好地克服了阶级定位的困难,但也遭到了诸多批评。从方法论的角度而言,对阶层是唯名还是唯实的争辩,表明了在深层次上既有研究对阶层的测量信度和效度的分歧。
除了横向的跨国比较,信度和效度的张力还表现在跨时期的比较中。仍然以分层框架为例,中国、日本、韩国、中国台湾等东亚学者立足于自身特征,对以上分析框架进行改造,提出诸多新版本。虽然这些结论所立足的分层框架存在差异,但相似职业地位在不同体制下的资源占有会随着时期变化而变化。
三、如何应对实证社会学方法的困境
数字时代不仅为实证研究提供了崭新的、海量的、非结构化的数据,而且催生了计算科学算力和算法的快速更迭,为应对实证研究方法的困境提供了难得的机遇。具体来说:首先,数字技术带来的后果之一是在非常短的时间内为社会科学研究积累了海量的“弱设计”式数据,其中自动化记录的个体行为痕迹数据为克服研究对象的选择性报告、观测变量的遗漏、研究者的知识“盲区”提供了可能。其次,伴随从数字社会向智能社会的转向,原来普遍存在的“数据孤岛”问题开始引起各国政府的重视,大量的行政数据除了作为政府决策的依据,还为宏观社会事实的数字化提供了基础。最后,数字化对数据挖掘和分析技术提出了更高的要求。而新技术大大提高了数据分析的算力,数据的丰富化也助推算法的改进,为实证社会学借力数字化提供了技术保障。
如何通过研究设计去克服实证社会学的基础性困境?笔者结合几个具体的研究实例提出以下应对策略。
(一)测量的客观化与多维化
实证社会学的测量的困境在主观变量上更为突出,利用大数据的数字化优势,可以在一定程度上强化主观变量测量的客观化水平,以回应信度与效度的张力。数字时代为实证研究提供了容量更大、结构更复杂、内容更丰富的数据集。其中,利用痕迹数据实现主观变量测量客观化,痕迹数据并非根据研究设计收集所得,如对脸书(Facebook)数据进行语言分析,这种基于客户端的痕迹数据测量社会情绪的科学性和有效性,这些研究数据突破了个体对自身主观态度主观反映的局限,减少了研究者在相关变量操作化测量上的主观建构。除此之外,还可以通过新的信息采集趋势实现测量的多维化。英国社会学家塞维奇团队实施的GBCS项目,调查数据的体量远远小于严格意义上的大数据,但收集的资料却是立体化的。
传统的实证分析往往采取标准化来提高测量的信度和效度,但对测量的完备性和有效性提出了较高的要求。利用数字技术的数字化有利于实现测量的客观化,尽可能降低各种基于学科偏见的主观构建;利用数字技术的多维化可以打破时间和空间的分离,增强测量的情境化。这种策略为突破传统的标准化路径提供了新的方法。
(二)大小数据的有效匹配
和自然科学研究相比,归纳和演绎在社会科学中很难是统一的。在实证研究中,其主要表现为模型的过度拟合和结论的普遍性不足。在笔者看来,不同类型数据的有效匹配将有助于弥合两者间的割裂。具体而言,利用大数据的数据优势(内容、形式、容量),明显改善小数据中变量维度的局限,借助于计算科学方法(如机器学习)进行分析,类似于扎根理论归纳人类行为模式,通过小数据的检验后,将这种“局部”的发现扩展至更一般的社会群体。这在一定程度上既突破传统演绎的不足,又使得归纳变得更加有力。譬如,布鲁门斯托克等人利用两个数据集的匹配,成功完成了关于财富不平等评估的研究。
毋庸置疑,大数据并不等于全数据,但是其变量的维度和颗粒化程度都远优于传统的小数据;而小数据虽然小,但是往往能够包括一些社会学家极为关心但被大数据遗漏的变量。将大小数据“拼接”,就是要更大程度上发挥优势互补。要实现大小数据的完美匹配,选择的结合点非常关键。
(三)线上线下实验结合
实验法被公认为进行因果识别最为有效的手段,它在社会科学中的应用越来越广泛,而它也因外部效度不足饱受诟病。在数字化的背景下,越来越多的社会科学家开始将传统的线下实验和线上实验相结合,以缓解相关和因果之间的紧张。线下实验可以在实验室进行,也可以是问卷实验、自然实验。
和普通的多实验结合交叉检验不同,数字时代更加强调在线实验的应用。譬如,奈等在多元族群邻里与亲社会行为之间关系的研究,这种结合不仅有助于弥合心理学的内部效度与外部效度间的紧张,也为社会学提供了提高因果识别的可能。
实验法的最大特点是可控性和可重复性。数字化技术大大降低了线上实验的门槛,也为增强社会学因果机制识别、缩小微观向宏观跃升的断裂、扩大社会学理论的外部效度提供更多的可能。然而,囿于网上实验有着自身特定的适用范围,多样化线下实验的引入,并和线上实验相结合,需要有合理的总体设计。
结论与讨论
本研究从方法论的层面总结了实证社会学方法的五对矛盾,其中的一些矛盾和社会学学科特性密不可分,而新技术带来的数字化可以用来应对这些困境。为此,本文还着重以研究设计为切入点,结合已有的相关研究,提出应对路径。
当然,对于国外同行利用最新的研究方法和巧妙的研究设计去克服传统方法难以解决的问题,仍然要保持谨慎的态度。毕竟,他们的问题意识、资料使用都与其特定的社会情境相关。与此同时,数字化对人类社会“反身性”的强化也必须引起社会学的高度重视。实证社会学的“旧瓶”在数字时代可以从其他学科汲取研究方法上的养分,但它在面对个体所理解的情境和能动行为的相互作用上所面临的挑战与日俱增。本文所论及的应对传统实证社会学方法论内在“紧张”能否从实质上解决问题,仍有待进一步观察。
每一种研究方法都有着其自身出现的理由、发展的脉络和历史的使命。作为方法的使用者(大多数人皆如此),理应看到研究者的个性(抑或气质)对研究方法理解、选择和运用的“调节作用”。传统的实证社会学在数字时代如何面对可能的挑战,如何缩小与数据科学家间的“鸿沟”,是个非常值得深思的议题。
不可否认,要利用数字化去解决传统实证社会学的困境,是个系统化的工程。首先要获得数据,实际上,获取各种数据资料的门槛越来越高,数据占有的“马太效应”,可能会使得学术共同体更加封闭。其次,要有较强的学科交叉的意识和能力。对数字化与学科本身的关系要有清醒的认识,坚持用数字化为实证社会学的基础性关键命题寻求突破。最后,因为数字化的生产过程要比传统实证研究更为复杂,传统的学术“个体户”或“师徒档”难以胜任,团队的组织化程度增强在所难免。这种组织化是知识储备、研究能力、分析工具等多维度的“1+1>2”式有机融合。
(作者单位:浙江大学社会学系。《中国社会科学评价》2020年第3期,中国社会科学网 赛音/摘)

