大数据与社会科学预测性研究

——基于冲突预测和选举预测的应用场景分析

2022-11-18 来源:《学习与探索》20216期

  作者简介:王中原(1986- ),复旦大学社会科学高等研究院副教授,复杂决策分析中心研究员,政治学博士(上海 200433)。

  内容提要:大数据为社会科学研究提供了新的数据资源、新的数据采集手段和新的数据分析方法,让数据驱动的社会科学预测性研究成为可能。随着“向后看”的解释性研究逐步拓展到“向前看”的预测性研究,大数据背景下的社会科学研究将更加广泛地服务于国家政策的制定和政府治理的变革。结合冲突预测和选举预测的两个典型场景探讨大数据预测在社会科学领域的具体应用,分析大数据方法与传统研究方法的差异,厘清大数据预测的技术路线、操作规程和科学机理,并考察在冲突和选举领域使用大数据预测方法的优势和挑战,有利于重塑社会科学的研究取向和功能定位,推动社会科学预测性研究的数据化转向。

  关 键 词:大数据/社会学科/预测性研究/冲突预测/选举预测/政策价值

  标题注释:基金项目:上海市哲学社会科学规划一般课题“‘互联网+’政务服务与‘人民满意的服务型政府’建设研究”(2019BZZ006)

 

  一、社会科学预测性研究

  大数据是指新技术时代生成的海量复杂数据,包括结构化数据、半结构化数据和非结构化数据[1]。随着互联网特别是社交媒体的发展,以网络数据为主要形态的非结构化数据成为大数据的主流,其由巨型数据集组成,数据体量超出了人类在可接受时间内的数据收集、处理和分析能力,必须借助前沿的算法技术才能完成。大数据具有数据体量巨大、数据处理速度极高、数据形式和来源多样、数据复杂可疑、数据价值密度低等特性。大数据的出现及其诸多特性不仅改变了社会科学研究的数据采集、存储、管理和分析等方法,而且正在重塑社会科学的研究取向和功能定位,推动着数据驱动的社会科学预测性研究的勃兴。

  传统上,社会科学研究专注于“向后看”的描述分析和因果推断,无论是质化的个案研究和比较研究,还是量化分析和形式模型,都旨在描述或解释已经发生的社会现象,试图通过案例描述、过程跟踪、相关分析、机制解析等展开对已知事件的学理解释。虽然,传统的社会科学研究也涉及“向前看”的预测活动,但其主要依赖于专家知识或者基于回归模型的预测分析(如宏观经济预测),大数据的出现为发展预测性研究提供了新的可能。大数据范式除了擅长“向后看”的描述分析和数据可视化之外,在“向前看”的预测性研究领域优势尤其显著。近年来,大数据预测被广泛应用于商业、金融、舆情、风险管理等领域。随着计算社会科学的兴起,大数据预测性研究在社会科学领域也越来越得到重视,日益成为引领学科范式转换和研究方法创新的重要力量[2]。

  预测是人类的基本认知活动,根据预测研究指导实践是社会科学的重要任务。数据信息是预测性研究的核心资源。根据数据资源的丰富程度和预测手段的应用状况可以将预测性研究的发展划分为三个基本阶段:第一阶段,早期由于数据资源和分析手段匮乏,预测活动主要依赖人们长期积累的经验知识或领域专家的个体判断,该阶段尚未出现科学量化的预测分析工具,对预测对象的深度研究和全面理解是预测成功的关键。第二阶段,随着数据资源的增多和数据分析方法的改进,研究者可以运用回归分析和数据建模等手段来挖掘变量之间的相关关系和致因机制,在学科理论的指导下进行变量选取和模型建构,用于预测相关结果。该阶段的数据资源主要是围绕预测变量而收集的结构化数据(包括社会调查数据),其数据体量有限,预测变量的个数不能超过观测对象的个数,预测成功的关键在于变量筛选和模型建构。第三阶段,大数据的出现以及机器学习、人工智能等计算机分析手段的蓬勃发展,推动了预测性研究的范式转化。研究者们面临海量的非结构化数据,需要从中挖掘出复杂的非线性相关关系,并将数据拆分为训练集、测试集、验证集,由此构建和筛选预测模型。该预测过程以“数据”为中心,无需过度依赖理论框架和变量关系假设。由此可见,大数据方法强调预测结果的准确性,其预测成功的关键取决于数据的质量以及对数据的处理方式。

  大数据为预测性研究提供了全新的数据资源和分析手段。然而,社会科学预测性研究相较于其他领域的预测分析具有更多特性,这对大数据预测提出了更高的要求。首先,社会科学需要综合“预测”与“解释”,主张将数据驱动与理论驱动相结合,在社会科学理论的指导下开展大数据的数据挖掘和预测分析,在提升预测准确性的同时,保留对预测过程和结果的可解释性和可回溯性。这意味着社会科学预测性研究与传统的解释性研究是分不开的,两者相互助益,共同致力于提升对人类复杂政治社会的理解。同时,大数据预测离不开社会科学家的专业知识,数据分析和计算固然重要,但是数据要转化为“信息”后再转化为“知识”,必须有社会科学领域专业人士的参与。其次,社会科学结合大数据预测与政策应用。然而,要让预测结果服务于有效的政策干预必须满足两个条件:一是需要对影响预测结果的因素、过程、机制有充分的认识,如此才能精准地制定应对策略,及时预防或改变预测对象的运行轨迹,达到政策应用的效果;二是预测必须提前一定的时间完成,预留足够的时间窗口给决策者研制对策。因此,如果大数据预测只是提供一个预测结果,但对产生结果的原因和过程知之甚少,以及预测时效性不足,那么其政策应用价值将会大打折扣。最后,社会科学预测性研究往往关涉人类活动本身,其使用的数据包括个人的特征、行为、态度等,都会涉及公共数据采集和使用的伦理规范问题,例如个人隐私信息的脱敏和保护等。此外,如果涉及政治类问题的预测,相关数据还涉及国家安全和数据主权等问题。这些都对基于大数据的社会科学预测性研究提出了更多的挑战。

  二、大数据与冲突预测研究

  学界对冲突预测的研究兴趣由来已久,甚至可以追溯到“二战”后初期[3]。早期的预测研究较多依赖于专家判断,预测效果并不理想[4]。近年来,随着数据收集、统计建模、计算机算法等技术路径的发展,冲突预测研究再次勃兴。特别是9·11恐怖袭击之后,以美国和北约成员国为代表的西方国家以及联合国等国际组织,纷纷加大对冲突预测的科研投入和相关数据库建设,提升预测性研究在政府决策中的地位和作用[5]。例如,美国主导成立的“政治不稳定工作组”项目(The Political Instability Task Force),就是基于冲突理论和专家知识,采用回归模型、神经网络模型、历史事件模型等对政治冲突和国家溃败等问题进行科学预测研究,服务于美国外交决策。此外,欧盟开发的“武装冲突风险评估全球定量模型”(Quantitative Global Model for Armed Conflict Risk Assessment)、国际危机小组(International Crisis Group)每周发布的全球“风险监测”(Crisis Watch)、瑞士和平基金会资助的冲突预警项目(Swisspeace FAST)以及联合国开发计划署推动的冲突早期预警机制(Early Warning System)等都通过不同的研究方法开展冲突数据的收集和冲突事件的预测。

  从预测方法来看,当前研究主要通过构建不同形式的模型来预测冲突事件的爆发几率或时间,其中主要包括结构性因素模型、理性选择博弈模型等。首先,结构性因素预测模型通过纳入回归分析中对冲突爆发有显著影响的致因变量来预测冲突,例如自然资源、经济要素、族群关系等。例如,Rost,Schneider和Kleibl三位学者通过多维政治经济变量预测了五年内冲突爆发的全球风险[6]921-933。Goldstone团队的预测分析发现政治制度因素对两年期内的不稳定事件具有最强的预测力[6]190-208。Hegre等学者运用人口、婴儿死亡率、教育等因素预测了2010-2050年期间可能会爆发的国际和地区冲突[7]。结构性因素模型具有较强的预测力和解释力,但在预测变量选取的科学性和样本外(out-of-example)等问题上存在较大的局限。其次,博弈论模型主要结合理性选择理论和专家评估来预测单个冲突事件的发生几率,最著名的当属斯坦福大学Bueno de Mesquita教授开发的预期效用模型(Expected Utility Approach,EUA)及其衍生方法[8],其依托具体冲突事件的详尽信息和区域国别专家的深度知识,建构基于主体决策的理性选择博弈模型来展开预测,该方法曾经成功预测了伊朗核危机的爆发以及本·拉登的藏身区域。然而,博弈论模型专注于预测单个冲突事件,其泛化预测能力较弱。

  冲突预测如果要发挥风险预警和政策指导作用,必须标定出冲突可能爆发的确切时间和具体位置。虽然结构性因素模型和博弈论模型在预测冲突爆发的几率以及回溯性预测等方面表现优异,但两者都难以准确预测冲突爆发的时空分布。大数据和机器学习等预测方法的兴起有望克服当前预测方法在时间和空间预测上的缺陷,这为冲突预测提供了新发展契机,其贡献集中表现在两个方面:数据采集和预测分析。

  在数据采集方面,大数据面对多个信息源和海量的数据信息,能够提供实时有效的数据采集和编码手段。研究者们通过计算机技术收集来自各类社交媒体、视频网站、新闻报道、博客空间、贸易和市场等的海量信息数据,寻找这些“非结构化数据”内部的结构性特征(patterns),构建基于数据的预测模型用于冲突预警。以“全球事件、语言和语调数据库”(Global Database of Events,Language,and Tone,简称GDELT)为例,该数据库是目前世界上最大的政治事件开放数据库,其依托Google云平台汇集了100多个语种的世界各国广播电台、印刷媒体、门户网站、社交媒体、网络新闻媒体等大数据信息。该数据项目运用“冲突和调解事件观测”(Conflict and Mediation Event Observations,简称CAMEO)设定的计算机自动编码架构来实时收集和整理全球范围内的政治事件数据。截至目前,该数据库共汇集了自1979年以来的3亿多条与冲突相关的事件数据。为冲突预测研究提供了丰富的基础数据资源。此外,与GDELT数据相匹敌的是“冲突早期预警综合系统”(Integrated Conflict Early Warning System,简称ICEWS)[5],该数据库运用计算机自动识别和抓取技术从网络新闻报道中收集与冲突相关的活动和言论数据,通过BBN ACCENT自然语言处理技术(NLP)从网络文本中提取结构化信息,并进行事件编码,其提取和记录的数据字段包括冲突事件的内容、量级、时间、地点、发起者、目标对象等信息,该数据已经被广泛用于预测国家层面、次国家层面以及国内层面的政治冲突。

  基于网络大数据,冲突预测研究迎来了新一轮的范式转换。社交网络平台和在线新闻媒体生成了海量的冲突事件大数据,这些数据通过计算机的识别、抓取和编码可以从非结构化的自然语言数据转化为结构化的社会科学分析数据,从而为冲突预测研究提供新型数据源。这些数据在早期的结构性因素预测模型和博弈论预测模型阶段是很难想象的,依托网络大数据,冲突预测不再局限于少量的结构性预测因子或单个国家的博弈模型,而是通过大数据挖掘发现冲突要素的关联特征、运行轨迹和发展态势,从而预判和监测冲突爆发的可能性及其具体的时间和区位。例如,Chadefaux凭借Google News Archive系统收集了1902-2001年间英文世界各大媒体的冲突事件相关报道文本,获得约6000万页的冲突事件大数据,并构建起“每周冲突风险指数”。通过运用该媒体大数据对1900年以来的战争冲突进行回溯性预测,作者发现冲突事件的媒体报道数量可以提前数月预测战争冲突的爆发,其预测准确率高达85%。由此可见,媒体大数据相较于结构性因子模型在冲突预测上具有明显优势,随着冲突的临近,相关媒体报道也随之激增,媒体大数据可以对冲突进行实时监测,提前预判战争冲突的爆发,从而为决策者预留充足的应对时间[9]。

  在预测分析方面,冲突大数据的指数级积累让机器学习等冲突预测方法成为可能,基于计算机算法的冲突预测路径近年来成为学术研究的前沿[10]。机器学习方法运用“有监督”(supervised)和“无监督”(unsupervised)的算法挖掘数据自身的内部特征和关联结构,训练和测试模型用于预测冲突。该方法可以克服回归预测模型的诸多不足,特别是当预测变量的数目超过观测对象的数目时,可以超脱回归模型对理论预设和数据结构的过度依赖,构建数据驱动的冲突预测模型。

  “有监督”的机器学习预测方法通常借助政治学研究中某些变量关系假设,采用神经网络(neural network)、基于树的衍生方法(tree-based approaches)等算法技术建构、训练和测试预测模型。例如,Beck,King和Zeng最早运用“有监督”的神经网络方法来构建、筛选、评估冲突预测模型,该方法克服了传统Logit模型的预测局限性,在提升预测准确性的同时结合冲突研究领域的专业知识,维系了预测结果的可解释性[11]。“无监督”的机器学习预测方法则不依赖于任何理论假设和已知变量,而是通过各种降维算法(如principal components analysis)和聚类算法(如K-means)让计算机自己去挖掘和寻找数据内部的预测因子,并探索预测因子与预测结果之间的复杂关系,训练和筛选模型用于预测冲突事件。例如,穆勒(Muller)和劳尔(Rauh)运用“无监督”的机器学习方法(Latent Dirichlet Allocation,简称LDA)对70万份有关冲突的媒体报道进行“主题”提取,并将聚类算法生成的15个主题作为解释变量用于预测内战、武装冲突和难民迁移等研究,该方法被证明可以较为准确地预测冲突爆发的时间[12]。总之,无论是“有监督”还是“无监督”的机器学习算法都是冲突预测范式在大数据驱动下的突破和延展,开启了大数据时代冲突预测研究的新路径。

  运用大数据和机器学习算法进行冲突预测具有诸多优势,主要体现在五个方面:其一,实现了数据驱动的预测性研究,让冲突预测不再仅仅依赖以民族国家为单位的截面数据,而是充分利用社交网络、新闻媒体等微观和中观层面的非结构化数据。数据的生成、采集和分析方式发生了重大转变,数据体量激增,并依靠计算机技术和算法给预测活动赋能。其二,克服了以往量化预测方法过度依赖线性回归模型的局限,可以捕捉预测变量与冲突结果之间的非线性关联,这种关联结构是从数据本身出发、通过机器学习归纳得出,而非已有理论假设的简单演绎[13]。其三,在时间上,传统冲突预测的时间窗口通常以年度计算,而大数据预测可以精确到每月、每周甚至每日,相较于结构性预测模型的稳态预测,大数据预测可以实时捕捉冲突的动态变化。其四,在空间上,传统冲突预测聚焦在民族国家层面,大数据预测结合机器学习和空间模型可以将冲突预警细化到特定区域,“预测像素”更高。其五,传统冲突预测模型强调因果性,即选取对冲突结果具有因果解释力的预测变量,但大数据预测更加侧重相关性,其预测变量是经由数据挖掘得到的,主要凭借相关性提升预测准确性,跳脱了理论预设的束缚。甚至有极端观点认为,大数据冲突预测范式的出现可以超越国际关系研究中的“理论崇拜”[14]。

  然而,大数据冲突预测也面临诸多质疑和挑战,典型的观点有五个:其一,完全依靠计算机自动识别、抓取和编码网络数据尚存在较多困难,例如对复杂语句和语境的理解、对虚假信息的甄别、对冲突烈度的编码等。同时,网络数据存在不同程度的代表性偏差,这些都会影响预测数据的质量[15]。其二,预测模型过于复杂,容易产生预测黑箱。过度强调相关性和预测精度会牺牲一部分可解释性,如果只能预测冲突,而不能明晰引发冲突的具体因素和致因过程,那就很难提出有针对性的政策建议进行前置干预,其政策应用价值便会大打折扣。其三,机器学习预测方法通常将预测数据划分成训练集和测试集,在模型训练和筛选过程中数据编码已经确定,但在现实中,冲突事件瞬息万变,其时间、位置、主体、互动模式等数据信息并非一成不变,这对精准预测构成了挑战。其四,网络数据存在信息供给偏差,很多冲突事件的可观测性较低,如果某些地区的冲突事件未能得到及时的网络关注和新闻报道(特别是在欠发达国家),其很难被预测模型捕捉到。其五,当前的大数据冲突预测研究多半是基于历史数据的回溯性预测,未能得到实践检验,并且学界尚缺乏统一的评判标准来衡量不同冲突预测模型的优劣。虽然大数据范式有效地提升了冲突预测的精准度,但目前尚不能满足决策者对预测精度的需求。

  大数据为冲突预测研究提供了新的想象力和预测工具,虽然仍存在诸多痛点和难点,但已经引领冲突预测研究的发展方向。大数据方法将继续在时间维度和空间维度上拓展冲突数据的体量和可及性,同时随着计算机算法的精进迭代将展现出更强的预测能力。未来,大数据冲突预测除了在数据采集编码、模型训练建构等方面不断完善之外,还有望实现对冲突数据的情感分析,挖掘利益相关群体对冲突事件的情绪反应和情感态度,由此更加精准地把握冲突发展的脉搏。此外,学者们还倡议搭建全球性的冲突预测和干预系统,成立相关的国际协作组织[16],像自然科学中的天气预测和疾病预测一样,加强国际研究合作和行动协调,让大数据更好地为捍卫世界和平服务。

  三、大数据与选举预测研究

  选举预测是大数据应用于社会科学预测性研究的另一个重要领域。传统的选举预测方法多以民意调查、结构性因子模型或者两者结合的集合范式为主[17],受制于数据体量和预测变量个数的局限,传统预测方法近年来遭遇了发展瓶颈,特别是以民调为基础的选举预测屡屡受挫,面临信任危机。随着大数据范式的兴起,依托于海量网络大数据(特别是社交媒体大数据)的选举预测新方法应运而生,拓展了选举预测的方法版图。

  当前,互联网已然成为人们日常生活和交往不可或缺的平台和载体。一方面,人们的网络活动生成了形式多样、实时更新的海量在线数据,这些大数据往往包含了人们的行为倾向和社会偏好等丰富信息,对于预测其选举行为具有重要价值;另一方面,自2008年奥巴马网络选举造势以来,越来越多的西方政党和候选人开始通过互联网平台(特别是社交媒体)来宣传政见和动员选票,这些网络竞选攻势不仅让更多的选举互动呈现在网络虚拟空间里,同时留存下了海量的选举动态数据。这些发展趋势推动了选举预测方法的范式转换,使得通过收集、挖掘和分析社交媒体大数据来预测选举结果成为可能。当前,大数据预测已经成为选举预测研究的前沿领域。

  基于社交网络大数据进行经济、社会、政治预测是近年来社会科学研究的新发展趋势,其应用领域包括预测舆情走向、股市波动、犯罪分布、疾病传播等[18],并在诸多领域呈现出较强的预测能力。它的基本原理是通过收集和挖掘社交媒体上网民关于特定选举的语言和行为数据,借助计算机算法分析数据内部的关联结构并构建预测模型,进而预测政党或候选人的支持率。伴随着算法技术的不断进步,基于网络大数据的选举预测方法也不断迭代优化,经历了以下两个发展阶段。

  第一阶段,大数据预测主要通过收集和分析社交媒体平台上针对某个政党或候选人的提及数、点赞数、关注数、评论量、转发量,以及报道、热搜、网页浏览频率等网络行为数据,来测量该政党或候选人在民众当中的受欢迎程度和关注强度,进而推测其当选几率。该方法的数据来源通常包括推特、脸书、谷歌搜索、维基百科以及视频网站、在线新闻平台等。例如,早在2007年的法国总统大选首轮投票中,Veronis收集分析了2200篇在线推送的媒体新闻报道中提及不同候选人的次数,发现新闻报道频率可以较为准确地预测选举结果,其准确性甚至高于选前民调[19],该方法相当于专家(记者)的群体预测评估,即不同媒体的记者根据自己的专业知识和选举预判赋予不同候选人报道频率,因此可以视作一项预测指标。该方法以其新颖性很快被运用到日本、美国和欧洲其他国家的选举预测当中。紧接着,研究者的注意力从传统媒体的报道频率转移到社交媒体上网民的关注程度,尝试通过集合网络舆情和民意分布来推测广大选民群体对候选人或政党的支持率,进而预测选举结果。该方法预设了网民的社交媒体行为(评论、点赞、转发、关注等)是其政治态度和支持倾向的一种显性表达。如果说选举民调受制于样本量较少、回应率偏低、数据样式单一等问题,那么通过网络大数据采集、识别、统计选民偏好则可以在很大程度上克服这些问题,提升预测效率和准确性。例如,在2009年德国大选中,Tumasjan等学者运用推特上的提及频次数据准确地预测了各主要政党的得票率[20]。与此类似,Di Grazia等人的回溯性研究发现,利用推特上网民对相关候选人的提及频次可以有效地预测2010年和2012年的美国参议院选举[21]。为了更加系统准确地测算网络关注度,研究者们纷纷开发出不同的改进和替代方案,例如,依靠点赞、关注、转发、搜索量等“背书数据”(endorsement data)来评估特定候选人或政党的支持度。类似方法已经被广泛应用于意大利、英国、荷兰、美国、印度、巴西、日本等国家的选举预测当中,说明此类方法适用于不同的选举制度。

  运用新的数据资源和计算方法测量支持率,是大数据预测对传统抽样民调方法的超越,但其预测表现尚不稳定,同时面临诸多学术批评。其一,网民行为数据并不一定是候选人支持率的准确测量指标,需要进一步识别支持方向和强度。例如,简单地统计提及频次并不能有效地区分这些提及到底是基于正向的支持还是负面的攻击。其二,与民调方法类似,网络关注度和支持度不能直接等同于选票。网络热度虽然在一定程度上反映了候选人或政党的影响力和重要性,但并不能直接转化实际的得票率。其三,网络数据的信噪比较低,存在大量水军、机器自动推送和虚假信息等,如果不细致地剥离这些噪音信息,将产生较大的测量偏差,导致预测失准。总之,基于大数据的网络民意统计虽然具有方法上的新意,但预测准确性还有待提升。

  第二阶段,预测者们运用前沿的机器学习方法和自然语言处理技术对网络大数据进行语义挖掘和情感分析,以求更加精准地把握舆情脉动,提升预测效力。该阶段不再是简单的“点人头”、计算网络关注度和提及量,而是进一步探索网络意见表达的情感取向及其强度[22]。其中一类算法是根据已有的“情感字典”来区分一段数据对特定候选人的支持态度是正向、负向还是中立的(一些研究还在不同情感类型的基础上根据特定语词来测量情感强度),通过情感识别和统计来测算该候选人的支持率和支持强度。Burnap等学者基于推特上爬取的海量选举数据,对网民情绪进行识别和分类(+5代表极其正面,-5代表极其负面),较为准确地预测了2015年英国议会大选结果[23]。另外一类算法是,运用机器学习方法将网络大数据随机划分为训练集和测试集,通过机器自动学习和识别来区分文本的语义和情感取向(而非依托已有的情感字典),从而得到相关文本对特定政党和候选人的支持或反对倾向,再通过一定的加权和集总方法来预测选举结果。Ceron等人通过机器学习方法改进了传统的情绪分析手段,非常准确地预测了2011年意大利大选和2012年法国总统大选和议会大选[24]。Anjie Fang等学者运用机器学习模型增强对候选人支持情绪的精细分类和高效识别,并通过推特数据的回溯分析发现该方法可以较好地预测2016年美国大选中特朗普与希拉里的支持率分布[25]。

  目前,上述预测方法已被应用于澳大利亚、荷兰、爱尔兰、希腊、新加坡、马来西亚、英国、美国等众多国家的选举预测当中。纳入此类预测的数据源通常包括推特、脸书、You Tube等,尤其是推特数据,以其实时、海量、短平快和可及性强等特征被广泛应用于预测各国选举。同时,一些研究者还通过整合不同网络信息源、聚合不同形式的网络数据进一步优化民意测量和舆情跟踪,提升预测精度。相关研究发现,社交网络大数据方法的预测准确率堪比甚至超过传统的民意调查[26]。在选举民调面临诸多挑战和质疑的今天,大数据选举预测有望成为替代性的选举预测新范式。

  综上可见,基于社交网络大数据的选举预测方法拥有诸多优势:其一,相比民调等方法成本更低,信息源更为丰富,数据形式更加多样,数据量巨大且基本免费;其二,相比其他方法更加实时迅捷,能够伴随选情动态及时更新预测结果,甚至能够做到像天气预报一样实时播报;其三,随着计算机处理技术和算法科学的不断精进,可用的预测工具和手段不断增多,其预测准确性也将得到极大提升。因此,近年来运用网络大数据预测选举成为计算机科学、数据科学和政治学等学科争相投入的前沿领域。

  然而,大数据选举预测仍然面临诸多挑战,主要表现在五个方面:其一,社交媒体用户无法充分代表全体选民。有研究表明网民往往是较为年轻、受过更好教育的社会群体,在社交网络上表现活跃的群体更只是网民中的一小部分,甚至倾向于某一特定党派。Sloan的研究发现推特上的英国网民并不能准确地反映某一地区选民的真实人口学结构以及社会经济分布状况[27]。另外,网络空间存在大量迫于社会期望和群体压力而较少发声的所谓“害羞选民”,同时参与选举互动的网民并不一定拥有该国的投票权或者尚未达到法定投票年龄,这些代表性偏差都会影响到偏好测量的准确性,这也是该方法预测2016年美国大选遭受挫败的重要原因。其二,目前相当多的所谓选举预测实际上是在选后通过网络大数据回溯分析得出的,并非在选前公布预测结果。也就说,预测者是在得知选举结果之后再运用社交媒体大数据复盘预测,因此较难判断相关预测的研究设计和技术过程是否或在多大程度上受到已知结果的影响。这也可能是为什么目前大数据预测的技术路线千差万别,算法和模型各不相同,然而都宣称自己预测准确的原因。其三,网民从网络情感表达到实际投票行为之间尚有距离,表达出某种情绪的网民并不一定按照该倾向来投票甚至可能不会参加投票。此外,网络情绪的波动性较高,但多数选民的投票行为往往较为稳定。相关研究表明,美国有约90%的选民会根据其稳定的党派倾向投票[28],可见,过度关注波动性会掩盖其他关键因素(如人口学指标)的影响。大数据精准预测的前提是我们对一国选举政治和选民行为拥有系统深入的研究,而非简单粗暴的“数据游戏”。目前,大数据选举预测很多由计算机领域的学者完成,急需更多专业领域的政治学者参与。其四,网络语言属于自然语言,包括大量政治暗语、幽默表达、双关反语、缩略词汇等,同时涉及多语种的信息采集和分析,完全依托计算机进行语义提取和情感识别风险较大,数据理解和处理不当将会影响预测质量[29]。其五,大数据预测在应用领域存在一定的伦理风险,网络公共数据的采集和使用或将涉及国家安全和个人隐私,如何符合法律要求和伦理规范将是大数据预测必须面对的议题。

  受限于上述各种挑战,基于网络大数据的选举预测方法目前尚处在发展和迭代当中,研究者们也开发出不同的解决方案化解相关问题。例如,通过加权算法来弱化网络数据的代表性偏差,或者将大数据预测方法与其他预测方法相结合来提升预测效力。随着计算机技术的突飞猛进、社交网络数据的指数级累积、大数据与因果推论的有机集合以及跨学科研究模式的兴起,大数据选举预测范式将拥有广阔的发展前景[30]。

  四、讨论与结论

  大数据方法的兴起和发展推动着社会科学从解释性研究向预测性研究拓展。传统的社会科学研究强调通过描述分析和因果推断来解释业已发生的政治社会现象,而大数据则为社会科学研究提供了新的数据资源、新的数据采集手段和新的数据分析方法,让数据驱动的社会科学预测性研究成为可能。当然,预测性研究并非旨在替代解释性研究,而是相互支撑、相得益彰[31]。在社会科学领域,大数据驱动的预测性研究除了追求预测精度之外,还必须兼顾可解释性和政策运用价值。这就要求大数据预测应当结合社会科学理论和专家知识的引导,在预测数据的采集和清洗、预测模型的建构和筛选、预测结果的分析和解释等环节发挥解释性研究的理论优势和指导功能,提升大数据预测的学理水平。同时,解释性研究的理论假设和因果机制可以在预测性研究中得到检验,进一步增强解释性研究的科学品质。因此,在推动大数据预测方法不断精进和发展的同时,探索预测性研究和解释性研究的结合路径和互动模式将是社会科学领域新的学术增长点。

  大数据为社会科学预测性研究提供了新的发展契机。本文以冲突预测和选举预测为例,揭示了大数据预测方法的优势和潜能。大数据预测凭借海量的数据资源、实时高效的数据采集方法,以及前沿的机器学习算法克服了以往预测性研究的诸多困境。例如,将行为体(选民或冲突各方)的网络行为和态度数据纳入预测模型,通过随机设定训练集、测试集和验证集来克服回归预测模型的过拟合问题(over-fitting),让样本外预测(out-of-example)成为可能,使预测活动更加实时迅捷,可以实现动态检测,为决策者提供即时的预测结果。这些优势都为大数据预测在社会科学领域的发展和应用提供了广阔前景。

  然而,社会科学大数据预测研究也存在一些共同缺陷,且在不同应用场景中也面临不同的困境。就冲突预测和选举预测而言,大数据方法在数据采集、模型建构和结果解释等环节尚存在诸多不足。例如,在通过社交媒体采集关于选举和冲突的预测数据时,数据的信噪比偏低、代表性不足、自然语言处理较困难等问题都会影响数据质量和预测效果;机器学习等预测手段倾向于过度追求模型的复杂性和预测的准确率,忽略预测过程和结果的可解释性,其学理价值和政策应用价值有待提升。此外,就具体应用场景而言,相对于冲突,选举的发生频率较低,一国选举通常每3~5年才举办一次,使得数据积累有限,相关大数据预测面临一定困难;相对于选举,冲突的主体互动模式更为复杂,投票行为是一种规则遵从行为,而冲突行为是一种规则破坏行为,因此大数据冲突预测更具挑战性。由此可见,大数据预测的局限性一方面是由方法本身决定的,另一方面也受到具体预测对象和应用场景的影响。基于这些局限,我们在使用大数据方法开展社会科学预测性研究时需要保持高度审慎。

  科学预测是为了指导政策实践和丰富学术理论,理想型的社会科学预测性研究需要满足以下条件:一是预测必须追求准确性,准确是预测的最关键指标;二是预测必须兼顾解释性、超前性、透明性;三是预测必须应用于实践,而非停留在对历史数据的回溯性预测;四是预测需要将数据驱动、方法驱动和理论驱动相结合,有效运用学科理论和专家知识,而非单纯的数据挖掘;五是需要建立一套评判预测的客观标准,鼓励不同预测方法之间相互竞争;六是决策者对预测活动和结果更感兴趣,可以将预测结果转化为知识和资政建议,更广泛地服务于国家政策的制定和政府治理的变革。总之,大数据方法为趋近理想型的社会科学预测性研究提供了一条新路径,这个过程将离不开科学研究方法的突破、跨学科研究力量的投入以及政策制定者的支持。

  原文参考文献:

  [1]Deepak Gupta et al.,Intelligent Data Analysis from Data Gathering to Data Comprehension,Hoboken,NJ:Wiley,2020,pp.18-21.

  [2]David Lazer et al.,"Computational Social Science",Science,2009,pp.721-723;张小劲、孟天广:《论计算社会科学的缘起、发展与创新范式》,《理论探索》2017年第6期;罗家德等:《论社会学理论导引的大数据研究——大数据、理论与预测模型的三角对话》,《社会学研究》2018年第5期;陈云松、吴晓刚等:《社会预测:基于机器学习的研究新范式》,《社会学研究》2018年第3期.

  [3]Nazli Choucri,Thomas W.Robinson,Forecasting in International Relations:Theory,Methods,Problems,Prospects,San Francisco:W.H.Freeman,1978.

  [4]Philip E.Tetlock,Expert Political Judgment:How Good Is It? How Can We Know? Princeton,NJ:Princeton University Press,2005.

  [5]Sean P.O'Brien,"Crisis Early Warning and Decision Support:Contemporary Approaches and Thoughts on Future Research",International Studies Review,Vol.12,No.1,2010,pp.87-104.

  [6]Rost,Nicolas,Gerald Schneider,Johannes Kleibl,"A Global Risk Assessment Model for Civil Wars",Social Science Research,Vol.38,No.4,2009.

  [7]Havard Hegre,et al.,"Predicting Armed Conflict,2010-2050",International Studies Quarterly,Vol.57,No.2,2013,pp.250-270.

  [8]Bruce Bueno de Mesquita,"An Expected Utility Theory of International Conflict",American Political Science Review,Vol.74,No.4,1980,pp.917-931; Bruce Bueno de Mesquita,"A New Model for Predicting Policy Choices:Preliminary Tests",Conflict Management and Peace Science,Vol.28,No.1,2011,pp.64-84.

  [9]Thomas Chadefaux,"Early Warning Signals for War in the News",Journal of Pence Research,Vol.51,No.1,2014,pp.5-18.

  [10]董青岭:《大数据安全态势感知与冲突预测》,《中国社会科学》2018年第6期.

  [11]Beck N,King G,Zeng L.,"Improving Quantitative Studies of International Conflict:A Conjecture",American Political Science Review,Vol.94,No.1,2000,pp.21-35.

  [12]Hannes Mueller,Christopher Rauh,"Reading Between the Lines:Prediction of Political Violence Using Newspaper Text",American Political Science Review,Vol.112,No.2,2018,pp.358-375.

  [13]Michael Colaresi,Zuhaib Mahmood,"Do the Robot:Lessons from Machine Learning to Improve Conflict Forecasting",Journal of Pence Research,Vol.54,No.2,2017,pp.193-214.

  [14]Michael D.Ward,"Do We Have Too Much Theory in International Relations or Do We Need Less? Waltz Was Wrong,Tetlock Was Right",in Oxford Research Encyclopedia of Politics,2017,pp.1-23.

  [15]Lars-Erik Cederman,Nils B.Weidmann,"Predicting Armed Conflict:Time to Adjust Our Expectations?" Science,2017,pp.474-476.

  [16]Guo Weisi,Kristian Gleditsch,Alan Wilson,"Retool AI to Forecast and Limit Wars",Nature,2018,pp.331-333.

  [17]王中原、唐世平:《政治科学预测方法研究:以选举预测为例》,《政治学研究》2020年第2期.

  [18]Broniatowski D A.,Paul M J.,Dredze M.,"Twitter:Big Data Opportunities",Science,2014,p.148; Sitaram Asur,Bernardo A.Huberman,"Predicting the Future With Social Media",http://arxiv.org/abs/1003.5699.

  [19]Véronis J.,"Citations Dans la Presse et Résultats du Premier Tour de la Présidentielle 2007",https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1441/1852.

  [20]Andranik Tumasjan,et al.,"Predicting Elections with Twitter:What 140 Characters Reflect the Political Landscape",Social Science Computer Review,Vol.29,No.4,2010,pp.402-418.

  [21]Joseph Di Grazia,Karissa McKelvey,Johan Bollen,Fabio Rojas,"More Tweets,More Votes:Social Media as a Quantitative Indicator of Political Behavior",PLOS ONE,Vol.8,No.11,2013.

  [22]Tumasjan A.,Sprenger T.O.,Sandner P.G.,WelpeI M.,"Predicting Elections with Twitter:What 140 Characters Reveal about Political Sentiment",ICWSM,Vol.10,No.1,2010,pp.178-185.

  [23]Pete Burnap,et al.,"140 Characters to Victory:Using Twitter to Predict the UK 2015 General Election",Electoral Studies,Vol.41,2016,pp.230-233.

  [24]Andrea Ceron,et al.,"Every Tweet Counts? How Sentiment Analysis of Social Media Can Improve Our Knowledge of Citizens' Political Preferences with an Application to Italy and France",New Media & Society,Vol.16,No.2,2014,pp.340-358.

  [25]Anjie Fang,et al.,"Votes on Twitter:Assessing Candidate Preferences and Topics of Discussion During the 2016 U.S.Presidential Election",SAGE Open,2019,pp.1-17.

  [26]Mark Huberty,"Can We Vote with Our Tweet? On the Perennial Difficulty of Election Forecasting with Social Media",International Journal of Forecasting,Vol.31,No.3,2015,pp.992-1007.

  [27]Luke Sloan,"Who Tweets in the United Kingdom? Profiling the Twitter Population Using the British Social Attitudes Survey 2015",Social Media+Society,Vol.3,No.1,2017,pp.1-11.

  [28]Michael S.,Lewis-Beck,William G.,Jacoby,Helmut Norpoth,Herbert F.Weisberg,The American Voter Revisited,Ann Arbor:University of Michigan Press,2008.

  [29]Justin Grimmer,Brandon Stewart,"Text as Data:The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts",Political Analysis,Vol.21,No.3,2013,pp.267-297.

  [30]Clark William Roberts,Matt Golder,"Big Data,Causal Inference,and Formal Theory:Contradictory Trends in Political Science?" PS:Political Science & Politics,Vol.48,No.1,2015,pp.65-70;孟天广:《政治科学视角下的大数据方法与因果推论》,《政治学研究》2018年第3期。

转载请注明来源:中国社会科学网(责编:李秀伟)

扫码在手机上查看