当前,世界范围内一些影响力较大的国际问题指数往往存在比较明显的价值观偏见问题。如全球和平指数(Global Peace Index)将一国的和平水平直接与军费、是否拥有核武器甚至自杀率挂钩。而一旦涉及民主议题,诸如民主指数(Democracy Index)等指标体系所构建的评价规则中则蕴含更加明显的意识形态色彩。因此,建立中国自己的国际问题指标体系并扩大其影响力,已成为一项非常紧迫的工作。作为中国国际关系研究中的重要指标体系,“全球治理指数”(SPIGG)经过近十年的运行已在数据和方法论层面取得进展。而以ChatGPT为代表的生成式人工智能(AIGC),则因其突破性进展进一步拓宽了国际关系研究中的指标体系的建构空间。
“全球治理指数”体现中国思考
SPIGG包括4项概念指标(机制、绩效、决策、责任),以及24项测量指标,并以年度报告和专题报告的形式评估全球189个国家参与全球治理的情况。该指数在构建上充分借鉴了国内外相关指数的经验,并形成了一些自己的特色。
一方面,测量指标突出了中国对全球治理的理解。在这些指标体系中,既包含“加入国际协定数量”等通行指标,又突出了减贫及经济发展对全球经济贡献度等内容。它既回应了各国对于全球治理理念的“最大公约数”,又突出了中国特色,传递了中国声音。
另一方面,该指数以客观指标获得说服力。当前大多数以国家为评估对象的指数多属于客观指标和主观指标(需依赖访谈或专家评分)结合。一些指数甚至完全是主观型的。而SPIGG在指标体系的构成上则全部为客观数据,唯一依赖专家评估的是各项指标的权重关系。客观数据虽然增加了测算的难度,但增加了数据含金量,扩大了指数的影响力。
AIGC在指标体系创新中的应用
实现指标体系的创新必然面临方法论上的困难。以SPIGG为例,其运行一直面临着以下三方面挑战。而生成式人工智能的出现为此提供了新的解决思路。
第一,数据完整度存在边际成本递增问题。当前,该指数使用两类客观数据,一为诸如世界银行各国投票份额等直接数据。二为频数数据,即衡量各国在特定领域中承担或加入指标体系的频数。衡量频数数据的前提是创建事件数据库。以该指数中的“国家承办国际会议”指标为例,研究者需要梳理出国际会议列表并赋予相应权重,并根据各国承办情况赋分。自建国际会议数据库工作面临的主要困难在于,每年新增的代表性国际会议相对容易通过互联网搜索,但如果试图扩大搜索范围,尽量避免遗漏那些影响力相对较低的国际会议,则检索工作的成本迅速增加。生成式人工智能巨大的训练集为解决这一问题提供了可能性。例如,通过不同的组合提问方式,ChatGPT可以给出相当完整的2019年政府间国际会议清单。通过人工复核,证明其能够填补人工搜索中的遗漏,并大大降低检索工作耗费的人力成本。
第二,数据信息密度低。该指数不断尝试通过自主数据挖掘方式丰富数据来源。如该指数尝试基于自然语言处理技术对诸如联合国安理会每日简报等数据进行分析,提取各国表态的频数和力度。这项工作所使用的材料信息密度低,需要比较复杂的数据分析技巧。生成式人工智能擅长自然语言处理。在测试中,ChatGPT从给定材料中识别出各国表态的频率、观点以及态度强弱等信息,且准确率高于指数团队基于编程语言解释器(Python)搭建的自然语言分析工具。类似测试也证明其具有处理报刊文章及智库报告等文字的能力,能够被用于各类文本数据的信息挖掘,大大丰富现有数据来源。
第三,指标代表性和可测量性之间存在矛盾。SPIGG由概念层和测量层构成。理论上来说,理想的测量层指标应该兼具代表性和可测量性,但在现实情况下,二者往往处于矛盾关系中。尤其是一些极具代表性的指标可能因为测量难度过大而只能选择替代性指标。例如,在测量各国对全球治理贡献度时,最佳的测量视角是行为结果而非行为本身,但前者往往难以测量。又如,全球治理的成效通常是各国共同努力的结果,其很难被拆分为具体国家的贡献。因此,该项目只能用诸如“派遣维和部队数量”等测量指标加以替代。生成式人工智能的出现改变了一些代表性指标难以测量的现状。例如,利用前文中提到的生成式人工智能自然语言处理手段,研究者可以针对全球冲突热点地区的新闻媒体和网络自媒体中的相关文本进行分析,从中获取当地居民和官方对各国参与维和及重建等工作的评价,并转换为各国贡献度。
AIGC在指标体系构建中的应用
除了方法创新,在构建相关指标体系的过程中,还可能会面临以下两方面困难。而生成式人工智能技术的合理使用可以在一定程度上将之克服。
一方面,指标代表性和可测量性之间的矛盾会被放大。在国际关系领域发出中国声音,意味着需要在指标体系中传达中国对诸如治理、民主和国际安全等关键概念的独特理解。这种理解会导致指标在概念层出现中西差异,并在测量层被放大,表现为一些具有代表性并能够产生广泛影响的指标缺乏可测量性。事实上,现今在国际上产生比较大影响力甚至对中国造成一定压力的西方指标体系往往是那些依靠专家主观评估的指数。其原因在于这些指数关注了能够产生重大影响力但难以测量的领域,而专家打分实际上是针对指标缺乏可测量性的一个解决方案。
专家评估法往往因客观性不足以及评估结果与公众认知之间存在差异而广受质疑。生成式人工智能强大的自然语言处理能力为解决这一矛盾提供了另一个方案——引入基于文本数据挖掘的指标。例如,世界银行、世界卫生组织及联合国教科文组织等机构会针对相关重要会议发布简报等文本,生成式人工智能可以据此判断各国在其中的影响力。同理,也可对具有重要国际影响力的媒体报道展开类似分析。这一方式弥补了专家评估缺乏客观性问题,结果说服力较高,且数据具有独创性,能够在国内外快速形成影响力。
另一方面,生成式人工智能可以弥补指标体系研发和运行工作缺乏足够人力资源支持的问题。当前,全球范围内具有较大影响力的国际关系与全球治理类指标体系往往由重要政府间国际组织、跨国非政府组织以及智库发布。这些机构拥有强大的专家团队支持。此外,研发具有鲜明中国特色的指标体系需要关注一些西方学界政界关注较少的领域,此时团队可能缺乏现成数据,导致人力成本进一步增加。
生成式人工智能的出现至少可以从三个方面缓和这一矛盾。第一,其庞大的训练集可以用来提示可能的数据来源,并降低资料搜索所耗费的时间。第二,其自然语言处理能力能够极大降低文本处理所需要的人力成本。如目前已有地方开始尝试利用其快速处理自填式问卷中主观题文本。第三,基于生成式人工智能技术开发的数据辅助运算工具、数据可视化工具和排版工具能够大大缩短数据处理、可视化和报告制作等工序所需的人力成本。
总而言之,社会科学指标体系的构建,从本质上来说可以理解为一个由指标信效度、指标可测量性和指标测量成本三者之间构成的“不可能三角”。实践中,极少能找到同时满足三者的指标。生成式人工智能的出现,弥补了一些高信效度指标在可测量性和测量成本上的不足,为学界构建和推广中国国际关系指标体系提供了新思路。
(作者系华东政法大学政府管理学院副教授)