数字转向:当历史学遇到人工智能

2025-09-17 作者:陈密容 来源:中国社会科学网-中国社会科学报

  在数字化浪潮席卷全球的背景下,历史学研究正迎来前所未有的转型。从人工智能驱动的古籍文本挖掘到多模态历史数据的融合与分析,从破译古老铭文、寻找散佚文献到分析古代社会网络、模拟历史事件进程,数字技术不仅深刻改变着学者的历史学研究范式,也在重新定义人们认识历史的方式。本报记者就人工智能时代的历史学研究等话题采访了相关学者。

  “细读”与“远读”同样重要 

  文本细读法要求研究者对历史文本进行详细、系统的阅读和分析,在具体语境中捕捉微言大义。与“细读”相对应的概念是“远读”。随着数字技术的发展,“远读”已逐渐成为数字人文领域的标志性方法。“远读”追求的是广度和规律性,主张将海量的文本集合或语料库视为一个整体,利用计算工具进行量化、可视化和模式识别,旨在获得对历史更全面、更深刻的认识。

  美国匹兹堡大学历史学系教授马瑞诗(Ruth Mostern)在接受本报记者采访时表示,大规模数据分析能够揭示传统方法难以察觉的时间或空间模式,对于一些学者而言,其价值在于帮助他们精准定位那些值得深入细读的案例。例如,研究人员通过大数据分析可以发现特定现象发生突变、达到峰值或出现异常值的时空节点,他们的任务便是为数据模式补充叙事背景与细节阐释。

  美国得克萨斯大学奥斯汀分校历史学教授史蒂文·明茨(Steven Mintz)对记者表达了类似的观点。历史学研究需要更具全球视野,更注重比较分析,更关注移民、贸易或气候等议题。人工智能通过多语言文献的高效检索与翻译,能够加速这些进程的研究,同时让曾经难以获取的档案资源得以开放利用。它还能揭示传统研究方法难以察觉的模式,如通信网络的变化或文化情感的变迁。“但这并不意味着精读细解与深度阐释不再重要。相反,人工智能重新校准了研究的天平,宏观分析——‘远读’用以发现重大转变,微观分析——‘细读’则用以诠释这些转变。”明茨补充说。

  马瑞诗也提醒,历史学研究者不能抛弃传统的深度解读,必须始终将大数据发现与事件和史料的微观纹理相融合。在马瑞诗看来,大语言模型在数据挖掘和远读之外还存在诸多成功的应用场景,例如,可将非结构化文本转化为结构化数据、把手写文字转录为机器可读格式、辅助编纂参考文献目录以及协助翻译与文本校对。以交通领域作类比,她表示,虽然完全自动驾驶汽车尚未引发彻底的交通革命,但人类驾驶员的判断正在常态化地借助传感器、摄像头、预警系统等工具,使驾驶更安全便捷。历史学研究领域或许也将出现此类变革。

  构建更具包容性的数据集 

  马瑞诗认为,由于大语言模型本质上是复杂的统计引擎,因此,它们必然放大训练数据集中最普遍的特征,那些非主流信息则面临彻底湮灭的风险。美国华盛顿大学语言学家埃米莉·本德尔(Emily Bender)等学者在其论文《论随机鹦鹉的危险:语言模型会太大吗?》中阐明了这一观点:由于大语言模型仅模仿人类语言形式而无实质理解,它们不过是在像鹦鹉学舌那样重复甚至强化数据中存在的偏见与有害意识形态。这种缺陷虽不可避免,但仍有多种解决途径。

  一方面,必须确保使用大语言模型或其他大数据技术的研究者理解系统运作原理。另一方面,研究人员可以通过针对性查询数据集来定位偏见。例如,他们可以要求模型列出训练数据中所有女性人物及其在相关事件中扮演的角色,并计算女性在数据集中所有人群的占比。在马瑞诗看来,历史学研究的未来方向或许不在于构建超大规模文本库,而在于创建精心策划的中小型专题数据集。这些数据集应具备完善的元数据与人工标注,聚焦特定主题,并在人类专家指导下进行数据挖掘、图谱构建与结构化处理。

  明茨表示,构建更具包容性的数据集是应对历史档案偏见的方法之一,即纳入口述史、地方档案以及反映边缘群体声音的“小数据”。另一种方法是训练人工智能模型主动标记史料中某些群体的缺失,而非放任不管。“从这个意义上说,只要我们不误将人工智能的输出当作真理,它反而能帮助我们更清晰地识别偏见。”

  当人工智能、大数据、社会网络分析等技术汹涌而来,历史学研究若想回答更宏大、更复杂的问题,单靠一位学者皓首穷经于故纸堆已远远不够。在应对气候变化、流行病、移民问题等关乎人类命运的共同议题方面,跨学科合作至关重要。“若没有计算机科学家、数据分析师和语言学家的协作,人工智能在历史学研究中的有效运用将无从谈起。但当前的学术激励机制并未赋予这种团队协作应有的价值。若要使历史学保持生命力,这种现状必须改变。”明茨呼吁。

  马瑞诗也表示,历史学的大数据项目多为团队协作工程。除开发模型、训练语料库与查询数据外,团队还需筹措资金、建立信任、管理项目、协调多样化的个人与机构诉求,并理解团队成员所属学科的关键术语、专业特长与技术方法,这些工作都会带来重重挑战。

  “人工智能终究 

  是工具而非替代者” 

  作为新兴技术,人工智能与大数据在历史学研究中的应用正处于探索阶段。马瑞诗提出,许多历史学者更倾向于开展档案研究或收集口述历史,重视细读文本,擅长构建叙事脉络,着重呈现特定事件中个人与一些小群体发挥的主观能动性。此外,历史学家借以形成见解、构建论据的大部分档案资料尚未完成数字化转型,所以人工智能与大数据的应用方法目前仍仅被少数历史学者掌握。这不仅源于对技术的不熟悉,更根本的是这些方法还未能回应多数历史学者关注的学术命题。

  马瑞诗认为,大语言模型与数据分析工具尤其擅长发现有规律的模式,但也仅限于此。它们既非“人工”亦非“智能”,只能识别相关性、异常值与数据模式,并通过生成自由文本、结构化数据、图像及代码来呈现这些发现。相较于人类,它们能以惊人速度与效率完成这些任务。事实上,唯有人类能够提供深度洞察、分析阐释与语境解读,唯有人类能对模式诠释作出政治、伦理、哲学或审美层面的价值判断。

  在明茨看来,人工智能具备任何个体历史学者都无法比拟的一些能力。它能梳理海量数字化档案资源,在数百万份文献中识别规律,将趋势可视化并勾勒出人类研究者穷尽一生才能发现的关联网络。它可以挖掘文本中的语言变迁,追踪概念如何跨越语言疆界传播,甚至能自动化完成元数据标注、文献综述等耗时的基础工作。同样,人工智能也可以充当研究伙伴的角色:检验既有结论,提出替代性的假说,拓展历史学者可能提出的问题边界。

  “但人工智能终究是工具而非替代者,提出问题、权衡证据、构建语境、识别偏见以及作出解释性判断等历史学的核心技艺始终不可替代。善用人工智能可以延伸这些能力,在保留人文思考的前提下,为我们打开认识历史的新视角。”展望未来,马瑞诗表示,历史学研究中大数据与人工智能最令人振奋的前景,在于其可能提升人文研究的深度、增强人类认知的愉悦感、深化伦理联结,并促进对深层意义与紧迫社会问题的理解。若这些技术能通过发现尘封于文献角落的历史声音来丰富我们的洞察,那就能产生重大成就。新工具既能让历史学者快速验证假设,又能作为研究助手完成数据清洗转换、文献翻译和摘要等任务。

  “但必须始终铭记,大语言模型与大型语料库的本质是人类文献的汇编与训练成果,其查询指令由人类发出,反馈内容基于预测算法生成。它们不识真理,只懂统计,其价值上限完全取决于构成它们的文献质量与设计者的人类智慧。”马瑞诗如此总结。

  中国社会科学报记者 陈密容

转载请注明来源:中国社会科学网(责编:程可心)

扫码在手机上查看