习近平总书记在哲学社会科学工作座谈会上的重要讲话中指出,“要加快发展具有重要现实意义的新兴学科和交叉学科,使这些学科研究成为我国哲学社会科学的重要突破点”。回望过去十年,作为引领新一轮科技革命和产业变革的战略性技术,人工智能正在深刻改变人类生产生活方式,引领科研范式变革,为历史研究尤其是资料零散、考证难度大的绝学和史学研究,拓展全新的探索空间。
AI赋能绝学和史学研究的实践图景。当前,国内学术界运用人工智能技术开展绝学和史学研究大致存在三种路径。
一是史料的数智化整理。习近平总书记强调,要重视发展具有重要文化价值和传承意义的“绝学”、冷门学科。甲骨文、金文等古文字关乎文化传承,但多呈离散残损状态,给研究者释读历史信息与形成整体认识造成困难。因此,国内多个科研机构组建了专业研发团队,借助人工智能技术实现缀合校重、分期分域、字形析解等,助力古文字精细化、系统性研究。西夏学等冷门绝学实物遗存分布广、海外文献获取难、传统整理方式低效。宁夏大学西夏学研究院在搜集国内外考古文献的基础上,建成具有检索、下载等功能的西夏文献资料数据库,提升了资料利用率与研究可信度,为考古资料与历史研究深度融合提供关键支撑。中国历代人物传记资料库(CBDB)等专题史料数据库也汇集了OCR识别、自动化提取、实体标引等智能工具,为史料整理提供更高效、便捷的支持。
二是历史信息的可视化分析。分析错综复杂的人际关系与社会网络,乃至事件之间的相互影响及因果关系是历史学者的必修课。利用聚类算法、时间空间分析、统计模型等技术,能够更直观地揭示历史现象深层规律。北京大学王长松通过组建GIS数据集,展现明清士人运河游历的整体时空特征,揭示了历史时期运河等交通线路的运行和管理方式。云南大学潘威借助主题模型算法支持下的文本聚类分析,捕捉到清代甘肃石羊河流路变化与当地湖区、坝区之间存在的紧密联系,快速、准确地提取河流变迁的人文驱动因素。历史信息的可视化分析突破了传统研究中依赖文字描述和静态图表的局限,通过动态交互的方式赋予历史数据新的生命力,有助于更精准地把握历史发展的脉络,推动学术成果的普及与传播。
三是大语言模型(LLM)训练与智能体(Agent)开发。大语言模型与智能体可从海量历史资料中快捷获取数据、释读史料并挖掘关联,但模型在处理古籍文本时,常出现断句错误、语义误解、史实混淆等问题,难以满足专业研究需求,构建具有历史学深度的专业大语言模型成为当务之急。山东大学数字人文实验室以检索增强生成、参数高效微调、测试时拓展等技术训练多模态大语言模型,缓解了AI在垂直领域的模型幻觉与对齐困难。历史学者所需专业智能体,不仅要具备信息检索和文本生成能力,还应模拟其研究思路,进行史料辨析、史实考订和观点推演。张光伟引入大语言模型前沿的思维链技术与推理—行动框架,构建基于Agentic RAG的智能分析系统,通过多个智能体的协同工作,实现了对全量历史档案文本的语义向量化与动态推理。尽管目前古代史大语言模型和智能体的研发仍面临数据质量参差不齐、领域知识嵌入难度大、幻觉现象难以完全消除等挑战,但其在辅助史料研读、拓展研究思路方面的优势已然显现。
技术与史学融合的多重壁垒。人工智能凭借强大的数据处理、多维分析和智能化辅助能力,为中国古代史研究注入新活力。它革新了史料整理与分析模式,提升研究效率与精度,还在拓宽研究广度、深化认知深度上潜力巨大。不过,人工智能技术与绝学和史学的融合仍任重道远。
第一重壁垒是数据困境。受研发团队规模和研究兴趣限制,当前中国古代史史料数据库以专题数据库为主,难以实现跨库检索、对比分析和知识推送等功能,易使研究者陷入数据孤岛困境,需在跨库检索和数据整合上投入更多精力,对人力解放作用有限。同时,不同数据库中史料数据的质量参差不齐,部分数据库存在文本识别错误、标点缺失、内容断代模糊等问题。若这些“脏数据”未经严格清洗与校验就直接输入模型,易出现偏差甚至谬误,误导研究者得出错误结论。
第二重壁垒是语义鸿沟。古代文言在词汇、语法和语言风格上与现代白话迥异,意义也大不相同,部分词汇现代已不再使用,研究者需借助工具书或专业注释把握其内涵。古文献还常涉及当时的社会制度、礼仪习俗、历史事件等特定内容,这些背景信息缺失会成为理解的障碍。当前大语言模型训练数据多为现代汉语和通用知识,对古汉语的语义理解深度不足,对历史背景知识的整合也不够系统,导致在处理古籍文本时,常出现对特定语境下语义的误判,无法完全满足历史学者对文献深度解读的需求。
第三重壁垒是技术与需求脱节。人工智能的本质是数学,实现载体则是计算机,其研发人员需要精通这两种“语言”。然而,作为用户的历史学者普遍缺乏AI技术素养,负责研发的技术人员又大多欠缺古代史专业积淀,这就导致了许多AI工具在设计之初就未能精准对接史学研究的实际痛点,开发出的系统或功能冗余、操作复杂,或功能单一、深度不足,无法解决研究中的关键问题,造成技术资源浪费和研究效率提升受限。
第四重壁垒是思辨能力弱化。学术研究中,思辨直接关系到研究的深度、创新性和严谨性。人工智能部分替代了研究者在信息提取、图像分析、因果关系建立等方面的基础性工作,而这正是史学研究的“基本功”。长期、大量依赖AI从事这些基础工作,会导致学者的思辨能力在一定程度上弱化,无法完全独立从事学术研究,模糊了历史研究中思维主体与技术工具的边界。习近平总书记指出,“哲学社会科学是人们认识世界、改造世界的重要工具,是推动历史发展和社会进步的重要力量”。历史研究中的情感共鸣、价值判断和人文关怀等非理性因素,对于理解历史事件的意义、把握历史人物的精神世界至关重要,是人工智能难以模拟和替代的,若被技术逻辑过度主导,可能导致研究的“去人性化”倾向,削弱史学研究的人文底蕴。
跨学科融合下的古史研究新路径。为打破上述壁垒,可尝试从以下三个方面着力:第一,多模态技术深度应用。多模态技术的分析精度更高,可智能化优化识别结果,实现语义校正与漏识补全,保障古文献文本识别的准确性和规范性。第二,专业AI工具迭代升级。研发适配中国古代史研究领域的专属大模型,重点优化文言文语义精准理解、专史术语智能识别及史料互证分析功能。第三,复合型研究人才体系构建。习近平总书记强调,“绝学”和冷门学科发展的关键是“确保有人做、有传承”。历史学专业本科阶段可探索“人工智能+”双学位培养模式;研究生招生可设“AI与中国古代史研究融合”专项计划,吸纳计算机专业背景生源,为古代史研究智能模型开发输送跨学科人才。
此外,可通过跨学科学术研讨促进交流互鉴。各研究机构可不定期举办跨学科学术研讨会,汇集史学研究者与人工智能技术开发者,搭建沟通桥梁,使双方在充分理解彼此专业背景和核心诉求基础上,共同探讨AI工具在史学研究中的应用场景与优化方向。还应进一步完善学术规范与伦理体系。研究机构与期刊要制定AI辅助史学研究的史料引用、成果校验及署名规范,健全AI伦理审查机制,坚守史学研究的真实性和严谨性,明确AI仅作为辅助工具;研究者要主动记录AI使用情况,确保研究全过程可追溯、可复现。
通过上述举措的系统推进,有望逐步弥合技术与史学之间的裂痕,推动人工智能在绝学和中国古代史研究领域实现从“辅助工具”到“深度伙伴”的角色跃升,为破解绝学和史学研究难题、开创学术新局面提供更坚实的技术支撑与更广阔的探索空间。
(作者系中国社会科学院古代史研究所编辑)