AI时代,人人都是“校书官”?

2026-06-23 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  古籍整理向来被视为一门“慢功夫”:辨版本、校文字、断句读、定体例,往往需要学者经年累月伏案用力。如今,这项高度专业化的工作在人工智能的助力下发生新变化。全国高等院校古籍整理研究工作委员会(以下简称“古委会”)通过“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”,把人工智能、专业学术训练和大众志愿参与结合起来,让更多高校学生和社会公众在人工智能平台上参与古籍数字化整理。该计划启动两年来,已吸引全国千余所高校的数万名学子与社会公众参与,累计完成3万余部古籍、约19亿字的粗校整理。这组数字背后,是一场古籍整理范式的深层变革。科技能否真正赋能人文?大众参与会不会削弱学术性?在数智时代,古籍整理的主体究竟是人还是机器?带着这些问题,本报记者近日深入采访了多位参与该计划的学者与志愿者。

  AI为古籍整理按下“提效键”

  传统古籍整理长期深陷“人力牢笼”。以新中国成立以来规模最大的儒学典籍系统整理工程《儒藏》为例,仅《儒藏》精华编就动员了400余位专家,历时18年完成510种书稿的整理出版,年均整理约28种。长期参与《儒藏》编纂的北京大学数字人文研究中心副主任杨浩对此深有体会。他告诉记者,专家学者将大量时间耗费在文字录入、标点校对、文字校勘等基础工作上,而对真正需要深厚学养解决的疑难问题,反而难以投入足够精力。

  北京大学《儒藏》编纂与研究中心研究员李畅然向记者回忆AI引入前的困境:“不仅编纂进展较慢,而且难以及时掌握合作方的工作进度,各环节之间缺乏实时沟通,导致一些问题甚至体例偏好反复出现。”

  改变始于2022年。北京大学数字人文研究中心联合字节跳动打造“识典古籍”平台,借助计算机视觉和人工智能技术,将古籍图像转化为可编辑、可校对、可检索的数字文本,并在此基础上开展自动标点、自动校勘、命名实体识别等工作。

  这种变化在《儒藏》项目中尤为直观。“最明显的变化是录排和标点初步实现自动化。”李畅然说,其自动标点准确率“超出预期”,整体达到《儒藏》精华编校点者中的中上游水平。效率提升更具革命性。在平台支持下,北京大学《儒藏》编纂与研究中心12位编委用不到一年时间便完成了50种书稿的整理编纂。鲜明对比之下,AI技术对古籍整理生产力的释放效果一目了然。

  武汉大学古籍整理研究所教授于亭对此同样感触颇深。他曾参与《故训汇纂》编纂,经历过“16个人、18年、40万张手工卡片”的艰辛。1998年,他在共同主持编纂《古音汇纂》时,力主引入计算机技术。“计算机能够不知疲倦地高速运算,数字技术擅长处理大数据,可以应对海量材料。”于亭表示,在人工智能平台辅助下,古籍整理正由传统单线性模式转向多线程、并发式处理,团队协作效率显著提高。

  山东大学承担的“全球汉籍合璧工程”也与“识典古籍”平台开展合作。山东大学古典文献研究所所长王承略介绍,该工程致力于推动境外中华古籍再生性回归,AI的OCR识别、自动标点、版本比勘、知识关联等功能,显著提升了电子文本生成速度和整理效率。目前,“全球汉籍合璧工程”已向“识典古籍”平台提供俄罗斯、英国、法国所藏汉籍珍本80余部。这些文献经OCR智能扫描后,进入人工校准和自动标点环节。据悉,北京大学、武汉大学、山东大学等高校已有5700多个团队借助“识典古籍”平台开展整理工作。

  “AI让古籍整理的呈现方式既可以‘小众’,也可以‘大众’。”古委会副秘书长吴国武告诉记者,AI的价值不仅体现在整理端,也体现在阅读端。

  据字节跳动公益相关负责人介绍,“识典古籍”在阅读端提供AI译文、AI朗读、AI播客讲解、AI深度研究助手等功能。截至2026年5月,平台已免费公开近6万部古籍,月均读者超过240万人,总访问量突破2.8亿次。

  当古籍从线装书、影印本走向屏幕,从少数专家的书斋走向普通用户的手机,技术改变的不仅是整理效率,也改变了古籍与公众相遇的方式。杨浩表示,自动标点降低了阅读门槛,实体识别功能让读者点击人名、地名即可获得相关解释,AI白话翻译和讲解则帮助初学者更容易进入古籍世界。换言之,AI不仅帮助学者“做得更快”,也让普通人“读得进去”。

  大众成为古籍整理事业参与者

  AI在《儒藏》等项目中的应用,改变了古籍整理的生产方式。随着技术持续降低整理门槛,古籍整理的参与主体也发生了变化。依托技术已较为成熟的“识典古籍”平台,古委会于2024年启动“我用AI校古籍”计划,将大众带进古籍整理现场。“我用AI校古籍”基本方式是组织高校学生和社会志愿者依托“识典古籍”智能整理平台,像“校书官”一样在线校对古籍。

  吴国武表示,推动这项活动主要基于三方面考虑:一是国家高度重视新时代古籍工作,明确提出推进古籍数字化;二是人工智能时代的信息技术发展,要求古籍工作者主动拥抱新技术;三是高校古籍整理数字化建设已具备长期积累和实践基础。

  项目从试行到常态化推进,参与规模迅速扩大。第一期暑期试行阶段就有700余所高校、2500余人参与,完成约26万页、4490万字古籍校对工作。

  “随着项目逐渐成熟,越来越多对古籍感兴趣的普通人被吸引进来。”吴国武介绍,参与者既有中文、历史、古典文献等相关专业学生,也有理工科学生;既有企业职员,也有退休老人。到2025年总结阶段,活动已吸引全国1450余所高校的3.7万名大学生和志愿者参与,累计完成15亿字粗校,覆盖古籍约2万部。

  “我用AI校古籍”并非简单地将专业工作外包给公众,而是围绕古籍整理不同环节,重新设计人机协作与人际分工。杨浩向记者介绍,“我用AI校古籍”计划构建了“AI预处理—大众初校—进阶组精校—专家终审”的多层协作体系作为质量保障机制。“参与者被分为大众组和进阶组。大众组负责OCR文字识别粗校,实现零门槛参与;进阶组则由具备文史哲背景的学生承担标点校对和文字精校。这种分层机制,让严谨性和大众参与并不矛盾。”截至2025年11月,进阶组已完成480部古籍精校,总字数近1亿字,包括《四部丛刊》全部整理工作和《永乐大典》精校工作。

  “我用AI校古籍”计划通过任务拆分、图文对照、AI预处理、在线校对等产品设计,使没有专业背景的参与者也能从最基础的OCR粗校做起;同时配套课程培训、等级激励和专家指导机制,引导参与者逐步从“会操作”走向“懂规范”。

  杨浩介绍,他在项目中主要承担课程建设和专家指导工作,与北京大学古典文献专业主任杨海峥等共同开发古籍大众整理通识课程,并主讲古籍智能整理实训课,系统讲解从OCR识别到文字精校的全流程操作。王承略表示,山东大学汉籍整理团队将在平台建设、整理标准制定、志愿者培训等方面发挥作用,通过OCR处理、自动标点、人工校准、专家把关等环节,保障整理质量。

  在“以校带学”的过程中,一些动人的故事不断涌现。有人在春节期间每天花数小时校对古籍,把整理任务变成沉浸式的假期生活;有人在平台上发现与家中长辈手抄本相同版本的《聊斋志异》,由此开启一场跨代际阅读对话;还有人因为校对地方志,重新认识了自己生活过的土地。

  “古籍整理不只是学术生产链条中的一个环节,也成为公众理解历史、连接个人经验、参与文化传承的重要入口。”吴国武说。

  2026年,“我用AI校古籍——我是‘校书官’ 古籍大众智能整理计划”进一步扩大规模。清华大学、山东大学等68所高校的76个学院深度参与承办。王承略认为,古籍如果不经过整理,只能服务于少数专业研究者;而通过数字化和大众化传播,则能够服务更多研究者、使用者和爱好者。

  人依然是古籍整理的主体

  在这场技术赋能文化传承的浪潮中,一个无法回避的问题逐渐浮出水面:AI的边界究竟在哪里?当古籍整理从少数专家的案头工作发展为数万人参与的公共事业,专业古籍整理与研究人才培养的意义是否会被削弱?

  采访中,有老一辈学者对平台宣称的“正确率”持谨慎态度,认为评价标准应由学术共同体界定;也有资深专家担忧,过度依赖AI可能影响对年轻学者的培养。

  对此,吴国武认为,人工智能时代既要主动拥抱新技术,也要正确使用新技术。古籍整理具有特殊性,当前大模型尚无法完整、精准理解古代汉语。未来既需要通用大语言模型与古籍垂直模型相结合,也需要古籍整理工作者不断提升数字人文素养,培养跨学科、复合型人才。

  山东大学古典文献研究所教授王小婷表示,AI应用于古籍整理是必然趋势,但绝非万能。技术局限在实践中依然明显。她举例说,目前系统仍无法自动标注书名号和引号,而对于考据性较强的古籍而言,书名号和引号甚至可能占到全部标点量的一半左右。这一功能缺失,一定程度弱化了“自动标点”的优势。李畅然在利用“识典古籍”平台整理《儒藏》时也发现,其录排和校对效果距离正式出版标准仍存在差距。

  杨浩则对AI能力边界进行了更为清晰的划分。他认为,古籍整理至少包括基础文本整理、结构性重组和研究性整理三个层次。目前AI主要能够赋能第一层,对后两层虽有辅助作用,但远谈不上替代。大量异体字、俗体字和手写文献的识读,仍然依赖文字学、版本学、书法学等长期训练。自动标点基于统计模型,只能让文本“可读”,并不意味着真正“读懂”古文,在具体语境中仍可能出现低级错误。

  于亭也强调,AI仍缺乏对古代文献形成过程、语境脉络、语言文字形音义内涵以及义例逻辑、思想结构复杂关系的深入理解。它更多是基于既有数据进行集成与综合,形成浅层次、拼接式的知识表述。这样的成果或许能够满足部分人的新奇感,却远不能称为真正的学术创造。人文学术本质上仍是心智思考和创造的过程,优秀成果最终必须依靠人的智慧产生。AI能够提高效率,提供数据支持和初步分析,却无法替代人对文本意涵、版本价值和学术问题的整体判断。

  多位受访者提醒,AI带来的效率提升并不意味着可以省略学术判断。古籍整理的关键不在于“快”,而在于“准”;不是让机器替代人,而是让人从重复性劳动中解放出来,承担更高层次的学术判断。

  吴国武特别强调,活动名称最终确定为“我用AI校古籍”,正是为了突出“我”的主体地位。“再强大的技术也只是工具,或者说工具性的合作者,校书的主体始终是人。”

  王承略认为,古籍整理数字化与大众化的深度融合,必须以学术严谨性为前提。关键在于充分发挥学者的积极性与主动性。平台推出的整理成果,最终仍应由专业对口、经验丰富的古籍整理学者完成把关,形成“全民参与、学者把关”的良性格局。

  如何在效率与质量、普及与学术、技术与人文之间取得平衡,正是“我用AI校古籍”留给数智时代古籍事业的一道新课题。

  中国社会科学报记者 张清俐 班晓悦

【编辑:赛音】