人工智能时代,把文化资源优势转化为文化发展优势,就要探索文化和科技融合的有效机制,实现文化建设数字化赋能、信息化转型。南京农业大学信息管理学院教授王东波带领该校古籍大语言模型研究团队持续十数年不懈努力,成功建设了中国古代典籍跨语言语料库,并研发出“荀子”古籍大语言模型,使以往需要耗费大量人力和时间的古籍处理与研究工作更加智能,为中国古代典籍资源的当代利用插上了智能化“翅膀”。
精标注语料库规模超250万字
研究和传播历史文献,推动古代典籍的当代运用,是丰富民族文化内涵、传承历史智慧的重要举措。然而,随着时代的变迁,现代语言和知识相较于古籍成书年代已经产生了巨大变化。对于当代读者而言,行文精练而文辞古奥的文言文和含义深远的古代典籍语言,是难以跨越的门槛。深化古代典籍研究,进一步推动社会大众更好地了解和阅读古籍,拓展古籍知识的传播途径和范围,需要对古籍中的字、词、句等语义单元进行语义标注和现代汉语诠释。
然而,由于古代典籍的获取以及标注难度较大,既有的古代汉语语料库多以人工标注方式完成,规模较小、标注深度有限,无法与现代汉语实现一一对照,缺乏高质量的跨语言语料库曾一度成为定量研究与分析古汉语文献的重要障碍。
人工智能技术的强大加持为上述问题的解决提供了全新机遇。为解决古籍跨语言语料库缺失问题,长期躬耕于古籍智能处理与语料库构建领域的王东波率领团队构建了中国古代典籍跨语言语料库。这一语料库收纳古代汉语语料总字数为1102657,对应现代汉语翻译语料总字数为1415311,总体语料库规模超过了250万字,是目前规模最大的精加工古代汉语语料库。该成果为计算语言学和古籍自然语言处理研究提供了高质量的数据支持,为未来相关领域的语言模型构建提供了优秀的“种质资源”。
以十数年之工日积月累
古籍整理与研究工作是一项需要持久推进的艰苦工作。人工智能技术的加持为古籍研究提供了极大便利,但其背后是团队十数年来持之以恒的艰辛努力和日积月累。自2013年起,王东波团队就开始为《四库全书》等古籍添加人工标注,逐渐积累了规模超过20亿字的语料数据。正是前期这些扎实的工作和海量数据,为智能化信息化语料库建设和古籍大语言模型研发提供了坚实的基础。
据介绍,中国古代典籍跨语言语料库的构建过程,经过了严格的数据清洗、标注和对齐过程,研究团队利用正则表达式、语言模型等技术,从《二十四史全译》语料中提炼出高质量的对齐句子对。在数据标注规范上,团队在参照南京师范大学提出的先秦词性标记集和北京大学计算语言学研究所提出的人民日报语料词性标记集的基础上,通过与南京大学、南京师范大学、南京理工大学和中国国家图书馆的通力合作,制定了横跨古代汉语与现代汉语的跨语言词性标记集,以确保古代汉语与现代汉语的标注规范一致。在开展多轮人工标注与审核后,运用语言模型与人工校验相结合的方式严控数据质量,产出了对古现平行句对进行同步词性标注的3万余条语料,系统地涵盖了《二十四史》中的古代汉语与现代汉语翻译文本。
相关研究成果不仅为学术界提供了宝贵的资源,也为普通读者打开了一扇了解古代典籍等重要文化资源的窗口。除了语料库,研究团队此前还成功研发了以“荀子”命名的古籍大语言模型,这一专门用于古籍处理与研究的智能工具,包含《四库全书》在内的古籍文献超20亿字,具备自然语言理解、自动翻译、诗歌生成、自动标引等多项智能化功能。
“荀子”古籍大语言模型是人工智能技术与传统古籍研究结合而形成的创新性成果,它为古籍文献的阅读和研究提供了便利,通过科技与文化的融合为中华优秀传统文化资源的“两创”实现了数字化赋能,是深化古籍研究,并在此基础上推动古典文献资源大众化传播的成功探索。王东波表示:“跨语言语料库建设和古籍大语言模型研发,有助于进一步推动古籍智能化研究与跨学科人才培养的结合,同时让社会公众跨越语言门槛,运用前沿的人工智能技术了解古典文献、学习传统文化知识。”
据悉,为推动古籍的国际化传播,该团队还将对英语、法语、德语、西班牙语、俄语等译本的中国古代典籍进行研究、训练和深度学习,以智能化跨语言模型让世界更便利地加深对中华优秀传统文化的了解,促进中外文化交流。
中国社会科学报记者 王广禄