西夏文是西夏王朝创制的官方文字,承载了党项民族近两百年的制度文明与文化成果。现存西夏文文献涉及法律、宗教、历史、医学等诸多领域,是探究党项民族历史文化、构建中国自主知识体系、揭示中华文明多元一体格局的重要载体。然而,西夏王朝覆灭后,西夏文逐渐失传,至明代已基本无人能识。长期以来,西夏文研究面临诸多困境。比如,西夏文文献分散各地,质量参差不齐;西夏文字形复杂,笔画繁多,存在大量手写变体与草书,辨识难度大;研究人才少,培养周期长,研究队伍规模有限。人工智能技术的发展为西夏文研究带来了新的契机,有望在数字化转写、自动四行对译、数据驱动研究、数字典籍修复等方面变革西夏文研究范式。
光学字符识别(Optical Character Recognition, OCR)技术助力西夏文文献的数字化转写。OCR技术旨在将图像中的文字自动转换为可编辑的电子文本。近年来,随着深度学习技术的发展,特别是视觉变换器和多模态大模型的应用,OCR技术的性能不断增强。尽管当前汉语的OCR工具识别准确率持续提升,但尚未覆盖西夏文的识别。一个重要原因在于,西夏文字数量多达6000余个,大量字形出现频次较低,训练OCR模型的真实标注语料严重匮乏。近年来,面向低资源语言的OCR技术不断发展。一方面,借助字体生成、风格迁移、场景合成等数据增强方法,可以自动生成大量多样化的合成语料,缓解真实语料不足的问题;另一方面,利用迁移学习和少样本学习等技术,能显著降低模型对大规模标注数据的依赖,使得在有限数据条件下训练出高精度的西夏文OCR模型成为可能。借助OCR技术,西夏文原始文献和现代研究文献中的文字可以快速转换为可编辑的电子文本,从而有力推动西夏文文献的数字化整理进程。
机器翻译技术助力西夏文的自动四行对译。四行对译是西夏文文献整理与研究的标准范式,包含西夏文原文、拟音、对译(逐字对应的汉语文本)和意译(通顺的汉语译文)四个部分。四行对译不仅是文献整理的基本要求,也为语言学分析、历史文化考证提供了关键参照。然而,传统的四行对译工作长期依赖西夏文专家手工完成,耗时耗力。即便一部中等篇幅的文献,常常需要数月甚至更长的时间才能完成,影响了西夏文研究的快速推进。在自动四行对译过程中,原文可借助OCR技术进行自动识别与提取,拟音可以通过查表实现,而对译与意译则需要依托机器翻译技术来完成。机器翻译旨在将一种源语言转换为另一种目标语言。若将西夏文原文视为源语言,对译和意译则可视为两种不同的目标语言。自动机器翻译模型的训练依赖于西夏文与对译、西夏文与意译之间的平行语料。尽管西夏文属于低资源语言,面临平行语料稀缺的困境,但当前机器翻译技术已具备应对这一挑战的能力。一方面,利用已有的西夏文—汉文对照文献、西夏文字典等资源,可以构建字词级别的映射关系,为翻译模型提供基础知识;另一方面,通过提示工程和少样本学习等方法,能够引导大语言模型理解西夏文的语言特征和翻译规则,从而生成对译和意译的初步译文。机器翻译技术使西夏文文献的快速整理成为可能,为构建大规模西夏文语料库、深入开展语言学分析和历史文化考证提供重要的数据基础。
语料库检索技术助力西夏文研究走向数据驱动。在OCR和机器翻译技术的支撑下,西夏文文献可以实现从图像到可编辑文本、从单篇逐字译解到自动四行对译的转变。然而,要真正突破个案研究、经验驱动的传统研究范式,使西夏学迈向系统化、可量化和可复现的研究范式,还需进一步依托以语料库为核心的检索与分析技术。西夏文语料库的建设是一项涵盖三个层面的系统工程。在文本层面,需要对来自不同典籍、残卷、碑刻的西夏文原文进行统一编码和切分,按照篇、章、句、词、字等层级进行处理,并与对应的拟音、对译、意译建立对齐关系。在语言学层面,则需进行多层标注,涵盖字形变体、词类、构词法、句法结构、固定搭配等要素,为后续自动分析提供结构化支持。在知识层面,需要将地名、人名、官职名、佛教术语等专有名词与外部知识库及汉文对勘材料建立关联,初步构建机器可读的“西夏知识图谱”。语料库检索技术将从两个维度重塑西夏文研究的工作方式。在检索效率方面,研究者能够通过关键词、词组乃至通用的语料库查询语言快速检索,在数秒内完成传统纸本文献条件下需要数日乃至数周才能完成的查检工作。在研究方法方面,结合频率统计、共现分析、搭配网络等计量工具,可以开展大规模的词汇学与语法学研究,识别高频构词模式、抽取固定术语、揭示特殊句式的分布规律等,推动研究从“零散例证”转向“统计显证”。更为重要的是,语料库检索技术为跨文本、跨学科的综合研究提供了技术手段。比如,同时检索西夏文法律文书和佛教典籍中的同一术语,可以揭示宗教话语与制度实践之间的深层互动关系。从技术路径看,西夏文语料库建设面临生语料库与熟语料库的双重挑战:生语料库仅包含未经加工的原始文本,但大量出土文献藏于各地,难以获取;熟语料库则需经过分词、词性标注、句法分析等深度加工。现代汉语语料库建设实践表明,两类语料库各有价值,不可替代。对于西夏文而言,熟语料库的建设面临更为严峻的技术瓶颈:目前尚无成熟的西夏文词法分析工具、句法分析工具等,也缺乏用于训练这些工具的训练语料。这一短板制约了基于词法信息和句法信息的检索、统计与分析功能的实现。因此,建设功能完备的西夏文语料库,需要先在词法分析、句法分析等自然语言处理基础任务上取得突破。
图像生成技术助力西夏文残损文献的数字修复。西夏文文献作为研究西夏历史文化的珍贵史料,历经近千年保存,存在许多残损的情况,给文献的整理、研究与展示带来不便。纸质文献传统的物理修复流程复杂且周期漫长,而以深度学习为核心的数字图像生成技术则为大规模、高效率地修复数字图像形式的文献提供了新的技术路径。近年来,基于深度学习的生成对抗网络、扩散模型等方法已在图像生成领域取得显著进展,特别是一些开源多模态生成模型已能够根据提示词进行图像生成或图像内容编辑。这些开源模型为西夏文残损文献的智能修复提供了技术基础。西夏文残损文献的数字修复面临双重技术挑战。背景图像层面需修复载体的物理损伤,包括纸张破损、墨迹褪色、污渍遮挡等。多模态生成模型可以自动分析文献纸张的纹理特征,对破损区域进行自动填补。而字形图像层面需修复缺失或模糊的字形,要求模型不仅理解图像的视觉连续性,还需掌握西夏文的字形结构规律,现有多模态生成模型均无法对此提供支持。以开源模型为基础,可以训练一个支持西夏文字形图像层面修复的专用模型,从而实现西夏文残损文献的整体修复。这种结合背景图像修复与文字复原的技术方案,除了可以修复残损文献外,还能为西夏文的OCR训练生成逼真的训练样本,改善西夏文OCR的效果。
人工智能为西夏文研究带来了历史性机遇。OCR技术有助于实现西夏文文献的数字化,机器翻译技术可以提升四行对译的效率,语料库检索技术能够推动西夏文研究迈向数据驱动,图像生成技术则为残损文献的数字化修复提供了可能。智能技术的发展正在并且必将引发西夏文研究范式的变革——从依赖少数专家的手工译解转向人机协同的智能化处理,从零散的文献考证转向基于大规模语料的量化分析。当前西夏文的OCR技术已初见成效,但机器翻译、语料库建设和图像修复等技术的应用仍处于起步阶段,亟须进一步攻关。人工智能专家应与西夏文研究专家通力协作,发挥跨学科优势,通过人工智能激活古老文字,以创新手段赋能“绝学”冷门学科,共同为“绝学”不绝、冷门不冷的文化传承目标贡献智慧与力量。
(作者系中国社会科学院(中国社会科学院大学)语言学重点实验室助理研究员)