中国社会科学网讯(记者 王广禄) 当地时间5月11日,由中国古籍保护协会古籍智能开发与利用专委会指导,中国人工智能学会语言智能专委会、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会及中华书局古联公司协办的EvaHan2026古籍多模态OCR国际评测在西班牙马略卡岛举办的语言资源大会(LREC 2026)子会议——古代和历史语言技术研讨会(LT4HALA 2026)上圆满落幕。
古籍数字化是传承中华文明的重要手段,如何将海量古籍图像转化为可检索、可计算的文本是关键环节。然而,由于古籍排版布局特殊、文字形态复杂(如异体字众多)、版式多样(如双行夹注),现有基于现代文档开发的OCR工具往往难以胜任,且人工录入成本高昂。因此,开展面向古籍的OCR研究,对于推动古籍的创造性转化与创新性发展具有重要意义。EvaHan自2022年以来已成功举办了四届,有力推动了古籍智能分析技术的发展。本次评测聚焦古代汉语OCR与版面分析任务,首次系统评估了大模型在真实古籍图像上的端到端识别与版面理解能力,旨在汇聚全球智慧,共同推进古籍数字化研究的进程。
本次评测由南京农业大学信息管理学院教授王东波、副教授刘浏、南京师范大学文学院语言大数据与计算人文研究中心教授李斌、曲维光、副教授冯敏萱和许超、南京理工大学经济管理学院教授沈思联合组织。评测历时5个月,吸引了来自中国、法国等海内外高校与科研机构的41支队伍报名,最终13支队伍完赛。在5月11日的评测研讨会上,著名计算语言学家冯志伟作了题为《中文古籍OCR的意义与方向》的特邀报告。他指出,汉字作为象形文字,字符集巨大且异体字繁多,使得中文古籍OCR难度极大。未来要将人文问题与科技赋能相结合;协同制定评测标准,推动数据资源开放共享;广泛开展文化交流,让中国古籍数字化成果与全球学者共享。
李斌在评测总体报告中提出,本次评测数据显示,当前技术在文字识别上表现较好(版刻汉字识别率最佳综合得分达0.9736),但在版面分析上仍面临瓶颈。由于双行夹注与正文极易混淆,版面分析精度(最佳mAP为0.5941)远低于文字识别。此外,异体字与长尾罕见字仍是拉低准确率的核心因素,说明单纯扩大模型规模收益递减,领域特定的算法创新更为关键。
经过激烈角逐,评选结果在会上揭晓。在封闭赛道中,同济大学团队凭借HistLayout-DETR等创新架构荣获文字识别(OCR)一等奖,武汉大学人工智能学院团队凭借多阶段优化策略荣获版面分析一等奖。法国国家文献学院(ENC-PSL)和巴黎高等研究实践学院(EPHE-PSL)在开放赛道中表现优异。南京大学、东北林业大学、中国人民大学及蜜度科技联合团队获二等奖,复旦大学、中山大学、法国国家文献学院团队获三等奖。
闭幕式上,冯志伟提出,OCR技术是打破时空壁垒、让“世界记忆”复活的关键。李斌表示,未来EvaHan将继续举办更多古籍智能处理领域的国际评测,持续推动古籍的保护、传承与创新发展。