语言数据资源作为生成式人工智能的重要基础,其内容和范围正随着大语言模型的发展不断扩大。然而,现有的数据资源主要侧重于产业应用的初级处理数据,尚不能满足中文语言学基础研究和国家语言文化战略发展的深层需求。特别是在构建多模态中文大语言模型方面,这种矛盾尤为突出,凸显了建设兼具语言基础研究与应用研究意义的优质语言数据资源的紧迫性和必要性。
研究意义与发展方向
随着端到端学习、大语言模型和自监督训练方法的广泛应用,大规模开源数据集成为人工智能语言技术发展的重要因素。比如,GPT-3的训练数据来自Common Crawl、book corpus和Wikipedia等开源数据集,共约45TB。MLCommons开源了超过3万小时的英语转写语音数据。国内WenetSpeech团队也开源发布了超过2万小时的普通话语音数据集,其中1万多小时进行了语音转写。此外,在一些大型开源平台(如Huggingface、Kaggle、百度飞桨)上也可获得很多开源语言数据集。尽管大规模开源数据集可以被直接用来训练模型和改进系统,但对大语言模型系统性能进行评估,特别是针对中文的评估,仍需要有创新性的、高质量的多模态语言数据作为基准。比如,GLUE和SuperGLUE基准测试采用自然语言理解相关任务的语言学标注构建评估标准,WikiText、DailyDialog、MMLU等数据集通常采用单词或短语匹配的方法评估自然语言生成的质量。这些评测基准都推动了自然语言处理技术的发展。GPT、Llama、DeepSeek等大语言模型的成功更是离不开人工标注的对话数据以及对机器生成对话的人工评估和反馈。在语音识别中,TIMIT和Librispeech很长时间被用来评估语音识别的准确率。然而,基于文本内容的评测标准缺乏基于语法的性能评估手段,基于语音内容的评测基准则缺乏语音韵律信息标注。多模态语言数据资源是指可以用于语音和语言学基础研究,以及语音识别与合成、自然语言理解与生成、脑机接口等人工智能应用技术研发的数据资源。构建蕴含丰富的语法标注、情感态度、互动语用功能等多层次语言学标注信息,涵盖文本、语音、脑神经信号等多模态内容的数据库,将引领多模态大模型技术的进步,从而推动中国语言学自主知识体系建构。
从2000年开始,在国家高科技研究规划发展项目(863计划)“中文平台总体技术研究与基础数据库建设”和“中文平台评价技术研究与基础数据库建设”以及国家重点基础研究发展规划项目(973计划)“图像、语音、自然语言理解与知识发掘”等重大项目支持下,中国语言资源建设开始快速发展。由中国中文信息学会语言资源建设和管理工作委员会发起成立的中国语言资源联盟(CLDC),联合中文语言资源建设领域的广大科技工作者,建成了一批代表中文信息处理国际水平的语言资源库,为中文信息处理等基础研究和应用开发提供了数据支持,推动了技术进步。随着人工智能技术的发展和应用需求的增加,一些资本雄厚的科技“大厂”纷纷建立自己的数据部门,商业化的语言数据公司也如雨后春笋般发展起来,并成为资本追捧的热点。这些数据资源公司成为中文语言数据资源建设的新生力量。2023年3月7日,国务院决定组建国家数据局,表明国家对数据资源的重视程度和支持力度达到了新的高度。
中国语言学结合大数据语料库、人工智能技术等研究范式,为人文社会科学提供了新的方法论和视角。然而,纵观现有中文语言数据,其多为产业驱动的“粗标注”数据,比如语音只有对应的汉字或拼音标注,而没有更多语言学信息。这些数据资源远远无法满足语言学基础研究和应用研究的融合创新以及大语言模型技术的发展需求,因此要建设更多高质量的数据资源。具体而言,需要在语言学研究基础上、在系统建库原则指导下,构建具有更丰富可靠语音学和语言学标注的、符合伦理规范的数据资源,涵盖音段、韵律、句法、语义、语用等多维度、多层级的深度标注信息。早期的语言数据建设,主要依赖大量人工录音和标注,工作效率很低。随着大数据和深度学习技术的发展,语言自动标注技术开始反哺基础数据加工和标注,大大提高了基础数据和深度信息的制作和标注效率。这些高质量深度标注数据主要支持科学研究而非直接面向产品应用。由于耗费人力物力巨大,通常不被商业数据公司青睐,因此以国家支持和投入为主。
现状分析与未来展望
在中国高质量语言资源建设领域,很多项目和机构在国家支持下发展良好,为国家的语言文化和智能技术发展、铸牢中华民族共同体意识发挥了重要作用。比如,2015年,中国语言资源保护工程启动,目前已完成对汉语方言和少数民族语言1700多个田野调查点的调查,建成了世界上规模最大的汉语方言和少数民族语言资源库。2016年,北京语言大学语言资源高精尖创新中心正式成立,研发了BCC文本语料库服务平台,并围绕共建“一带一路”国家开展了一系列语言资源建设和语言政策研究。中国社会科学院语言研究所从20世纪90年代开始,依托国家863计划、973计划等高技术项目和社科院创新工程等项目,长期开展语音、语言资源建设,提出了C-TOBI、SAMPA-C、“口语语篇层级结构和标注标准”等多个标注标准,建立了多个国家级高质量数据资源库,如汉语地方普通话语音数据库RASC863、朗读语篇库ASCCD、汉语自然口语对话库CADCC、口语语篇库DISCOURSE-CASS、儿童语言发展多模态数据库CASS-CHILD、儿童语言发展词汇产出库CASS-CHILD-Word、汉语语调韵律库INTO-CASS、中国方言区英语学习者语音库AESOP-CASS等。另外,还在中国社会科学院创新工程项目支持下开展了通用语料库和辞书编纂语料库建设,服务辞书编纂和语言学基础研究。以上标注标准和语言数据在学界和业界得到广泛使用,产生了良好的社会效益。
2024年1月17日,中国社会科学院实验室、数据库项目正式启动,中国社会科学院语言学重点实验室作为首批重点实验室,获院实验室综合资助项目支持。3月8日,中国社会科学院语言学重点实验室启动会暨首届学术委员会第一次会议成功举办。11月15日,新落成的语言学重点实验室在中国社会科学院大学揭牌,以“科教融合”为发展新动能,推动实验室高层次建设和跨越式发展。语言学重点实验室在建设方案中,把高质量多模态、新型的语言资源建设作为重要科研规划方向,旨在建立跨方言、跨语言、多应用场景的数据资源,包括文本、语音、发音生理和脑信号等多模态、多通道数据。这些语言数据资源具有三重重要价值。首先,它们可作为多模态大语言模型的直接训练语料。其次,这些数据为多模态大语言模型的性能评估提供了标准化的基准数据集,有助于建立系统性的评测框架。最后,这些数据资源为创新性的研究范式奠定了基础,特别是在人工智能赋能语言学领域,对推进中国语言学自主知识体系建构具有重要的理论和实践意义。
总而言之,虽然近年来中国语言高质量数据资源建设迅猛发展,但仍存在较大发展空间,需要国家和社会给予更多支持。第一,需要整合国内外力量组建国家语言资源中心,为语言资源建设搭建国家级平台,为科研的高质量发展提供数据基础,为基础研究和应用研究的融合创新提供示范。第二,从体制机制上保证专业化的数据研究和制作团队建设,健全数据资源发表和共享机制,保证数据资源的伦理规范和安全可靠,在学科建设和人才培养等方面形成可持续的良性发展态势。第三,加强语言数据库标准建设与投入,积极推出国家标准、行业标准,特别是国际标准。第四,加强面向国家重大需求的多模态语言数据资源建设,如涉及多模态语言的大脑神经信号数据、言语和语言病理数据、“一老一小”语言认知发展和蚀失数据、少数民族和方言区语言数据及其国家通用语言习得数据等,服务于民生、语言文化政策。第五,进一步深化与人工智能技术的结合。一方面,研发数据库工具,支持大规模、高质量数据的标注、维护,促进和引领人工智能语音语言技术的发展;另一方面,推动研究范式创新,结合大数据和深度学习等技术开展创新理论研究,验证和发现汉语中独有的语言现象及规律,同时为可解释的认知智能提供理论支撑。
新时代新征程,高质量语言数据资源建设将成为引领时代进步的重要引擎。这不仅将促进语言理论与技术应用的跨学科融合与创新,为前沿科技发展注入强大动能,还将以广泛而深远的社会效益助力中国式现代化的全面推进,为建设科技强国和文化强国提供坚实支撑。
(作者系中国社会科学院语言研究所副所长、研究员)