AI-DimSum粤语语料库平台发布

2025-12-10 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  中国社会科学报广州讯 (记者李永杰)12月6日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学举行。粤语语料库建设与大模型评测广州市哲学社会科学重点实验室(以下简称“实验室”)研发的AI-DimSum粤语语料库平台在大会上正式发布。

  据了解,AI-DimSum粤语语料库汇聚处理文本语料超过100万字,涵盖新闻、文学、社交媒体等领域;拥有3000小时高保真语音标注及1TB以上的音视频资料,包括大模型训练专用语料集;超过1万句的多用途粤语生活场景音频+文字的语料;岭南文化图像素材10000张;构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库等。

【编辑:隋萌萌(报纸)赛音(网络)】