构建中国语言学研究多模态路径

2025-09-12 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制
  近年来,语言学对于语言智能和多模态取向的实证主义研究兴趣显著增长。基于多模态语料的汉语研究将语言学的实证主义推向技术化、精细化和多元化,并与语言资源建设工程的要求紧密结合。2025年1月,教育部、国家语委、中央网信办三部门共同印发《关于加强数字中文建设  推进语言文字信息化发展的意见》,提出要建设“新型国家语料库”,明确要求突破传统单一文本模式,构建“新质态、多模态、全域性”的语料资源体系,将多模态信息处理、跨语言跨模态翻译等方面的技术创新作为提升语言文字信息化水平的重要举措重点推进。这引发了中国语言学界对于多模态技术的关注及其在语言学中地位的再思考。
  多模态路径的
  学理贡献与研究价值
  以高度技术集成性为特征的多模态研究,不仅因涉及复杂的信息交互模式而具有较高的研究门槛,更展现出明显的跨学科属性。该领域以语言学为核心,广泛融合符号学、话语交际及认知科学等多元学科视角,形成了多向度的研究路径。互动语言学框架下的多模态研究方法,采用一种话语导向的实证研究路径。该方法将面对面互动交际中涌现的所有可感知资源(包括言语的韵律特征、与言语共现的词汇句法结构、伴随言语的身体活动、体感知觉以及互动情境中的物体与环境要素),均视为与词汇句法结构同等重要的语言学分析对象。其核心目标是,综合评估这些资源在实现话语信息交际功能中的作用。鉴于面对面口语交际固有的多模态本质,除语言资源本身外,对交际的产出与理解具有关键作用的身势动作因素尤需受到重视。
  多模态方法带来了语法理念的突破。在特定的互动行为中,受视听模态倾向性优势的影响,传统句法规则的约束力可能被超越,使得原本在书面语单模态视角下被判定为“不合语法”的句子,在特定交际语境中变得合法、得体且功能适切。这一现象在以书面语言为单一观察对象的传统研究中是难以想象的。此外,多模态研究路径强化了互动语言学的因时性(temporality)特征,其核心在于聚焦实时涌现的语言学形式、视觉信号及环境动态,将语言学研究从传统静态分析框架的桎梏中解放出来,揭示并确立了语言在交际中动态演化与情境适应性的深层潜力。多模态方法的学理价值不仅在于扩充了语言学研究对象的范围,更在于将一系列关键互动因素系统整合到语言学理论考察维度与实证分析框架之中。
  长期以来,语法研究存在以书面语研究为中心的“书面语偏好”,这是从索绪尔提出“语言”(langue)和“言语”(parole)的划分并强调前者在语言科学研究中的首要地位后开始的。在此影响下,将规范、严谨的书面表达形式视作更具科学价值的语言学对象曾一度成为学界共识。伴随语言学理论的深化,语言学研究对象呈现多元化态势。口语研究特别是以面对面交际为核心的互动研究,逐渐在语言学领域占据日益显著的地位。言语行为本质上是多模态资源的协同运作,涉及语言结构、韵律特征、面部表情、手势系统以及即时情境要素。为忠实还原语言使用的真实图景,多模态方法日益被语言学各分支所吸纳与整合。多模态路径可以弥合相邻学科间的壁垒,并重新发掘差异显著学科间的潜在对话空间与共性基础。比如,媒体研究与网络技术的渗透,促使语言学研究向更广阔的应用领域延伸,催生了视觉语法、数字化语言景观、广告语篇中的多模态隐喻等新兴课题。语言学向应用科学的这种辐射与延伸,其深层意义在于紧密联结语言学与社会生活,在社会实践中深化语言学研究,并在学科内部更高层次地践行理论联系实际的更高要求。语言学引入多模态理论,突破了传统以抽象“语言”规律为单一核心的研究架构,有机融合了多学科研究成果,推动语言学朝向构建“大语言学”的目标迈进。
  中国语言学多模态研究的
  国际视野
  国外多模态研究发轫较早,可追溯至20世纪30年代布拉格学派对视觉符号的意义分析。随后,研究视域逐步拓展至心理学及社会行为领域,将语言分析、话语实践及其发生的具体情境紧密结合,从而深化了“话语与语言研究本质上是多模态的”这一核心理念。经过长期积累,国外研究在相关语言学现象与问题的理论构建及实证探索方面已形成较为丰厚的积淀,其研究范式与技术手段亦趋于成熟,将话语行为理论与多模态分析路径有机整合,为语言学研究提供了重要启示。鉴于话语的多模态本质具有跨语言的普遍性,多模态研究展现出良好的跨语言适应潜力。
  近年来,中国多模态研究快速发展,逐步与国际前沿接轨。国内研究肇始于21世纪初的外语学界,以韩礼德的系统功能语言学理论为重要起点。该理论视语言为社会符号,倡导在文化语境中考察语言,天然蕴含对多元交际渠道与媒介的关切。其主张语言研究应回归“自然栖息地”的思潮,进一步强化了对语言材料进行精细化描写的学术诉求,并直接推动了多模态方法在国内的兴起。伴随互动语言学理论的引介及本土实证研究的涌现,运用多模态视角探究汉语问题已成为汉语语法理论研究的新趋势。
  然而,当前的核心挑战在于:如何立足汉语特质,运用多模态手段引领语言学理论创新,以深入阐释汉语特有的语言形式问题,并将此研究范式辐射至更广泛的语言学分支领域。汉语多模态研究本就植根于深厚的语言本体理论传统。未来亟须开拓思路,锐意进取,以多模态技术手段作为关键路径,促进传统语法研究、发展对外汉语教学、辅助人工智能模型训练,实现理论超前、应用超前、学科超前。
  多模态语料库建设意义重大
  过去的多模态研究主要采取自下而上的个案研究路径,以观察细致见长。但随着大规模多模态语料库的不断完善,具有显著语言学价值的研究必然要求从个案特殊性向系统性规律性延展。与此同时,大语言模型为多模态语言资源的数字化处理提供了高效解决方案。比如,迭代优化的视频目标跟踪技术、生物特征识别与步态识别技术可以持续追踪视频流中运动目标并精准捕捉其关键特征,4D高斯泼溅技术为三维场景中对象的时空运动轨迹预测提供了创新方法。多模态研究的目标指向,在于构建高度结构化、智能化的多模态语料库及其衍生的人工智能驱动型多模态应用产品。
  语料库作为集成化存储具有代表性、平衡性语言材料的资源系统,其核心价值蕴含于资源属性与功能属性两大维度。多模态语料库建设的核心挑战源于多模态材料固有的多层次复杂性。此类复合型交际资源整合了来自听觉、视觉等异质信道的信息,以“对内可解析、对外协同表意”的独特形态,实现整体性的意义与功能表达。相较于单模态文本语料,多模态材料的处理、管理及应用在技术层面面临量级跃升的难度。
  对身势动作的基础语言学考察,为多模态语料库的构建奠定了初步的理论根基。在多模态标注实践中,身体姿态的解析必须进行层级化区分,尤其需辨识服务于话轮组织与承载话语内容的身势动作在功能上的本质差异。唯有对动作单元及其功能进行精细化分解与标注,方能有效支撑语言学本体研究及语言教学和语言习得等应用目标。然而,多模态语料库建设还面临极大的操作困难,不仅需要高保真音视频采集、复杂标注流程及专用工具链研发所依赖的高端技术设备支持,更深层的难点在于标准化框架的缺位——当前亟须建立一套整合多模态分析处理任务的操作规范体系。
  以大语言模型为代表的数字智能技术浪潮,为多模态资源建设带来了机遇与挑战并存的新图景。利用大语言模型辅助多模态标注的前提,是获取海量、规则统一、高精度人工标注的多模态基准数据集用于模型训练。多模态语料库技术与人工智能的深度融合将成为语言学发展史上的重要里程碑。
  (本文系国家社科基金一般项目“融合句法信息的大规模汉语语料库分析工具研制研究”(22BYY086)阶段性成果)
  (作者系中国社会科学院语言学重点实验室、语言研究所助理研究员)
【编辑:崔晋(报纸)王晏清(网络)】