
如果将智能理解为获取知识和使用知识解决问题的能力,人工智能在某种角度可以说是赋予计算机这种能力的学科,是一个用非传统方式复制人类“软件”的领域。近年来人工智能语言能力的快速提升,很大程度上得益于大数据和深度学习的加持。甚至可以说,大数据是人工智能的核心和关键驱动力。此类人工智能也被称为“数据智能”,对应的这个时代就成了“数智时代”。语言数据是数智时代的重要生产要素,因为“计算机通过对语言数据的加工学习可以获得知识与智能”,并且“随着语言智能的发展,语言将为人类和机器这两个‘物种’共同享有”。换言之,语言数据是计算机能够产生语言智能的驱动力。因此,数智时代的语言研究需要同时考虑人与计算机的需要。
计算机自诞生以来,几乎就一直被作为各种新的语言学理论的测试平台。某种程度上讲,那些可形式化和可程序化的语言学理论,甚至可以算作计算机的相生相伴之物。人工智能的研发者可以描述使机器具有智能的过程与方法,却难以解释为什么这样做机器就有了语言能力。同时,人们似乎也难以用惯常的语言学理论说清楚人工智能那足以媲美人类的语言能力从何而来,又将走向何处。对此,作为可能是这个世界上最懂语言的人——语言学家,特别是那些以发现语言系统运作规律为己任的语言学家,须努力去解释语言数据涌现语言智能的机理。当然,语言学有很多分支,用不着所有的语言学家都围着人工智能转,但至少需要有一定数量的语言学家将自己的研究与人工智能联系得更密切一些。
一些语言学理论在数智时代“失语”的原因可能在于:从语料上,脱离了真实的语言数据,脱离了人和社会;从方法上,过度的代数化和形式化,导致难以发现语言这个概率系统的本质规律;从尺度上,过于强调语言使用的细枝末节,忽视了其作为人驱复杂适应系统的整体运作规律。在过去各种形式化的语言研究浪潮中,人们也许忽视了人类语言中某些重要的东西。本文从现代语言学之父索绪尔《普通语言学教程》中的两个关键概念“线条性”和“系统性”出发,将语言视为人驱动态概率系统,探讨语言的线性规律与网络结构模式以及介于二者之间的句法统计规律,力图展现数据驱动语言学在数智时代的价值与意义。
一、线条性是人类语言的重要属性
索绪尔认为,任意性和线条性是语言符号的两个重要特征。从研究者的视角看,语言的线条性不仅是一种易于客观观察的特性,也是采用科学方法研究语言的直接切入点。线条性“这个原则是显而易见的,但似乎常为人所忽略,无疑是因为大家觉得太简单了。然而这是一个基本原则,它的后果是数之不尽的……语言的整个机构都取决于它”,并认为与视觉的能指相比,“听觉的能指却只有时间上的一条线;它的要素相继出现,构成一个链条。我们只要用文字把它们表示出来,用书写符号的空间线条代替时间上的前后相继,这个特征就马上可以看到”。索绪尔所说的“听觉的能指”一般指我们常说的词。这样,我们可以将线条性理解为一个由词组成的链条的一种特性。更严格地说,语言的线条性可以扩展到比词小(或大)的单位。本文主要讨论由词组成的线性序列。
一个常被人忽略的线条性为什么会在索绪尔构筑的现代语言学大厦中有如此重要的地位?尽管语言有多种功能,如文化的容器、身份的象征、思维的工具、知识的载体等,但最主要的功能还是交际。一般认为,“言语交际链”由如下环节组成:思考想传达的东西;挑选能表达想法的词语;依规则将这些词语按一定的顺序排列起来;找出这些单词的发音;将这些发音送到说者的发音器官;说者发出有关词语的声音;听者听到声音;听者将声音解码为语言;听者接收到说者想传达的思想。在这些环节中,除了说者发出声音与听者听到声音之间的音序列外,其他环节都是难以观察的。如果将音序列转换为文字,就得到了索绪尔所说的由书写符号构成具有线性特征的符号(词)链。线性词链是为数不多(也许是唯一)可供语言研究者进行客观研究的对象,特别是如果研究者不懂所研究语言的话,这个音序列的重要性和唯一性更是不言而喻。这可能也是索绪尔要特别强调线条特征的“后果是数之不尽”“语言的整个机构都取决于它”的缘由。
线条性的重要性也可以从当前大语言模型类人工智能的基本工作流程中看出:首先从大量的人类语言词链获得语言规律、构建语言模型,然后用内含统计规律的模型预测词链中接下来可能会出现的词,进而生成符合人类使用习惯的语言符号链。这些统计规律显然不是一些语言学研究者所熟悉的那些东西。这也许意味着,语言学家整理出来的关于语言系统运作的有些知识,可能并不是人类实际使用的东西或不是驱动语言系统运作的要素。人们有关人类“软件”的认识,可能常常困在“获得不足,验证来补”的怪圈之中且难以自知。人工智能为走出认知怪圈带来了一个方向——寻找人工智能背后隐含的语言定律或思维定律——这些定律很可能也是驱动人类语言系统日常运作的动力。从真实的语言数据中发现语言定律是计量语言学一直以来追求的目标。数据驱动语言学是计量语言学在数智时代的升级版,它不仅像计量语言学那样从真实语料出发、采用统计方法、探求人类语言的概率性规律,而且也将语言视为一个人驱复杂适应系统,秉持数智时代语言研究同时关注人与机器的语言观,在“数驱”和“数基”的双轮驱动下,采用系统科学的方法,力图发现人类语言系统的运作规律并考察这些规律在应用语言学和计算语言学等领域的适用性和可用性,最终形成科学的“言语动力学”。
计量语言学中的定律一般分为三大类:概率分布定律、函数定律和演化定律。其中尤以齐普夫定律为代表的概率分布定律而广为人知,而作为人工智能基础的大语言模型的本质很大程度上就是“建模自然语言的概率分布”。这种巧合也许并非偶然,而且或许可能说明,语言规律存在于语言文本之中,概率分布规律的表现形式尽管简单,但可以反映人类语言系统运作的普遍性和多样性,只有这样的规律才有可能被那些需要规律的领域所使用。那么,从线性的词链中我们可以发现什么规律?
二、线条性是发现语言规律的理论基点
最早被冠以“定律”之名的词链规律可能是20世纪初被发现的贝哈格尔定律(Behaghel’s Laws):语义密切相关的成分在句中的位置也更为接近;不太重要(或听者已知)的成分位于重要成分之前;短的成分位于长的成分之前。这几条规律,虽然没有上升到数学形式,但均来自贝哈格尔对欧洲语言句子的统计分析。在随后的100多年里,各国学者也用更多语种的语料进一步验证了这几条规律的适用性。值得注意的是,在这些规律的描述中已经没有具体的字词,而是抽象到更高层次的普遍性。这一点很重要,因为语言学研究者的根本任务是“寻找人类语言最本质的规律与特征,为各门学科的发展奠定理论基础,并引领各门学科的发展方向”。
贝哈格尔能够发现这些规律,一是离不开真实语料,二是他懂这些语言。在不少语言学家那里,这两点似乎是不言自明的。对于20世纪50年代源于美国的主流语言学学派来说,研究语言不仅需要懂这种语言,而且所研究的最好还是母语。为什么?因为往往只有母语者才能想出原汁原味的句子作为研究材料,才能判断一个句子的语法是否正确。在这种情况下,如果还要说语言学是一门科学,那它一定是一种非常特别的、与其他科学领域十分不同的学科。这种与其他科学领域的巨大差异,也许是语言学家所发现的规律在数智时代作用降低的重要原因。因为这些规律多源于研究者的大脑,而非现实世界中人们使用的语言。正如吕叔湘所言:“语言是什么?说是‘工具’。什么工具?说是‘人们交流思想的工具’。可是打开任何一本讲语言的书来看,都只看见‘工具’,‘人们’没有了。”人工智能则将“人们”请了回来,它关于语言和世界的所有知识均来自人们说的话。数智时代的语言学研究,应如人工智能一般把“人们”请回来,回到自然交流状态下产生的语言数据。用人类的真实语料作为主要的研究材料,从大量由词组成的句子、由句子组成的文本、由文本组成的语言数据中发现规律,只要方法得当,研究者是否懂所研究的语言可能并非那么重要,更用不着必须是研究者的母语。那么,如果不懂这种语言,我们可以得到什么与线条性有关的语言规律?

词长分布规律有助于理解人类语言的普遍性和特殊性,但它对人工智能是否有帮助?当人工智能进行词语生成时,为了生成更像自然语言的词语,要遵循自然语言文本的统计规律。也就是说,人工智能需要掌握自然语言的各种概率分布模型,而概率分布的直接来源就是词语的线性序列。在研究词长分布时,可能也要注意口语与书面语的区别。“言文分离”是一个几乎存在于所有语言中的问题。对于汉语而言,这个问题尤为突出。因此,为了寻求更准确的词长概率模型,可以按照不同的模态和语体分别进行研究。研究表明,音节是适合测量汉语口语词长的计量单位,而部件是比较适合测量汉语书面语词长的计量单位。尽管二者均符合泊松分布,但口语更符合扩展对数泊松分布,而与书面语更适配的是混合泊松分布模型。这说明,在词长分布上,汉语虽然有自己的特殊性,但也遵循人类语言词长分布的普遍规律。
如果词长分布规律可以帮助人工智能生成更自然的“词”,那么句长分布理应也有益于人工智能生成更自然的句子。研究表明,与词长不同,人类语言的句长分布一般对应的是扩展正负二项分布模型。说到句长,一个有趣的问题是:语言学家经常谈论的汉语中多“流水句”“零句”等特点,是否会影响汉语的句长分布规律?通过对现代汉语、波兰语、德语、俄语、法语、葡萄牙语、日语、西班牙语、意大利语、英语这10种语言句长分布的考察,结果发现:现代汉语的句长分布与其他9种语言一样,都符合扩展正负二项分布。那为什么我们会有不一样的感觉?可能是人类习惯用自己理解的、明晰的语句来描述包括语言在内的系统的工作机理,但由于语言是一个概率系统,语言规律大多是统计性的,而在语感形成过程中扮演重要角色的这些统计规律又很难用日常语言说清楚。那些与人类“软件系统”密切相关的运作机理,需要借助科学的手段和方法才有可能说清楚。回到分布,无论是词长还是句长分布,二者均是在保证有效交流的前提下,在人类认知机制的约束下,表现力与省力原则相互妥协的结果。这种机制对所有人类语言都有效,汉语作为一种人类语言自然也会带有语言的普遍特征,与其他语言一样,汉语的特殊性体现在普遍规律中的参数变化上。
如果句长分布是受人类认知机制约束的产物,是人类自然智能的产物,而人工智能是模仿人类智能的人造物,通过比较人工智能所生成的文本和人类的自然文本,不仅可以发现人工智能与人类智能的差异,而且也可为构建更好的人工智能提供参考。通过对句长分布的比较可以发现,尽管当前的一些人工智能已经能够生成符合人类语言句长分布规律的句子,但与自然文本还是有一定差距,主要原因可能在于人工智能还难以自如平衡“省力”和“表现力”之间的关系。当然,由于计算机和人的结构不一样,这两种对人而言极为重要的原则,对人工智能的作用可能没有那么大。但通过数据驱动语言学研究,可以为人工智能的进一步发展提供参考,从而体现语言学作为探究人类“软件”运作机理学科的引领作用。
既然人工智能可以生成符合句长分布规律的句子,至少说明其已掌握这些源于人类真实语言材料中的统计规律。那么,我们怎样才能找到这些规律?再回到词链(因为这几乎是我们唯一可依赖的客观材料),除了词长、句长外,另外一个与线条性密切相关的语言特性是词在句中不同线性位置的概率分布,即词在句子中每个位置出现的可能性。在人工智能的理论基础方面,目前广泛使用的基于Transformer的语言模型在诸多任务中的表现均优于前代基于RNN的语言模型,主要原因有:一是引入了自注意力机制,可有效捕获字词序列中的长距离依赖关系;二是增加了位置编码机制。其中,注意力机制与各种长度或距离有关,而位置编码则与线条性的关系更为密切。
通过对6种印欧语中功能词的线性位置分布的考察,可以发现这些分布具有很强的规律性和高度可预测性。联系此前提到的句长分布,一个有趣的问题是,词在句中的位置与句子长度分布有什么关系?研究发现,线性位置分布具有句长稳定性,具体表现为:词在句中某一线性位置出现的概率与所在句子的句长成反比;在含有相同功能词的不同句长的语料中,词形的线性位置分布具有高度相似的模式。这表明,使用绝对位置编码的语言模型,即使有些句长的语料在训练集中不多,依然可以借助句长稳定性规律推断词在句中的位置信息。更为重要的是,通过对基于Transformer的大语言模型注意力矩阵的探究,也可以发现大语言模型掌握了线性位置分布中所隐含的语言规律。这种概率性的规律来自人类日常交流的语言,或许不仅是人工智能在语言方面的智能之源,也可能每时每刻都在支撑着我们人类语言系统的正常运作。
尽管以上研究说明基于Transformer的神经网络语言模型学到了词语在词链中的位置概率分布规律,但为了准确捕捉词间关系,仅关注线性位置是不够的。我们还需要从系统的角度,关注词语之间的复杂动态关系。因为语言是一个系统,而研究系统需要采用系统科学的方法。
三、语言是一个人驱概率系统
索绪尔认为,“语言是一种表达观念的符号系统”,“它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑”,“在语言状态中,一切都是以关系为基础的”。不过,知道语言是一个由关系组成的系统,并不意味着我们就能够掌握这个系统的运作规律。如果只是用各种概念打造脱离现实世界的理论,试图只用先验的、精确的形式逻辑破解后验的、概率的真实语言,在遇到人工智能这块试金石后,便会暴露出种种问题。语言既然是一个系统,就需要采用系统科学的方法进行研究,不能一边说着语言是一个系统,另一边又对那些专门研究系统的理论和方法视而不见。更重要的是,如果不用系统科学的研究方法,发现的规律可能就不是真正的语言系统的规律,也就难以被需要语言规律的领域所用,语言学在数智时代的尴尬局面就会一直持续下去。
为使语言研究跟上系统科学的发展,有学者提出语言是一个复杂适应系统的观点。随后,笔者将其扩展为人驱复杂适应系统。强调“人驱”的意义在于,人是语言存在的根本和语言演化的动力,而人本身有两个属性:人的生物学意义的普遍性决定了所有人类语言存在共性;人又处于社会和生态的多样性之中,人、语言和社会是共演的,因此生理之外的其他因素也会影响到语言,并成为人类语言多样性的一个源头。从系统的角度研究语言,一般可以从两个方面展开:语言系统内部各个组成要素之间的关系以及子系统之间的协同关系;语言系统的整体或涌现特征。前者是现代计量语言学的主攻领域,后者则是网络科学方法擅长的方向,二者均属于数据驱动语言学。但无论是计量语言学还是网络科学,基于多语种真实语言数据的定量分析都是不可或缺的。正如索绪尔所认为的,“在任何人的脑子里,语言都是不完备的,它只有在集体中才能完全存在”,并且索绪尔进一步区分了“语言”和“言语”,也明确了语言和言语之间的关系,即抽象的“语言”实际上是具体的“言语”的“平均数”。语言不是个体的,而是集体的,社会是将个人言语晶化为集体语言的熔炉。换言之,对语言这种灰色概率系统的研究不能脱离真实语言数据,对其运作规律的探求也不能撇开数据驱动方法,否则便难以从具体的言语活动中逐步逼近抽象的“平均数”语言。
从系统的角度来看,语言研究关注的重点应是构成系统的要素及其关系。研究语言系统的第一步是建立词语之间的关系。对基于文本数据的研究而言,除长度等有关的线性规律外,还有一个客观可观察的东西就是词语在文本中出现的次数。孤立地看,词频的用处可能更多是编词典或教材,但文本中出现的每一个词之间往往是有联系的。如果将一个文本(集)或语料库中的所有词按照出现频率高低列成一张表并依序编号,则序号与频数的乘积约等于一个常数。语言系统的这个规律,是由齐普夫在20世纪二三十年代发现的,也被称为齐普夫定律。也可以说,一个单词出现的频率与它在词频表中的排序成反比,即排序最高的单词的出现频率约为排在第二位的单词的2倍,以此类推。通俗地讲,人类语言中只有少量的词用得多,大部分词很少用。从视觉上看,齐普夫定律具有鲜明的长尾特征,是一种特殊的幂律。
尽管齐普夫定律看似无处不在,但自问世以来却争议不断,主要有两类反驳:一是这个定律可能是统计假象,甚至有人说,让一个猴子坐在打字机(或电脑)前,它敲出来的乱码也符合齐普夫定律;二是如果所有的语言都遵循齐普夫定律,那怎么解释这些语言间存在的明显不同?通过对50种语言的研究,可以发现,尽管所有语言都符合齐普夫定律,但仔细考察齐普夫曲线的结构和形成整条曲线的词语性质,或许把曲线分为三段比较合理。其中最上面的一段反映了语言的类型特征,中间一段反映了文本的类型特征,而最下面一段则基本不受语言、文本类型、样本大小等因素影响,反映了人类语言的共性。齐普夫曲线的这种分段特征可能是卡尼曼双系统理论在人类语言中的体现。为了验证双系统理论驱动下三段论的有效性,我们采用两种不同的策略模拟生成了一条齐普夫曲线。结果表明,我们的曲线比司马贺模型生成的曲线更接近真实语言的曲线,而模仿猴子打字生成的曲线与人类语言的曲线还是有很大差距的。这也在一定程度上验证了达尔文进化论在语言进化方面的正确性。
齐普夫定律看似简单,却体现了语言系统的两个重要属性:一是文本作为语言系统的产物,词频分布是词语间交互作用的统计规律,反映了语言系统要素间关系的整体概貌,体现了语言作为一种复杂适应系统的特征;二是展现了语言作为“人驱”系统的交际本质,即形成规律的驱动力来自语言的使用者,规律是交际双方省力原则支配下相互博弈的结果,正是这种源于交际双方的“统一化”与“多样化”力量的平衡为人类正常情况下的语言有效交流提供了保障。齐普夫定律是语言学最早的统计规律之一,已成为现代计量语言学的重要基础,这也是计量语言学又被称为“齐普夫语言学”的原因。以齐普夫定律为基础,计量语言学已发现一系列人类语言系统的规律。比如,高频词除了此前提到的一般都很短外,还一般有多义、形态不易变化、与其他词结合的能力(配价)较大等特点。就应用价值来看,齐普夫定律不仅对计算语言学、语料库语言学、语言教学与测试、词典与教材编写等领域有着重要意义,而且也被扩展到了物理学、社会学、经济学、生物学等诸多领域,成为数据驱动知识发现(语言研究)范式“数据(文本)→模式→定律→理论→解释→预测”的典型代表,理应在数智时代语言研究领域发挥更大作用。
齐普夫定律虽然神奇,但也只是反映了语言系统的一个方面。为了更全面了解语言系统的运作机理,我们不仅应发现更多概率性规律,也需要能够将这些规律集成到一起的理论和方法,更需要在语言研究中引入系统科学的一般方法。
四、网络科学是发现语言系统规律的利器
前述这些源于真实语言数据的规律乃至定律,虽然有助于认识语言系统局部现象的规律性,但为了从系统的角度解开人类语言之谜,需要将这些规律联系在一起,概括为更高层面的原则,进而形成一个语言学体系或理论架构。科勒于1986年提出的“协同语言学”就是这样一种努力。协同语言学是将哈肯的协同学理论应用到语言研究领域的产物,也可能是第一个严格按照系统理论构建的语言学分支学科。协同语言学认为,理论是由普遍规律(定律)组成的系统,其主要任务是提供一套构建语言学理论的架构,即建立普适的假设,验证假设,并将这些假设组合起来形成定律的网络控制图,进而解释所观察到的语言现象。
拿一个只含有词长、音素总量和符号相似度三个变量的控制图来说,由于省力原则的作用,说话者会有两个需求:记忆负担最小化和言语生成负担最小化;而听话者的需求为:理解和解码负担最小化。源于说话者的需求一般被认为是语言系统“统一化”的基础,而听话者的需求则是语言系统“多样化”的动力。交际双方都想用最省力的方式来完成交际,在交际过程中产生的语言就成了说话人和听话人力量互相妥协的折中产物。于是,在这个三变量的控制图中,符号相似度和音素总量之间,音素总量和词长之间,均呈负相关关系。此类协同关系网络控制图,有助于语言学家更直观地体会“牵一发而动全身”这个所有系统都具备的基本特质,值得更多关注。
采用协同论等研究系统的方法来研究语言,有助于了解语言系统中那些用传统方法难以探究的系统性规律以及规律之间的协同关系。但世上没有一种方法可以解决一切问题,对于下述现象,协同论便无能为力。“在生活中的每一个角落,我们都会遇到复杂适应性系统的涌现现象……在这些复杂系统中,整体的行为要比其各个组成部分的行为复杂得多”,这种整体大于组成部分简单总和的现象,即“涌现”,其“鲜明特征就是‘由小生大’。这种特征也使涌现变成一种神秘、似乎自相矛盾的现象,往往带有企图‘一夜暴富’的味道”。如果语言是一个复杂适应系统,那它必然也有“一夜暴富”式的涌现。
实际上,每个人都有过语言“一夜暴富”的经历。在2岁左右,我们似乎一夜之间就有了连词造句的能力,这种能力来得很突然,具有鲜明的涌现特征,给人们带来了魔法般的惊奇和吸引力。这种现象又是如此普遍,几乎每一位做过父母的人都曾体会过孩子带给自己的这种突如其来的惊喜,大量关于儿童语言发展的研究也描写过这种神奇的现象。然而,语言学家很难用传统的方法来观察和研究它。涌现是一种复杂适应系统的特质,或许只能用专门研究复杂系统的方法进行研究。复杂网络方法,也称网络科学,是一种分析复杂系统的利器。通过对比不同年龄儿童的语言网络,研究者发现,儿童在25个月大时,其语言网络的整体拓扑结构从简单的树形结构转为一种无尺度、小世界的模式,而这正是语言句法网络的特征。这一研究揭示了在儿童语言发展的进程中,大约在2岁左右会出现一次非线性的动态模式的相变,即句法结构的涌现。然而,发现涌现并不意味着可以解释涌现产生的机理,但至少可以打开新的思路。比如,这种句法涌现是输入语言数据累积的结果,还是也有先天因素在起作用?为什么全世界的儿童都会如此一致地选择2岁左右这个时间点?难道说出一个句子所需的某种生理机制,只有在2岁左右才能发育好?如果这种涌现真的与先天因素关系密切,那人工智能可能永远也不会涌现出造句能力。但现实并非如此,人工智能在大量数据的加持下,达到这种语言水平的时间根本用不了24个月。为什么会这样?新方法带来新思想、新观念,无疑有助于科学意义上的理论创新。相信系统科学的方法加上适宜的真实语言材料,也许会解开“句法涌现”这个人类语言发展过程中的重要谜团。
如果儿童习得母语时会出现句法涌现,一个有趣的问题是:学习第二语言时是否会有类似的句法涌现?一项涉及从小学到高中的中国英语学习者的研究表明,从复杂网络的多种指标看,二语学习过程中一直没有出现句法涌现现象。这也许说明母语与二语的句法形成机制是不一样的。尽管这样的结果似乎不难理解,因为母语习得如同在白纸上作画,而二语是在已有母语的纸上的再创作,但二者为什么会不一样这个问题,却也不好回答:难道学习一种语言不是重新在一张白纸上画画?为什么会受母语的影响?是人类共同认知机制约束下的语言普遍性在起作用?是语言习得关键期在起作用?如果儿童同时习得两种语言(母语),又会有什么不同?所谓儿童的语言学习关键期,是否因为儿童本身的省力机制还没有成熟?二语学习者的模仿类比机制不仅比儿童更成熟,而且省力原则也开始起作用?这些问题同样为语言学家深入理解某些人类语言的关键特质提供了可操作的路径。复杂网络不仅能够探究神奇的句法涌现问题,也可以用在解释一些用其他方法不好解释的问题上。比如,汉语的双字词是如何从连续的汉字链中凸显(涌现)出来的?研究者在真实汉语数据的基础上,构建了汉字为节点的有向加权网络,对该网络的定量分析表明,汉字双字词可以作为双节点岛从语言使用中凸显出来。这种涌现机制对汉语双字词的形成和习得可能起到重要作用。
为什么采用网络科学的方法可以解决一些其他方法处理不了或处理不好的问题?根本原因可能正如索绪尔所说,“语言既是一个系统,它的各项要素都有连带关系,而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果”。如果不放在网络中,这句话是很难理解的。这也说明网络能更好地展现语言系统的要素及其联系。事实上,在语言学界,语言是一种网络的思想已相当普遍。面向数智时代的发展,也需要我们对网络有更多了解,因为无论是人脑还是人工智能的人造大脑,支撑它们运作的基础都是神经网络。尽管人脑与计算机的结构不一样,但从神经网络的机理看,二者的工作原理可能很相似,只不过人学习训练的是天然神经网络,而机器学习针对的是人造神经网络。也许甚至可以说,所有的智能活动都是在网络的支持下进行的。如果是这样,学习的本质就是在已有节点(神经元)间建立新的联结、调整或固化已有节点(神经元)之间的权重等旨在寻求关系、构造更适应所处环境的神经网络的简单操作,而知识则隐含于网络的节点以及节点之间的联结之中。于是,语言处理过程也就成了网络与语言符号线性串的交互转换过程,机器自学习的难题似乎也不再那么难了,因为学习变成了根据输入不断调整网络节点机器之间联结的活动,而思维则是在没有输入的情况下在网络内部发生的各种操作。然而,语言学家可能很难通过研究神经网络来探究语言系统的运作机理,因为“只研究神经元就想理解知觉,就像只研究羽毛就想理解鸟的飞行问题一样,这是办不到的。为了理解鸟为什么会飞,我们必须懂得空气动力学”。换言之,我们可能需要另辟蹊径,构建和发展可解释语言系统运作机理的“言语动力学”。
尽管天然、人造神经网络与语言学家习惯的符号网络不一样,但所有的网络都是有共性的,要破解人的天然神经“黑箱”,语言学家可以通过语言符号构成的可观察、可解释的网络,逐步发现驱动人工智能的人造神经网络和天然神经网络运作的(语言)网络“动力学”原理,让这些神奇的能够产生智能的箱子逐渐从“黑”变“灰”变“白”,最终解开人类的智能之谜,进而回答数智时代的重大问题:数据为什么会产生智能?如此一来,也许有朝一日,我们能够培育出基于网络方法的科学的“理论语言学”。
当然,网络科学的作用不仅限于此,更重要的是它有助于解释人工智能是如何掌握词义的。辛顿说“语言学家被一个叫乔姆斯基的人误导了好几代”,这句话有些偏颇,因为任何学说难免都有时代的局限,但辛顿说的“乔姆斯基从来没有提出任何一种有关语义的理论,他的理论全是关于句法的”,则有可能是导致一些语言学理论在数智时代“失语”的重要原因。为什么这么说?因为语言是一个系统,句法只是其中的一个部分,即使是最重要的部分,也不能等同于整体和全部。尽管有些语言学研究者在大力推进语言(句法)的形式化研究,力图通过“非黑即白”的方法来寻求人类语言的普遍规律,但表达与传递意义才是作为交际工具的人类语言得以存在的根本。不重视意义、脱离人和脱离社会的语言研究,无论从什么角度看,都是不完备的,任何局部规律都不足以形成驱动整个语言系统正常运行的力量。事实上,人工智能几十年的发展史就是一部与“歧义”作斗争的历史。辛顿将大语言模型的工作原理概括为:“它实际上不存储任何文本,而是学习从文本中提取特征,把它分配给各个单词,并提取这些特征之间的相互作用,这样就可以预测下一个词的特征。”辛顿说,他这样做的基础源于语言学的词间关系网络理论和心理学的特征集合理论。
需要注意的是,无论是词间关系形成的语义网络还是词的特征集,均来自以线性形式存在的文本,而不是通过人工参与得来的,不能简单将它们等同于传统语言学中那些本质上基于分解的语义理论和方法。如果非要和语言学联系的话,人工智能处理语义的方式可能同哈里斯和弗斯的分布式语义的想法更为相近。与语言学界常见的语义分析方法相比,基于真实文本的词嵌入等方法,不仅提高了人工智能所掌握词语意义的客观性,还使它们对于意义的把握随使用或输入的变化而变化,学得越多,对一个词语与其他词的联系特征和语义关系理解得也就越深刻,对本质上难以量化的意义的理解也就越透彻,体现了语言的概率性和基于语言使用的学习的本质。人工智能在意义处理方面的突破可能在于它更好地实现了维特根斯坦的“用法论”,即“一个词的含义是它在语言中的用法”,从而使人工智能可以使用词语的上下文或文本的线性同现模式掌握词语的意义。换言之,今天的人工智能能够更好地将“意义即用法”的思想向量化、参数化、特征化、层级化、网络化,使过去难以实现的基于特征和关系的大规模语义处理变得可行,从以句法为中心的形式化规则转为基于词元(token)的更接近人类以语义为中心的语言处理机制,进而在人类语言的意义处理领域取得了突破性进展。
为了研究人类“软件系统”的规律,特别是那些我们自己没有意识到但却每时每刻都在使用的规律,研究者需要借助一些科学研究的工具与方法,不能抛开常识和心理现实性,否则语言学研究就成了“见不到人的关于人的语言”的智力游戏。如果意义就是“用法”,意义涌现于语言的使用中,意义来自词语之间的相互作用和关系,那么网络可能就是最适合表现意义的形式。这样一来,语言学家不仅需要发现语言系统的线性规律和网络结构规律、构建基于网络的语言处理的理论,还需要探究表层线性字符串和深层网络之间的转换规律。那么,从线条到网络,或从网络到线条,会有怎样的规律?这些规律又需要何种语言数据发现?在探究“线条网络”的转换过程中,可以使用哪些传统语言学的研究成果?如何用数据丰富或拓展那些已有的直觉认识和用内省法发现的规律,使其更符合人类语言规律的概率本质?
五、依存关系是连接“线条”和“网络”的桥梁
驱动数智时代快速发展的动力是大数据和深度学习,“数据为何能涌现智能”是人类“软件”研究者在数智时代面临的严峻挑战。这里用“严峻”,是想说这个问题与人类的未来关系密切。20世纪90年代左右,那时以机器翻译为代表的语言智能(计算语言学)研究者们用语言学理论和方法研发计算机系统,发现做出的很多只是各种自娱自乐的“玩具”。互联网的兴起,迫使研究者们要解决更多的现实语言问题,所开发的系统也应更具实用价值。在这种情况下,研究者们开始抛弃那些难以处理真实语言的理论,而转向人类现实世界,想办法从真实语言中获得有用的知识,并用这些知识来解决那些迫切需要解决的问题。也正是从此时开始,传统意义的语言学家与人工智能渐行渐远。
普遍依存关系(Universal Dependencies,UD)语言资源项目可能是目前人工智能领域为数不多的还需要语言学家参与的项目。截至2024年11月,该项目已有168种语言的296个可供人工智能领域使用的依存句法标注语料库(树库)。UD的名字很有深意,Universal说的是语言学仍需寻求语言的普遍规律,因为这是学科存在的根本,Dependencies指的是词语之间的句法关系,而关系是构成系统的要素。连起来看,寻求普遍句法关系或用普遍句法关系来处理尽可能多的人类真实语言数据,可能是语言学家为数不多可参与数智浪潮的途径。理论语言学界流行的短语结构语法树“好比牛顿的经典力学”,依存语法图“好比爱因斯坦的相对论。后者涵盖并且升华了前者”。更具体地说,相比其他语言学理论,依存语法不仅具有“五更”优势:更有利于自然语言处理应用、更便于从句法到语义的映射、更宜于处理灵活语序语言、更好的心理现实性、更易于同人工智能广泛使用的自注意力机制联系在一起,而且符合“简单原则”。以依存关系为基础构建的语言复杂网络与基于线条性的同现网络相比,由于吸取了语言学家关于人类语言的句法知识,也就更有利于人类语言复杂系统隐秘规律的发现。
由于在树库标注过程中,标注者通过知识外化和显化过程已将句法知识附在了语料之上,这样树库就成了机器学习人类语言知识的来源。当然,标注者的水平越高,树库的质量也就会越好,机器从中学到的知识也就越可靠。在整个过程中,尽管“受过良好训练”的语言学家为提高机器的智力水平贡献了力量,但对于探求语言普遍规律的语言研究者来说,树库更重要的作用在于发现与句法相关的概率性规律,因为概率性是人类语言的重要特性。同时,树库这样的语言资源也为语言学研究者走出人造“花园”、走进人类语言的天然“灌木丛”提供了一个难得的机会。语言学家需要回到日常语言,仔细体会人类世界无处不在的概率性,逐渐不再用人类原本具有明显统计特质的“语感”来进行绝对的“非黑即白”的语法合格性判定,转用科学的方法从真实语料中获得句子结构的概率性规律。
依存句法关系有三个基本属性:二元性,依存关系由一个支配词和一个从属词构成;不对称性或有向性,构成关系的两个词中有一个是支配词,另一个是从属词,这种有向性体现在从支配词到从属词的带有方向的依存关系弧上,这也是层次性的基础;有标记性,在依存关系弧上标有句法关系的类型。一个句子中,除中心节点(词)外,其他所有的词都有一个支配词。依存句法标注树库是由成千上万的句法树图组成。与短语结构句法树相比,依存句法图更关注的是词间关系,而不是句子的部分与整体关系。如果语义结构的本质是实词之间的关系,显然从依存关系图更容易获得人类语言中的语义关系。换言之,无论是从关系作为系统要素,还是从词间关系更容易形成网络的角度看,依存句法都是一种更适合将语言作为系统来研究的句法模型。既然如此,如果使用由依存句法树形成的树库作为数据驱动语言研究的资源,能够得到哪些与句法有关的概率分布规律?
沿着这个思路,我们研究了依存关系类型、词类作为支配词、词类作为从属词、动词作为支配词和名词作为从属词的频率分布规律。结果表明,所研究的句法相关分布大多符合齐普夫-阿列克谢夫分布。考虑到齐普夫定律是语言作为一种人驱复杂适应系统的反映,这些研究发现也说明句法子系统具有鲜明的复杂系统特质,加深了我们对语言系统性和普遍性规律的理解。然而,仅从静态的角度去分析依存句法树的系统特点是不够的,因为“造句,就是在一堆不定型的词之间建立起成为一个整体的各种依存关系,从而赋予这一堆不定型的词以生命。反之,理解一个句子,就是要找出联结句子中各个不同的词之间的所有依存关系”。这要求我们用动态的眼光去分析和看待依存关系中的句法结构,因为从理解的角度看,二维的依存结构图是从一维的线性词串建构出来的,而生成则是将二维结构图扁平化为线性词串的活动。无论生成还是理解,均离不开人的认知机制的参与。这也道出了句法在研究语言线性词串和二维结构关系时的重要性。
在众多的句法分析策略或模型中,增量分析策略是一种更具心理现实性的策略。所谓增量分析就是从听到或看到第一个词时,接收者就开始构造句子的依存结构,因为在分析过程需要用工作记忆来存放正在处理的词语和结果,所以增量分析策略也是一种与记忆密切相关的句子分析方法。这种分析方法的特点是,从左到右逐词分析,所谓分析就是找支配词,如果暂时找不到就把正在处理的词放到工作记忆里,一个词一旦找到自己的支配词就可以从工作记忆中移走。这样一来,如果一个词离它的支配词太远,那么在建立它们之间的依存关系时就会比较困难,因为工作记忆不得不保存二者中间那些暂时找不到支配词的词语。由于工作记忆中存储的内容会随时间而衰退,一旦此类词语的数量超过工作记忆的容量,这个句子就不易理解了。如果将两个有依存关系的词在句中的线性距离称为依存距离,那么根据词语的位置信息,不仅可以计算出一个句子的平均依存距离,也可以算出来整个树库的平均依存距离以及树库中某种依存关系的依存距离。为了验证依存距离与句子理解难度的相关性,我们分析了许多心理语言学家用认知实验证明过的难句,结果发现心理实验中被认为难的句子,依存距离也大。
在依存树库的基础上,依存距离很容易计算。一个词的依存距离为支配词的序号减去自己的序号,然后取绝对值;一个句子的平均依存距离为句中所有词的依存距离之和除以句中具有依存距离的词数。与建立在线条性上的同现关系相比,依存关系结合了语言学家关于人类语言句子结构的知识,可以更精细地反映人类语言的特点。看起来简单的依存距离,却能把认知和文本联系在一起,使我们通过文本计算就可以发现一些人类认知约束下的语言规律。因此,近年来它已成为计算语言学、理论语言学、应用语言学、认知语言学、计量语言学等领域一种颇具吸引力的衡量句法复杂度和理解难度的计算认知科学指标。按照系统研究的一般规律,复杂是从大量的简单中涌现出来的。既然如此,若我们使用多种语言的依存树库分析计算它们的平均依存距离,又会发现什么规律?
贝哈格尔定律认为“语义密切相关的成分在句中的位置也更为接近”,考虑到依存句法关系与语义关系的密切相关性以及语言系统中无处不在的省力原则,我们可以将这条定律或假设换一种表述方式:“人类语言倾向于依存距离最小化的句子结构模式”。为了验证这一假设,我们对比研究了20种自然语言和相应的40种人工随机语言的平均依存距离。所谓随机语言就是词与词之间的依存关系为随机生成的,尽管它们的依存关系也满足三原则(二元,不对称,有标记),但并不符合自然语言的语法。结果表明,真实语言的平均依存距离普遍小于随机语言,并呈现明显的最小化趋势。为什么会这样?因为真实语言的依存距离总体类似于齐普夫定律的幂律分布,绝大部分的依存距离都很短,至少有一半的依存关系是在相邻的词语间形成的,但另一半所呈现的长尾分布特征,也说明目前人工智能普遍采用的通过相邻词语建立关系的策略存在一定问题,而为了学到那些不相邻的关系,则不得不将学习的上下文范围盲目扩大,这样做固然学到了所需的关系,但也在很多没用的东西上浪费了算力。就像词长分布有助于生成更自然的词语一样,依存距离分布规律也可以让人工智能快速捕捉到所需的词间关系,这也是我们做数据驱动语言学的初心,即助力构建更高效和更安全的人工智能。
如果依存距离与工作记忆容量之间具有高度相关性,又根据认知科学的常识,无论讲什么语言,人的工作记忆容量大致是差不多大的,那么人类语言具有最小化依存距离的倾向是不难理解的,但这种普遍性倾向中也含有特殊性。在我们研究的20种语言中,绝大多数语言的平均依存距离大致相当,只有汉语的最大。对此,哈德森问道:“英语和汉语的其他语料库是否也有同样的差异?如果答案是肯定的,为什么两种语言的工作记忆会如此不同?是否因为汉语词语更容易记忆,所以一次可以激活更多的词语?或者是因为说中国话的人有更大的工作记忆呢?”一系列后续研究表明,哈德森的这些问题不好回答,目前可以肯定的是,汉语的依存距离无论换何种语料都是大于英语的,尽管也发现了一些影响依存距离的因素,如汉语的虚词会增加依存距离等,但要回答“讲汉语的人是不是工作记忆就大”这类涉及语言会影响认知结构的重大问题,还需要进一步努力。值得注意的是,尽管汉语的平均依存距离要大于其他语言,但其本身也具有依存距离最小化特征,因为汉语的依存距离分布同样符合幂律。幂律不仅可以解释依存距离最小化产生的原因,也在一定程度上说明词语在句子中的位序是语言作为一个复杂系统适应人类认知机制与交际需求的结果。
依存距离是一个与句法线性结构密切相关的概念,因此依存距离最小化也体现在人类语言句法模式的形成及其演化过程中。值得注意的是,人类语言的句法模式一般是从语言数据中得到的某些概率性倾向,而不是硬性的形式规则。换言之,人类语言的句法也许并不是自主的形式系统,更可能是受人的认知机制所驱动的一种概率系统。既然是概率系统,那么基于语言使用的真实语言数据可能就是发现这些概率性句法模式的重要手段。事实上,人工智能的突破可能就是它们发现并使用了这些隐含的规律。除了词序模式之外,依存距离最小化可能也塑造了人类语言中其他一些更抽象的句法特质。统计表明,在大部分人类语言的依存句法结构树中,依存关系交叉的现象很罕见。这一点与依存距离最小化密切相关。这些隐性抽象的句法模式可能真正反映了所谓的语言共性,其背后的动因则与人的认知与生理机制密切相关。
依存距离最小化也对句法模式的演化产生了重要影响。一般认为,在人类语言的早期阶段,自然语言的语序以SOV为主。然而,在语言演化的过程中,句子的长度和复杂性呈现出不断增加的趋势。为了防止依存距离随句子长度急剧增加,很多语言可能从SOV语序转换到SVO语序。此外,在VO语言中,标记疑问、否定等概念的成分往往置于动词之前,在OV语言中,则往往置于动词之后,这有利于减少动词与宾语之间的依存距离。这一差异可能会导致VO与OV语言分别演化为屈折型语言与黏着型语言。当然,OV、VO这样的语序类型本身也不是绝对的。支配词可能位于从属词之前,也可能位于它之后,二者之间的这种相对位置关系可称为依存方向。通过对数十种语言依存树库的分析,我们发现,语序类型是连续的而不是离散的。换言之,当我们说某种语言是OV语言时,它也许只是比别的语言更OV而已。来自真实语料的依存方向(语序类型)连续统,作为一种新的探索句法参数的概率方法,比传统方法更适合判断真实语言的类型,因此得到了人工智能研究领域学者的关注,并将其称为“刘—有向性”(Liu-Directionalities)指标。这些现象意味着演化生物学的基本理念也适用于语言,只不过语言需要适应的不是自然,而是要满足人的交际需求,满足社会发展的需要。当然,这些演化趋势不是确定性的,大多为统计倾向性,没有大量真实的语言数据很难捕捉到它们。
依存距离最小化是一种认知驱动的人类语言的普遍特性。依存距离作为一种可面向多语种真实文本的计算认知指标,近年来在许多领域得到了应用。鉴于依存距离最小化在人类语言中的普遍性,一些不太了解依存距离最小化机理的学者,很容易将其与乔姆斯基的普遍语法联系在一起,但实际上两者并不一样。乔姆斯基认为,普遍语法是人与生俱来的东西,是人类语言普遍性的根基,是大脑中处理语言的专门“机制”。而与依存距离最小化最直接相关的认知机制是工作记忆容量,工作记忆显然不只管语言的事。换言之,依存距离最小化的特征是由人的普遍认知机制约束产生的,它在人类语言中的普遍性并不能、也没有证明人脑中存在一个生物学意义的专门负责语言的东西。
尽管依存距离最小化无法证明普遍语法存在与否,但它作为为数不多从数十种真实语言材料中发现的具有普遍意义的人类句法模式特征,在一定程度上表明含有依存句法关系的语料库(树库)是发现人类语言一维线性和二维网络之间句法规律的重要资源。从语言学理论看,依存距离最小化的发现表明,人类语言句法结构的形成与演化在很大程度上是由人的认知机制驱动的,即认知机制影响语言的结构模式或认知隐于语法之中。因此,与线条性密切相关的依存距离最小化,也可以对人类语言复杂网络的小世界特性作出更合理的解释。当然,支配语言系统运作的不只是依存距离最小化,人类语言是一个多因素制约的复杂系统,为了表达的需要,长距离依存关系的出现难以避免,但语言作为一种自适应系统,会逐渐形成某些句法模式来适应这些长距离依存关系。比如,在遇到长句时,长距离依存出现的可能性会加大,此时会触发语言系统的某种自适应机制,从而降低句子的处理难度。计算机模拟研究表明,为满足依存距离最小化的系统需求,使用者会引入一种动态处理单位(组块)来控制长句的依存距离,从而实现依存距离最小化的目标。这再次表明,语言是一种由人驱动的复杂适应系统,是认知、功能等约束与选择的产物。数据驱动语言学作为一种动态的、考虑到语言使用者(人们)的语言学研究方法,更有解释力,更能发现人类语言系统的真正规律,因此也更有可能达到数智时代对语言研究的期待。
结语
数智时代,我们要用数据的眼光审视现有人类知识体系,特别是有关人类“语言软件”的那些知识。回到人类语言的本质特性,结合人工智能的新进展,直视从数据到智能的现实,不限于人的直觉,适当考虑基于规则的传统方法,从真实的语言数据出发,寻求概率性语言规律的涌现机制,或许是数智时代语言研究者可以努力的方向。本文以线条性和系统性为基点,用许多实例探讨了基于语言数据去挖掘更具解释力和预测力的语言规律的必要性和可行性。词长、句长和词的线性位置分布规律,都属于语言的线性规律,皆来自真实的语言材料,亦有助于我们了解人工智能的运作机理。为了发现这些规律乃至定律,我们需要学习新的方法。对于作为系统的语言,就需要采用系统科学的方法来研究。复杂网络是一种用得比较广泛的研究复杂系统的方法。使用它,我们不仅可以探究语言作为一种复杂系统的“涌现”现象,也可以从网络的角度探究语言的处理机制。网络使人类语言的语义成为一种可量化的东西,可以推动人工智能语言能力的发展。因此,采用各种系统科学的方法来研究语言的系统性,自然就成了数智时代语言学家需要努力的重要方向。跨学科方法的引入,能够加深我们对于语言系统的理解,也将推动语言学科学理论的形成。
通过依存关系,可以将传统语言学(依存语法)和真实语言数据(树库)结合在一起,采用数据驱动的方法和可计量指标,寻求人类语言普遍规律并服务于构建更好的人工智能的路径。依存距离最小化、依存方向连续统等从人类真实语言中发现的语言规律和模式,不仅吸收了传统语言学中那些能反映语言系统本质的养分,而且在数据驱动方法的加持下,能够更好地逼近抽象的语言系统,因此具有更好的可解释性和更广泛的应用领域,是一条颇具时代感与未来感的“文本+计量”研究路径。我们要面向人们日常使用的语言数据,以语言系统的本质属性为基点,发展数智时代需要的数据驱动语言学,构建可解释语言系统运作机理的“言语动力学”理论,从而为建设更美好的数智社会和更高效的“人机智能共同体”贡献力量。数据驱动语言学也预示着一种可能,即在人类探索语言数据涌现语言智能的道路上留下中国语言学家的身影。
〔本文注释内容略〕
原文责任编辑:莫斌 崔晋