当前,大语言模型已广泛应用于医疗、教育、科研辅助等领域,并且表现得越来越智能。但是,其性能越卓越,内部结构越复杂,决策过程就会越难以追踪。这种由内部机制的高度不透明性带来的不可解释性,已成为人工智能哲学与工程实践的核心问题。
在大语言模型中,“不可解释性”不是指完全没有任何分析方法,而是指我们可以看到输入与输出,但很难给出生成机制层面的解释。也就是说,大语言模型的不可解释性主要由生成机制引起。首先是高维参数之间的非线性关系与结构的不可还原性。在处理输入语言如“地球绕着___转”时,模型不断地通过Transformer的核心机制多头注意力(Multi-Head Attention)尝试计算,预测错了就调整参数。当模型重复数万亿次,填上正确的“太阳”时,模型学到了“类人的”语法、语义、常识等。其中,模型在重复数万亿次计算时,依赖的是数十亿至千亿级参数在深层神经网络中的非线性变换;同时,模型内部结构呈现高度分布式特征,单一语义信息往往由多个神经元共同编码,即单个神经元参与多种语义表达。这种“多对多”的映射关系致使大语言模型无法建立参数与语义之间的稳定对应关系,并进一步地形成整体涌现(emergence)行为。如整体涌现出许多不可预测的幻觉知识,这些无中生有的幻觉描述是无法通过对大语言模型的局部分析进行还原的。因此,在大语言模型中,传统基于线性、还原论的解释模式在此失效,由高维参数之间形成的非线性整体涌现结构无法进行机制解释。
其次是海量数据驱动语言学习规律与生成知识的不可追溯性。大语言模型通过在大规模语料上进行自监督学习获得语言能力,其知识来源具有高度分散性,输出的语言在本质上是根据相关性对训练数据的拟合。假设有一句话:“我今天很饿,想吃一碗___。”模型在用多头注意力机制进行预测时,发现与“面”的相关性很高,因而它会赋予“面”一个较高的概率,相反给“石头”一个较低的概率。这种生成机制使模型获得的是统计相关的频率信息,而非因果推理知识。因此,大语言模型的输出只是对统计相关性的结果进行描述,不是建立在清晰明确的因果关系基础上,因而不是对“为什么”进行可溯源的因果说明。从理论上说,真正的科学规律是建立在因果推理之上,以统计相关为生成机制的大语言模型不能真正实现因果解释。
最后是语言输出的概率生成机制与多重解释的不确定性。当你和大语言模型进行对话时,模型先把句子拆成token(词元),然后通过多头注意力机制对下一个token的概率分布进行采样计算,并得到每个可能token的概率,然后选择其中一个最大概率的token,接着往下生成,最终一步一步生成整段回答。这整个过程具有内在随机性:在语言生成的过程中,即使在相同的输入条件下,也可能产生不同结果。例如,在表格推理与符号任务中,当改变输入的语言结构,大语言模型的输出结果也可能会发生变化。因此,大语言模型的整个输出路径不可唯一确定,对生成机制的解释也不再是对确定过程的说明,而是对概率行为进行的多角度描述。
根据以上分析,大语言模型是“天生”不可解释的,尽管它看似理解人类语言,如能写文章、能回答问题、能在一定程度上进行推理。这是否意味着不可解释的大语言模型能生产知识?根据传统认识论的定义,知识必须满足三个条件:(1)信念(Belief),你必须相信命题p是真的;(2)真实(Truth),命题p必须确实为真;(3)正当性 / 确证(Justification),你需要有合理的理由去相信命题p。按照知识的这个经典定义,不可解释的大语言模型输出的表述不是知识。首先,不可解释的大语言模型不具备信念。一方面,大语言模型本质是统计预测机制,它根据概率生成文本,而不是在某种信念下生成的语言描述。另一方面,目前的大语言模型只是一个复杂适应系统,组成它的智能主体没有嵌入相信某事为真的内部模型。因此,不可解释的大语言模型不满足知识的信念条件。其次,不可解释的大语言模型的输出不完全真实。经过深度强化学习的大语言模型,有些生成过程确实是建立在科学事实之上,其输出的某些语言结果具有科学性。但很多时候,大语言模型根据概率生成机制习得语言规律,它生成的是最可能出现的文本,而非真实文本,从而输出错误的语言表述。最后,不可解释的大语言模型不具备正当性。从传统观点看,不可解释意味着模型从输入到输出是一个黑箱,我们无法说明它为什么得出这个结论,模型内部缺乏因果推理。如此,当一个命题无法提供理由、缺乏论证的过程,它就从不可解释转向是否可靠的问题。
不可解释的大语言模型不能满足知识的信念、真实与确证这三个必要条件,即它自身不能产生知识。但人类可以利用大语言模型生成若干新表述或者候选命题,然后由人类加以证成,从而转化为知识。这样的分析进路实际上引出一个更深层次的哲学问题:人工智能时代,何谓知识?传统认识论中对知识的定义是以人类主体为中心,强调人的信念与相信的理由;在人工智能时代,知识的生产过程已经变成人机协作模式,甚至在未来可能发展出由智能机器独立生成知识的情况。如此一来,我们需要重新界定知识的含义,并进一步提出无信念的知识生产概念。
“机械可解释性”是当前理解大语言模型内部生成机制的前沿方向。它的目标很直接,但难度也很高,即它不仅要知道模型做了什么,还要知道它是如何一步步做出来的。机械可解释性的基本思想是把大语言模型中的神经网络当作机制系统来分析,这与一般只解释输入与输出关系的功能主义大语言模型不同,机械可解释性强调直接分析模型内部结构,找出具体的电路,解释每个组件在计算中的因果作用。这就像是与某个大语言模型进行对话时,研究者不是只关注大语言模型说了什么,而是要理解组成语言模型的神经元是怎么放电来形成它输出的内容。从具体实现的角度,首先要将特征进行分解,即把神经元激活分解成可解释的特征;然后进行电路分析,即找出一组神经元和相应的权重,证明它们共同实现某个功能;接着进行激活干预,方法是改变某一层或某个神经元的激活,观察输出如何变化,如果输出显著改变,就说明这个组件在因果上是重要的;最后是进行可解释表示,如将复杂向量空间转化为更适合人类可读的结构。
按照这样的思路,如果模型内部确实有结构,如果我们能够找到稳定的电路、建立因果解释,那么大语言模型的不可解释性可能只是暂时的。同时,从知识论的角度,如果机械可解释性在技术实践上是可行的,我们就可以解释模型为什么得出这样的结论,为语言输出提供某种形式的理由。如果一个系统,有内部可解释机制、能因果推理、能自我修正,那它就成为人工智能时代一个可以生产知识的新型主体。
(作者系华南理工大学马克思主义学院教授)