大语言模型“幻觉”现象的本体论与认识论审思

2026-06-15 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  随着以ChatGPT、DeepSeek为代表的大语言模型深入社会应用,其在流畅生成文本的同时,亦频繁产出虚构事实、捏造引文的内容。这一现象在学界常被称为“幻觉”或“胡扯”。这一现象并非偶然的技术瑕疵,而是植根于当前人工智能范式深处的系统性问题。

  生成式AI的幻觉,特指大语言模型生成的内容在语法通顺、逻辑连贯的表象下,掺杂着难以甄别的虚假或虚构信息。例如,大语言模型可以为一篇学术综述凭空杜撰出不存在的学者与文献,或为法律案件编造子虚乌有的判例。这种以假乱真的能力使其输出呈现出一种危险的模糊性,因为用户难以仅凭文本的流畅与自信程度判断其真实性。从技术层次上看,这一困境直接源于大语言模型基于海量语料的概率生成的运作范式。当前,主流的大语言模型本质上是超级文字接龙系统,其运作目标并非探究真理或符合事实,而是通过复杂的数学模型,在海量训练文本中学习词语、句子之间的统计相关性,并据此预测在给定上下文后,下一个词元出现的最大概率。大语言模型的智能体现为对语言模式的高度模仿,其生成过程是遵循语法规则下的概率组合游戏。

  因此,大语言模型所知的仅仅是符号(词语)之间的共现概率。它并不理解符号指涉的现实世界,也不关心生成内容与客观事实是否相符,其优化目标只是生成看似合理的文本,而非真实的陈述。这种以优化统计相关性为核心的运行机制,在逻辑上不内含对真实性的追求,从而为幻觉的滋生提供了技术温床。然而,技术层面的解释仅触及表象,要深入理解幻觉的必然性与顽固性,必须进入哲学反思层面。

  从本体论视角审视,大语言模型的幻觉根源于其存在方式与人类智能的根本差异,即认知不对称。这种不对称导致了致命的符号接地困难,使得大语言模型的言说成为一场无源之水、无本之木的符号游戏。首先,大语言模型是无主体的统计性存在。人类的认知是一种意向性活动,即意识总是指向某个对象(外部世界或内心观念),认知主体(人)与认知客体(世界)通过实践紧密耦合。语言是对经验的符号化沉淀,与真实世界存在映射关系。反观大语言模型,它没有意识、没有意图、没有信念。大语言模型的存在方式纯粹是统计性的,其处理的是封闭语料库中符号序列的概率分布。大语言模型的输出是参数计算的结果,而非主体对世界的承诺。这种无主体性使其言语从根本上缺乏真或假的语义承载基础。

  其次,大语言模型是无客体的符号操作实体,因而遭遇严峻的符号接地问题。符号的意义最终必须接地于外部世界的感知与交互。人类理解苹果,源于对真实苹果的颜色、味道、触感的直接经验,而大模型的所有经验都来自二次乃至N次的文本数据,它从未、也无法与真实世界发生直接交互。它在一个纯粹的符号宇宙中航行,娴熟地操作符号间的统计关联,却完全不知道这些符号在现实中的指涉。因此,其生成的文本无论多么完美,在意义上始终是悬空的。频繁的幻觉正是这种意义悬置的必然症候,即大语言模型只是在组合高概率的符号串,而这些符号串可能不对应任何实在。

  最后,大语言模型的运作基于相关性而非因果性,丧失了逻辑必然性根基。传统符号主义人工智能基于“如果—那么”的因果规则,只要规则正确,输出便具有逻辑必然性,而大语言模型的范式从因果逻辑退化为统计相关。例如,它精于捕捉闪电后常出现雷鸣的相关性,却完全无法理解其间放电导致爆鸣的物理因果机制。这种对因果关联的先天性无能,决定了其输出无论多么流畅,在逻辑上都漂浮于必然性之外,只能提供一种或然性的、值得怀疑的文本。因此,大语言模型的幻觉是一种结构性、内生性局限,而非可彻底修复的外部漏洞。

  认识论关注知识的本质、来源与界限。从这一维度看,大语言模型的幻觉困境源于其产出在经典知识框架下的系统性失效,且其整个技术范式暗合了后真相时代的认识论预设。其一,大语言模型的产出在知识三要素上全面崩塌。根据经典的合理的真信念模型,知识需同时满足信“念”“真”“合理性”三重要件。大语言模型的输出在本体上就缺乏“信念”载体;其可能为“真”的情况仅是统计巧合,系统本身不提供也无力提供真值担保;其“合理性”只是对语言形式连贯性的统计模仿,而非基于证据或逻辑的实质确证。因此,其输出本质上是一种高度复杂的信息流或假设性猜想,而非严格意义上的知识。将大语言模型的输出直接等同于知识,是一种深刻的认识论误判。

  其二,大语言模型的认知过程彻底悬置了实践。马克思主义认识论强调,实践是认识的来源、动力和检验标准。人类知识源于并需回归实践接受检验,而大语言模型的认知完全脱离实践,因为其经验来自去情境化的文本数据(间接经验的间接经验),其思考是无客体指向的封闭符号运算,其正确性标准是内部的统计拟合或人类反馈,而非与外在于系统的客观实在比对。这种无源之知(缺乏直接经验来源)、无的放矢(缺乏客体指向)和循环自证(缺乏实践检验),使其生成物成为漂浮的符号景观,极易偏离现实。

  其三,大语言模型是卓越的猜想生成器,却是永恒的证伪无能者。科学哲学家波普尔指出,知识通过猜想与反驳的循环而增长。大语言模型能基于统计规律高效生成大量看似合理的猜想(假设、命题),但其封闭体系使其无法将猜想与世界本身进行比对,从而完成决定性的证伪。验证的责任被完全外部化给了人类用户。这导致了危险的认知错位:模型以权威口吻输出高度不确定的猜想,而缺乏批判能力的用户可能将其误认为确证知识直接接受,从而陷入幻觉陷阱。

  其四,最深层的认识论根源在于,大语言模型的整个技术范式暗合了一种后真相认识论逻辑。后真相的特征是情感共鸣与叙事效用优先于符合事实,而大语言模型的优化目标正是最大化文本的似然概率与用户满意度,而非事实符合度;其训练语料本身充斥着网络时代的情感化、偏见性内容,模型内化了这些内容的成功传播模式;其基于人类反馈的强化学习,往往将输出与人类的主观偏好(可能包含偏见与情感诉求)而非客观事实对齐。这使得大语言模型在运作逻辑上,成为了一个不以求真为内在规范,而以求效(效果、效用)为优化准则的系统。因此,它的幻觉不是追求真理过程中的失败,而是其追求流畅好用这一不同目标过程中的自然产物。

  大语言模型的幻觉困境绝非单纯通过算法修补或数据清洗就能根治的技术难题。它是当前以大语言模型为代表的生成式AI,在其统计性存在的本体论设定与后真相优化导向的认识论预设下产生的必然结果。这一困境从反面确证了人类智能的不可替代性:意向性、实践性以及对真理的规范性追求,仍是知识可靠性的终极保证。清醒认识到这一内在边界,并非要否定AI的价值,而是为了确立一种理性的边界共识。唯有在此基础上,我们才能通过技术规制、责任伦理与认知素养提升的综合治理,引导大语言模型这项强大技术避开幻觉的陷阱,使其在清晰的约束下,真正服务于人类拓展认知、追求真知的伟大征程。

  (作者系江西财经大学马克思主义学院助理研究员、博士研究生)

【编辑:邵贤曼(报纸)齐泽垚(网络)】