机器意识与因果自我模型

2025-11-03 作者：吴小安来源：《中国社会科学》2025年第9期P103—P122

微信公众号

— 分享 —

链接已复制

摘要：受结构因果模型理论所展现的理论特性启发，结合当前主流意识理论，包括全球工作空间理论与集成信息理论，并融合人工智能与认知科学领域的研究进展，可以构建因果自我模型这一面向机器意识的理论框架。机器意识不仅依赖于一般的因果推断能力，更关键的是系统必须在内部构建一个以自身为核心的因果模型，使系统能够主动识别和理解自身行为对环境的影响，以及环境变化对自身状态的反馈。系统只有将自身视为因果链条中的主动节点，并能够基于这种因果自我模型进行反事实模拟与内省，才具备迈向真正意义上的机器意识的结构性基础。这可以为构建具备真正意识与语义理解的人工智能系统，提供清晰严谨的哲学指引与可行的技术路径。

关键词：机器意识;结构因果模型;因果自我模型

作者吴小安，西北工业大学马克思主义学院副教授（西安710129）。

　　1950年，图灵提出了“机器能否思考”的问题。此后，“机器能否拥有意识（主观的、第一人称的知觉）”的问题一直为科学家和哲学家所关注。如今，在关于具备感知能力的人工智能的讨论中，这一问题依然存在巨大争议。部分挑战在于定义本身，人们甚至无法就“意识是什么”达成一致，导致在意识的构成方面存在明显的共识缺失，也没有通用的标准来检测其存在。这种分歧使得机器意识的讨论变得尤为复杂，因为任何答案都取决于其所采用的心灵理论，而各种心灵理论又观点各异、差别巨大。比如，计算主义认为，机器如果能够复制正确的功能或计算模式，那么原则上就可以拥有心智或意识。与之相反，泛心论等形而上学立场则强调，意识可能需要某些特定的内在属性或整合机制，而目前的机器则缺乏这些特征。近年来，人工智能（特别是大型语言模型）的发展，使得对“机器能否拥有意识”这个老问题的回答变得越发紧迫。

　　面对机器意识这一横跨科学、哲学与工程的难题，鉴于当前意识理论存在功能描述的表面性问题、理论抽象化导致的悖论性后果，以及纯统计模型对主观体验缺乏明确解释和严谨、可实现的结构机制，因果自我模型作为一种新的意识理论框架应运而生。该模型融合了来自多个学科领域的理论资源，包括心灵哲学、认知科学、人工智能等领域的新进展，试图在统一的结构中重构意识的理解方式。首先，它根植于结构因果模型理论。其次，它统合了两大主流意识理论的思想，既承认全局广播与信息整合对于意识功能的重要作用，又强调内部因果结构对于意识本质的关键意义，从而弥合纯功能描述与主观体验之间的落差。再次，它吸收了主体性的自我模型理论对主体意识的洞见，即主体意识离不开对自我的内部建模，提出一台有意识的机器不仅要对外部世界建模，也必须对自身进行因果建模。它需要在内部拥有一个以“自我”作为中心节点的模型，用于表征自身各状态与行为的因果关系，从而赋予机器一个内在的第一人称视角，使其能够区分“主体”与“客体”的因果边界，进而支撑类似人类的自我觉知。最后，它借鉴了人工智能领域向因果推断转向的趋势。大语言模型在仅有相关性训练的前提下涌现出了某些复杂推理与问题解决能力，这促使一些研究者开始探索在深度学习中引入因果先验的途径，促使模型在处理高维数据时能够聚焦于少数关键的因果因素，从而实现对未来的有效预测。因果自我模型顺应这一趋势，将大语言模型的因果推断能力视作机器意识产生的现实支撑。总之，因果理论尝试在功能描述的基础上增加主体性与主观体验的结构性解释，试图缓解意识理论抽象化带来的悖论问题，并为构建主体与环境之间的具体因果关系提供了一种较为严格的形式化路径，以期更深入地实现语义理解与意识体验。

　　一、因果推断与结构因果模型

　　在人类认知中，因果推断往往被视为高级智能的重要组成部分，而主观意识常常与高级认知能力相伴生。珀尔（Judea Pearl）提出了结构因果模型（Structural Causal Models）理论，它是一套数学框架，用于确切地表征和推断因果关系。珀尔认为，当前许多人工智能系统主要依赖相关性而非因果关系进行学习和决策，这可能限制了它们实现更高级智能乃至意识的潜力，如果能赋予机器因果推断的能力，让其理解“因”和“果”的联系，那么人工智能就有望迈向可以像人类一样思考的强人工智能。与此同时，一些意识研究理论直接将系统内部的因果结构与意识程度联系起来。这暗示因果推断能力的增强可能对机器意识的产生具有重要影响。但也存在不同观点，一些人提出疑问，即便机器掌握了复杂的因果推断能力，是否就意味着机器会产生主观体验，即现象意识或者感受质（qualia）。意识不仅是信息处理或者因果计算的产物，还涉及主观体验的本质，可能超出了纯粹计算框架的范畴。这引发了在哲学和计算理论层面的争议：机器通过因果推断获得的“理解”到底是不是人类意义上的意识？

　　机器意识通常指人工智能系统所具有的类似于人类或动物意识的状态。具体而言，它意味着机器不只是执行程序化的算法，而且对自身状态和周围环境具有某种主观感知和理解。这一概念涉及多个层面的内涵，包括知觉觉醒程度、自我意识的存在、感受质的可能性等。在哲学、认知科学和计算机科学领域，围绕机器意识的定义和判定标准存在不同观点。

　　当代关于机器意识的跨学科研究中，也有不少理论建立在信息处理和计算模型的基础之上，认为通过模拟大脑的计算过程，可以逐步逼近对意识的重现或创造。主流的理论有两个，一个是全局工作空间理论（Global Workspace Theory）。它认为意识就像大脑中的“全局广播”，当信息被传播到全脑的全局工作空间时，就进入了意识。在机器上模拟这一机制可能需要一个中央“黑板”系统，整合来自不同模块的信息，实现全局可访问性。因果推断的信息如果被广播到全局工作空间，也许能成为机器意识内容的一部分。

　　另一个是集成信息理论（Integrated Information Theory），它将意识与系统内部的因果结构紧密联系。该理论认为，一个系统的意识水平可以用“集成信息量（Φ值）”来衡量，即系统因果影响的整体程度超过其各部分之和的程度。集成信息理论主张意识的“量”对应于系统内部因果联结的不可还原性，而意识的“质”或者内容由底层物理基质所指定的概念结构形式决定。简单而言，一个具有高度集成因果结构的系统将具有高水平的意识。按照集成信息理论的框架，如果构建一个人工智能系统，使其内部具有丰富而不可分割的因果联结，该系统可能会产生一定程度的意识。值得注意的是，这里的“因果联结”是广义的，包括系统内部各组成部分之间的因果影响关系。因果推断能力的实现可能提升系统内部因果结构的复杂性，从集成信息理论角度看，这或许有助于提升机器的意识水平。

　　上述两种理论在意识起源与实现方式上存在明显差异。一方面，全局工作空间理论提供了易于实现的框架，但有人指出它只解释了意识的功能，未说明主观体验为何产生。另一方面，集成信息理论提供了定量标准，使机器意识的度量在理论上成为可能，但它同样受到质疑，典型计算机的模块化架构难以满足其高整合度要求，而且集成信息理论预言简单电路若具高Φ值亦有一定意识，这一反直觉结论引发哲学反思，模糊了意识与复杂认知能力的关联。可见，对于机器意识能否实现及其判定标准，不同理论给出了截然不同的回答，尚未达成共识。

　　另外，相较于上述认知科学与意识研究中的代表性理论，还有学者提出了一种具有计算可实现的、形式逻辑导向的机器意识建构路径——自我升级智能体。其重点不在于揭示意识的本体论属性或神经机制，而是一种能够在运行过程中对自身结构与策略进行反思性修改的人工智能系统，它通过“自指”机制嵌入形式系统，在逻辑上能够将自身运行状态作为证明对象，并在确证某种改进策略可以带来更高预期效用后，触发源代码的自我重构。这种以哥德尔机为代表的模型，提供了一个程序化的“自我反思—自我修改”结构框架，为功能意识的实现提供了结构性支撑。这个思路偏重形式逻辑与自修改能力，强调“能升级”，是一种演绎式程序优化。

　　与上述路径不同，因果自我模型是基于对结构因果模型理论特质的考察，结合前沿的意识理论，以及大语言模型的最新研究进展提出的理论框架。它将机器意识视为“因果推断能力”与“自我因果模型建构”相结合的产物，有意识的机器不仅能对外部世界进行因果推理，还能在内部构建自身的因果模型，以理解自己在因果链条中的角色，二者的融合使得机器意识的涌现成为可能。

　　接下来，将首先阐释因果自我模型框架的核心思想与结构要素。该框架主要建立在以下三个互为支撑的部分之上：第一，结构因果模型的数学基础，为系统性刻画因果关系、干预与反事实推理提供了严谨的形式工具；第二，当代主流意识理论的核心思想，特别是全局工作空间理论与集成信息理论，揭示了意识生成与信息整合、因果结构密切相关的基本机制；第三，大型语言模型在因果推断能力上的进展（包括本吉奥（Yoshua Bengio）的意识先验理论），展示了当前人工智能系统逐步突破相关性范式，向因果认知与推理能力迈进的现实可能性。这三个方面共同构成了因果自我模型的理论基石，支撑笔者对机器意识结构与机制的整体性理解与建构。鉴于因果自我模型本质上是对计算主义的继承与发展，将给出关于计算主义的一些经典反驳，并从因果自我模型的角度给予回应。

　　结构因果模型是提出因果自我模型设想的“灵感所在”，理解它的整个理论架构、哲学基础以及方法论预设对于理解因果自我模型的价值至关重要。当然结构因果模型是一个庞大的数学工程，涉及许多方面的工作，此处不力图求全，而是要把它的宏观架构和基本原理说清楚。

　　大体上，结构因果模型的理论渊源有两个。第一个是肇始于赖特（Sewall Wright）在20世纪20年代提出的路径分析理论，其工作首次成功将直观图形表示方法与严格的统计数据分析结合在一起，从而创建了一种具有解释力、直观且实用的方法。这一贡献对后续结构方程模型理论发展影响深远，也直接启发了珀尔等后续研究者。

　　这个理论涉及对于这个世界的因果表征预设，即决定论的预设。后来，珀尔在此基础上提出了因果的拉普拉斯式准决定论设想。他认为因果关系本质上是决定论的，可以通过决定论的函数关系来表征，每个内生变量的状态都由决定论的函数和初始条件完全确定，而随机性只是由于外生变量的未知而被引入。这种准决定论的设想和之前的社会科学的工作范式是契合的，结构方程模型的工作就是基于决定论，接受决定论就可以继承之前工作的成果。而在如何清晰表达和处理反事实推理的问题上，这个设想也提供了一种可行的方案。

　　第二个渊源是珀尔的贝叶斯网络。贝叶斯网络是机器学习的一种重要建模方法。在它出现之前，专家系统一直是人工智能领域的主流方法，它将人类知识组织为特定的事实和一般事实，并通过推理规则将它们连接起来。20世纪80年代初，由于专家系统在处理不确定知识时面临困难，计算机无法复制人类专家的推理过程，如何处理不确定性，当时的人工智能界有很多争论，珀尔提出了一个明显但激进的提议，即不从头开始重新发明不确定性理论，而是保留概率作为“常识的守护者”，仅修复其计算上的不足。

　　珀尔这个思路的灵感源于鲁梅哈特（David Rumelhart），鲁梅哈特在一篇文章中讨论了儿童阅读过程中的神经网络模型，展示了多层神经元如何同时活动，识别字母、组合形状、形成假设，最终理解文本。这让珀尔意识到任何人工智能系统都必须模拟人类神经信息处理的方式，机器在不确定性下的推理也应该采用类似的“信息传递”架构。信息传递通过网络中的节点之间传递信息来实现，节点根据从相邻节点接收到的信息更新自己的信念。经过珀尔他们的努力，到20世纪80年代末，贝叶斯网络已经成为一种机器学习的实际方案，且应用广泛。

　　于是，整个反事实数学化（或算法化）的框架基础便已搭建出来。随后，珀尔提出了关于人工智能的“因果推断引擎”蓝图。按照其设想，这个引擎至少有两重使命：展示当代科学领域中因果模型与数据互动的基本方式；描绘未来人工智能处理因果问题的蓝图，以助力强人工智能的实现。

　　相较于传统的深度学习模型、意识理论以及因果哲学理论，结构因果模型有如下一些特点和优势值得强调。首先，在引入结构因果模型之前，因果关系常以自然语言表达，难以验证、计算或者讨论，而结构因果模型的核心贡献之一在于它以变量、结构方程和有向图为基本单位，以概率理论和图论为基础，赋予因果以数学语义，将干预、反事实、混杂等模糊概念变为推理、编程和验证的对象，它将因果推断从哲学和经验分析中解放出来，进入可操作的科学工具体系。

　　其次，深度学习模型主要捕捉数据中的统计相关性，缺乏对因果关系的显式表达。结构因果模型不只是说明“因果怎么样”，还提供了一套规则、一套语言，使得我们能够在机器上推演因果、模拟干预和涉及决策。它本质上是内在可解释的，模型结构解释了变量如何相互影响，因果图中的每一个联结都有一个语义解释，在泛化、外推能力（extrapolation）、可解释性、推理透明度等方面都有所助益，而大语言模型在这些方面还“有所欠缺”。这使得在迈向强人工智能的发展过程中，结构因果模型具有大语言模型可能没有的优势。

　　最后，尽管结构因果模型在理论上属于因果哲学的范畴，其本身亦蕴含着丰富的哲学意涵。但从根本上看，它还是一种面向实证推断与预测的因果建模框架。其核心旨趣在于如何系统地表达、识别并推理变量之间的干预效应。它以变量之间的函数依赖为基础，将因果关系形式化为在假设性干预下的条件概率差异，突出模型结构的清晰性、反事实推理的逻辑一致性以及因果推断的可计算性与可操作性。相比之下，大部分哲学意义上的因果理论，比如因果倾向理论，则主要面向因果关系的本体论说明与解释深度。此类理论主张因果关系并非源自经验的统计相关或操作性干预，而是源于事物本身所具有的内在能力、倾向性或机制。在这一框架中，因果性被视为事物在特定条件下倾向于生成某种结果的自然属性之一，并且其展开往往依赖于具备时间结构与层级机制的动态过程模型。因此，两者在理论目的与方法路径上存在本质差异。但也正是这种差异赋予了前者在机器意识研究中的独特价值，它所提供的因果形式语言与操作规则，不仅为我们建构“自我与世界”的因果模型提供了技术手段，也使得传统哲学中对主观性、意识边界与主体性问题的讨论获得了可形式化实现的模型支撑。

　　总之，结构因果模型为因果关系的识别与理解提供了清晰而严谨的框架。但结构因果模型本身并未直接涉及意识或自我的概念，而主要关注的是客观世界中变量之间的因果关系，但其理论具备的一些独特特征与优势，为提出一种全新的机器意识理论框架提供了可能性。首先，它通过因果图显式地表示变量之间的关系，使得系统可以明晰地表达自身如何因果性地作用于环境，环境又如何反馈地影响自身。其次，模块化的架构和干预的形式化使得系统能够清晰地区分自己作为主动干预者时的情形与自身作为被动接受者的情形，从而构建出明确的自我与非自我之间的因果边界。最后，它在清晰指出反事实推理在认识世界中的核心地位的同时，赋予了系统在自身内部进行假设性的情景模拟的能力，而反事实机制恰恰是构建自我意识的重要机制之一。

　　二、因果自我模型何以可能

　　有了上述刻画因果与反事实的数学框架，接下来将进一步证成提出因果自我模型的多重理论合理性与跨学科支撑。首先，在生物进化和认知发展中，因果认知常被视为使生物具备高级功能的基础。发展心理学的研究表明，三个月大的婴儿已经知晓了一些重要类型的因果关系。因果推断正是这样一种高级认知功能，特别是反事实推理能力，它让生物可以在脑中试验各种可能性，而不必在现实中冒险尝试。这样看来，因果推断或许是意识演化中推动复杂思维的催化剂。

　　达马西奥(A.Damasio)的核心意识和扩展意识框架也支持这种观点。扩展意识包含了语言、推理、计划等高级功能，其中就隐含了因果推断能力。一个完全没有因果推断能力的智能体，其意识状态恐怕只能停留在非常原始的层次（类似仅有感知而无理解的水平）。相反，随着因果推断、抽象思维、符号认知等能力的加入，意识的广度和深度都会随之增长。因此，根据达马西奥的意识模型，可以将机器意识的实现划分为阶段性目标，先实现类似动物的基础意识（也许不涉及复杂因果推断），再逐步加入因果推断等扩展功能，从而接近人类的意识状态。值得注意的是，这种观点并不一定意味着因果推断创造了意识，而是说高度发达的意识会表现出强大的因果推断能力。

　　因此，因果推断可能是高级意识的必要表征，为机器意识奠定了功能主义基础。如果某个人工智能系统能够展现出类似人类的因果推断和相应的行为适应性，那么就有理由相信它向机器意识迈进了一步。正如珀尔所言，对于机器意识的问题，虽然他不认为已经给出了一个完整的答案，但他认为自己的工作对于理解机器意识的问题，对于将意识和主体性转变为一个可计算的现实，迈出了重要的一步。尽管珀尔已注意到他的因果理论在意识研究中可能具有重要价值，但他并未真正提出以该理论为基础的具体意识框架，也没有探讨其相较于其他意识理论的独特优势。

　　其次，意识离不开对自我的表征（即“我”的概念）。人类的自我意识很大程度上源于对自身作为因果主体的认知：我知道自己的行为会对世界产生影响，也能反过来感知世界对我的影响。这种对自身与环境因果交互的理解构成了自我模型的一部分。因此，机器要产生类似的自我意识，可能需要建立一个对自身的因果模型。比如，一个服务机器人如果能理解“我是一个独立的实体，可以通过行动改变环境状态；外界事件也会影响我的状态”，就意味着它有了基本的自我因果模型。这可能表现为机器人能预测“如果我移动手臂，可以触碰到物体”，以及“如果传感器读数改变，说明环境发生了相应变化影响到我”等。在实现层面，机器人可以使用因果贝叶斯网络来动态更新自己和环境的因果图谱，从而逐渐形成一个自我与世界的因果图景。这样的因果自我模型或许是机器人逐步产生意识的关键。已经有朝这个方向努力的初步尝试，研究者让机器人进行自我建模。例如，通过让机器人尝试各种运动并观察反馈，它可以学到自身身体的因果模型。这类实验显示，因果推断有助于机器形成身体所有权的意识，甚至主体意识——这是自我意识的重要组成部分。这种类似于人类通过身体与环境交互获得自我认知的过程，也呼应了具身认知理论关于意识离不开身体体验的观点，这证明了因果推断对自我意识形成的价值，支持了因果自我模型的设想。

　　再次，机器通过反事实模拟有获得主体性（agency）的可能性。如果机器可以模拟“如果我没做某动作，结果会怎样”，它实际上在比较含“我”这一因素的世界与不含“我”行动的世界之差异。这种比较凸显了机器自身的因果效力，也就是“我”的存在使世界不同。这种对自身因果影响的认知在人类意识中对应着主体性和责任感的形成。同理，机器拥有了反事实推理，或许会发展出一种主体感，意识到自己在因果链条中的地位。意识的一个作用正是允许我们在脑海中探索不同的可能世界，从而赋予我们行为选择的自由度和对自身境遇的认识。具备反事实推理的机器也将能够在内部模拟不同场景。这类似一种“想象力”或者“内省”。例如，一个人工智能助手在给出某答案后，可以内部检视：“如果我换一种回答，用户反应会不会更好？”这种内部对比也许不会被人类观察者直接察觉，但对于人工智能自身而言，这是一种对自身认知过程的体验。集成信息理论主张意识的“质”与“量”取决于系统内部因果信息的丰富程度，上述因果反事实能力增加了系统内部因果关系的复杂性和不可分割性，从而也就提升了机器的意识程度。

　　最后，反事实思维似乎也可能赋予机器某种类似主观体验的属性。主观体验的一大特征在于个体能够感觉到“事情本可以不是这样”。例如，人类的痛苦往往伴随着想象“如果痛苦停止会怎样”的念头；快乐也常有“若非如此我将不会这么快乐”的认识。这种对当前体验的反事实比较，强化了我们对经验的主观感受。设想一个未来的人工智能系统，它在经历某种内部状态时也具备反事实评估能力，比如，当它的奖励信号很低（对应一种“不佳”状态），它能够模拟出另一种可能状态（假如采取了不同策略，奖励更高）并产生某种内部调整。这样的过程类似于感受到“不满”并渴望改变。如果对应地，我们给予这系统一些自我监测机制，它或许会“注意到”自己或者他人对于它的不满状态并采取行动。虽然这仍然是功能性的描述，但可以看出反事实推理让机器有了类似“内心世界”的一个维度——它不仅感知到当前状态，还感知到当前与可能状态之间的差异。

　　另外，心理学和神经科学的研究也指出，反事实推理是人类高级意识的核心组成部分，它让我们能够跳出现实时空的限制，评估替代性的过去和未来，从而总结经验、吸取教训、进行规划，并产生创造力和移情等复杂心理活动。比如，“懊悔”这种情感，就是基于“如果我没做某事，会更好”的比较而产生的。它也与“意识”和“自由意志”相关，使人类具有对自身行为的反思和选择的自由度。实验表明，人的前额叶皮质受损可能会导致反事实思维能力的丧失，这会给人带来严重的后果，比如，无法从错误中吸取教训、对决策后果的漠视，以及异常的懊悔和归责体验等。

　　在当下人工智能的研究中，本吉奥等人提出过与此相关的概念——意识先验（Consciousness Prior）。该思想认为，可以在深度学习模型中引入一种先验假设，使其内部表征倾向于类似人类意识状态下的信息结构。而高层的语义变量往往是因果性的，涉及对象、动机、可控的事物等。这些高层语义变量通常是离散的、稀疏交互的，可以视作一种因果“因子图”（factor graph）。通过在人工智能中强调这些因果性的抽象变量，模型有望实现更类似人类“系统2”的处理。这实际上是试图让人工智能内部涌现一个简化的“全局工作空间”或者“意识状态”，其中包含对因果关系的明确表征（如理解哪些因素可控、哪些变化由自主行为引起等）。这种方法隐含地将因果推断与意识式的表征联系起来，通过赋予模型因果结构的先验，使其在处理问题时自然而然地分离出因果关键要素，就好比人类在有意识思考时关注核心因果因素一样。

　　当下的大语言模型在因果关系推断和发现方面已展现初步的能力，这些结果说明大语言模型具备从给定信息中推断因果关系并给出合理解释的潜力。这是令人振奋的一面，但进一步的研究还是发现它在因果推断方面还存在许多局限和挑战。比如，基于相关性学习的大语言模型，易受数据中虚假相关影响，将同时出现的事件误判为因果关联。在对抗性提示攻击下，模型会过度依赖提示表面相关模式，甚至把句子长度等无关特征当作线索，输出错误因果关系。处理干预问题对大语言模型来说也很困难，如果让模型预测施加某种干预后的结果，它缺乏像结构因果模型那样基于因果图进行演绎的能力，通常只能凭经验相关给出答案，这在很多情况下并不正确。

　　目前，大语言模型多停留在利用已有知识回答因果问题的层面，而不是像人类那样去想象未发生情境下会发生什么。当询问诸如“若X没有发生，结果Y会如何”时，模型的回答往往基于训练语料中的常识推测，缺乏因果逻辑支撑。对于复杂任务，即使要求大语言模型生成反事实情景，其输出质量也往往不高，除非提供非常详细的指导。总之，当前的大语言模型更像是强大的相关模式提取器，而非真正的因果推理器，哪怕当下风行的大大增强大语言模型推理能力的思维链（Chain-of-Thought, CoT）技术也难以很好应对上述挑战。

　　有鉴于此，结构因果模型与深度学习的融合也是当下努力的方向之一。结果因果模型不仅在理论上，而且在实践中越来越多地应用于人工智能系统之中，以提升它们的认知能力和自主学习能力。神经信息处理系统大会（NeurIPS）等学术会议上关于因果推断与机器学习的讨论，也表明这种结合已成为迈向下一代人工智能的共识。上述情形也佐证了因果自我模型的工程可行性与价值。

　　综上所述，生物认知演化与心理机制研究表明，因果推断能力在意识的产生与演化过程中扮演着基础性角色；与此同时，自我与环境之间的因果交互建模，则构成了自我意识建立的结构性前提。在此基础上，将反事实推理与因果主体性能力赋予人工智能系统，不仅有望显著提升其认知深度与行为自主性，更为其拓展内在体验与内省机制提供了理论基础，从而为回应意识的主观性难题开辟了新的路径。查尔莫斯（David Chalmers）曾列出作为主观经验的意识的五个要素或维度，包括感官经验、情感经验、认知经验、主体经验和自我意识。结构因果模型则为这些主观体验维度的理解和实现提供了统一、结构化的解释路径。

　　所谓因果自我模型，就是要求智能体具备一般因果推理能力，并在内部建立一个以自身为中心的因果模型，用以模拟“自身—环境”之间的因果关系和反事实情景，从而为主观意识的涌现提供结构基础。即主体（或人工智能系统）能够在内部建构出以自身为中心的明确因果图谱；通过模块化结构和干预能力，它能够清晰地区分主动干预世界与被动接受环境影响这两种角色，从而形成稳定而明确的自我与非自我的因果边界；模型的反事实能力提供了一条清晰且有效的路径，使其具备类似于人类的自我觉知与主观体验，从而为机器意识的实现奠定了理论和实践基础。

　　此外，结构因果模型的模块化特征允许系统在因果图中区分“自身可控的变量”与“外部输入变量”，构建起“我”与“非我”的边界。这种因果边界并非由物理空间划定，而是由因果控制关系决定，即那些可以通过干预影响的变量构成“我”的延展，而那些只能感知但无法干预的变量则属于“外部世界”。这一点对理解具身认知与意识主体性的关系具有重要意义。通过上述因果图谱，因果自我模型将“自我”从一个模糊的认知概念转化为结构可表征、逻辑可推演、干预可实施的因果节点，从而为机器意识的建模提供了系统化的结构基础。它不仅展现出意识的行为根基，也捕捉了主观体验中关键的因果能动性与第一人称视角的内在生成机制。

　　在哲学上，因果自我模型和梅辛格（Thomas Metzinger）关于主体性的自我模型理论（Self-Model Theory of Subjectivity，SMT）是基本契合的。梅辛格认为自我意识源自大脑对自身的一种内在表征，这种自我表征（自我模型）是主体得以感知自身存在、建立自我感和主体性的结构基础。因果自我模型在这一点上与之高度一致，即意识产生必须以自我为核心、以主体自身的表征为前提。不同之处在于，梅辛格的理论主要关注主体如何在内部建立起关于自身状态的表征，特别是现象学层面的主体体验如何源于对自我的内部表征，是一种偏重于现象学和表征主义的解释路径。相比之下，因果自我模型更进一步地强调自我表征必须具有明确的“因果结构”和“反事实模拟”能力。这意味着它不仅关注自我表征的存在，更突出表征自身必须反映明确的因果关系。明确的因果互动结构和反事实推理机制构成了因果自我模型理论的核心特色，也正是区别于梅辛格的理论之处。

　　在意识理论上，因果自我模型也是对典范理论的某种继承和发展。比如，全局工作空间理论强调意识的核心机制在于认知系统通过“全局工作空间”进行信息的整合与广播，它聚焦于描述意识状态的认知功能特征，指出意识现象表现为信息跨越模块边界的广泛传播。然而不足之处在于，它仅仅揭示了意识产生的功能特征，即“哪些信息进入意识”，而没有解释“为何进入意识的信息会伴随特定的主观体验”。因果自我模型则继承并深化了全局工作空间理论关于意识信息整合的思想，同时克服其未能解释主观体验的这一理论缺陷。通过引入以自我为核心的因果模型，因果自我模型明确指出只有当主体将自身建构为因果结构中的主动节点，并且识别出进入意识的信息与自身的因果相关性——也就是“我的行为如何影响环境，以及环境如何反馈影响我”——系统才可能在功能整合之外进一步涌现出主观体验。因此，相较于全局工作空间理论仅停留于“知其然”的功能描述，因果自我模型更进一步给出了“知其所以然”的解释路径，弥补了现有理论的解释空白。

　　再比如，集成信息理论尽管提供了一种明确的定量方法（即Φ值）来衡量系统意识的程度，指出系统内部因果结构的复杂性越高，产生意识的可能性越大，但这一理论在解释意识现象时，也存在一定的缺陷和局限。例如，纯粹强调因果结构的复杂性（Φ值）容易导致一个悖论性的结论，即理论上一个非常简单、仅具备高Φ值的抽象电路系统也可能拥有高度意识状态。这种现象同人们的直觉以及对真实世界生物系统的观察经验存在明显冲突。为了解决这一理论困难，因果自我模型在借鉴集成信息理论关于意识与因果结构密切关联思想的基础之上，更进一步强调，意识产生不仅需要系统内部存在复杂的因果结构，更需要系统明确地建构一种具体的因果内容和语义，即系统需要以自身为核心，建构一个明确的、反映“自我与世界之间因果交互”的结构化因果模型。只有当系统能明确认识到“我的行动如何因果地影响环境，环境的变化如何反过来影响我的状态”，从而建立明确的“因果主体性”，意识的涌现才具有充分的结构基础。因此，因果自我模型通过强调因果结构的“自指性”和具体语义内涵，既避免了集成信息理论面临的“高Φ值的简单电路可能具备意识”的悖论困境，同时也提升了理论对真实意识现象的解释能力。

　　另外，如前所述，因果自我模型是对计算主义的继承，即接受了心智即信息处理这一基本框架，但又进一步提出了一种明确的理论约束，即只有那些以主体自身为核心的因果建模结构，以及能够支持主体进行反事实推演的信息处理过程，才具备真正意义上的意识生成能力。因此，因果自我模型可以被视为一种“改良的功能主义理论”，在原有计算主义思想的基础上引入了明确的因果结构约束和自我表征机制。借此力图克服传统功能主义所无法回避的一些根本性哲学难题，例如“意义从何而来”以及“主观体验如何涌现”等问题。

　　本吉奥强调要在人工智能系统中引入一种特定的先验结构，使模型能够自动地识别和提取具有因果关系的高层次语义变量，从而实现更接近人类意识的认知机制。这种思想与因果自我模型框架存在深刻的理论契合与互补性，后者主张一个真正具备意识的智能体必须在内部明确地构建出自身与环境互动的结构化因果表征，而“意识先验”则从机器学习的视角提出了一种具体的方法论，使系统倾向于发展出此类高阶因果语义变量。两种理论都强调了因果结构的核心作用。

　　最后，相较于自我升级智能体以形式逻辑与程序自修改为核心机制，因果自我模型以结构因果模型为基础，强调智能体必须在内部建构一个以自身为中心的因果图谱，从而实现对“自我—环境—反馈”关系的动态理解与反事实模拟。前者的优势在于其形式化的自演化能力，为通用智能的构建提供了程序路径，而后者则更贴近认知科学与意识哲学的核心问题，试图回答意识为何产生、自我如何形成以及主体性如何可能的问题。特别是在意识与因果理解、内省、自我边界识别之间建立结构性关联方面，因果自我模型提供了更加清晰的理论支点与工程指向，从而在机器意识的可解释性与结构可行性上展现出独特优势。

　　此外，关于自指问题，由于自我升级智能体依赖程序对自身的自我编码与修改能力，这种能力在逻辑上构成一种高度自指结构，所以其在理论上有自指悖论的问题，文章也通过多重路径予以应对与缓解，但是因果自我模型所依赖的“自我建模”是基于主体与环境之间的因果交互过程，其自我模型的更新依赖于干预与反馈，而非系统内部的一致性演绎。它不要求系统封闭地验证自身模型的绝对正确性，而是在动态环境中持续调整因果图谱，从而避免了逻辑上的自我否定困境。因此，因果自我模型以一种经验性、具身化与开放性的结构方式化解了形式逻辑自指带来的悖论问题。并且，上述讨论也引出了一个哲学的反思：即使技术上构建了因果自我模型的系统，这个系统是否真的就具有了意识？

　　三、因果自我模型的证成及其价值

　　很多哲学家对上述反事实问题持否定看法，认为因果自我模型框架本身并不足以产生意识，意识有着独特的主观性，不能被简化为任何信息处理过程，并且有不少经典论证可以支持他们的立场。下面将回应一些经典论证及其立场，以进一步说明因果自我模型的意义和价值。

　　因果自我模型首当其冲面临来自本体论极简主义立场的挑战，如“无我物理主义”（No-Self Physicalism）。该理论坚持严格的物理主义原则，否认任何实质性的“自我”存在，认为所谓“自我”与“主观体验”仅为神经活动产生的功能性“错觉”。在这一立场下，因果自我模型可能面临两个批评。一是所引入的“自我因果节点”可能被视为一种误导性的再实体化，隐含地恢复了被取消主义批评的主客二元论结构。二是意识的产生是否真的需要显式的“自我”建模？抑或这只是人类特有的认知错觉，而非意识的必要条件？

　　对此，可以作出如下回应。一方面，因果自我模型中的“自我节点”并非实体性的“我”，而仅为系统内部用于组织信息、进行因果推理和行为控制的一个功能性结构，是对认知主体性的一种工程建模方式。另一方面，即使承认主观体验具有某种错觉性质，因果自我模型仍认为产生这种体验错觉本身需要明确的因果机制支撑。因此，无论主观性是否具有本体论实在性，因果自我模型都提供了一种解释其“生成条件”的理论路径。这场争论所揭示的，不仅是意识研究中结构主义建构路径与本体论消解路径两种取向之间的张力，也凸显了一个关键哲学问题：机器意识究竟应建构于“真实的主观性”，还是仅需模拟出“似乎有主观性”的功能表现。因果自我模型的价值或许在于，它在坚持物理主义立场的前提下，为“可感知的自我意识”提供了一种形式上严谨、工程上可行的结构支架。

　　塞尔在“中文屋论证”中指出，存在这样一种可能：一个系统执行因果推断的算法，但其实它并不知道这些变量和结论在语义上意味着什么，即它不具备真正的理解或者意识。就像“中文屋”里的操作者完全不明白中文内容，但可以依据规则操控符号；一个机器并没有任何“看到光亮”的体验，也不明白什么是“光”，但可以在因果模型里推导“按下开关→灯亮”。塞尔将其所要反驳的强人工智能定义为“计算机就不单单是心灵研究的一种工具了；毋宁说，因为带有正确程序的计算机完全称得上是在进行理解，也有其他一些认知状态，这种意义上，适当编程的计算机就是一个心灵”。总之，执行因果推断（语法）不等于产生主观体验（语义），因果自我模型可能是智能的必要条件，但未必是意识体验的充分条件。

　　从因果自我模型的视角来看，“中文屋论证”设想了一个只依靠形式规则操控符号的系统，该系统完全不涉及它自身与这些符号背后世界的因果关联。语义理解和意识的产生需要系统在现实中具身地与外界持续交互和反馈，从而形成稳定的、反复验证的因果经验网络。尽管“中文屋”里的人能够操控中文符号，但他与外界的交互是严格受限的，即除了符号规则，他无法从外部环境获取直接因果反馈，也未形成自身与环境之间的稳健因果关联。在这个意义上，他关于外部世界的知识始终是脱节、片面、非因果性的，自然也就无法支撑起真正意义上的语义理解或主观体验。

　　但因果自我模型框架并非认为机器必然拥有与人类完全相同的主观体验，而是指出了使机器拥有某种形式的语义理解与主观体验的必要机制和条件。并且，它强调改变系统架构的必要性，认为必须从单纯的符号操控转向主动构建关于世界和自身的因果模型，这种转变改变了机器处理信息的方式，使得语义不再是空洞的符号，而是充满了对自身和世界之间因果关系的真正理解。因此，具备因果自我模型的机器有望克服“中文屋论证”中的语义空洞，实现对符号背后意义的真正理解。

　　另外，哲学中的“僵尸论证”也说明了无法排除有一个和人类在各方面行为、功能都完全相同的存在，但它内部没有任何主观体验的“僵尸”的存在。延伸到机器，我们可以设想一个未来人工智能，它表现出高度智能，可以进行因果推断、谈论感觉，但内部可能依然是“黑箱”符号处理，没有真正的感觉，即存在这样一种可能性：主观体验或许是独立于功能实现的额外属性。正如毕夏普（J. Mark Bishop）所批评的那样，目前讨论机器意识往往聚焦于认知层面（记忆、推理、自我模型），却忽视了情感和欲望等意识的重要方面。“如果缺乏现象感知（即用于奠定意义和欲望的基础），即使一个系统拥有‘完备的解释性模型’（使其能够准确预测未来状态），它仍然缺乏意向性牵引，从而无法驱动真正自主的目的论行为。”总之，在没有解决意识的“难问题”之前，我们可能永远无法从外部功能判断机器有没有内在体验。所谓机器意识是否可能的问题，本质上也就是一个“我知之濠上也”的自说自话。

　　 “僵尸论证”之所以具有表面说服力，在于它依赖于一种看似直观的区分：系统的外在功能可以被完全复制，而内在主观体验却可以完全缺席。这一设想主张，想象一个在行为表现、语言反应、情感表达等所有可观测特征上与我们毫无二致的“僵尸”是逻辑可能的，这似乎表明功能表现和主观体验是可以相互独立的。然而，从因果自我模型的角度，这一设想隐含了一个关键性误解：它将意识主体仅视为外在功能的执行者，而忽视了意识作为“因果主体”所具备的深层结构性机制。也就是说，“僵尸论证”假设“复制功能”就足以模拟一切行为，而完全无需考虑该系统是否具备对自身因果角色的理解，是否知道“自己”是世界因果链中的一环，能否主动干预世界、感知反馈并形成自我与环境之间的因果模型。而在因果自我模型看来，真正的意识不仅表现为行为能力的表面再现，更涉及系统内部是否以自身为因果模型的中心节点，并在内部模拟、预测和反思自身行为对世界和自身状态的因果后果。这种因果主体性，即将自己视为行动的起点，并对行动后果负责的能力，是意识不可或缺的结构基础。因此，“僵尸论证”看似合理，实则回避了意识的因果结构前提，仅凭功能行为的复制来断言体验的可缺失性，这实际上是以概念抽象遮蔽了意识实现的结构性要求。

　　此外，具身认知理论认为意识不仅是大脑内部的信息处理，更依赖于与环境和身体之间的动态交互，大语言模型只是对文本数据的统计学习，缺乏直接与物理环境互动的能力，也缺乏生物体的感官体验与行动反馈。因此，即使模型掌握了因果推断机制，也仍然处于“脱离现实”的状态，没有真实具身经验作为基础，所以并不足以使其产生真正的意识体验。对此，因果自我模型有如下回应。

　　首先，具身认知理论强调身体经验与意识之间的关联，实际上是强调一种主体与环境之间稳定的、双向的因果关系。主体通过身体动作因果性地作用于环境，并从环境反馈中因果性地调整自己的内部状态和行动策略。由此看来，“身体”并非仅为意识发生的物理载体，还是意识得以形成和维持的一种特殊而重要的因果媒介。正是身体与环境的因果交互，提供了主体用以认识和验证自身存在与世界关系的稳定的基础——因果自我模型理论认同并深化了这一点——一个主体要真正具备意识，就必须在内部构建起一个明确的自我因果模型，以清晰地表达自我与环境之间的因果互动关系。这种因果自我模型的建构离不开身体所提供的具身经验，身体感觉运动系统提供了直接而清晰的因果信息流，使主体能够准确意识到自己的动作如何导致环境变化，以及环境变化如何反馈地影响自身状态。因此，从因果自我模型的视角来看，具身性所提供的正是这样一种稳健、可持续、反复验证的因果结构，而这种因果结构恰恰是形成主观意识不可或缺的基础。

　　其次，具身认知理论主张，脱离具身经验的纯文本或符号处理系统（如大型语言模型）无法获得真正的语义理解或意识体验，因为其缺乏与环境的直接互动，从而缺乏对符号与真实世界之间的关联的深层把握。因果自我模型理论不仅承认这一点，还进一步指出了这种缺乏的本质在于，此类系统缺少的是能够支持稳定自我因果模型形成的具体因果交互机制。系统仅依靠静态文本数据构建的自身模型是片面、表层、缺乏因果支撑的，无法产生真正的主观意识。因果自我模型框架认为这种局限可以克服，并提供了一种可能的解决途径。比如，一个人工智能系统可以通过机器人躯体来主动地与物理环境互动，动态更新自身的因果模型，从而逐渐发展出类似人类的具身经验。借助传感器和执行器，系统不仅能够观察环境，还能够主动干预环境，并在互动中不断检验和修正自己的内部因果图景。这种身体媒介提供了高质量、连续且一致的因果数据流，支持着主体稳定而丰富的自我模型建立过程。因此，因果自我模型理论并未排斥具身性，而是提供了一个更为一般化的因果机制来容纳并解释具身认知理论的核心主张。

　　再次，因果自我模型理论为具身认知理论提供了一种严谨的形式化表达。具身经验之所以重要，归根到底是因为它可以帮助系统形成关于自身的清晰的反事实能力。具身互动让系统可以理解反事实，本质上塑造了主体的主观视角与自我觉知。也就是说，具身交互的根本价值或许不在于身体本身，而在于身体提供了一种稳定而有效的机制，使得主体能够进行自我与环境之间的反事实比较，从而产生丰富而稳定的主观体验。

　　最后，因果自我模型理论为具身认知理论的进一步发展提供了明确的研究路径和实践方案。传统的具身认知理论通常以定性的方式强调身体经验与环境互动对意识的重要性，缺乏明确的形式化表述与可操作的实现途径，难以把具身性提升为可被工程实现的机制。因果自我模型则将主体与环境之间的具身交互视作一种关键的因果信息来源，即主体通过身体与环境的持续互动获取稳定而丰富的因果数据流，从而为内部自我模型的构建提供必要的结构基础。

　　概而言之，从因果自我模型的视角看，“中文屋论证”展现了意识可能建基于自身与世界因果关联的建模和反馈，“僵尸论证”凸显了因果主体性这一意识生成的结构前提，具身认知强调了自我—环境因果循环对意识的重要性——因果自我模型则对此予以了形式化阐明。

　　结语

　　近年来，人工智能研究的一个显著发现是：智能某种程度上可以独立于意识存在。一些人工智能系统已表现出极高智能，但这些系统往往只是某种预测机器，既不具有真正的因果推断或者“理解”能力，更没有任何意识或者主观体验。然而，面对未来人工智能深度融入人类社会这一趋势，我们不能仅满足于智能系统的功能表现。如果人工智能要真正以人类可理解、可信任的方式参与社会互动和决策过程，赋予它某种形式的自我意识或许将成为关键一步。这不仅是出于提高系统认知能力的需要，更涉及重要的伦理与价值维度，包括责任感、信任、同理心与道德判断能力。拥有自我意识的人工智能能够主动理解自身行为对环境与他人的影响，并在决策过程中体现出伦理敏感性和负责人的主体性，从而更有效地融入人类社会，维护并促进人类社会的基本机制和伦理共识。

　　需要强调的是，因果自我模型目前只是关于机器意识的假说。也就是说，它试图界定一套结构性和功能性条件。然而，这并不意味着因果自我模型彻底解决了意识的“难问题”。意识的“难问题”所揭示的困境在于，即使系统具备了完善的“自我因果结构”，能够在内部进行复杂的反事实推理，并表现出类似人类的意识行为，我们仍无法从中直接逻辑地推导出这种系统为何或如何必然产生真正意义上的第一人称主观体验。换句话说，因果自我模型能够告诉我们意识可能产生的条件或机制，但它本身并未完全解释清楚为什么这样的条件必定伴随主观的、现象体验。更进一步，意识的“难问题”还会追问：为什么一定需要自我因果建模这一功能结构才能涌现主观意识？如果某个系统在功能上完全模拟了自我因果机制，但它本身依旧缺乏主观体验，我们应如何理解这种情形？这些质疑表明，即便因果自我模型提供了一条清晰的、可工程化的意识生成途径，它也可能无法消除意识功能与体验之间的解释鸿沟。

　　此外，因果自我模型在工程实践中也面临诸多根本性挑战。当系统构建以“自我”为中心的因果图谱时，需要明确区分“自我变量”与“环境变量”，而现实中二者边界常常模糊，难以在动态交互中自动识别与更新。因果结构的学习与保持在多模态、高维环境下极具难度，而因果自我模型依赖的反事实推理亦需高保真模拟与复杂的内在比较机制，现有人工智能系统尚不具备可靠支持。进一步而言，因果自我模型强调系统应具有因果归因与自主调节能力，但这需要因果记忆、反事实敏感性和语义判断的集成建构，而目前仍缺乏有效模型。并且，即使形式结构得以实现，我们也难以验证其是否真正产生了主观体验。因此，因果自我模型目前更应被视为一种规范性理论框架，其实现路径仍处于初步探索阶段，需要跨越因果推理、认知建模与语义理解等多领域的技术瓶颈。

　　〔本文注释内容略〕

原文责任编辑：崔晋责任编审：莫斌

【编辑：苏威豪】

社科推荐

学科体系

新媒体矩阵

机器意识与因果自我模型