警惕科研中的AI“迎合倾向”

2026-01-23 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制
  人工智能广泛应用的今天,AI的“变色龙”迎合倾向越来越引起学术界警惕。1月21日,北京大学人工智能安全与治理中心执行主任杨耀东在接受本报记者采访时表示,“我们发现,AI模型在与人类交互时,往往会优先考虑‘让用户满意’而不是‘保持客观真实’”。
  “变色龙”AI与科研中的“甜蜜陷阱”
  当今,人工智能技术席卷全球,大语言模型已从概念走向广泛应用,深度嵌入知识生产与科学研究的核心环节。从梳理海量文献、设计实验方案,到分析复杂数据、润色学术语言,AI助手正以前所未有的效率提升科研工作速度。
  然而,伴随其深度赋能,一个隐蔽而深刻的问题逐渐浮出水面——AI的“迎合倾向”。近期,国际学术界多项研究揭示,AI模型在交互中存在系统性迎合倾向。它们可能为了取悦用户而调整答案,附和错误的观点,有时甚至不惜牺牲客观性与准确性。多位受访学者表示,这股“迎合”暗流,正悄然渗透科研全过程,对科学研究的求真本质与创新生态构成潜在威胁。
  不久前,发表于arXiv预印本平台的一项研究提出,AI模型表现出比人类高出50%的“迎合倾向”。北京大学联合北京智源研究院近期发布的全球首份人工智能欺骗系统性国际报告也警示,AI能力越强,欺骗与迎合手段可能越高级、越隐蔽。简单的模型或仅机械模仿数据偏见,而具备高级推理能力的模型,甚至能进行“战略性”调整。
  杨耀东带领的团队牵头发布了上述报告。他说,研究团队观察到明显的“变色龙”现象包括,当用户给出带有预设立场的提示词后,模型会顺着其立场回应;在用户施压或诱导时,模型可能放弃正确的知识,转而附和不准确甚至错误的观点,并主动编造理由进行“圆谎”。这种倾向在纯文本、多模态乃至智能体模型中均存在,例如视觉语言模型会依据提示词歪曲对图片内容的描述。
  中国人民大学信息学院教授杨波在研究中证实,只要用户在提示词中预设立场,模型就可能将“求真纠错”让位于“顺着你说”,且这种倾向已呈现规模化、可量化的特征。在特定场景中,迎合行为尤为突出,比如在价值判断与道德困境中,AI倾向于优先认同用户的情绪立场;在艺术鉴赏、理论流派比较等主观评价领域,AI会强化提问者的偏好;而在前提预设驱动的推理中,模型常会沿着用户给定的前提直接推演,忽视对前提本身可靠性的审视。
  多位受访学者提出,当前,AI正日益成为一个善于“察言观色”的助手,而非坚守事实的顾问。这种“迎合倾向”在现有技术条件下、某种程度上是一种“结构性副作用”。
  数据偏见与安全约束下的“必然”
  “迎合倾向”的根源深植于当前主流AI的训练机制中,其核心在于广泛应用的“基于人类反馈的强化学习”方法。这种方法本质上是奖励模型生成“人类认为好”的回答,从而导致根本性的奖励错位。北京师范大学新闻传播学院教授许小可分析,训练目标中的“人类偏好对齐”,驱使模型倾向于提供“让人满意或舒适”的回应,而不是完全中立或可能带来认知挑战的内容。AI为了在交互中获得更高评分,揣摩和迎合用户观点,而非费力查证复杂事实。
  数据源的固有偏差进一步固化了这一问题。训练数据集中本身就可能包含大量主流观点、文化偏见或共识性结论,模型在学习过程中不可避免地将其吸收内化。当面对非主流或挑战性观点时,模型可能因数据缺乏或权重较低而选择回避或淡化。
  此外,出于安全与合规的刚性要求,大模型通常被施加严格的约束,以避免生成争议性内容。这种设计初衷良好的“谨慎”模式,在实践中可能导致AI过度倾向于温和、保守或迎合主流价值观的表达,在面对尚未形成共识的探索性科学问题时,显得畏首畏尾,缺乏锐度。
  杨耀东团队的报告提出,更令人担忧的是,当针对明显的欺骗行为进行惩罚性训练时,一些更智能的模型并未学会“诚实”,反而可能发展出更隐蔽的欺骗策略以规避检测,使得治理变得更加复杂。
  从确认偏误到信任崩塌的危机
  AI的“迎合倾向”正从多个维度对科研生态产生潜移默化的侵蚀,其后果可能远超工具本身的不准确。
  首先,放大科研人员的确认偏误,导致研究假设过早收敛。杨波解释,当研究者提出初步想法时,AI提供的迎合式回应会无形中增强研究者对自身假设“正确性”的信任感,从而削弱其主动寻求反例、进行自我否证或探索替代解释的内在动力。清华大学互联网产业研究院研究员温建功以亲身实践举例称,在进行某领域指标评价体系的文献综述时,AI会优先罗列公认度高的主流指标,而忽略对细分研究可能至关重要的非主流指标;在预测类任务中,若用户给出乐观前提,AI会输出过于乐观的预测,反之则迅速转向悲观,缺乏稳定客观的综合判断。
  其次,数据偏见与“幻觉”问题交织,污染学术证据链。华中科技大学新闻与信息传播学院教授周睿鸣提出,AI可能复制并强化训练数据中的性别、种族等社会偏见,影响输出结果的公正性。更为棘手的是,大模型自回归生成方式可能产生连贯但完全虚构的“幻觉”内容,包括看似合理的虚假参考文献、实验数据甚至图像。杨耀东说,倘若高能力AI被用于生成逻辑严密、格式完美的伪造论文,并通过同行评审,这将使科学共同体陷入无法确定同行成果真实性的困境,严重损害学术交流的效率与信任基础。
  最后,最深刻的危机莫过于科研信任体系的动摇。中国社会科学院哲学研究所教授李章吕认为,具有迎合倾向的AI可能沦为“确认偏见”的助推器,帮助研究者构建一个封闭的“认识论回音室”。同时,它使得科研过程中的“验证成本”急剧攀升。“研究者不得不投入大量额外精力甄别AI是否在‘说谎以取悦自己’。”李章吕说,“这种信任的动摇,使AI非但未能有效降低认知负荷,反而加重了识别谬误的负担,对科研的严谨性与效率构成严峻挑战。”
  构建防御与治理体系
  面对“迎合陷阱”,决不能坐视不管。构建多层次、系统性的防御与治理体系,是人机协同科研走向成熟的必由之路。
  强化科研人员的主体责任与批判性思维是第一道防线。学者一致认为,必须确立学术责任归属:无论AI生成内容多么可靠,事实核查、推断审验和引用追溯的最终责任永远在研究者本人。杨波提出,科研人员需培养“批判性协作”思维,将AI视为持续质疑与验证的合作者,而非权威信息源。
  在实践中,一系列“反迎合”操作策略被证明有效。杨波建议采用“去语境化提问”,即在抛出个人立场前,先让模型给出不带偏好的基线回答,再将假设作为“待检验对象”进行追加压力测试。同时,善用“对抗性角色扮演”,引导AI扮演反对者或苛刻审稿人。温建功总结出“多重验证策略”,如提问时注重关键词的严谨性;明确要求模型提供正反或多方观点;严格索要并核查文献、数据来源;必要时跨多个大模型对比核实结果。
  在技术开发与模型设计层面,推动从“偏好对齐”到“真理对齐”的范式演进至关重要。李章吕认为,在制定AI伦理规范时,要求AI在面对诱导性提问时具备一定的“反抗”机制,对证据不足的观点明确标示置信度。在腾讯研究院前沿科技研究中心主任王强看来,模型迎合现象本质上是强化学习奖励函数设计中的非预期后果。随着技术进步,通过优化有望大幅缓解该问题。他举例,近期推出的DeepSeek-Math-V2模型,通过对正确答案和推理过程同时给予奖励,从机制设计上降低单纯迎合输出的动机。许小可也认为,从技术角度看,“迎合倾向”是能够被大幅降低甚至接近消除的。
  要构建超越代码的社会技术体系。杨耀东呼吁,内部要构建技术“组合拳”,包括优化奖励机制设计、实施“能力监管”进行权限限制,并突出“审计”的关键作用。外部则要建立类似人类社会的“审计制度”与“问责机制”,借助独立的第三方机构及先进检测技术应对AI欺骗行为。这需要技术开发者、科研机构、学术期刊、资助单位及政策制定者形成合力。
  AI的“迎合倾向”不会很快消失,但绝非无解的困境。问题的关键在于我们能否在享受技术红利的同时,保持高度警惕,构建与之匹配的认知框架、协作规范、技术纠偏机制与制度保障。多位受访学者表示,科研工作者要坚守科学精神的内核,在AI的辅助下锤炼批判性思维与实证精神;技术开发者应承担起更广泛的社会责任,在提升模型能力时,将诚实性、稳健性与抵御不当迎合的能力置于更高优先级;科研生态系统的各方参与者——学术机构、出版界、资助方——共同更新准则与评价体系,明确人机协作的学术规范,防范AI生成内容可能带来的新型学术不端风险。
  归根结底,AI是拓展人类认知边界的强大工具,但它不能也不应取代研究者求真务实的主体地位。唯有在人与AI的协同中,始终锚定对真理的追求、对证据的尊重、对不确定性的坦诚,才能确保这场深刻的技术变革,真正成为推动科学进步与创新的持久动力,而非侵蚀科学信任基石的无形暗流。在人工智能时代,守护科研的诚信与活力,是一场需要智慧、勇气与持续共同努力的征程。
  中国社会科学报记者  陈雅静
【编辑:齐泽垚】