《滕王阁序》AI率接近100%?

AI检测争议背后的理论困局

2025-06-10 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  朱自清的《荷塘月色》被某检测系统判定AI生成内容疑似度高达62.88%,唐代诗人王勃的《滕王阁序》甚至被检出AI率接近100%……近日,网络上出现这些令人哭笑不得的结果,迅速引发公众对AI检测准确性的热议:有人担忧自己的论文会被AI检测误判,担心按照其结果修改后反而影响论文质量;有人调侃需故意“写笨”才能规避误判;更有人认为目前AI检测技术尚未成熟,不宜将其作为检测论文的硬性标准。记者为此采访多位学术界和业界专家,他们从技术原理、算法局限等维度剖析AI检测的现实困境,探讨完善AI检测体系的路径。

  待破解的AI检测理论困境

  中国人民大学新闻学院副教授董晨宇告诉记者,自己将刚完成的研究秀场直播产业的论文提交至某学术论文检测平台,得到的结果令他哭笑不得。系统标红的“高度疑似AI生成”段落是研究团队耗时3年扎根基层、追踪多个真实案例写成的内容。对此,他感慨道,这一现象暴露出当前AI检测技术的不成熟性,“假阳性”(误判人类原创为AI生成)与“假阴性”(误判AI生成内容为人类原创)的双重问题非常突出。技术逻辑与学术规范的深层冲突,加剧了误判的必然性。《天津社会科学》主编时世平认为,学术写作追求的语言规范、逻辑严谨与AI生成的底层逻辑高度重合——AI正是通过学习规范性表达来生成内容。这导致检测系统陷入悖论:越是文笔流畅、逻辑清晰的文本,越容易触发“AI生成”警报,使得学术表达的优质特征成为被误判的“罪证”。

  AI检测面临难以突破的理论瓶颈。AIGCLINK发起人、中关村超互联联盟副秘书长占冰强认为,从技术本质与实践困境来看,当前AI检测技术尚未成熟,甚至可被视为伪命题。AI通过监督微调(SFT)等技术学习人类知识体系,其生成内容与人类创作在语言结构、逻辑范式等浅层特征上日趋相似,导致AI生成与人类写作的边界愈发模糊。此外,现有检测模型普遍存在方法论局限:其一,多依赖单一指标构建检测基准,难以适应复杂多变的文本场景。其二,为规避漏判风险,部分模型在技术底层设置过敏感阈值,易引发误判。其三,不同检测工具采用差异化评估标准,导致同一文本在不同平台检测结果呈现显著分歧,凸显技术普适性的缺失。

  复旦大学计算与智能创新学院教授陈阳表示,AI检测难度远大于传统的“论文查重”工作。究其原因,在于基于生成式AI技术构建大语言模型的过程中,无论是预训练阶段还是微调阶段,都会使用人类创作的语料作为输入,进而对人类生成文本的模式进行学习和建模。在这样的情况下,大语言模型生成的内容和人类创作的内容客观上存在雷同或者部分雷同的可能性。因此,在AI检测过程中,不论是名家名篇,还是由用户自己创作的内容,完全可能被误判为AI生成。

  给学术生态带来多重挑战

  为验证AI检测技术的效能,记者选用AI检测软件“鉴字源”,对《荷塘月色》《滕王阁序》《狂人日记》《繁星》等经典文学作品进行检测。结果显示,这些名人名篇的AIGC总体疑似度均为0.0%,与网络流传的“AI率”结论形成鲜明反差。这一现象折射出当前AI检测技术存在的深层问题。

  占冰强从技术原理层面剖析上述矛盾,当前,不同AI检测软件对同一文本的检测结果差异显著,根源在于其检测标准与技术路径的异质性。由于开发者采用的检测算法、训练数据及评估指标各不相同,各检测工具构建判断模型时遵循的技术范式与判定逻辑也存在根本差异,这使得检测结果呈现出强烈的场景依赖性。在特定学术语境或文本类型下,某种检测标准或许具有较高的准确性,但一旦检测对象的学科领域、文本体裁或语言风格发生变化,原有标准的有效性便会大打折扣。因此,受技术标准多元与场景适配不足的制约,当前AI检测技术亟须建立统一的行业标准与多场景验证机制,以提升检测结果的可靠性与一致性。

  技术标准的混乱直接影响AI检测在学术领域的应用效果。中华医学会杂志社新媒体部主任沈锡宾表示,生成式人工智能在学术领域的应用正呈现出双刃剑效应。随着大模型能力的不断增强,一方面能够拓展学者的思维边界,有效弥补理论与实践中的知识缺口,助力完善学术思维框架;另一方面,在文字处理方面展现出强大优势,不仅能够实现高质量的文字润色,还可模拟高水平研究者的写作风格,完成专业文本的撰写、改写与翻译工作。然而,这种技术能力的提升也带来一系列问题,AI代写与润色现象快速蔓延,其生成的内容凭借高水准的语言表达,常使编辑难以通过传统人工审查方式辨别真伪。

  南京师范大学中国法治现代化研究院研究员李谦认为,AI检测在学术领域的应用不仅影响学术成果的创新转化,还冲击着学术信任体系。在创新转化层面,为满足AI检测要求,部分学者会简化语言、打散表述,刻意避免集中探讨学术观点,甚至采用添加干扰字符、改变句式结构等方式“躲避”检测,结果往往适得其反,影响学术成果的质量与表达深度。而在学术信任方面,一旦AI检测频繁出现误判,将削弱学术界对AI工具的信任度,破坏学术生态的良性发展。

  从检测结果的矛盾到技术原理的缺陷,再到学术生态的连锁反应,AI检测技术正面临从标准统一到应用优化的系统性挑战。唯有解决技术异质性与场景适配问题,平衡技术监管与学术创新的关系,才能实现AI检测技术与学术发展的良性互动。

  促使技术与学术规范共生

  对于AI检测,受访学者主要有两类看法:一类主张通过技术创新提升AI检测精准度、建立复合型审核机制等增强工具对学术内容的筛查功能;另一类则认为,AI检测意义不大,应突破单纯检测AI生成痕迹的局限,从学术评估体系重构、人机协同机制等维度应对AI带来的挑战。

  沈锡宾认为,AI检测工具在识别明显AI生成文稿、遏制学术不端方面具有积极意义,但技术短板显著。随着检测能力的提升,工具对文本的筛查范围不断扩大,致使正常的文字润色工作也常被误判为AI生成内容,造成编辑资源的无端消耗与出版效率的下降。与此同时,面对海量文献,算法偏差与数据样本不足引发的高误判率,暴露出现有技术在理论架构、算法设计和场景适配方面的缺陷。通过强化技术创新、完善检测标准,能够提升AI检测工具的可靠性,使其在学术审核中发挥更大作用。

  中国社会科学院文学研究所研究员刘方喜从技术发展趋势角度,对传统检测模式提出质疑。他表示,伴随技术迭代加速,未来无论是专家经验判断还是软件检测,都难以精准区分AI生成与人类原创内容。因此,单纯依赖AI检测工具已无法满足学术审核需求,需建立复合型审核机制,包括作者AI使用声明制度、负面清单管理等。

  时世平建议,在AI技术未完善之前,应重视作者原创声明环节,对使用AI却未作声明的行为采取相应措施。期刊社必须发挥好编辑的主观能动性,明确AI检测的辅助而非唯一决定功用,更多地完善同行评议、专家审核机制,综合考量研究的原创性、学术价值,而非简单的文字规范。李谦提出,要从学术评价过程、AI检测工具研发、AI检测参数设置等方面打造人机融合的动态学术评价体系。从AI检测参数设置看,我们要结合学术研究成果自身特点,分门别类设定符合相应学科特征的AI检测相似度阈值。

  占冰强认为,执着于鉴定文本是否由AI生成,在学术逻辑和实践操作中均缺乏长效性。要构建以学术成果创新性评估为核心的检测体系,通过对比研究问题的新颖性、方法路径的独特性、结论贡献的突破性,精准识别学术创作价值,重塑学术质量评价标准。

  董晨宇提出,在人工智能深度介入学术领域的背景下,应理性看待AI技术的双重属性。一方面,AI已成为重要的学术辅助工具,AI技术发展打破了人类对创新的垄断。教师应积极引导学生合理运用AI学术工具,并通过公开使用过程促进学术交流。同时,学术考核机制需从结果导向转向过程导向,将AI应用纳入学术规范。另一方面,AI在学术创作中的局限性不容忽视,其虽能提升研究效率、提高学术成果的基础水准,但学术思想建构、深度论证等仍要依赖人类智慧。因此,构建人机协同的学术研究范式,应明确人类在学术创造中的主导地位,实现技术工具性与学术自主性的有机统一。

  清华大学社会科学学院教授罗家德表示,传统的学术检测标准与教育方式已难以适应新的学术生产形态,亟须构建以人机协同为基础、过程监管为核心的新型评估体系,引导学生在掌握AI工具使用技能的同时,强化批判性思维与原创性研究能力,实现学术教育与技术发展的有机融合。

  学术界关于AI检测的不同观点,折射出学术领域应对AI技术的不同策略。未来学术生态的健康发展,需要在技术精进与体系创新之间寻求平衡,推动AI检测技术迭代升级,构建涵盖过程监管、人机协同、价值评估的多元化学术审核体系,最终实现技术赋能与学术规范的有机统一。

转载请注明来源:中国社会科学网【编辑:张赛】