“AI检测”真能一票否决吗?

2026-06-15 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  6月,全国高校毕业答辩季进入白热化阶段。凌晨,某985高校应届硕士毕业生李楠仍然坐在电脑前,盯着屏幕上那个刺眼的数字——“AI生成概率:70%”。

  她的论文从选题、框架到每一处论证,都是和导师反复打磨而成。然而,在学校引入的AIGC检测系统面前,这份“人味”十足的论文却被判了死刑。按照学校规定,AIGC检测率必须低于20%才能获得答辩资格。因此,李楠付费购买了能“降低AI率”的在线服务,让AI把自己的论文“打碎重组”。此时,她已无暇顾及论文学术质量。

  李楠的经历并非个案。今年以来,多所高校发布通知,将AIGC检测正式纳入毕业论文审核流程。从知网到维普再到万方,各大检测系统纷纷上线AI检测功能,标准五花八门。然而,这个意在守护学术底线的技术手段,正在全国高校催生出一场令人啼笑皆非的“猫鼠游戏”。“当毕业生涌向各式各样的‘降AI’攻略,当学术训练异化为与算法的对抗,一个深层次的问题浮出水面:用一套不成熟的‘裁判’系统,对学术成果进行一票否决,我们究竟是在守护诚信,还是在制造新的困局?”南京大学教授、教育部社会科学委员会委员叶继元近日在接受本报记者采访时直言。

  AI对学术写作的渗透已是现实。但AIGC检测系统——这套远未成熟的工具,为何能被如此迅速、如此普遍地推上“一票否决”的位置?

  不成熟的学术“裁判”

  AIGC检测工具的底层逻辑并不神秘。它本质上是通过对文本的语言模式、统计特征进行机器分类,判断一段文字出自人手还是AI。但问题的关键在于,这一技术路径在被迅速推上“审判席”的同时,却暴露出结构性缺陷。

  “AIGC检测技术并不能稳定、准确地判断一篇论文究竟是不是由AI实质性生成。”叶继元告诉记者,他在调研中发现了一个悖论:一些学生只是用AI对语言进行了基础润色,AIGC检测率反而飙升;另一些学生有意把论文改得口语化、逻辑跳跃,甚至加入语病,却可能顺利过关。在叶继元看来,检测结果并不绝对等于学术失范的事实。

  华东师范大学传播学院教授王峰的批评更为尖锐:“这本质上是违法的。重复率检测报告有意义,其证据可以直接核实,具有天然的合理性;AIGC检测报告却不具有这一天然合理性。把一个合理性存疑的检测树立为标准,这违背了教育准则。”

  对于检测工具的准确率,华侨大学哲学与社会发展学院教授高来源从技术逻辑上给出了一针见血的解释:“检测本质上是‘AI对AI’。但这种技术的功能性结果本身就以人的理性能力为参照,因此理论上而言,很难确认一篇论文是不是通过AI完成的。”他估计,那些AIGC检测系统的实际检测准确率,平均也就能达到60%。

  一个准确率刚刚及格的工具,却被赋予决定学术命运的权力。当检测率成为硬性标准,学生学业焦点便从“论文好不好”迅速转向“数字对不对”。华北电力大学马克思主义学院教授翟亚军提出,学位论文的核心功能本应是考察学生发现问题和解决问题的能力,培养其系统思维与批判思维。然而,当检测工具将评价焦点窄化为语言风格、句法特征等表层指标时,两者之间就构成了根本性的逻辑矛盾。“过度关注这些指标,极易导致学生把精力从研究问题本身转移到‘反检测’上,既败坏了科研风气,也不利于学生正确价值观的塑造。”

  杭州电子科技大学知识产权研究院院长郑海味从一线教学实践出发,给出了一个更具操作性的判断。她认为,AIGC检测报告可以是一个重要的辅助信号,用来提示风险并启动核查,但它绝对无法替代导师评阅与过程材料审查。“若学生能在答辩中阐明研究问题与论证路径,一个单一的检测数值不应否定他的全部工作。”

  检测不能替代客观评价

  检测技术不成熟,并不意味着问题不需要回应。时间拨回到2024年下半年。彼时,由AI发展带来的学术不端治理问题日益紧迫,高校学业论文成为AIGC重灾区,治理压力迎面而来。而部署一套“成本低、见效快”的检测系统,便成了不少管理者眼中最省力的“交差”选项。翟亚军点破了这一层逻辑:“当前,部分高校采取‘一刀切’的管理方式,将AIGC检测率设为毕业硬性标准,看似是在维护学术诚信,但背后折射出一种工具性思维主导的管理惰性以及消极保守求稳的避险心态。”

  叶继元同样关注到其深层的负面影响。“如果高校把AIGC检测率作为硬性指标,确实可能助长教育者的‘免责心态’。导师和教务管理部门本应对论文质量、研究过程和学生能力作出具体判断,但一旦有了检测报告,就容易把复杂的学术判断交给系统。这样看似严格,实际上可能是在回避责任。”高来源认为,从管理层面看,为避免学生过度依赖AI甚至直接造假,引入检测手段确实是一个必要的手段。但如果单纯用AIGC检测作为一票否决的硬性指标,显然不合理。

  当一台准确率存疑的机器开始定义何为“人的创作”,学术评价的根基便产生动摇。叶继元提出,对“原创”的学术评价至少包含两个层面。一是规范意义上的原创,即成果由作者独立完成并承担责任。二是创新意义上的原创,指在概念、方法、理论上具有突破性贡献。AIGC检测实际上只触及了第一个层面中最浅表的部分——语言形式的相似度。而对于学术评价真正重要的“内容评价”和“效用评价”,即论文是否研究了真实问题、论证是否严密、对学术或实践有无推动,这套检测工具几乎毫无涉及。

  郑海味向记者分享了她在实际评阅中的操作准则。面对一篇论文,她会重点追问学生三个问题:一是论文的核心观点是否充分理解;二是文中的数据、案例、实验或文献阅读来源是否真实可靠;三是能否清晰解释论文中关键段落的形成过程。她认为,更合理的处理方式,是把AIGC检测报告作为进一步核查的“线索”。

  管理理念需要落地为制度。翟亚军提出,破解之道在于彻底摒弃“重形式、轻能力”的单一量化评判,构建多元化、过程化、人本化的综合评价体系。她建议,细化评价标准,明确区分AIGC可检测、不可检测及人机协同核验的不同场景;强化全链条过程评价,将考核贯穿选题、开题、写作、调研各个环节;建立清晰的AI使用规范与争议复议机制。

  守住学术场域中的人

  今年5月,教育部学位管理与研究生教育司委托中国学位与研究生教育学会研制并发布《规范研究生学位论文与实践成果中人工智能工具使用指南》(以下简称《指南》)。翟亚军表示,《指南》确立了研究生在科研中使用AI工具的合理范围与方式;将人工智能工具使用治理焦点从单一的“技术检测”向“规范使用+过程透明”转变,守住了学位论文的原创性底线。郑海味认为,《指南》有助于建立过程透明、责任明确的人机协同学术规范,有助于纠正唯AIGC检测率的简单化治理倾向,引导高校从结果管控转向过程评价,回归人才培养和学术训练本身。

  有学者认为,这种从“一刀切”的管控走向“分类指导、能力先行”的探索,其核心指向是在技术浪潮中守住学术场域中不可替代的人。对于“为何必须守住人”这个问题,高来源认为,人文学科的核心在于“具身性”能力训练,通过情感体验与精神塑造,培养学生独立的思考能力,而非标准化的知识灌输。人文教育必须坚守以人为本。

  高来源强调的是价值层面“为何守住人”,翟亚军则从制度层面系统性回答了“如何升级育人”。她提出“从管控AI到升级育人”的三重路径:重塑人才培养目标,将“AI时代的科研素养”正式纳入培育体系;倒逼教师提升数字素养与指导能力,适应“人机协同”下的新型教研模式;推动管理者更新治理认知,构建兼具规范与弹性的现代化治理框架。

  对于AIGC检测工具的功能定位,郑海味认为,“未来AI检测工具的开发重点,不应仅仅追求精确地给出一个AI率百分比,而更应该增加风险提示、核查提示功能,即指出论文中哪些地方需要进行人工核查。”她呼吁高校应尽快把AI使用规范纳入正式的学术规范教育体系。“从长远看,AI将成为学术写作和科研训练的常规工具。我们要教会学生在使用技术工具时,仍然保持诚实、判断力和责任感。”

  王峰建议放弃将AIGC检测作为重要评判标准,转而把资源投入到做好高校教师的AI培训上,在使用中推进对AI的理解,而不是制定硬性规定。他向记者描绘了自己理想中的人机协同写作图景——人类作者构建观念,AI帮助搜集材料并确保其准确性,同时给出相关研究进展和修改建议;人类作者据此进行修正并不断补充新元素,再交由AI验证,如此反复迭代直至完成。“论文本质上是一种新方向、新观念的探索,没有必要因噎废食,压制对新工具的使用。”

  中国社会科学报记者 张苹 刘越  

【编辑:齐泽垚】