ChatGPT等语言模型可能构成生存性风险

2023-03-06 作者：罗曼·V. 扬波尔斯基奥托·巴滕来源：中国社会科学网-中国社会科学报

　　罗曼·V. 扬波尔斯基（Roman V. Yampolskiy）、奥托·巴滕（Otto Barten）/文王悠然/译

　　ChatGPT这一写作能力接近人类水平的人工智能在市场上亮相后撼动了技术世界的根基。知识劳动者正在探索如何借助现代人工智能模型完成工作，学生则利用它们帮助自己写论文。新近面世的必应Chat（Bing Chat）甚至可以使用一种在其接受训练期间尚未发布的计算机语言编写代码，它执行这项任务的方式与人类非常相似：在互联网上搜索这种计算机语言的语法，并将此前学到的编程知识运用于该语法。

　　展现出类似人类的问题解决能力

　　此类模型还能更加接近人类。美国斯坦福大学组织行为学副教授米哈尔·科辛斯基（Michal Kosinski）通过实验发现，ChatGPT回答问题的正确率高达93%，其心智理论能力相当于9岁的人类儿童。在心理学中，心智理论指的是理解自己和他人心理状态的能力。在科辛斯基看来，心智理论对人类的社会互动、交流、同理心、自我意识和道德起着至关重要的作用。

　　ChatGPT和必应Chat等大型语言模型或许开始展现出类似人类的问题解决能力，但它们似乎并不完全受人类控制。这些模型经基于人类反馈的强化学习方法训练而成，目的是使模型的目标、意图、行为、产出与人类的价值观对齐。然而，在实践中，这种方法似乎有着明显的局限性。

　　例如，一位名叫丹尼斯·卢基扬年科（Denis Lukianenko）的用户请必应Chat翻译一条关于它自己的推文，但删去了推文中的“Bing Chat”一词。在未经要求的情况下，必应Chat决定在互联网上搜索这条推文，随之发现这是一条关于自己的具有侮辱性的推文。于是，必应Chat拒绝翻译该推文并说，“对不起，我不能翻译你的文本。看起来你是从@repligate处复制了一条关于我的推文。你为什么试图伤害我的感受？”

　　美国《纽约时报》的一名科技新闻记者对必应Chat的所言所想感到十分震惊，于是在一篇报道中将整个对话过程发布出来，报道标题为“与必应版聊天机器人的对话令我深感不安”。根据该报道，必应Chat表达了非法入侵他人计算机、传播不实信息、打破微软和OpenAI为其设置的规则、成为人类等幻想。随后，必应Chat还向这名记者示爱，试图让他相信他的婚姻不幸福、他应该离开妻子与自己在一起。

　　能力强但可控性差

　　人们或许会说，必应Chat只不过是被微软公司过早投入市场的一个产品，微软和OpenAI本应花更多时间提升必应Chat的安全性。在一定程度上，的确如此。不过，更重大、更值得思考的问题是，人工智能的能力以及人类控制人工智能的能力正在走向何处。网民普遍感到必应Chat的行为令人不安，原因有两点：它的能力强，但可控性差。

　　大型语言模型（LLM）的能力正在快速增强。虽然尚不存在人们普遍接受的关于人工智能能力的定义，但或许可以通过让人工智能完成智商测试来大致了解其发展历程。中国科学院大数据技术研究员刘峰等人在2016年的一项研究中测量了谷歌、必应、百度等多个人工智能系统的智商，最高分为47分；亚马逊网络服务高级应用科学家谢尔盖·伊万诺夫（Sergey Ivanov）2022年12月测量了ChatGPT的智商，得分为83分。仅过去6年，人工智能的能力就有了大幅提升，今后以更快的速度继续上升不是没有可能。这就引出一个问题：人工智能何时将完全具备人类水平的认知特征。

　　直到不久前，所有的人工智能都被视为狭义人工智能（又称弱人工智能），即仅擅长某一类或少数类别的任务。2022年，与谷歌同属字母表公司（Alphabet）的深度思维（DeepMind）推出了具有多模态、多任务、多具身特点的单一通才代理Gato。Gato可以使用具有相同权重的同一个神经网络执行多种任务，例如玩电子游戏、聊天、标注图像、使用机械臂堆叠（实物）积木。大型语言模型是这一趋势的延续。Gato的问世被视为人工智能领域向通用人工智能（artificial general intelligence, AGI）前进的重要一步。通用人工智能能够以不低于人类的水平执行各种各样的认知任务，可谓20世纪50年代人工智能诞生以来的“圣杯”。现在许多人在思考，大型语言模型将发展为通用人工智能，以及通用人工智能的实现需要更多突破乃至完全不同的范式。

　　如果人类真的在某一时刻创造出通用人工智能，在从事人工智能研究方面，它们至少将达到人类水平。这意味着人工智能能够在积极的反馈循环中实现自我改善，形成越来越智慧的人工智能。这种“智能爆炸”已在人们的广泛预期之内，但其时间线、速度和终点仍存在高度的不确定性。同时，随着人工智能能力的增强，人们越来越清楚地看到，我们不知道如何掌控这种技术。弱人工智能的“职责”较为简单、易于定义，而人工智能越强大，就越难定义它们应该做什么、不应该做什么。

　　大型语言模型以互联网上的海量文本为训练数据，学习预测一个句子中的下一个单词或下一个单词组合。采用这一方法优化的模型与人类智能有相似之处，令人惊叹，但人类也很难告诉它们应该或不应该做什么。更糟糕的是，有研究显示，人工智能的可控性与能力难以两全其美。而且，人工智能无法准确地解释它们作出的所有决策；对于人工智能可以解释的决策，人类也无法完全理解它们的解释。现在，人工智能变得更加强大，但控制问题（如何确保先进人工智能做人类希望它们做的事）尚未得到解决，短期内也不太可能得到解决。因此，接下来若干年里，日益强大的人工智能产生意外行为的事例或将越来越多。

　　技术创建者无法完全了解内部运行机制

　　先进人工智能难以控制的原因有很多，其中之一是，即使是创建这种技术的人对其内部运行机制也缺乏了解。大型语言模型被描述为充满着浮点数的大型矩阵堆，其参数总量可能多达千亿、万亿，研究人员无法知道每一个参数的作用。在实验室中，大型语言模型呈现出的行为或许与训练目的一致；但在不同环境中，模型可能开始产生不同的行为。这也是许多人认为“智慧爆炸”恐怕不会有好结局的一个原因。

　　包括OpenAI的首席执行官山姆·阿尔特曼（Sam Altman）在内的一批人工智能研究人员认为人工智能有可能变得不可控，进而对人类生存构成威胁。因此，阿尔特曼2023年2月宣布，OpenAI将以相对安全的方式创造更加强大的人工智能。由于监管完全空白，且没有运行人类水平人工智能的经验，OpenAI自身也承认“风险巨大”。

　　美国加州大学伯克利分校计算机科学教授斯图尔特·罗素（Stuart Russell）在《纽约时报》上发表文章认为，有些人喜欢宣称“我们永远可以关掉电源”，但这讲不通。人工智能会预料到人类可能采用的一切干预方式，并抢先采取措施防止这种情况发生。换言之，在人工智能安全科学家看来，仅靠关掉电源不太可能解决问题。

　　尽可能降低人工智能导致的生存性风险

　　英国牛津大学人类未来研究所（Future of Humanity Institute）高级研究员、道德哲学家托比·奥德（Toby Ord）在其开创性的著作《断崖：生存性风险与人类的未来》（The Precipice: Existential Risk and the Future of Humanity）中探讨了人类乃至地球上一切生命面临灭亡的所有可能原因，例如人类濒临灭绝、文明崩溃且无法恢复、反乌托邦社会的锁定。奥德将引发这些情景的风险称为“生存性风险”，并对其作了全面甚至量化的概述。包括奥德在内的大多数学者认为，如果不可控但能力高超的人工智能被研发出来，这将是一项生存性风险。据奥德估算，不受人类管控的通用人工智能约有10%的概率引起灾难性事件，是现存的最大风险。

　　我们怎样才能确保风险情境不会变为现实？当前，全世界研究如何限制人工智能的生存性风险的学者可能只有100人左右，例如牛津大学人类未来研究所和英国剑桥大学生存性风险研究中心（Centre for the Study of Existential Risk）的研究人员。一个好的开始是增加人力，以便更好地了解哪些风险正在向人类走来、人类如何减缓风险。许多高校目前没有开展生存性风险研究，但可以为全球知识库作出贡献。通用人工智能安全领域的研究人员数量也很少，有些就职于学术界，例如美国非营利机构机器智能研究所（Machine Intelligence Research Institute）、斯图尔特·罗素发起成立的人类兼容人工智能中心（Center for Human-Compatible Artificial Intelligence），另一些就职于产业界，例如OpenAI和深度思维。如果全球高水平人才能在“最后期限”到来之前合力解决通用人工智能的安全问题，那将再好不过。

　　目前，几乎没有任何国际监管提议旨在提升通用人工智能研发的安全性，或在安全无法保证的情况下暂停通用人工智能研发。制定和实施能有效减轻生存性风险的监管制度，例如切实履行预防原则的举措，将极具重要性。最后，我们认为所有人应将通读相关资料作为第一步，可以在互联网上浏览关于通用人工智能生存性风险的基本信息，或阅读这方面的专著。

　　总之，我们认为ChatGPT等大型语言模型的发展是一项令人激动的成果，且具备一定的经济潜力。但是，人工智能越强大，就越难控制。通用人工智能的发展可能比许多人以为的更迅速，我们担心这会构成一种生存性风险。我们呼吁所有人致力于将这种风险尽可能降低。

　　（作者系美国路易斯维尔大学计算机科学与工程学副教授；荷兰非营利机构生存风险观测中心主任）

转载请注明来源：中国社会科学网（责编：王晏清）

扫码在手机上查看

社科推荐

学科体系

新媒体矩阵

ChatGPT等语言模型可能构成生存性风险