在最普遍的意义上,文化是通过人类的社会学习能力在社群内广泛传播的、有适应价值的信息。文化不仅包括识字断句、琴棋书画、习俗礼仪等文化实践活动,还包括知识、社会组织架构和制度规范等。人类的文化演化表现为文化的体量、复杂性和多样性与日俱增的积累式演化过程。借助文化,人类克服了问题求解时间、推理能力和沟通能力的有限性,从而能快速适应迥异的自然环境,这是人类区别于其他动物的本质特征。文化的可积累式演化为训练生成式人工智能提供了海量的高质量数据,是生成式人工智能成功的关键一环。生成式人工智能的广泛且深度应用,正成为驱动人类文化演化的全新力量。
集文化生成、选择和传播于一身的
生成式人工智能
文化的可积累式演化是文化生成、选择和传播的过程。高效的文化生成机制、有效的文化选择机制、快速且高保真的文化传播机制,是文化演化得以持续发生的关键。与以往的技术不同,生成式人工智能对文化演化的影响是全方面的,因为它既是文化生成主体,也是选择主体和传播主体。
生成式人工智能首先作为文化生成主体展示其实力。以DALL·E、Sora为代表的人工智能借助概念组合,生成海量的图片视频信息;以DeepSeek和ChatGPT为代表的人工智能回应用户提问,源源不断地生成高质量的文化内容。人工智能辅助科学发现生成供科学家进一步探索的科学假说,根据提示生成论文初稿,加速论文发表。生成式人工智能的应用规模和生成速度,意味着在不久的将来,生成式内容体量将超越人类原生态文化,机器文化将成为文化演化的主体。
生成式人工智能正在改变人类传统的信息选择方式。它们根据用户的使用习惯、社交网络结构,为其筛选和推送特定信息,在一定程度上缓解了信息爆炸时代人类面临的信息过载压力。目前,教育领域推广人工智能辅助教学,希望为学生量身定制个性化学习方案,以匹配学生知识发展水平、知识偏好。学生学什么,该怎么学,教师教什么,该怎么教,在学生知识获取的全过程中,人工智能都在为他们筛选知识。在科学领域,生成式人工智能也在发挥文化选择作用。面对海量的文献,科学家利用人工智能收集和阅读关键文献,提取核心内容;外审专家也在使用人工智能评审论文。能够被科学家阅读引用以及通过审核发表在专业期刊的论文,都是人工智能选择的结果。
生成式人工智能在两方面提升了人类原有的文化传播效果。一方面,人类原生态文化是生成式人工智能的训练数据集,包含其中的知识被算法完美保留下来。人工智能生成文化内容的过程就是文化的高保真传播过程。另一方面,生成式人工智能的普及在一定程度上实现了知识平权,语言、社会经济地位、专业背景等诸多因素不再是人类获取知识的障碍,每个人都能够从文化中受益,文化演化速度也会相应提升。
然而,集文化生成、选择和传播于一身的生成式人工智能会固化人类固有的偏见。虚假内容会因为生成式人工智能的生成速度和使用深度而在人类文化中快速扩散。代表性不足的社群文化可能因生成式人工智能的训练模式而在之后的使用中逐渐消失。生成式内容体量一旦超越人类原生态文化,现实世界中的小概率长尾事件信息会淹没在生成式内容的均值性文化空间之中,而用均值内容重新训练人工智能,最终会导致模型崩溃。
生成式文化的多样性困境
在生成式人工智能出现之前,文化生成、选择和传播都是以人为中心而发生的过程,文化演化与人类固有的社会学习能力、认知机制是相匹配的。从文化起源和演化的角度看,人类绝大多数文化都是为了解决特定的适应性问题而被生成和选择出来的。然而,在很多情况下,文化解决适应性问题的内在机制是不透明的。因此,选择什么样的文化进行学习、向谁学习以及什么时候进行社会学习,是人类个体生存首先要解决的问题。为了将有价值的文化选择出来,人类演化出诸多社会学习偏好,包括内容偏好和语境偏好,也设计出一系列社会制度以保障罕见但有价值的文化的高保真传播。
文化的多样性是文化演化的结构特征,也是人类成功演化的关键。文化的多样性来自人类社群的自然和社会环境的多样性、社会学习偏好和社会建制的多样性,也来自社群的人口结构、社会分工与合作模式的多样性,以及个体的认知多样性。然而,集文化生成、选择和传播于一体的生成式人工智能最欠缺的特征就是多样性。
首先,人工智能系统的训练数据集缺少多样性,导致代表性不足的社群文化很可能在生成式人工智能时代被淹没在人类主流文化和机器文化之中。例如,来自非洲的、用于训练人工智能的数据不足1%。非洲文化很难被生成式人工智能提起,传播频率会很低。成功的生成式人工智能需要投入海量的资金用于购买算力,收集和标注高质量训练数据,这就意味着只有少数几家大公司才能开发生成式人工智能,从而导致人工智能系统不具有多样性特征。
其次,以人为中心的文化演化,其文化的生成、选择和传播的速度和体量基本上是对等的。文字、印刷术和互联网的发明和大规模应用提升了文化传播的保真度和传播效率,文化的生成速度也获得相应提升。国民教育体系的普及、科学的社会建制的兴起与完善,让文化的有效选择不至于因为文化体量暴涨而无所适从。然而,生成式人工智能的生成速度远超人类个体和社会机构,生成式内容充斥人类的文化空间,与人类文化混淆,导致文化选择失效。自2022年11月ChatGPT3.5发布以来,互联网上生成式内容比以往激增80多倍。2022年至2023年,文生图人工智能创建的图像超过150亿张,而人类花了两个世纪才拍摄了这一体量的照片。试想人类能够接触到的绝大多数文化是由人工智能创造的,而个体和机构又没有足够的时间对这些信息进行刷选,生成式内容的平均特征及其社会分布频率正为人类的社会学习所偏好,罕见又微小的文化创新就将被淹没在生成式内容的海洋之中。
最后,文化的可积累式演化是新颖的文化内容不断积累和复杂的过程,而不是相似文化不断重复的过程。虽然不是所有生成式人工智能都是鹦鹉学舌,但是所有真正新颖的文化都有赖于人类的识别和确定,否则只是毫无意义的字节。概念的组合创新有赖于概念早已储存在语料库之中,因此人工智能无法生成训练语料库中没有的新知识。正如专家所言,训练语料库中的词语所体现的统计关联信息无法生成可以指导未来行动的因果知识。
(作者系西安电子科技大学人文学院陕西智慧社会发展战略研究中心研究员)