Sora代表的“世界模拟”人工智能变局及应对

2024-03-25 作者：韩博胡正荣来源：中国社会科学网-中国社会科学报

微信公众号

— 分享 —

链接已复制

　　OpenAl最新推出的Sora视频合成平台运用前沿AI技术，实现了高清、动态的分钟级视频生成，展示出强大的真实世界模拟能力。这一突破预示着AI在模拟现实的能力上开启了新篇章。面对“世界模拟”能力构建这一人工智能新发展趋势，我国应强化国家战略部署，在人才培养和资源配置上做出针对性调整，促进中国人工智能发展壮大。

　　“由虚向实”的“世界模拟器”开端

　　Sora的核心使命似乎是推动“文本驱动视频创作”这一视频制作技术的应用，但实际上，由Sora生成的纹理清晰、逻辑严谨的人工智能视频，代表其官方技术文档中阐述的“新的模拟能力”正逐渐成熟。这种模拟能力不仅标志着人工智能在内容创造领域正在经历从文字、图片到动态视频的跨越，更昭示着人工智能的发展方向正“由虚向实”，走向现实立体空间的解析与模拟。这种对世界理解和表现方式的实质性转变，使Sora成为构建“世界模拟器”这一宏大愿景的新里程碑。

　　所谓“世界模拟器”，旨在开发一种具备状态更新机制的神经网络组件，它可以存储和模拟环境状态，进而根据接收到的当前情境信息，结合预期采取的行为，预测接下来可能出现的情境变化。这一模型通过对虚拟环境的仿真，试图捕捉并理解真实世界的运行机制，通过对比实际执行动作后的观测结果与预先预测的观测结果，持续优化自身的预测精度。Sora在扩散模型（Diffusion Model）和Transformer架构的双重加持下，在多模态生成任务上达到前所未有的水平。其利用Transformer模型来捕获输入数据（如文本描述）的高层次抽象和上下文信息，通过扩散模型逐步去除噪声并恢复出原始图像，二者相结合使Sora能够实现从文本到复杂动态视觉内容的准确转换和创造，创制出的视频内容符合基本观赏规律与人类常识，实现了虚拟世界中“再造”世界的初步尝试。

　　相较于ChatGPT等文本生成式人工智能在二维空间探索世界，Sora等视频生成式人工智能开始初步在三维空间模仿真实世界，并以人更容易接受的视频形式加以展示。值得注意的是，展示的前提是理解，理解越透彻，展示越充分。高精度仿真世界投影的出现，展现出算力、算法的进步，更体现出人类对物理世界理解的深入。Sora生成的视频之所以让人“惊叹”，更多在于它符合受众对真实物理世界的观察与体悟，让人感觉如“亲眼所见”。其背后是对相关物理规律，如近大远小、自由落体等进行深度挖掘、数字化后的成果。众多权威学者和业内专家发声强调，Sora在二维视觉信息的传播与时空维度的表现力上独树一帜，但并未达到对真实世界的全貌进行全面刻画和模拟的高度，尚未形成严格意义上的世界模型。但瑕不掩瑜，能够生成看起来像是在三维环境中自然移动和互动的视频，已经可以看作是人工智能“虚拟创世”趋势的关键节点。相应地，元宇宙等理念也不再停留于畅想层面，而是坚定地向前迈出了一步。

　　类Sora智能应用的潜在风险

　　类Sora应用的发展表现出构建“全真数字世界”这一人工智能演进趋势，这一趋势蕴含着深层变革，将重塑我们对传媒形态、信息真实、文化多元、军事演练的认知边界。

　　首先，在传媒业转型背景下，类Sora人工智能将引发传媒业结构性变革。随着智能技术逐渐渗透进传媒生产的核心肌理，如信息采集、文章撰写、编排审校乃至影像摄制等环节，传媒从业者将面临前所未有的转型挑战。尤其对于摄影师、导演及后期剪辑师等从业者而言，类Sora应用凭借其先进的AI视频创制能力，能够精准捕获并优化那些曾经倚重人力经验、流程化的操作。比如，模拟自然流畅的叙事节奏、再现细腻复杂的镜头语言，实现相对个性化的艺术构思。如此一来，劳动密集型工作的自动化替代进程在智能纪元将加速推进，结构化的就业秩序将出现深刻调整。

　　其次，视频真实性的基石正在类Sora应用的冲击下发生动摇，人类长期以来秉持的“眼见为实”信条将遭遇空前挑战。作为尖端AI视频生成技术的典型代表，Sora已超越单纯的图像篡改范畴，将虚拟与现实之间的界限模糊到令人惊叹的地步。这种伪造已经进入了“真实伪造”状态，超现实伪造技术不仅颠覆了传统的基于物理属性判断、摄像技法辨识、现场情景分析等手段的视频真实性检验机制，更让新闻报道的真实性原则陷入历史性的危机旋涡。未来亟待探索的是如何在虚实交织的世界中构筑起新的认知防线。

　　再次，文化多样性问题在Sora技术的广泛应用中显得尤为突出。从现在网络中流行的Sora生成视频及其官方报告来看，Sora生成的视频场景和人物原型虽涵盖了一定比例的非欧美元素，但整体基调仍显著偏向欧美审美趣味。这就意味着，受限于现有数据库中相对单一且西方中心化的基础资源，在尝试通过Sora塑造富含中国特色和本土文化底蕴的高质量人工智能视频作品时会陷入文化适应与表达困境，从而加剧全球文化多样性的流失。

　　最后，Sora展现出的精微视频生成能力，亦昭示出其在军事模拟领域的潜在威力。如同一位智谋深沉的棋手在无形棋盘上擘画战略蓝图，Sora可以较为精确地模拟物理现象的影响效果，构造宛如现实的战地景象，甚至进行战术模拟、虚拟战斗训练、武器系统研发等多元化实践应用。这项技术与实战数据相结合，将助力战略指挥者洞悉未来战争迷雾，预测对手行动轨迹，并据此优化决策，提升决策效能。

　　“世界模拟”人工智能变局的应对策略

　　面对“世界模拟”人工智能变局，也许可以从以下方面未雨绸缪，提前进行布局以应对新一代人工智能的挑战。

　　现实世界的原理转化。加快物理、化学等自然原理的数字化模拟及图像化运用。Sora的“强大”之处在于生成看起来很真实的视频，让人难分真假。其背后是对物理规律、物理世界的模仿与复刻。这需要物理原理的深度数字化及应用。物理、化学动作造成的衍生效应是需要重点突破的视频生成难点。

　　人员培训。培养文字表达能力强、逻辑清晰的人工智能使用者。Sora等人工智能，归根结底属于工具范畴。工具的使用有其特定的规则、逻辑。官方技术报告指出，Sora“对高度描述性的视频转译进行训练，可以显著提高文本保真度和视频的整体质量”。针对描述性不足的话语，甚至“利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型”，以生成高质量的视频。可见，使用者对事物的形容能力直接决定了内容输出质量，这是一种新的工具技能，需要类似早期电脑操作培训的系统化训练。

　　对抗真实伪造。打造“人工生产”内容赛道。人工智能生成能力越强，人工生产的内容越“珍贵”。这与普通商品领域的“纯手工制造”有异曲同工之处。目前看来，即便是高度仿真的内容生成，也终究受限于元素的整合重组，并不能完全复刻真实世界的社会动态进程，这恰恰暴露出类Sora的人工智能内容制造系统的根本性短板。尤其是在牵涉社群福祉和个人命运的重大问题上，人们对于信息的真伪甄别、精确程度以及权威性有着强烈诉求，这就为传统的新闻传播领域创造出与AI工具迥然不同的生存发展机遇。至关重要的一环在于能否不断创造并推送切合人民群众实际需求和现实关切的内容。要着力锻造一条以真实性为核心、由人工精心编排的内容赛道，通过输送高质量的真实信息来抗击虚拟信息的肆意蔓延，从而在中国建立一个“真实”新闻传播实践的标杆模式。

　　中国素材出海。打造权威、开源的中文视频、文字语料库。在“世界模拟”人工智能时代，拟态环境中的中文信息生存权正受到严峻挑战。未来的人工智能内容生产，相关素材不进入算法，相当于当事方“不存在”。国外人工智能软件能否接收到来自中国的语料“投喂”，中国算法能否有相关优质资料进行训练，将是未来中文信息能否生存的关键。这需要我国视频素材掌握者与开发者深度合作，打造一批精品语料库，助力各类人工智能训练，迎头赶上视频生成、世界模拟的趋势。

　　严防关键数据泄露。Sora等人工智能模拟能力再强大，依然离不开数据输入。这提示我们，在Sora开启的世界模拟时代，数据特别是涉及国计民生数据的泄密风险不单局限于具体数据本身，还应注重数据保密、封存等数据保护措施。

　　（作者系中国社会科学院新闻与传播研究所世界传媒研究中心研究员；中国社会科学院新闻与传播研究所所长、中国社会科学院大学新闻与传播学院院长）

转载请注明来源：中国社会科学网【编辑：刘娟（报纸）曾煜婷（网络）】

社科推荐

学科体系

新媒体矩阵

Sora代表的“世界模拟”人工智能变局及应对