自然语言是人类交流和信息传递的重要工具。生成式人工智能以大语言模型为基础,试图模仿自然语言的数据值,帮助机器生成与真人创作相差无几的内容。生成式人工智能以强大的语言生成能力,重塑了人类对语言的理解和应用。然而,当前生成式人工智能的核心技术主要依赖于概率生成机制,即在学习已有数据的基础上生成新的数据样本,而新的数据样本却可能包含看似合理实则荒谬的内容。因此,生成式人工智能必须深入掌握自然语言的复杂语义、语法结构以及上下文的衔接规则,实现自然语言理解(Natural Language Understanding,NLU)和自然语言生成之间的智能交互。
生成式人工智能的核心框架是大语言模型,它基于数十亿个短语的大型数据集训练,掌握复杂的语言模型和认知联系,为计算机提供与上下文相关的数据,并将内容以人性化的形式呈现。对于大语言模型,初始训练和参数调整是模型创建和运用的关键环节。在初始训练阶段,要基于大规模数据集对大语言模型进行训练,以帮助模型熟悉语言的基本框架,掌握语言结构,总结自然语言的使用习惯和变化趋势,进而使大语言模型基于语法规则的应用以及数据指令,生成连贯且相关的上下文文本。在参数调整阶段,大语言模型基于已有训练内容,使用更小且特定的带标签实例进行监督训练,通过参数优化对算法进行微调,使模型更贴合特定的任务需求,显著提升模型在文本生成、对话问答和情感分析等活动中的表现。初始训练和调整训练可以有效提高大语言模型应对特定任务的能力,使其具有更高的效能、更广泛的应用和更强的环境适应性。
目前,生成式人工智能虽然看起来具有感知能力,但远未达到通用人工智能的标准,不具备与人类等效甚至超越人类的表现能力,仅依靠数学模型亦不足以训练智能系统的自主性能力。为此,要将“以人为本”的理念内置于人工智能的核心位置,引入人的自主能力,确保人类对人工智能系统输出和推理过程的控制和解释。自然语言是体现人类交流与思维的载体,具有灵活性、创新性以及上下文关联性等特征,蕴含着丰富的动态语义。自然语言理解在一定程度上可以推动生成式人工智能朝着人性化方向发展。
自然语言理解指计算机通过对人类自然语言的处理与分析,具备通过自然语言与人类交互的能力。这要求计算机不能局限于简单地解析语言,更要在语形、语义与语用层面深入理解语言,从而准确识别自然语言的含义、意图与语境。自然语言理解被定义为一种受大脑启发的模块化框架,对人类大脑编码和解码语言的认知过程进行建模,进而解构语言意义。基于模型原理维度的审视,区别于大语言模型依托统计计算对语言含义进行概率性推测,自然语言理解系统的运行逻辑更趋近于人类的认知机制,可以辨别大语言模型可能忽略或误解的微妙含义、语义微差与隐性内涵,并延伸到更复杂的语言结构及句子背后的复杂语义,如抽象概念的逻辑结构、隐喻的跨域映射、同义词在具体语境中的精确含义等。
鉴于自然语言理解与大语言模型在语言理解机制上的本质区别,自然语言理解的相关研究将为生成式人工智能的发展带来多重优势。其一,自然语言理解通过精确响应确保回答的准确性。自然语言理解强大的语言理解能力使其能够通过推理精确分析复杂、模糊、不完整的语义信息,进而给出符合任务要求的答案。其二,自然语言理解可以保持响应的连贯性和相关性。自然语言理解对语言意义的精准把握以及在语言交流方面深度关联上下文的能力,使其在面对上下文动态变化的对话时保持一定程度的连贯性和相关性。其三,自然语言理解具有知识的迁移性。大语言模型可以识别训练数据集中的模式,但在应对跨语境的任务时通常难以给出连续的响应。然而,自然语言理解能够将知识在不同领域进行推广,动态地转移学习及其相关信息。
真正实现自然语言理解需要先进的知识表示,既需要丰富的结构化知识库,又需要融合符号推理与神经网络方法。丰富的结构化知识库涵盖更多的知识类型,为自然语言理解提供更全面的语义支撑。符号推理和神经网络的混合方法有助于理解和生成更准确、更符合上下文的响应。此外,自然语言理解还需要引入元学习和类比推理等技术,以实现其对新问题类型和新上下文任务的快速适应,这种持续学习将使生成式人工智能在动态环境中更具适应性。
语言是文化的载体,自然语言理解试图通过语言信息编码为人类与生成式人工智能的交流建立联系,彻底改变人机之间的跨语言交流方式,解决人机之间的交流障碍。事实上,自然语言理解不仅有助于促进人机交互,而且拓展了生成式人工智能的语用维度。其一,实现语境分析。自然语言理解为生成式人工智能的数据训练提供了语境分析策略,帮助其生成连贯且相关的语境文本,同时跟踪语境动态变化,确保文本的实时有效性。其二,感知人类意图。意图感知是个体识别和理解他人目的的重要方式,而生成式人工智能只能提供单一的解决方案,并未考虑人类的意图与目的。对自然语言的理解在一定程度上可以助力人工智能对人类意图的获取与理解,进而实现更具同理心的互动。其三,增强共情能力。尽管生成式人工智能在模拟人类共情方面已取得一定进展,但其缺乏真正的情感体验能力,而深入理解自然语言的语义内涵可以强化人工智能对人类情感的认同,进而生成人性化的共情回应。其四,构建人性化人工智能。虽然生成式人工智能的智能表现与人类表现已较为接近,但人类所具有的人性特质使其主观感受难以被完全复制。而借助自然语言理解,生成式人工智能可以进一步模拟人类特质,实现“人性化”人工智能的目标。
综上所述,尽管人工智能借助数学建模取得了显著进步,但仅依靠数学模型不足以对人类在复杂任务中语言的编码和解码过程进行建模。而自然语言理解超越了对语言的单一统计分析,融合了语义、语用以及文化背景等多方面因素,实现了人类语言的精确解析与深度理解,架构起“以人为本”的新型人工智能方法,为可靠、负责任、人性化的生成式人工智能系统带来了新的可能。
(本文系国家社科基金重大项目“人工认知对自然认知挑战的哲学研究”(21&ZD061)阶段性成果)
(作者系中共山西省委党校省情与发展研究中心讲师;山西大学科学技术哲学研究中心讲师)