自然语言处理技术助力文本分析

2025-02-06 作者：梁海森来源：中国社会科学网-中国社会科学报

微信公众号

— 分享 —

链接已复制

　　人工智能技术已经深刻改变了社会生活的诸多方面，这是当前社会发展中的一个基本共识。人工智能技术的内核是各类机器学习的算法，包括了有监督学习和无监督学习。广义上的机器学习也包括了强化学习和以神经网络为代表的深度学习。人工智能技术就是把各类算法应用到实际生活领域，具体包括视觉感知、智能机器人、智能编码、专家系统、语音识别、自动驾驶等。这些技术在改变人类生活方式的同时，也变革了社会科学的研究模式。其中，自然语言处理已经成为国际关系研究中的重要技术。

　　早期文本分析的缺陷

　　自然语言处理是用来分析文本数据的各种技术，其核心算法包括传统机器学习算法，如贝叶斯、隐马尔可夫模型、支持向量机等，也包含神经网络的框架，如循环神经网络、卷积神经网络和转换器。自然语言处理本质上是文本分析的技术形式，文本分析迄今共经历了三个不同的发展阶段。

　　第一阶段是定性文本分析，这种分析高度依赖人工编码。这个阶段通常的做法是，研究者根据研究对象事先制定好编码规则，然后依照这些规则用人工方式对文本数据进行逐一编码，最后对这些编码的文本片段进行总结分析。整个分析过程中，编码规则和人工编码是最为核心的环节。

　　这类文本分析技术有两个较大的不足。一方面，这类方法非常耗时、信息提取效率低。编码规则的确定、对文本数据进行逐一编码、编码过程中不断调整编码规则等流程都需要大量的人力。如果文本数据量增大，人力的困境会更加突出。在实际研究中，有一些辅助软件可以协助研究者的工作，一定程度上提升了工作效率。但是，核心的编码工作仍然依赖人工完成。另一方面，信息准确度不高。科学研究中对数据分析的一个基本要求是达到编码者一致，即不同编码者对于同一个数据应该得到一致的编码结果。在定性文本分析过程中，对于文本数据的编码依赖于编码规则的清晰度和编码人员的主观判断。当大量文本数据全都依靠编码人员的主观判断时，容易产生不同的编码结果，导致信息准确度不高。

　　现实世界发展中的三个趋势强化了文本分析技术更新的需求。首先，社会发展和国际关系中的不确定性增加，各国决策者都需要快速获取精确信息。从海量文本数据中获取精确信息，为政策制定提供数据支持是各国决策者的共同需求。其次，数据的极速增长使得提取有效信息变得更为困难。在数据科学领域，数据量正在以指数级增长。要从这些数据中提取有效信息对于技术手段有更高的要求，定性文本分析的手段显然不适用。最后，人工智能技术的快速发展为文本数据分析提供了技术上的可能性。尤其是算力上的突破，使得以神经网络为基础的深度学习算法得到广泛应用。自然语言处理技术就是这种技术发展的产物，也是文本分析的第二个阶段。

　　自然语言处理技术及应用

　　自然语言处理技术源于机器学习的发展，特别是有监督学习算法，可以对大量的文本数据进行自动分析。一些分析任务现在可以由自然语言处理系统自动完成，例如，处理命名实体识别、关系抽取、情感分析等。自然语言处理技术促使文本分析趋向智能化和自动化，同时极大提升了文本数据分析的准确度，从根本上革新了文本分析的技术手段。

　　目前，自然语言处理技术在国际关系研究领域已经有了非常广泛的应用。自然语言处理技术的使用范围在于各类政治文本数据，包括政策文件、新闻报道、社会媒体博文、评论、政治人物访谈等。此外，不少音频数据也可以转化为文本数据，例如，政治人物的演讲、议会中议员的发言等。这些都可以成为自然语言处理技术的研究素材。

　　从研究议题来看，国际关系研究中的自然语言处理技术有几个重要研究方向。第一，社交媒体中的错误信息和虚假信息研究。这些信息涉及战争或者国际关系等重大议题，也是社会学、心理学、政治学、经济学、传播学等众多学科共同关注的重要议题，《自然》《科学》等传统理工科国际重要学术期刊近年也发表了相当数量的此类研究成果。第二，新闻报道与国家形象研究。这些研究利用新闻报道数据分析特定国家的形象，使用的核心技术是情感分析和主题模型。第三，舆情监控与政治态度剖析。这类研究既可以利用社交媒体数据检测民众的态度，又可以利用公开演讲或者议会发言等数据检测政治精英的政治倾向，还可以分析特定类型群体政治态度的发展动态，例如追踪民粹主义倾向等。第四，外交话语分析和数字外交。利用自然语言处理技术，可以分析各国在社会媒体平台上的互动或外交策略。第五，冲突和合作的动态监控。实时新闻报告和社交媒体数据可以跟踪国际冲突的进展，并预测局势升级的可能性。关系提取技术可以用来揭示国家间的合作与对立网络，为国际格局的演变提供数据支持。

　　大语言模型缓解技术困境

　　自然语言处理技术极大地提升了文本数据的分析效率和准确度，但这个技术的进一步发展面临三个困境。首先，目前多数自然语言处理技术均属于静态分析，难以适应语言动态变化的需求，特别是在不确定性增强的环境中。其次，深度学习驱动的自然语言处理技术面临训练周期过长的问题。最后，数据的可获得性是自然语言处理技术发展的关键影响因素之一。高质量数据的获取往往受到隐私保护、版权限制等因素的约束。这三个方面的问题是自然语言处理技术目前面临的瓶颈。

　　基于大语言模型的生成式人工智能在一定程度上能够化解自然语言处理技术的困境，这也是文本分析的第三发展阶段，是目前最前沿的技术。对于文本数据分析而言，一方面，大语言模型的集成化程度提升了模型训练的效率；另一方面，大语言模型可以生成海量文本数据，在一定程度上缓解了数据获得性问题。

　　在实际应用中，大语言模型也存在一些不足。具体来说，大语言模型在一般化任务方面通常具有良好的效果，但对于特定细化领域而言，成效并不突出，这也是生成式人工智能面临的普遍问题。现有研究探索使用检索增强生成框架提升大语言模型的文本分析效果，核心思路就是利用外部数据动态提升大语言模型的信息提取能力。在国际关系研究中，这些外部数据通常是高度相关的政治文本。当然，这些前沿技术在学术研究中还处于探索阶段，并未得到系统应用，技术的潜能有待开发。

　　（作者系上海外国语大学国际关系与公共事务学院讲师）

转载请注明来源：中国社会科学网【编辑：陈茜（报纸）胡子轩（网络）】

社科推荐

学科体系

新媒体矩阵

自然语言处理技术助力文本分析