数字人文方法论反思

2022-07-05 作者:李天 来源:《中国文学批评》2022年第2期

摘  要:从方法论的角度来说,数字人文与传统文学研究的区别在于研究对象的不同。数字人文的研究对象从文学性文本转向质料性文本,继而带来以计算为核心的研究思路和可视化的成果表达方式。基于质料性对象,数字人文通过对关系的挖掘显示出对新问题的发掘能力。同时,由于计算的本性,文学研究中数字人文方法需作为一种辅助手段,而研究本身需回归文学本位。  

关键词:数字人文;质料性对象;关系

作者李天,厦门大学深圳研究院副教授(深圳518000)。

   

  对于文学研究来说,“数字人文”并不是一个全新的概念,它通常被置于人文计算发展的最新阶段,普遍认为它给予文学研究的方法论意义是“量化”,即基于一系列的数据,结合研究者的判断,对文学作品、观念和现象进行研究。早期的运用主要集中于风格辨析,如19世纪Mendenhall试图通过词频辨析狄更斯和威廉·萨克雷的风格差异,Sherman则通过文学作品中句子长度的不同观察英国文学风格的变化, 20世纪80年代美国威斯康星大学教授陈炳藻、华东师范大学陈大康和复旦大学李贤平等人用量化方法分析《红楼梦》的作者等。这一阶段被归于人文计算阶段,试图通过对词频的统计数据,得到比个人阐释更客观的学理依据,去证实或者证伪以往的结论。此时的研究仍然是人工统计,数据量并不大。大数据兴起之后,随着“文化组学”“远距离阅读”“大分析”等概念的提出,数字人文在文学研究中得以真正拓展开来。 

  作为一种新的研究方法,数字人文对文学研究的意义何在?要回答这个问题,我们需要知道数字人文与传统文学研究方法的区别,进而探究它能为文学研究带来何种新发现。通常认为,数字人文所追求的是一个共同的目标:客观性。风格辨析在于为作者风格或类型风格提供客观的证据,“远距离阅读”与“大分析”方法在于“追求一个更为理性的文学史”,因其可以处理海量的、复杂的以及长时段的史料,以机器阅读的方式对全体概念进行考察,避免幸存者偏差,获得更为客观的学理依据。 

  这种客观性被表述为“证实性”(verifiable),与传统研究方法的阐释性(interpretive)对立。后者往往被认为是文学研究的本质,它根植于个体研究者对具体文本的阅读,依据研究者自身的理论框架,得出相应的结论,如对文学现象的阐释,以及对现象背后原因的挖掘等。 

  然而,随着研究的深入,研究者逐渐发现,客观与理性并不能切中数字人文方法的本质,不仅数据本身基于研究者的选择性,统计方法也存在模糊性,更重要的是,数字人文方法本身内含了阐释性。所谓阐释性,实际上是研究的前提:理论预设。如果说“一和不平等”是构建世界文学概念的理论性假设,小世界网络理论是重构《哈姆雷特》中的人物关系的理论预设,那么对7000个英国小说标题的研究,其理论性假设在于:标题可生成意义。“一部小说是一种叙事,而标题,特别是作为小说内容概括的标题也是一个短小的叙事,它呈现了故事的主要事件,人物,环境和结局。”既然预设是几乎所有能产生新知识/观点的基石,那么,与传统文学研究方法相比,数字人文方法“新”在何处? 

  一、质料性对象、计算 

  与可视化表达数字人文方法之新,在于它给文学研究带来的三方面的变化:其一,研究对象的变化,即从整体性文本到质料性对象;其二,研究思路之变,即从以阐释为核心到以计算为驱动;其三,研究方式的表达之变,即可视化表达的参与。其中,研究对象的变化是整个变化链条的基石,正因为文学性文本转为质料性对象,才有了量化与计算的可能,而可视化表达,是最合适量化的表达方式之一。 

  数字人文与传统文学研究方法之所以看上去如此不同,其本质并非定性与定量的区分,而是在于研究对象的差异。数字人文的研究对象并非传统意义上的文学性文本,而是作为质料性对象的“文本”。文学性文本是充盈着意义的语言符号,如果说这些符号的能指是字、词、句子、段落、章节等形式或语音,那么与能指所对应的所指即是语言符号的意义,所指与能指之间呈现出一种“表象”关系。研究者的工作在于穿过能指,阐释所指,进而挖掘出隐藏在文本更深层的意义,并探究其产生的原因。而数字人文所面对的是质料性对象,所谓质料性对象,即作为“物”而不是语言符号的文本,在“物”这里,并不存在“表象”关系,并没有所指与能指的区分,“物”的意义指向自身。在风格分析中,无论是Docuscope 还是MFW,都会选择一定量的特征词作为统计依据,它们关注的并不是这些词的意义,而是这些词本身的词性、出现的频率,以及出现的位置等,也就是说,这些词作为“物”自身的特征。在社会网络分析中,“物”是哈姆雷特、克劳狄斯、奥菲利亚等角色,哈姆雷特是否为王子,他和克劳狄斯是何种关系,并不被关注,不管角色是何种身份、地位,在网络分析方法下都成为以节点表示的“物”,“物”之间的关系通过对话量的多少来表示。如果借用计算机语言来比喻,传统文学研究方法类似于“面向过程”,它研究的是文学作品内部的论述过程,而数字人文方法则是一种“面向对象”。在数字人文方法下,作为研究对象的质料性“文本”的形式表现为语言、印刷或数字书籍以及围绕作品的一系列文化或空间等信息,它们与整体性的文学世界相比,更像是由语料、视觉物料等不同质料组成的质料性对象,而非纯精神性内容,即作为情感与意义表现的文学性文本,正因其质料性,才有数据化、计算以及可视化的可能。以应用较为成熟的风格分析来说,研究者将《红楼梦》或《莎士比亚》的文本拆分成可以计量的语料,才得以用统计学的方法进行作者辨析或者风格分类。可以说,质料性决定了数字人文方法的特征,如辅助性功能、发现宏观问题与关联性问题的优势、可视化表达等。 

  质料性文本可以带来研究对象的扩展,在数字人文的视域下,研究对象不再是单纯的文学性文本,而是多媒介的文学衍生世界。从纵向上说,它可以跨越不同时期文学作品的距离,实现文化组学意义上的文化史考量,如数字人文方法中的远距离阅读与大分析的概念。从横向上说,它可以跨越不同的艺术类型,它面对的是包括续书、改编、衍生等多类型在内的文学世界,可以在多维视角下进行文学研究。比如《正典/档案:文学场域大型动力学》就采用了社会学的方法,将小说在19世纪英国的重印次数与翻译成法语和德语的次数量化为“人气”指标;作家在MLA(美国现代语言协会)参考文献数据库中被提及的次数,以及在DNB(《牛津国家人物传记大辞典》)中的词条的长度,则量化为“声望”指标。通过这两个指标,将18—19世纪的英国小说绘制成相应的文学场域图,不论从横向还是纵向,研究视野都得到了扩展。 

  作为质料性对象,文本成为众多可计量元素组成的集合,在这个基础之上,计算的方法才得以实施,计算是数字人文方法的核心,它贯穿在文学数据库的建设、具体的文学研究以及可视化表达等全部领域,并决定了数字人文的优势与局限。数字人文中的计算,主要在于各类采用了计算机技术的算法,以及各类统计方法。如主题模型算法,就是通过文本挖掘,识别大规模语料库中潜藏的主题信息,将库中每篇文档的主题以概率分布的形式抽取出来,通过分析这些抽取出来的主题,进行主题聚类或文本分类。谷臻故事工场开发的“一叶故事荟”文本分析系统采用情感算法,可以通过提炼文本关键元素,计算关键词的分布以及关系,绘制全文情绪曲线。 

  计算驱动直接导致了研究成果的表现形态的变化,语言文字不再是唯一的呈现形式,可视化是研究对象质料性的直接表现,是语言表述的补充。从视觉呈现来说,可视化并不是数字人文方法的专利,早期的图表、列表都是一种可视化,但与简单的图表不同,基于计算的可视化对多元素关系具有较强的表现力,如用热力图和标签云表示概念群的系统关系;用网络图表示文本内部结构关系;用地图表示研究对象的社会关系网络等,并通过可视化平台实现互动。如斯坦福大学开发的“维多利亚时代伦敦的情感地图”(Mapping Emotions in Victorian London)、北京大学开发的“宋元学案知识图谱系统”等,所表现出的长时段复杂文本中的某些重要元素的关系与变化,都是个体研究者无法通过文字来传达的。 

  不难看出,质料性对象所带来的视野扩展、算法与可视化所表达的效果,都对多元素关系的研究表现出较强的倾向性。数字人文方法下的关系,可以是单个文本中的人物网络关系,可以是长时段下“人气”和“声望”的关系,也可以是时空维度下文学事件的关系。这些关系可以跨越历史,跨越文本类型,如“文化组学”和“远距离阅读”所显示的那样。关键在于,关系的发现基于机器阅读,而不是来自研究者的文本细读。也就是说,这些关系在计算介入之前,对于研究者是未知的。也正因此,才有了新问题的发现以及新知识的生成,正如结构化数据库所显示的那样,“数据之间可以任意重组关联,形成新知识,发现新问题;可以自动生成数据,进行统计分析;可以进行语义检索和时空定位;并能可视化呈现”。 研究者对文本数据的操作,目的是期待从中发现个体阅读所无法得到的新东西。如用社会关系网络发现《哈姆雷特》中霍雷肖特殊的“中介中心性”:霍雷肖并不是文本的中心人物,但是通过计算却发现他在关系网络中占据中心位置,是唯一一位与故事中的每一位角色——不管是主角还是配角——都发生过关联的人物。比起人文计算阶段对已有结论的证实或者证伪,这些在关系挖掘中所体现出的新问题,或许更能体现出数字人文作为一种新方法的探索性。我们可以从近十年来中国文学研究实践中,考察数字人文方法对于新问题的探索。 

  二、关系型研究的本土实践 

  在数字人文的概念引入之后,古典文学、现代文学与网络文学的研究者不断探索着相应的应用领域,如研究者提出七个可供拓进的方面,除了文献史料研究、作家群体生平传记的统计研究、文学文本的风格分析等人文计算阶段已有的方向,更重要的是,学者们注重远距离阅读的文学思想史和观念史的分析,以及以文学为主体的跨学科、跨地域、跨族裔、跨语言的比较与综合研究,文学数据可视化研究。高建平认为“我国文学批评理论的原创性建设,最重要的是理论联系实际”,数字人文的每一步,几乎都与计算机技术同步发展,与世界接轨的信息产业为我国提供了产生原创科学方法的环境。各类古典文学与现代文学的数据库,都是数字人文方法的强大后盾。与人文计算阶段相比,数字人文阶段的数据已不局限于《四部丛刊》《中国基本古籍库》等文献库,而是进一步发展为关系型的结构化数据库,如“唐宋文学编年地图平台”,以及海外的“中国历代人物传记资料库”(CDBD)。它们无一例外都涉及数字化媒介与新技术的应用,并且都具有较强的质料性,使得它们更切近数字人文的研究对象,也使得我们有了新的方法论产生的土壤。 

  在近十年的文学研究实践中,无论是古典文学、现代文学还是网络文学,都能较为明显地看到对关系性研究的重视。如果说长时段、复杂化的文学思想史、观念史是纵向的关系,那么跨学科、跨地域等的比较与综合研究则是横向的关系,无论纵向还是横向,与GIS技术结合的研究融入可视化的时空维度,呈现出一种立体式的多维度视角。 

  纵向关系主要涉及文学史相关研究。早在20世纪90年代,金观涛等人就依据“中国近现代思想史专业数据库(1830—1930)”,采用自然语言处理技术,分析共和、天下、万国、世界等中国近代重要基本概念在大跨度时间段中使用频率的变化,观察其演变背后的观念史。 这种被称之为“数字概念史”的方法, 虽然不是纯粹的文学史研究,但从方法论上看显示出了数字人文在远距离阅读文学史研究中的可能性。如欧阳剑通过对大规模古籍文献的挖掘,分析历史文献中武则天称谓的变化,从中发现一些历史现象;《盛唐中唐诗对宋词影响研究:以六大诗人为中心》使用数据分析考察盛唐中唐诗歌对宋词的影响,发现贞元二十一年(805)到元和二年(807),元和十年到元和十二年,两个“三年”间创作的诗歌对宋词的影响最为显著。 

  如果说文学史与影响力研究是纵向的、时间性的,更侧重于宏观的观察,那么社会网络分析等方法则展示了另一种关系类型——横向的空间性关系,显示出数字人文在微观层面的分析能力。如对单个文本中的人物关系,研究者通过对《左传》进行社会网络分析,发现孔子虽然在《左传》中出现次数不多,却在春秋人物关系网络中占据关键地位; 通过对《大波》中纷繁复杂的角色进行社会网络分析,探讨历史小说形式的真正价值。近年来与GIS技术的融合,以及各类结构化数据库的开发,为关系的发现提供了更为便利的平台。如“唐宋文学编年地图平台”,在历史地图上结合时空二重维度,通过视觉化的方式,展现出诗人们的行迹与诗歌创作的关系,既可以在特定时间看到诗人在不同地点的文学创作,也可以显示出这个区域全部的创作与事件,使研究者可以直观地看到时代、地域、诗人和作品的多重关系。 

  与古典和现代文学的研究实践不同的是,网络文学研究并没有强调纵向的文学史背景,而是更侧重横向关系,主要表现为对文本套路或模式的挖掘,以及网络文学的产业性和社会性研究。网络文学原生性数字化,以及因其强互动性产生庞大的实时数据流,构成了初始的数字化形态,研究者认为这正是中国网络文学研究得天独厚的机会。 就同一时间段所产生的文本数据来说,无论是单个作品的体量,还是作品数量,网络文学已经远远超过传统文学。许多网络小说动辄几百万字的篇幅,其文辞并未经过反复淬炼,粗糙且简单,文本数量与质量特征使得机器阅读成为有效的辅助手段。研究者认为,算法已经作为一种思维方式,主导了网文评价并渗透到创作之中,形成了各种“套路”或“模式”,不仅有“升级流”“废柴流”“重生流”“退婚流”等桥段套路,也存在金手指、掐高潮等反复使用的具体应用技巧,甚至开篇和高潮都有精确的设计。与传统文学的类型或模式不同,网络小说的套路存在着高度的重复或规律性,显示出极强的量化可行性,即研究者所认为的算法基因,这使得数字人文方法的融入更为便利。如研究者通过设定、类型与数据库三个方面,利用人物对比分析工具,处理“明穿文”类型发展的部分问题,寻求技术与文本生成机制之间的关系;通过“一叶故事荟”的情绪算法,不仅揭示出“升级文”的升级节奏与时代情绪紧密关联,还揭示出研究者从未意识到的事实:最流行的“升级文”根本上只有两种节奏;使用机器学习技术训练模型,挖掘《赘婿》文中的“打脸”套路等。 

  这些可以提取并量化的“模式”,本质上来源于以UGC为导向的网络文学创作机制,在以点击率为导向的生产机制下,迅速抓住读者眼球的“爽点”成为创作的必要条件,因此导致无论是叙事结构还是人物塑造,均呈现出单一模式化。网络文学因而表现出与传统文学不同的产业性与社会性,也使得研究者更多从商业机制、读者社群等来拓展研究。如将布迪厄的文学场的理论与算法结合,讨论免费网文平台的文学场逻辑, 采用人物网络分析方法考察“多宝文”的设定与结构,反观当下的社会现象,即女性对婚姻关系、爱情神话的普遍失望等。 

   三、计算局限与文学研究边界 

  质料性对象的基底是数字,是二进制代码,文本据此才得以量化并进入计算,也正是计算的本质与特征决定了数字人文方法的领域、优势与局限。 

  计算意味着遮蔽。胡塞尔认为,计算是一条不断遗忘自身的道路,通过遗忘最初的原型,留下纯粹的形式。一方面它给予研究以证实性,为研究提供新命题;另一方面,文学研究最终需归于阐释,但计算的遗忘本质却为研究者的阐释带来了困难。 

  胡塞尔将从几何到代数的发展视为“计算”的开始,因为这些数字原本应该表示一定的形状,但“纵然人们在此并不像在通常的数字计算中那样‘机械地’计算,人们思考、发明,甚至作出伟大的发现,但是在此期间‘符号的’意义却不知不觉地转变了。后来这发展成为一种完全自觉的方法的转变”。 

  胡塞尔所说的思想、发明和重大发现,即数字人文方法下的“关系”。伊瑟尔曾用硬和软来形容科学理论和文学理论的区别,硬理论在于预测,而软理论在于勾勒(mapping)。在传统研究思路中,艺术作品与文学作品可以被评价,而无法被预测,但计算的创造性就在于它提供的预测性,能揭示个人细读无法发现的关系、无法提出的问题。这是一种由于遮蔽性带来的预测,而这种预测能带来方法的创造性。但遮蔽性带来新发现的同时,或许生成了更大的局限。不管是主成分分析(PCA)、聚类分析等各种统计方法,还是情感算法、主题模型算法等各类计算方法,它们原本应该表示某段故事、某段行迹、某些历史、某些具象而真实的时空,但在成为数据和可视化图像之后,它们却渐渐退隐。计算“导致抽空几何的意义。实际的时空的理念存有在几何学中本来表现为‘纯粹直观的东西’,现在转变成为纯粹的数的构型,转变为代数的构造”。对于数字人文方法来说,计算的局限在于阐释,虽然研究者并不期待计算能具备阐释功能,但问题在于,计算的遗忘本质遮蔽了算法过程,使得数据变得难以阐释。以文学研究中常用的统计方法为例,由于语言质料是数据的主要来源,且数据处理方法受益于统计学较多,数字人文方法也被称为“统计学与社会语言学的混合”。常用的数据统计方法主要包括主成分分析、聚类分析、判别分析、对应分析、因素分析等,其中PCA在数字人文中的使用较为广泛。统计方法的目的在于“将这些文本的突出方面转化为数字形式,然后把那些数字表达变为形象化的图式——它是从科学中借来的地图、图表和树型,以便找到文学与社会关系的新方法。” 地图、图表和树型都是模型,其功能在于通过不同的表示方法,对研究对象的内部结构和关系形成客观性的阐述。 

  然而,统计方法类似于一个黑匣子,研究者个人并不需要了解其运作过程,传统的论证过程被包裹起来,从输出端直接输出分析结果。以PCA方法为例,它将一组文本里许多具有相似分布的不同词频组合到一个新的成分中,从而提取出一小组相关的能够反映出这组文本之间主要差异的主成分。PCA提供了一种可以用来同时“阅读”大量词频的图形化方式,比之前单纯的频率列表阐释起来更容易。该方法将文本的诸多特征降维到两个主要特征,但计算机只给出具体文本在这两个特征上的分布状态,却无法说明这两个特征的所指,这些新的主成分究竟代表什么含义却是模糊的,这无疑对研究者的阐释工作提出了挑战。因为计算是一种技术行为,而“真正地给予这种技术过程以意义和给予这些正常的结果以真理的本来思想被排除出去了”。 

  正是基于这最根本的局限性,数字人文方法的认同者们一方面赞成使用数据,另一方面也承认这种知识的新形式无可避免地会抽象或简化原本复杂的文学现象,使得文学作品失去了其丰富性和独特性。David Brewer认为远距离阅读方法虽解析了“伴随而来的那些经典化过程”,却以忽视历史上文学作品的不同面向为代价。 

  与算法的局限相对应的是可视化表达的局限。作为数字人文常用的表达手段,可视化是算法表达的直接方式,尤其对于关系型研究来说,可视化对于关系的表达要比传统语言文字更为直观、更为便捷,能更直观表达多元素关系、文本结构关系与社会关系网络。与语言文字相比,视觉形象的优势在于直观与便捷。如在宋元学案知识图谱中,我们可以清晰地看到不同流派的演变,但目前部分可视化却与此相悖,如用花树表现凯鲁亚克(Jack Kerouac)《在路上》的文本结构固然赏心悦目,但未受过统计学训练的研究者不仅无法获得直观印象,还需结合大量阐释去“解图”,可视化的意义被边缘化了。 

  算法对文学研究的另一重影响在网文研究上表现较为突出。对于网络文学来说,算法开启了受众导向,基于研究对象的质料性,结合文化产业带来的受众导向,使得算法评价介入文学接受领域。上文谈到,在面对中国文学新现象时,计算已得到有效运用的领域,与文学发展的文化产业属性密不可分。如评价机制中的积分算法,以及随之而来的各种影响力排行,它们最终是为了更有效地吸引用户,以达到某种商业上的目的。考夫曼在《“景观”文学》中讨论了媒体对文学的影响,认为在媒体膨胀之下,注意力(attention)和公众关注度(visibilité)已经取代作者成为最宝贵的东西,注意力经济已经超过原本在文学领域扮演重要角色的象征性资本。但算法评价的商业性,在某种程度上已对文学性提出挑战,因此,研究对象的质料性拓展了研究视野,随之而来的问题是如何保持研究的文学性,或者说,文学研究的边界何在? 

  文学始终是语言的艺术,文学性文本始终是它的核心,影视、同人等衍生形式并不能替代文本的中心位置,受众评价并不能替代专业的研究成果。两者的边界,实际上是文学研究与文化研究,特别是与文化产业研究的界限。新的文学类型、新的接受与评价机制或许带有文化产业的商业性,但是文学研究与文化研究、文化产业研究仍有明确的界线。福柯曾在《什么是文学》里这样描述语言与文学的关系:“文学自在地是一段从语言内部凿出的距离,这段距离被人持续地贯穿,却从未被真正地穿越;它是一种围绕着自身摆荡的语言,一种持久的振动。”文学是一种沉默的语言,是一个本质上无法量化的世界,它保有着本源的超越性和揭示真理的能力。文学研究可以在数字人文方法的辅助下焕发出新的面目,但最终它仍然要回归到自己的文学本位。 

原文责任编辑:马征

转载请注明来源:中国社会科学网(责编:陈静)

扫码在手机上查看