内容摘要:
关键词:
作者简介:
内容提要:在归纳总结人文计算的价值意义并简单回顾人文计算产生发展过程的基础上,对比了人文计算与数字人文两个概念的异同,认为用人文计算表述更精准,数字人文一词有一定的歧义。分析了当前人文计算研究存在的不足,提出了人文计算的五阶段范式作为人文计算的规范化研究方法,并对其中的若干关键环节进行了深入探讨。
关 键 词:人文计算;数字人文;概念辨析;研究范式;研究方法
作者简介:黄水清,南京农业大学信息科技学院,南京农业大学领域知识关联研究中心教授,研究方向为信息智能处理,信息计量。
基金项目:本文系国家社科基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”的成果之一,项目编号:15ZDB127。
1 引言
人文计算(Humanities computing),或称数字人文(Digital Humanities),是信息技术与人文科学交叉、融合的研究领域。近年来,由于大数据、机器学习等技术的长足发展及多项人文计算典型实践的成功,人文计算已成为学界、业界的热点,俨然有显学之势。在2019年1月10日由中国人民大学书报资料中心、《学术月刊》杂志社和《光明日报》理论部共同主办的2018年度“中国十大学术热点”发布会上,“大数据视域下的数字人文”被评为2018年度十大学术热点之一。人文计算的产生与发展,既是数字时代信息技术向社会各行业各领域全面渗透在人文科学领域的具体体现,也是人文科学自身响应时代发展要求,对思维模式、研究范式、研究平台等进行变革的有益尝试。
人文计算为数字时代的人文科学研究引入了新的思维模式。信息技术对其他领域的渗透,使得各领域的研究方法和手段产生了巨大变化。人文计算的数据思维与计算方法为人文科学研究引入了新的思维模式,拓展了传统人文科学的研究样式,开阔了传统人文科学的研究视界与运用场景。采用人文计算的方法,往往可以发现传统人文科学研究方法无法得到的新观点、新成果。譬如,人文计算中常用的关联语义分析,可能揭示出与人类专家通过阅读得到的完全不同的文本语义。
人文计算为人文科学研究引入了新的研究范式。传统的人文科学研究,大多遵循“提出问题——分析问题——解决问题”模式,方法论上虽有效,但也存在种种缺陷。如,推理过程容易为人诟病,论据、论点乃至结论可验证性差,甚至沦为只有观点没有证据的一家之言。不同学派、不同观点之间的争论,因为没有共同的逻辑起点、没有数据支撑,常常变成自说自话,形如鸡同鸭讲。人文计算将自然科学与技术的客观、理性、精确、系统、可验证、注重过程等特点引入人文科学的研究,要求人文科学研究过程可重复、数据可验证、方法可复用、结论可推广,形成区别于前人的新的研究范式。
人文计算为人文科学搭建了更为广阔的研究与教学平台。传统的人文科学研究,往往是单个或数个研究者纯粹意义上的智力行为,研究对象、研究问题、研究素材、研究人员大多局限性很大,人才培养方面依然延续师傅带徒弟的传统作坊方式,视界受限、平台受限。人文计算则不同,其自身就是学科交叉、融合的产物。人文计算以数据为研究的基本素材,研究过程至少涉及统计学、计算机科学、语言学、图书情报学、人文科学等学科领域,有可能还需要其他学科领域的参与。人文计算是典型的跨学科团队合作协同研究模式,多学科背景的研究人员、多学科的研究方法、多学科的观察视角融合交汇,突破了传统人文科学在科学研究、人才培养方面的组织模式,形成更广阔的研究与教学平台,有利于承担更大型的研究课题,有利于形成规模化的人才培养模式,符合数字时代大科学的研究特点。
人文计算的实践公认以1949年罗伯特·布萨(Roberto Busa)神父为托马斯·阿奎那(Thomas Aquinas)及相关作者的著作编制语词索引为开端。而1964年IBM在约克城高地组织的研讨会和随后出版的文集《文字数据处理研讨会会议记录》(Literary Data Processing Conference Proceedings)(1965),以及1966年约瑟夫·雷宾(Joseph Raben)主编的《计算机与人文学科》杂志(Computers and the Humanities)开始发行,则代表了作为学科领域的人文计算正式走向学术舞台[1]。
对比布萨神父的工作,一定意义上也可将20世纪30至50年代燕京大学图书馆洪业等人编纂的中国古代典籍周遍型语词索引《汉学引得丛刊》作为国内人文计算实践的先声。《汉学引得丛刊》的缺憾是,正是在布萨神父的工作开始启动时《汉学引得丛刊》的编纂工作却停止了,没有能随着时代和技术的发展进入数字化存贮与检索阶段。不过,20世纪80年代国内多名学者以词频为基础探讨《红楼梦》前80回与后40回的作者,可看作典型的人文计算实践,当无疑义。国内人文计算的理论研究则滞后得多。第一篇提及“人文计算”一词的论文发表于2004年,文中介绍了维多利亚大学人文计算与媒体中心开发的一种互动式英语教学软件[2]。但直到2012年,特别是2015年以后,国内该领域的研究论文才进入高速增长阶段。
总体来说,虽然经过了几十年的发展,无论是国内还是国外,人文计算还处于分散式实践摸索阶段。时至今日,与人文计算有关的许多认识还很模糊,甚至某些基本概念都还存在争议。对人文计算相关理念、方法的模糊乃至错误认识,将影响人文计算的学科发展,并在具体的人文计算实践过程中造成偏差。本文将围绕人文计算的内涵外延、面临困难、研究范式以及研究过程中的关键环节等问题,针对其中的含混与模糊之处,抛砖引玉,以一己之见引发更多的兴趣与关注,求教于方家,以利于人文计算的开展与发展。
2 人文计算/数字人文?
人文计算或数字人文,这两个词在国内和国外的文献中都有使用,且指代基本一致,同时也都没有学界一致接受的定义。从字面上看,两个词的共同点是都突现了信息及计算技术与人文科学的结合,区别在于人文计算落脚点在计算,体现了面向数据、作为研究工具及研究手段的特点,而数字人文从字面上看范畴更大、含义更模糊、产生歧义的可能性也更多一些。
人文计算或数字人文,从萌芽、提出到成型,再到高速发展,反映了人文科学在科学研究活动中引进并融合计算方法、数据思维,响应数字时代的变革拓展研究方法的愿望。从这个意义上说,相较于数字人文一词,人文计算的称谓更准确、更贴切,因为在人文计算一词中更能体现计算与人文科学研究的结合,更能体现计算与人文两者并重,更能体现计算是手段、人文科学研究是目的。可以这么认为,人文计算就是将信息及计算技术应用于人文科学领域开展交叉研究的一种新型人文科学研究方法,主要但不限于,通过数据可视化、智能检索、关联分析、文本挖掘、知识发现等技术和手段,达成人文科学的研究目标。
正如前文所述,传统的人文科学研究范式存在缺乏数据支撑、可验证性差等缺点,人文计算恰恰可以弥补人文科学研究这方面的不足。但是,人文计算既不是要取代人文科学,也不是要改造人文科学,甚至不是改造传统人文科学的研究方法,而仅仅是拓展人文科学的研究方法、研究范式,为人文科学研究提供传统研究方法之外的另一种选择。人文计算本质上是人文科学领域知识生产的新方式,或者通过对数据的计算和挖掘发现人文科学中传统研究方法无法或难于得出的某些新观点、新线索,或者为新观点、新线索的发现提供数据、技术及工具支撑。需要特别强调的是,这些新观点、新线索还应该遵循类似王国维先生的“二重证据法”的思路,经过传统人文科学研究方法的论证或检验,使人文计算的发现与人文科学自身的逻辑相互印证,才能成为真正的人文科学领域的新知识。
从构词方面看,“人文计算”一词强调的是“计算”,强调的是人文科学研究中的“计算”,在英语中是一个名词化的动词,突出了知识发现的行为与过程。而“数字人文”一词突出的是“数字”,以名词或形容词的形式对“人文”起修饰作用,给人的直观联想就是数字化,整个“数字人文”一词也是名词性的,因此数字人文很容易被误解为数字化的人文科学或人文科学的数字化。这显然违背了数字人文一词的原意,超出了人文计算或数字人文的范畴,与人文科学的发展现状也不相符。数字时代虽然给人文科学带来了某些新的特质,但人文科学的相关活动并无全面数字化的迹象,即使有,也不是人文计算或数字人文能够承载的。人文计算或数字人文只是人文科学的一个分支或交叉领域而已,目的是拓展或丰富人文科学研究工作,国内外人文计算或数字人文的研究者显然都无意于基于数字化的理念重构人文科学。
另一方面,“数字人文”一词还存在混淆数字化与数据化的隐患。数字化与数据化是完全不同的概念,对人文科学研究活动具有更大促进作用的是数据化而非数字化。数字化仅仅把模拟量转换成以0、1表示的二进制比特位存贮在计算机中,这些比特位能传递的信息非常有限,计算机并不能直接分析这些比特位的含义。数字化仅仅解决了记录与存贮问题,距离成为计算对象还很遥远。譬如,将纸质文献扫描成为图片保存在计算机中,实现了文献内容的数字化,但其意义仅相当于为纸质文献创造了一个数字化的复本而已,计算机并不能基于这些数字化的图片开展针对文献内容的语词抽取、句法分析等运算。数据化则不同,数据化是将事物量化并成为分析、计算对象的过程,数据化的存贮单位不是无意义的比特位,而是有具体含意的字节、字。同样以纸质文献为例,将文献的文本内容(章、节、段、句、词、字等)以字节流或数据库等方式予以存贮、多角度揭示,便成了可以分析、计算的对象,断句、实体识别、自动分词、词性标注、词频统计、语词关联分析等一系列的计算工作便可以相应地开展起来。
还有一点必须特别指出,“数字人文”一词在学术文献中并非只有与人文计算意义相同或相近的这一个含义,事实上,“数字人文”最初是以与人文计算完全不相干的另一个含义出现在国内学术文献中的。
国内期刊文献中,“数字人文”一词最早见诸2003年的一篇会议综述[3],文章介绍了2002年12月由《中国社会科学》杂志社和上海华夏社会发展研究院共同主办的“数字化与21世纪人文精神”学术研讨会上专家学者的主要观点,会议的主题是数字化境遇中的人文精神。文中写道,中国人民大学哲学系“陈专良教授提出‘数字人文’的概念,认为‘数字化’是一种人性化、以人为本的科技形式与力量,是对人的功能的合成、主体的系统表达,把原本属于人的功能变为‘人化功能’,是对为人所知的、具有同步性、可经验性、以人为主体的世界‘再造’,它超越了传统科技与人文断裂的形式与内容,是新时代科技与人文的一次新综合。”会上,多位学者还研讨并共同提出了数字人文的建构范式。此后,在2003年至2010年之间,国内学者共发表了10多篇内容涉及数字人文这一哲学概念的研究论文。在这10多篇文献中,“数字人文”一词的含义没有变化,而同一时期作为人文计算同义或近义词的“数字人文”并未见诸国内文献。因此,至少在2010年之前,“数字人文”在国内文献中还是属于哲学、伦理学范畴的概念,指的是数字时代的人文精神以及以数字方式表现的人文精神。例如,2005年,廖祥忠以《“超越逻辑”:数字人文的时代特征》为题阐述了作者对数字时代人文精神建设的思考[4]。从2011年起,与人文计算含义相近的“数字人文”概念才出现在国内期刊文献,并且在2012年以后逐渐占据主流。但是,用于指代数字时代人文精神这一词义的“数字人文”仍然见诸学术文献,包括近一两年的文献[5-8]。同样词义的“数字人文”也出现在外文文献中。例如,米拉德·杜埃希(Milad Doueihi)[9]提出法国著名人类学家克洛德·列维—斯特劳斯的三种人文主义(古典人文主义、东方人文主义、民主人文主义)应扩充为四种,即增加数字人文主义。查尔斯·特拉维斯(Charles Travis)[10]则把包含数字化人文环境在内的人类生存状态定义为“新人类条件”(The New Human Condition,简称NHC)。
有学者认为,人文计算与数字人文的研究范畴存在差别,前者是“假设测试与材料证实”,后者则是“提出假设、观察、发现、分析、测试,再次提出假设”[11]。这其实是把知识发现的假设与检验两阶段强行切割开了。在知识生产过程中,假设与检验是相辅相成的,没有经过检验的发现不能成为新知识,没有假设检验则无从谈起。这方面最典型的例子就是芝加哥大学Swanson教授提出的非相关知识发现方法。Swanson将非相关文献知识发现分为两个阶段:形成假设和检验假设,后人将前者称为“开放式过程”、后者称为“闭合式过程”[12]。美国韦恩州立大学的Cory教授曾于1997年进行了一项典型的人文计算研究,只是在当时没有这样的称谓。Cory教授应用开放式非相关文献知识发现方法成功地发现了诗人Robert Forst(1874-1963)与希腊哲学家Carneades(公元前214-公元前129年)之间的关联[13],研究过程中既包含了假设形成也包含了假设检验。还有学者认为人文计算仅局限于文本,而数字人文的对象不受文本的约束[14]。上述两种观点在原文中都没有说明依据,应该是文章作者的个人认识,与实际情况也不相符。人文计算的假设、检验与非相关文献知识发现的开放式、闭合式发现过程一样,不能将其切割成为两个不同的对象领域,开放式知识发现过程和闭合式知识发现过程都是非相关文献知识发现的组成部分。事实上,各种版本的人文计算的定义在表述方面虽然存在差异,但所有的定义中既没有将研究范畴局限在检验的内容也没有将计算对象限定于文本的内容。相反,数字人文的定义[15-16]却都强调计算与人文科学的结合,与人文计算的定义高度趋同。
不可否认,目前数字人文一词在文献中的使用频次比人文计算更高,数字人文这一概念的出现也在人文计算之后,但不能据此就认为数字人文是人文计算的发展与进化。实际研究活动中,数字人文与人文计算在内涵方面并无区别。数字人文的概念得到普遍接受,更多的是因为其中的“数字”一词更具传播效应、更加贴近普通读者。从便于学术传播这个意义上说,在文献中使用数字人文一词有一定的合理性。
如果数字人文是对人文计算的发展与进化,数字人文与人文计算理应有不同的标志性成果与典型案例。好比模拟制式移动通信终端(手机)的典型代表是摩托罗拉砖块样的大哥大,进入数字制式的蜂窝通信时代,非智能手机的典型代表就是诺基亚、爱立信、索尼了,而智能手机则是苹果、三星、华为。但是,所有被数字人文选作典型性成功案例的,无一例外都是人文计算领域的典型性成功案例,如阿奎那语词索引、《联邦党人文集》作者识别。数字人文的研究论文,莫不把阿奎那语词索引、《联邦党人文集》作者识别当做数字人文的典型案例介绍。这好比一方面宣称手机进入智能机时代了,一方面却把诺基亚1100当作智能机的最成功机型。出现这种现象,要么智能机时代还没有到来,要么根本没有智能机时代。
在社会科学中与人文计算完全对应的概念是计算社会科学(Computational Social Science),指的是计算和信息技术与社会科学研究的交叉结合。有意思的是,文献中并没有发现“数字社会科学”之类的概念,而且计算社会科学的概念最早见于2009年发表在《科学》上的一篇文章[17],比数字人文一词出现得还晚。这进一步佐证了数字人文与人文计算不存在发展与进化关系。
总体来讲,人文计算内涵更准确,数字人文使用频次更高,实际应用中这两个词完全可以当作同义词看待。在正确理解内涵外延的前提下,根据约定俗成的原则,为增强传播效应,使用数字人文一词未尝不可,但使用者须明了数字人文一词的实质意义,避免字面歧义给研究过程带来偏差。为严格语义,本文依旧采用人文计算一词。
3 人文计算的困窘及规范化
差不多从进入新世纪的第二个十年起,人文计算风光无限,最直接的表现就是近年来相关研究论文激增。但是在表面繁荣的背后,窘迫与尴尬也一直伴随着人文计算。人文计算的研究现状,可用“三多三少”来概括。
首先,追热点的论文多,有实质意义的成果少。人文计算与数字人文当下已经成为时髦用语,研究论文纷纷往这面大旗上靠,无论是否真的开展人文计算研究都想方设法在论文的题名或关键词中加入“人文计算”或“数字人文”的概念,其中又以“数字人文”尤多。但这些研究论文真正开展了人文计算研究的少之又少,大部分是把传统研究工作冠之以人文计算或数字人文的名称。研究者的跟风追热点、赶时髦心态当然是造成这种现象的原因,数字人文的含义模糊也为这种行为提供了极大的便利。只要对象是在人文领域,把传统的数字资源建设、标引、分类与检索拉上一面数字人文的大旗,真不能说完全不对。比如,只要加上“数字人文视域”“数字人文背景”这样的修饰语,以往普通的人文学科领域的资源数字化工作就可以纳入数字人文范畴,以“数字人文视域(背景)下×××资源的数字化”为题写作成文。但是,这类论文对人文计算并无实质的学术意义上的贡献,最大作用就是增加了人文计算领域的成果数量。
其次,非人文学者关注多,人文学者关注少。人文计算是人文科学与信息和计算技术的交叉研究领域,应该受到包括人文科学、计算机、图书情报等学科领域在内的多学科研究人员的关注,由于其最终成果服务于人文科学领域,理应受到人文学者的更多关注,但从研究论文的分布情况看,人文学者产出的人文计算研究成果并不多见。丁波涛以“数字人文”为关键词从中国知网检索获得了195篇有效期刊论文,通过关键词聚类分析发现,最关注数字人文的学科是图书情报学,“‘数字人文’一直是由图书情报领域的专家所倡导并持续推动”,“近几年来各人文学科以及计算机学科的专家学者也加入这一研究领域,但图书情报领域仍是主力军”[14]。同一文献还以“digital humanities”为主题词对Web of Science核心集进行了检索,共得到有效文献210篇,同样进行关键词聚类分析,数据表明,图书情报学科也是国外数字人文研究的主力军,国外数字人文研究的特点是历史学领域应用成果较多一些,也更重视技术进步[14]。数字人文与人文计算是交叉学科领域,与图书情报学关系密切,图书馆还收藏有丰富的以文本方式呈现的研究资源,图书情报学关注该领域、学者研究该领域的问题无可厚非,但图书情报学成为该领域的主要推动者、主要研究力量,对该领域的发展无论从哪个角度看都不是好事情。缺席了人文科学与人文学者、以图书情报学为主力的人文计算或数字人文,已经不再是交叉研究领域,其成果也不再是交叉研究的成果,这样的繁荣只会是昙花一现,对人文计算或数字人文以及图书情报学本身的长远发展并无益处。殷鉴不远,图书情报领域不乏类似先例。
最后,泛泛议论多,成功案例少。人文计算是对传统人文科学在研究方法上的拓展,是人文科学领域知识生产的新方式,其最大的作用在于通过对数据的分析、计算发现人文科学特定领域的新知识线索。人文计算的研究虽然需要各个方面、各个角度的研究,但对人文计算的学术认同最具提升作用的是成功的人文计算案例。即便是现在,推介人文计算的文章仍然会重点介绍布萨神父的工作以及《联邦党人文集》作者身份识别两个典型案例,成功案例的典范作用由此可见一斑。自2012年起,人文计算和数字人文在国内的研究成果直线上升,经过六七年的发展,每年发表的论文数量已不是个小数字,仅2018年一年CNKI就收录了140多篇关键词为人文计算或数字人文的论文。但是,虽然部分论文涉及数据库建设及较为空泛意义上的“大数据”[11],部分论文涉及特定算法的应用与改进,其他的论文大多数至今仍停留在介绍人文计算或数字人文的理念、国外的相关项目以及某方面(如学校教学或图书馆)开展的工作等,现有研究最缺乏的是与文学、历史、艺术史等具体人文学科的密切结合,已发表的论文中很少有自主开发的典型性成功案例。而针对人文科学特定领域的新知识发现,特别是其中具有典型性的知识生产与知识发现过程,才是确立人文计算学术地位、增加人文计算影响力外溢效应的优秀成果,才是人文计算领域迫切需要的成果,也是当前最缺乏的成果。
人文计算的“三多三少”现象,其原因主要有以下两个方面。
其一,作为交叉学科领域的人文计算还不够成熟,上述问题许多是学科发展过程中的问题。若以布萨编制阿奎那语词索引为开端,人文计算已经有了几十年的历史,但阿奎那语词索引的早期工作以及《联邦党人文集》作者身份识别,其实是手工完成的。时间进入21世纪,由于数据的丰富及计算能力的提升,开展人文计算研究的技术条件才真正具备。特别是机器学习的长足进步,技术上对人文计算形成了完美支撑,再也不会出现手工完成《联邦党人文集》作者身份识别任务这样的现象了。正是在这样的背景下,数字人文的概念被提出。虽然人文计算和数字人文都把发展历程追溯到阿奎那语词索引的编制,但从严格意义上讲只有最近十几年才真正得到了发展。作为学科领域,十几年的发展过程显然不足以成熟与完善,问题较多也就不奇怪了。
其二,现有研究没有充分遵守知识发现的规范化方法。人文计算本质上是在数据的基础上面向人文科学的知识生产、知识发现过程,应该遵守知识发现的规范化研究方法,即问题定义、数据集建构、技术实现(含算法设计)、问题求解、结果评价及呈现的五阶段范式。人文计算的相关研究应该或者完成新知识发现的全过程,即完成上述全部五个阶段,或者对新知识的发现起到辅助作用,即对上述五个阶段中的一个或几个开展阶段性研究,以利于后来者完成新知识的发现,也可以针对某个阶段的关键性问题展开深入研究。其中,阶段性研究必须以有助于完成知识发现为目的,研究过程应置于人文计算背景下做全景式思考。譬如,即使是单独研究数据集建构、算法设计,也应牢记本次研究针对的是什么问题,需要什么样的数据支持,算法必须达到什么样的性能,结果能否符合领域要求,等等。如此,人文计算范畴下的数据集建构、算法改进就很容易与一般意义上的文本型数据库建设、检索系统设计区别开了。
人文计算的问题定义阶段,目的是选定适合开展人文计算研究的对象与问题,明确对象与问题的范围和边界、预期目标、研究假设,预判研究价值、人文学者的接受度、数据及技术条件是否具备、结果评价及呈现的方法与手段等。这个阶段特别需要与领域专家保持密切合作。
人文计算的数据集建构阶段,目的是为求解的问题准备所需要的数据集合。首先根据问题定义收集相关数据,厘清数据的含义及相互间的关系,检查数据合法性并清除错误数据,然后,对数据进行冗余剔除、语义标注、表述方式转换、训练与测试集抽样等加工过程。其中的数据加工过程可能需要循环多次,以适应算法要求,使数据集合与求解的问题达到最佳匹配。
人文计算的技术实现阶段,目的是依据问题定义和已有的数据集合选择适当的算法,并以程序设计语言实现算法,开发设计出相应的人文计算工具软件或完整的软件系统,使算法在数据集合上得以成功运行。技术实现阶段需要注意四方面的问题。首先,算法及其包含的统计模型有其适用对象和运行环境,选择算法时须充分考虑这一点,避免误用。误用算法的后果好比经济学的供给模型被错误地用于研究市场需求,研究结论势必大相径庭。其次,针对问题和数据集合的实际情况,所选定的标准算法可能还需要进行参数调整或算法改进。再次,要特别重视算法的运行效率,确保人文计算软件与系统能够高效运行。也许问题定义、数据集建构、算法选择都是正确的,却因为算法实现过程中忽视了运行效率,使得开发的人文计算工具软件或软件系统缺乏实用性,运行后解不出问题的答案。最后,应在易用性方面尽最大的努力,降低使用难度,便于向人文领域学者推广。如果开发出的是完整的软件系统,最终目标是使系统成为类似非相关文献知识发现的Arrowsmith系统那样,面向同类型的多个任务,开放给全球研究者。
人文计算的问题求解阶段,目的是基于数据导出所定义问题的研究结果,主要工作是运行人文计算工具软件或系统,对数据集合中的数据进行运算,提取数据之间的关联关系,形成新知识的初始模式,最终导出人文计算的结果。工具软件或软件系统的运行者,既可以出身于计算机、图书情报等学科,也可以是人文科学的领域专家,无论是何种身份的研究者,研究者本人都需要具备对应人文科学领域的基本知识及敏锐的观察力,必要的时候还须与其他身份背景的学者保持互动与合作。问题求解阶段需要密切观察运行过程中的各项输入输出参量,必要的时候可能还要进行人工筛选、施加控制。另外,大多数情况下,运算后得到的结果都是数据与数据之间的关系,并非新知识的完整表述,仅仅提示了新知识存在的可能数据线索,人文科学的领域知识将有助于识别和发现数据线索,提炼数据所揭示的规律,从数据结果导向问题结果。
人文计算的结果评价及呈现阶段,目的是从所研究的人文科学领域的角度测评、解释、检验、论证问题求解阶段得出的结果并予以呈现。即使问题求解阶段导出了问题结果,其本质上还是假设,没有得到验证的假设依然是假设,结果评价及呈现阶段就是验证结果的新颖性和有效性,并以人文学者能接受的方式呈现出来。结果评价及呈现阶段起主导作用的必须是对应的人文科学特定领域的专家,而不能是计算机、图书情报及学科的专家,测评、解释、检验、论证的方法也必须是对应的人文科学特定领域的方法,而不能是计算机、图书情报等学科的方法。计算机、图书情报等学科的专家务必认真听取领域专家的意见,以领域专家的意见作为判断标准。如果领域专家对问题求解的结果不能完全接受,则可能需要回到问题定义、数据集建构、技术实现、问题求解阶段,从其中的某个阶段开始,调整或修改研究思路,再根据新思路依次完成后续各阶段的研究。为更好地展示人文计算的结果,呈现过程可借鉴并融合多种技术手段,包括可视化方法。呈现的方式须遵循对应领域的规律与特点,多层级、多维度地展示成果。
需要再次强调的是,以上的五阶段范式是人文计算的完整流程,具体到实际的人文计算研究,并非所有的具体人文计算研究工作都要一次性走完上述全部五阶段。某项具体的人文计算研究,既可以是完成五阶段全过程,也可以是在五阶段的总体框架下针对其中的某阶段、某几个阶段,甚至是针对某阶段中的某个问题开展研究。比如,只研究数据集建构,只研究算法设计,或者,只研究数据采集方法,只研究算法评测指标,只研究结果的可视化展示,只研究结果数据的可信度,都是可以的。但是,针对某阶段、某阶段的某个问题的研究,不能脱离人文计算五阶段的总体框架,不能脱离人文计算问题定义的总体目标,这样的研究就很容易区别于一般意义上的软件设计、数据库建设、资源融合、用户服务等研究工作,就不会有偏差。
4 人文计算的关键环节
在人文计算的五阶段范式中,有几个关键环节。一定意义上,它们是其他环节的前提和基础,决定了研究工作的成败与水准。关键环节还突出反映了人文计算的特性,体现了人文计算研究方法与传统人文科学研究方法的不同。这些关键环节,有可能对应于一个完整的研究阶段,也有可能是某研究阶段的一个组成部分。下文将重点讨论其中的研究问题选择、数据集、算法设计三个关键环节及需要注意的问题。
4.1 研究问题的选择
好的目标等于成功的一半。选择什么样的问题作为人文计算的研究对象,决定了后续的研究是否有价值、是否可行,甚至包括研究结果是否正确。
研究问题的选择在问题定义阶段完成。如前文所述,在问题定义阶段,要选定人文计算研究的问题,明确其范围和边界,提出研究假设,设定预期目标,并预估未来的研究过程中可能遇到的困难及应对措施,包括研究结果能否被人文学者认可和接受。
选择人文计算的研究对象和研究课题,不能单纯从人文计算的角度,而应该从人文科学的现实需求出发并结合人文计算的可行性。简单地说,所研究的问题不能仅仅是人文计算的问题,而应该是人文科学与人文计算共同的问题。人文计算研究常犯的错误是在选择研究对象与问题时仅考虑现有数据、现有技术能实现什么、能得到什么,换句话说,相当于人文计算研究者手上有什么做什么、什么简单做什么、什么方便做什么、什么熟悉做什么。这样的研究对人文科学研究往往没有什么贡献,人文学者也不感兴趣,沦为人文计算研究者的自娱自乐。前述“三多三少”现象中“非人文学者关注多,人文学者关注少”的部分原因即在此。
人文计算的最终目的是解决人文科学领域的问题,更确切地说,是研究并解决在人文科学领域有现实需求与研究价值但在目前情况下采用传统的研究方法暂时不能解决或较难解决的问题。选择人文计算的研究对象和研究课题,应该从对人文科学领域具有现实需求和研究价值的角度,兼顾人文计算所需要的数据资源、计算能力,选择研究目标明确、数据可获取且质量有保证、有对应计算方法、结果明确且可以验证的人文科学问题作为研究课题。
选择人文计算的研究课题,重点可以考虑以下几个方面:
如上文所述,首先要考虑在对应的人文科学领域是否具有研究意义和研究价值。人文计算最终要解决的是人文科学的问题,信息与计算机技术仅仅是研究手段,技术手段的作用在于促进研究问题的解决,而不是对人文学者炫耀技术。如果技术手段无助于解决人文科学的实际问题,那么,再炫酷的技术也是徒有其表,不会得到人文学者的认可。如阿奎那语全集词索引、《联邦党人文集》作者识别,都是人文科学领域此前没有解决、有研究价值的实际问题。
其次,开展人文计算研究前,对选定的课题及希望达成的结果要有一定的目标或假设。这里的目标与假设,并非既定的结论,而是现有研究基础上做出的推测、设想或暂定性的答案,正式研究过程中,便于根据目标与假设整理数据、设计算法。比如,《联邦党人文集》作者识别,事先假定不同作者作品在单词使用习惯、词与词之间的依存关系方面存在差异,借此可以识别文章作者身份,因此,针对性地分别收集文集中作者身份已确定、作者身份待确定的文章中的数据。在研究过程中,根据进展及出现的新情况,可以对目标与假设进行调整,同时相应地调整人文计算的数据集、算法等。
第三,在现有人力、物力、技术条件下,对于所选定的人文计算研究课题能够采集、获得所需要的数据,并构建成为可供运算的数据集合。有时候,数据集还需要区分为训练集和测试集,用于不同阶段、不同目的运算。《联邦党人文集》作者识别即如此。倘若支持运算的数据不可获得或代价无法承受,即使有再好的研究假设也无法开展人文计算。
第四,要有针对研究课题的相应技术解决方案,包括统计模型的理论依据、算法可行性、技术实现环节等。仍然以《联邦党人文集》作者识别为例,其算法模型的理论依据是贝叶斯公式,数据采集与计算等各项工作全部由人工模拟计算机完成,技术上无障碍,缺陷是工作量巨大,花了十年的时光。
第五,课题的预期结果在所属人文科学领域可以验证。知识发现的初步结果必须经过验证才能成为新知识。发现的作用类似于望远镜,把对象作为整体观察,分析、发现、识别出可能的规律,形成初步结果。验证的作用类似于显微镜,对初步结果进行细致入微的考察、检验、诘难,以符合该领域的理论体系、学科逻辑。人文计算既要起到望远镜的作用,也要起到显微镜的作用,既能通过问题求解发现新观点、新知识的线索,又能用人文科学自身的方式验证发现。可验证的选题才是合适的人文计算课题。
从以上五个角度分析《联邦党人文集》作者识别的选题,就很容易理解该项研究选题好在哪里、为何成为人文计算的经典案例。《联邦党人文集》在美国历史上地位崇高,已成为中小学生的必读书,但其中12篇文章的执笔者在三位合作者逝世后的130多年来却得不到确定。选这样的人文科学问题开展人文计算研究,意义不言自明!此外,前人的研究已确认这12篇文章的作者或者为汉密尔顿或者为麦迪逊,而其他73篇文章的作者身份没有疑义,以贝叶斯公式为理论依据统计单词出现频次、词与词之间的依存关系可实现作者身份甄别。研究假设、样本数据、算法原理相应地都有了完善的方案,貌似无比困难的问题其实研究思路非常清晰。最大的难点是20世纪60年代没有现今的技术实现手段,只能用人工方式完成单词抽取、词频统计等一系列工作。这也是该项研究的最大障碍及拖延十年的原因。结果公布后,赢得了学者们的一致认可,百年来的未解之谜至此有了公认的结论!
对比国内许多学者尝试过的《红楼梦》前80回与后40回作者识别,很容易得出结论:《红楼梦》这个选题当前完全不适合用人文计算方法解决。《红楼梦》是天下奇书,其作者身份在红学界百年来一直争论不休,部分学者甚至持《红楼梦》原著没有唯一作者的观点,前80回与后40回作者分别为曹雪芹、高鹗所作只是众多说法中的一种。何况,并没有足够数量的两位作家的传世文本作为训练集。在这样的前提下,只要红学界关于《红楼梦》作者的研究没有重大进展,将人文计算用于《红楼梦》作者识别,任何结果都不可能得到红学界大多数专家的认可。
人文计算不应该试图回答人文科学领域专家都不认可的问题,而应帮助领域专家完成他有模糊想法但尚不明晰或缺乏实质证据的问题。知识发现的最高境界是通过技术手段得到领域专家人人心中所有、人人口中所无的结果!
4.2 数据集
数据是人文计算研究的基石,没有数据,计算无从谈起。数据的覆盖面、质量和颗粒度等因素很大程度上决定了人文计算的可信度、成败与深度。
人文计算的数据采集、整理,首要原则是依据选定的研究问题精确定位数据要求,包括范围、颗粒度、获取方式、质量指标等。所研究的问题决定了对数据的要求。一方面,什么样的数据支持什么样的运算,没有真实数据支持的运算只能算作仿真或模拟,覆盖面不够的数据代表性不足,质量不高的数据运算结果没有可信度。另一方面,数据采集整理、数据集建构成本极高,依据所研究的问题界定数据范围、数据质量有利于节约研究资源,中国的问题不需要采集全球的数据,问题若只需达到百分位精确度数据未必要达到千分位的精度。
有一种情况需要特别说明一下。常常有单纯研究数据集建构的研究课题,如阿奎那全集语词索引就是典型例子。这类课题不以求解具体问题为目标,或者单纯完成数据集建构,或者研究数据集建构中的某项技术问题。这类课题没有选定的具体研究问题,如何定位数据要求呢?其实,这类课题还是有选定的研究问题的,只是所选定的研究问题不是某个具体的问题,而是一类问题。仍以阿奎那全集语词索引为例,该课题面向所有关于阿奎那问题的研究,数据采集整理、数据集建构必须以能满足此类研究任务的全部要求为目标。
用于人文计算的数据有可能是结构化的,也有可能是非结构化的。人文计算的性质决定了后者的比例和可能性更高。当数据被采集、整理后,非结构化的数据还需要转换成结构化数据。多数情况下,转换后的结构化数据以数据库的方式表示并存贮起来,成为可支持人文计算的数据集合。非结构化数据向结构化数据的转换过程,其实是非结构化数据以结构化方式表示的过程,一般会有多种表示方式供选择。各种转换方案都会丢失一些信息,选择方案时要结合算法实现的需要,在保留重要信息的前提下更利于算法的实现。
某些时候,特别是当前机器学习技术得到广泛应用的情况下,数据集还被区分为训练集与测试集。前者用于问题求解前的机器学习或算法性能测试,后者用于实际问题求解。训练集比测试集对数据质量有更高的要求,一般由人工构建。训练集的数据质量越高,算法运行结果越好。常常有这样的情形,更换算法对人文计算结果的影响,还不如提高训练集的数据质量更直接、效果更好。
当数据源为文本时,人文计算的数据集常被称作语料。相应地,训练集可称作训练语料,测试集可称作测试语料。
4.3 算法设计
人文计算的算法模型,一般都是借用成熟的通用模型,不太可能完全从无到有自行设计算法。因此,算法设计其实是算法模型选择、领域化改造、参数调整及算法实现的过程。如隐马模型、最大熵模型、CRFs模型、神经网络模型、非相关文献知识发现的A-B-C模式等都可以经过领域化改造后应用于人文计算。
技术服从于目标。人文计算算法设计一定要紧紧围绕所研究的问题,根据问题定义阶段对研究问题的界定选择合适的算法模型,经过领域化改进后应用于特定问题的求解。
与数据集建构类似,人文计算的研究论文常常能见到不针对具体研究问题单纯研究算法的。这类研究的一般思路是:提出算法设计或领域化改造思路;实现算法;在特定的训练集、测试集上运行算法;将运行结果与其他算法模型进行对比;总结算法的优缺点与适用场景。这类研究表面上没有选定具体的研究问题,实际上针对的是类型化的问题,即算法模型可用于解决同类型的研究问题。这类研究同样需要紧紧围绕所研究的问题选择、改进并实现算法。与一般研究不同的是,这类研究不是围绕某个具体的研究问题,而是具有共性的某种类型的问题。
另外,算法模型的选择,一定要避免跟风,陷入“最好算法”的误区。事实上,根本没有“最好算法”。如果真有一种算法模型各方面都冠绝群雄,按技术发展的规律,其他的算法自然会逐步消亡,根本无须人文计算研究者对比选择。人文计算研究者常犯的错误是把最新最流行的算法当作“最好算法”。在算法设计时不问青红皂白选用最新最流行的算法模型,一方面可能增加技术实现的难度,另一方面还未必能带来好的运算结果。比如,近年来深度学习技术取得了长足的进步,人文计算的研究论文几乎言必称深度学习,仿佛不采用深度学习算法研究水平就低人一等似的。深度学习即使是屠龙刀,也是有适用的前提条件及应用场景的。屠龙刀若用在厨房,效果未必比普通菜刀强。条件不具备,场景不符合,深度学习算法便不适用。
还有一个问题,就是数据集的作用。前文也提到,某些时候,算法改进还不如更换数据集作用大、效果明显。算法设计与数据集关系密切,数据对象不同,算法效果差异很大。
虽然没有“最好算法”,但在现有技术条件下,在特定数据集基础上针对特定问题一定有“最适用算法”。一定意义上,最适用的算法便是最好的算法。针对特定问题,通过不断研究、改进得到最适用的算法,是算法设计的研究任务。
最后,人文计算的目的是求解人文科学特定领域的研究问题,只有研究结论在人文科学领域得到认可,才能证明人文计算的所有技术手段包括算法模型是正确的,而不是相反。技术手段高超并不能证明结论正确,但结论正确说明技术手段运用得当。算法设计要防止变成技术手段的炫技,人文计算研究要避免沦落为研究人员卡拉OK式的自娱自乐!
5 结语
为厘清学界对人文计算与数字人文的认识,避免偏差,本文分析比较了人文计算、数字人文两个概念的内涵外延。作为概念,人文计算的表述更为准确,数字人文一词则容易引起歧义。不过,当前数字人文一词使用更广、社会号召力也更强,按约定俗成的原则,在研究过程使用数字人文一词未尝不可,但须明辨其实质含义,防止概念歧义对研究过程造成偏差。
人文计算和数字人文虽然经历了几十年的发展历程,但只是在近十几年随着技术的进步才真正进入高速发展期。人文计算和数字人文顺应了数字时代的到来,将信息与计算机技术引入传统的人文科学领域,其发展趋势已锐不可当,人文计算和数字人文一定会有辉煌的未来。
人文计算和数字人文短暂的发展史,取得了成绩,也积累了问题。这些问题和困难一方面是学科发展初期中的问题,另一方面是因为没有严格遵守问题定义、数据集建构、技术实现、问题求解、结果评价及呈现的五阶段研究范式而造成的。人文计算是面向人文科学的基于数据的知识生产、知识发现过程,五阶段范式应该作为人文计算规范化的研究方法。具体的人文计算研究,既可以完成五阶段的全过程,也可以在五阶段的框架下针对某个阶段、某个阶段的某个具体问题开展研究。人文计算的某些关键环节决定了整个研究工作的成败与水准,既是人文计算研究的难点,也体现了人文计算与人文科学传统研究方法的不同,在研究过程中须重点关注,以利于提升研究质量。
原文参考文献:
[1]霍基.人文计算的历史[J].葛剑钢,译.文化研究,2013(4):173-193.
[2]刘梦莲.利用HOT POTATOES创建互动式英语习题[J].外语电化教学,2004(2):73-76.
[3]李振,奚建武.信息化进程的前沿探索——“数字化与21世纪人文精神”研讨会综述[J].探索与争鸣,2003(2):34-36.
[4]廖祥忠.“超越逻辑”:数字人文的时代特征[J].现代传播,2005(6):23-25.
[5]张璐璐.数字化时代中国人文精神的建构[J].学理论,2015(16):199-201.
[6]石佳友.治理体系的完善与民法典的时代精神[J].法学研究,2016(1):3-21.
[7]孙振海,沈麟.“数字人文观”对翻译教学的反拨效应[J].英语教师,2018,18(23):14-16.
[8]刘亚斌.论界面阅读的技术和身体政治[J].学习与探索,2018(8):169-174.
[9]Doueihi M.About Digital Humanism[EB/OL].(2013-07-16)[2019-03-10].https://www.inaglobal.fr/en/ideas/article/about-digital-humanism.
[10]Travis C.GeoHumanities,GIScience and Smart City Life world Approaches to Geography and the New Human Condition[J].Global and Planetary Change,2017(156):147-154.
[11]戴安德,姜文涛.数字人文作为一种方法:西方研究现状及展望[J].赵薇,译.山东社会科学,2016(11):26-33.
[12]黄水清,马俊岭.汉语社会科学文献非相关文献知识发现的实证研究——以农业经济学文献为例[J].中国图书馆学报,2009,35(4):31-38.
[13]Cory K A.Discovering Hidden Analogies in an Online Humanities Database[J].Computers and the Humanities,1997(31):1-12.
[14]丁波涛.计算社会科学相关概念的比较与辨析[J].情报资料工作,2018(6):60-67.
[15]Berry D M,Fagerjord A.Digital Humanities:Knowledge and Critique in a Digital age[M].New Jersey:John Wiley & Sons,2017:18.
[16]Wikipedia,The Free Encyclopedia.Digital Humanities[EB/OL].(2019-02-24)[2019-03-02].
https://en.wikipedia.org/wiki/Digital_humanities.

