首页 >> 当代中国 >> 研究园地 >> 文化
数字档案资源知识“关联”组织研究
2013年07月10日 10:35 来源:《档案学研究》(京)2012年6期第44~48页 作者:吕元智 字号

内容摘要:

关键词:

作者简介:

  【英文标题】The Knowledge Organization of Digital Archival Resources Based on Linking Data

  【作者简介】吕元智,上海师范大学人文与传播学院信息管理系,上海 200234

  【内容提要】关联数据是一种有效的语义网信息组织规范,将其应用于数字档案资源知识组织工作是切实可行的。本文在分析其可行性与必要性的基础上,构建了数字档案资源知识“关联”组织框架模型,并从档案领域本体建设、档案关联数据质量提升、数据关联关系利用以及关联组织协调机制构建等方面提出了具体建议。

  The linking data is an effective semantic web organizational norm which would be applied to the knowledge organization of digital archival resources. Based on analysis of the feasibility and its necessity, this paper describes the knowledge organizational framework by linking data, and gives some measures to carry out the work, such as building the ontology in the field of archives, enhancing the quality of the linking data, utilizing the relationship among archival data, establishing the coordination mechanisms, and so on.

  【关 键 词】数字档案资源/知识组织/关联数据/本体Digital archival resources/Knowledge organization/Linking data/Ontology

  1 引言

  随着语义网技术的发展,计算机网络逐渐从信息网络向知识网络演进,它为人类社会描绘了一幅前所未有的知识获取与共享美景。在这一演进过程中,为了有效开发利用档案资源,国内外档案学领域专家学者和研究机构也开始尝试从知识的角度来研究数字档案资源组织与服务问题。其中,加拿大档案学者Terry Cook是这一方面的“先声”,早在1994年和1996年他就分别提出了档案管理者应向知识管理者转型思想[1]和后保管模式[2]理念。目前,从可以搜集到的文献来看,国外该方面研究主要集中在两个层面:一是数字档案资源组织规范研究。如2005年美国启动了“电子文件档案馆(ERA)”项目,着手研究数字档案资源格式与语义异构问题,并提出了集成保管解决方案[3];Jack E. Olson(2009年)在分析源系统数据库与档案数据库差异的基础上,探讨了档案数据标准与组织规范[4]。二是数字档案资源利用服务方式研究。如2002年美国国家人文基金会(NEH)批准和资助了“西北数字档案馆(NWDA)”项目,通过SGML编码的档案著录格式来置标档案检索工具,用ANSI/NISO Z39.50标准来实现档案信息检索[5];Greg Sennema(2004年)[6]、Aidan Hogan(2011年)[7]分别从图书馆集成服务、语义搜索引擎应用的角度探讨了数字档案知识服务实现的方式和途径。在后保管模式及语义网研究的影响下,国内学者也开始对这一领域进行尝试性研究,相关研究主要有:一是数字档案资源知识组织与管理研究。如王兰成教授(2008年)从知识集成视角研究了档案知识组织问题[8];吴建华教授(2008年)进行了档案网站信息资源组织研究[9];曾娜博士(2009年)对网络档案信息资源组织的方式和途径进行了系统梳理[10];刘晓亮(2010年)讨论了知识服务型档案网站资源构建方案[11]。二是数字档案资源知识利用与服务研究。如陈永生教授(2003年)研究了数字化档案信息利用问题[12];张照余教授(2006年)从VPN技术角度探讨了全国档案信息资源共享网络的构建[13];金波教授(2007年)分析了网格技术在档案信息资源服务中的应用[14];刘永教授(2008年)提炼出了数字档案馆的一般知识服务模式[15]等。

  纵观国内外研究,诸学者和研究机构研究了数字档案资源组织与服务中的诸多问题,如数字档案资源的组织标准、知识服务模式等,然而,在具体实现技术途径上却进展相对较缓慢。值得庆幸的是,近年来国际互联网协会(W3C)所推荐的“关联数据”不失为解决数字档案资源知识组织的一种有效工具和规范。在此,本文以“关联数据”为工具,研究数字档案资源知识组织问题,以供数字档案资源管理工作参考。

  2 关联数据应用于数字档案资源知识组织的可行性

  “关联数据”是一种用来组织、发布和链接各类数据、信息和知识的规范,其提出的目的是在现有万维网基础上构建一张计算机能理解的语义数据网络,使任何人都能够准确、高效、可靠地查找、利用这些相互关联的信息和知识[16]。从本质上来讲,关联数据是一组共享数据实践的集合,它为语义信息组织工作提供了一种轻型、渐增化、可伸缩和可扩展的动态机制[17],将其应用于数字档案资源组织工作是切实可行的。

  第一,从技术实现上来看,关联数据是建立在Web技术之上的,它继承了传统Web技术中的超文本传输协议(HTP)和统一资源定位符(URI),并对其作了进一步的限定和扩展,因此,它在技术实现上具有扎实的基础。另外,关联数据采用资源描述框架(RDF, Resource Description Framework)来描述各类“资源”对象。RDF用统一资源标识符(URI)标识事物,用简单的属性及属性值来描述资源并组合成为一个陈述(被称为陈述的主体、谓词和客体),即RDF三元组(RDF triples),可被用于表达任何可在Web上被标识的事物的信息[18][19],将其用来表示数字档案资源中的知识单元是切实可行的。此外,关联数据采用SPARQL(Simple Protocol And RDF Query Language)作为检索查询语言和数据获取协议,它可以检索任何可以用RDF来表示的信息资源,为数字档案资源知识检索实现提供了保障。

  第二,从社会实践上来看,关联数据自2006年Tim Berners-Lee提出以后,它就得到了社会广泛响应,并在图书馆、企业等领域进行了应用研究。目前“关联数据”已成为语义网最佳实践,并形成了较为成熟的理论体系和实践模式。这些为关联数据应用于数字档案资源知识组织工作积累了经验,并奠定了良好的社会氛围。另外,近年来一些研究者对档案资源知识组织的各种尝试性研究,如《档案知识组织初探》[20]、《基于简约知识组织系统的〈中国档案主题词表〉语义网络化应用研究》[21]等,为关联数据应用于数字档案资源知识组织奠定了理论基础。

  第三,从数字档案资源体系建设来看,为了适应现代信息社会发展要求,广大档案工作部门一直在努力推进档案信息化,在各档案工作部门形成了诸多的数字档案管理系统以及各种特色的档案数据库。这些为数字档案资源的数据关联实现奠定了最基本的资源基础。另外,从建设投入上来看,目前国内数字档案馆建设工程正在全面启动,随着公共财政投入的不断增加,为该项工作推进提供了较为充足的资金保障。

  简言之,利用关联数据对数字档案资源进行知识组织是时代发展的必然,是切实可行的。

  3 数字档案资源知识“关联”组织的必要性

  档案是社会发展的记忆,是各种事实、经验和知识的重要载体。在当前,随着数字化技术的广泛应用和数字档案馆工程的日益发展,各种类型的档案资源基本上以数字化的形式或部分数字化的形式(如数字化的档案目录)存在。然而,这些数字档案资源并非凭借现代化的技术和设备就能很好地被利用,即使利用,在很大程度上也难达到预期的效果。造成这一结果的原因是多方面的,但是,可以肯定的是,档案信息组织工作滞后是其中最为重要的原因之一。目前档案信息组织工作基本上还是沿袭传统的组织思路,以档案内容特征和形式特征为基本组织单元。这种组织模式在档案实体查询与检索方面具有较好的适应性,但是它与现代知识经济社会发展的要求不相一致。对用户而言,尤其是以参考为目的用户,他们需要的是如何以最便捷的方式获取自己所需要的信息和知识,而不是这些档案资源的存在和表现形式。因此,在当前按知识利用与服务的要求,利用“关联数据”来组织数字档案资源是非常必要的。

  第一,对数字档案资源进行知识“关联”组织可以有效地开发档案资源,挖掘出最有价值的实践经验和知识。知识组织是揭示知识单元、挖掘知识关联并以最为快捷的方式为用户提供有效知识或信息的过程或行为[22]。在当前,按照现代知识组织的理念和要求,解析出数字档案资源中的各类知识单元,并发掘出蕴藏在档案资源中的各类隐性知识因子,将数字档案资源中的知识尽量显性化,为广大用户利用这些知识创造条件。另外,对数字档案资源进行知识“关联”组织,按照知识利用的要求,将分散的知识关联起来,有利于知识聚合的实现,发掘出新的知识,从而达到对数字档案资源进行深层次开发的目的。

  第二,对数字档案资源进行知识“关联”组织可以打破档案资源与其他信息资源的界线,促进档案资源尽快融入社会信息服务体系,发挥档案资源的生产力作用。档案资源是最有价值的社会信息资源之一,但是由于档案资源的特殊性和管理的封闭性,档案资源在管理与利用上与其他信息资源存在较为明显的界线,在实践中也形成了相对独立的管理与服务体系。显然,这些在传统社会中基本上是适应的,但是在网络时代,这些就成为了限制数字档案资源被广泛利用的“瓶颈”。为此,在当前对数字档案资源进行知识“关联”组织,利用关联数据的基本标准和规则,将档案资源融入社会关联数据“云”,增加档案资源被发现或检索的概率,使其得到充分利用,并发挥出现实生产力的作用。

  第三,对数字档案资源进行知识“关联”组织有利于促进档案检索工作向智能化方向发展,为用户创造更大的价值。利用关联数据技术对数字档案资源进行知识组织,在档案知识单元之间建立起各种链接,有助于数字档案资源被智能搜索引擎发现,为该领域智能检索工作奠定基础。同时,通过知识“关联”组织工作,将数字档案资源按知识利用的要求组织起来,必然会迫使传统的档案检索工作转型,推动档案智能检索研究与应用的发展。另外,对数字档案资源进行知识“关联”组织,有利于在现代智能检索系统的帮助下,根据用户的要求,自动搜寻相关知识,最大限度地满足用户利用需求,从而为用户创造更多、更大的价值。

  4 数字档案资源知识“关联”组织框架

  根据关联数据概念模型[23],结合知识组织要求[24],本文在此构建数字档案资源知识“关联”组织框架模型,如图1所示。本模型由“档案资源提供层”、“档案资源描述层”、“数据发布层”、“档案数据关联层”、“知识聚合层”、“知识服务层”构成。

  其中,“档案资源提供层”是数字档案资源知识组织的基础,它由档案目录数据库、档案全文数据库以及档案Web库等资源组成,是数字档案资源知识“关联”组织的源材料。“档案资源描述层”是本框架模型的关键。在这一层,利用关联数据中的RDF三元组对各类型数字档案资源进行描述,形成计算机能理解的元数据集。本层的重点在于将数字档案资源中的有价值的知识元解析出来,形成一个个相对独立又有关联的档案知识元,为数字档案资源知识组织的实现奠定基本元素基础。“数据发布层”将经过描述的格式化数字档案资源进行发布,形成档案数据源,为下一步档案数据关联网络的形成打下基础。“档案数据关联层”主要任务是利用数据关联技术将RDF格式的数字档案资源关联起来,形成档案数据关联网络,为知识聚合服务。“知识聚合层”是数字档案资源知识组织实现层,它由数据访问、本体映射、实体识别、知识集成等模块组成。在“知识聚合层”中,通过统一的规范访问档案数据关联网络,并将其与用户需求进行本体上的映射,自动或半自动地进行实体识别,最终形成集成数据以便下一步应用[25]。数据访问模块的基本功能是解析关联数据集提供的HTTP URI,获取以RDF模型描述的对象信息,或者支持SPARQL远程查询等。本体映射模块主要是解决同一领域信息因使用不同的本体来描述而造成差异的问题。事实上,在档案信息化进程中,大部分的档案数据集还是在使用自行设计的领域本体或应用本体,甚至根本就没有使用本体,而只是附加了一个简单的数据说明。通过本体映射,在相关概念之间建立关联。实体识别模块在本体映射的基础上,解决“具体哪些实例描述的是同一个实体”的问题[26]。在具体实施中,数据关联的核心在于为每个实例产生一个唯一的标识,这些标识可能本身就存在,例如用于标识档案文件的文号,用于标识全宗的全宗号等。也可以将该实例的多个属性值相结合以生成唯一标识,如文号加责任者加日期等。“知识服务层”,即面向用户的数字档案资源知识服务层,该层的主要任务就是为用户搭建知识服务平台,为用户提供新的资源发现和访问服务等。

  5 数字档案资源知识“关联”组织实现的建议

  数字档案资源知识“关联”组织的实现是一个渐进的过程,在当前它需要做好以下几个方面的工作:

  5.1 加强档案资源管理领域本体建设

  本体(Ontology)是概念模型的明确规范说明[27],其目标是捕获相关领域的知识,提供该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。为此,在数字档案资源知识组织工作中,要想实现知识“关联”组织,就必须加强档案资源领域本体建设。通过领域本体建设,对档案资源管理领域的知识元进行提炼,形成共同理解并认可的词汇,同时明确这些词汇之间的关系。在该方面,现阶段可以在现有档案信息组织工具如《中国档案主题词表》、《中国档案分类表》等的基础上,进一步研究档案资源管理领域的新变化,不断完善档案领域本体内容,让数字档案资源知识组织工作有统一规范的本体可参照,减少知识组织工作的随意性。

  5.2 提升档案关联数据质量

  在档案数据描述方面,要严格遵循关联数据的RDF格式模型规范,将各种形式的数字档案资源转化为标准化的RDF文件。在这一描述过程中,要注意关联数据的可用性和可提供性等问题,立足用户需求,争取为用户提供最可靠、最适合、最相关的档案数据和知识。

  5.3 处理好档案知识元之间的关联问题

  要想发挥关联数据的作用,就需要充分利用现有数据之间的关联关系,以及根据实际需要建立新的关联关系,因为关联关系是资源发现和资源扩展的重要基础[28]。在数字档案资源知识“关联”组织中,需要注意两个方面的问题:其一是关联范围选择问题。数字档案资源知识“关联”组织工作不仅要注重档案资源自身体系的关联,还要注意与其他数据、信息、知识的关联。在档案资源体系自身方面,这种关联关系是十分紧密的,例如一份文件,它有产生机构、执行机构、保存机构,还有相关的社会活动事件等。在这一方面我们可以根据“来源原则”以及“事由原则”来建立档案文件之间关系。在与其他信息资源关联方面,基于知识集成的需要,可以根据“事由原则”来确定和建立它们之间关联关系。通过这些关联关系,建成一张张相互联系的知识网络。其二是关联关系的稳定问题。关联网络是一个开放的网络,一旦关联数据源有所变动如数据源之间的关联发生断链等,就会造成无效关联,因此,在具体应用中,要确保每一个URI的完整、准确和有效。在这方面,目前可以采用建立动态链接机制[29]或运用关联数据源的监控插件等方式解决这一问题。

  5.4 为用户设计科学合理的知识关联获取模式

  目前,查询和获取关联数据的模式主要有三种[30]:一是抓取模式,指事先从已知的关联数据源获取数据,并存储在本地。这种模式查询速度快,但需要解决数据及时更新问题。二是动态链接遍历模式,指根据不同数据源之间的关联关系,逐层进行遍历。采用这种模式需要考虑遍历的深度,如果深度太深,会花费较高的时间成本。三是联邦查询模式,指不知道与哪个数据源有关联,且同时查询多个关联数据源。这种模式查询范围广,但需要解决查询效率问题。对于具体的数字档案资源知识组织工作而言,具体采用哪种模式主要取决于实际的关联数据应用需求。一般而言,作为服务对象较为泛化的档案服务工作,需要考虑多层次多类型用户的需求,提供多种查询与获取模式供用户自由选择为宜。

  5.5 积极借鉴其他领域的工作经验,确立档案知识关联组织协调机制

  目前,关联数据在图书馆、企业信息资源管理等领域取得了良好的效果,积累了较为丰富的经验。数字档案资源知识组织工作可以汲取这些领域的成功做法和一般经验,减少研究和实验成本。另外,在数字档案资源知识“关联”组织实现方面,还要建立档案知识“关联”组织管理与协调机制。数字档案资源知识组织工作是一项需要多部门共同参与的工作,它需要一套管理与协调机制来保障。在具体操作上,档案服务界可以借鉴国际图联(IFLA)的做法,成立数字档案资源知识“关联”组织联盟,并由该联盟共同制定出数字档案资源知识组织标准、档案关联数据模型标准等,推动数字档案资源知识组织工作不断向前发展。

  【参考文献】

  [1]Terry Cook. Electronic Records, Paper Minds: The Revolution in Information Management and Archives in the Post-Custodial and Post-Modernist Era[J].Archives and Manuscripts, 1994(2):300-329.

  [2][加]特里·库克.1898年《荷兰手册》出版以来档案理论与实践的相互影响[C]//国家档案局,中央档案馆.第十三届国际档案大会文件报告集.北京:中国档案出版社,1997:143-176.

  [3]Electronic Records Archives.[EB/OL].[2011-12-12]. http://www.archives.gov/era/.

  [4]Jack E. Olson. Modeling Archive Data[J]. Database Arch-iving, 2009(3): 137-148.

  [5]The Northwest Digital Archives.[EB/OL].[2011-12-10]. http://nwda.wsulibs.wsu.edu.

  [6]Greg Sennema. Developing a Digital Archive with Limited Resources[J].OCLC Systems & Services, 2004(2):76-81.

  [7]Aidan Hogan, Andreas Harth, Jürgen Umbrich, etc. Searching and browsing Linked Data with SWSE: The Semantic Web Search Engine[J].Web Semantics: Science, Services and Agents on the World Wide Web, 2011(9):365-401.

  [8]王兰成.论知识集成环境下的档案信息组织与检索发展[J].档案学研究,2008(5):45-50.

  [9][12][13]历年资助国家社科项目[EB/OL].[2011-12-20].http://www.npopss-cn.gov.cn/planning/yearxm.htm.

  [10]曾娜.网络档案信息资源组织研究[D].南京:南京大学,2009.

  [11]刘晓亮.知识服务型档案网站构建研究[J].北京档案,2010(10):16-18.

  [14]金波,覃哲.网格技术与档案信息资源管理[J].档案学通讯,2007(3):53-56.

  [15]刘永.数字档案管理中的知识发现与知识服务[J].档案学研究,2008(5):51-54.

  [16]Tim Berners-Lee. Linked data.[EB/OL].[2011-10-19].http://www.w3.org/DesignIssues/LinkedData.html.

  [17]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010(11):1-9.

  [18]李艳霞,冯百明.基于Web Services的信息集成方案[J].计算机应用技术,2009(7):1787-1792.

  [19]史海燕,锅艳玲.基于关联数据的分布式信息查询研究[J].图书馆学研究,2012(5):71-74.

  [20]王应解.档案知识组织初探[J].档案学通讯,2008(2):23-27.

  [21]段荣婷.基于简约知识组织系统的《中国档案主题词表》语义网络化应用研究[J].档案学通讯,2011(2):72-75.

  [22]Wikipedia. Knowledge organization[OL].[2012-07-11].http://en.wikipedia.org/wiki/Knowledge_organization.

  [23]Michael H. Linked Data Applications.[OL].[2011-09-23].http://linkeddata.deri.ie/sites/linked data.deri.ie/file/lod-app-tr-2009-07-26_0.pdf.

  [24]王新才,吕元智.超媒体数据库技术与档案信息组织[J].中国图书馆学报,2003(1):68-71.

  [25][26]丁楠.基于关联数据的图书馆信息聚合研究[J].图书与情报,2011(6):50-53.

  [27]Gruber T RA Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition, 1993(5):199-220.

  [28][30]黄永文,岳笑,刘建华.关联数据应用的体系框架及构建关联数据应用的建议[J].现代图书情报技术,2011(9):7-13.

  [29]郭少友.关联数据的动态链接维护研究[J].图书馆情报工作,2011(17):112-116.

分享到: 0 转载请注明来源:中国社会科学网 (责编:高丽萍)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们