内容摘要:
关键词:
作者简介:
【内容提要】图书馆书目数据的关联数据化是将书目数据发布为关联数据,即使用URI作为书目记录的名称,通过使用HTTP、URI,可以定位到书目记录,并提供相关数据项的URI链接,以便发现更多的对象,实现真正意义上的数据开放。文章分析书目数据关联化的内涵与核心问题及其意义,探讨国内外图书馆书目关联数据化的现状,以德国图书馆为例介绍书目数据关联化的进程、目的及方法,辅以相关的实例说明,分析对我国图书馆的借鉴意义。
【关 键 词】关联数据/图书馆书目/德国国家图书馆
2006年“互联网之父”Tim Berners-Lee在《关联数据构建笔记》一文中分析了Web的发展和演变,提出了发展数据网络的思想,而数据网络的核心和关键是关联数据。2007年5月W3C关联开放数据项目启动,号召人们将现有的数据公布成关联数据,并将不同数据互联起来。此后越来越多的数据提供者和Web应用开发者将他们的数据发布到Web上,BBC、世界银行、纽约时报也加入到关联数据的出版发布之列。在图书馆界,2008年瑞典国家图书馆率先将LIBRIS(瑞典联合目录)发布为关联数据,截至2012年3月,匈牙利、英国(为直接发布)、德国和西班牙等国家的国家图书馆也将书目数据发布为关联数据(美国国会图书馆仅是将传统的主题标目LCSH转化为可应用的关联数据)。
1 书目数据的关联数据化
1.1 关联数据概念
目前学术界没有形成统一的关联数据定义,但比较认同维基百科给出的定义:关联数据是语义网的主题之一,描述了通过可链接的URI方式来发布、分享、链接Web中各类资源的方法。在2009年TED大会上,Berners-Lee认为关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用。他认为创建关联数据应遵循四个原则:(1)使用URI(统一资源标识符)作为对象的名称;(2)通过使用HTTP、URI,人们可以定位到具体的对象;(3)通过查询对象的URI,可以提供有意义的信息(采用RDF、SPARQL标准);(4)提供相关的URI链接,以便发现更多的对象[1]。它最终是为用户更准确地、从更大范围、适时适地地获取信息而服务。
1.2 书目数据的关联数据化
书目数据的关联数据化就是把书目数据发布为关联数据,实现真正意义上的数据开放,书目数据成为一种网络数据服务,向其他应用提供数据服务。图书馆书目数据的关联数据化是指使用URI作为书目记录的名称,通过使用HTTP、URI,可以定位到书目记录,并且通过相关的URI链接发现更多的对象,即通过赋予个人名称、主题、丛编项等一个唯一的名称标识URI,从而建立跟个人名称规范、丛编项、主题规范等的关联链接,而个人名称、丛编、主题等的URI又提供其有关联意义数据项的URI链接,从而便于用户从一条书目记录能扩展检索到更多的相关信息。如德国国家图书馆Sozialistische Filmkunst: eine Dokumentation 一书书目记录的URI为:http://d-nb.info/1009138901,可以通过此URI定位到该书目记录,通过查询该记录可查询到该书的具体书目信息,而且该书书目提供到责任者、丛编项、主题词的URI关联链接,同时提供其馆藏信息、目录页及说明信息等。比如其个人责任者Haas,Klaus-Detlef的个人名称规范记录的URI为http://d-nb.info/gnd/133504484。丛编项Rosa-Luxemburg-Stiftung: Manuskripte/RLS, Rosa-Luxemburg-Stiftung; 90的URI为http://d-nb.info/025101404。
书目数据关联数据化的核心问题是如何将书目记录分解为书目数据,这里所谓书目数据是记录书目信息的最小独立单元。比如书名就是一个书目数据项。每一个书目数据项都赋予一个唯一的名称标识URI[2]。目前通用的书目数据项主要有:(1)传统书目MARC格式的关联项即丛编项通过书目的关联数据,可以关联到丛书的相关出版信息,统一题名字段的关联,可以关联到相关题名的书目记录,比如西班牙国家图书馆就发布了统一题名规范的关联数据;(2)已经相对成熟的个人名称规范、团体名称规范、主题规范,已发布书目数据为关联数据的国家图书馆基本上都是以名称和主题规范为基础的,比如德国国家图书馆先发布名称和主题规范,在此基础上发布的关联书目数据的关联数据化就是指对书目记录中能够建立关联信息的数据赋予一个唯一的名称标识URI,通过查询对象的URI可以提供有意义的信息,提供相关的URI链接,以便发现更多的信息。
书目数据的关联化还关联链接到更多其他的信息,比如:(1)馆藏信息,关联到相关馆藏地、索书号等信息;(2)文献的电子版信息,如德国国家图书馆的书目数据,提供文献的目录页信息、说明评论等信息的关联;(3)国外相关书目信息直接的关联,如瑞典联合目录建立了与LCSH的关联,可以关联到LCSH的信息。
1.3 书目数据关联化的意义
图书馆书目数据关联化实现了真正意义上的数据开放,书目数据成为一种网络数据服务,向其他应用提供数据服务。关联化的书目数据不仅仅对本馆用户开放,而且对全球的网络用户开放,任何用户都可以通过图书馆的网络查找检索到书目信息,并通过相关的URI链接检索到相关的责任者、主题等信息,从而能够为其他应用提供数据服务。
书目关联数据提供扩展查询,为用户提供新的资源发现和访问服务。书目关联数据化在数据层建立链接机制,书目的信息被很好地进行描述,并通过相关的URI来关联到书目信息中相关的信息,实现多类型知识内容的整合和集成,为用户提供多层次的知识关联集成服务,使用户通过检索查询书目信息能够扩展到更多的责任者、丛编、主题、馆藏及国外图书馆的相关资源链接,而这些链接作为一个独立的对象,又提供与其相关的书目等信息链接,从而通过检索一条书目信息,可以扩展到更多的责任者、主题、书目信息等。如,根据书目信息中责任者的信息链接,可以检索到该责任者的职业、生卒年份、其出版的其他书目记录;而责任者的职业又提供该职业的其他责任者链接,从而可以检索到其相关职业其他责任者的书目信息。
书目数据关联化的一个重要的目标是为图书馆吸引更多的用户群。德国国家图书馆数据关联化的中期目标就是能够跟搜索引擎运营商等成为合作伙伴,从而通过搜索引擎能够检索到其书目数据。因关联数据采用RDF/XML格式,能够实现数据的共享,并能被搜索引擎检索到,而用户检索一本图书,如果能够通过相关的搜索引擎检索到,无形中能够吸引更多的用户利用图书馆的资源。
2 图书馆书目数据关联数据化现状
2.1 国外图书馆
2008年瑞典国家图书馆将LIBRIS(瑞典联合目录)发布为关联数据,成为世界上第一个被整体发布为关联数据的联合目录。LIBRIS发布的关联数据包含约600万条书目记录、2000万条馆藏记录及20万条规范记录(人名、地名、主题标目),还为超过170家大学图书馆、公共图书馆、博物馆和档案馆提供在线编目服务[3]。2010年匈牙利国家图书馆将书目数据发布为关联数据。2010年8月大英图书馆宣布开放数据服务(Free Data Services),包含两方面内容:(1)Z39.50,包括大英图书馆全部目录或英国国家书目,MARC 21格式。用户需注册,并承诺非商业用途,然后通过得到的用户名与密码访问;(2)数据集作为向图书馆界之外开放元数据的一部分,开放大英图书馆目录与英国国家书目供研究使用,以RDF/DC格式的XML文件提供,虽然还只是提供XML文件,没有直接发布,但已经表明了态度[4]。2012年西班牙图书馆有240万条转为RDF的书目记录,含专著、录音资料和乐谱;还有400万条个人、团体、统一题名及主题的规范记录。这些规范记录生成5800万条RDF三元组,以及60万wol: sameAs关联到DBPedia、VIAF及法国、德国、瑞典的国家图书馆目录[5]。2012年1月德国国家图书馆书目数据也发布为关联数据,许可协议更改为“创作共同0”(CC0)——无版权。
2.2 国内图书馆
截至目前,我国尚未有真正意义上的将书目数据发布为关联数据的实践。在2008年12月于上海举行的“数字环境下图书馆前沿问题研讨班”上,上海图书馆副馆长刘炜作了题为“语义互操作与关联数据”的报告,是我国内地较早进行关联数据的研究文献,引起了我国内地同行对这一新技术动向的关注。2010年8月上海市图书馆学会将在普陀区图书馆举行的“图书馆前沿技术论坛”的主题定为“关联数据与书目数据的未来”[6],探讨了相关方面的问题。据笔者调研,我国台湾地区的图书馆和澳门中央图书馆的书目数据尚未关联化,香港公共图书馆的馆藏书目信息虽然提供责任者、主题等链接,但仅是能直接链接到该作者和主题其他出版物目录,并不能算真正意义上的关联数据化。
3 德国国家图书馆(DNB)书目数据的关联数据化
下面笔者以德国国家图书馆书目关联数据化为例来探讨图书馆书目数据的关联数据化。
3.1 德国国家图书馆书目关联数据化进程
2010年3月31日德国国家图书馆开始提供原型服务,初步建立PND(个人名称规范)和SWD(主题词规范)模型,建立同Wikipedia、DBPedia和VIAF的链接。同年4月28日,开通了测试服务,发布进一步完善的PND和SWD数据,初步建立GKD(团体名称规范),并添加到LCSH(美国国会图书馆主题词表),RAMEAU(法国国家图书馆主题标目)的链接。同年8月30日,加入德国DDC(杜威十进分类法),建立SWD——DDC的链接,更新SWD数据,PND、GKD数据没有更新。2011年1月13日,建立通过OAIPMH和SRU访问数据的方法,完善了URI/URL模式。2012年1月,书目数据发布为关联数据。
3.2 德国国家图书馆书目关联数据化介绍
语义网发展的目标在于提高数据的可用性和可获取性,并且允许建立不同来源数据的链接,从而能够提供新的服务。德国国家图书馆建立书目数据的关联化基于语义网发展目标。从长远看,德国国家图书馆计划提供允许整个语义网社区能够使用其国家书目记录及规范数据的关联数据服务,并对关联数据云的稳定性和可实现性做出显著的贡献,使其高质量的数据能够成为语义网重要支柱之一。
关联数据服务的一个目标是吸引新的目标用户群,这就必须分析他们的具体要求,和他们联系,以获得他们的精确需要。因此,这个计划提供基于以往经验及用户需求的测试服务,从而跟新的用户群建立初步的伙伴关系。从中期目标看,目标人群能够扩展到商业服务提供商,如搜索引擎运营商和知识管理系统的研究机构以及非营利组织,通过搜索引擎可以检索到相应的书目记录。经笔者查证,通过Google搜索引擎能够检索到DNB的书目记录。德国国家图书馆的目标是利用其新的关联数据服务为全球信息框架做出重要的贡献。
德国国家图书馆书目关联数据,目前为第一阶段,未包括乐谱与Deutsches Exilarchiv,包括200万条个人名称规范(PND)记录,18.8万条主题规范(SWD)记录,130万条团体名称规范(GKD)记录,并且包含51478个类概念和110条DDC的主题标目记录。书目关联数据能够通过网络门户访问并对大众开放。有不同的方式可以访问数据记录的RDF/XML:通过相应的URIs/URLs、SRU和OAI或者FTP访问。基于国际社会上目前书目框架由MARC向RDA转换的趋势,DNB选择的本体主要依据RDA元素集。德国国家图书馆的关联数据云[7]如下图片所示。
德国国家图书馆的关联数据云图(数据更新到2011年9月9日)
德国国家图书馆书目记录关联数据化中,常用的关联数据项包括:(1)个人名称、团体名称、主题词,主要关联到个人名称规范(PND)、团体名称规范(GKD)、主题规范记录(SWD),因为在书目数据发布为关联数据之前,已经相继把PND、GKD、SWD发布为关联数据。如果书目记录中的责任者在PND库里,则可以直接关联到PND的关联数据,能够查看到该作者的相关信息,比如出生地、出生年代、职业介绍以及相关作品,并且能够进一步关联到该作者的作品的书目记录;(2)丛编项,丛编项的关联在MARC时代通过225以及4字段已经可以实现关于丛书等相关信息的关联检索,但书目记录关联数据化后,不是简单的能查到丛书名,而是对丛编项进行了规范化,不仅含有丛书书名,还有出版地、出版时间、出版商等相关信息;(3)馆藏信息及文献相关实体信息,馆藏主要关联到法兰克福馆、莱比锡馆等馆的馆藏信息,用户通过用户名、密码登录可以查看该书的馆藏流通信息,文献实体信息则链接到其目录页、详细说明及相关评价等;(4)同外部信息资源的关联链接,添加到美国国会图书馆、法国国家图书馆的书目信息链接。
鉴于国家级图书馆书目数据关联数据化的进程,由于英语类国家图书馆,如美国国会图书馆仅实现了规范数据的关联化,而英国国家图书馆还没有正式公布关联化的书目数据,非英语类国家如瑞典、匈牙利、西班牙国家图书馆因为语种限制,笔者无法获得更多的详细信息,所以目前暂时无法对这些国家书目数据的关联数据化跟德国国家图书馆进行比较分析。
3.3 德国国家图书馆书目关联数据实例
下面以Sozialistische Filmkunst: eine Dokumentation一书书目数据的关联数据[8]为例,更直接形象地介绍德国国家图书馆的书目关联数据。其书目数据不以MARC格式表示,而以RDF/XML表达书目记录,如表1所示(注:表中加下划线并有字符底纹的为有关联链接项)。
本书目记录有关联链接的项目为:责任者、丛编、主题、本书目录及描述、馆藏链接等,关联项都有唯一的URI链接。通过责任者关联可以发现作者的出生年代、职业、出版作品等信息,并对职业、作品等对象进行新的关联;丛编关联可以检索到丛编出版信息、丛书信息,并对丛书出版组织、丛书并列题名、丛书出版物进行新的关联;主题关联则对主题词相关信息的描述及含有本主题词的出版物信息,并对出版物进行新的关联;本书目录及描述关联则链接到本书的目录页以及详细介绍;馆藏关联则链接到相关的馆藏信息。本文将以责任者关联数据为例,以分析其关联数据。
责任者Haas,Klaus-Detlef的关联数据记录[9]如表2所示(注:表中加下划线并有字符底纹的为有关联链接项)。
责任者数据中的关联数据项为:职业、作品为关联项,点击其URI链接,可以链接到更多的关联数据,比如某个职业、或者该出版物的书目数据等。
此外,书目数据还可以关联到美国国会图书馆及法国国家图书馆等图书馆的书目数据。如:Helen Hessel:la femme qui aima Jules et Jim 一书的书目数据则关联到法国国家图书馆的书目数据,其URL链接为:URL:http://catalogue.bnf.fr/ark:/12148/cb423...。
Here's looking at you: Hollywood, film & politics一书的书目数据则关联到美国国会图书馆的书目数据,其URL链接为:URL: http://catdir.loc.gov/catdir/toc/ecip051...。
4 书目数据关联化对我国图书馆的借鉴意义
德国国家图书馆书目数据关联数据化对我国图书馆有很大的借鉴意义。以我国国家图书馆为例,目前还没有进行书目数据的关联化进程,用户检索到的书目数据还是传统的MARC数据格式,虽然点击责任者、出版者、主题等能够浏览相关信息,但必须进行二次检索才能检索到更全面的书目或责任者等信息,没有实现数据之间的关联化,用户无法直接通过检索书目信息扩展的更多的相关信息,无形中增加了用户的信息检索负担,也无法为图书馆用户提供新的资源发现。目前无法从搜索引擎查找到国家图书馆的书目信息,如果实现书目数据的关联化,用户通过搜索引擎检索图书信息时,可以直接检索到国家图书馆是否藏有此种图书,则能够极大地吸引更多的图书馆用户群,提高文献利用率。
纵观外国书目数据的关联数据化,基本上均是以规范数据的关联化为基础。中国国家图书馆于1995年开始制作名称规范数据,2003年3月成功实现规范数据与书目数据的挂接,这使规范数据和书目数据可以同时建立、同步维护。目前该馆建立的“中国名称规范数据库”收录了个人与团体名称、题名等50万条记录,“中国古代作者规范数据库”有1万余条记录,“主题规范数据库”有12万条记录[12],因此具备书目数据关联化的基础。相信随着国际间书目数据关联数据化进程的进一步发展,中国国家图书馆也会开始书目数据的关联数据化进程。
【参考文献】
[1]Tim Berners-Lee Linked data[EB/OL].[2012-01-10].http://www.w3.org/DesignIssues/LinkedData.html.
[2]雨禅.图书馆书目数据的关联数据化的疑惑[EB/OL].[2012-01-15]. http://blog.sina.com.cn/s/blog_4c725fcc0100vz53.html.
[3]李琳.关联数据在图书馆界的应用与挑战[J].图书与情报,2011(4):58-61.
[4]编目精灵.大英图书馆开放数据服务[EB/OL].[2012-01-12]. http://catwizard.net/posts/20100825225826.html.
[5]编目精灵.西班牙国家图书馆关联数据发布[EB/OL].[2012-01-12]. http://catwizard.net/posts/20120214212448.html.
[6]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2): 5-12.
[7]http://richard.cyganiak.de/2007/10/lod/imagemap.html. 2012-02-15.
[8]https://portal.dnb.de/opac.htm?method-showFullRecord¤tResultId=Sozialistische+Filmkunst%26any¤tPosition=0,2012-02-12.
[9]https://portal.dnb.de/resolver.htm?referrerResultId=Sozialistische+Filmkunst%26any&referrerPosition=0&identifier=133504484,2012-02-12.
[10]https://portal.dnb.de/resolver.htm?referrerResultId=Sozialistische+Filmkunst%26any&referrerPosition=0&identifier=040171027,2012-02-12.
[11]刘炜,胡小菁,钱国富,等.RDA与关联数据[J].中国图书馆学报,2012,38(1): 34-42.
[12]孙更新.我国图书馆规范工作的现状及发展对策[EB/OL].[2012-01-15].http://www.nlc.gov.cn/newgtcb/gtcbywyt/bmgz/dyjwxbmgz/201106/t20110629_45625.htm.^







