首页 >> 图书情报学
我国地方政府开放数据的核心元数据研究
2017年09月18日 09:11 来源:《情报杂志》 作者:于梦月 翟军 林岩 字号

内容摘要:基于国际通用的DCAT标准和XML/RDF编码格式设计核心元数据方案,能在规范化、标准化和机器可读等方面改善元数据的质量,促进地方政府数据目录间的互操作,并为进一步开发专门领域(如地理数据)的元数据打下基础。

关键词:开放政府数据;元数据;数据门户;DCAT;XML;RDF;数据集

作者简介:

  作者简介:于梦月,ORCID:0000-0002-4672-7059(1992- ),女,大连海事大学交通运输管理学院硕士研究生,研究方向:元数据,开放数据;翟军,ORCID:0000-0002-6963-6088,(1969- ),男,大连海事大学交通运输管理学院教授,博士生导师,研究方向:开放数据,关联数据;林岩,ORCID:0000-0003-0897-9359(1972- ),男,大连海事大学交通运输管理学院副教授,硕士生导师,研究方向:知识管理。大连 16026

  内容提要:[目的/意义]开放政府数据能够激励创新、促进经济增长,但用户发现、理解和使用开放数据离不开高质量的元数据的支持。借鉴和参考国际先进经验,构建我国地方政府开放数据的元数据方案具有较强的现实意义。[方法/过程]首先介绍W3C的正式推荐标准DCAT和美国纽约州的元数据方案,然后在调查和分析我国地方政府开放数据元数据的基础上,设计基于DCAT的描述数据集和数据资源的核心元数据方案,最后给出北京市“公益性图书馆”数据集的XML/RDF格式的元数据实例。[结果/结论]结果表明,基于国际通用的DCAT标准和XML/RDF编码格式设计核心元数据方案,能在规范化、标准化和机器可读等方面改善元数据的质量,促进地方政府数据目录间的互操作,并为进一步开发专门领域(如地理数据)的元数据打下基础。

  关 键 词:开放政府数据 元数据 数据门户 DCAT XML RDF 数据集

  标题注释:国家自然科学基金面上项目“支持协同创作的社会化媒体知识集成研究”(编号:71571025)的研究成果之一。

  中图分类号 G253 文献标识码 A 文章编号 1002-1965(2016)12-0098-07

  0 引言

  各级政府掌握着全社会80%的数据资源[1],“开放政府数据”(Open Government Data,OGD)能够最大限度地推动全社会数据资源的有效配置和充分利用[2-3],成为各国政府实践和学术研究的热点[3]。全球范围兴起的“开放政府数据运动”始于2009年美国政府推动的“开放政府行动计划”(Open Government Initiative)[4-5],两年后的2011年9月美国、英国、巴西等8个国家成立了“开放政府合作组织”(Open Government Partnership,OGP)。到2016年8月其成员国已发展到70个,相继推出“国家行动计划”,从法律、技术、信息基础设施和应用等维度推动各层次的政府数据开放。根据世界银行的统计,目前已有超过250个政府(含中央政府和地方政府)实施“开放数据行动计划”[6]。

  构建政府数据管理、开放、查询和再利用的官方平台,发布开放数据目录(Open Data Catalogs)的“一站式”门户网站(Portals)是各国在开放政府数据运动中普遍采取的关键举措[4,7]。到2016年8月,DataPortals.org收集的数据门户网站已达520个。我国从2012年开始,北京、上海、浙江、重庆、武汉和青岛等地方政府相继推出了十余个开放数据的门户网站[8]。2015年9月5日国务院印发的《促进大数据发展行动纲要》明确在2018年底前要建成国家政府数据统一开放平台。

  开放数据是政府信息公开在大数据时代的发展和深化[9]。正如“元数据对政府公开信息的描述、发现和管理有着极其重要的作用”[10]一样,数据目录平台的核心功能是开放数据集的元数据管理[8,11-13]。复旦大学郑磊等构建的“中国政府开放数据整体评估框架”中,“元数据”是13个评估维度之一[8];英国开放数据研究所(Open Data Institute,ODI)开发和维护开放数据质量的在线评估工具“开放数据合格证书”(Open Data Certificate),将标准的、机器可读的元数据作为考查的基本指标之一[14]。随着开放数据运动的逐步深入,元数据从提高开放数据集的可发现性[15]到帮助用户理解、选择数据集[16],正在向标准化、语义化和机器可读的方向发展。

  在政府实践和学术研究领域,我国已开始加快追赶全球开放数据浪潮的脚步[2]。在元数据上,虽然目前各地方政府对于开放的数据都能提供基本的元数据信息[17],但元数据的方案各不相同、对数据集的描述尚不全面、格式以HTML网页和文本文件为主,离规范化、标准化、互操作和机器可读的目标还存在着不小的差距,这将影响到数据开放的效果[17]。为此,本文借鉴国际先进经验,在分析地方政府开放数据平台元数据不足的基础上,设计基于W3C DCAT标准的核心元数据方案,为我国各级政府开放数据平台的建设和升级提供借鉴和参考。

  1 国外开放政府数据的元数据现状

  1.1 开放数据的元数据标准 由蒂姆·伯纳斯-李领导的W3C是政府数据开放运动的积极推动者[18]。W3C电子政务标准行动计划(eGov Activity)设有电子政务兴趣小组(eGovernment Interest Group)和政府关联数据工作组(Government Linked Data Working Group)。经历两年的研制,2014年1月16日,政府关联数据工作组最终发布了由爱尔兰国立大学DERI(Digital Enterprise Research Institute)起草、电子政务兴趣小组修改的政府开放数据元数据的正式推荐标准——DCAT(Data Catalog Vocabulary)[19]。

  DCAT是RDF词汇表,支持数据目录之间的互操作性(interoperability)。DCAT词汇表共有7个类、17个属性,主要类和属性如图1所示[19],其中复用了都柏林核心元数据(Dublin Core)、FOAF本体和SKOS本体的相关词汇。从图1可见,对于开放数据集(dataset),DCAT提供了15个属性(带dcat前缀的5个为新属性)。这些属性帮助用户“认识”(如dct:title和dct:description)、“查找”(如dcat:theme和dcat:keyword)、“选择”(如dct:modified和dct:spatial)、“访问、读取或下载”(如dcat:distribution和dcat:landing-Page)和“使用”(如dct:identifier和dcat:contactPoint)数据,能够满足各类数据集“开放”的基本需求。

  

图1 DCAT词汇表的主要类及其属性

  根据W3C的统计,DCAT及其应用纲要(Application Profile)已被欧盟、美国、英国、西班牙、爱尔兰和意大利等国家广泛采用[20]。欧盟DCAT-AP(DCAT Application Profile for Data Portals in Europe)已应用到欧盟28国统一的数据目录门户(www.europeandataportal.eu)上,描述的58万多个数据集涉及文化教育、环境、交通和能源等13个门类。根据欧盟2016年8月的最新统计[21],意大利(Dati.Gov.IT)和罗马尼亚(Data.Gov.RO)等14个数据门户元数据对DCAT-AP的符合率为100%,奥地利(Data.Gv.AT)的这一比例为99%。值得一提的是,英国和法国的地理数据集对DCAT-AP的符合率分别是93%、97%,立陶宛和北爱尔兰的空间数据则为100%,表明了DCAT的广泛适应性。爱尔兰的元数据方案在欧盟DCAT-AP的基础上,增加了描述地理数据集的元数据[22]。

  1.2 美国纽约州开放数据的元数据方案 美国是开放政府数据的发起者和领跑者。从2009年5月21日上线发布国家层面的数据门户Data.Gov,到2016年8月各级地方政府(州、县和市)的开放数据门户网站已达到88个[23]。美国各级政府开放数据的元数据非常重视标准化工作,2014年11月6日更新的国家数据门户的元数据方案(Project Open Data Metadata Schemav1.1,POD v1.1)已建立了到DCAT和Schema.org的映射[24]。由于本文主要关注地方政府,就以纽约州为例介绍一个具体的元数据方案。

分享到: 0 转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们