首页 >> 图书情报学
开放政府数据的溯源元数据研究及应用
2018年03月07日 10:05 来源:《情报杂志》 作者:陈红玉 翟军 等 字号
关键词:开放政府数据;溯源元数据;数据门户;DCAT;PROV本体

内容摘要:我国地方政府开放数据的元数据中含有丰富的溯源信息,但其总体质量还不高。引进DCAT/DC元数据和PROV本体,可以提升溯源记录的规范程度和互操作水平,有利于溯源信息的大范围应用。

关键词:开放政府数据;溯源元数据;数据门户;DCAT;PROV本体

作者简介:

  作者简介:陈红玉,ORCID:0000-0001-6535-1352(1993- ),女,大连海事大学交通运输管理学院硕士研究生,研究方向:溯源元数据,开放数据;翟军,ORCID:0000-0002-6963-6088(1969- ),男,大连海事大学交通运输管理学院教授,博士生导师,研究方向:开放数据,关联数据;袁长峰,ORCID:0000-0001-9966-9617(1975- ),女,大连海事大学交通运输管理学院副教授,硕士生导师,研究方向:知识管理;林岩,ORCID:0000-0003-0897-9359)(1972- ),男,大连海事大学交通运输管理学院副教授,博士生导师,研究方向:知识组织、社交媒体。大连 116026

  内容提要:[目的/意义]溯源元数据是评估开放数据质量和可信度的基础。将溯源元数据标准规范和溯源本体应用到我国政府开放数据的门户网站,有望解决现阶段存在的溯源语义不明晰和互操作水平低等问题。[方法/过程]总结国际上开放数据的溯源发展状况和最佳实践,提炼出W3C DCAT标准规范中的溯源元数据;建立各省级地方政府元数据到标准词汇表的映射,对数据发布活动的“历史数据”和“多种数据格式”两种典型情况进行溯源表达,给出机器可读的PROV-JSON格式的溯源元数据记录实例。[结果/结论]研究表明,我国地方政府开放数据的元数据中含有丰富的溯源信息,但其总体质量还不高。引进DCAT/DC元数据和PROV本体,可以提升溯源记录的规范程度和互操作水平,有利于溯源信息的大范围应用。

  关 键 词:开放政府数据 溯源元数据 数据门户 DCAT PROV本体

  标题注释:国家自然科学基金面上项目“支持协同创作的社会化媒体知识集成研究”(编号:71571025)和“油储系统火灾事故应急过程本质安全的风险源分析方法研究”(编号:51404052)的研究成果之一。

  中图分类号G253 文献标识码A 文章编号 1002-1965(2017)06-0148-08

  0 引言

  起始于2009年的全球开放政府数据运动发展迅速,正逐渐从原始数据的开放授权向提高数据质量、可用性和可信度等方向转化[1]。到2017年1月,开放政府合作组织(Open Government Partnership,OGP)的成员国已从2011年成立之初的8个发展到75个。其中,美国、英国、加拿大、巴西、意大利、挪威、希腊、罗马尼亚、捷克、格鲁吉亚、乌克兰、亚美尼亚、爱沙尼亚、立陶宛、马其顿、阿尔巴尼亚、保加利亚、南非、智利、巴拉圭、乌拉圭、约旦、印度尼西亚和菲律宾等24个国家陆续提交了“第三轮国家行动计划”(Third National Action Plan,NAP)[2]。美国在第三轮NAP(2015—2016)中承诺优化开放数据生态系统,进一步完善公共反馈工具和开发“国家开放数据指南”;英国在第一轮NAP(2011—2013)和第二轮NAP(2013—2015)的基础上,2016-2018行动计划将加大对开放数据“国家信息基础设施”(National Information Infrastructure,NⅡ)的投入,及采取措施提高数据质量和可信度等;加拿大第三轮NAP(2016—2018)承诺政府数据“默认是开放的”,并持续提高开放数据的质量和可视化水平;南非第三轮NAP(2016—2017)将升级开放数据门户网站,解决数据分散和标准不一致等问题。

  可见,随着开放数据的发展,深层次的问题和挑战得到关注。领导开放数据的英国内阁办公室下的“政府数字服务”(Government Digital Service,GDS)工作组总结了未来开放数据面临的四个挑战[3]:①完善开放政府许可OGL(Open Government Licence),使其有更广泛的适应性,以改善开放数据的接受程度;②真正实现政府数据“默认是开放的”;③提高公众对开放数据的信任程度;④将开放数据提升到“基础设施”(如同公路、铁路和电网等)的高度进行建设。为了评估数据质量和建立对数据的信任,就需要“溯源信息”[4-7]。溯源元数据作为一类重要的元数据,在开放数据中的作用和价值日益显现[8-10]。

  目前,我国学者已经开展基于溯源的群体协作信任模型[11]、个人数据隐私安全管理[12]和数字资源长期保存系统[13]等领域的研究,但在开放数据领域还没有较为深入的研究成果。本文首先归纳国际上开放数据的溯源发展概况,分析W3C DCAT标准规范中的溯源元数据;然后以我国地方政府开放数据为背景,探讨溯源元数据的应用方案,以解决现阶段溯源语义表达不明晰和互操作水平低等问题。

  1 开放政府数据的溯源发展概述

  W3C溯源孵化组(Provenance Incubator Group)将一个资源的“溯源”定义为:一组信息,用以记录资源的产生、交付等历史过程,并描述其中涉及的实体,如采集者、发布机构等;溯源是对资源的真实性、可信度和可重复性进行评估的重要基础[14]。在开放数据领域,W3C Web数据最佳实践(Data on the Web Best Practices,DWBP)工作组将“数据溯源”(data provenance)定义为:一组元数据,帮助数据的提供者将数据的详细历史信息传递给用户[15]。

  2010年2月,开放政府数据的起步期,参与英国数据门户data.gov.uk建设,来自国家档案馆的John Sheridan就曾说过:“溯源是将数据发布到data.gov.uk要面对的关键问题之一”[16]。此后,欧盟“开放数据监测器”(Open Data Monitor,ODM)项目的成果验证了这一观点。

  到2013年,开放政府数据无论深度和广度都有了长足的发展[17]。在世界最大的科技计划之一的FP7(欧盟第七框架计划)资助下,实施两年(2013年11月—2015年11月)的ODM项目采用创新技术对欧洲30多个国家的173个数据门户进行监测、分析和评价,并将结果可视化展示在网站www.opendatamonitor.eu上。项目于2015年3月完成的《开放数据利益相关者需求报告》通过对商业用户的调查发现,影响用户决策使用开放数据的因素有8个:数据的准确性、开放许可、访问的便捷性、时效性、溯源、数据格式、说明文档和技术支持[18]。按照重要性排名,“溯源”处于时效性和开放许可之后位列第三位。项目对数据门户的四个方面进行监测[19],即数据集的开放许可、机器可读性、可用性和元数据的完整性。元数据的完整性包含的元数据项有:开放许可、作者、机构、发布日期和更新日期,都是与溯源相关的信息:How(开放许可)、Who(作者和机构)和When(发布日期和更新日期)。

  ODM的子项目,英国开放数据研究所(Open Data Institute,ODI)开发和维护的在线工具“开放数据证书”(certificates.theodi.org),则是通过收集每个数据集的DCAT(Data Catalog Vocabulary)元数据评价其质量和可信度,评价结果从低到高分为四类证书:铜牌、银牌、金牌和白金证书。项目考察开放数据集的法律、技术、社会和实践四个方面的23个指标[20],“机器可读的溯源信息”是技术方面的6个指标之一,见表1。级别越高要求达到的指标越多,“溯源”是最高级别的“白金证书”所必需的。

作者简介

姓名:陈红玉 翟军 等 工作单位:

转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们