内容摘要:
关键词:
作者简介:
【英文标题】Management Strategy of Metadata Schema in Electronic Record Center
【作者简介】钱毅,数据工程与知识工程教育部重点实验室,中国人民大学信息资源管理学院,北京 100872
【内容提要】元数据是电子文件管理的重要工具,元数据方案管理是电子文件中心系统的重要功能。本文概述了基于综合档案馆建设的电子文件中心对元数据方案的管理需求,探讨了在多立档单位、多资源类型情况下的管理对策。提出应采取备案登记制度、注重元数据方案生命周期管理、加强业务指导,并采用适当的技术路线来管理元数据方案。
Metadata is an important tool for the electronic record management, and metadata scheme management is an important function of the electronic record center systems. Based on the construction of the general archives, this paper overviews the management demand of electronic record center to the metadata scheme, and discusses the management strategies under the circumstances that there are many filing units and many resource types. It puts forward that we should take the registration system, pay attention to the life-cycle management of metadata scheme, strengthen the operational guidance, and adopt appropriate technical route to manage the metadata scheme.
【关 键 词】电子文件中心/元数据方案/管理策略Electronic record center/Metadata schema/Management strategy
元数据作为电子文件管理不可或缺的工具,在电子文件中心系统方案中占据着非常重要的地位。本文拟探讨综合档案馆主导建设的电子文件中心系统内各类元数据方案的整体管理策略。
1 元数据方案的概念
元数据是描述文件背景、内容、结构及其整个管理过程的数据,根据美国信息标准组织(NISO)的定义,元数据是描述、解释、定位或者便于检索、利用、管理信息资源的结构化信息。元数据可用于描述文件的背景细节、处理过程、保存日志等信息,对于电子文件而言,只有包含了元数据的文件才是完整的。
由于元数据可以作为表示单个属性的独立概念,如档案的“档号”会被认为是一个元数据元素;也可以被认为是一个结构(集合)概念,如用于描述档案的EAD标准、我国的《文书类电子文件元数据方案》(DA/T 46-2009)等。为避免混淆,本文用元数据方案来指代集合概念的元数据,表示对一个资源对象的较为完整的描述。元数据方案是资源描述的数据结构,可以通过数据库或XML方式进行表达。
2 电子文件中心元数据方案管理需求概述
对于综合档案馆主导的电子文件中心而言,在功能上涵盖了电子文件管理的大部分生命周期,包括现行文件查询服务、归档管理、移交管理、长久保存、备份管理等①。其电子文件元数据方案的管理亦呈现出较为丰富的特点,对于系统设计而言需要综合考虑这些特点带来的管理需求。
2.1 立档单位众多导致元数据方案数量庞杂
电子文件中心需要管理来自大量立档单位的电子文件对象,往往一个大型综合档案馆需要面对上百个类型各异、规模不等、水平不一的立档单位。这也决定了目前电子文件中心在接收管理电子文件时需要考虑对大量元数据方案的集中管理。目前各地普遍使用基于著录规则改造而来的数据交换格式进行数据提交,但这些数据不足以支撑电子文件管理的基本需要,无法满足对其真实性、完整性、可用性的保障需求。即使已经颁发了行业标准《文书类电子文件元数据方案》,但由于多数立档单位对其认识有限,在提交时往往“个性十足”,后期都需要进行相应的标准化处理。
2.2 资源类型多元导致元数据方案类型各异
大型电子文件中心资源对象非常丰富,而所有资源对象都需要有相应的元数据方案支持。从资源类型上分,按照《电子文件归档与管理规范》(GB/T18894-2002)提供的简单分法就可分为文本、数据、图形、图像、音频、视频和程序文件,这些不同信息形式的电子文件都需要有各自独立的元数据方案表达。同时根据典型的技术环境可增加如数据库、邮件、网页文件、社会媒体(微博、博客等)等类型。从文件体现的职能来看,包括的内容就更丰富了,除通用的行政文件外,还包括大量专业文件,如基建、土地、医疗、司法等,这些都会产生各自的专业元数据方案。从聚合层次上划分,可能存在独立文件、案卷、类别等层次,这些层次往往也是管理方式的重要体现,有时也需要以特定元数据方案的形式来表达。
2.3 管理环节不同导致元数据方案存在差异
根据电子文件生命周期理论,电子文件在不同的管理环节其管理要求等存在一定差异,如同一电子文件对象在接收、存储、利用等环节,对其元数据方案的需求是不一致的。为此,《开放档案信息系统-参考模型》(ISO14721,即OAIS)专门设计了三类信息包的概念,包括提交信息包(SIP)、存储信息包(AIP)、利用信息包(DIP),不同类型的信息包可能应用不同的元数据方案。
3 元数据方案管理策略
由上述可知,电子文件中心元数据方案存在数量多、标准化程度低、类型多元等特点,如何基于元数据方案实现对电子文件的描述和自动管理,维护电子文件的真实、完整、可用、安全成为元数据方案管理的一大难题。目前多数电子文件管理系统功能需求标准在提及元数据方案管理时都是基于单机构的场景,对目前电子文件中心面临的上述元数据方案的问题没有直接回答。
3.1 采用备案登记方式管理元数据方案
由于电子文件中心可能会面向上百个立档单位,苛求每个单位的元数据方案都是统一规范的并不现实,甚至就算是同一立档单位,不同年度提交的同一对象类型的元数据方案都可能存在“版本”问题。我们建议采取元数据方案备案登记的方式进行管理,即各立档单位在电子文件中心的业务指导下,遵循通用规范或基于通用规范定制元数据方案,将经过认可的元数据方案提交到电子文件中心。这种方式有利于实现各机构、各类型、各版本元数据方案的统筹管理,能够兼顾立档单位实际,亦能有效推广元数据方案标准。
与备案登记概念类似的包括元数据注册,我国已经发布了元数据注册系统(MDR)的国家标准,但正如其所言,MDR主要用于“管理数据的语义。……设计元数据注册系统的基本模型,目的在于获取数据语义的所有基本成分,而与应用或主题域无关”②。由此可见,该标准主要关注元数据元素的登记、发布及在此基础之上的转换和复用等。本文所提的备案对象是元数据方案。
实际运作中,立档单位以通用方案为模板,制定符合单位业务实际和管理需要的元数据方案,提交到电子文件中心备案审查,批准的元数据方案被赋予唯一标识符,并由电子文件中心进行集中管理和统一维护。其具体工作包括元数据方案登记、签收、版本管理等,通过备案,实现对立档单位元数据方案的定义、编码、应用范围、权限、版本等重要信息的确认,为在开放环境中元数据方案的识别、调用等提供支持。采用备案登记需要电子文件中心提供必要的业务指导,包括规范模板、定制更改、版本管理等,并尽量减少立档单位的不规范程度。
3.2 实施元数据方案的生命周期管理
元数据方案管理是电子文件中心的重要管理活动,需要支持包括元数据方案编制、备案、发布、注销、备份等在内的涉及元数据方案整个生命周期的重要管理活动。
(1)编制。元数据方案编制一般应由立档单位自身完成。原则上,根据元数据方案“通用+定制”的管理思路,建议立档单位直接采用通用规范。对于标准缺失的领域,或确有个性需求的元数据方案,需在电子文件中心的业务指导下进行元数据方案的编制。
(2)备案。立档单位向电子文件中心备案各类型元数据方案,具体功能包括提交、登记和审核。其中登记功能是由电子文件中心赋予元数据方案唯一标识符的过程,审核则是判断立档单位提交的元数据方案是否符合管理要求。通过审核后进入元数据方案管理系统进行系统管理,包括版本、提交单位、有效时间范围等重要信息,未通过审核的元数据方案应返回修改。
(3)发布。电子文件中心将审核后的元数据方案在系统中发布,使描述元数据可用于资源查询与发现定位。通过发布,将立档单位的元数据方案以XML SCHEMA方式展示,并导入目录服务器等环境。
(4)查询。元数据方案查询服务主要是为应用系统提供标准的调用接口,支持文件描述元数据和部分管理元数据的查询。提供人机交互方式的目录内容查询功能,包括对社会公共用户和政务部门用户提供的不同详细程度的元数据方案查询检索服务。
(5)系统管理。元数据方案的系统管理功能较多,包括元数据方案备份、版本管理、导入导出、备份管理,以及对声明失效的元数据方案进行注销等。
3.3 加强元数据方案的业务指导
由于各种原因,如标准缺失、人员缺位等,大量元数据方案还需要立档单位自行编制。为保证元数据方案质量,促进规范接收,电子文件中心应提供针对元数据方案编制的业务指导,加强前端控制。具体指导内容包括:
(1)明确需求。电子文件中心业务指导人员应针对立档单位进行访谈,了解元数据需求,以确定涉及的元数据方案的领域,涉及的主要元数据元素及其属性,了解现有系统的基本信息,明确元数据方案的应用背景,了解元数据的角色及功能,如资源的描述、检索、管理等功能。
(2)适用规范审查。根据立档单位资源实际情况,分析适用的元数据规范。对于电子文件,一般建议从资源类型和功能角度进行观察。从数据资源类型角度观察电子文件对象,判断其是否属于公文、数据库、网页、邮件、音频、视频等类别;其二是了解所服务的主要功能,如整理、检索、管理、描述、交换、利用、保存等。基于这些信息来选择适用的可供参考的基本规范。
(3)具体元数据需求。在确立总体需求与适用规范的基础上,结合立档单位实际总结梳理具体的元数据方案需求,包括:
>元数据元素名称、定义、默认值及著录规范。
>元数据元素代码表,如控制词汇。
>元数据元素属性,包括数据类型、必填性、多值性等。
>元数据的唯一识别符格式。
>元数据所属层次,如全宗、类表、卷、件等层次。
>元数据元素关系图,分析元数据元素间的关系。
>数据查询与呈现需求。
>元数据管理需求,如文件流程与权限控制。
(4)编制元数据方案。即在元数据详细需求的基础上,撰写元数据方案说明书,包括版本、管理信息、参与人员、采用的标准、元数据元素与结构、与相关标准的比对、控制词汇或代码清单等。最后根据元数据方案书编制元数据方案的XML SCHEMA。
3.4 采取合适的元数据方案技术路线
电子文件中心在指导建设元数据方案时需要参照一定的技术路线,以保证编制的元数据方案能够充分满足文件管理和档案保存的各项管理要求。
(1)遵照ISO23081设计元数据方案模型
电子文件中心应参考ISO23081《信息与文献:文件管理元数据:原则》进行元数据方案设计。
ISO23081提出的模型为创建、管理和应用文件管理元数据建立了一个框架。该模型提出了在业务处理过程中文件管理涉及的主要实体包括责任者、文件、政策法规和业务四类实体,以及四类实体之间的关系表达。但该模型并未规定必须执行的文件管理元数据集,需要在具体编制元数据方案时进行具体化。通过该模型,可以较好地将文件的内容、结构、背景信息在元数据方案中得到展现。该模型亦是行标《文书类电子文件元数据方案》的编制基础之一。
(2)保存用元数据方案需充分考虑长久保存的需要
电子文件中心需要提供长久保存电子文件的核心功能,因而需要对归档接收的电子文件进行相关的元数据描述。本文在此简介PREMIS项目对需要长久保存的各类资源的元数据方案设计思路。PRIMIS是2003年OCLC和RLG的合作项目,PREMIS认为,详细的元数据方案的创建、维护和更新能促进对数字资源长久保存的有效管理。例如,元数据能记录与保存相关的技术过程、指定管理信息的权限、确定数字化内容的真实性等,元数据能为电子文件提供监管链条。PREMIS以OAIS参考模型作为开发保存元数据框架的起点,根据OAIS提供的元数据模型进行针对性的扩充,包括保存描述信息(包括参考信息、背景信息、来源信息、固化信息)、封装信息(包括数字对象、展示信息)等等。
4 元数据方案实施方式
在管理长久保存元数据方面,元数据方案与电子文件内容本身的关系亦是元数据方案管理的重要问题。目前实施方式一般包括:
>把元数据嵌入数字对象中(如HTML文件)。
>创建和维护元数据记录,将其与数字对象封装在一个信息包中。
>元数据以独立资源库等形式存在,元数据与数字对象是逻辑而非物理上的捆绑。
电子文件中心采用混合模式来实施元数据方案,即第二、三种。建议在永久保存模块采用封装方式,在支持其他应用服务方面采用第三种。封装是将电子文件及其元数据按指定结构打包创建一个整体封装包的过程。封装的目的是确保在未来环境下,元数据能够为电子文件提供充足的背景和技术信息,从而确保电子文件的凭证性和长久保存。目前,METS是目前国际上使用最为广泛的电子文件元数据封装方法,据PREMIS的调查③,在51家调研的文化遗产机构中有64%的图书馆、42%的档案馆、35%的其他类型机构正在使用或计划使用METS进行封装。

图1 ISO23081提供的实体与关系图
注释:
①冯惠玲.综合档案馆电子文件管理项目的功能定位[J].档案学通讯,2007(6):69-73.
②GB/T 18391.1-2009,信息技术 元数据注册系统第1部分:框架[S].
③PREMIS Implementation Subgroup. PREMIS Implementation Survey: Preliminary Summary of Results[EB/OL].[2012-05-25]. http://www.oclc.org/research/activities/past/orprojects/pmwg/surveysummary.pdf.







