内容摘要:该元数据框架可支持多类型网络信息资源、各层级细粒度聚合单元的检索,可为细粒度信息聚合与搜索提供理论基础与实践指导。
关键词:网络信息资源;信息聚合;细粒度;聚合单元;体裁分析;元数据
作者简介:
作者简介:曹树金,中山大学资讯管理学院教授。广州 510006;李洁娜,华为技术有限公司工程师。广州 523000;王志红,ORCID:0000-0003-0651-0901,通信作者,中山大学资讯管理学院博士研究生,E-mail:wangzh629@163.com。广州 510006
内容提要:由于相关信息片段分散分布在海量且复杂多样的网络信息资源中,用户往往需要花费大量时间浏览、查询和收集所需信息。面向聚合搜索的细粒度聚合单元元数据可以深入揭示信息特征及其关联关系,促进知识发现并提升知识服务效率。因此,有必要构建细粒度聚合单元的元数据描述框架。本文以图书情报领域开放获取期刊论文、在线百科、博客等网络信息资源为数据源,采用逻辑结构分析和形式结构分析方法建立聚合单元划分框架,包括篇章层级的标题、著者等外部特征,以及节段、句群、图表单元中的话语意图和语义功能等特征;通过分析聚合单元的属性特征及复用DC、LOM元数据元素,构建描述聚合单元访问信息、物理信息和语义信息的元数据框架;设计检索数据库并采用实验法对聚合单元元数据框架进行验证。实验表明,该元数据框架可支持多类型网络信息资源、各层级细粒度聚合单元的检索,可为细粒度信息聚合与搜索提供理论基础与实践指导。
关 键 词:网络信息资源 信息聚合 细粒度 聚合单元 体裁分析 元数据
标题注释:本文系国家社会科学基金重大项目“基于特定领域的网络资源知识组织与导航机制研究”(编号:12&ZD222)的研究成果之一。
分类号G250.7
0 引言
大数据时代,互联网已经成为人们日常生活、工作或学术研究中获取所需信息资源不可或缺的一种渠道。已有调查显示,利用网络信息资源的学术论文数量及网络引文的数量均呈现出较大幅度的增长[1-5],人们对于互联网这一重要信息渠道的依赖性不断增加。然而,面对海量且类型复杂的网络信息资源分散分布的现状,由于缺乏对其内容的深度揭示及关联关系的挖掘与组织[6],“信息孤岛”现象仍然普遍存在,这严重阻碍了用户对多来源和细粒度相关信息的有效获取与利用。为此,有必要对来源分散的信息片段进行深入揭示和关联,实现网络信息资源的细粒度聚合,以有效满足用户的复杂信息需求,提升知识服务的能力。元数据正是一种对信息资源进行描述、表示、管理和使用的有效方案,通过建立网络信息资源细粒度聚合单元的元数据描述框架,既可以根据网络信息资源内容逻辑进行分解与重组,促进智能检索、知识发现、自动综述等一系列应用的有效实现,还可以通过深入揭示信息特征及其关联,帮助用户便捷、高效地获取和利用所需信息。
信息资源聚合被认为是网络环境下知识组织的一种新模式,以此种组织方式为基础的聚合搜索成为继布尔检索和联邦检索之后一种新的信息检索范式[7]。早在2008年,信息科学国际会议信息检索特别兴趣小组组建了聚合搜索专题研讨会,正式提出“聚合搜索”(Aggregated Search)的概念,认为聚合搜索是指搜寻并且重组各种来源的信息,并在一个统一的界面展示[8]。即在聚合搜索的模式下,搜索引擎为用户展示的是重新整合后的信息,而不是返回按相关性排序的完整文档列表,如查询一个乐队时,返回的结果是该乐队的描述、一般资料、相关图片、视频等[7]。2012年,欧洲信息检索会议同样组织了主题为“任务与聚合搜索”的研讨会[9]。此后,信息聚合及聚合搜索成为信息组织与检索领域的重要议题,陆续出现了大量相关的研究成果,主要包括信息聚合相关概念[10-12]和理论[13-14]、聚合方法和技术[15-17]、聚合结果呈现与评估[18-19]、信息聚合的应用与服[20-21]等方面。从细粒度及深入内容层面描述与揭示信息资源的特征是信息聚合及聚合搜索中最基本的问题。目前细粒度聚合单元相关研究主要包括知识元[22-27]、多粒度划分与分析[28-30]、关联数据[31-35]等方面,为细粒度聚合单元的解析、抽取、分析与关联提供相应的理论基础。但是在细粒度聚合单元划分方面,已有研究多是从形式结构的角度展开[36-38],且对于如何利用元数据对细粒度聚合单元进行充分揭示与规范,除了教育学领域对于学习对象元数据及相关标准的研究[39-40]之外,鲜有研究从逻辑结构的角度划分细粒度聚合单元,并依此构建相应的元数据框架。
已有的网络信息资源元数据描述框架以粗粒度揭示为主,对于面向网络信息资源的细粒度聚合单元还缺乏统一的元数据描述标准。为此,本文主要探索如下问题:①对不同类型的网络信息资源,如何划分不同粒度的聚合单元;②为了构建细粒度聚合单元元数据框架,应该如何描述、揭示和关联不同类型和粒度的网络信息资源聚合单元;③细粒度聚合单元元数据框架在信息检索中的效果如何。为回答上述问题,本文选取图书情报领域不同类型的网络信息资源,包括OA论文与题录、在线百科、博客,在复用DC、LOM元数据元素的基础上,深入分析网络信息资源细粒度聚合单元的属性特征,构建细粒度聚合单元元数据框架,并利用基于该元数据框架设计与开发的数据库,设置相应的检索任务进行检验,为网络信息资源的细粒度聚合提供坚实的理论基础与实践指导。
1 聚合单元划分的依据与方法
1999年,Bishop[41]提出了解构和重构期刊文献单元的相关问题,在其另一个研究中指出[42],文献组件(Component)是指一篇学术期刊论文的任一逻辑部分,包括文献题名、段落标题、副标题、表格、图片、说明、参考文献、摘要、关键词、作者、作者机构、作者联系信息、脚注、尾注、附录、节段、句子、词组、单词和其他与文献关联的信息(如数据集、附加分析等),并发现读者会从期刊文献中抽取出独立的组件重新组合来撰写自己的文章。Sandusky[43]进一步划分学术期刊文献,认为学术期刊文献包括两种类型的结构,一种是文献的形式结构,比如摘要、正文、图表和参考文献等;另一种是文献的逻辑结构,即将文献组织成一个个叙述部分,提供从文献综述到方法、结果和讨论等文献构思的整个线索。据此,本文以逻辑结构和形式结构作为聚合单元划分的重要依据。
1.1 逻辑结构分析
逻辑结构针对的是篇章形式结构中的正文部分。文献的逻辑结构包括两个方面,一个是作者根据行文框架与逻辑对整篇文档内容的分割,即节段单元;另一个为具有一定交际意图和修辞目的的语篇结构,即句群单元。节段单元往往是句群单元的宏观反映,因此需要先划分节段单元,然后根据相应的逻辑结构划分句群单元。
1.1.1 节段单元
由于期刊论文各级标题清晰地反映了论文的研究思路和结构,因此利用标题标识的节段单元可以认为是有价值且可操作的细粒度单元,通过这种标引和描述有助于用户迅速了解相应的内容以及所属文献的层级位置,从而更加有效地获取所需内容,如研究方法或结论部分。划分并描述节段单元的优点有三:①可以让用户快速检索并定位所需的节段单元内容,从而节省浏览和查找其他不相关信息的时间;②帮助用户根据各级标题把握文档的整体结构,结合其需求和所处情境判断该资源的相关性;③可以利用标题的中心语作为节段单元主题维度的描述和标引,有助于实现主题关联与聚合。如以《国外网络引文研究的现状与展望》一文为例,根据论文内部各个部分的标题,可以划分为前言、P—P网络引文的研究、P—W网络引文的研究、W—P网络引文与传统引文的比较、W—W网络引文的研究、网络引文研究的展望六个节段单元;P—P网络引文的研究部分可以进一步划分为网络环境下引文的变化、引文数据库的对比分析两个节段单元。
与期刊论文相似的是,大多数网络信息资源的内容也有一定的行文框架与逻辑结构,需要通过文档内部标题使其更加清晰可读,如百度百科人物类词条的结构包括人物基本信息、主要经历及成就、个人生活、评价或影响等,只是各级标题不如期刊论文那样严谨和规范,甚至可能会缺失标题标识的节段单元。因此,对于网络信息资源节段单元的揭示和描述,如能明确识别节段单元就利用其标题进行标引,否则按照后文提出的体裁分析提取并存储该节段单元的话语意图。







