首页 >> 社科评价
学术论文离被引有多远 ——基于影响因素与预测方法的文献述评
2020年08月06日 11:17 来源:《情报资料工作》2019年第6期 作者:孔玲 王效岳 于纯良 白如江 字号
2020年08月06日 11:17
来源:《情报资料工作》2019年第6期 作者:孔玲 王效岳 于纯良 白如江
关键词:学术论文/被引频次/影响因素/预测方法

内容摘要:文章以国内外文献调研为基础,就学术论文被引影响因素和预测方法研究进行了梳理与综述。

关键词:学术论文/被引频次/影响因素/预测方法

作者简介:

  内容提要:文章以国内外文献调研为基础,就学术论文被引影响因素和预测方法研究进行了梳理与综述。结果表明,学术论文被引影响因素主要是作者、期刊、论文和替代计量相关因素;预测方法主要是基于回归分析、分类问题、引文网络的被引预测,并且指出了传统计量数据、替代计量数据与网络学术文本综合分析,细粒度定义分类预测方法的主要发展方向,最后对科研论文写作如何提高被引与引用评价研究进行展望。

  关 键 词:学术论文/被引频次/影响因素/预测方法  

  项目基金:本文系国家社会科学基金项目“未来新兴科学研究前沿识别研究”(编号:16BTQ083)的研究成果之一。

  作者简介:孔玲,女,1990年生,山东理工大学科技信息研究所研究生,淄博 255049;王效岳,男,1961年生,山东理工大学科技信息研究所教授,淄博 255049;于纯良,男,1965年生,烟台大学图书馆副研究馆员,山东 264005;白如江,男,1979年生,山东理工大学科技信息研究所副研究馆员,淄博 255049。

  1 引言

  科技论文产出情况是测度科学技术发展水平的重要指标,国务院发布的《“十三五”国家科技创新规划》明确指出,自主创新能力全面提升是“十三五”科技创新的发展目标之一,其主要监测指标包括“国际科技论文被引次数达到世界第二”等科技产出定量测度指标。据2018年《中国科技论文统计结果》统计,SCI数据库2017年收录世界科技论文总数为193.83万篇,比2015年增加了2.2%[1]。在此背景下,为了支持科技创新发展和提高自主创新能力,从海量新发表的论文中,挖掘出潜在高质量高被引论文显得尤为重要。

  在引文分析中,被引频次是最具代表性、最简单、最标准和最客观的度量学术影响力的方法[2]。引用行为通过被引频次进行表征,被广泛用于评价论文、专利、期刊等科学贡献,成为引文分析评价学术影响力的最具代表性的指标。论文引用一定程度上反映成果的传播力和影响力,是后续学者针对前期成果开展的更加深入或系统的研究探索。研究人员引用其他论文影响动机多样,例如支持性引用,支持自己观点、方法或研究结果;综述性引用,为了呈现其他研究人员已有观点;评论性引用,引用他人学术成果是为评判其观点正确与否[3],可能是正确示例,也可能是实验等设计不合理的错误示例。探究引用影响因素有助于科研人员把握学科领域发展趋势、识别领域研究前沿、关注有价值的研究方向,有助于学术期刊提高收录论文质量、提高期刊声誉。基于此,学术论文被引影响因素识别和预测有较大研究意义和价值。

  近年来,国内外学术界从不同角度对引用影响因素进行了研究,其关注点主要集中在以下三个方面:(1)基于不同学科领域探究引文原因;(2)影响高被引、低被引或零被引的因素;(3)预测学术成果未来被引情况等。影响因素相关关系研究和预测分析充分探究传统文献计量指标影响程度,随着Web2.0和学术大数据不断深入发展,各个学科领域的科研数据日益丰富并迅速累积,涌现很多可用于引文分析的新型计量指标。纵观已有的研究成果可以发现,目前学术界对引用影响因素研究多为定量研究,针对几个或几类指标因素进行分析,因此本文在文献调查基础上,结合国内外相关文献分析归纳作者、期刊、论文和替代计量与被引相关的具体影响因素,总结主要的引用预测方法,指出目前学术论文引用预测研究存在的问题并展望未来发展趋势。

  2 学术论文被引影响因素分析

  论文引用行为是进行学术交流、知识共享及信息融合的客观体现。论文被引受多种因素影响,目前国内外学者针对被引影响因素主要从作者、期刊和论文影响因素进行相关分析,近几年针对替代计量因素与被引相关研究也越来越多。

  2.1 作者相关因素

  作者是论文的创作者、主题思想的提出者,在大多数学科作者多位的情况下,除了通讯作者之外,名字排列的先后顺序表明了不同作者对文章思想和创作工作的贡献程度,排名越靠前则贡献越大[4],重要影响因素见表1。

  

  2.2 期刊相关因素

  期刊是学术论文重要载体,相关属性与论文被引存在一定相关关系。最典型的是影响因子,它是Garfield于1972年提出的一个期刊声望评价指标[22],是根据期刊被引次数与发文量计算的数量指标,期刊相关因素研究见表2。

  2.3 论文相关因素

  研究人员倾向于学术影响力好、水平高的论文,即可能高被引的论文。学术水平是否高与内容质量密切相关,也是论文被引最重要的因素。但现在对论文内容进行定量分析比较困难,研究人员主要聚焦于研究标题、摘要与关键词、论文类型、主题特征、学术价值、方法和实验设计、参考文献特点等与被引的关系。

  

  论文标题是标明文章内容的简短语句,最直接地传达出全文主题[4],其长度、语言类型、有无标点符号等与被引有一定关联。Letchford等[32]研究发现喜欢发表短标题论文的期刊,每篇论文的平均被引次数更高,标题应该简短精练专业知识,向外人解释研究成果。Feng等[33]对标题简洁效应还是信息效应进行探讨,发现1956—2000年标题长度与引文负相关,但在2001—2012年转为正相关,原因是文献检索主要通过基于在线数据库的电子工具进行搜索,因此为科学论文选择信息标题将变得更加重要。Antoniou等[34]研究发现在标题中说明研究核心设计可能多被引。Jamali等[35]研究表明标题信息丰富会增加论文的使用、下载和引用频率,英文标题类型与被引有关;林佳瑜[36]分析了中文标题类型、长度及有无冒号与被引关系,研究结果见表3。

  摘要是全文的内容提要,不加议论地直述文章主要内容,简单介绍研究背景、问题、目的、方法等[4]。Didegah等[17,37]研究发现摘要长度对被引产生积极影响。Sohrabi等[38]研究摘要中关键词重复比率和期刊高频率关键词与引用次数相关关系,发现在摘要中提高关键词重复率可增加引用,因为从检索技术角度来看这可增加搜索引擎中的被检索到的概率,从理论角度来看关键词与摘要相关度高可增加被读者使用的概率;期刊中某类频率高的关键词相关论文更可能被引用,因为当一本期刊在一个主题领域声誉较高,研究人员更容易引用此类论文。

  

  论文类型有综述类、定量类、定性类、方法类、理论类等。Vanclay[30]研究发现综述类篇均被引频次明显高于研究类,因为综述类论文对领域现状和发展趋势概括较全面,其他研究人员可看到领域主题演化趋势;Antonakis[39]研究发现定量类、综述类、方法类及理论类论文明显比定性类多被引,定量类论文,若利用某些创新性的方法、设计及理论更易被引。谢娟等[40]数据集中论文分为研究论文、综述和会议论文,探讨三种类型论文的使用、被引情况及其相关关系,研究表明综述论文的使用量和被引量相关性最强,研究论文次之,会议论文两者的相关系数不显著。

  论文主题是研究内容的概括说明和文章思想内核。主题判别指标主要有关注度、新颖性、热度、显著性等,与被引相关代表研究见下页表4。

  学术价值越高,影响力越大,被引机会就越多,但难以量化分析,研究人员多通过相关属性进行分析。Buela等[46]研究论文价值使用专家评估的质量评分,发现评分与引用次数显著相关。段庆锋和潘小换[12]发现以被引数、PageRank值为代理变量的学术价值与引文正相关,即学术价值水平越高,文献越容易被引用。谢娟等[40]分别计算JCR中4个质量等级中LIS论文被引和使用的相关系数,计算发现质量等级2>等级3>等级1>等级4,其中等级1论文下载或浏览后被引概率较低,可能与用户信息使用行为和引用行为的差异有关。

  研究方法和实验设计是一篇文章创新之处的核心,很多研究证明两者存在相关关系。Miettunen等[47]发现对研究方法做适当描述,方法论部分引用统计文献、提及统计软件名称是影响引用的主要因素,而统计方法类型(如基本统计方法)可能与引用无关。研究方法需要合理的思路设计应用,研究设计应用随机对照试验、系统评价和整合分析比单纯观察研究设计会带来更多被引。Bhandari等[48]研究表明整合分析研究和随机对照实验会比观察研究和案例报告带来更多引用,而且Callaham等[49]研究发现实验有对照组会增加被引频次。

  

  参考文献体现作者对领域知识国内外研究现状的了解情况,数量、声望及多样性、全面性、相关性会影响被引。Roth等[50]研究发现引用较低(但不是太低)于平均参考文献年龄的论文可能更多引用,而大多数引用“旧文献”的论文引用明显较少。Onodera等[51]研究发现参考文献数量和等与论文被引相关。“参考多样性指数”即论文所引用的参考文献种类或领域数量[52]和参考文献国际性增加了被引频次[17]。

  论文可见性和可访问性得益于开放科学背景下的开放获取、预印本存档、在线数据传播等。arXiv是康奈尔大学资助的为论文发表前提供访问的服务器,其中自我推荐或自存档影响论文被引[53]。Henneken等[54]还发现有数据链接的论文会更多被引。打破传统纸质期刊限制的开放获取平台不断涌现,主要学术出版商和期刊有PLOS ONE、Nature、Science、PNAS等[4]。OA期刊具有引用优势,具体研究结论见表5。

  

  2.4 替代计量因素

  随着Web2.0技术的发展,网络技术日新月异,创新2.0(Innovation 2.0)更强调利用Twitter、博客、微博等在线社交媒体进行开放创新。在这样的时代背景下,替代计量学诞生,在短时间内引起学界广泛关注和研究,2011年以来用于学术交流的创新型平台和工具已经高达425种且还在不断增加,数据来源丰富、评价对象广、时效性强,拓展了论文评价和预测的广度和深度。替代计量因素主要包括使用数据和社交媒体数据。

  2.4.1 使用数据

  使用数据包括浏览数据和下载数据。浏览数据(HTML格式)是指科研人员、大众用户等对一篇文献的摘要或全文浏览的次数。下载数据是浏览文献之后下载的次数,下载格式包括PDF、XML等。近年来Springer、Elsevier、Wiley、PLOS、Nature、PNAS等[60]学术出版商提供全文下载统计工具和不同的数据形式,可以对下载数据进行动态分析。浏览和下载等是被引的必经之路,因此引用数据的存在势必意味着前期浏览、下载和导出数据的大量堆积,浏览和下载数据能第一时间反映文献使用情况,时效性更强。Garfield[61]于1996年就提出了利用网络下载量代替引文量以解决引文分析评价中的滞后性问题。2015年9月WOS平台推出了反映针对单篇文献受用户关注程度的Usage数据,汇总两类用户数据:(1)文献的下载(使用)次数;(2)文献题录信息的导出(使用)次数[62]。一些学者对使用与被引关系进行探讨,具体结论见表6。

  专业学术数据库论文被引与下载量相关性高于搜索引擎和开放获取平台中未经过同行评议的论文,其中论文质量起到了重要作用,同行评议分数高低在一定程度上可以判断科学研究的价值高低。这启示研究人员高度重视论文质量,选题新颖、方法严谨、逻辑缜密,提高论文在学术检索系统中的可见性,使读者们很快发现论文的学术价值,从而将潜在的、间接的“使用”转换成实质的、直接的“引用”[68]。

  

  

  2.4.2 社交媒体数据

  Priem等[69]提出Altmetrics用来衡量单篇论文层面的科学重要性,是在专业社区中识别新兴研究趋势和热点主题的有效方法,帮助学者尽可能迅速地捕捉出版时间不久有影响力的文章。Altmetrics是以Web为特征的定量研究方法,起源于网络计量学和文献计量学,依托于社交媒体、新闻网站、维基百科、科学博客等,目前4个主要整合分析工具是:Altmetric.com、PLOS ALM、Plum Analytics和Impact Story。

  科学创新与交流方式趋向传统媒体与在线社交网络融合,科研人员是社交媒体重要的一部分用户,大多借助在线社交网络、学术平台和新闻媒体,将文章发布供读者免费阅读下载,可统计读者转载、评论、收藏等行为数据;也可组建社区进行学术交流讨论,为获取、分享、传播和评价科研成果和学术资源提供便捷方式。根据社交媒体用户群分为学术型社交媒体、大众型社交媒体、网络博客、传统主流媒体[4]。社交媒体数据与论文被引关系研究近年相关代表性研究见表7。

  很多研究是针对一种因素或几种因素分别进行数据相关关系分析,没有细粒度综合分析影响因素重要性及相应传统主流媒体转载报道和网络科学博客转发评论的文本内容因素,也没有结合考虑论文被引最本质的因素——论文内容质量。社交媒体提高论文曝光度和可见度,是引用增加的重要因素,但只有创新程度更高或著名学者的论文才会被转载、分享、报道等。

作者简介

姓名:孔玲 王效岳 于纯良 白如江 工作单位:山东理工大学 烟台大学

转载请注明来源:中国社会科学网 (责编:赛音)
W020180116412817190956.jpg

回到频道首页
ooo.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们