科学评价因关涉科学资源的配置与研究者贡献的认定,在政府和学界两个层面都备受关注。过去几十年以来,科学评价领域发展了一系列工具、方法、指标,从一定程度上促进了科学的发展,但传统的科学评价模式也遭受着越来越多的批评和质疑。在此背景下,科学评价亟待借助于循证理念,回归本真。从循证视角看,科学的本质是寻找证据,而科学评价的本质是对科学证据的质量与贡献加以评价。简言之,循证科学评价的核心是对科学研究所获得证据的科学性加以权衡与度量。
科学证据思想的嬗变
科学证据的获取途径、方式及其可靠性一直为学界所关注。早在古希腊时期,亚里士多德就提出了诸多科学研究的原则和方法,并强调通过观察和实验来收集证据,从而得出合理的结论。16世纪至17世纪,尼古拉·哥白尼、约翰内斯·开普勒、伽利略·伽利莱等都强调了实验观察和数学验证的重要性。近代以来,一些科学哲学家对科学证据的科学性评价进行了深入研究。弗朗西斯·培根作为实验法规则的提出者,强调通过实验和归纳推理来获取可靠的科学知识。休谟则对因果关系和归纳推理进行了深入探讨,强调科学理论的不断验证和修正。进入20世纪后,卡尔·波普尔在科学证据的科学性评价方面提出了“反证法”(Falsificationism),认为科学理论应该是可证伪的,而不是试图通过积累证据来证实其正确性。
关于科学证据思想的嬗变既一脉相承,又不断升华。不变的核心是,获取证据始终被作为科学研究的主要目的。由此可见,无论何种形式的科学评价,都需要紧紧围绕“证据”这个核心展开。
科学评价的“西学东渐”
科学评价的“西学东渐”指的是以西方国家的科学评价体系和方法为基础,逐渐在非西方国家得到应用和推广的过程。自20世纪以来,这一现象在全球化背景下逐渐显现,越来越多的国家和地区开始采用西方的科学评价方法来评估学术研究和科学成果。其主要原因包括:
全球化的影响。全球化促进了科技和学术交流的增加,西方国家在科学研究和技术发展方面的领先地位使得其科学评价方法成为国际上普遍认可的标准。非西方国家希望通过采用这些方法,与国际学术界接轨,参与到全球科学研究的进程中。
国际期刊的主导地位。西方国家在学术出版领域具有较强的话语权,众多国际期刊以英语为主要语言,吸引了全球范围内的学者投稿和引用。这些国际期刊采用西方的科学评价标准,也促使非西方国家的学者在发表论文时倾向于迎合这些标准。
国际合作与竞争。非西方国家的研究机构和学者越来越意识到与国际学术界保持紧密联系的重要性。采用西方的科学评价方法,可以使他们更好地与国际合作伙伴合作,共同开展研究项目,提高学术影响力。
政策导向。一些非西方国家为了提升本国的科技实力和国际竞争力,将西方的科学评价方法纳入国家科技政策中。这些政策的实施鼓励学者使用国际认可的科学评价体系,以便更好地评估和管理科研成果。
然而,值得注意的是,虽然西方的科学评价方法在非西方国家得到广泛应用,但由于文化、社会和学科差异等原因,照搬西方模式必然存在不适应的问题。近年来,传统的“西式”科学评价方式受到越来越多的诟病,反省并重建符合时代潮流和中国特色的科学评价体系已渐成共识。
走向循证的科学评价
科学评价走向循证化,其本质是对科学证据本身展开评价。由传统科学评价向循证科学评价的转型,是对科学评价本真的回归。所谓循证科学评价(Evidence-based evaluation of Science)是一种基于证据的科学评价方法,它强调面向证据展开科学评价。
循证方法起源于医学领域,后来扩展到了其他自然和社会学科领域。循证医学的产生并非无本之木。在循证理念应用于医学的历史进程中,英国内科医生科克兰、美国耶鲁大学内科学教授费因斯坦、英国牛津大学萨凯特等人都作出了卓越贡献。在我国,四川大学、复旦大学、北京大学、兰州大学、天津中医药大学等高校均较早成立了循证医学研究机构,并加入了The Cochrane Collaboration、Campbell collaboration等国际性协作网络。
当前,循证科学已被作为一个重要的交叉学科列入了基金资助和博士点建设计划。对科学评价领域来说,循证科学的发展为研究者面向科学证据展开评价,从而构建全新的科学评价以克服传统方法的不足提供了契机。概括而言,循证科学评价的主要特点和原则包括:
基于最新的科学证据。循证科学评价强调对于科学证据本身的质量和贡献的评估。这些证据通常来自于经过严格设计和统计分析的实证研究,例如随机对照试验和系统性文献回顾。
综合考虑证据。循证科学评价不仅仅依赖于单个研究结果,而是在综合考虑多个研究的结果和证据的基础上,构建证据科学性的参照标准。这样可以识别单个研究的偶然误差或偏见,从而增加科学评价的准确性和可信度。
强调效果评估。循证科学评价关注干预措施的效果评估。它不仅关注干预是否有效,还考虑干预的效果大小、是否具有实际意义以及在不同群体和条件下的适用性。
重视科学研究的透明和可复制。循证科学评价通过透明地描述研究设计、数据收集和分析方法,以便他人可以复制研究并验证其结果,从而保证证据的可信度和科学性。
关注参与利益相关者。循证科学评价鼓励与评价相关的利益相关者(如决策者、实践者和公众)的参与。他们的参与可以确保评价的问题和目标与实际需求紧密相连,并促进评价结果的有效传播和应用。
循证科学评价的优势在于直接着眼于科学证据本身的质量与贡献,提高了科学评价的稳定性、客观性和有效性。然而,也要注意到在实践中,循证科学评价并非总能解决所有问题,有时也会面临数据不完备、研究质量不高等挑战。因此,在实施循证科学评价时,需要结合实际情况和资源,合理权衡各种因素,以便取得最佳的效果。
在具体的科学评价中,循证研究者通过如下方面对科学证据的质量和贡献进行评价:一是研究设计,主要评估研究的实验设计或观察方法是否科学合理,是否能够回答研究问题。二是样本大小和抽样方法,用以确定研究采用的样本大小是否足够大,是否具有代表性。三是数据收集与测量,用来审查数据收集方法和测量工具是否可靠与有效,是否符合科学标准。四是数据分析过程与方法的科学性,用以检查研究所采用的数据处理和统计分析方法是否正确,是否能够支持结论的可信度。五是控制变量,用来评估研究是否控制了可能对结果产生影响的其他变量。六是结果解释,用来检查研究结果的解释是否与研究问题相一致,并且是否有合理的解释。七是内部和外部效度检验,用来考察研究结果在实验室和现实世界中的适用性和推广性。八是偏倚(bias)和误差,用来识别可能导致研究结果偏离真实情况的因素,如选择性报告、出版偏倚等。九是研究结果的可重复性,主要评估研究结果是否可以被其他研究团队重复并得到相似的结果。十是考察研究结果对学科领域、实践应用和社会的重要性与潜在影响。
科学证据评价参照标准的构建
循证科学评价的关键一环,是构建证据科学性评判的参照标准。迄今为止,从循证医学到循证科学,研究者基于证据的评级、整合和使用,已开展了大量工作,发展了一系列模型、指标、方法和工具。当前,证据综合(research synthesis)是构建证据评价参照标准的主要工具,主要借助于元分析(Meta-analysis)实现。
最早的元分析至少可被追溯到1904年统计学家皮尔逊和1925年统计学家费舍尔的研究。1954年,克科兰正式提出了以固定效应和随机效应为主体的元分析方法。1976年,格拉斯首次提出了术语“meta-analysis”。1977年,史密斯和格拉斯出版了首部社会科学领域的元分析著作。1985年,海奇斯和奥尔金出版了首部元分析统计方法的教科书。1993年,利普西和威尔逊对来自社会科学领域的302篇文献的处理效应进行了元分析。同年,Cochrane Collaboration正式成立。1995年,查尔默斯和奥尔特曼首次提出了“系统评价”这一术语。1999年,Campbell兰利正式成立。2002年, Lumley提出了“网络元分析”(Network meta-analysis)。2009年,埃格尔和史密斯在元分析中引入了漏斗图(funnel plot)来检验发表偏倚(publication bias)。伴随着元分析和系统评价理论与方法的成熟,最近十多年中,一些重要的统计软件包(例如R和Stata)均开发出了元分析统计模块,极大地促进了元分析的数据处理能力。
在循证科学评价中,元分析的主要作用是消除偏倚,获得真实效应值,从而构造证据科学性评价的参照标准,最终为科学评判特定研究证据的正确性及其贡献提供基础。
偏倚识别是证据科学性评价的关键
偏倚是原始研究最大的威胁。影响科学证据质量的偏倚源自多个方面,比较典型的有选择偏倚(selection bias)、结果报告偏倚(outcome reporting bias)和发表偏倚(publication bias)等。选择偏倚指在原始研究中,被选择到的研究样本无法有效代表总体,从而导致研究结果系统性偏高或偏低的状况。结果报告偏倚指研究者为支持预先设定的假设,有倾向性地选择报告一些结果,而忽略其他结果的现象。与结果报告偏倚存在密切关联的是发表偏倚具体指由于发表门槛、审稿者选择和杂志编辑的倾向性,一些研究结果往往更容易被发表。这种偏倚可能导致一些研究结果被忽视,影响到元分析的可靠性和准确性。哈里斯等人指出,有统计学意义的研究结果比无统计学意义的研究更容易被接收和发表,使得出版的过程不是随机事件,由此而使部分研究结果无法被纳入元分析,从而会导致元分析结果出现系统性偏差。上述三种偏倚中,发表偏倚和结果报告偏倚可能直接导致研究结果的夸大或低估,从而影响元分析的结论;选择偏倚则可能导致原始研究结果出现偏倚,从而影响元分析的可靠性和准确性。
着眼于识别和克服普遍存在的偏倚,埃格尔等人于1997年提出了一种基于回归分析的方法,旨在检测元分析中研究效应量(effect size)与其精度(precision)之间的关系是否存在系统性偏差。在埃格尔模型的基础上,目前已有后续研究者不断跟进,进一步完善了偏倚识别的工具与方法,为循证科学评价的发展与完善提供了新的机遇。偏倚识别方法与工具的完善化,将极大提高循证科学评价的质量。
综上所述,面对大数据时代的到来,科学评价亟待回归本真,从文献篇目的统计计量走向证据自身质量与贡献的评价。随着数智化技术的深入发展,循证科学评价必将焕发出更多的生机与活力。
(作者系兰州大学循证社会科学中心教授)