警惕社会科学研究中的“数据操纵”

2025-12-22 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  科技部近日联合相关部门,重点关注自然科学领域内中国学者在国际期刊上的撤稿论文,针对虚构伪造数据等学术不端行为,部署开展专项整治行动,引发学界关注。

  数据是科学研究的基础,其真实性与规范性共同构成学术成果可信度的核心。在社会科学研究中,数据科学的严谨要求与自然科学具有同等重要性。当前该领域存在虚构伪造数据等不当使用数据行为,具体表现为“P值操纵”“篡改或捏造调查数据”“选择性报告结果”等多种形式。这类行为不仅违背科学研究的基本准则,也严重破坏公平竞争的科研环境,对学科发展和学术生态造成深远负面影响。

  为深入剖析社会科学研究中数据操纵的表现、成因及后果,探寻治理之策,本报记者面向相关学者开展问卷调查,最终收回236份有效问卷。数据显示,30.5%的受访者认为,所在学科中数据操纵现象较为普遍或非常普遍,表明该问题亟须引起重视。

  数据操纵存在多种形式

  问卷调查中,分别有52.54%、33.47%、28.39%、21.61%的受访者表示,曾目睹或听说过,身边其他研究者曾有过选择性报告调查数据、捏造调查数据、篡改调查数据、P值操纵等四类数据操纵行为。这表明,相关问题在当前社会科学研究中并非个例。

  具体而言,“P值操纵”指在定量分析中,通过多次检验、选择性报告等方式让不显著的结果“变显著”。“选择性报告”则指仅呈现与假设一致的回归结果,而弱化或省略不显著部分。总体上看,数据操纵在不同学科、不同类型的研究中,普遍程度和表现形式存在差异。调查中,更多学者倾向认为,定量研究更容易出现数据操纵。“经济学在各门社会科学中最为定量化,专业期刊也更偏爱量化研究论文,数据操纵行为出现的概率可能比其他社会科学高。”首都经济贸易大学教授安树伟表示。

  长期从事应用经济学研究的王伟(化名)也观察到,社会科学研究更依赖个人判断,这让数据处理环节容易出现操作不规范甚至人为操纵的情况。他将定量研究中常见的数据操纵行为归纳为两种典型:一是在缺乏理论支持的情况下反复更换变量、调整模型或筛选样本,以获得显著结果。二是选择性报告,即仅呈现与假设一致的回归结果,而弱显著或不显著的部分被有意弱化或省略。

  依赖质性文本数据开展的定性研究,是否也可能会出现数据不当使用问题?在中国农业大学人文与发展学院教授叶敬忠看来,定性研究不是为了证明特定事实,而是为了建构理论,只有从实践获取鲜活素材,才能做出好的研究。但依靠伪造数据、编造故事无法真正促进理论的提炼,因而数据操纵在这个领域还是鲜有发生。不过,山东大学人文社科期刊社社长魏建注意到,AI的普及使伪造案例和访谈对话变得更加简单,客观上对定性研究中的数据可靠性提出了挑战。同样有学者反映,在学生的课堂作业中,有时会发现疑似使用AI生成访谈记录的情况。

  尽管问题值得警惕,但厦门大学中国能源政策研究院院长林伯强也强调,随着学术成果发表管理的日趋规范,近年来学术不端现象已经显著改善,数据操纵如今整体上仍属少数现象。

  数据操纵源于多种因素

  数据操纵对学科发展和学术生态具有多重负面影响。从问卷数据来看,约八成的受访者认为,数据操纵会降低学术成果可靠性和学科公信力。“经过数据操纵生成的虚假结论,会导致后续研究在错误的基础上继续推进,从而削弱学术研究的科学性,也有可能对决策者产生误导。”安树伟说。

  此外,数据操纵如若形成风气,将会对学术生态和科研环境造成严重破坏,致使“劣币驱逐良币”。在王伟看来,部分研究者在量化考核压力的驱使下,通过数据操纵,可能会形成为追求快速发表而漠视结论可靠性的不良倾向,这会使真正投入时间、诚信开展研究的学者在科研竞争中处于不利地位,严重恶化学术生态。

  究竟是哪些因素造成了社会科学研究中数据操纵现象的产生?

  当前,社会科学研究的收集和处理数据手段不断更新,数据来源日趋多样化,主要包括:国家统计局和有关政策部门公布的宏观和产业数据、研究机构和企业发布的调研数据以及学者自己收集的田野数据。其中,第一类官方数据最为可靠。第三类数据获取方式较为灵活,但也是在研究中最易招致质疑的数据。受访学者普遍认为,大部分学者并不会主观捏造或篡改数据,但不排除学者个人调研获取的数据具有偏差性。比如,因受调研资金约束,所获数据广度和深度可能不足,数据来源复杂度导致可靠性需验证。这对学者而言,或是一种两难选择:国家公布数据可靠但宏观性强,研究微观经济问题时面临数据不足的困难;依赖田野调查所获微观数据可能偏离真实。

  中国社会科学院经济研究所研究员刘霞辉提出,数据处理环节是问题的多发区。社会科学难以进行封闭实验,所得数据易受到波动和干扰,导致统计结果不尽如人意,难以得出有效结论。因此,学者会采用特定的统计方法来补全数据、剔除极端值、处理内生性问题等等。然而,有些统计方法缺乏公认的使用标准,不同学者处理相同数据时,得出的结论可能存在差异,这会引起人们的质疑。

  在社会科学定量研究中,如果初始研究发现不符合预期假设,研究者仍可以通过更换代理变量、重新进行变量操作化等技术手段继续改进研究。然而,也正是因为研究过程的灵活性,必要的数据处理和有意的数据操纵,二者边界并非泾渭分明。对此,王伟认为,只要每一步处理都可复现、有明确理由,并能在附录中公开解释,就属于正当的数据处理;但若为了显著性或迎合预期而反复试验模型、删除不符数据,则违背了学术规范,滑向了数据操纵的一端。

  调查结果表明,“降低科研成本,缩短写作周期,缓解发表压力”是研究者实施数据操纵的首要原因。在魏建看来,由于发表需求和供给之间存在严重失衡,为达到既定期限内的考核发表要求,难免会有学者走上歧途。

  探索多方协同治理之路

  治理数据操纵现象,需要学者、期刊、高校和主管部门多方主体共同努力。

  对于学者来说,学术道德素养与科研经验是避免数据操纵行为的关键内在因素。在东南大学社会学系教授程诚看来,每位研究者都会遭遇外部压力,但一个具备良好学术道德素养的研究者,会通过反思研究设计不断精进,甚至在必要时果断放弃选题,而非萌生操纵数据的念头。据刘霞辉的观察,由于欠缺科研经验,学生阶段的论文撰写更容易出现相关的数据问题,这需要导师的严格把关和及时纠正。

  刘霞辉还特别从数据处理角度提出建议。他以奇异值举例说明,这类研究数据中的个别特殊值,能对统计结果造成显著影响。由于难以从中提取有效信息,许多学者常将其简单作删除处理。“实际上,奇异值背后可能隐藏着季节、地域甚至文化因素的影响。虽然从统计学角度将其剔除有合理性,但如果学者能从中挖掘出有价值的研究发现,无疑将是更好的处理方式。”刘霞辉强调。林伯强有同样的看法:“初步结论不符合合理预期和逻辑,就要深挖原因和考虑调整研究角度。”

  近年来,越来越多的社会科学专业期刊开始要求作者在提交论文时,同步提供数据和程序代码等相关文件。多数受访学者认为,通过提升可复现性,不仅可以使研究者更加谨慎地处理数据,有效抑制数据操纵行为的发生,还能方便初学者进行复现研究,更快地掌握相关知识,降低专业门槛。

  目前,采取上述措施的期刊还主要是经济学领域的专业期刊。魏建表示,受制于经济和时间成本,很多期刊暂时还难以执行这项措施,主要依靠审稿人的丰富经验来识别潜在的数据问题。“如果匿名审稿制度得到有效推行,且审稿人忠实履行职责,在很大程度上能缓解或杜绝数据操纵问题。”刘霞辉补充道。

  对于高校以及主管部门而言,如果能够在规范科研评价体系方面取得更大进展,破除“唯论文”导向,将有助于消除研究者实施数据操纵的主观动机。也有学者提出,进一步完善调查数据共享平台,加强统一数据库建设,让研究者更便捷地使用更多公开、高质量的研究数据,同样是抑制数据操纵现象的可行之策。

  社会科学研究的生命力,在于为社会问题的解决提供植根于真实世界的真知灼见。这必然要求其建立在真实可靠的数据与严谨客观的过程之上。整治数据操纵,非一日之功,亦非一方之责。唯有研究者坚守底线、学术期刊筑牢堤坝、管理机构革新土壤,方能共建清朗学术生态,保障中国社会科学在追求真理的道路上行稳致远,焕发持久生机。

  中国社会科学报记者 张清俐 实习生 刘开泰

【编辑:张赛】