许多研究者习惯将数据可视化视为论文写作的收尾环节:模型跑完、表格生成后,挑几个关键指标绘图,用以“装点”版面。然而,可视化真正的价值远不止于呈现结果,它更是一种思维工具,能够帮助研究者深入理解数据、比较不同分析方案,并在此基础上做出合理取舍。
基于社会科学领域的方法论文献与教学实践,笔者将数据可视化的操作流程归纳为一个三步工作流:“探索、比较、取舍”,并探讨大语言模型在这一流程中的实际应用方式。
探索:如何采用可视化方法理解数据。可视化在探索阶段的核心作用,是在正式建模前帮助研究者把握数据的基本特征,形成初步判断。其优势在于无需预设参数或满足模型假设,是一种高度通用的分析工具。具体可遵循以下步骤。
第一步,检查变量分布。例如,通过绘制直方图并逐步缩小组距,或使用散点图,可识别系统性缺失、异常聚集或极端值。在房价数据中,笔者曾通过调整组距发现某些价格区间存在明显空白;又如,地下室面积常出现大量0值(多因样本包含无地下室的公寓)。此时需判断:这是数据录入错误,还是数据本身的结构性特征。若不加甄别直接建模,此类问题极易被掩盖。
第二步,考察自变量与因变量的关系。对于两个连续变量,可绘制带拟合曲线的散点图,在不预设函数形式的前提下直观揭示非线性关系或异方差现象;对于序数变量与连续变量,则可用箱线图观察组间是否存在非线性跳跃。
第三步,形成并记录判断。每绘制一张图表,研究者都应回答三个问题:这张图展示了什么、它未能呈现哪些信息(如潜在混淆因素或局限性)、初始假设是否需要修正。总体而言,探索是个迭代过程:提出假设、可视化验证、修正假设,直至对数据形成相对稳定的理解。
比较:关键差异的呈现。在社会科学研究中,“比较”的核心目标是引导读者聚焦于研究者希望传达的关键信息——无论是变量效应的大小、模型结果的稳健性,还是不同设定下的解释力差异。这本质上是通过可视化降低认知负荷,一目了然其中的重要差异。
其一,比较同一变量在不同模型中的稳健性。在模型选择阶段,研究者常面临“选什么模型”“是否纳入某变量”等决策。除理论依据外,还可穷举候选模型集,绘制模型性能(如AIC、BIC)与复杂度的关系曲线,以确定最优变量数量,并通过系数路径图并列展示各模型结果。如此,读者可在一张图中同时评估变量解释力与模型稳健性。
其二,展现同一模型内变量效应的差异。回归分析常用的Dot-and-Whisker图是典型范例:将点估计与置信区间并置,可直观显示哪些变量效应显著偏离零线,哪些变量的方向在不同模型中保持一致。一张高质量的系数图应同时体现统计显著性(与零线的距离)、跨模型稳健性、变量间效应大小的排序,并酌情添加其他关键信息。
其三,比较不同条件下的结果模式。在复杂的社会系统中,变量间的相关性与因果关系通常具有条件性。小多图可将高维数据按关键维度(如地理区域、社会经济分组等)拆解为一组结构一致的子图。由于各子图共享坐标轴与刻度,读者能够迅速捕捉不同条件下模式的异同。例如,在房价研究中,若按城市分区或家庭收入水平进行分面展示,区域间的异质性及其背后的条件性机制便清晰可见。
取舍:在信息完整性与读者接受度之间决策。在信息完整性与读者接受度之间权衡“取舍”是可视化工作流的最后一步,涉及两个维度的决策:结论的优先级与设计的优先级。
结论的优先级,指研究者根据研究目的决定呈现哪些信息、省略哪些细节。例如,将回归表格转化为系数图虽牺牲了精确数值,却换来了更直观的视觉比较;小多图虽减少了单图信息量,却提升了跨组可比性。这些皆属合理取舍。操作原则是:保留效应方向、显著性等核心结论,优化效应大小的呈现方式,删减与主发现关联较弱的信息。
设计的优先级,则需根据具体受众来调整图表中设计元素的详略。面向期刊审稿人,应保留模型细节、精确标注与统计指标;面向公众读者则需简化结构、突出重点、减少术语;用于演示场合则应强化视觉冲击力,最小化文字干扰。根据Munzner的建议,在使用色彩编码时,应辅以位置、大小等更精确的视觉通道。无论面向何种读者,每张图表都应做到独立可读:包含描述性标题、带单位的坐标轴标签、样本量说明及必要图例,使读者无需依赖正文即可理解其核心信息。
大模型时代的可视化操作建议。当前,大语言模型正显著降低可视化的技术门槛。然而,技术门槛的降低,并不意味着分析思维可以“外包”。恰恰相反,它使得系统化的判断能力,如问题提炼、逻辑构建与受众意识变得更为关键。人机协作的价值,正在于互补:人类提供方向感、领域知识与批判性判断,模型则负责快速执行、结构化落地与迭代验证。在可视化实践中,笔者将与大模型的协作分为三个层次。
第一层是提示词,适用于细节明确的单次任务。“设计型提示词”用于阐明可视化意图,如:“我想比较变量A与B在不同时间段的趋势差异,请推荐合适的图表类型。”“工程型提示词”用于调整代码参数,如修改配色、字体或背景。前者要求清晰的研究目标,后者则需对可视化代码有基本理解。
第二层是技能,适用于可标准化的重复性任务。例如,为复现某期刊的图表风格,笔者将样例导入模型,要求其生成一份包含Logo位置、标题对齐、字体配色等细节的“可视化技能包”。此后每次调用该技能,即可自动保持风格统一,无需重复描述。
第三层是智能体,适用于构建系统性的数据分析流程。笔者基于前述三步工作流,构建了可视化智能体,可自主完成从缺失值检查、变量分布探索、模型比较、结论迭代到最终出图的全流程。在此过程中,两项优化尤为关键:一是引入“自评机制”,要求智能体时刻对产出进行反思,并与其他模型结果对比,从而触发实质性改进。二是推动交互复盘,如让智能体分析“人类贡献了什么、大模型贡献了什么、哪些地方最初理解有误,后经人工矫正解决”,以帮助研究者优化后续的交互策略。
总体而言,大模型降低的是社会科学研究中的执行成本,而非思考成本。研究者真正需要掌握的,并非某行代码的语法,而是如何在“探索、比较、取舍”的框架下,持续凝练出正确问题,通过可视化论证理论主张,并在信息完整性与受众接受度之间作出专业判断。这些能力离不开系统化的学科训练,这也正是人机协作中人类不可替代的核心价值。
(作者系复旦大学全球公共政策研究院助理教授)