AI辅助可视化数据分析工作流

2026-06-26 作者：宋文佳来源：中国社会科学网-中国社会科学报

微信公众号

— 分享 —

链接已复制

　　许多研究者习惯将数据可视化视为论文写作的收尾环节：模型跑完、表格生成后，挑几个关键指标绘图，用以“装点”版面。然而，可视化真正的价值远不止于呈现结果，它更是一种思维工具，能够帮助研究者深入理解数据、比较不同分析方案，并在此基础上做出合理取舍。

　　基于社会科学领域的方法论文献与教学实践，笔者将数据可视化的操作流程归纳为一个三步工作流：“探索、比较、取舍”，并探讨大语言模型在这一流程中的实际应用方式。

　　探索：如何采用可视化方法理解数据。可视化在探索阶段的核心作用，是在正式建模前帮助研究者把握数据的基本特征，形成初步判断。其优势在于无需预设参数或满足模型假设，是一种高度通用的分析工具。具体可遵循以下步骤。

　　第一步，检查变量分布。例如，通过绘制直方图并逐步缩小组距，或使用散点图，可识别系统性缺失、异常聚集或极端值。在房价数据中，笔者曾通过调整组距发现某些价格区间存在明显空白；又如，地下室面积常出现大量0值（多因样本包含无地下室的公寓）。此时需判断：这是数据录入错误，还是数据本身的结构性特征。若不加甄别直接建模，此类问题极易被掩盖。

　　第二步，考察自变量与因变量的关系。对于两个连续变量，可绘制带拟合曲线的散点图，在不预设函数形式的前提下直观揭示非线性关系或异方差现象；对于序数变量与连续变量，则可用箱线图观察组间是否存在非线性跳跃。

　　第三步，形成并记录判断。每绘制一张图表，研究者都应回答三个问题：这张图展示了什么、它未能呈现哪些信息（如潜在混淆因素或局限性）、初始假设是否需要修正。总体而言，探索是个迭代过程：提出假设、可视化验证、修正假设，直至对数据形成相对稳定的理解。

　　比较：关键差异的呈现。在社会科学研究中，“比较”的核心目标是引导读者聚焦于研究者希望传达的关键信息——无论是变量效应的大小、模型结果的稳健性，还是不同设定下的解释力差异。这本质上是通过可视化降低认知负荷，一目了然其中的重要差异。

　　其一，比较同一变量在不同模型中的稳健性。在模型选择阶段，研究者常面临“选什么模型”“是否纳入某变量”等决策。除理论依据外，还可穷举候选模型集，绘制模型性能（如AIC、BIC）与复杂度的关系曲线，以确定最优变量数量，并通过系数路径图并列展示各模型结果。如此，读者可在一张图中同时评估变量解释力与模型稳健性。

　　其二，展现同一模型内变量效应的差异。回归分析常用的Dot-and-Whisker图是典型范例：将点估计与置信区间并置，可直观显示哪些变量效应显著偏离零线，哪些变量的方向在不同模型中保持一致。一张高质量的系数图应同时体现统计显著性（与零线的距离）、跨模型稳健性、变量间效应大小的排序，并酌情添加其他关键信息。

　　其三，比较不同条件下的结果模式。在复杂的社会系统中，变量间的相关性与因果关系通常具有条件性。小多图可将高维数据按关键维度（如地理区域、社会经济分组等）拆解为一组结构一致的子图。由于各子图共享坐标轴与刻度，读者能够迅速捕捉不同条件下模式的异同。例如，在房价研究中，若按城市分区或家庭收入水平进行分面展示，区域间的异质性及其背后的条件性机制便清晰可见。

　　取舍：在信息完整性与读者接受度之间决策。在信息完整性与读者接受度之间权衡“取舍”是可视化工作流的最后一步，涉及两个维度的决策：结论的优先级与设计的优先级。

　　结论的优先级，指研究者根据研究目的决定呈现哪些信息、省略哪些细节。例如，将回归表格转化为系数图虽牺牲了精确数值，却换来了更直观的视觉比较；小多图虽减少了单图信息量，却提升了跨组可比性。这些皆属合理取舍。操作原则是：保留效应方向、显著性等核心结论，优化效应大小的呈现方式，删减与主发现关联较弱的信息。

　　设计的优先级，则需根据具体受众来调整图表中设计元素的详略。面向期刊审稿人，应保留模型细节、精确标注与统计指标；面向公众读者则需简化结构、突出重点、减少术语；用于演示场合则应强化视觉冲击力，最小化文字干扰。根据Munzner的建议，在使用色彩编码时，应辅以位置、大小等更精确的视觉通道。无论面向何种读者，每张图表都应做到独立可读：包含描述性标题、带单位的坐标轴标签、样本量说明及必要图例，使读者无需依赖正文即可理解其核心信息。

　　大模型时代的可视化操作建议。当前，大语言模型正显著降低可视化的技术门槛。然而，技术门槛的降低，并不意味着分析思维可以“外包”。恰恰相反，它使得系统化的判断能力，如问题提炼、逻辑构建与受众意识变得更为关键。人机协作的价值，正在于互补：人类提供方向感、领域知识与批判性判断，模型则负责快速执行、结构化落地与迭代验证。在可视化实践中，笔者将与大模型的协作分为三个层次。

　　第一层是提示词，适用于细节明确的单次任务。“设计型提示词”用于阐明可视化意图，如：“我想比较变量A与B在不同时间段的趋势差异，请推荐合适的图表类型。”“工程型提示词”用于调整代码参数，如修改配色、字体或背景。前者要求清晰的研究目标，后者则需对可视化代码有基本理解。

　　第二层是技能，适用于可标准化的重复性任务。例如，为复现某期刊的图表风格，笔者将样例导入模型，要求其生成一份包含Logo位置、标题对齐、字体配色等细节的“可视化技能包”。此后每次调用该技能，即可自动保持风格统一，无需重复描述。

　　第三层是智能体，适用于构建系统性的数据分析流程。笔者基于前述三步工作流，构建了可视化智能体，可自主完成从缺失值检查、变量分布探索、模型比较、结论迭代到最终出图的全流程。在此过程中，两项优化尤为关键：一是引入“自评机制”，要求智能体时刻对产出进行反思，并与其他模型结果对比，从而触发实质性改进。二是推动交互复盘，如让智能体分析“人类贡献了什么、大模型贡献了什么、哪些地方最初理解有误，后经人工矫正解决”，以帮助研究者优化后续的交互策略。

　　总体而言，大模型降低的是社会科学研究中的执行成本，而非思考成本。研究者真正需要掌握的，并非某行代码的语法，而是如何在“探索、比较、取舍”的框架下，持续凝练出正确问题，通过可视化论证理论主张，并在信息完整性与受众接受度之间作出专业判断。这些能力离不开系统化的学科训练，这也正是人机协作中人类不可替代的核心价值。

　　（作者系复旦大学全球公共政策研究院助理教授）

【编辑：罗浩（报纸）胡子轩（网络）】

社科推荐

学科体系

新媒体矩阵

AI辅助可视化数据分析工作流