再聊饼图——可视化研究如何揭示图表的有效性|文章|水果猫咪

在我们探讨数据可视化的第一期节目中，我们介绍了克利夫兰和麦吉尔的一项基础研究（Cleveland & McGill, 1984）：相较于饼图，条形图能让人更准确地感知数据。在当时的投票中，有52%的观众选择了支持饼图。特别是有观众指出，体现「占比」这一数据特征似乎是饼图的特长。

这些反馈极具价值，它们揭示了一项可视化研究领域的核心议题：

如何超越主观感受，系统性地判断哪种图表最适合何种场景？背后的原因是什么？

本文试图更深入地探讨上面的问题。需要读者注意的是，不论是本文还是我们的视频节目，都并非为了在「图表之争」中决出胜负，而是为了展示研究者们如何通过科学方法解答这些问题。

我们的目标是希望帮助观众了解数据可视化研究的核心思路：

如何通过严谨的思考和实验来理解视觉感知机制。

我们究竟用图表做什么？

面对一张图表时，我们想解决什么问题？是寻找最大值，发现趋势，还是比较特定数据点？可视化研究者们意识到，要评估图表效能，首先需要一套清晰的语言来描述这些「分析任务」。

该领域的奠基性工作之一是Amar、Eagan和Stasko在2005年发表的《信息可视化中分析活动的基础组件（Low-Level Components of Analytic Activity in Information Visualization）》(PDF)。他们归纳了用户解读可视化图表时执行的十种基础任务：

取值 (Retrieve Value)：读取特定数据点的精确数值（例如，「A类占比多少」）。
筛选 (Filter)：找出符合特定条件的数据。
计算衍生值 (Compute Derived Value)：基于现有值推导新结果（例如，「B 类和 C 类的总和是多少」或「A 类占总体的比例」）。
找极值 (Find Extremum)：识别最大值或最小值。
排序 (Sort)：对数据进行排序或分级。
定范围 (Determine Range)：确定数据集合的数值跨度。
描述分布 (Characterize Distribution)：把握数据的整体离散度、集中趋势和分布形态。
找异常值 (Find Anomalies)：发现离群点或意外数据。
聚类 (Cluster)：将属性相似的数据归组。
关联 (Correlate)：评估变量间的相关性或依赖性。

这套分类框架至关重要。它让我们摆脱了「某图表好用」这样的模糊评价，转而聚焦具体问题：「这张图表在取值任务上效果如何？」或「它能否有效描述分布？」

饼图的典型场景对应哪些任务？

重新审视饼图常见的应用场景：

理解比例
- 例如，「营销预算占总预算多少？」
- 这主要对应取值任务。
比较主导部分与多个小部分之和（当小部分相邻时）
- 例如，「薪资支出是否超过运营、差旅和物料的总和？」
- 这涉及取值（获取薪资数据）和计算衍生值（求和后比较）。
快速把握数据概貌
- 这是更宽泛的目标，可能包含：快速找极值，粗略描述分布（例如，「一大块带几个小块」），或进行多次快速的取值操作。

饼图到底好不好？

明确定义任务后，研究者便能通过实验测量不同图表的表现：

Cleveland & McGill (1984) (PDF 链接) 的开创性研究首次用量化实验比较了图表的感知效能。其结论表明：在比较两类数据时（A类是B类的多少倍），条形图的准确性优于饼图。
Simkin & Hastie (1987) 在《分析图形感知中的信息处理（An Information-Processing Analysis of Graph Perception）》(PDF) 中专门测试了饼图与条形图。他们发现：在判断类别占整体比例时，两者准确性相当，饼图有时略优（但耗时更长）；而在类别比较上，条形图更快更准，印证了 Cleveland & McGill 的结论。
更近一些，Saket, Endert, and Stasko (2016) 的《基础可视化的任务效能（Task-Based Effectiveness of Basic Visualizations）》(PDF) 评估了多类图表（含饼图）。结果显示：饼图在一些任务，比如聚类 (Cluster)、找极值 (Extremum)、筛选 (Filter)、取值 (Retrieve) 和定范围 (Range) 等任务上表现媲美其他图表；但在关联 (Correlate) 和描述分布 (Characterize Distribution) 任务上效果较差。

综合各项研究，我们虽然无法得出「永远用X」或「绝不用Y」这样的简单结论，但可获得以下实证指导：

饼图擅长表达比例： 当核心任务是理解部分占整体的比例（即占比取值任务）时，研究表明饼图效果良好 (Simkin & Hastie, 1987; Saket et al., 2016)，符合普遍直觉。
比较类别时慎用饼图： 若需精确比较不同类别，条形图因人类感知对位置的判断更准确而成为首选 (Cleveland & McGill, 1984; Simkin & Hastie, 1987)。
审慎使用： 如果目标任务是聚类、找极值、筛选、取值或定范围等饼图可以胜任的任务，或者当图表需强调「部分-整体」关系且符合受众认知时，使用饼图是合理的，但务必注意：
- 拒绝 3D 效果：透视变形会严重扭曲比例判断，极易产生误导（3D 图表问题将另文探讨）。

核心启示：拥抱研究思维

本文最重要的价值，并非对饼图做出最终评判，而在于展示可视化研究的科学路径：严谨定义分析任务 → 设计受控实验 → 测量人类表现 → 逐步构建证据体系。

这种方法使我们能够超越个人偏好与传统惯例，基于实证依据选择最适合数据特性和受众认知的可视化方案。

研究结论是宝贵的指南，但应用时需结合具体情境、用户需求和沟通目标灵活考量。

拓展阅读推荐

若您希望系统了解可视化评估方法，Quadri和Rosen在2021年发表的综述论文 《按任务分类的可视化感知研究综述（A Survey of Perception-Based Visualization Studies by Task）》 (PDF) 提供了该领域的全面综述。

希望本文助您更清晰地把握可视化研究的前沿思考。如有任何疑问或见解，欢迎通过邮件与我们探讨。

参考文献

Amar, Robert, James Eagan, and John Stasko. “Low-level components of analytic activity in information visualization.” IEEE Symposium on Information Visualization, 2005. INFOVIS 2005. IEEE, 2005. (PDF链接)
Cleveland, William S., and Robert McGill. “Graphical perception: Theory, experimentation, and application to the development of graphical methods.” Journal of the American statistical association 79.387 (1984): 531-554. (PDF链接)
Quadri, Ghulam Jilani, and Paul Rosen. “A survey of perception-based visualization studies by task.” IEEE transactions on visualization and computer graphics 28.12 (2021): 5026-5048. (PDF链接)
Saket, Bahador, Alex Endert, and Çağatay Demiralp. “Task-based effectiveness of basic visualizations.” IEEE transactions on visualization and computer graphics 25.7 (2018): 2505-2512. (PDF链接)
Simkin, David, and Reid Hastie. “An information-processing analysis of graph perception.” Journal of the American Statistical Association 82.398 (1987): 454-465. (PDF链接)