箱线图

Python
可视化
作者

yangjh

发布日期

November 27, 2022

箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因图形如箱子,且在上下四分位数之外常有线条像胡须延伸出去而得名。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数(五数概括)。

构成

从箱形图中我们可以观察到:

  • 一组数据的关键值:中位数、最大值、最小值等。
  • 数据集中是否存在异常值,以及异常值的具体数值。
  • 数据是否是对称的。
  • 这组数据的分布是否密集、集中。
  • 数据是否扭曲,即是否有偏向性。

适用情景

  1. 箱线图特别适合比较两个或两个以上数据集的性质。
  2. 对样本数据分布的形状进行大致的判断。

三种常见的箱线图及其对应的分布轮廓

三种常见的箱线图及其对应的分布轮廓

使用Plotly绘制箱线图

绘制基础箱线图

import plotly.express as px
df = px.data.tips()
fig = px.box(df, y="total_bill")
fig.show()

绘制对比箱线图

绘制对比箱线图(Boxplot)是一种展示不同类别或组数据分布的有效方式。

import plotly.express as px
df = px.data.tips()
fig = px.box(df, x="time", y="total_bill")
fig.show()

绘制分组对比箱线图

在一个图中并排展示多个组的箱线图,可以直观地比较这些组在统计上的差异,比如哪个组的中位数更高,哪个组的数据变异更大等。

import plotly.express as px
df = px.data.tips()
fig = px.box(df, x="day", y="total_bill", color="smoker")
fig.show()

参考文献

  1. 箱形图 - AntV (alipay.com)
  2. Box plots in Python (plotly.com)
回到顶部