import plotly.express as px
= px.data.tips()
df = px.box(df, y="total_bill")
fig fig.show()
箱线图
Python
可视化
箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因图形如箱子,且在上下四分位数之外常有线条像胡须延伸出去而得名。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数(五数概括)。
构成
从箱形图中我们可以观察到:
- 一组数据的关键值:中位数、最大值、最小值等。
- 数据集中是否存在异常值,以及异常值的具体数值。
- 数据是否是对称的。
- 这组数据的分布是否密集、集中。
- 数据是否扭曲,即是否有偏向性。
适用情景
- 箱线图特别适合比较两个或两个以上数据集的性质。
- 对样本数据分布的形状进行大致的判断。
使用Plotly绘制箱线图
绘制基础箱线图
绘制对比箱线图
绘制对比箱线图(Boxplot)是一种展示不同类别或组数据分布的有效方式。
import plotly.express as px
= px.data.tips()
df = px.box(df, x="time", y="total_bill")
fig fig.show()
绘制分组对比箱线图
在一个图中并排展示多个组的箱线图,可以直观地比较这些组在统计上的差异,比如哪个组的中位数更高,哪个组的数据变异更大等。
import plotly.express as px
= px.data.tips()
df = px.box(df, x="day", y="total_bill", color="smoker")
fig fig.show()