了解如何从直方图和箱线图中提取信息

理解这些数据并不意味着只得到平均值、中位数和标准差。很多时候,了解数据的可变性、传播或分布是很重要的。直方图和箱线图都有助于提供有关数据集的大量额外信息,有助于理解数据。

直方图

直方图只从数据集中获取一个变量,并显示每次出现的频率。我将使用一个简单的数据集来学习直方图如何帮助理解数据集。我会用python来制作图片。导入数据集:

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.read_csv("Cartwheeldata.csv") df.head()

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(1)

此数据集显示Cartweel数据。假设,办公室里的人决定去野餐时参加手推车距离竞赛。上面的数据集显示了结果。让我们了解一下数据。

1.做一个“Age”的柱状图。

sns.distplot(df['Age'], kde =False).set_title("Histogram of age")

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(2)

从上面的图片可以看出,大多数人都在30岁以下。只有一个人39岁,一个人54岁。

2.查看“CWDistance”的分布

sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(3)

很漂亮的阶梯。很难说哪个波段的频率最高。

3.有时将两个分布图一起绘制可以很好地理解。在同一图中绘制“Height”和CWDistance”。

sns.distplot(df["Height"], kde=False) sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(4)

从这张照片上看,我们不能说高度和距离之间有关系。

现在看,我们可以从箱线图中提取什么样的信息。

箱线图

方框图显示了数据的分布和更详细的信息。它更清楚地显示了异常值:最大值、最小值、四分位数(Q1)、第三四分位数(Q3)、四分位数范围(IQR)和中值。你可以从IQR中计算出中间的50%。

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(5)

它还提供了有关数据倾斜度、数据闭合程度和数据分布的信息。

让我们看一些使用Cartwheel数据的例子。

1.画一个“Score”的箱线图。

sns.boxplot(df["Score"])

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(6)

从这个图片,我们可以说,

  • 分布是正态的
  • 中位数是6
  • 最低分是2分
  • 最高分是8分
  • 第一个四分位数(前25%)是4
  • 第三个四分位数(75%)是8
  • 中间50%的数据范围是4到8。
  • 四分位数的范围是4。

2.在同一个箱线图中绘制两个变量有助于理解其中一个变量如何影响另一个变量。在同一个图中绘制CWDistance和“Glasses”以查看Glasses是否对CWDistance有任何影响。

sns.boxplot(x = df["CWDistance"], y = df["Glasses"])

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(7)

没有戴眼镜的人的中位数比戴眼镜的人高。不戴眼镜的人的总体范围较低,但IQR值较高。

从上图来看,IQR的范围是72到94。但对于戴眼镜的人来说,CWDistance的总体范围更大,而IQR则在66到90之间,这比不戴眼镜的人要小。

3.对于分别戴眼镜和不戴眼镜的人来说,CWDistance的柱状图可以提供更多的理解。

g = sns.FacetGrid(df, row = "Glasses") g = g.map(plt.hist, "CWDistance")

直方图和箱形图怎么选择(用直方图和箱线图理解数据)(8)

从这张照片上看,戴眼镜的人的最大频率是在CWDistance的开始。glasses对CWDistance的影响还需要进一步的研究。建立一个置信区间可能会有帮助。

我希望这篇文章能给你一些关于箱线图和柱状图的附加信息。

更多阅读建议:

  • 置信区间、计算和特征:https://towardsdatascience.com/confidence-interval-calculation-and-characteristics-1a60fd724e1d
  • 人口比例的置信区间和人口比例差异的计算:https://towardsdatascience.com/confidence-intervals-of-population-proportion-and-the-difference-in-python-6ab7faa0f255
  • 均值和均值差的置信区间计算:https://towardsdatascience.com/how-to-calculate-confidence-interval-of-mean-and-the-difference-of-mean-993bfec0c968
,