box plot:pandas和matplotlib中的whisker定义

问题描述 投票:2回答:1

来自https://en.wikipedia.org/wiki/Box_plot

箱形图的胡须有以下可能的定义:

  • 所有数据的最小值和最大值[1]
  • 最低基准值仍然在下四分位数的1.5 IQR范围内,最高基准值仍在上四分位数的1.5 IQR范围内
  • 高于和低于数据平均值的一个标准偏差
  • 第9百分位数和第91百分位数
  • 第二百分位数和第98百分位数。

我想知道在pandas

df['data'].plot(kind = 'box',  sym='bD')

哪个定义是胡须使用?

此外,对于matplotlib库:

ax.boxplot(dfa.duration)

哪个定义是胡须使用?

谢谢!

python-3.x pandas matplotlib boxplot
1个回答
5
投票

boxplot documentaton谈到胡须

whis:float,sequence或string(默认值= 1.5)

作为浮子,确定胡须的距离超出第一和第三四分位数。换句话说,在IQR是四分位数范围(Q3-Q1)的情况下,上部晶须将延伸到小于Q3 + whisIQR的最后数据。类似地,较低的晶须将延伸到大于Q1的第一个数据 - whisIQR。除了晶须之外,数据被视为异常值并被绘制为单个点。将其设置为不合理的高值,以强制晶须显示最小值和最大值。或者,将其设置为百分位数的递增序列(例如,[5,95])以将晶须设置在数据的特定百分位数处。最后,whis可以是字符串'range'来强制胡须到数据的最小值和最大值。

从无法轻易实现的问题列表中唯一的定义是“一个标准差”,所有其他定义都可以使用此参数进行设置。默认值为1.5IQR定义。

pandas.DataFrame.boxplot调用matplotlib函数。因此它们应该是相同的。

© www.soinside.com 2019 - 2024. All rights reserved.