图表的重要性：Anscombe的四组数据

Posted By Matrix67 - February 12, 2018 886 0 0

1973年，统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们，在分析数据之前，描绘数据所对应的图像有多么的重要。
Anscombe’s Quartet
I   II   III   IV
x   y   x   y   x   y   x   y
10.0   8.04   10.0   9.14   10.0   7.46   8.0   6.58
8.0   6.95   8.0   8.14   8.0   6.77   8.0   5.76
13.0   7.58   13.0   8.74   13.0   12.74   8.0   7.71
9.0   8.81   9.0   8.77   9.0   7.11   8.0   8.84
11.0   8.33   11.0   9.26   11.0   7.81   8.0   8.47
14.0   9.96   14.0   8.10   14.0   8.84   8.0   7.04
6.0   7.24   6.0   6.13   6.0   6.08   8.0   5.25
4.0   4.26   4.0   3.10   4.0   5.39   19.0   12.50
12.0   10.84   12.0   9.13   12.0   8.15   8.0   5.56
7.0   4.82   7.0   7.26   7.0   6.42   8.0   7.91
5.0   5.68   5.0   4.74   5.0   5.73   8.0   6.89
这四组数据中，x值的平均数都是9.0，y值的平均数都是7.5；x值的方差都是10.0，y值的方差都是3.75；它们的相关度都是0.816，线性回归线都是y=3+0.5x。单从这些统计数字上看来，四组数据所反映出的实际情况非常相近，而事实上，这四组数据有着天壤之别。

图1
把它们描绘在图表中，你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应，是最“正常”的一组数据；第二组数据所反映的事实上是一个精确的二次函数关系，只是在错误地应用了线性模型后，各项统计数字与第一组数据恰好都相同；第三组数据描述的是一个精确的线性关系，只是这里面有一个异常值，它导致了上述各个统计数字，尤其是相关度值的偏差；第四组数据则是一个更极端的例子，其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。

来源：
http://www.reddit.com/r/math/comments/9fz3u/4_datasets_that_demonstrate_the_importance_of/
http://en.wikipedia.org/wiki/Anscombe’s_quartet

声明：文章转自Matrix67博客，版权归原作者所有，转载仅供学习使用，不用于任何商业用途，如有侵权请联系删除，谢谢。

登陆后访问

涨停股票池

换手率榜

10%涨跌幅榜

20%涨跌幅榜

60天涨跌幅榜

年初至今涨跌幅榜

主力流入榜

量比榜

总市值榜

流通市值榜

市净率榜

市盈率榜

概念换手率榜

概念涨跌幅榜

概念60天涨跌幅榜

概念年初至今涨跌幅榜

概念主力流入榜

行业换手率榜

行业涨跌幅榜

行业60天涨跌幅榜

行业年初至今涨跌幅榜

行业主力流入榜

各项经济指标排行(年度)

各项经济指标排行(月度)

其他地区经济指标

票房排行

影院排行

登陆后访问

相关文章