登陆后访问



H
I
S
T
O
R
Y

图表的重要性:Anscombe的四组数据

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。
Anscombe’s Quartet
I    II    III    IV
x    y    x    y    x    y    x    y
10.0    8.04    10.0    9.14    10.0    7.46    8.0    6.58
8.0    6.95    8.0    8.14    8.0    6.77    8.0    5.76
13.0    7.58    13.0    8.74    13.0    12.74    8.0    7.71
9.0    8.81    9.0    8.77    9.0    7.11    8.0    8.84
11.0    8.33    11.0    9.26    11.0    7.81    8.0    8.47
14.0    9.96    14.0    8.10    14.0    8.84    8.0    7.04
6.0    7.24    6.0    6.13    6.0    6.08    8.0    5.25
4.0    4.26    4.0    3.10    4.0    5.39    19.0    12.50
12.0    10.84    12.0    9.13    12.0    8.15    8.0    5.56
7.0    4.82    7.0    7.26    7.0    6.42    8.0    7.91
5.0    5.68    5.0    4.74    5.0    5.73    8.0    6.89
这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。

图1
把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。
 

来源:
http://www.reddit.com/r/math/comments/9fz3u/4_datasets_that_demonstrate_the_importance_of/
http://en.wikipedia.org/wiki/Anscombe’s_quartet

 

声明:文章转自Matrix67博客,版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请联系删除,谢谢。

相关文章

奇妙的数字:巧合数

Posted by - November 10, 2017 1762
世界上,无时无刻不在发生着一些看似偶然的巧合,有让人遗憾的,也有让人庆幸的,在数学上,也有很多的巧合。

数学之美|填色游戏

Posted by - November 09, 2017 2060
人们提起数学之“美”时常意指其抽象涵义,罗素称之为“朴素冷峻之美……庄严纯净,能够达到严格的完美”。然而,人类也一向从数学中发现审美上的...