登陆后访问



H
I
S
T
O
R
Y

如何理解置信区间?

置信区间,就是一种区间估计。
先来看看什么是点估计,什么是区间估计。
一、点估计与区间估计
以前很流行一种刮刮卡:

图1
游戏规则是(假设只有一个大奖):
● 大奖事先就固定好了,一定印在某一张刮刮卡上
● 买了刮刮卡之后,刮开就知道自己是否中奖
那么我们起码有两种策略来刮奖:
点估计:买一张,这就相当于你猜测这一张会中奖
区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖
很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。
接下来,我们看看置信区间是如何进行区间估计的。
二、置信区间
我们通过对人类身高的估计来讲解什么是置信区间。
1. 上帝视角
对于人类真实的平均身高,我们是没有办法知道的,因为几乎不可能把每个人都统计到。
但这个数据肯定是真实存在的,我们可以说,上帝知道。
在这里我们引入了上帝视角,即上帝看到的人类身高的真实分布。
假设人类的身高分布服从如下正态分布():

也就是说全体人类的平均身高为145cm,为了表示只有上帝可以看到,我把真实分布用虚线来表示:

图2
2. 点估计
作为愚蠢的人类,我们只能在人群中抽样统计:

图3
比如下面是一次抽样数据,我把算出来的样本均值(记作)画在图上(蓝色的点):

图4
就是对真实的的一次点估计。
通过一次次的抽样,我们可以算出不同的身高均值的点估计:

图5
如果我们关闭上帝视角,我们分辨不出哪个点估计更好:

图6
区间估计可以改进此问题。
3. 置信区间
置信区间,提供了一种区间估计的方法。
下面采用置信区间来构造区间估计(什么是置信区间,这个我们后面解释):

图7
通过置信区间构造出来的区间,我们可以看到,基本上都包含了真实的,除了红色的那根。

关闭上帝视角,我们仍然不知道哪一个区间估计更好:

图8
但是,和点估计比较:
● 点估计和区间估计,都不知道哪个点或者哪个区间更好
● 但是,按照置信区间构造出来的区间,如果我构造出100个这样的区间,其中大约有95个会包含
这就好像用渔网捞鱼,我知道一百次网下去,大约会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:

图9
剩下的问题就是置信区间是如何构造的。
三、置信区间
假设人群的身高服从:

其中未知,已知。
我们不断对人群进行采样,样本的大小为,样本的均值:

根据大数定律和中心极限定律,服从:

我们可以算出以为中心,面积为0.95的区间,如下图:

图10
即:

也就是,的几率落入此区间:

图11
我们以为半径做区间,就构造出了置信区间。按这样构造的100个区间,其中大约有95个会包含

图12
那么,只有一个问题了,我们不知道、并且永远都不会知道真实的是多少。
我们就只有用来代替

四、总结
总结一下:
● 置信区间要求估计量是个常数
● 也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整

 

声明:文章转自【马同学高等数学】微信公众号,版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请联系删除,谢谢。

相关文章

奇妙的数字:巧合数

Posted by - November 10, 2017 1764
世界上,无时无刻不在发生着一些看似偶然的巧合,有让人遗憾的,也有让人庆幸的,在数学上,也有很多的巧合。

数学之美|填色游戏

Posted by - November 09, 2017 2060
人们提起数学之“美”时常意指其抽象涵义,罗素称之为“朴素冷峻之美……庄严纯净,能够达到严格的完美”。然而,人类也一向从数学中发现审美上的...