统计数据的置信区间是什么?

经过:杰斯林盾牌|
硬币翻转“width=
如果您翻转一枚硬币,则连续10尾可能会非常不可能。但是,经过10次折腾,下一次翻转的尾巴的可能性仍将为50%。蒙蒂·拉库森/盖蒂图像

统计数字有点混合数学和概率。统计的目的是描述您可以在世界上观察到的过程 - 橡树的高度或可能性疫苗将努力抵御疾病 - 不必在决定药物的效率之前测量世界上的每棵橡树或为每个人接种疫苗。

由于概率描述了涉及机会的事物,因此我们必须接受我们使用的统计数据进行测量的任何过程,我们将永远不会得到完整的图像。

广告

为什么使用统计信息?

假设您四次翻转硬币。你有三个头和一个尾巴。没有使用统计数据,我们可能会得出结论,获得头部的可能性为75%,在硬币翻转中的实际概率为1:1或50-50的机会。如果我们进行40枚硬币翻转,那么我们肯定会更接近1:1的头部与尾巴的比例,并且使用统计数据将反映出这一点。

“大部分统计数据与样本的推理(实际观察结果)与人口的特征有关,所有可能的观察都与所有可能的观察有关。”传染病生态中心在佐治亚大学的一封电子邮件中。“例如,我们可能对橡树的高度感兴趣。我们不能测量世界上所有的橡树,但是我们可以测量一些。我们可以计算样品中橡树的平均高度,但这赢了'这必然与所有橡树的平均值相同。”

广告

置信区间

因为我们无法衡量世界上所有的橡树,所以统计学家根据概率和所有可供使用的数据提出了估计的高度范围。该范围称为置信区间,它由两个数字组成:一个可能小于真值,一个可能更大。真值可能在介于两者之间。

德雷克说:“'95%的置信区间'意味着在100倍以这种方式构建置信区间的100次中,该间隔将包括真实价值。”“如果我们测量了100次橡树的样品,则基于95个实验中收集的数据的置信区间将包括种群平均值或所有橡树的平均高度。因此,置信区间是精确度的量度。估计值。随着您收集更多数据,估计越来越精确。这就是为什么随着更多数据的可用性,置信区间会变小的原因。”

因此,置信区间有助于显示估计的好坏。当我们仅四次翻转一枚硬币时,我们的75%的估计值较宽,因为我们的样本量很小。我们使用40个硬币翻转的估计将具有更窄的置信区间。

置信区间的实际含义与一遍又一遍地重复实验有关。在四个硬币翻转的情况下,95%的置信区间意味着,如果我们重复100次硬币翻转实验,其中95次,我们的头部可能会落在该置信区间之内。

广告

统计的极限

统计有限。您必须设计一个很好的研究 - 统计数据无法告诉您您没有要求的任何事情。

假设您正在研究疫苗的功效,但是您没有在学习中包括孩子。您可以根据收集的数据提出一个置信区间,但它不会告诉您有关疫苗对儿童的保护程度的任何信息。

德雷克说:“除了拥有足够的数据外,样本还需要代表。”“通常,这意味着拥有一个随机样本或分层的随机样品。假设您假设疫苗试验中的1,000名参与者代表了人群,那么可以合理地得出结论,疫苗的真实疗效在报告的置信区间内。如果样本不是代表性的 - 如果不包括子女 - 那么就没有统计基础来得出关于人口无代表的部分的结论。”

广告

特色

广告

加载...