参数估计

引入

你已经明白了统计描述,接下来我们将学习统计学的灵魂——统计推断

统计推断大致可归为两大类:参数估计、假设检验

但………在欣赏绝美风景前,你必须穿进树林同时远离人群,在孤独的山间穿梭,这也是爬山必须经历的一段历练,即使路上风雨再大,无论是否迷路,既然选择了星空和云海,那么我就接受路遥,你会发现,赴约日出的路程越是艰难,看见美景那一刻的意义越是重大,请相信自己,每一次的付出都像是烙印,一次又一次地为行为与结果赋予意义

于是,

掌握统计推断前,还需学习的一些重要概念:

Standard Error of the Mean(标准误差)

必须严格区分:标准误差、样本标准偏差、总体标准偏差

  1. Standard Error of the Mean——标准误差
  2. Sample Standard Deviation——样本标准偏差
  3. Population standard Deviation——总体标准偏差

特别注意

标准误差被定义为:标准误差衡量的是样本均值作为总体均值估计的准确性,更具体地,它告诉我们如果我们从同一总体中重复抽样,得到的样本均值会围绕真实的总体均值变动的程度。

下沉到例子中:

是的,您理解得非常准确。在进行统计推断时,我们使用的确实是样本的标准误差(SE)来衡量样本均值围绕总体均值的离散程度,而不直接使用25个样本的标准差。这里有几个关键点需要区分清楚:

  1. 样本标准差(\(s\):这是衡量样本中各数据点相对于样本均值的离散程度。它基于样本计算,当我们没有总体数据时,它被用来估计总体标准差。

  2. 标准误差(SE):这是样本均值的分布标准差,用来衡量样本均值作为总体均值估计的准确性。它通过样本标准差除以样本量的平方根计算得出,即 \(SE = \frac{s}{\sqrt{n}}\)。标准误差反映的是,如果从同一总体中多次随机抽取相同大小的样本,这些样本均值的分布情况。

当我们讨论“如果给所有可能的参与者使用这种药物,他们焦虑水平降低的标准差是多少”,我们实际上是想估计总体的变异性。但由于我们无法直接知道这个总体参数,因此使用样本数据来进行估计。在这个过程中,样本的标准误差成为了一个关键的统计量,因为它允许我们估计样本均值围绕总体均值的变异性,从而进行置信区间的计算或进行假设检验。

总的来说,样本的标准误差(而不是样本的标准差)用于衡量样本均值作为总体均值估计的离散程度,这对于进行统计推断非常重要。

因为样本的统计量是围绕总体的真实参数来展开进行分布的,标准误差反映了多次抽样产生的统计量是如何围绕总体参数来展开进行分布的

所以:标准误反映的样本统计量在围绕总体而展开分布时的变异程度1

因为是“标准”误差,不同的样本间样本量大小大相径庭,于是将样本的总标准差平等地分配给每一个样本(又计算标准差已经分配过\(\sqrt{n}\)),得到

\[\begin{equation}\label{standard error} SE = \frac{s}{\sqrt{n}} \end{equation}\]

回到问题:将这个公式下沉至各种统计量

于是有,

  1. 样本均值标准误(standard error of the mean)

因总体标准差未知,于是公式为:

\(\begin{equation}\label{standard error1} SE = \frac{s}{\sqrt{n}} \end{equation}\)

(其中 \(s\) 是样本标准差,\(n\) 是样本量)

抽样误差

抽样误差是指从总体中随机选取样本时,样本统计量(如样本均值)与总体参数(如总体均值)之间的差异;而标准误差衡量的是样本统计量(如样本均值)分布的离散程度,反映了该统计量作为总体参数估计的精度。简单来说,抽样误差描述了样本与总体的差异,标准误差描述了统计估计的稳定性。

参数估计


  1. 为什么还要用样本代替总体统计推断的工具池↩︎