graph TD;
subgraph 分布类型
0[Binomial Distribution]-->|事件的结果>2|00[多项分布]

0-->|当n趋近无穷,p较小|1[Possion分布]

2[Normal Distribution];

2-->21[but i don't how]
2-->22[中心极限定理]
end

click 0 "https://ysz.asia/2024/03/14/Binomial%20Distribution/"
click 00 "https://ysz.asia/2024/03/14/Binomial%20Distribution/"
click 1 "https://ysz.asia/2024/03/16/Poisson%20Distribution/"
click 2 "https://ysz.asia/2024/03/24/Normal%20Distribution/"
click 22 "https://ysz.asia/2024/03/24/Normal%20Distribution/"
graph TD;
subgraph 统计推断
1[参数估计]-->1a[点估计]
1-->1b[区间估计]
2[假设检验]-->|比较2小样本间的平均数|2a[t检验]
2[假设检验]-->|若比较3者以上平均数|2b[ANOVA]
2-->|比较分类数据间的关系|2c[卡方检验]
end
click 1a "https://ysz.asia/2024/10/10/interval%20estimation/"
click 1b "https://ysz.asia/2024/10/10/interval%20estimation/"
click 2 "https://ysz.asia/2024/04/04/hypothesis%20testing/"
click 2a "https://ysz.asia/2024/04/05/t%20testing/"
click 2c "https://ysz.asia/2024/04/06/chi%20square%20test/"
gantt
    title 统计方法发展历程
    dateFormat YYYY-MM-DD
    section 卡方检验
    卡方检验: 1900-01-01, 1900-12-31
    section t检验
    t检验: 1908-01-01, 1908-12-31
    section 方差分析
    方差分析: 1920-01-01, 1925-12-31
   
    section 贝叶斯方法的广泛发展和应用
(1763年提出) 广泛发展开始: 1950-01-01, 1950-12-31 持续发展至今: 1951-01-01, 2024-12-31 section 随机森林算法 算法提出与发展: 2001-01-01, 2001-12-31 持续发展与应用: 2002-01-01, 2024-12-31
flowchart TB
subgraph 统计学的分析流程实际上应该是
    A[定义研究问题和目标] --> B[选择研究设计]
    B --> C[确定统计方法]
    C --> D[收集数据]
    D --> E[数据分析]
    E --> F[解答研究问题]
    
  
end

卡方的核心原理:比较观察频数和期望频数

评估观察数据是否与某种理论预期或假设相符合——是一致的。

graph TD
    A[定义问题] --> B[收集数据]
    B --> C{数据类型}
    C -->|分类数据| D[选择卡方检验]
    D -->|一个变量| E[卡方拟合度检验]
    D -->|两个变量| F[卡方独立性检验]
    D -->|比较多个群体| G[卡方同质性检验]
    E --> H[构建列联表]
    F --> H
    G --> H
    H --> I[计算期望频数]
    I --> J[计算卡方统计量]
    J --> K[确定显著性水平]
    K --> L[查找临界值或计算P值]
    L --> M{P值 |是| N[拒绝零假设]
    M -->|否| O[接受零假设]
    N --> P[报告结果]
    O --> P
flowchart TD
    A[开始] --> B{研究设计}
    B --> C{单个分类变量
与理论分布比较?} C -->|是| D[卡方拟合优度检验] C -->|否| E{比较不同群体
在同一变量上的分布?} E -->|是| F[卡方同质性检验] E -->|否| G{分析两个变量
之间的关系?} G -->|是| H[卡方独立性检验] G -->|否| I{成对或重复测量
的数据?} I -->|是| J[配对卡方检验
如麦克尼马检验] I -->|否| K[考虑其他统计方法] D --> L{例子:
色子是否公平?} F --> M{例子:
不同地区对产品偏好} H --> N{例子:
性别与购物偏好} J --> O{例子:
治疗前后健康状况改变}
flowchart TD
    A[开始] --> B{数据和设计类型}
    B -->|单一样本与理论分布比较| C[卡方拟合优度检验]
    B -->|两个或多个分类变量之间关系| D[卡方独立性检验]
    B -->|多个独立样本间比较| E[卡方同质性检验]
    B -->|成对或重复测量数据| F[配对卡方检验\麦克尼马检验]

    C --> G["例子: 检验色子是否公平"]
    D --> H["例子: 吸烟是否与肺病独立"]
    E --> I["例子: 不同学校学生对科学课程兴趣的比较"]
    F --> J["例子: 新减肥药前后体重变化的比较"]
graph TD
    A[卡方分析类型] --> B[卡方拟合优度检验]
    A --> C[卡方独立性检验]
    A --> D[卡方同质性检验]
    
    B --> E[自由度计算:df = 类别数 - 1]
    C --> F[自由度计算:df = 行数-1 * 列数-1]
    D --> F
    
    E --> G[举例: 单个变量的理论与观察分布比较]
    F --> H[举例: 两个变量间的独立性分析]
    F --> I[举例: 不同群体间同一分类变量的分布比较]

卡方独立性检验(例)

列联表的本质是两个维度相互作用,而维度里有很多因素,这些因素会相互作用,卡方列联表中:列A代表群体A,列B代表群体B

原始数据A

让我们通过一个简单的例子来理解卡方检验如何用于分析分类数据之间是否存在显著关系。

背景

假设一个学校想要研究学生的学习习惯是否与他们的最终考试表现有关。具体来说,学校对学生是否在考前复习(是或否)以及他们的考试成绩(及格或不及格)之间的关系感兴趣。

数据收集

我们随机选取了100名学生的数据,收集到以下信息:

  • 40名学生在考前复习了,其中35名及格,5名不及格。
  • 60名学生在考前没有复习,其中15名及格,45名不及格。

目标

使用卡方检验来分析学生是否在考前复习与他们的考试成绩是否及格之间是否存在显著的关系。

步骤

  1. 建立假设:
    • 零假设(H0): 学习习惯和考试成绩之间没有关系。
    • 备择假设(H1): 学习习惯和考试成绩之间有显著关系。
  2. 构造列联表:
学习习惯 及格 不及格 总计
复习 35 5 40
不复习 15 45 60
总计 50 50 100
  1. 计算期望频数

计算chi square的期望频数的核心:将计算期望频数的目标当成一个条件,期望频数是该条件下无限理想的结果

期望频数的计算公式是: \(E_{ij} = \frac{(行i的总和) \times (列j的总和)}{总样本数}\)

以“复习及格”为例,计算为: \(E_{11} = \frac{40 \times 50}{100} = 20\)

  1. *卡方统计量**。 卡方值的计算公式是:$ ^2 = $ 其中 \(O_i\) 是观察频数,\(E_i\) 是期望频数。

对于每一个格子,我们计算观察频数与期望频数之差的平方,然后除以期望频数,最后将所有格子的结果相加。

以“复习及格”和“不复习不及格”为例:

  • 对于复习及格:\((35 - 20)^2 / 20 = 11.25\)
  • 对于复习不及格:\((5 - 20)^2 / 20 = 11.25\)
  • 对于不复习及格:\((15 - 30)^2 / 30 = 7.5\)
  • 对于不复习不及格:\((45 - 30)^2 / 30 = 7.5\)

卡方值为这些结果的总和:\(11.25 + 11.25 + 7.5 + 7.5 = 37.5\)

  1. 确定显著性水平(通常为0.05)和自由度(在这个例子中为1,因为(行数-1)×(列数-1)=1)。

  2. 查找卡方分布表,确定卡方统计量对应的P值。

    卡方分布关于自由度的分布簇

结论

假设计算得到的P值小于0.05,我们将拒绝零假设,得出结论:学生是否在考前复习与他们的考试成绩是否及格之间存在显著的关系。这意味着,学生的学习习惯(至少在这个样本中)似乎影响了他们的考试表现。

这个例子简化了实际操作中的许多步骤,比如计算期望频数和卡方统计量,但它展示了卡方检验评估分类数据之间关系的基本逻辑。

原始数据B

要手动计算卡方统计量,并理解其背后的原理,我们将遵循以下步骤,以我们之前提到的电影类型偏好与观众年龄段的例子为基础。

步骤 1: 创建列联表

首先,我们已经有了一个3乘3的列联表,显示了不同年龄段的观众对不同电影类型的偏好。这里再重复一遍列联表:

动作 喜剧 科幻 总计
少年 30 20 50 100
成人 45 55 40 140
老年 25 25 35 85
总计 100 100 125 325

步骤 2: 计算期望频数

期望频数是基于边际总和和总样本量。例如,对于动作电影和少年观众的组合,期望频数$ E_{动作,少年} $计算如下:

$ E_{动作,少年} = = $

这一步需要为表中的每一个单元格重复。

步骤 3: 计算每个单元格的$ (O_{ij} - E_{ij})^2 / E_{ij} $

一旦我们有了每个单元格的期望频数,我们就可以计算每个单元格的$ (O_{ij} - E_{ij})^2 / E_{ij} \(,其中\) O_{ij} \(是观察频数,\) E_{ij} $是期望频数。

步骤 4: 计算卡方统计量

卡方统计量是所有单元格$ (O_{ij} - E_{ij})^2 / E_{ij} $值的总和。即:

$ ^2 = _{所有单元格} $

步骤 5: 判断显著性

使用计算出的卡方统计量和相应的自由度查找卡方分布表,以确定观察到的统计量是否足够大,从而拒绝零假设(即两变量独立)。

让我们通过计算实际的期望频数开始这个过程。

期望频数如下:

动作 喜剧 科幻
少年 30.77 30.77 38.46
成人 43.08 43.08 53.85
老年 26.15 26.15 32.69

接下来,我们将使用这些期望频数和原始列联表中的观察频数来计算卡方统计量。

计算出的卡方统计量为14.46。这个统计量表明了观察频数与期望频数之间的偏差程度。接下来,你需要根据自由度(在这个例子中是$ (3-1) (3-1) = 4 $)和所选择的显著性水平(通常是0.05),使用卡方分布表或相关软件来确定这个统计量是否足够大,以至于可以拒绝两个变量独立的零假设。

如果卡方统计量大于对应自由度和显著性水平下的临界值,那么我们有足够的证据拒绝零假设,认为电影类型偏好和观众年龄段之间存在统计上的关联。反之,如果卡方统计量小于或等于临界值,我们则没有足够证据拒绝零假设,即我们认为两个变量是独立的。

我的疑惑

在以下的例子中,我选择动作和少年作为期望频数,和成人和喜剧作为期望频数,最终对应的结论会是一样的吗?

动作 喜剧 科幻 总计
少年 30 20 50 100
成人 45 55 40 140
老年 25 25 35 85
总计 100 100 125 325

卡方拟合优度检验

例子:投掷有偏骰子

假设你有一个六面的有偏骰子,理论上它的每个面朝上的概率不是均等的,而是如下:

理论概率
1 0.1
2 0.1
3 0.2
4 0.2
5 0.2
6 0.2

这意味着,相比于其他面,面1和面2朝上的概率较低。

假设你投掷这个骰子1000次,观察到以下结果:

观察频数
1 95
2 105
3 200
4 190
5 210
6 200

步骤1:计算期望频数

期望频数将基于每个面的理论概率计算。例如,面1的期望频数为1000次 * 0.1 = 100次。

步骤2:计算卡方统计量

步骤1: 确定期望频数\(E_i\)

首先,你需要基于理论概率计算每个面的期望频数。总投掷次数是1000次。给定的理论概率如下:

  • 面1和面2的理论概率是0.1。
  • 面3、面4、面5、和面6的理论概率是0.2。

因此,期望频数计算如下:

  • 面1的期望频数 = 1000次 * 0.1 = 100次
  • 面2的期望频数 = 1000次 * 0.1 = 100次
  • 面3的期望频数 = 1000次 * 0.2 = 200次
  • 面4的期望频数 = 1000次 * 0.2 = 200次
  • 面5的期望频数 = 1000次 * 0.2 = 200次
  • 面6的期望频数 = 1000次 * 0.2 = 200次

步骤2: 计算每个类别的卡方值

接下来,对每个面,使用公式\(\frac{(O_i - E_i)^2}{E_i}\)计算卡方值,其中\(O_i\)是观察频数,\(E_i\)是期望频数。

  • 对于面1,\(O_i = 95\)\(E_i = 100\),卡方值 = \(\frac{(95 - 100)^2}{100} = \frac{25}{100} = 0.25\)
  • 对于面2,\(O_i = 105\)\(E_i = 100\),卡方值 = \(\frac{(105 - 100)^2}{100} = \frac{25}{100} = 0.25\)
  • 对于面3,\(O_i = 200\)\(E_i = 200\),卡方值 = \(\frac{(200 - 200)^2}{200} = 0\)
  • 对于面4,\(O_i = 190\)\(E_i = 200\),卡方值 = \(\frac{(190 - 200)^2}{200} = \frac{100}{200} = 0.5\)
  • 对于面5,\(O_i = 210\)\(E_i = 200\),卡方值 = \(\frac{(210 - 200)^2}{200} = \frac{100}{200} = 0.5\)
  • 对于面6,\(O_i = 200\)\(E_i = 200\),卡方值 = \(\frac{(200 - 200)^2}{200} = 0\)

步骤3: 求和得到总卡方统计量

将所有面的卡方值相加得到总卡方统计量:

总卡方统计量 = 0.25 + 0.25 + 0 + 0.5 + 0.5 + 0 = 1.5

步骤4: 使用卡方分布表确定显著性

最后,你需要根据卡方统计量、自由度(在这个例子中为6个面减1,即5)和选择的显著性水平(通常为0.05)来确定是否拒绝零假设。如果卡方统计量超过了对应自由度和显著性水平的临界值,那么我们拒绝零假设,认为观察频数与期望频数有显著差异,即骰子是有偏的。

根据卡方分布表,自由度为5时的临界值通常会查表得知。如果总卡方统计量小于这个临界值,则没有足够证据拒绝零假设,可以认为

为什么自由度是这样?

自由度为n−1是因为在计算卡方统计量时,总频数的约束减少了一个参数的自由度。这意味着,在n个类别的情况下,你实际上只能自由地调整n−1个类别的期望频数,最后一个类别的期望频数会由前面的n−1个类别和总频数的约束自动确定

步骤3:比较卡方统计量与临界值

通过卡方分布表和对应的自由度(这里是6-1=5)找到临界值,判断统计量是否显著。

这个例子比公平骰子的更复杂,因为它涉及到不均等的理论概率。这种分析可以揭示是否有足够的证据表明观察结果与理论预期有显著差异,进而可以推断骰子是否确实有偏。

让我们进行计算。

计算结果显示,每个面的期望频数分别是100(对于面1和面2)和200(对于面3、面4、面5、和面6)。计算得到的卡方统计量为1.5。

解读结果

  • 期望频数:根据理论概率,我们期待面1和面2各出现100次,而面3、面4、面5、和面6各出现200次。
  • 卡方统计量:1.5,这个值表示观察频数与期望频数之间的总体差异。

要判断这个卡方统计量是否显著,我们需要查看自由度为5(因为有6个面,自由度为\(k-1=6-1=5\))时的卡方分布表。显著性水平通常设定为0.05。如果卡方统计量超过该自由度下的临界值,我们有理由拒绝零假设,认为骰子有偏。

根据卡方分布表,自由度为5时,0.05的显著性水平对应的临界值大约是11.07。因为1.5远小于11.07,我们没有足够的证据拒绝零假设,即没有足够的证据证明骰子是有偏的。换句话说,观察到的频数与有偏骰子的理论概率分布相匹配。

这个例子展示了卡方拟合优度检验可以如何应用于评估具有不同理论概率的分类数据是否符合预期分布。

卡方独立性

让我们通过一个具体的例子来解释卡方同质性检验,比如研究三个不同城市的人对三种不同运动(篮球、足球、网球)的偏好是否存在显著差异。

假设的数据

我们调查了来自三个城市(城市A、城市B、城市C)的人们对这三种运动的偏好,并记录了每种运动在每个城市的支持者数量。

以下是调查结果的列联表:

运动/城市 城市A 城市B 城市C 总计
篮球 100 150 250 500
足球 200 100 200 500
网球 300 250 50 600
总计 600 500 500 1600

步骤1: 提出假设

  • 零假设(\(H_0\)):三个城市中对这三种运动的偏好分布相同。
  • 备择假设(\(H_1\)):至少有一个城市中对这三种运动的偏好分布与其他城市不同。

步骤2: 计算期望频数

期望频数根据边际总和和整体样本量计算。例如,对于城市A中喜欢篮球的期望频数: $ E_{篮球,城市A} = = = 187.5 $

按此方法计算表中每个单元格的期望频数。

步骤3: 计算卡方统计量

接着,使用观察频数和期望频数计算卡方统计量。公式为 \(\chi^2 = \sum\frac{(O_i - E_i)^2}{E_i}\)

步骤4: 确定自由度和临界值

自由度为 \((行数-1) \times (列数-1) = (3-1) \times (3-1) = 4\)。然后,根据自由度和预先设定的显著性水平查表得到临界值。

步骤5: 做出决策

比较计算出的卡方统计量和临界值,决定是否拒绝零假设。

结论

如果卡方统计量大于临界值,我们拒绝零假设,认为不同城市中对这三种运动的偏好存在显著差异;如果卡方统计量小于或等于临界值,我们没有足够证据拒绝零假设,认为三个城市中的人对这三种运动的偏好分布相同。

这个例子展示了如何使用卡方同质性检验来分析和比较不同群体在某个分类变量上的分布是否一致。

 graph TD

方差分析处理的是连续变量,而卡方处理的是分类变量

方差分析之所以要求群体之间方差齐性是因为方差分析所使用的统计量决定的,

若样本a、b、c的方差分别为:1、10、100000000,那么

最终指示F分布的统计量F灵敏度将大大降低

graph TB
        原始数据-->|方差齐性检验(Lenove'testing)|00
                原始数据-->|方差齐性检验(Bartlett-正态性要求高)|00
        00[(样本方差齐
数据间独立
最好正态)]:::highlight 00-->0 0[开始ANOVA方差分析] 0-->02 subgraph 模型选择 02[ANOVA模型选择] --> 02.1[单因素ANOVA]-->111 02 --> 02.02[多因素ANOVA]-->111 02 --> 02.3[重复测量ANOVA]-->111 02 --> 02.4[协方差分析ANCOVA]-->111 end 111[模型运行]-->|在进行ANOVA并发现至少有一种肥料的效果显著不同于其他肥料后,你会想进一步检查模型的假设是否满足|残差图验证 classDef highlight fill:#ffff00,stroke:#333,stroke-width:2px;
flowchart TB
    111[模型运行] -->|在进行ANOVA并发现至少有一种肥料的效果显著不同于其他肥料后,你会想进一步检查模型的假设是否满足| 残差图验证
    残差图验证 -->|检查残差分布| 方差齐性检验{方差齐性检验}
    方差齐性检验 --> |假设不成立| 数据变换[进行数据变换]
    方差齐性检验 --> |假设成立| 模型假设检验通过[模型假设检验通过]
    数据变换 --> 变换后的ANOVA[对变换后的数据进行ANOVA]
    变换后的ANOVA -->|再次检查假设| 残差图验证2[残差图验证]
    残差图验证2 -->|检查残差分布| 方差齐性检验2{方差齐性再次检验}
    方差齐性检验2 -->|假设不成立| 考虑非参数方法[考虑使用非参数方法或其他方案]
    方差齐性检验2 -->|假设成立| 最终模型确认[最终模型确认]

    classDef process fill:#f9f,stroke:#333,stroke-width:2px;
    class 模型运行,残差图验证,方差齐性检验,数据变换,变换后的ANOVA,残差图验证2,方差齐性检验2,考虑非参数方法,最终模型确认 process;
  graph TD
  0[(单因素方差分析模型的基本流程)]:::machine
  0-->1
  1[计算每组的平均值]
    
    1 --> 2[计算总体平均值]
    2 --> 3[对每个组计算平均值与总体平均值之差]
   subgraph 组间
    3 --> 4[将每个差值平方]
    4 --> 5[将平方差乘以相应组的样本数量]
    5 --> 6[对所有组求和得到SSB]
    6 --> 7[计算组间自由度 k - 1]
    7 --> 8[计算MSB:SSB / df_between]
    end
    2 --> 9[计算每个数据点与其组平均值的差异]
  subgraph 组内
    9 --> 10[将每个差值平方以消除正负号]
    10 --> 11[对每组内所有平方差求和]
    11 --> 12[对所有组的结果求和得到SSW]
    12 --> 13[计算组内自由度 N - k]
    13 --> 14[计算MSW:SSW / df_within]
    end
    8 --> 15[评估MSB反映的组间差异]
    14 --> 16[评估MSW反映的组内一致性]
    15 --> 17[根据 F=MSB/MSW 判断处理效应]
    16 --> 17
    17-->18[根据F分布做出判断]
        classDef machine fill:#1E90FF,stroke:#333,stroke-width:2px;

单因素方差分析

原始数据

组A(低剂量): [8, 9, 7, 10, 9]
组B(中剂量): [12, 11, 13, 14, 12]
组C(高剂量): [15, 14, 16, 17, 15]

当然,让我们一步步完整地重新展现这个ANOVA计算的正确过程,包括原始数据、计算组间(MSB)和组内(MSW)方差,以及最终的F值。

第一步:计算每组的平均值和总体平均值

  • 组A的平均值: 8.6
  • 组B的平均值: 12.4
  • 组C的平均值: 15.4
  • 总体平均值: 12.133

第二步:计算组间方差(MSB)

组间方差(Mean Square Between, MSB)在ANOVA(方差分析)中用来衡量各组平均值之间的差异程度,从而反映了不同组(或处理条件)之间的变异性。下面是计算组间方差的步骤:

第一步:计算每组的平均值和总体平均值

  • 对于每个组,计算其所有数据点的平均值。
  • 计算所有数据点的总体平均值,即所有组数据点的平均值。

第二步:计算组间方差的分子(SSB,Sum of Squares Between)

  • 对每个组而言,计算该组平均值与总体平均值之间的差异。
  • 将这个差异平方,以确保差异的方向(正负)不影响最终结果。
  • 将每个平方差乘以相应组的样本数量(这是因为更大的样本数量增加了该组平均值对总体平均值差异的“权重”)。
  • 将上述所有组的结果加总,得到组间平方和(SSB)。

第三步:计算组间自由度(df_between)

  • 组间自由度是组数减1(\(k - 1\)),其中\(k\)是组的数量。

第四步:计算组间方差(MSB)

  • 将组间平方和(SSB)除以组间自由度(df_between),得到组间方差(MSB)。

\[ MSB = \frac{SSB}{df_{between}} \]

这个结果MSB代表了平均每个自由度上的方差量,反映了不同组之间平均值的变异性。

示例

假设我们有两组数据:

  • 组A: [8, 9, 7, 10, 9](平均值 = 8.6)
  • 组B: [12, 11, 13, 14, 12](平均值 = 12.4)

且假设总体平均值为10.5(这个值是所有数据点的平均值)。

计算步骤如下:

  1. 计算每组的平均值:8.6(组A),12.4(组B)。
  2. 计算总体平均值:10.5。
  3. 计算SSB:基于每组平均值与总体平均值之间的差异。
  4. 计算df_between\(k - 1\),如果有两组,则为1。
  5. 计算MSB\(MSB = \frac{SSB}{df_{between}}\)

通过这个过程,我们可以量化不同组之间的平均值的差异,进而评估不同处理或条件的效果是否存在统计学上的显著差异。

第三步:计算组内方差(MSW)

组内方差(Mean Square Within, MSW)在ANOVA(方差分析)中代表了组内数据点相对于各自组平均值的波动或差异程度。计算MSW的目的是评估各组内部的一致性或变异性。具体计算流程如下:

第一步:计算组内差异

对于每个组,计算组内每个数据点与该组平均值之间的差异。然后,将这个差异平方,目的是消除差异的方向(正负),只关注差异的大小。

第二步:求和得到组内平方和(SSW)

将第一步中得到的所有平方差加总,得到组内平方和(Sum of Squares Within, SSW)。这一步是将所有组的组内平方差加总,得到一个反映所有组内波动性的总量。

第三步:计算组内方差的自由度

组内方差的自由度(df_within)是总样本数\(N\)减去组数\(k\)。自由度反映了在计算方差时可自由变动的数据点数量。

第四步:计算组内方差(MSW)

将组内平方和(SSW)除以其对应的自由度(df_within),得到组内方差(MSW)。

\[ MSW = \frac{SSW}{df_{within}} = \frac{SSW}{N - k} \]

这个结果MSW代表了平均每个自由度上的方差量,即组内平均的变异性。

示例

假设我们有两组数据:

  • 组A: [8, 9, 7, 10, 9]
  • 组B: [12, 11, 13, 14, 12]

计算步骤如下:

  1. 计算每组的平均值:组A的平均值,组B的平均值。
  2. 计算每个数据点与其组平均值的差的平方,然后对每个组进行求和。
  3. 求和得到SSW:将所有组的结果相加。
  4. 计算自由度\(df_{within} = N - k\),其中\(N\)是总样本数量,\(k\)是组的数量。
  5. 计算MSW\(MSW = \frac{SSW}{df_{within}}\)

通过这个过程,我们能够得到一个反映所有组内数据点波动性或一致性的度量。

第四步:计算F值

\[ F = \frac{MSB}{MSW} = \frac{58.16}{9.11} = 6.38 \]

自由度=2分母为12的F分布

让我们通过这个例子来了解组间和组内差异

有趣的例子

在这个有趣例子中,组间差异和组内差异都是零

有趣的例子2

这个例子中,组间差距依旧为零,而组内差距较大(球不一样)

因变量(Dependent Variable, DV)

自变量(Independent Variable, IV)

因变量(Dependent Variable, DV)是在实验或观察研究中你试图测试或测量的变量。它是对研究中的自变量(Independent Variable, IV)响应或变化的结果。简而言之,因变量是“依赖”的变量,其值取决于一个或多个其他变量(即自变量)的变化。

什么是结果显著?

若统计量落在统计量对应的分布的小区间里?小概率事件于是结果显著

flowchart TB
    A[开始] --> B{方差分析\nANOVA/MANOVA}
    B --> C{检验显著性}
    C -->|否| D[分析结束]
    C -->|是| E[事后检验]
    E -->|SNK| F[Student-Newman-Keuls]
    E -->|Dunnett| G[Dunnett's Test]
    E -->|Bonferroni| H[Bonferroni Correction]
    B --> I{检验交互作用}
    I -->|是| J[进一步探究\n交互作用]
    I -->|否| E
    F --> K[效应量计算]
    G --> K
    H --> K
    J -->|进入事后检验| E
    K --> L[假设检验之后的分析\n如线性回归、ANCOVA等]
    L --> M[分析结束]

    classDef startend fill:#f9f,stroke:#333,stroke-width:4px;
    classDef process fill:#bbf,stroke:#333,stroke-width:2px;
    classDef decision fill:#fbf,stroke:#f66,stroke-width:2px;
    class A,B,M startend;
    class C,I decision;
    class E,F,G,H,J,K,L process;
flowchart TB
    A[开始] --> B{进行ANOVA测试}
    B --> C{ANOVA结果显著?}
    C -->|否| D[无需进一步比较]
    C -->|是| E[选择多重比较方法]
    E --> F{比较的目的}
    F --> G[比较多个实验组与一个控制组]
    F --> H[比较特定几个组]
    F --> I[全面比较所有组间差异]
    G --> J[Dunnett法]
    H --> K[Bonferroni校正]
    I --> L[SNK方法]
    J --> M[执行Dunnett比较]
    K --> N[执行Bonferroni校正的两两比较]
    L --> O[执行SNK步骤比较]
    M --> P[得到比较结果]
    N --> P
    O --> P

q检验( Student Newman Keuls)

Q检验(也称为SNK法,即Student-Newman-Keuls方法)是一种后续多重比较测试,用于在方差分析(ANOVA)发现显著差异后,识别哪些具体的组间平均值存在显著差异。这种方法旨在平衡统计检验的灵敏度和整体错误率(特别是第一类错误,即假阳性率)之间的关系。以下是Q检验的基本思路和步骤:

步骤1:进行ANOVA

  • 首先,进行一方ANOVA来确定是否至少有一个组的平均值与其他组不同。如果ANOVA的结果不显著,那么没有必要进一步进行多重比较。
  • 如果ANOVA显示至少有一个组不同,那么可以使用Q检验来确定哪些组之间存在显著差异。

步骤2:排列均值

  • 将所有组的平均值按升序或降序排列。

步骤3:计算Q统计量

  • 对于任意两个组的平均值,计算它们之间的Q统计量。Q统计量的计算公式为:

    $ Q = $

    其中,\(\bar{X}_1\)\(\bar{X}_2\)是两个比较组的平均值,SE是标准误差,通常基于组内方差和各组样本量来计算。

步骤4:比较Q统计量与临界值(没有Q分布,只有Q表)

  • 使用特定的α水平(如0.05)和相关的自由度,查找或计算Q检验的临界值。这个临界值通常通过查阅SNK的临界值表来获取。
  • 如果计算出的Q统计量大于临界值,那么我们可以拒绝零假设,认为两组平均值之间存在显著差异。

步骤5:进行所有必要的比较

  • 对所有可能的组合进行比较。这包括不仅是相邻的组,也包括不相邻的组。理论上,每一对组合都应该进行比较,但实际上,人们通常首先关注相邻组的比较,因为这些比较更可能显示出显著差异。

步骤6:控制错误率

  • 通过上述步骤,Q检验考虑到了多重比较问题,并试图控制整体第一类错误率。尽管如此,进行大量比较时仍需谨慎,因为这可能增加发现至少一个假阳性差异的机会。

小结

Q检验的优点是它可以同时考虑多个比较,而不是单独考虑每个比较,从而减少了整体的第一类错误率。然而,由于它是一种后续测试,必须首先执行ANOVA并发现显著差异。此外,Q检验比一些其他多重比较方法(如Tukey的HSD测试)更不保守,可能在某些情况下导致更高的第一类错误率。因此,选择哪种后续测试方法取决于研究的具体需求、对错误的容忍程度以及样本大小等因素。

Bonferroni校正

非常保守,甚至过保守,有效控制I类错误(假阳性)

进行Bonferroni校正后的两两比较主要涉及计算每一对组合的统计显著性,并将得到的p值与校正后的显著性水平进行比较。以下是具体步骤:

步骤1: 确定校正后的显著性水平

首先,确定校正后的显著性水平。如果原始的显著性水平是α,并且你打算进行n次比较,那么校正后的显著性水平为:

\[ \text{校正后的}\ \alpha = \frac{\alpha}{n} \]

步骤2: 进行比较

对于每一对你想要比较的组合:

  • 计算这两组数据的统计显著性,通常通过进行独立样本t检验或其他适当的比较方法,取决于数据的性质和分布。
  • 得到每次比较的p值。

步骤3: 比较p值和校正后的显著性水平

对于每次比较:

  • 如果p值小于或等于校正后的显著性水平,则认为这两组之间有统计学上的显著差异。
  • 如果p值大于校正后的显著性水平,则认为这两组之间没有统计学上的显著差异。

例子

假设你有4组数据(A、B、C、D),你的原始显著性水平是0.05,并计划进行6次比较。因此,校正后的显著性水平为0.05/6 ≈ 0.0083。

假设你已经进行了以下两两比较,并得到了相应的p值:

  • A vs. B: p = 0.02
  • A vs. C: p = 0.005
  • A vs. D: p = 0.01
  • B vs. C: p = 0.03
  • B vs. D: p = 0.07
  • C vs. D: p = 0.001

将每个p值与校正后的显著性水平0.0083进行比较:

  • A vs. B的p值(0.02)> 0.0083,因此A和B之间没有显著差异。
  • A vs. C的p值(0.005)< 0.0083,因此A和C之间有显著差异。
  • A vs. D的p值(0.01)> 0.0083,因此A和D之间没有显著差异。
  • B vs. C的p值(0.03)> 0.0083,因此B和C之间没有显著差异。
  • B vs. D的p值(0.07)> 0.0083,因此B和D之间没有显著差异。
  • C vs. D的p值(0.001)< 0.0083,因此C和D之间有显著差异。

结论

通过这个过程,你可以准确地识别出哪些组之间存在统计学上的显著差异。Bonferroni校正提供了一种简单有效的方式来控制多重比较的整体第一类错误率,尽管它可能比较保守。

Dunnett法

让我们通过一个具体的例子来解释Dunnett法的应用。

研究背景

假设你是一位农业科学家,正在研究三种新的杀虫剂(分别称为A、B、C)对作物产量的影响,并将它们与未处理的控制组(D)进行比较。目标是找出哪些杀虫剂能显著提高产量。

实验设计

  • 控制组(D):未使用杀虫剂的作物。
  • 实验组
    • A组:使用杀虫剂A的作物。
    • B组:使用杀虫剂B的作物。
    • C组:使用杀虫剂C的作物。
  • 每个组包含30株作物,实验持续一个生长季。

步骤1: 进行ANOVA

实验结束后,你测量了每株作物的产量,并进行了方差分析(ANOVA),结果表明至少有一个处理组的平均产量与控制组存在显著差异。

步骤2: 使用Dunnett法进行比较

现在,你需要使用Dunnett法来确定是哪些具体的杀虫剂处理组(A、B、C)与控制组(D)之间的产量差异达到了统计学上的显著性。

计算和比较

  • 你计算了每个实验组与控制组之间的平均产量差异。
  • 然后,使用Dunnett法计算的临界值来判断这些差异是否统计显著。这里,我们假设已经通过查表得到了适当的临界值。

假设结果如下

  • A组与D组的平均产量差异的p值为0.02。
  • B组与D组的平均产量差异的p值为0.15。
  • C组与D组的平均产量差异的p值为0.005。
  • 假设根据样本大小和比较次数,通过Dunnett校正后的显著性水平为0.017。

结果解读

  • A组与D组:p值0.02 < 0.017,因此A处理显著增加了产量。
  • B组与D组:p值0.15 > 0.017,因此B处理没有显著增加产量。
  • C组与D组:p值0.005 < 0.017,因此C处理显著增加了产量。

结论

根据Dunnett法的结果,你得出结论,与未处理的控制组相比,杀虫剂A和C能显著提高作物的产量,而杀虫剂B的效果并不显著。

通过这个例子,我们可以看到Dunnett法如何帮助科学家在控制整体第一类错误率的同时,准确地识别出哪些处理与控制组存在显著差异。

残差图

检查模型假设

残差图

这里展示的是另一些残差图,同样地,您可以看到异方差性和方差齐性之间的区别:

  • 异方差性图(Heteroscedasticity - Example 2):残差的分散度随自变量的增大而增大,表明残差的方差也随之增大。
  • 方差齐性图(Homoscedasticity - Example 2):残差的分布相对均匀,与自变量的变化无明显相关性,显示出残差的方差保持相对恒定。

通过不同的数据生成和回归分析,这些图像进一步说明了在回归分析中判断残差的异方差性与方差齐性的重要性。

使用t检验的一般流程

graph TD
    0[(随机样本
来自正态分布总体
比较均数时)]:::highlight 0 -->|建立假设| A{检验数据正态性} A -->|正态分布| B{检验方差齐性} A -->|非正态分布| F[使用非参数检验] B -->|数据量相似| C[选择方差齐性检验] C -->|Levene检验| D[当数据偏离正态分布] C -->|Bartlett检验| E[当数据严格正态] C -->|F检验| G[样本量大且满足正态] B -->|数据量不相似| H[推荐Levene检验] D --> I{方差是否齐性} E --> I G --> I H --> I I -->|是| J[选择Student's t检验或Welch's t检验] I -->|否| K[使用Welch's t检验] J --> L[独立样本T检验或配对样本T检验] K --> M[独立样本Welch's T检验] L --> N(计算t值) M --> N N --> O(确定显著性水平 α) O --> P(查找t分布表以确定临界t值) P --> Q{比较计算得到的t值与临界t值} Q -->|计算的t值 大于 临界t值| R(拒绝零假设,接受备择假设,差异显著) Q -->|计算的t值 小于等于 临界t值| S(不能拒绝零假设,差异不显著) classDef highlight fill:#ffff00,stroke:#333,stroke-width:2px;
graph TD
    0[(随机样本
来自正态分布总体
比较均数时方差相等)]:::highlight 0 -->|建立假设|1{选择适当的t检验类型} 1 --> 2(独立样本T检验) 1 --> 3(配对样本T检验) 1 --> 4(单样本T检验) 2 --> 5(计算t值) 3 --> 5 4 --> 5 5 --> 6(确定显著性水平 α) 6 --> 7(查找t分布表以确定临界t值) 7 --> 8{比较计算得到的t值与临界t值} 8 -->|计算的t值 大于 临界t值| 9(拒绝零假设,接受备择假设,差异显著) 8 -->|计算的t值 小于等于 临界t值| 10(不能拒绝零假设,差异不显著) classDef highlight fill:#ffff00,stroke:#333,stroke-width:2px;

两独立样本t检验

graph TD
    0[收集两个班级的成绩数据]
    0 --> |根据F检验分布图|1[进行方差齐性检验]
    1 -->|方差相等| 2[选择标准独立样本T检验]
    1 -->|方差不等| 3[选择Welch的T检验]
    2 --> 4[计算T值]
    3 --> 4
    4 --> 5[确定显著性水平 α]
    5 --> 6[与临界值比较]
    6 -->|T值 大于 临界值| 7[结论:两班成绩有显著差异]
    6 -->|T值 小于等于 临界值| 8[结论:两班成绩无显著差异]

原始数据

以下是我的原始数据

# 将班级A和班级B的成绩罗列出来
classA_scores, classB_scores

Result
(array([78.97371322, 73.89388559, 80.1815083 , 87.18423885, 73.126773 ,
73.12690434, 87.63370252, 81.13947783, 71.24420491, 79.34048035,
71.29265846, 71.27416197, 76.93569817, 59.69375804, 61.20065734,
70.50169977, 66.89735104, 77.51397866, 67.7358074 , 63.70157039,
86.72519015, 73.1937896 , 75.54022564, 63.60201451, 70.6449382 ,
75.88738072, 65.79205138, 78.00558415, 70.19489048, 72.66645 ]),
array([71.98293388, 96.52278185, 77.86502775, 67.42289071, 86.22544912,
65.7915635 , 80.08863595, 58.40329876, 64.71813951, 79.96861236,
85.3846658 , 79.71368281, 76.84351718, 74.98896304, 63.2147801 ,
70.80155792, 73.39361229, 88.57122226, 81.4361829 , 60.36959845,
81.24083969, 74.1491772 , 71.23078222, 84.11676289, 88.30999522]))

进行Levene’s 方差齐性检验

W的计算

根据我们的示例计算:

A:班级A的平均成绩为83.5分。

B:班级B的平均成绩为86.4分。

C:班级A的平均绝对偏差为4.9分。

D:班级B的平均绝对偏差为4.0分。

E:所有数据的总体平均绝对偏差为4.45分。

F:Levene统计量\(W\)的计算结果为0.403。

Levene统计量\(W\)表示的是在我们的示例数据中,两个班级成绩的方差齐性的检验统计量。计算出的\(W\)值用来与F分布的临界值进行比较,以决定是否拒绝方差齐性的零假设。在实际应用中,我们通常还需要查找或通过统计软件获取相应的p值,以确定这个统计量在给定显著性水平下的显著性。

各种F分布图

分母与自由度变换时F的分布簇 根据参数为(自由度、分母)的F图像,得出p值

0假设通常是两条统计量相等,若p值较小那么是一个小概率事件,即拒绝0假设,得出两统计量不相等

本文篇幅有限,仅仅探究方差相等(即方差齐性的情况)算了…..我还是写完它吧

选择标准独立样本T检验并计算t值(假设方差相等)

标准的独立样本T检验使用池化方差(\(s_p^2\))来估计标准误差,适用于当我们假设两个样本的方差相等时。其计算步骤如下:

  1. 计算池化方差:

\[ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \]

其中,\(n_1\)\(n_2\)是两个样本的大小,\(s_1^2\)\(s_2^2\)是两个样本的方差。

  1. 计算标准误差(SE):

\[ SE = \sqrt{s_p^2\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} \]

  1. 计算T值:

\[ T = \frac{\bar{x}_1 - \bar{x}_2}{SE} \]

其中,\(\bar{x}_1\)\(\bar{x}_2\)是两个样本的平均值。

  1. 自由度的计算

    \[ df = (n_1 + n_2 - 2)。 \]

选择Welch’sT检验并计算t值(不假设方差相等)

Welch的T检验是一种更通用的方法,它不要求两个样本的方差相等,因此适用于更广泛的情形。其计算步骤如下:

  1. 直接计算每个样本的标准误差:

\[ SE_1 = \frac{s_1^2}{n_1}, \quad SE_2 = \frac{s_2^2}{n_2} \]

  1. 计算两个样本标准误差的和的平方根(总标准误差,SE):

\[ SE = \sqrt{SE_1 + SE_2} \]

  1. 计算T值:

\[ T = \frac{\bar{x}_1 - \bar{x}_2}{SE} \]

  1. 自由度的计算

对于Welch的T检验,自由度(df)的计算比标准T检验复杂,使用以下公式:

\[ df = \frac{(SE_1 + SE_2)^2}{\frac{SE_1^2}{n_1 - 1} + \frac{SE_2^2}{n_2 - 1}} \]


总结与实操

- 标准T检验假设两个独立样本具有相同的方差,并使用池化方差来计算标准误差和T值。

- Welch T检验不要求两个样本的方差相等,直接计算每个样本的标准误差来估计总标准误差,并据此计算T值,通常给出一个更保守的自由度估计。

在我们的例子中,使用班级A和班级B的数学成绩进行计算:

标准的独立样本T检验(假设方差相等)

  • T值:-1.141
  • \(p\):0.269
  • 自由度(df):18

Welch的T检验(不假设方差相等)

  • T值:-1.141
  • \(p\):0.269
  • 自由度(df):约17.52

解释

在这个例子中,不论是使用标准的独立样本T检验还是Welch的T检验,我们都得到了相似的T值和\(p\)值,表明在显著性水平0.05下,我们没有足够的证据拒绝零假设,即两个班级的数学成绩没有显著差异。这种情况下,班级A和班级B的成绩可以认为在统计学上是相等的。

自由度的差异主要源于两种方法对样本方差不同假设的处理方式。Welch的T检验因为不假设方差齐性,所以通常会有一个略微不同的、更保守的自由度估计。

这个例子展示了如何根据样本方差是否相等,选择合适的独立样本T检验方法,并进行计算。在实际研究中,选择哪种方法取决于样本方差的性质以及研究者的偏好。

单样本资料的t检验

graph TD
    0(设立假设) --> 1(收集数据)
    1 --> 2(计算t值)
    2 --> 3(确定显著性水平)
    3 --> 4(查找t分布表或使用统计软件获取p值)
    4 --> 5(做出决策)

    1 -->|确定样本大小n 计算样本均值和样本标准差s| 1
    2 -->|使用公式| 2
    3 -->|通常选择α = 0.05 可调整| 3
    4 -->|根据t值和自由度n-1获取p值| 4
    5 -->|如果p值小于或等于α 拒绝零假设 存在显著差异|结论
    5 -->|如果p值大于α 不能拒绝零假设 无显著差异| 结论

原始数据

背景: 假设你是一名心理学研究者,想要研究大学生的睡眠质量。根据国家健康机构的数据,成年人的平均睡眠时间应为7小时(即总体平均μ=7小时)。你想要测试的假设是,受试的大学生平均睡眠时间是否与这个标准有显著差异。

单样本t检验的步骤

  1. 收集数据:

    你对30名大学生进行了调查,记录他们的平均睡眠时间。假设得到的样本平均睡眠时间\(\bar x\)=6.5小时,样本标准差\(s\)=1.2小时。

  2. 建立假设:

    • 零假设(\(H_0\)):样本均值等于总体均值。在我们的例子中,零假设是大学生的平均睡眠时间为7小时。
    • 备择假设(\(H_1\)):样本均值不等于总体均值。即大学生的平均睡眠时间不是7小时。
  3. 收集数据并计算统计量:

    • 在我们的例子中,你调查了30名大学生,发现样本平均睡眠时间\(\bar{x}\)为6.5小时,样本标准差\(s\)为1.2小时。
  4. 计算t值:

    \[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} \]

  5. 观察t分布并判断假设结果

    • 使用计算出的t值,我们查找t分布表,以确定与我们的t值对应的p值。p值是在零假设为真的条件下,观察到的结果(或更极端的结果)发生的概率。
    • 在我们的例子中,p值为0.011,这意味着如果大学生的真实平均睡眠时间确实为7小时,那么我们观察到平均睡眠时间为6.5小时(或更极端)的概率仅为1.1%。
  6. 解释结果

  • p值的解释: p值用于决定是否拒绝零假设。如果p值小于我们事先设定的显著性水平(通常是0.05),我们就有足够的证据拒绝零假设。
  • 在我们的例子中,因为p值(0.011)小于0.05,我们拒绝零假设,得出结论:有统计学上的显著证据表明大学生的平均睡眠时间不是7小时。

配对样本t检验

graph TD
    0(设立假设)
    0 -->|零假设H0: 平均差异为0| 1(收集数据)
    0 -->|备择假设H1: 平均差异不为0| 1
    1 --> 2(计算差异的平均值和标准差)
    2 --> 3(计算t值)
    3 --> 4(确定显著性水平α)
    4 --> 5(查找t分布表或使用统计软件获取p值)
    5 --> 6(做出决策)
    6 -->|p值小于等于α: 拒绝H0| 7[存在显著差异]
    6 -->|p值大于α: 不能拒绝H0| 8[没有显著差异]

使用一个更具体的例子来深入理解配对设计资料的t检验:

背景

一名营养学研究员想要评估一种新的营养计划对体重管理的效果。为此,她选择了10名志愿者,这些志愿者都希望通过饮食改善来减轻体重。

研究设计

  • 前测: 实施新的营养计划之前,研究员记录了每位志愿者的体重(单位:千克)。
  • 干预: 这些志愿者遵循为期一个月的新营养计划。
  • 后测: 计划结束后,再次记录每位志愿者的体重。

数据收集

假设我们得到以下体重变化数据(单位:千克),显示了每位志愿者在营养计划前后的体重差异(减少的体重表示为正值):

志愿者 前测体重 后测体重 体重差异(前测 - 后测)
1 85 82 3
2 78 75 3
3 92 88 4
4 76 74 2
5 80 77 3
6 88 84 4
7 95 90 5
8 102 97 5
9 77 75 2
10 83 80 3

假设设立

  • 零假设(\(H_0\): 营养计划对体重没有影响,即体重差异的平均值等于0。
  • 备择假设(\(H_1\): 营养计划对体重有影响,即体重差异的平均值不等于0。

计算

首先,我们计算体重差异的平均值(\(\bar{d}\))和标准差(\(s_d\))。然后,使用配对设计资料的t检验公式计算t值,确定显著性:

$ t = $

其中\(n\)是志愿者的数量。

结论

基于计算结果,如果得到的p值小于0.05,我们将拒绝零假设,这意味着有足够的证据表明营养计划有效地促进了体重减轻。

现在,让我们计算体重差异的平均值、标准差,以及t检验的结果,来确定这个营养计划是否显著影响体重减轻。

在这个例子中,体重差异的平均值(\(\bar{d}\))为3.4千克,标准差(\(s_d\))为1.075千克。使用配对设计资料的t检验公式,我们得到的t值为10.002。对应的p值为约0.00000357。

结论

因为p值远小于0.05,我们拒绝零假设。这意味着有充分的统计学证据表明这种营养计划显著降低了参与者的体重。这个具体例子展示了配对设计资料的t检验如何用于分析同一组受试者在接受特定干预前后的变化,以及如何通过计算得出科学有效的结论。

假设检验是干什么的?

例如:

零假设的统计量落在对应分布表里的一个边缘区间内,且这个边缘区间的概率为0.00001,那么意味着这个样本的统计量是一个个例,进行多次抽样后 ,出现这样的结果的概率很小很小

于是,这就称为了你拒绝0假设的证据

例如:这是一个用于判断两个独立样本的均值是否有明显差异的公式(用在样本量大于30、50的时候)

\[ z = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

当然,数学家们通过数学推导确定了它服从某个分布(自由度为\(\infty\)的t分布—即正态分布)

因为正态分布的和与差均为正态分布

若z趋近于0,那么两样本的均值可认为没有差异,若z较大或较小,那么认为均值有显著差异(p小于0.05)

Z值服从的分布:

独立样本z值的分布图

两样本A、B来源的变量:

两服从正态分布的变量分布图

假阳性错误与假阴性错误

Error I:报警器响了,小偷却没进你家

Error II:报警器没响,小偷却进入你家了

置信水平与置信区间

置信水平反映了对总体参数(例如,总体均值)估计的准确性或可靠性的信心

置信区间由置信水平通过t分布的标准对照来产生

例如:

以下是自由度为10时,t分布的概率密度图像,横轴代表t值,纵轴代表t值出现的概率,曲线下总面积为1

t分布的图像

置信水平对应曲线的面积,而置信区间对应t值

在这个例子中,灰色阴影的面积为0.95,你也可以说,曲线横轴上某段区间上的积分为0.95

而“曲线横轴上某段区间”正是置信区间,”灰色阴影的面积“正是置信水平

下沉进去例子里便是:

在100次抽样里,有95次抽样的结果转化为t值会落在(-2.228,2.228)这个区间里

至此,你已经理解了置信区间与置信水平的概念

一些t分布的理论基础…..

\[ t=\frac{\bar{X}-\mu}{S\overline{X}}\sim t\text{ 分布} \]

尽管\(t\)可以在\((-\infty,\infty)\)\(取值,但是,在(1-α)的场合下,\) t $的数值满足

\[ 一t_{a/2,v}<t<t_{a/2,\nu} \]

于是

\[ -t_{a/2,\nu}<\frac{\bar{X}-\mu}{S\overline{x}}<t_{a/2,\nu} \] 一些z分布的理论基础…..

\[ z=\frac{\bar{X}-\mu}{\sigma}\sim z\text{ 分布} \]

尽管\(t\)可以在\((-\infty,\infty)\)\(取值,但是,在(1-α)的场合下,\) z $的数值满足

\[ 一z_{a/2,v}<z<z_{a/2,\nu} \]

于是

\[ -z_{a/2}<\frac{\bar{X}-\mu}{\sigma}<z_{a/2} \]

之所以单开一个新的空间来存放像Z得分、标准误差、T分布这样的知识点,是因为在统计推断这个统计学的核心概念里,它们同时被参数估计与假设检验所需要

Z得分

Z得分是衡量数据点相对于其数据集平均值的偏离程度,用标准差的倍数表示。

Z得分的计算公式是:

\(\begin{equation}\label{Z} Z = \frac{X - \mu}{\sigma} \end{equation}\)

其中:

  • \(Z\) 是Z得分。
  • \(X\) 是观测值。
  • \(\mu\) 是数据集的平均值。
  • \(\sigma\) 是数据集的标准差。

通过这个公式,你可以将任何观测值转换成Z得分,这表示该观测值相对于整个数据集平均值的偏离程度,以标准差为单位。这个分数可以是正数、负数,或者零:

  • 正数表示观测值高于平均值。
  • 负数表示观测值低于平均值。
  • 零表示观测值等于平均值。

标准误差

标准误差就像一把尺子,这把尺子每个总体都会拥有一把,专门为该总体定制。 > >当我们使用统计量来估计参数时,这把尺子的作用是度量在处理特定样本量时计算出的某个特定统计量——通常是样本均值——相对于总体参数,通常是总体均值,的准确度和可靠性。 > >这把尺子是非常独特的,因为它的刻度不是固定的,而是随着样本量的大小变化而变化。当样本量增加时,这把尺子的刻度会变得更加紧凑,意味着统计量与参数之间的差异变得更小,我们的估计也就更加接近真实的总体参数值。换句话说,随着我们增加样本量,这把尺子帮助我们更精确地测量统计量对总体参数的估计,从而减少估计的不确定性。另一方面,这把尺子也反映了总体内在的变异性。总体变异性越大,即总体标准差越大,这把尺子告诉我们即使是对同一个总体参数的估计也会有较大的波动。这就像是尺子的刻度在变宽,提示我们即便使用相同的样本量,不同样本之间的统计量也可能有较大的差异。总之,标准误差这把尺子是统计学家的宝贵工具。它不仅帮助我们量化使用样本数据估计总体参数时的准确度和可靠性,还教导我们关于样本量大小和总体变异性如何影响我们的估计。通过这把尺子,我们能够更加自信地进行统计推断,理解和解释我们从样本数据中得出的结论。 > >统计量相对于参数当用于衡量统计量围绕参数展开分布的离散程度的指标,更确切地说,它用来衡量样本均值作为总体均值估计的准确性

尺子的定义

这把尺子——标准误差(SE)的计算公式是基于总体标准差(\(\sigma\))和样本大小(\(n\)):

$ SE = $

其中:

  • \(SE\) 是标准误差,代表样本均值的分布标准差,即我们讨论的“尺子”的精确度;

  • \(\sigma\) 是总体标准差,代表总体数据点相对于总体均值的平均偏差,反映了总体内的变异性;

  • \(n\) 是样本大小,即从总体中抽取用于分析的数据点数量。

尺子的应用场景

当总体标准差 (\(\sigma\)) 已知时,这个公式可以直接用来计算标准误差。然而,在实际研究中,我们往往不知道总体标准差,因此会使用样本标准差(\(s\))来代替 \(\sigma\),相应地,标准误差的计算公式变为:

$ SE = $

其中 \(s\) 是样本标准差,它是基于抽取的样本计算得出的。

标准误差的意义

- 准确度的衡量:标准误差度量了样本均值作为总体均值估计的准确度。标准误差越小,表示我们的样本均值越接近总体均值,即我们的估计越准确。

- 样本量的影响:公式中的 \(\sqrt{n}\) 显示了增加样本量如何减小标准误差,从而提高估计的准确度。这是因为较大的样本更能代表总体,减少了抽样误差。

这个“尺子”的计算公式不仅简单但极其强大,它是进行科学研究和数据分析时不可或缺的工具,帮助我们量化统计估计的准确度。

t

t分布

更公正地使用小样本来描述推断总体均值

t分布的发现

戈塞特对于t分布的发现,具体来说,是一个关于如何在只有少量样本数据时估计总体均值的统计问题的解决方案。他注意到,当样本量较小时,样本标准差与总体标准差之间存在较大的不确定性,这影响了基于正态分布的推断的准确性。t分布的发现背后的数学原理和思考过程可以分为以下几个关键步骤:

样本标准差的不确定性

  • 在小样本情况下,样本标准差作为总体标准差的估计具有较高的不确定性。这意味着,使用样本标准差来标准化样本均值(从而计算z得分)会导致推断过程中的误差增大。

寻找适用于小样本的分布

  • 戈塞特通过实验和数学推导寻找一个可以准确描述样本均值分布的概率分布,这个分布需要能够考虑到样本标准差的不确定性。他发现,当样本量较小时,样本均值的分布不再是正态分布,而是一种新的分布——现在被称为t分布。

t分布的特性

  • t分布的形状依赖于自由度(通常为样本大小减1)。对于较小的样本量,t分布比正态分布更加“扁平”(即,在均值附近的概率密度较低,尾部较重)。这意味着,在小样本情况下,t分布提供的置信区间比基于正态分布的置信区间要宽,更加保守,从而更好地反映了实际的不确定性。
  • 随着样本量的增加,t分布逐渐接近正态分布。当样本量足够大时(例如,超过30),t分布和正态分布几乎没有区别,这时可以使用正态分布的方法来进行估计和推断。

数学表达

  • t分布的数学公式表达了戈塞特的这一发现。给定一个样本均值\(\bar{x}\),总体均值\(\mu\),样本标准差\(s\),和样本大小\(n\),t值定义为:

\(\begin{equation}\label{t} t = \frac{\bar{x} - \mu}{s/\sqrt{n}} \end{equation}\)

这个t值随后被用来从t分布表中查找p值或者置信区间,这种方式考虑了样本标准差的不确定性和样本大小。

戈塞特的工作是统计学和实际应用研究的一个重要里程碑,它为小样本数据分析提供了一个强大的工具,至今仍被广泛应用于各个领域。

t分布根据自由度的不同展开为分布簇,每个自由度下的t分布的图形都不一样,有趣的是,自由度越大,t分布的图像就越接近正态分布,可以尝试使用R语言来绘制t分布的图像,代码如下、结果如下

# 载入ggplot2包进行绘图
library(ggplot2)

# 选择展示的自由度值
dfs <- c(1, 5, 10, 20, 30, 40, 50, 100000)

# 创建一个空的数据框来存储t分布数据
df_t_selected <- data.frame(x = numeric(), density = numeric(), df = integer())

# 生成选定自由度的t分布数据
for(df in dfs) {
x <- seq(-4, 4, length.out = 100) # 生成值序列
density <- dt(x, df) # 计算密度
df_t_selected <- rbind(df_t_selected, data.frame(x, density, df = as.factor(df))) # 添加到数据框
}

# 使用ggplot2绘图
ggplot(df_t_selected, aes(x = x, y = density, color = df)) +
geom_line() + # 绘制线条
labs(title = "T Distribution for Selected Degrees of Freedom",
x = "Value",
y = "Density",
color = "Degrees of Freedom") +
theme_minimal() +
scale_color_viridis_d() # 使用viridis颜色方案增强可视化

t分布关于自由度的簇

应用

t检验

为什么标准误差里还要用样本代替总体?

思考:标准误差衡量的是样本统计量是怎么围绕总体参数来展开进行分布的,那又为什么要出现用样本统计量来代替总体这句话呢?

事实上,样本的背后是总体,统计学做的一切都是在为事实服务,标准误差衡量的是对总体进行抽样估计时,抽样产生的统计量对变异程度,换句话说,总体是未知的,样本的说服力很有限,所以在估计时一定添加前提:用样本近似代替总体

引入

你已经明白了统计描述,接下来我们将学习统计学的灵魂——统计推断

统计推断大致可归为两大类:参数估计、假设检验

但………在欣赏绝美风景前,你必须穿进树林同时远离人群,在孤独的山间穿梭,这也是爬山必须经历的一段历练,即使路上风雨再大,无论是否迷路,既然选择了星空和云海,那么我就接受路遥,你会发现,赴约日出的路程越是艰难,看见美景那一刻的意义越是重大,请相信自己,每一次的付出都像是烙印,一次又一次地为行为与结果赋予意义

于是,

掌握统计推断前,还需学习的一些重要概念:

Standard Error of the Mean(标准误差)

必须严格区分:标准误差、样本标准偏差、总体标准偏差

  1. Standard Error of the Mean——标准误差
  2. Sample Standard Deviation——样本标准偏差
  3. Population standard Deviation——总体标准偏差

特别注意

标准误差被定义为:标准误差衡量的是样本均值作为总体均值估计的准确性,更具体地,它告诉我们如果我们从同一总体中重复抽样,得到的样本均值会围绕真实的总体均值变动的程度。

下沉到例子中:

是的,您理解得非常准确。在进行统计推断时,我们使用的确实是样本的标准误差(SE)来衡量样本均值围绕总体均值的离散程度,而不直接使用25个样本的标准差。这里有几个关键点需要区分清楚:

  1. 样本标准差(\(s\):这是衡量样本中各数据点相对于样本均值的离散程度。它基于样本计算,当我们没有总体数据时,它被用来估计总体标准差。

  2. 标准误差(SE):这是样本均值的分布标准差,用来衡量样本均值作为总体均值估计的准确性。它通过样本标准差除以样本量的平方根计算得出,即 \(SE = \frac{s}{\sqrt{n}}\)。标准误差反映的是,如果从同一总体中多次随机抽取相同大小的样本,这些样本均值的分布情况。

当我们讨论“如果给所有可能的参与者使用这种药物,他们焦虑水平降低的标准差是多少”,我们实际上是想估计总体的变异性。但由于我们无法直接知道这个总体参数,因此使用样本数据来进行估计。在这个过程中,样本的标准误差成为了一个关键的统计量,因为它允许我们估计样本均值围绕总体均值的变异性,从而进行置信区间的计算或进行假设检验。

总的来说,样本的标准误差(而不是样本的标准差)用于衡量样本均值作为总体均值估计的离散程度,这对于进行统计推断非常重要。

因为样本的统计量是围绕总体的真实参数来展开进行分布的,标准误差反映了多次抽样产生的统计量是如何围绕总体参数来展开进行分布的

所以:标准误反映的样本统计量在围绕总体而展开分布时的变异程度1

因为是“标准”误差,不同的样本间样本量大小大相径庭,于是将样本的总标准差平等地分配给每一个样本(又计算标准差已经分配过\(\sqrt{n}\)),得到

\[\begin{equation}\label{standard error} SE = \frac{s}{\sqrt{n}} \end{equation}\]

回到问题:将这个公式下沉至各种统计量

于是有,

  1. 样本均值标准误(standard error of the mean)

因总体标准差未知,于是公式为:

\(\begin{equation}\label{standard error1} SE = \frac{s}{\sqrt{n}} \end{equation}\)

(其中 \(s\) 是样本标准差,\(n\) 是样本量)

抽样误差

抽样误差是指从总体中随机选取样本时,样本统计量(如样本均值)与总体参数(如总体均值)之间的差异;而标准误差衡量的是样本统计量(如样本均值)分布的离散程度,反映了该统计量作为总体参数估计的精度。简单来说,抽样误差描述了样本与总体的差异,标准误差描述了统计估计的稳定性。

参数估计


  1. 为什么还要用样本代替总体统计推断的工具池↩︎

引入

问题0

正态分布分布是什么?它是怎么来的?


中心极限定理

结论:一组随机变量满足独立且同分布,且这个共同的分布具有有限的均值和方差,那么无论这些随机变量本身服从何种分布,当随机变量的数量足够多时(通常认为n>30定理成立,但并不绝对),这些随机变量的和(或它们的平均值)的分布将趋向于正态分布

正态分布是中心极限定理的发展

中心极限定理是什么?

例1:

假设你有100万人身高的数据,你定义样本X,样本大小为50,命令1000人每人制作一个样本X,当你收取1000人的样本均数\(X_n\)时,定义变量为\(X_n\),绘制\(X_n\)的频数分布直方图,你会得到一个钟形曲线,也叫高斯曲线

进化

假设你从赌场获得了一批偏心骰子,这个骰子掷出1的概率为50%,掷出2、3、4、5、6的概率都为10%,投掷10次为1组,记录下每次的结果,你命令1000人每人产生一组结果同时计算骰子10次投掷结果的算数均数,把这个算数均数为\(C_n\),定义变量\(C_n\),绘制变量\(C_n\)的频率分布直方图

example 2 of normal distribution

example 1 of normal distribution

目前我的能力限制我无法理解公式的来源,先记住它:

完成上述步骤后,高斯得到了正态分布的密度函数的标准形式:

$ f(x) = e^{-} $

在这里,\(\mu\) 是误差的平均值,\(\sigma^2\) 是方差,它们分别代表了测量误差的中心位置和分布的宽度。

正态分布的3σ(3西格玛)法则,也称为经验法则,是基于正态分布性质的一个规则,它描述了数据点分布在其平均值周围的情况。这个法则是从正态分布的数学性质中直接推导出来的。

正态分布的定义

首先,回顾一下正态分布的数学定义:一个随机变量 \(X\) 如果服从一个均值为 \(\mu\),标准差为 \(\sigma\) 的正态分布,其概率密度函数(PDF)为:

$ f(x) = e^{-} $

3σ法则的来源

正态分布的一个关键特性是其对称性和特定的概率分布形状。3σ法则利用了正态分布的这些性质,具体规则如下:

  • 约68.27%的数据点落在 \(\mu - \sigma\)\(\mu + \sigma\) 之间(即平均值一个标准差内)。
  • 约95.45%的数据点落在 \(\mu - 2\sigma\)\(\mu + 2\sigma\) 之间(即平均值两个标准差内)。
  • 约99.73%的数据点落在 \(\mu - 3\sigma\)\(\mu + 3\sigma\) 之间(即平均值三个标准差内)。

数学推导

3σ法则的数学基础来自于正态分布的积分性质。具体地说,对正态分布的概率密度函数在特定区间内积分,可以得到数据点落在这个区间内的概率。例如,计算随机变量 \(X\) 的值落在 \(\mu - \sigma\)\(\mu + \sigma\) 之间的概率,可以通过下面的积分得到:

$ P(- X + ) = _{- }^{+ } e^{-} dx $

通过对正态分布进行积分,我们可以得到上述的概率值。实际上,这些具体的概率值(68.27%,95.45%,99.73%)来自于正态分布的累积分布函数(CDF),它提供了随机变量取值小于或等于某个值的概率。

但数据的量化需要一个标准,于是标引入准分布,定义变量Z

\(Z = \frac{X - \mu}{\sigma}\)

绘制变量Z的频率直方图,得到标注的正态分布的曲线

Z值表如下(也叫\(\phi或\Phi\),读作fai)

z

正态分布的性质

- 均值:

\(\mu_Z = \mu_X + \mu_Y\)

\(\mu_W = \mu_X - \mu_Y\)

- 方差:

\(\sigma_W^2 = \sigma_X^2 + \sigma_Y^2\)

为什么正态分布中方差只加不减

方差的性质 \(\sigma_W^2 = \sigma_X^2 + \sigma_Y^2\),当考虑两个随机变量 \(X\)\(Y\) 的差 \(W = X - Y\) 时,即使是在它们的差的情况下,方差之和而不是方差之差出现在公式中,这背后的原因与随机变量的独立性和方差的数学性质有关。

独立性

当两个随机变量 \(X\)\(Y\) 独立时,它们之间没有相互影响。这意味着一个变量的变化不会影响另一个变量的分布。因此,当我们计算它们的和或差的方差时,我们只需要考虑每个变量自身的变异性,而不是它们之间的相互作用。

方差的定义

方差衡量随机变量和其均值的偏差的平方的平均值,是衡量随机变量分散程度的度量。方差的计算公式为 \(\sigma^2 = E[(X - \mu)^2]\),其中 \(E\) 表示期望值操作符,\(\mu\) 是随机变量 \(X\) 的均值。

方差的加法性质

对于独立随机变量的和或差,方差的加法性质说明,总的方差是各个随机变量方差的和。数学上,这可以通过方差的定义和随机变量的独立性质推导得出。对于差 \(W = X - Y\),其方差为:

\[\begin{align*} \sigma_W^2 &= \text{Var}(X - Y) \\ &= \text{Var}(X) + \text{Var}(-Y) \\ &= \sigma_X^2 + \text{Var}(-Y) \end{align*}\]

由于 \(\text{Var}(aY) = a^2\text{Var}(Y)\)(这里 \(a = -1\)),我们有:

\[\begin{align*} \text{Var}(-Y) &= (-1)^2\text{Var}(Y) \\ &= \text{Var}(Y) \\ &= \sigma_Y^2 \end{align*}\]

因此,

\(\sigma_W^2 = \sigma_X^2 + \sigma_Y^2\)

这显示了,即使是随机变量的差,其方差也是组成随机变量方差的总和。这是因为方差衡量的是变异性,而变异性在随机变量相加或相减时是累积的,不考虑方向(正或负)。
为什么正态分布中均值有加有减

这是因为随机变量的期望值(均值)具有线性性质。具体来说,随机变量的期望值(或均值)遵循以下规则:

假设 \(X\)\(Y\) 是两个随机变量,且 \(\mu_X\)\(\mu_Y\) 分别是它们的期望值(均值)。如果我们定义一个新的随机变量 \(W = X - Y\),那么 \(W\) 的期望值(均值)是 \(X\)\(Y\) 均值的差,即:

\(E[W] = E[X - Y]\)

根据期望值的线性性质,我们有:

\(E[X - Y] = E[X] - E[Y]\)

这就是说:

\(\mu_W = \mu_X - \mu_Y\)

原因解释:

  1. 期望值的线性性质:这个性质说明,任意两个随机变量 \(X\)\(Y\) 的线性组合的期望值等于各自期望值的相同线性组合。简单来说,就是你可以将期望值的运算“分发”到随机变量的运算中。

  2. 独立与非独立随机变量:值得注意的是,这个性质不依赖于 \(X\)\(Y\) 是否独立。无论 \(X\)\(Y\) 之间的关系如何,\(W = X - Y\) 的期望值都是 \(\mu_X - \mu_Y\)

这个原理是概率论和统计学中的基础概念之一,它在理解随机变量的行为以及它们相互作用的方式中起着关键作用。