常用概率分布-二项分布

结论

二项分布的概率质量函数(即特定成功次数的概率)由下列公式给出:

$ P(X = k) = p^k (1-p)^{n-k} $
公式字母的含义 其中: - \(X\) 是成功的次数; - \(k\) 是特定的成功次数,\(k = 0, 1, 2, \ldots, n\); - \(n\) 是实验的总次数; - \(p\) 是每次实验成功的概率; - \(\binom{n}{k}\) 是组合数,表示从 \(n\) 次实验中选择 \(k\) 次成功的方式数,计算公式为 \(\binom{n}{k} = \frac{n!}{k!(n-k)!}\)
分布类型 描述 均值 (均数) 标准差
二项分布 变量 \(X\) \(n\pi\) \(\sqrt{n\pi(1-\pi)}\)
二项分布的频率 \(p = \frac{X}{n}\) \(\pi\) \(\sqrt{\frac{\pi(1-\pi)}{n}}\)
泊松分布 变量 \(\lambda\) \(\sqrt{\lambda}\)
二项分布概率的标准差是如何转化的?

这个变换基于二项分布的性质以及随机变量比率的性质。我们从基本的均值和标准差公式出发,看看这是如何转换的。

二项分布变量 \(X\) 的均值和标准差

给定一个二项分布变量 \(X\),它的均值和标准差分别是: - 均值 \(E[X] = n\pi\) - 标准差 \(\sigma_X = \sqrt{n\pi(1-\pi)}\)

频率 \(p = \frac{X}{n}\) 的均值和标准差

当我们考虑频率 \(p = \frac{X}{n}\),我们需要理解它的均值和标准差是如何从 \(X\) 的均值和标准差变换来的。

均值的变换

首先,\(p\) 的均值(即期望值)是: \(E[p] = E\left[\frac{X}{n}\right] = \frac{E[X]}{n}\)

由于 \(E[X] = n\pi\),所以: \(E[p] = \frac{n\pi}{n} = \pi\)

这说明,尽管 \(X\) 的期望值随着试验次数 \(n\) 和成功概率 \(\pi\) 的乘积而增加,频率 \(p\) 的期望值只依赖于成功概率 \(\pi\)

标准差的变换

标准差的变换更为复杂。首先,回顾一下标准差的定义。对于任意常数 \(a\) 和随机变量 \(X\),有 \(\sigma_{aX} = |a|\sigma_X\)。因此,对于 \(p = \frac{X}{n}\),我们有:

\(\sigma_p = \sqrt{\text{Var}(p)} = \sqrt{\text{Var}\left(\frac{X}{n}\right)} = \frac{1}{n}\sqrt{\text{Var}(X)}\)

由于 \(\text{Var}(X) = n\pi(1-\pi)\),我们得到:

\(\sigma_p = \frac{1}{n}\sqrt{n\pi(1-\pi)} = \sqrt{\frac{\pi(1-\pi)}{n}}\)

这个变换说明,虽然原始二项分布变量 \(X\) 的分散程度随着 \(n\)\(\pi\) 的变化而变化,但当我们考虑频率 \(p\) 时,其分散程度(标准差)与试验次数 \(n\) 的平方根成反比,反映了大数定律的一个方面:随着试验次数的增加,频率的变异性减小。

总结

通过这些变换,我们可以看到二项分布变量的频率 \(p\) 相对于原始变量 \(X\) 的均值和标准差如何变化,这反映了在大样本极限下,频率稳定于其真实概率的统计性质。

引入

问题0:

袋内里有2黄球,3白球,进行5次摸球,每次摸球都放回,如何计算摸出2个黄球的概率?

为了解释问题0,而需要理解问题1

问题1:

假设你是一位教师,你需要为一场即将到来的科学展览安排4名学生从你的班级中担任展示。你的班级有10名学生,你想知道有多少种不同的方式来选择并排列这4名学生进行展示。

为了解决问题1,你需要理解排列数与组合数这两个关键的概念

但......在这两个部分开始之前,你需要理解什么是阶乘。

请完全信任我的叙述,我为我接下来的话负责,请放轻松,享受概念理解与问题解决的过程..........

前言

\(n!\)(读作“n阶乘”)表示从1乘到n的所有整数的乘积。阶乘是组合数学中一个非常重要的概念,用于计算排列、组合等问题中的可能性数量。具体来说,\(n!\)的定义如下:

\(n! = n \times (n-1) \times (n-2) \times \cdots \times 3 \times 2 \times 1\)

对于\(n = 0\)的特殊情况,按照定义,\(0! = 1\)。这个定义是为了使得阶乘在数学公式和理论中保持一致性,尤其是在组合和排列的计算中。

例子:

  • \(1! = 1\)
  • \(2! = 2 \times 1 = 2\)
  • \(3! = 3 \times 2 \times 1 = 6\)
  • \(4! = 4 \times 3 \times 2 \times 1 = 24\)
  • 以此类推。

阶乘的快速增长性质使得它在计算大量元素的排列组合时非常有用,但也意味着随着n的增大,n的阶乘非常快地变得非常大。

排列数

排列的基本思想

排列关注的是顺序,即从n个不同元素中选取k个并按照一定的顺序排列它们的方法数。比如说,如果有三本书A、B、C,选取两本书并排列它们,AB和BA被视为两种不同的排列。

公式的推导

  1. 第一步的选择:你有n个选项可以选择。
  2. 第二步的选择:在选择了第一个元素之后,你还剩下(n-1)个选项。
  3. 第三步的选择:选择了两个元素后,剩下(n-2)个选项。
  4. 以此类推,直到你选择了k个元素。当你选择到第k个元素时,你只剩下(n-k+1)个选项。

将这些选择的数量相乘,我们得到排列的总数为:

\(n \times (n-1) \times (n-2) \times \cdots \times (n-k+1)\)

这个连乘可以扩展为n的阶乘除以(n-k)的阶乘,因为阶乘包含了所有从n乘到1的乘积,而我们只需要前k个数的乘积。因此,公式可以写为:

\(P(n, k) = \frac{n!}{(n-k)!}\)

这个公式有效地计算了在n个不同选项中选择k个并进行排列的所有可能方式的数量。

为什么需要除以 \((n-k)!\)

在选择过程中,我们只关心前k个选择的乘积,而\(n!\) 包含了从n乘到1的所有乘积。为了剔除我们不需要的部分(即,从\(n-k\)乘到1的部分),我们通过除以\((n-k)!\) 来消除这些多余的乘积。这样,剩下的就仅仅是前k个选择的乘积,正好对应于我们想要计算的排列数。


我们已经知晓在数据库里将n个数据排列的所有可能情况,对排列数的答案进行二次理解:

排列可解读为两个过程:选出目标数据,对目标数据进行乱序重组

对数字进行排列可以理解为两个过程:从数据库里选出哪些数字需要排列-打乱这些数字以便获得所有可能的情况

故:

我们得出组合数的概念:

组合数

组合数的公式 \(C(n, k) = \frac{n!}{k!(n-k)!}\) 是从排列数的概念发展而来的,但加上了对选择顺序不敏感的考虑。要理解这个公式,我们需要先理解排列和组合的区别,然后看看这个公式是如何从排列的概念中演化出来的。

排列与组合的区别

  • 排列(Permutations):是指从n个不同元素中,任取k个元素按照一定的顺序排成一列的过程。排列强调的是顺序,即同样的元素以不同的顺序排列被视为不同的排列。
  • 组合(Combinations):也是从n个不同元素中任取k个元素,但是与排列不同的是,组合不考虑这些元素的顺序。即,只要元素的组合相同,不管顺序如何,都被认为是同一种组合。

公式的来历

  1. 排列的数量:首先,我们考虑所有可能的排列,即从n个不同元素中取出k个来排列的总数,这个数量是 \(P(n, k) = \frac{n!}{(n-k)!}\)。这里,\(n!\) 表示n的所有整数乘积,\((n-k)!\) 是因为我们从n中取出k个,剩下的\(n-k\)个不参与排列。

  2. 引入组合的考虑:组合不考虑顺序。假设我们已经从n个元素中选出了k个,这k个元素自己可以以\(k!\)种不同的方式排列(这就是它们的排列数)。但因为组合不关心这些内部的排列方式,所以实际的组合数要比排列数少。

  3. 组合数的定义:因此,要从排列数转换为组合数,我们需要除以这k个元素的所有可能排列,即除以\(k!\)。这就给出了组合数的公式 \(C(n, k) = \frac{n!}{k!(n-k)!}\)

直观理解

公式的本质是在说:当你从一组n个元素中选择k个元素时,首先你有\(n!\)种方式选择和排列这些元素。但因为在组合中顺序不重要,所以你需要除以两个数: - \(k!\):因为你选择的k个元素可以以\(k!\)种不同方式被排列,但这些排列对于组合来说都是相同的。 - \((n-k)!\):你实际上没有关心剩下的\(n-k\)个元素是如何排列的,所以也需要排除这些情况。

这个公式巧妙地使用了数学原理,允许我们准确计算在不考虑顺序的情况下,从n个不同元素中选择k个元素的方法数。

问题解决

问题0的解决:

摸球可以抽象为以下过程:

摸球事件A:a,b,c,d,e,摸球事件A的成功概率:2/5,失败概率为3/5

求:摸球事件A里,2次成功,3次失败的概率

那么:

由浅入深:

  • 先列举情况1:a成功,b成功,c失败,d失败,e失败
    • 情况1发生的概率为:\(P(a)\times P(b)\times P(c)\times P(b)\times P(d)\times P(e)\)

但,这是一种情况,除此之外还有很多情况,

因为,只要abcde事件的结果满足:其中2次事件成功,3次事件失败,那么就达到了最终摸出2次黄球的目的

所以定义”函数a“为:2次事件成功,3次事件失败

又,函数a又可以抽象为两个步骤:从abcdee事件中抽取2项认为成功,但抽完后你其实已经知道了哪三次事件失败,所以3次事件失败不需要抽取,(当然,你也可以认为在3项事件里抽取3项)

所以:二项分布的公式为 :\(抽取事件可能发生的情况\times n次事件成功的情况 \times m事件失败的情况\)

于是,你终于知道了二项分布公式的来源:

即:

$ P(X=k)=nkpk(1-p){n-k} $

结论

二项分布的概率质量函数(PMF,Probability Mass Function)是用来描述在固定次数 \(n\) 的独立实验中,每次实验只有两种可能结果(成功或失败)且成功的概率为 \(p\) 的情况下,获得成功的次数 \(k\) 的概率。二项分布的公式如下:

\(P(X=k)=\binom nkp^k(1-p)^{n-k}\)

其中: - \(P(X = k)\) 表示在 \(n\) 次独立实验中恰好获得 \(k\) 次成功的概率。 - \(\binom{n}{k}\) 是组合数,表示从 \(n\) 个实验中选择 \(k\) 个成功的方式数,计算公式为 \(\frac{n!}{k!(n-k)!}\),其中 \(n!\) 表示 \(n\) 的阶乘,即 \(1 \times 2 \times \cdots \times n\)。 - \(p\) 是每次实验成功的概率。 - \(1-p\) 是每次实验失败的概率。 - \(k\) 是成功的次数,可以取的值为 \(0, 1, 2, \ldots, n\)

二项分布模型是统计学和概率论中非常重要的一个概率分布,广泛应用于质量控制、临床试验和调查抽样等领域。

外推

问题2:假设有一个骰子,有六面,投掷10次,想要知道1点、2点和3点各出现2次,4点、5点和6点各出现1次的概率。

与二项分布相对应,我们有三项分布(Trinomial Distribution),但更常见的是称为多项分布(Multinomial Distribution),其中三项分布可以看作是多项分布的一个特例。多项分布是二项分布的一个推广,用于描述在固定次数的独立试验中,每次试验有多于两种可能结果的情况,并且每种结果都有固定的概率。

多项分布的核心是事件与事件之间的独立

所以我认为:多项分布可以抽象为以下过程:

  1. 若干事件与若干事件发生的结果:
    1. 事件:A-S-D-F-G-H-J-K-L-P
    2. 事件发生的结果:a-s-d-f-g-h-j-k-l-p
  2. 事件发生的概率:
    1. 跌骰子获得1的概率为1/6
  3. 满足一定条件时,事件结果的概率:
    1. 进行10次骰子事件,2次1,2次5,6次3的概率

只有将事物抽象,才能洞察事物的本质

跌骰子事件一共发生10次,按时间维度将这10个事件标记为:

A-S-D-F-G-H-J-K-L-P

每次事件有六种可能的结果:

1-2-3-4-5-6

要求1:在总事件A-S-D-F-G-H-J-K-L-P中,有2次满足情况a,有2次满足情况b,有3次满足情况c,有3次满足d的概率

抛开条件,总事件会有多少种可能?

因为我对总事件按时间维度标记为A-S-D-F-G-H-J-K-L-P

于是对应地,总事件的结果(result-1)标记为a-s-d-f-g-h-j-k-l-p

回到要求1,要求1可以认为对总事件的结果进行组合,在“a-s-d-f-g-h-j-k-l-p”抽2项记作q事件,抽2项记作w事件,抽3项计作e事件,抽3项计作r事件

问题变为,q事件,w事件,e事件,r事件同时发生时的概率(计作事件X)

q事件发生的概率是:\(\frac 1 6 \times \frac 1 6\)

w事件发生的概率是:\(\frac 1 6 \times \frac 1 6\)

e事件发生的概率是:\(\frac 1 6 \times \frac 1 6\times \frac 1 6\)

r事件发生的概率是:\(\frac 1 6 \times \frac 1 6\times \frac 1 6\)

但............单单求出事件X发生的概率还不能解决问题,因为要求Q转化为事件X时进行了组合,意味着不止一种情况,所以求出事件X的概率后,还需与组合数相乘,才遍历了遵循要求Q后,可能发生的 所有情况

至此,你已经成功明白了多项分布,让我们来尝试使用它

多项分布的定义

假设一个实验有 \(k\) 个可能的结果,每个结果发生的概率分别是 \(p_1, p_2, ..., p_k\),并且 \(\sum_{i=1}^{k}p_i = 1\)。如果我们进行了 \(n\) 次这样的独立实验,那么每种结果分别发生 \(x_1, x_2, ..., x_k\) 次(其中 \(\sum_{i=1}^{k}x_i = n\))的概率由多项分布给出:

\[ P(X_1=x_1, X_2=x_2, ..., X_k=x_k) = \frac{n!}{x_1!x_2!...x_k!}p_1^{x_1}p_2^{x_2}...p_k^{x_k} \]

来道多项分布的题目考考你吧:

题目

一个袋子里有5个红球、3个蓝球和2个绿球,总共10个球。现在不放回地随机抽取4个球。设随机变量\(X\)\(Y\)\(Z\)分别表示抽到的红球、蓝球和绿球的数量。

计算以下概率:

  1. 抽到2个红球,1个蓝球和1个绿球的概率。
  2. 抽到至少1个绿球的概率。

提示:使用多项分布的概率质量函数计算第1问。对于第2问,可以考虑使用补集的概念(即1减去没有抽到绿球的概率)来简化计算。

解题步骤

  1. 对于第1问:首先确定抽取球的概率分布。红球的概率是\(p_1 = \frac{5}{10}\),蓝球的概率是\(p_2 = \frac{3}{10}\),绿球的概率是\(p_3 = \frac{2}{10}\)。然后使用多项分布的公式计算概率。

  2. 对于第2问:计算不抽到绿球的概率,即所有球都是红色或蓝色的概率,然后用1减去这个概率得到至少抽到一个绿球的概率。

我会先帮你计算第1问的概率,然后再计算第2问的。让我们先开始吧!

答案

  1. 抽到2个红球,1个蓝球和1个绿球的概率是0.18。
  2. 抽到至少1个绿球的概率是0.5904。

看看你能不能根据这些步骤来理解多项分布的应用和计算过程!

答案的解释

至少抽到1个绿球可转化为:

在结果abcd中抽取一个结果认为抽到绿球(计作I),其余三中结果随便如何都已经满足情况了(计作U)

但..........题目有一个致命的陷阱:摸完球后不放回,所以以上解决步骤全部失效........

这也让我们明白,多项分布仅仅适用于每次摸球后放回的情况,若每次摸球放回,那么上述的所有解答过程再次生效

应用

多项分布在统计学中非常有用,特别是在处理分类数据时。它广泛应用于市场研究、选举预测、生物信息学以及任何需要预测多种类别结果分布的领域。

多项分布相比于二项分布,提供了更加广泛的视角来观察和分析只有两种结果的试验之外的情形,使得我们能够处理更加复杂的实验数据。


建立模型的方法

把统计模型比作一种“地图”是一个形象而贴切的比喻。就像地图帮助我们理解和导航复杂的地理环境一样,统计模型帮助我们理解数据中的复杂关系和模式,以及预测未来事件或结果。

这里有几个方面,说明了为什么统计模型像是一张地图:

  1. 简化复杂性:地图是现实世界的简化表示,它突出显示重要的特征(如道路、城市、河流)并忽略其他细节。同样,统计模型通过数学表达式和假设简化了现实世界的复杂性,只捕捉关键的数据特征和关系。

  2. 导航和决策:地图帮助我们规划路线和做出旅行决策。类似地,统计模型可以基于现有数据指导我们做出预测和决策,比如预测市场趋势或评估新药物的效果。

  3. 不同的尺度和类型:就像有不同类型的地图(如政治地图、物理地图、街道地图)以及不同的尺度和详细程度,统计模型也有多种类型,每种类型都适用于不同的数据和问题。例如,线性回归模型用于分析连续变量之间的关系,而逻辑回归用于分类问题。

  4. 需要解释:地图需要一定的知识和技能来正确解读。同样,统计模型也需要专业知识来构建、解释和验证。错误的模型或误解模型结果可能导致错误的决策。

  5. 局限性和假设:任何地图都无法完美地捕捉地理实际情况的所有细节,它有其局限性。同样,所有统计模型都建立在特定的假设基础上,这些假设的有效性直接影响模型的准确性和适用性。

通过这个比喻,我们可以更容易地理解统计模型的作用和重要性,以及在使用它们时需要考虑的因素。

要区分一个与统计模型相关的东西是参数还是统计量,你可以依据它们的定义和作用来判断:

参数

  • 定义:参数是用于定义特定统计模型的固有特性,它们是模型的基础组成部分。在模型中,参数通常是理论上的、固定的值,尽管在实际应用中我们可能不知道它们的确切值。
  • 作用:参数描述了总体的特征。在二项分布的例子中,试验的次数 \(n\) 和每次试验成功的概率 \(p\) 是总体的参数,它们定义了整个分布的形状和性质。
  • 特点:参数是抽象的,不直接从数据中获得,而是通过模型来推断。它们通常用于总体的描述,而不是样本。

统计量

  • 定义:统计量是基于样本数据计算得到的值,用于对总体的参数进行估计或描述样本的特征。
  • 作用:统计量用于从样本数据中提取信息,以估计总体的参数或描述样本的特征。例如,样本均值、样本方差和样本标准差是常见的统计量,用来估计总体的均值、方差和标准差。
  • 特点:统计量是具体的,可以直接从数据中计算得出。它们用于样本的描述,或者作为估计总体参数的基础。

判断方法

  • 来源:参数描述总体,是理论上的;统计量基于样本,是实际计算得到的。
  • 目的:参数用于定义模型和描述总体特征;统计量用于从样本中提取信息,以估计参数或描述样本。
  • 表示:在讨论时,参数通常用希腊字母表示(如 \(p\), \(\mu\), \(\sigma^2\)),而统计量则使用罗马字母(如 \(\bar{x}\), \(s^2\), \(s\))。

通过这些判断依据,你可以更清晰地区分统计模型中的元素是参数还是统计量。

建立二项分布的统计模型

二项分布是一种离散概率分布,它描述了在一系列独立的、相同的试验中,每次试验只有两种可能结果(通常称为“成功”和“失败”),成功的次数的概率分布。这种分布的特性使其在统计分析中非常有用,尤其是在进行伯努利试验(即只有两种可能结果的试验)的场景中。

参数

二项分布由两个参数定义:

  • \(n\): 试验的次数,即进行了多少次独立的伯努利试验。
  • \(p\): 单次试验中成功的概率。

给定这两个参数,我们可以使用二项分布来计算在 \(n\) 次试验中恰好有 \(k\) 次成功的概率。这个概率可以通过二项概率公式计算得到:

$ P(X=k)=nkpk(1-p){n-k} $

其中,\(P(X = k)\) 表示恰好有 \(k\) 次成功的概率,\(\binom{n}{k}\) 是组合数,表示从 \(n\) 次试验中选择 \(k\) 次成功的方式数。

统计量

二项分布的统计量主要包括均值(期望值)、方差和标准差。这些统计量提供了二项分布特征的重要信息,比如分布的中心位置(均值)和分布的离散程度(方差和标准差)。以下是它们的计算公式:

  1. 均值(期望值):\(\mu = np\)
    • 二项分布的均值表示在多次试验中成功的平均次数。其中,\(n\) 是试验的总次数,\(p\) 是每次试验成功的概率。
  2. 方差:\(\sigma^2 = np(1-p)\)【定义】
    • 方差衡量的是成功次数在多次试验中的变异程度,即观测值与均值之间的离散程度。这里,\(\sigma^2\) 代表方差,\(n\) 是试验次数,\(p\) 是每次试验成功的概率,\(1-p\) 则是失败的概率。
  3. 标准差:\(\sigma = \sqrt{np(1-p)}\)
    • 标准差是方差的平方根,它提供了一个与原始数据在同一单位下的离散程度测量。二项分布的标准差计算公式是:
  4. 比例的标准误差:\(SE_p = \sqrt{\frac{p(1-p)}{n}}\)

通过这些统计量,我们可以更深入地理解和分析二项分布的性质,如分布的集中趋势和离散程度。这些信息对于数据分析和统计推断非常有用。

标准误差的类型

在统计学中,标准误差(Standard Error,SE)的计算并不仅限于二项分布的情况。标准误差是一个广泛的概念,用于衡量任何统计量(最常见的是样本均值)的估计精确度。标准误差的计算取决于你关注的统计量。以下是几个常见统计量的标准误差的计算方法: 样本均值的标准误差

样本均值的标准误差(SE)是最常见的标准误差类型,用于衡量样本均值作为总体均值估计的可靠性。其计算公式为:

\(SE_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\)

其中: - \(\sigma\) 是总体的标准差, - \(n\) 是样本的大小。

在实际应用中,因为总体标准差 \(\sigma\) 往往是未知的,我们通常用样本标准差 \(s\) 来代替 \(\sigma\),因此公式变为:

\(SE_{\bar{x}} = \frac{s}{\sqrt{n}}\)

比例的标准误差

对于比例(例如,成功的比例),标准误差可以用来衡量样本比例作为总体比例的估计精确度。其计算公式为:

\(SE_p = \sqrt{\frac{p(1-p)}{n}}\)

其中: - \(p\) 是样本比例, - \(n\) 是样本大小。

主要特性

  • 离散性:二项分布是一种离散分布,因为它描述的是发生次数(成功的次数),这是整数。
  • 范围:成功次数 \(k\) 的可能值范围是从 0 到 \(n\)
  • 均值和方差:二项分布的均值(期望值)是 \(np\),方差是 \(np(1-p)\)

应用场景

二项分布适用于很多领域,包括但不限于:

  • 生物学与医学:研究特定治疗效果的有效性,或某种基因出现的频率。
  • 质量控制:产品缺陷率的测量。
  • 市场研究:消费者选择特定产品的概率。
  • 投票行为分析:在一定群体中,支持特定候选人或提案的比率。

举例

假设我们抛一枚公平的硬币(即 \(p = 0.5\))10次,我们想知道正面朝上恰好5次的概率。这可以通过将 \(n=10\)\(p=0.5\)\(k=5\) 代入二项概率公式来计算。

二项分布是统计学中的基础,对于理解和分析只有两个可能结果的试验非常重要。