Frederick

Welcome to my Alter Ego's site!

Dec 27, 2024 - 3 minute read - Comments

概率论模型及小结

记号

如果$n_1+n_2+\cdots+n_r=n$, 则定义$\binom n{n_1,n_2,\ldots,n_r}$为

$$\binom n{n_1,n_2,\cdots,n_r}=\frac{n!}{n_1!n_2!\cdots n_r!}$$

因此,$\binom n{n_1,n_2,\ldots,n_r}$表示把 $n$ 个 不 同 的 元 素 分 成 大 小 分 别 为 $n_1, n_2, \ldots , n_r$的$r$个

不同组的组合数. 例 5e 假设有$n+m$个球,其中$n$个红的,$m$个蓝的,将它们随机排成一排,即所$(n+m)!$种排列都是等可能的. 如果只记录连续排列的球的颜色,证明各种可能的结果概率是一样的. 解 我们将$(n+m$)个球的次序排列称为一组球的排列,将 $n+m$ 个球的颜色次序排称为一组球的颜色次序排列. 球的排列共有($n+m$)!种,在红球之间作任何一个位于换,在蓝球之间作任何一个位置置换,置换的结果并不影响球的颜色次序排列. 从而组球的颜色次序排列,对应于$n!m!$个球的排列,这说明球的次序排列也是等可能的且每一种颜色次序出现的概率为$n!m!/(n+m)!.$

多项式定理

$$(x_{1}+x_{2}+\cdots+x_{r})^{n}=\sum_{\begin{array}{c}(n_{1},\cdots,n_{r}):\\n_{1}+\cdots+n_{r}=n\end{array}}\binom{n}{n_{1},n_{2},\cdots,n_{r}}x_{1}^{n_{1}}x_{2}^{n_{2}}\cdots x_{r}^{n_{r}}$$

上式的求和号是对满足 $n_1+n_2+\cdotp\cdotp\cdotp\cdotp+n_r=n$ 的所有非负整数向量($n_1,n_2,\cdotp\cdotp\cdotp,n_r)$求和.

命题 6.1 共有$\binom{n-1}{r-1}$个不同的正整数向量$(x_1,x_2,\cdots,x_r)$满足 为了得到非负整数解(而不是正整数解)的个数,注意,$x_1+x_2+\cdots+x_r=n$的非负整数解个数与$y_1+y_2+\cdotp\cdotp\cdotp+y_r=n+r$的正整数解个数是相同的(令$y_i= x_i+ 1$, $i= 1$, $\cdots$, $r) .$ 因此,利用命题 6.1,可得到如下命题。

生日问题

如果房间里有$n$个人,那么没有两人的生日是同一天的概率是多大?当$n$多大 时,才能保证此概率小于1/2? 解 每个人的生日都有 365 种可能,所以$n$个人一共是 365" 种可能(此处忽略有人生日是 2月 29 日的可能性). 假定每种结果的可能性都是一样的,那么所求事件的概率为$365\times364\times363\times\cdots\times(365-n+1)/365^n.$令人惊奇的是,一旦$n\geqslant23$,这个概率就比1/2要小. 即房间里人数如果超过 23 的话,那么至少有两人为同一天生日的概率就大于 1/2. 很多人一开始对这个结果很吃惊,因为 23 相对于一年 365 天来说太小了.然而,对每两个人来说,生日相同的概率为$\frac{365\cdot\tilde{}}{(365)^2}=\frac1{365}$,23个人一共可以组成$\binom{23}2=253$ 对,这样来看上述结果似乎就不再令人吃惊了.

配对问题

假设有 N 位男士参加舞会,所有人都将帽子扔到房间中央混在一 起,然后每人再随机拿一顶帽子.所有人都没有拿到自己帽子的概率是多少? 解 先计算至少有一人拿到自己的帽子的概率.令$E_i(i=1,2,…,N)$表示事件“第$i$ 人拿到了自己的帽子”.这样,由命题 4.4,至少有一人拿到了自己的帽子的概率为:

$$P\Big(\bigcup_{i=1}^{N}E_{i}\Big)\:=\sum_{i=1}^{N}P(E_{i})-\sum_{i_{1}如果把试验结果看成是一个$N$维向量,其中第$i$个元素是第$i$个人拿到的帽子编号,那么一共有 N! 种可能的结果.「如结果(1,2,3,…,N)表示每人拿到的都是自己的帽子.] 进一步,$E_{i_1}E_{i_2}\cdots E_{i_n}$表示$i_1,i_2,\cdots,i_n$ 这$n$ 个人拿到的是自己的帽子,这种可能的方式会有($N-n)(N-n-1)\cdots3\bullet2\bullet1=(N-n)!$种,因为剩下的$N-n$个人,第一个人有$N-n$种选择方法,第二人有$N-n-1$种选择方法,以此类推.由假定知$N$个人的$N!$种选择都是等可能的,因此

$$P(E_{i_1}E_{i_2}\cdots E_{i_n})=\frac{(N-n)!}{N!}$$

${\text{又因为}\sum_{i_{1}<i_{2}<\cdots<i_{n}}P\left(E_{i_{1}}E_{i_{2}}\cdots E_{i_{n}}\right)}$一共含有${\binom Nn}$项,所以

$$\sum_{i_1将上式代人 $P\Big(\bigcup_i=1^nE_i\Big)$的公式,得

$$P\Big(\bigcup\limits_{i=1}^NE_i\Big)\:=\:1-\frac{1}{2!}+\frac{1}{3!}-\cdots+(-1)^{N+1}\:\frac{1}{N!}$$

因此,没有一人拿到自己帽子的概率为

$$1-1+\frac{1}{2!}-\frac{1}{3!}+\cdots+(-1)^N\frac{1}{N!}=\sum_{i=0}^N(-1)^i/i!$$

当$N$足够大时,上式右端的值约等于 e$^{-1}\approx0.3679$,这可以由令等式$\mathrm{e}^x=\sum_{i=0}x^i/i!$中$x=$ -1得出.即当$N$很大时,没有一个人拿到自己帽子的概率接近 0.37.(有多少读者会错 冒 误地认为随着 $N\to\infty$时,此概率值会趋近 1?)

那么$N$个人中刚好有$k$个人配对成功的概率是多少呢? 解 让我们先考虑固定$k$个人配对成功的情况,即确定这$k$个人全配对成功而其他人都没有配对的概率. 设$E$表示这$k$个人都拿到自己帽子的事件,$G$表示剩下的$N-k$个人都没有拿到自己帽子的事件,我们有

$$P(EG)=P(E)P(G|E)$$

现在,令$F_i(i=1,\cdots,k)$表示第$i$个成员刚好配对成功,那么,

$$\begin{aligned}P(E)&=P(F_{1}F_{2}\cdotp\cdotp\cdotp F_{k})\:=P(F_{1})P(F_{2}\mid F_{1})P(F_{3}\mid F_{1}F_{2})\cdotp\cdotp\cdotp P(F_{k}\mid F_{1}\cdotp\cdotp\cdotp F_{k-1})\\&=\frac{1}{N}\frac{1}{N-1}\frac{1}{N-2}\cdotp\cdotp\cdotp\frac{1}{N-k+1}=\frac{(N-k)!}{N!}\end{aligned}$$

假设这$k$个人都配对好了正确的帽子,剩下的$N-k$个人随机地从另外$N-k$顶帽子中选择。那么$N-k$人中没有一个人配对成功的概率等于这$N-k$个人在这$N-k$顶帽子选择时没有配对.因此

$$P(G\:|\:E\:)\:=\:P_{N-k}\:=\:\sum_{i=0}^{N-k}(-\:1)^i/i\:!$$

表明只有$k$个人配对成功的概率为

$$P(EG)=\frac{(N-k)!}{N!}P_{N-k}$$

由于上面的结果对于$N$个人中的任意$k$个人适用,因此

$P($刚好反个配对成功$)=P_N-k/k!\approx\mathrm{e}^{-1}/k!$当$N$很大时

  • 最后一个式子成立因为取N=k,“刚好k”是有k人拿到帽子,N-k人没拿到帽子

用条件概率解决配对问题

(a)令$E$表示“没有配对”这一事件,它显然与$n$有关,因此可记$P_n=P(E).$以第 一个人是否选中自己的帽子(分别记为$M$ 和$M^{\circ}$)为条件,有

$$P_n=P(E)=P(E|M)P(M)+P(E|M^c)P(M^c)$$

显然 $P(E\mid M)=0$,因此

(5.9)

$$P_n=P(E|M^c)\:\frac{n-1}{n}$$

现在,$P(E|M^{\epsilon})$是在已知 $n-1$ 个人中有一个特殊的人(此人的帽子已被第一人选走)必定

选不到自己帽子的条件下,这$n-1$个人选$n-1$顶帽子没有配对的概率.此处有两种互不相容的选取方式:该特殊的人没有选中第一人的帽子且其余的人中也没有配对;该特殊的人选中了第一人的帽子,且其余的人中也没有配对. 前者的概率正是$P_{{n-1}}$,此时可把该特殊的人理解成第一人,而后者的概率为[1/(n-1)]$P{n-2}$,我们有

于是由式(5.9)可得

$$P(E\:|\:M^c)\:=\:P_{n-1}+\frac{1}{n-1}P_{n-2}$$

$$P_n=\frac{n-1}nP_{n-1}+\frac1nP_{n-2}$$

或等价地,

(5.10)

$$P_n-P_{n-1}=-\frac{1}{n}(P_{n-1}-P_{n-2})$$

但是,由于$P_{\mathrm{n}}$表示$n$个人在他们的帽子中任选一顶没有配对的概率,我们有

$$P_1\:=\:0\quad P_2\:=\:\frac12$$

从而由式(5.10)可得

$$P_3-P_2=-\frac{P_2-P_1}{3}=-\frac{1}{3!}\quad\text{或}\quad P_3=\frac{1}{2!}-\frac{1}{3!}$$

$$P_4-P_3=-\frac{P_3-P_2}{4}=\frac{1}{4!}\quad\text{或}\quad P_4=\frac{1}{2!}-\frac{1}{3!}+\frac{1}{4!}$$

一般地,我们有

$$P_n=\frac1{2!}-\frac1{3!}+\frac1{4!}-\cdots+\frac{(-1)^n}{n!}$$

(b)为了计算正好有$k$ 个配对的概率,先考虑固定的某$k$个人,他们且只有他们选中自 己的帽子的概率为

$$\frac1n\frac1{n-1}\cdotp\cdotp\cdotp\frac1{n-(k-1)}P_{n-k}=\frac{(n-k)!}{n!}P_{n-k}$$

其中$P_{n-k}$是已知$k$ 个人选中自己的帽子,其余 $n-k$ 个人在他们自己的 $n-k$ 顶帽子中选取 而没有配对的条件概率,再因这$k$个人有$\binom nk$种选法,故正好有k个配对的概率为

$$\frac{P_{n-k}}{k!}=\frac{\frac{1}{2!}-\frac{1}{3!}+\cdots+\frac{(-1)^{n-k}}{(n-k)!}}{k!}$$

夫妇围圈坐一起问题

10 对夫妇坐成一圈,计算所有的妻子都不坐在她丈夫旁边的概率. 解 令$E_i(i=1,2,\cdots,10)$表示第$i$ 对夫妇坐在一起,因此,所求概率为 1$-P(\bigcup_{i=1}E_i)$ 由命题 4.4,

$$P\Big(\bigcup_{i=1}^{10}E_i\Big)\:=\:\sum_{i=1}^{10}P(E_i)-\cdots+(-1)^{n+1}\sum_{i_1 为了计算$P(E_{i_1}E_{i_2}\cdots E_{i_n}$),先注意到 20 个人坐成一圈,一共有 19! 种可能的方式. (为什么?)对于指定的$n$对夫妇,在排位时,使这$n$对夫妇坐在一起的方法数是:先把每一对夫妇看成一个整体,这样,排位时,一共有 20$-n$个对象,在圆桌上一共有(20-n-1)! 种排位的方法. 当排位确定以后,这$n$对夫妇之间又有排位问题,是男左女右还是男右女左,于是一共有 2$^n(19-n)!$种排位方法.因此我们得到

$$P(E_{i_1}E_{i_2}\cdots E_{i_n})=\frac{2^n(19-n)!}{(19)!}$$

再由命题 4.4,可以得到至少有一对夫妇是坐在一起的概率为

$$\binom{10}{1}2^1\:\frac{(18)!}{(19)!}-\binom{10}{2}2^2\:\frac{(17)!}{(19)!}+\binom{10}{3}2^3\:\frac{(16)!}{(19)!}-\cdots-\binom{10}{10}2^{10}\:\frac{9!}{(19)!}\approx0.6605$$

这样,所有的妻子都不坐在她丈夫旁边的概率大约为 0.3395.

  • 对于此类“没有”问题,可以先算“至少概率”

游程问题

假设某个赛季过后,田径队的成绩为$n$次赢$m$次输. 通过研究这个赢和输的序列,希望得到更多关于田径队的潜力的信息.一种办法是研究赢和输的游程的规律。所谓赢的一个游程就是指赢的连续序列.例如,如果$n=10,m=6$,这个序列为WWLLWWWLWLLLWWWW,其中 W为赢,L为输,那么这里有4个赢的游程,第一个游程的大小为2,第二个游程的大小为3,第三个游程的大小为1,第四个游程的大小为4. 现在假定这个球队有$n$次赢,$m$次输. 假定所有的($n+m)!/(n!m!)=\binom{n+m}n$种次序是等可能的,我们希望求出球队输赢的序列具有$r$个游程的概率.为此,考虑满足条件$x_1+\cdotp\cdotp\cdotp+x_r=n$ 的正整数解$x_1,\cdotp\cdotp\cdotp,x_r$所组成的向量. 现在我们观察,有多少个输赢序列满足如下条件:(i)具有$r$个游程,(ii)第一个游程的大小为$x_1,\cdots$,第$r$个游程的大小为$x_r.$为此,我们令$y_1$为第一个赢的游程以前输的次数,$y_2$为第一个赢的游程与第二个赢$的游程之间输的次数,…,y_{r+1}为最后一个赢的游程后面输的次数,那么这些 y_i 满足$ $y_1+ y_2+ \cdots + y_{r+ 1}= m$ $y_1\geqslant 0, y_{r+ 1}\geqslant 0, y_i> 0, i= 2, \cdots , r$ 这些$x_i,y_i$与相应的序列可以形象地表示为

因此,对于固定的$x_1,…,x_t$,相应的输序列的个数为向量( $y_1,…,y_{r+1}$)的个数,其中 $y_1,\ldots,y_{r+1}$满足前面所提到的约束条件.为了进一步计算输序列的个数,令

$$\overline{y}_1=y_1+1,\quad\overline{y}_i=y_i,i=2,\cdots,r,\quad\overline{y}_{r+1}=y_{r+1}+1$$

输序列的个数变成满足下列条件

$$\overline{y}_1+\overline{y}_2+\cdots+\overline{y}_{r+1}=m+2$$

的正整数向量($\overline{y}1,…,\overline{y}{r+1}$)的个数. 根据第 l 章的命题 6.1,这个方程的正整数解的个数

为$\binom{m+1}r$,这样,具有 $r$ 个游程的输赢序列的个数为$\binom{m+1}r$乘以$x_1+\cdots+x_r=n$ 的正整数解的个数. 再次利用第 l 章的命题 6.1,可知具有$r$个赢的游程的输赢序列的个数为 $\binom{m+1}r\binom{n-1}{r-1}.$ 由于我们假定$\binom{n+m}n$个输赢序列是等可能的,故

$P(${赢的游程的个数为 }$r} ) = \binom m{+ }1r\binom {n- 1}{r- 1}/ \binom {m+ n}n$ $r\geqslant 1$

  • 用方程组解游程问题,列方程组可以参考插序问题

例 5c 设有一个独立重复试验序列,每次试验成功的概率为 p,失败的概率为 $q=1$一 $p.$ 计算长度为 $n$ 的成功游程先于长度为$m$ 的失败游程出现的概率. 解 记$E$为事件“长度为 $n$ 的成功游程先于长度为 $m$ 的失败游程出现”.以第一次试验 结果为条件,得到

(5.2)

$$P(E)=pP(E\mid H)+qP(E\mid H^{\circ})$$

其中 $H$ 表示第一次试验成功. 现在假定第一次试验成功,为了使得长度为$n$的成功游程先出现,我们希望接着$n-1$ 次试验均成功. 现在令$F$表示事件“第 2 次到第$n$次试验均成功”.以$F$为条件,我们得到

$$P(E\:|\:H)=P(E\:|\:FH)P(F\:|\:H)+P(E\:|\:F^{c}H)P(F^{c}\:|\:H)$$

(5.3) 一方面,显然,$P(E|FH)=1$.另一方面,若$F^\mathrm{c}H$发生,则说明第一次试验成功,但在后面的$n-1$次试验中,至少有一次试验失败.然而,当失败发生时,前面的成功已经失去作用,试验相当于从失败开始,因此

$$P(E|F^{\mathrm{c}}H)=P(E|H^{\mathrm{c}})$$

(5.4)

由试验的相互独立性,可知$F$和$H$是独立的,即$P(F|H)=P(F)=p^{n-1}$,因此,由式(5.3) 可知,

$$P(E|H)=p^{n-1}+(1-p^{n-1})P(E|H^{c})$$

用类似的方法可以得到$P(E|H^{\circ}$)的表达式.即,令$G$表示事件“第 2 次试验直到第$m$ 次试验均失败”. 于是 (5.5)

$$P(E\big|H^{\circ})=P(E\big|GH^{\circ})P(G\big|H^{\circ})+P(E\big|G^{\circ}H^{\circ})P(G^{\circ}\big|H^{\circ})$$

$GH^{\mathrm{c}}$表示前$m$次试验均失败,故$P(E|GH^{\mathrm{c}})=0.$当$G^{\mathrm{c}}H^{\mathrm{c}}$发生时,则说明第一次试验失败,但在后面的$m-1$次试验中,至少有一次试验成功.因此,这次成功使得所有以前的失败已经失去作用,相当于从成功开始,即

$$P(E|G^cH^c)=P(E|H)$$

又因为$P(G^{\mathrm{c}}\mid H^{\mathrm{c}})=P(G^{\mathrm{c}})=1-q^{m-1}$,所以由式(5.5)可得

$$P(E|H^{\mathrm{c}})=(1-q^{m-1})P(E|H)$$

(5.6)

求解方程(5.4)和方程(5.6)可得

$$P(E\mid H)=\frac{p^{n-1}}{p^{n-1}+q^{m-1}-p^{n-1}q^{m-1}}$$

$$P(E\mid H^{\mathrm{c}})=\frac{(1-q^{m-1})p^{n-1}}{p^{n-1}+.q^{m-1}-p^{n-1}q^{m-1}}$$

最后得到

(5.7)

$$\begin{aligned}P(E)&=\:pP\left(E\left|H\right.\right)+qP\left(E\left|H^{c}\right.\right)=\frac{p^{n}+qp^{n-1}\left(1-q^{m-1}\right)}{p^{n-1}+q^{m-1}-p^{n-1}q^{m-1}}\\&=\frac{p^{n-1}\left(1-q^{m}\right)}{p^{n-1}+q^{m-1}-p^{n-1}q^{m-1}}\\\end{aligned}$$

有趣的是,注意到问题的对称性,可知长度为$m$的失败游程先于长度为$n$的成功游程 出现的概率也可用式(5.7)进行计算,不过公式中$m$和$n$对换,$p$和$q$对换 $P({$长度为 $m$ 的失败游程先于长度为$n$ 的成功游程出现})

$$=\frac{q^{m-1}\left(1-p^n\right)}{q^{m-1}+p^{n-1}-q^{m-1}p^{n-1}}$$

(5.8)

因为式(5.7)和式(5.8)之和为 1,所以长度为$n$的成功游程和长度为$m$的失败游程终有一 个会出现. 作为式(5.7)的一个具体例子,我们注意,在掷一枚均匀的硬币试验中,长度为2 的正面游程先于长度为 3 的反面游程出现的概率为 7/10. 长度为 2 的正面游程先于长度为 4 的反面游程出现的概率为5/6. 冒

一个事件出现在另外一个事件之前

进行独立重复试验,每次试验为掷两枚均匀的骰子,每次试验的结果是两枚骰 子点数之和,那么“和为 5”出现在“和为 7”之前的概率是多少? 解 令$E_n$表示事件“前$n-1$次试验中,结果 5 和 7 都不出现,而第$n$次试验出现 5”, 那么所求概率为

$$P\Big(\bigcup_{n=1}^\infty E_n\Big)\:=\:\sum_{n=1}^\infty P(E_n)$$

因为任一次试验中,$P(\langle$和为 5})=4/36,且$P({$和为 7}))=6/36,这样,利用试验的独立 性可以得到

$$P(E_n)=\left(1-\frac{10}{36}\right)^{n-1}\times\frac{4}{36}$$

因此,

$$P\Big(\bigcup_{n=1}^\infty E_n\Big)\:=\:\frac{1}{9}\sum_{n=1}^\infty\Big(\frac{13}{18}\Big)^{n-1}\:=\:\frac{1}{9}\times\frac{1}{1-13/18}=\frac{2}{5}$$

该结果还可以利用条件概率得到.令$E$ 表示事件“和为 5 出现在和为 7 之前”,那么以首次试验结果为条件也可得到所求概率,方法如下:令$F$ 表示事件“第一次试验中骰子的点数之和为5”,$G$表示事件“第一次试验中骰子的点数之和为7”,$H$表示事件“第一次试验中骰子的点数之和既不是5 也不是 7”. 利用全概率公式,有

$$P(E)=P(E|F)P(F)+P(E|G)P(G)+P(E|H)P(H)$$

然而,

$$P(E\:|\:F)=1\quad P(E\:|\:G)=0\quad P(E\:|\:H)=P(E)$$

前两个等式是显而易见的,第三个等式是因为:第一次结果既不是 5,又不是 7,那么这种情况下又相当于试验重新开始了.也就是说,试验者将要连续扔两枚骰子直到两枚骰子的点数之和为5或者 7.另一方面,每次试验都是独立的,因此,第一次试验的结果不会对接下来的试验有影响.因为$P(F)=4/36,P(G)=6/36,P(H)=26/36$,所以

$$P(E)=\frac19+P(E)\:\frac{13}{18}$$
  • 第一次出现5+第一次不出现5和7,重新开始

或者

$$P(E)=\frac25$$

读者可能会发现答案很直观,因为既然 5出现的概率为 4/36 而 7 出现的概率为 6/36, 那么直观地看,5出现在7之前的比例为4ः6,因此概率就为 4/10,事实上的确如此. 这说明了如果$E$和$F$是一次试验中的两个互不相容事件,那么在连续试验时,事件$E$ 在事件$F$之前发生的概率为

$$\frac{P(E)}{P(E)+P(F)}$$

优惠券问题

有$n$种类型的优惠券,某人收集到第$i$种优惠券的概率为$p_i,\sum p_i=1.$假定各种券的收集是相互独立的.假设这个人收集了k张优惠券,令$A_i$ 表示事件“其中至少有一张第$i$种优惠券”,对于$i\neq j$,计算 (a)$P(A_{i});($b$)P(A_{i}\cup A_{j});($c$)P(A_{i}\mid A_{j})$ (a)同(b)类似 $\begin{aligned}P(A_{i}\bigcup A_{j})&=1-P\left((A_{i}\bigcup A_{j})^{\mathrm{c}}\right)\&=1-P(\langle\text{既没有第 }i\text{ 种优惠券},\text{也没有第 }j\text{ 种优惠券}\rangle)\&=1-(1-p_i-p_j)^k\end{aligned}$ 为了计算$P(A_i\mid A_j)$,我们利用等式

$$P(A_i\cup A_j)=P(A_i)+P(A_j)-P(A_iA_j)$$

其中,利用(a)和(b),可以得到

$$P(A_{i}A_{j})=1-(1-p_{i})^{k}+1-(1-p_{j})^{k}-[1-(1-p_{i}-p_{j})^{k}]\\=1-(1-p_{i})^{k}-(1-p_{j})^{k}+(1-p_{i}-p_{j})^{k}$$

这样,

$$P(A_i\:|\:A_j\:)=\frac{P(A_iA_j)}{P(A_j\:)}=\frac{1-(1-p_i)^k-(1-p_j)^k+(1-p_i-p_j)^k}{1-(1-p_j)^k}$$

收集完N种优惠券时优惠券总张数n

  • 先计算前n张优惠券中没有收集完N种优惠券的概率

设想有 N 种不同的优惠券,某人每次收集一张,且每种优惠券都以相同的可能性被收集到,并假定各次收集是相互独立的. 假设某人想收集全一套 N 种优惠券,那么他所收集到的优惠券的总张数是一个随机变量,记为$T.$在计算$P\langle T=n\rangle$,我们先考虑$T$ 大于$n$的概率. 为此,先固定$n$,并且分别定义事件$A_1,A_2,\cdots,A_N$,其中$A_j(j=1,\cdots$, $N$)表示“前$n$张优惠券里没有第$j$种优惠券”.于是

$$\begin{aligned}P\{T>n\}&=P\Big(\bigcup_{j=1}^{N}A_{j}\Big)\:=\:\sum_{j}P(A_{j})\:-\:\sum_{j_{1}现在,当前$n$张优惠券里没有第$j$种优惠券时,$A_j$发生.由于每张优惠券不属于第$j$种的 概率为($N-1)/N$,利用各次收集结果相互独立的假设可得

$$P(A_j)=\left(\frac{N-1}{N}\right)^n$$

而当前$n$张优惠券里既没有第$j_\text{1}$种优惠券,也没有第$j_2$种优惠券时,$A_{j_1}A_{j_2}$发生,因此, 再次利用独立性,得到

$$P(A_{j_1}A_{j_2})=\left(\frac{N-2}{N}\right)^n$$

类似地,可以得到

$$P(A_{j_1}A_{j_2}\cdots A_{j_k})\:=\:\left(\frac{N-k}{N}\right)^n$$

这样,对于$n>0$,我们有

$$P\{\:T>n\}=\:N\Big(\frac{N-1}{N}\Big)^{n}-\binom{N}{2}\Big(\frac{N-2}{N}\Big)^{n}+\binom{N}{3}\Big(\frac{N-3}{N}\Big)^{n}-\cdots\\+(-1)^N\binom N{N-1}\left(\frac1N\right)^n=\sum_{i=1}^{N-1}\binom Ni\left(\frac{N-i}N\right)^n(-1)^{i+1}$$

(1.1)

$T$等于$n$的概率可利用式(1.1)和下式得到

$$P\langle T>n-1\rangle=P\langle T=n\rangle+P\langle T>n\rangle $$

或,等价地

$$P\{T=n\}=P\{T>n-1\}-P\{T>n\}$$

点数问题

假设在独立重复试验中,每次成功的概率为$p$,失败的概率为 1-p. 在$m$次失败之前已有$n$次成功的概率是多大?设想$A$和$B$进行这样的赌博:当试验成功时,A得1分,试验失败时,B得1分,如果$A$先得到$n$ 分,那么A获胜,如果 $B$ 先得到$m$分,那么$B$获胜,所求概率就是 A 获胜的概率. 解 以下将给出两种解答. 第一种是帕斯卡给出的,第二种是费马给出的. 令$P_{n,m}$表示在$m$次失败之前已经出现了$n$次成功,以第一次的结果为条件,可得

$$P_{n,m}\:=\:pP_{n-1,m}+(\:1-p\:)P_{n,m-1}\:,\quad n\geqslant1\:,m\geqslant1$$

(为什么?给出理由.)利用很明显的边界条件$P_{n,0}=0,P_{0,m}=1$,该等式能解出$P_n.m.$求解 $P_{n,m}$的细节非常枯燥,现在来看看费马的解答. 费马论证了,要使得$n$次成功出现在$m$次失败之前,那么在前$m+n-1$次试验中,至少有$n$次成功.(即使在第$m+n-1$次试验之前,赌博就结束了,我们仍可以假设剩下的试验继续进行.)事实上,如果在前$m+n-1$次试验中至少有$n$次成功,那么至多有$m-1$ 次失败,因此$n$次成功必然出现在$m$次失败之前.另一方面,如果$m+n-1$次试验中不超过$n$ 次成功,那么至少有 $m$ 次失败,因此,$n$ 次成功不会出现在$m$ 次失败之前. 因此,如例 4f 所示,$m+n-1$次试验中恰好有 k 次成功的概率为

$$\binom{m+n-1}kp^k\left(1-p\right)^{m+n-1-k}$$

我们可得所求的$n$次成功出现在$m$次失败之前的概率为

$$P_{n,m}=\sum_{k=n}^{m+n-1}\binom{m+n-1}kp^k(1-p)^{m+n-1-k}$$
  • 在m+n-1前至少有n次成功,求和

如果我们定义 $Q(E)=P(E|F)$,那么根据命题 5.1,$Q(E)$可认为是关于 S 中事件的概 率函数。因此,前面证明的关于概率的命题它都满足.例如,我们有

$$Q(E_1\:\bigcup\:E_2)=Q(E_1)+Q(E_2)-Q(E_1E_2)$$

或者等价地,

$$P(E_1\:\bigcup\:E_2\:|\:F)\:=\:P(E_1\:|\:F)+P(E_2\:|\:F)-P(E_1E_2\:|\:F)$$

而且,如果我们定义条件概率$Q(E_1\mid E_2$)为$Q(E_1\mid E_2)=Q(E_1E_2)/Q(E_2)$,那么根据式(3.1)

可得

$$Q(E_1)=Q(E_1\mid E_2)Q(E_2)+Q(E_1\mid E_2^c)Q(E_2^c)$$

(5.1)

由于

$$Q(E_1\mid E_2)=\frac{Q(E_1E_2)}{Q(E_2)}=\frac{P(E_1E_2\mid F)}{P(E_2\mid F)}=\frac{P(E_1E_2F)/P(F)}{P(E_2F)/P(F)}=P(E_1\mid E_2F)$$

所以式(5.1)等价于

$$P(E_1\mid F)=P(E_1\mid E_2F)P(E_2\mid F)+P(E_1\mid E_2^cF)P(E_2^c\mid F)$$

例 5e拉普拉斯继承准则·一个盒子中有$k+1$枚不均匀的硬币,抛掷第$i$枚硬币时, 其正面朝上的概率为$i/k,i=0,1,…,k.$从盒子中随机取出一枚硬币,并重复地抛掷, 如果前$n$次抛掷结果都为正面朝上,那么第$n+1$次结果仍为正面朝上的概率是多少? 解 令$C_i(i=0,1,\cdots,k)$表示开始取出的是第$i$ 枚硬币这一事件,$F_n$ 表示前 $n$ 次结 果都为正面朝上,$H$表示第$n+1$次抛掷正面朝上. 所求概率$P(H|F_n)$为:

$$P(H\mid F_n)=\sum_{i=0}^kP(H\mid F_nC_i)P(C_i\mid F_n)$$

现在,已知取出的是第$i$枚硬币,假设各次抛掷的结果条件独立是合理的,每次出现 正面朝上的概率为$i/k.$ 于是有

$$P(H\mid F_nC_i)=P(H\mid C_i)=\frac{i}{k}$$

而且,

$$P(C_{i}\mid F_{n})=\frac{P(C_{i}F_{n})}{P(F_{n})}=\frac{P(F_{n}\mid C_{i})P(C_{i})}{\sum_{j=0}^{k}P(F_{n}\mid C_{j})P(C_{j})}=\frac{(i/k)^{n}\bigl[1/(k+1)\bigr]}{\sum_{j=0}^{k}(j/k)^{n}\bigl[1/(k+1)\bigr]}$$

因此

$$P(H\mid F_n)=\frac{\sum_{i=0}^k(i/k)^{n+1}}{\sum_{j=0}^k(j/k)^n}$$

但当k很大时,可利用积分近似

$$\frac{1}{k}\sum_{i=0}^{k}\left(\frac{i}{k}\right)^{n+1}\approx\int_{0}^{1}x^{n+1}\:\mathrm{d}x=\frac{1}{n+2}$$

$$\frac1k\sum_{j=0}^k\left(\frac jk\right)^n\approx\int_0^1x^n\mathrm{d}x=\frac1{n+1}$$

故对很大的$k$ 有

$$P(H\mid F_n)\approx\frac{n+1}{n+2}$$

无放回取出球中标号最大

一个坛子内装有标号为 1~20 的 20 个球,随机无放回地取出 4 个球. 如果$X$ 表示取出的球中标号最大的,则$X$是一个取值可能为 4,5, …, 20 的随机变量. 因为从 20个球中取出 4 个的任意组合$\left(\text{共有}\binom{20}4\text{种}\right)$的概率是相同的,所以 $X$ 取值为 $i$ 的概率为:

$$P\{X=i\}=\frac{\binom{i-1}{3}}{\binom{20}{4}}\quad i=4,\cdotp\cdotp\cdotp,20$$

求期望最大化

例 4b 某种季节性销售的产品,如果每卖出一件商品,可获得纯利润$b$元,如果季节末仍未卖出,则每件商品将损失$\iota$元.设某百货商店在某个季节的销售量(即卖出商品的件数)是一个随机变量,其分布列为 $p( i) , i\geqslant 0.$ 商店需要在销售旺季前囤货,请问它要囤多少件才能使得期望利润最大化 解 令$X$表示季节销售量,若囤货数量为 s,销售利润记为$P(s),P(s)$可表示为

$$\begin{aligned}P(s)&=bX-(s-X)l&&\text{若 }X\leqslant s\\&=sb&&\text{若 }X>s\end{aligned}$$

因此,期望利润为

$$\begin{aligned}&E[P(s)]&&=\sum_{i=0}^{s}\bigl[bi-(s-i)l\bigr]p(i)+\sum_{i=i+1}^{\infty}s\:bp\left(i\right)\\&&&=(b+l)\sum_{i=0}^{s}ip\left(i\right)-sl\sum_{i=0}^{s}p\left(i\right)+sb\left[1-\sum_{i=0}^{s}p\left(i\right)\right]\\&&&=(b+l)\sum_{i=0}^{s}ip\left(i\right)-(b+l)s\sum_{i=0}^{s}p\left(i\right)+sb\\&&&=sb+(b+l)\sum_{i=0}^{s}\left(i-s\right)p\left(i\right)\\&\text{故}\end{aligned}$$

为了得到最佳的 s值,我们先考虑当 s 增加一个单位时利润的变化值. 利用上述公式得到, 当$s$增加一个单位时,期望利润为

$$\begin{aligned}&\text{时,期至利润为}\\&E[P(s+1)]=b(s+1)+(b+l)\sum_{i=0}^{s+1}(i-s-1)p(i)\\&=b(s+1)+(b+l)\sum_{i=0}^{s}(i-s-1)p(i)\end{aligned}$$

因此,

$$\mathbb{C}[P(s+1)]-\mathbb{E}[P(s)]=b-(b+l)\sum_{i=0}^{s}p(i)$$

只要下列条件满足,囤货数量为 s+1 得到的期望利润就会大于国货数量为 s 的情形:

$$\sum_{i=0}^sp(i)<\frac b{b+l}$$

(4.1)

由于式(4.1)的左边随着 s 的增加而增加,而右边为一常数,因此以上不等式对所有的 s < $s^{\text{“总是成立的,其中 }s^{\text{“为满足不等式(4.1)的最大值}}}$.因为 $E[P(0)]<\cdots<E[P(s^{\prime})]<E[P(s^{\prime}+1)]>E[P(s^{\prime}+2)]>\cdots$ 这样,囤货数量为 s’+1 时将会使得期望利润达到最大

二项分布近似于泊松分布

泊松分布在各领域中有非常广泛的应用,这是由于当$n$足够大,$p$充分小,而使得$np$ 保持适当的大小时,参数为($n$,$p$)的二项随机变量可近似地看做是参数为$\lambda=np$的泊松随机变量.为证明这点,假设$X$是一个服从参数为($n,p$)的二项随机变量,并记$\lambda=np$, 那么

$$P\langle X=i\rangle=\frac{n!}{(n-i)!i!}p^i(1-p)^{n-i}=\frac{n!}{(n-i)!i!}\Big(\frac{\lambda}{n}\Big)^i\Big(1-\frac{\lambda}{n}\Big)^{n-i}$$

$$=\frac{n(n-1)\cdots(n-i+1)}{n^i}\frac{\lambda^i}{i!}\:\frac{(1-\lambda/n)^n}{(1-\lambda/n)^i}$$

现在,对充分大的 $n$ 和适当的$\lambda$,有

$$\left(1-\frac\lambda n\right)^n\approx\mathrm{e}^{-\lambda}\:,\quad\frac{n(n-1)\cdots(n-i+1)}{n^i}\approx1\:,\quad\left(1-\frac\lambda n\right)^i\approx1$$

因此,有

$$P\{X=i\}\approx\mathrm{e}^{-\lambda}\frac{\lambda^i}{i!}$$

换句话说,独立重复地进行$n$次试验,每次成功的概率为$p$,当$n$充分大,而$p$足够小, 使得$np$保持适当的话,那么成功的次数近似地服从参数为$\lambda=np$的泊松分布,这个$\lambda$值(以后将要证明这就是成功次数的期望值)通常凭经验确定.

负二项分布:第r次成功发生在m次失败之前

  • r次成功发生在r+m-1次前,第r+m次必然是失败

独立重复试验中,设每次试验成功的概率为$p$,求第$r$次成功发生在$m$次失败 之前的概率. 解 注意到当且仅当第$r$次成功的时刻不晚于第($r+m-1)$次试验,才能保证在$m$次失败之前出现第$r$次成功.这是因为,如果在($r+m-1$)次试验之前或此时已经有$r$次成功发生,那么在$m$次失败之前必然有$r$次成功,反之也成立.因此,利用式(8.2),得所求概率

$$\sum_{n=r}^{r+m-1}\binom{n-1}{r-1}p^r(1-p)^{n-r}$$

巴拿赫火柴问题

  • 总共取了多少次口袋?第几次抽取火柴时发现时空的?

某个抽烟的数学家总是随身带着两盒火柴,一盒放在左边口袋,另一盒放在右边口袋.每次他需要火柴时,都是随机地从两个口袋中任取一盒,并取出其中一根. 如果假设开始时两盒中都有 N 根火柴,那么在他第一次发现其中有一个盒子已经空了的时候,另一盒中恰好有 $k(k=0,1,2,\cdotp\cdotp\cdotp,N)$根火柴的概率有多大? 解 设$E$表示事件“数学家第一次发现右边口袋里的火柴盒是空的,而此时左边口袋里的火柴盒里还有反根火柴”,这个事件发生当且仅当第($N+1+N-k$)次抽取火柴时正好取中的是右边口袋,而且是第(N+1)次取中右边口袋.因此,利用式(8.2)(其中$p=1/2$, $r=N+1$且$n=2N-k+1$),有

$$P(E)\:=\:\binom{2N-k}{N}\Big(\frac{1}{2}\Big)^{2N-k+1}$$

又因为事件“第一次发现左边口袋里的火柴盒是空的,而此时右边口袋火柴盒里恰好还有$k$ 根火柴”与$E$ 是等概率的,而这两个事件又是互不相容的,因此我们要求的概率为

$$2P(E)=\binom{2N-k}N\left(\frac12\right)^{2N-k}$$

超几何分布近似二项分布

从$N$个球(白球比例为$p=m/N$)里,无放回随机抽取$n$个球,那么取中的白球数为超几何随机变量. 如果对于$n$来说,$m$和 N 很大的话,那么有放回和无放回取球没什么差别,因为当$m$和$N$很大时,不管前面取了哪个球,接下来的取到的是白球的概率仍然近似等于$p.$换言之,直觉认为,当$m$和$N$相比$n$很大时,$X$的分布列应该近似等于参数为$(n,p)$的二项随机变量的分布列.为了证明这个直觉,注意,如果 $X$ 是超几何随机变量, 那么对$i\leqslant n$,有

$$\begin{aligned}P\langle X=i\rangle&=\frac{\binom mi\binom{N-m}{n-i}}{\binom Nn}=\frac{m!}{(m-i)!i!}\cdot\frac{(N-m)!}{(N-m-n+i)!(n-i)!}\cdot\frac{(N-n)!n!}{N!}\\&=\binom ni\frac mN\cdot\frac{m-1}{N-1}\cdotp\cdotp\cdotp\frac{m-i+1}{N-i+1}\cdot\frac{N-m}{N-i}\cdot\frac{N-m-1}{N-i-1}\cdotp\cdotp\cdotp\frac{N-m-(n-i-1)}{N-i-(n-i-1)}\\&\approx\binom nip^i(1-p)^{n-i}\end{aligned}$$

其中,最后一个等式成立的条件是$p=m/N$且$m$和$N$相对$n$和$i$来说都很大.

二项分布的正态近似

概率论中一个重要的结论就是棣莫弗-拉普拉斯极限定理,它表明当$n$充分大时,参数为(n, $p$)的二项随机变量可以由正态随机变量来近似,其中正态随机变量的期望和方差与二项随机变量的期望和方差相同. 棣莫弗在 1733 年证明了 $p=\frac{1}{2}$的特殊情形.之后,在1812年,拉普拉斯对一般的$p$进行了证明. 更一般的叙述是:我们可以如下将二项随机变量标准化,先减去其均值 $np$,然后再除以标准差$\sqrt{np(1-p)}$,那么经过标准化后的随机变量(均值为 0, 方差为 1)的分布函数当 $n\to\infty$时收敛到标准正态分布函数.

棣莫弗-拉普拉斯极限定理

在$n$次独立重复试验中,设每次成功的概率为$p$, 记 成 功 的 总 次 数 为 $S_n$,那么对任 意 $a<b$ 有:当 $n\to\infty$时,

$$P\Big|a\leqslant\frac{S_n-np}{\sqrt{np(1-p)}}\leqslant b\Big|\to\Phi(b)-\Phi(a)$$

随机变量函数的分布

设$X$为一连续型随机变量,密度函数为$f_{x}.$ 设 $g(x)$为一严格单调(递增或 递减)且可微(因此必连续)的函数,那么随机变量$Y=g(X)$的密度函数为

$$f_Y(y)=\begin{cases}f_X\bigl[g^{-1}(y)\bigr]\biggl|\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)\biggr|\\\\0\end{cases}$$

如果存在某 $x$,使得 $y=g(x)$ 如果对一切$x,y\neq g(x)$

其中 $g^{-1}(y)$定义为满足 $g(x)=y$ 的$x$ 值. 下面我们在 $g(x)$为递增函数的情形下证明定理 7.1. 证明 设对某些$x$,有 y=$g(x)$.那么,若令$Y=g(X)$,则有

$$F_Y(y)=P\langle g(X)\leqslant y\rangle=P\langle X\leqslant g^{-1}(y)\rangle=F_X(g^{-1}(y))$$

求导可得

$$f_Y(y)=f_X(g^{-1}(y))\:\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)$$

因为 $g^{-1}(y)$单调非降,所以导数非负,这与定理 7.1 所述一致. 若对任意$x$都有$y\neq g(x)$,那么$F_Y(y)$等于0或 1,无论$F_Y(y)=0$还是$F_Y(y)=1$, 均有$f_Y(y)=0.$

对数正态分布

如果$X$是均值为$\mu$和方差为$\sigma^{2}$的正态随机变量,那么随机变量 $Y=\mathrm{e}^x$ 就称为参数为$\mu$和$\sigma^2$的对数正态随机变量.因此,如果$\ln(Y)$服从正态分布.则称随机变量$Y$服从对数正态分布. 对数正态随机变量常用于描述一天结束时的证券价格与前一天结束时价格的比率的分布. 也就是说,设$S_n$为第$n$天结束时某证券的价格,那么通常假定$\frac{S_n}{S_{n-1}}$服从对数正态分布,即 $X\equiv\ln(\frac{S_n}{S_{n-1}})$服从正态分布.因此,假定$\frac{S_n}{S_{n-1}}$为对数正态随机

变量意味着假定

$$S_n=S_{n-1}\operatorname{e}^X$$

其中 X 服从正态分布. 现在我们利用定理 7.1 来推导参数为$\mu$和 $\sigma ^{2}$的对数正态随机变量 Y 的分布密度. 因为$Y=\mathrm{e}^{x},X$服从均值为$\mu$ 和方差为$\sigma^2$ 的正态分布,我们需要确定函数 $g(x)=\mathrm{e}^x$ 的反函数. 因为

两边取对数得

$$y=g(g^{-1}(y))=\mathrm{e}^{g^{-1}}(y)$$

$$g^{-1}\left(y\right)=\ln(y)$$

利用定理 7.1 和$\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)=1/y$ 可得密度函数

$$f_Y(y)=\frac{1}{\sqrt{2\pi}\sigma y}\mathrm{exp}\{-(\ln(y)-\mu)^2/2\sigma^2\}\quad y>0$$

数据库系统概论第二章习题答案 sqli-labs通关

comments powered by Disqus