二項分布

Essential
最終更新: タグ: 確率, 確率変数, 分布

前提知識

実験が同じ二値試行を何度も繰り返すとき——コインを投げる、製造部品を検査する、アンケートの回答を集める——自然な問いは「成功は何回起きるか?」だ。二項分布はまさにこの問いに答える。

設定

整数 n1n \ge 1 と確率 p[0,1]p \in [0, 1] を固定する。nn 回の独立な ベルヌーイ(p) 試行を行い、XX を成功の総数とする。形式的には X1,X2,,XnX_1, X_2, \ldots, X_n を各 XiBernoulli(p)X_i \sim \text{Bernoulli}(p) の独立な確率変数として

XX1+X2++XnX \coloneqq X_1 + X_2 + \cdots + X_n

と定義する。XBinomial(n,p)X \sim \text{Binomial}(n, p)、または XBin(n,p)X \sim \text{Bin}(n, p) と書く。

PMF の導出

XX{0,1,,n}\{0, 1, \ldots, n\} に値をとる。P(X=k)P(X = k) を求めるには、nn 回の試行でちょうど kk 回成功する場合の数を数える。

組み合わせ論的議論。 kk 回成功 nkn - k 回失敗の特定の順序は、独立性より確率 pk(1p)nkp^k (1-p)^{n-k} で起きる。nn 回のうちどの kk 回が成功かを選ぶ順序の数は (nk)\binom{n}{k} だ。すべての順序について足し合わせると確率質量関数(PMF:probability mass function)が得られる:

P(X=k)=(nk)pk(1p)nk,k=0,1,,n.P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \qquad k = 0, 1, \ldots, n.

k=0n(nk)pk(1p)nk=(p+(1p))n=1\sum_{k=0}^{n} \binom{n}{k} p^k (1-p)^{n-k} = (p + (1-p))^n = 1(二項定理)なので、これは正当な PMF だ。

平均

期待値の線形性を使えば、PMF から直接計算しなくても済む。X=i=1nXiX = \sum_{i=1}^n X_i という表現と各 ベルヌーイ指示変数 E[Xi]=pE[X_i] = p を用いると:

E[X]=i=1nE[Xi]=np.E[X] = \sum_{i=1}^n E[X_i] = np.

独立性は不要——線形性は無条件に成り立つ。

分散

ここでは XiX_i の独立性が必要だ。指示変数が独立なので分散が加算される:

Var(X)=i=1nVar(Xi)=np(1p)=np(1p).\text{Var}(X) = \sum_{i=1}^n \text{Var}(X_i) = n \cdot p(1-p) = np(1-p).

加法的性質

定理。 XBin(m,p)X \sim \text{Bin}(m, p)YBin(n,p)Y \sim \text{Bin}(n, p) が独立ならば

X+YBin(m+n,p).X + Y \sim \text{Bin}(m + n,\, p).

MGF による証明。 XBin(m,p)X \sim \text{Bin}(m, p) の MGF は mm 個の独立なベルヌーイ MGF を掛け合わせて得られる:

MX(t)=((1p)+pet)m.M_X(t) = \bigl((1-p) + pe^t\bigr)^m.

同様に MY(t)=((1p)+pet)nM_Y(t) = ((1-p) + pe^t)^n だ。XXYY が独立なので和の MGF は因数分解される:

MX+Y(t)=MX(t)MY(t)=((1p)+pet)m+n,M_{X+Y}(t) = M_X(t) \cdot M_Y(t) = \bigl((1-p) + pe^t\bigr)^{m+n},

これは Bin(m+n,p)\text{Bin}(m+n, p) の MGF だ。MGF が分布を一意に決定するので結果が従う。\square

直観。 mm 回の独立なベルヌーイ試行の後に nn 回の独立なベルヌーイ試行を行うことは——すべて同じ pp で——m+nm + n 回を一度に行うことと区別がつかない。

まとめ

  • XBin(n,p)X \sim \text{Bin}(n, p)nn 回の独立な ベルヌーイ(p) 試行の成功数を数える。
  • PMF:P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}k=0,1,,nk = 0, 1, \ldots, n)。
  • 平均:E[X]=npE[X] = np(期待値の線形性による)。
  • 分散:Var(X)=np(1p)\text{Var}(X) = np(1-p)(指示変数の独立性による)。
  • MGF:M(t)=((1p)+pet)nM(t) = ((1-p) + pe^t)^n
  • 加法的:独立な Bin(m,p)\text{Bin}(m, p)Bin(n,p)\text{Bin}(n, p) の和は Bin(m+n,p)\text{Bin}(m+n, p)