幾何分布 — Project Hematite

コインを投げ続けて表が出るまでに何回かかるか？独立な試行の列で最初の成功を待つというシンプルな問いに答えるのが幾何分布だ。

設定：ベルヌーイ試行の繰り返し

ベルヌーイ試行とは、成功（確率 $p$ ）と失敗（確率 $1-p$ ）の二つの結果を持つ単一の実験だ（ $0 < p \leq 1$ ）。この試行を独立に繰り返し、最初の成功が現れるまで続ける。

$X$ を（最後の成功した試行も含む）実施した試行の総数とする。 $X$ は $\{1, 2, 3, \ldots\}$ に値をとる：最初の試行が成功すれば $X = 1$ 、最初が失敗して二回目が成功すれば $X = 2$ 、以降同様だ。

$X \sim \operatorname{Geom}(p)$ と書く。

$X = k$ が起きるには最初の $k-1$ 回の試行がすべて失敗で $k$ 回目が成功でなければならない。試行が独立なので：

P(X = k) = \underbrace{(1-p)^{k-1}}_{\text{$k-1$ 回の失敗}} \cdot \underbrace{p}_{\text{1 回の成功}}, \qquad k = 1, 2, 3, \ldots

これが幾何分布の確率質量関数（PMF）だ。

$k$ のすべての可能な値で足し合わせると：

\sum_{k=1}^{\infty} (1-p)^{k-1} p = p \sum_{j=0}^{\infty} (1-p)^{j}.

$|r| < 1$ のとき級数 $\sum_{j=0}^{\infty} r^j = \frac{1}{1-r}$ が成り立つ。 $r = 1-p \in [0, 1)$ で：

p \cdot \frac{1}{1-(1-p)} = p \cdot \frac{1}{p} = 1. \checkmark

定義から出発する：

E[X] = \sum_{k=1}^{\infty} k \, (1-p)^{k-1} p.

$p$ を因数に出し、和を等比級数の導関数として認識する。 $|r| < 1$ のとき：

\sum_{k=1}^{\infty} k \, r^{k-1} = \frac{d}{dr} \sum_{k=1}^{\infty} r^k = \frac{d}{dr} \frac{r}{1-r} = \frac{1}{(1-r)^2}.

$r = 1-p$ を代入すると：

E[X] = p \cdot \frac{1}{(1-(1-p))^2} = p \cdot \frac{1}{p^2} = \frac{1}{p}.

直観的に、各試行が確率 $p$ で成功するなら、平均して $1/p$ 回の試行が必要だ。

恒等式 $\operatorname{Var}(X) = E[X^2] - (E[X])^2$ を使う。 $E[X^2]$ を求めるには、まず $E[X(X-1)]$ を計算する（扱う $k$ の冪が一つ少なくて済むため）：

E[X(X-1)] = \sum_{k=2}^{\infty} k(k-1)(1-p)^{k-1}p = p(1-p)\sum_{k=2}^{\infty} k(k-1)(1-p)^{k-2}.

$\sum_{k=2}^{\infty} k(k-1)r^{k-2} = \frac{d^2}{dr^2}\frac{r}{1-r} = \frac{2}{(1-r)^3}$ なので、 $r = 1-p$ で：

E[X(X-1)] = p(1-p) \cdot \frac{2}{p^3} = \frac{2(1-p)}{p^2}.

したがって $E[X^2] = E[X(X-1)] + E[X] = \frac{2(1-p)}{p^2} + \frac{1}{p}$ となり：

\operatorname{Var}(X) = \frac{2(1-p)}{p^2} + \frac{1}{p} - \frac{1}{p^2} = \frac{2(1-p) + p - 1}{p^2} = \frac{1-p}{p^2}.

幾何分布の最も際立った性質は過去の記憶を持たないことだ。正式には、任意の正整数 $m$ と $n$ に対して：

P(X > m + n \mid X > m) = P(X > n).

証明。 まず生存関数を計算する。 $P(X = k) = (1-p)^{k-1}p$ なので：

P(X > m) = \sum_{k=m+1}^{\infty}(1-p)^{k-1}p = (1-p)^m.

条件付き確率の定義から：

P(X > m+n \mid X > m) = \frac{P(X > m+n)}{P(X > m)} = \frac{(1-p)^{m+n}}{(1-p)^m} = (1-p)^n = P(X > n). \qquad \square

言葉で言えば： $m$ 回の失敗をすでに見た後でも、必要な追加試行数の分布は最初から始めるときとまったく同じだ。過去の失敗は最初の成功がいつ来るかについて有用な情報を何も与えない。

幾何分布は $\{1, 2, 3, \ldots\}$ 上の離散分布の中で無記憶性を満たす唯一の分布だ。これは正の実数上で連続な一意の無記憶分布が指数分布であるという事実の離散版だ。

$X \sim \operatorname{Geom}(p)$ は最初の成功が出るまでの独立な $\operatorname{Bernoulli}(p)$ 試行の回数を数える（成功した試行を含む）。
PMF： $P(X = k) = (1-p)^{k-1}p$ （ $k = 1, 2, 3, \ldots$ ）。
平均： $E[X] = 1/p$ 。
分散： $\operatorname{Var}(X) = (1-p)/p^2$ 。
無記憶性： $P(X > m+n \mid X > m) = P(X > n)$ ；幾何分布は $\mathbb{N}^+$ 上のこの性質を持つ唯一の離散分布だ。