ポアソン分布

Essential
最終更新: タグ: 確率, 確率変数, 分布

前提知識

1 秒あたりの放射性崩壊事象、1 ページあたりの誤字、1 分あたりのサーバーリクエスト——固定された窓内で希な独立事象が何回起きるかを数えるとき、ポアソン分布が自然なモデルだ。

ポアソンの極限

ポアソンの PMF を導出する最もすっきりした方法は、二項分布の極限をとることだ。固定された窓内で平均 λ>0\lambda > 0 個の事象が起きるとしよう。窓を nn 個の等しい部分区間に分割し、各区間は十分短くて高々 1 個の事象しか落ちないとする。任意の一区間で事象が起きる確率はおよそ p=λ/np = \lambda/n であり、すべての区間は独立だ。

事象の数は Bin(n,λ/n)\operatorname{Bin}(n, \lambda/n) になる。kk を固定して nn \to \infty とすると:

P(X=k)=(nk)(λn)k(1λn)nk.P(X = k) = \binom{n}{k}\left(\frac{\lambda}{n}\right)^k\left(1 - \frac{\lambda}{n}\right)^{n-k}.

各因子を順に展開する。

二項係数:

(nk)=n(n1)(nk+1)k!nkk!n のとき),\binom{n}{k} = \frac{n(n-1)\cdots(n-k+1)}{k!} \to \frac{n^k}{k!} \quad \text{($n \to \infty$ のとき)},

kk は固定で nn が増えるため、kk 個の因子 (nj)/n(n - j)/n はいずれも 11 に収束する。

pp の冪:

(λn)k=λknk.\left(\frac{\lambda}{n}\right)^k = \frac{\lambda^k}{n^k}.

裾の因子:

(1λn)nk=(1λn)n(1λn)keλ1=eλ,\left(1 - \frac{\lambda}{n}\right)^{n-k} = \left(1 - \frac{\lambda}{n}\right)^n \cdot \left(1 - \frac{\lambda}{n}\right)^{-k} \to e^{-\lambda} \cdot 1 = e^{-\lambda},

標準的な極限 limn(1λ/n)n=eλ\lim_{n\to\infty}(1 - \lambda/n)^n = e^{-\lambda}(1λ/n)k1(1 - \lambda/n)^{-k} \to 1 を使う。

まとめると:

P(X=k)nkk!λknkeλ=eλλkk!.P(X = k) \to \frac{n^k}{k!} \cdot \frac{\lambda^k}{n^k} \cdot e^{-\lambda} = \frac{e^{-\lambda}\lambda^k}{k!}.

定義

確率変数 XXレート λ>0\lambda > 0ポアソン分布(Poisson distribution)に従うとき XPoisson(λ)X \sim \operatorname{Poisson}(\lambda) と書き、その PMF は:

P(X=k)eλλkk!,k=0,1,2,P(X = k) \coloneqq \frac{e^{-\lambda}\lambda^k}{k!}, \qquad k = 0, 1, 2, \ldots

検証:PMF の和が 1 になること

k=0eλλkk!=eλk=0λkk!=eλeλ=1.\sum_{k=0}^{\infty} \frac{e^{-\lambda}\lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{\lambda^k}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1. \checkmark

k=0λk/k!=eλ\sum_{k=0}^{\infty} \lambda^k / k! = e^{\lambda} は指数関数のテイラー展開だ。

平均:E[X]=λE[X] = \lambda

E[X]=k=0keλλkk!.E[X] = \sum_{k=0}^{\infty} k \, \frac{e^{-\lambda}\lambda^k}{k!}.

k=0k = 0 の項はゼロだ。k1k \geq 1 では kkk!k! で消すと:

E[X]=eλk=1λk(k1)!=eλλj=0λjj!=eλλeλ=λ.E[X] = e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^k}{(k-1)!} = e^{-\lambda} \cdot \lambda \sum_{j=0}^{\infty} \frac{\lambda^j}{j!} = e^{-\lambda} \cdot \lambda \cdot e^{\lambda} = \lambda.

平均はレートパラメータに等しい——λ\lambda の定め方を考えれば当然の結果だ。

分散:Var(X)=λ\operatorname{Var}(X) = \lambda

まず E[X(X1)]E[X(X-1)] を計算する:

E[X(X1)]=k=2k(k1)eλλkk!=eλλ2j=0λjj!=λ2.E[X(X-1)] = \sum_{k=2}^{\infty} k(k-1)\frac{e^{-\lambda}\lambda^k}{k!} = e^{-\lambda}\lambda^2 \sum_{j=0}^{\infty}\frac{\lambda^j}{j!} = \lambda^2.

したがって E[X2]=E[X(X1)]+E[X]=λ2+λE[X^2] = E[X(X-1)] + E[X] = \lambda^2 + \lambda となり:

Var(X)=E[X2](E[X])2=(λ2+λ)λ2=λ.\operatorname{Var}(X) = E[X^2] - (E[X])^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda.

ポアソン確率変数の平均と分散はいずれも λ\lambda に等しい。この等式は有用な診断基準だ:カウントデータを観測して標本平均と標本分散が大きく異なる場合、ポアソンモデルは合わない可能性がある。

加法的性質

XPoisson(λ1)X \sim \operatorname{Poisson}(\lambda_1)YPoisson(λ2)Y \sim \operatorname{Poisson}(\lambda_2)独立ならば:

X+YPoisson(λ1+λ2).X + Y \sim \operatorname{Poisson}(\lambda_1 + \lambda_2).

証明。 畳み込みの公式から:

P(X+Y=k)=j=0kP(X=j)P(Y=kj)=j=0keλ1λ1jj!eλ2λ2kj(kj)!.P(X + Y = k) = \sum_{j=0}^{k} P(X = j)\,P(Y = k - j) = \sum_{j=0}^{k} \frac{e^{-\lambda_1}\lambda_1^j}{j!} \cdot \frac{e^{-\lambda_2}\lambda_2^{k-j}}{(k-j)!}.

e(λ1+λ2)/k!e^{-(\lambda_1+\lambda_2)} / k! を括り出して二項定理を適用すると:

P(X+Y=k)=e(λ1+λ2)k!j=0k(kj)λ1jλ2kj=e(λ1+λ2)(λ1+λ2)kk!.P(X + Y = k) = \frac{e^{-(\lambda_1+\lambda_2)}}{k!} \sum_{j=0}^{k}\binom{k}{j}\lambda_1^j\lambda_2^{k-j} = \frac{e^{-(\lambda_1+\lambda_2)}(\lambda_1+\lambda_2)^k}{k!}. \qquad \square

この加法性は物理的な直観を反映している:レート λ1\lambda_1λ2\lambda_2 の二つの独立なポアソン過程から事象が到来するとき、合成された流れはレート λ1+λ2\lambda_1 + \lambda_2 のポアソン過程になる。

まとめ

  • XPoisson(λ)X \sim \operatorname{Poisson}(\lambda)nn \to \infty のときの Bin(n,λ/n)\operatorname{Bin}(n, \lambda/n) の極限であり、固定された窓内の希な独立事象のカウントをモデル化する。
  • PMF: P(X=k)=eλλk/k!P(X = k) = e^{-\lambda}\lambda^k / k!k=0,1,2,k = 0, 1, 2, \ldots)。
  • 平均と分散はいずれも λ\lambda に等しい。
  • 加法性: 独立な Poisson(λ1)\operatorname{Poisson}(\lambda_1)Poisson(λ2)\operatorname{Poisson}(\lambda_2) の和は Poisson(λ1+λ2)\operatorname{Poisson}(\lambda_1 + \lambda_2)