モーメント

Essential
最終更新: タグ: 確率, 期待値

前提知識

平均と分散は分布の中心と広がりを教えてくれる。しかし、まったく異なる二つの分布が同じ平均と分散を持つことがある——たとえば左右対称なベル型曲線と急激に歪んだ曲線のように。モーメント(moment)は、より詳細な形状情報を一次ずつ系統的に取り出す方法だ。

生モーメント

確率変数 XXkk 生モーメント(または原点まわりの第 kk モーメント)は、期待値が有限であるとき

μkE[Xk],k=0,1,2,\mu'_k \coloneqq E[X^k], \quad k = 0, 1, 2, \ldots

と定義される。第 0 モーメントは常に μ0=E[1]=1\mu'_0 = E[1] = 1 だ。第 1 モーメントは μ1=E[X]=μ\mu'_1 = E[X] = \mu、すなわち平均だ。

中心モーメント

kk 中心モーメントは平均まわりの第 kk モーメントだ:

μkE[(Xμ)k],k=0,1,2,\mu_k \coloneqq E\bigl[(X - \mu)^k\bigr], \quad k = 0, 1, 2, \ldots

最初の二つの中心モーメントは:

  • μ0=1\mu_0 = 1
  • μ1=E[Xμ]=0\mu_1 = E[X - \mu] = 0(中心化した変数の平均はゼロ)。
  • μ2=E[(Xμ)2]=Var(X)\mu_2 = E[(X - \mu)^2] = \operatorname{Var}(X)、すなわち分散。

中心モーメントは平行移動不変だ:XXX+cX + c で置き換えても、すべての μk\mu_kk2k \geq 2)は変わらない。このため、形状の自然な尺度となる。

生モーメントと中心モーメントの変換

二項定理が関係式を与える。(Xμ)k(X - \mu)^k を展開すると:

μk=j=0k(kj)μj(μ)kj.\mu_k = \sum_{j=0}^{k} \binom{k}{j} \mu'_j \, (-\mu)^{k-j}.

最初のいくつかの変換式:

μ2=μ2(μ1)2,\mu_2 = \mu'_2 - (\mu'_1)^2, μ3=μ33μ2μ1+2(μ1)3,\mu_3 = \mu'_3 - 3\mu'_2 \mu'_1 + 2(\mu'_1)^3, μ4=μ44μ3μ1+6μ2(μ1)23(μ1)4.\mu_4 = \mu'_4 - 4\mu'_3 \mu'_1 + 6\mu'_2 (\mu'_1)^2 - 3(\mu'_1)^4.

これらの公式は、E[(Xμ)k]E[(X - \mu)^k] を直接計算するより E[Xk]E[X^k] の方が扱いやすい場合に有用だ。

標準化モーメント:歪度と尖度

中心モーメントを無次元かつスケール不変にするには、標準偏差 σ=μ2\sigma = \sqrt{\mu_2} の適切な冪で割る。

歪度

歪度(skewness)は標準化された第 3 中心モーメントだ:

γ1μ3σ3=E[(Xμ)3](E[(Xμ)2])3/2.\gamma_1 \coloneqq \frac{\mu_3}{\sigma^3} = \frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^{3/2}}.
  • γ1=0\gamma_1 = 0 は対称な分布(第 3 中心モーメントが対称性より消える)。
  • γ1>0\gamma_1 > 0右に歪んだ(正の歪み)分布を示す:右の裾が長く、まれに非常に大きな値が現れて平均を中央値より上に引き上げる。
  • γ1<0\gamma_1 < 0 は左に歪んだ分布を示す。

例。 指数分布 Exp(λ)\operatorname{Exp}(\lambda) は平均 1/λ1/\lambda、分散 1/λ21/\lambda^2E[(X1/λ)3]=2/λ3E[(X-1/\lambda)^3] = 2/\lambda^3 なので γ1=2>0\gamma_1 = 2 > 0 となり、右に歪んでいる——密度関数の長い右裾と一致する。

尖度と超過尖度

尖度(kurtosis)は標準化された第 4 中心モーメントだ:

γ2μ4σ4=E[(Xμ)4](E[(Xμ)2])2.\gamma_2 \coloneqq \frac{\mu_4}{\sigma^4} = \frac{E[(X-\mu)^4]}{(E[(X-\mu)^2])^2}.

標準正規分布では γ2=3\gamma_2 = 3 だ。多くの統計ソフトで「尖度」と呼ばれる超過尖度(excess kurtosis)は

κγ23.\kappa \coloneqq \gamma_2 - 3.
  • κ=0\kappa = 0中尖(mesokurtic)):裾が正規分布と同様に振る舞う。正規分布が基準。
  • κ>0\kappa > 0尖峰(leptokurtic)):正規分布より重い裾——極端な値がより起きやすい。tt 分布やコーシー分布は尖峰型だ。
  • κ<0\kappa < 0低尖(platykurtic)):軽い裾——極端な値が正規分布より起きにくい。一様分布は κ=6/5\kappa = -6/5 だ。

尖度が測るのは裾の重さであり、「峰の鋭さ」ではない——この二つは同値ではない。

モーメントは分布を決定するか?

モーメントの列 (μ1,μ2,μ3,)(\mu'_1, \mu'_2, \mu'_3, \ldots) が分布を一意に決めるかどうかは自然な問いだ。

決まる場合:モーメント問題。 すべてのモーメントが存在し、カルレマン条件(Carleman condition)が成り立つとき、

k=1(μ2k)1/(2k)=+,\sum_{k=1}^{\infty} (\mu'_{2k})^{-1/(2k)} = +\infty,

モーメントは分布を一意に決定する。正規分布・ポアソン分布・二項分布・指数分布はいずれもこの条件を満たす。

決まらない場合。 対数正規分布が典型的な反例だ:ある対数正規分布と同じモーメント列を持つ異なる分布が無数に存在する。モーメントの増加が速すぎる(μkek2/2\mu'_k \sim e^{k^2/2})ためカルレマン条件が成り立たない。

実践上の意味:モーメント法でモデルを当てはめる際は、その分布クラスでモーメント問題が一意解を持つか確認すべきだ。

モーメントの存在

すべての分布がすべてのモーメントを持つわけではない。コーシー分布は平均も分散も定義されない——裾が x2|x|^{-2} の速度で減衰するため、xf(x)dx\int |x| \, f(x) \, dx が収束しない。一般に、第 kk モーメントが存在するのは裾が少なくとも x(k+1+ε)|x|^{-(k+1+\varepsilon)}(ある ε>0\varepsilon > 0 に対して)の速さで減衰するときだ。

有用な階層性として:第 kk モーメントが有限ならば、j<kj < k のすべての次数のモーメントも有限だ。これは [0,)[0, \infty) 上の凹関数 ttj/kt \mapsto t^{j/k} へのイェンセン(Jensen)不等式から従う。

まとめ

  • kk 生モーメントμk=E[Xk]\mu'_k = E[X^k]kk 中心モーメントμk=E[(XE[X])k]\mu_k = E[(X - E[X])^k]
  • 平均 =μ1= \mu'_1;分散 =μ2=μ2(μ1)2= \mu_2 = \mu'_2 - (\mu'_1)^2
  • 歪度 γ1=μ3/σ3\gamma_1 = \mu_3 / \sigma^3 は非対称性を測る;γ1>0\gamma_1 > 0 は右歪み。
  • 超過尖度 κ=μ4/σ43\kappa = \mu_4/\sigma^4 - 3 は正規分布に対する裾の重さを測る;κ>0\kappa > 0 はより重い裾。
  • カルレマン条件が成り立つときモーメントは分布を一意に決定する;対数正規分布はこれが成り立たない例を示す。
  • コーシー分布は有限なモーメントを持たない——E[Xk]E[|X|^k] が収束するには裾の減衰が十分速くなければならない。