条件付き期待値

Essential
最終更新: タグ: Probability, Conditional Probability, Expectation

期待値 E[X]E[X] は確率空間全体での XX の確率加重平均だ。条件付き期待値(conditional expectation)は同じ問いを部分集団に限定して問う:事象 BB が起きたことが与えられたとき、あるいは別の確率変数 YY が値 yy を取ったことがわかっているとき、XX の平均はいくらか?

事象による条件付き期待値

P(B)>0P(B) > 0 を満たす BFB \in \mathcal{F} と可積分な確率変数 XX を考える。BB のもとでの XX の条件付き期待値を、条件付き確率 P(B)P(\cdot \mid B) のもとでの XX の期待値として定義する:

E[XB]ΩXdP(B).E[X \mid B] \coloneqq \int_\Omega X \, dP(\cdot \mid B).

離散の場合XX が値 x1,x2,x_1, x_2, \ldots を取る場合):

E[XB]=kxkP(X=xkB).E[X \mid B] = \sum_k x_k \, P(X = x_k \mid B).

絶対連続の場合、条件付き密度 fXBf_{X \mid B} を用いると:

E[XB]=+xfXB(x)dx.E[X \mid B] = \int_{-\infty}^{+\infty} x \, f_{X \mid B}(x) \, dx.

結果 E[XB]E[X \mid B]定数——1つの数値であり、確率変数ではない。

確率変数による条件付き期待値

より一般的で強力な概念は、確率変数 YY の値を条件とするものだ。

離散の場合

YY が値 y1,y2,y_1, y_2, \ldots を取り P(Y=y)>0P(Y = y) > 0 を満たす各 yy に対して:

E[XY=y]kxkP(X=xkY=y).E[X \mid Y = y] \coloneqq \sum_k x_k \, P(X = x_k \mid Y = y).

結合絶対連続の場合

(X,Y)(X, Y) が結合密度 fX,Yf_{X,Y} と周辺密度 fY(y)>0f_Y(y) > 0 を持つとき、条件付き密度(conditional density)は

fXY(xy)=fX,Y(x,y)fY(y),f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)},

そして

E[XY=y]=+xfXY(xy)dx.E[X \mid Y = y] = \int_{-\infty}^{+\infty} x \, f_{X \mid Y}(x \mid y) \, dx.

確率変数としての E[XY]E[X \mid Y]

E[XY=y]E[X \mid Y = y]yy の決定的な関数 g(y)g(y) だ。これと YY を合成して条件付き期待値

E[XY]g(Y)E[X \mid Y] \coloneqq g(Y)

を定義する。これは確率変数——確率変数 YY の関数 g(Y)g(Y) だ。YY を観測する前はどの値 g(y)g(y) を取るかはわからない。E[XY]E[X \mid Y] は二乗平均誤差の意味で YY から XX を最もよく予測する:すべての可測関数 h(Y)h(Y) の中で E[(Xh(Y))2]E[(X - h(Y))^2] を最小にするのが h=gh = g だ。

主要な性質

以下では X,X1,X2X, X_1, X_2 を可積分な確率変数、Y,ZY, Z を任意の確率変数とする。

線形性

E[aX1+bX2Y]=aE[X1Y]+bE[X2Y].E[a X_1 + b X_2 \mid Y] = a \, E[X_1 \mid Y] + b \, E[X_2 \mid Y].

単調性

X1X2X_1 \leq X_2 a.s. ならば E[X1Y]E[X2Y]E[X_1 \mid Y] \leq E[X_2 \mid Y] a.s.

既知量を外に出す

h(Y)Xh(Y) X が可積分な可測関数 hh に対して:

E[h(Y)XY]=h(Y)E[XY].(1)E[h(Y) \, X \mid Y] = h(Y) \, E[X \mid Y]. \tag{1}

YY がわかれば、h(Y)h(Y)P(Y=y)P(\cdot \mid Y = y) の観点から定数であり、期待値の外に出せる。

例。 YYXX が独立であれば E[XY]=E[X]E[X \mid Y] = E[X](定数関数)であり、この性質から E[YXY]=YE[X]E[YX \mid Y] = Y \cdot E[X]、したがって E[YX]=E[Y]E[X]E[YX] = E[Y] E[X]——独立性の標準的な公式が復元される。

反復条件付け

Y=f(Z)Y = f(Z) を満たす可測関数 ff が存在する(YYZZ より「粗い」)とき:

E ⁣[E[XZ]Y]=E[XY].(2)E\!\left[E[X \mid Z] \mid Y\right] = E[X \mid Y]. \tag{2}

細かい ZZ で条件付けた後に粗い YY でさらに条件付けると、余分な精度が洗い流され YY 水準の情報だけが残る。

まとめ

  • E[XB]E[X \mid B]P(B)P(\cdot \mid B) のもとでの XX の期待値;P(B)>0P(B) > 0 の固定した事象が与えられたときの定数。
  • E[XY=y]E[X \mid Y = y]Y=yY = y がわかっているときの XX の条件付き平均;yy の決定的な関数。
  • E[XY]E[X \mid Y]g(Y)g(Y)g(y)=E[XY=y]g(y) = E[X \mid Y = y])という確率変数;YY から XX の二乗平均誤差最小予測。
  • 主要な性質:線形性単調性既知量を外に出すE[h(Y)XY]=h(Y)E[XY]E[h(Y) X \mid Y] = h(Y) E[X \mid Y])、反復条件付けZZ より粗い YY のとき E[E[XZ]Y]=E[XY]E[E[X \mid Z] \mid Y] = E[X \mid Y])。