期待値 E[X] は確率空間全体での X の確率加重平均だ。条件付き期待値(conditional expectation)は同じ問いを部分集団に限定して問う:事象 B が起きたことが与えられたとき、あるいは別の確率変数 Y が値 y を取ったことがわかっているとき、X の平均はいくらか?
事象による条件付き期待値
P(B)>0 を満たす B∈F と可積分な確率変数 X を考える。B のもとでの X の条件付き期待値を、条件付き確率 P(⋅∣B) のもとでの X の期待値として定義する:
E[X∣B]:=∫ΩXdP(⋅∣B).
離散の場合(X が値 x1,x2,… を取る場合):
E[X∣B]=k∑xkP(X=xk∣B).
絶対連続の場合、条件付き密度 fX∣B を用いると:
E[X∣B]=∫−∞+∞xfX∣B(x)dx.
結果 E[X∣B] は定数——1つの数値であり、確率変数ではない。
確率変数による条件付き期待値
より一般的で強力な概念は、確率変数 Y の値を条件とするものだ。
離散の場合
Y が値 y1,y2,… を取り P(Y=y)>0 を満たす各 y に対して:
E[X∣Y=y]:=k∑xkP(X=xk∣Y=y).
結合絶対連続の場合
(X,Y) が結合密度 fX,Y と周辺密度 fY(y)>0 を持つとき、条件付き密度(conditional density)は
fX∣Y(x∣y)=fY(y)fX,Y(x,y),
そして
E[X∣Y=y]=∫−∞+∞xfX∣Y(x∣y)dx.
確率変数としての E[X∣Y]
E[X∣Y=y] は y の決定的な関数 g(y) だ。これと Y を合成して条件付き期待値
E[X∣Y]:=g(Y)
を定義する。これは確率変数——確率変数 Y の関数 g(Y) だ。Y を観測する前はどの値 g(y) を取るかはわからない。E[X∣Y] は二乗平均誤差の意味で Y から X を最もよく予測する:すべての可測関数 h(Y) の中で E[(X−h(Y))2] を最小にするのが h=g だ。
主要な性質
以下では X,X1,X2 を可積分な確率変数、Y,Z を任意の確率変数とする。
線形性
E[aX1+bX2∣Y]=aE[X1∣Y]+bE[X2∣Y].
単調性
X1≤X2 a.s. ならば E[X1∣Y]≤E[X2∣Y] a.s.
既知量を外に出す
h(Y)X が可積分な可測関数 h に対して:
E[h(Y)X∣Y]=h(Y)E[X∣Y].(1)
Y がわかれば、h(Y) は P(⋅∣Y=y) の観点から定数であり、期待値の外に出せる。
例。 Y と X が独立であれば E[X∣Y]=E[X](定数関数)であり、この性質から E[YX∣Y]=Y⋅E[X]、したがって E[YX]=E[Y]E[X]——独立性の標準的な公式が復元される。
反復条件付け
Y=f(Z) を満たす可測関数 f が存在する(Y が Z より「粗い」)とき:
E[E[X∣Z]∣Y]=E[X∣Y].(2)
細かい Z で条件付けた後に粗い Y でさらに条件付けると、余分な精度が洗い流され Y 水準の情報だけが残る。
まとめ
- E[X∣B]:P(⋅∣B) のもとでの X の期待値;P(B)>0 の固定した事象が与えられたときの定数。
- E[X∣Y=y]:Y=y がわかっているときの X の条件付き平均;y の決定的な関数。
- E[X∣Y]:g(Y)(g(y)=E[X∣Y=y])という確率変数;Y から X の二乗平均誤差最小予測。
- 主要な性質:線形性、単調性、既知量を外に出す(E[h(Y)X∣Y]=h(Y)E[X∣Y])、反復条件付け(Z より粗い Y のとき E[E[X∣Z]∣Y]=E[X∣Y])。