凸性の定義は、二つの入力の加重平均を f に代入した値が、出力の加重平均以下であることを述べる。イェンセンの不等式(Jensen’s inequality)はこれを二点から有限個の点へ拡張する。その論証は最も単純なものだ:帰納法だ。
定理
定理(イェンセンの不等式)。 I⊆R を区間、f:I→R を凸関数、n≥1 とする。x1,…,xn∈I かつ λ1,…,λn≥0 で ∑i=1nλi=1 とする。このとき
f(i=1∑nλixi)≤i=1∑nλif(xi).(1)
左辺は xi の加重平均に f を適用したもの、右辺は関数値の加重平均だ。
帰納法による証明
基底(n=1)。 両辺ともに f(x1) に等しい。✓
基底(n=2)。 これはまさに凸性の定義だ:λ1+λ2=1 のもとで f(λ1x1+λ2x2)≤λ1f(x1)+λ2f(x2)。✓
帰納段階。 ある n≥2 に対して (1) が成り立つと仮定し、n+1 の場合を証明する。
x1,…,xn+1∈I かつ λ1,…,λn+1≥0 で ∑i=1n+1λi=1 とする。
λn+1=1 ならば他のすべての重みはゼロであり、両辺ともに f(xn+1) に等しい。そこで λn+1<1、すなわち μ:=1−λn+1>0 と仮定する。
i=1,…,n に対して μi:=λi/μ と定義する。すると μi≥0 かつ ∑i=1nμi=1 であり、z:=∑i=1nμixi∈I(区間は凸結合で閉じている)。左辺を書き換えると:
i=1∑n+1λixi=μz+λn+1xn+1,μ+λn+1=1.
z と xn+1 に対し、重みを μ と λn+1 として二点凸性不等式(基底 n=2)を適用すると:
f(i=1∑n+1λixi)=f(μz+λn+1xn+1)≤μf(z)+λn+1f(xn+1).
z=∑i=1nμixi に対し、重みを μi として帰納法の仮定を適用すると:
f(z)≤i=1∑nμif(xi).
これらを合わせ、μi=λi/μ を代入すると:
f(i=1∑n+1λixi)≤μi=1∑nμλif(xi)+λn+1f(xn+1)=i=1∑n+1λif(xi).□
等号条件
命題。 f が狭義凸であり、すべての i に対して λi>0 であるとき、(1) で等号が成立するのは x1=x2=⋯=xn のときに限る。
証明の概略。 帰納段階において、z=xn+1 でない限り二点不等式は狭義であり、x1,…,xn がすべて等しくない限り帰納法の仮定も狭義だ。帰納法を追跡すると、どこかで狭義の不等式が発生すれば結論も狭義の不等式になることがわかる。□
応用
相加相乗平均不等式。 f(t)=−lnt((0,∞) 上で狭義凸)をとり、一様な重み λi=1/n を用いると:
−ln(nx1+⋯+xn)≤n−lnx1−⋯−lnxn=−ln(x1⋯xn)1/n.
符号を反転して指数をとると、相加相乗平均不等式(AM–GM inequality)が得られる:
nx1+⋯+xn≥(x1⋯xn)1/n.
対数和不等式。 f(t)=tlnt((0,∞) 上で凸)をとると、情報理論におけるKLダイバージェンスの非負性はイェンセンの不等式に基づく。
まとめ
- イェンセンの不等式:凸な f と和が 1 の重み λi≥0 に対して、
f(∑λixi)≤∑λif(xi).
- 証明:n に関する帰納法。基底 n=2 は凸性の定義、帰納段階は最後の点を切り離して二点不等式を適用する。
- 等号条件:f が狭義凸ですべての重みが正のとき、等号が成立するのはすべての xi が等しい場合に限る。
- 相加相乗平均不等式は直接的な系として得られる:f=−ln と一様な重みにイェンセンの不等式を適用する。