イェンセンの不等式

Basis
最終更新: タグ: 微積分, 凸性, 不等式

前提知識

凸性の定義は、二つの入力の加重平均を ff に代入した値が、出力の加重平均以下であることを述べる。イェンセンの不等式(Jensen’s inequality)はこれを二点から有限個の点へ拡張する。その論証は最も単純なものだ:帰納法だ。

定理

定理(イェンセンの不等式)。 IRI \subseteq \mathbb{R} を区間、f:IRf : I \to \mathbb{R} を凸関数、n1n \geq 1 とする。x1,,xnIx_1, \ldots, x_n \in I かつ λ1,,λn0\lambda_1, \ldots, \lambda_n \geq 0i=1nλi=1\sum_{i=1}^n \lambda_i = 1 とする。このとき

f ⁣(i=1nλixi)    i=1nλif(xi).(1)f\!\left(\sum_{i=1}^{n} \lambda_i x_i\right) \;\leq\; \sum_{i=1}^{n} \lambda_i f(x_i). \tag{1}

左辺は xix_i の加重平均に ff を適用したもの、右辺は関数値の加重平均だ。

帰納法による証明

基底(n=1n = 1)。 両辺ともに f(x1)f(x_1) に等しい。\checkmark

基底(n=2n = 2)。 これはまさに凸性の定義だ:λ1+λ2=1\lambda_1 + \lambda_2 = 1 のもとで f(λ1x1+λ2x2)λ1f(x1)+λ2f(x2)f(\lambda_1 x_1 + \lambda_2 x_2) \leq \lambda_1 f(x_1) + \lambda_2 f(x_2)\checkmark

帰納段階。 ある n2n \geq 2 に対して (1)(1) が成り立つと仮定し、n+1n + 1 の場合を証明する。

x1,,xn+1Ix_1, \ldots, x_{n+1} \in I かつ λ1,,λn+10\lambda_1, \ldots, \lambda_{n+1} \geq 0i=1n+1λi=1\sum_{i=1}^{n+1} \lambda_i = 1 とする。

λn+1=1\lambda_{n+1} = 1 ならば他のすべての重みはゼロであり、両辺ともに f(xn+1)f(x_{n+1}) に等しい。そこで λn+1<1\lambda_{n+1} < 1、すなわち μ1λn+1>0\mu \coloneqq 1 - \lambda_{n+1} > 0 と仮定する。

i=1,,ni = 1, \ldots, n に対して μiλi/μ\mu_i \coloneqq \lambda_i / \mu と定義する。すると μi0\mu_i \geq 0 かつ i=1nμi=1\sum_{i=1}^n \mu_i = 1 であり、zi=1nμixiIz \coloneqq \sum_{i=1}^n \mu_i x_i \in I(区間は凸結合で閉じている)。左辺を書き換えると:

i=1n+1λixi  =  μz+λn+1xn+1,μ+λn+1=1.\sum_{i=1}^{n+1} \lambda_i x_i \;=\; \mu z + \lambda_{n+1} x_{n+1}, \qquad \mu + \lambda_{n+1} = 1.

zzxn+1x_{n+1} に対し、重みを μ\muλn+1\lambda_{n+1} として二点凸性不等式(基底 n=2n = 2)を適用すると:

f ⁣(i=1n+1λixi)=f(μz+λn+1xn+1)μf(z)+λn+1f(xn+1).f\!\left(\sum_{i=1}^{n+1} \lambda_i x_i\right) = f(\mu z + \lambda_{n+1} x_{n+1}) \leq \mu f(z) + \lambda_{n+1} f(x_{n+1}).

z=i=1nμixiz = \sum_{i=1}^n \mu_i x_i に対し、重みを μi\mu_i として帰納法の仮定を適用すると:

f(z)    i=1nμif(xi).f(z) \;\leq\; \sum_{i=1}^n \mu_i f(x_i).

これらを合わせ、μi=λi/μ\mu_i = \lambda_i / \mu を代入すると:

f ⁣(i=1n+1λixi)    μi=1nλiμf(xi)+λn+1f(xn+1)  =  i=1n+1λif(xi).f\!\left(\sum_{i=1}^{n+1} \lambda_i x_i\right) \;\leq\; \mu \sum_{i=1}^n \frac{\lambda_i}{\mu} f(x_i) + \lambda_{n+1} f(x_{n+1}) \;=\; \sum_{i=1}^{n+1} \lambda_i f(x_i). \quad \square

等号条件

命題。 ff狭義凸であり、すべての ii に対して λi>0\lambda_i > 0 であるとき、(1)(1) で等号が成立するのは x1=x2==xnx_1 = x_2 = \cdots = x_n のときに限る。

証明の概略。 帰納段階において、z=xn+1z = x_{n+1} でない限り二点不等式は狭義であり、x1,,xnx_1, \ldots, x_n がすべて等しくない限り帰納法の仮定も狭義だ。帰納法を追跡すると、どこかで狭義の不等式が発生すれば結論も狭義の不等式になることがわかる。\square

応用

相加相乗平均不等式。 f(t)=lntf(t) = -\ln t(0,)(0, \infty) 上で狭義凸)をとり、一様な重み λi=1/n\lambda_i = 1/n を用いると:

ln ⁣(x1++xnn)    lnx1lnxnn  =  ln ⁣(x1xn)1/n.-\ln\!\left(\frac{x_1 + \cdots + x_n}{n}\right) \;\leq\; \frac{-\ln x_1 - \cdots - \ln x_n}{n} \;=\; -\ln\!\left(x_1 \cdots x_n\right)^{1/n}.

符号を反転して指数をとると、相加相乗平均不等式(AM–GM inequality)が得られる:

x1++xnn    (x1xn)1/n.\frac{x_1 + \cdots + x_n}{n} \;\geq\; (x_1 \cdots x_n)^{1/n}.

対数和不等式。 f(t)=tlntf(t) = t \ln t(0,)(0,\infty) 上で凸)をとると、情報理論におけるKLダイバージェンスの非負性はイェンセンの不等式に基づく。

まとめ

  • イェンセンの不等式:凸な ff と和が 11 の重み λi0\lambda_i \geq 0 に対して、 f ⁣(λixi)λif(xi).f\!\left(\sum \lambda_i x_i\right) \leq \sum \lambda_i f(x_i).
  • 証明nn に関する帰納法。基底 n=2n = 2 は凸性の定義、帰納段階は最後の点を切り離して二点不等式を適用する。
  • 等号条件ff が狭義凸ですべての重みが正のとき、等号が成立するのはすべての xix_i が等しい場合に限る。
  • 相加相乗平均不等式は直接的な系として得られる:f=lnf = -\ln と一様な重みにイェンセンの不等式を適用する。