凸関数

Basis
最終更新: タグ: 微積分, 凸性

解析や確率論における多くの不等式は、ひとつの幾何的な観察に帰着する:「お椀型」の関数において、グラフ上の2点を結ぶ直線はグラフの下に潜ることはない。その観察を形式化したものが凸関数(convex function)の概念だ。

弦条件

IRI \subseteq \mathbb{R} を区間、f:IRf : I \to \mathbb{R} とする。

定義。 任意の x,yIx, y \in I と任意の λ[0,1]\lambda \in [0, 1] に対して

f ⁣(λx+(1λ)y)    λf(x)+(1λ)f(y)(1)f\!\left(\lambda x + (1-\lambda)y\right) \;\leq\; \lambda f(x) + (1-\lambda)f(y) \tag{1}

が成り立つとき、ffII 上で凸であるという。

λx+(1λ)y\lambda x + (1-\lambda)yxxyy の**凸結合(convex combination)であり、λ\lambda[0,1][0,1] を動くにつれ、yy から xx へ向かう線分を描く。右辺 λf(x)+(1λ)f(y)\lambda f(x) + (1-\lambda)f(y)(x,f(x))(x, f(x)) から (y,f(y))(y, f(y)) への弦(chord)**上の対応点だ。

言い換えると:ff のグラフはすべての弦と同じ高さか、それより下にある。

狭義凸性

定義。 xyx \neq y かつ λ(0,1)\lambda \in (0, 1) のとき不等式 (1)(1) が狭義(strict)になる場合、すなわち

f ⁣(λx+(1λ)y)  <  λf(x)+(1λ)f(y)f\!\left(\lambda x + (1-\lambda)y\right) \;<\; \lambda f(x) + (1-\lambda)f(y)

が成り立つとき、ffII 上で狭義凸であるという。

狭義凸性は、グラフの任意の部分が弦上に完全に乗る(flat になる)ことを排除する。狭義凸な関数はすべて凸だが、逆は成り立たない(恒等関数 f(x)=xf(x) = x は凸だが狭義凸ではない)。

凹性

f-f が(狭義に)凸であるとき、ff は**(狭義に)凹(concave)**であるという。つまり (1)(1) の不等号が逆向きになる。凹関数は「山型」であり、すべての弦はグラフと同じ高さか、それより下にある。

関数定義域凸か狭義か
x2x^2R\mathbb{R}はいはい
exe^xR\mathbb{R}はいはい
x\|x\|R\mathbb{R}はいいいえ(a-a から aa への弦上の x=0x = 0 でフラット)
lnx\ln x(0,)(0, \infty)いいえ(凹)
x2-x^2R\mathbb{R}いいえ(凹)
cc(定数)R\mathbb{R}はいいいえ

x2x^2 の検証。 λ[0,1]\lambda \in [0,1]x,yRx, y \in \mathbb{R} に対して:

(λx+(1λ)y)2    λx2+(1λ)y2(\lambda x + (1-\lambda)y)^2 \;\leq\; \lambda x^2 + (1-\lambda)y^2

λ(1λ)(xy)20\lambda(1-\lambda)(x-y)^2 \geq 0 と同値であり、これはすべての λ[0,1]\lambda \in [0,1] で成立し、xyx \neq y かつ λ(0,1)\lambda \in (0,1) のとき狭義になる。よって x2x^2 は狭義凸だ。

等価な二点形式

(1)(1)t=λt = \lambda と置いて整理すると、凸性は次のようにも読める:II 内の任意の3点 x<z<yx < z < y に対して、

f(z)f(x)zx    f(y)f(x)yx    f(y)f(z)yz.\frac{f(z) - f(x)}{z - x} \;\leq\; \frac{f(y) - f(x)}{y - x} \;\leq\; \frac{f(y) - f(z)}{y - z}.

各分数は割線(secant)の傾きであるから、これは「固定した左端からの割線の傾きは、右端を右に動かすにつれて単調非減少である」ことを述べている。この単調傾き性は (1)(1) と完全に同値であり、グラフから凸性を確認する最も手軽な方法であることが多い。

まとめ

  • ffII 上でであるとは、(x,f(x))(x, f(x)) から (y,f(y))(y, f(y)) へのすべての弦がグラフと同じ高さかそれより上にあること、すなわちすべての x,yIx, y \in Iλ[0,1]\lambda \in [0,1] に対して f(λx+(1λ)y)λf(x)+(1λ)f(y)f(\lambda x + (1-\lambda)y) \leq \lambda f(x) + (1-\lambda)f(y) が成り立つことだ。
  • 狭義凸性xyx \neq y かつ λ(0,1)\lambda \in (0,1) のとき狭義の不等号を要求する。
  • 凹性は不等号を逆転させる。ff が凹であることと f-f が凸であることは同値だ。
  • 標準的な例:x2x^2exe^x は狭義凸、lnx\ln x は狭義凹だ。