はじめてのベイズ法。

IPythonデータサイエンスクックブックに載っていた内容の紹介。

以下、言葉と記号を整理しておく。

$p$ : モデルを構成するパラメータ。ただし、確率変数として扱っていく。
$P(p)$ : 「事前確率分布」と呼ばれる、 $p$ を決定するのに何も情報を持っていない時に仮定する $p$ の確率。一般的かつ直感的なのは、一様分布の事前確率分布 $P(p)=const.$ である。
$P({x_i}|p)$ : $p$ をある値に固定した時に測定結果 $\{x_i\}$ を得る確率。これがいわゆるモデル関数になる。
$P(p|{x_i})$ : 「事後確率分布」と呼ばれる、測定結果 $\{ x_i \}$ を得た時に $p$ が尤もらしくある確率。これが最終的に求めたいものである。
$P( {x_i} )$ : 測定結果 $\{ x_i \}$ が得られる確率。これは後に見るように、事後確率分布の規格化定数のように扱われる。

ここでは、イカサマが疑われるコインの表が出る確率を $p$ とし、このコインを用いたコイントスに対してベイズ法を適用する。
定義として、コインを投げた回数を $n$ 、そのうち表が出た回数を $h$ とし、この測定結果の集合を $\{ x_i \}^n_h$ と表記することにする。（ $x_i$ は $i$ 回目に出た面を表す）

pは確率であるため、 $p \in [ 0, 1]$ であり、一様な事前確率分布は、
$\displaystyle \int^1_0 dp \, P(p) = 1 \times const. = 1 \\ \displaystyle \therefore P( p ) = 1$
と求まる。

ベイズの定理より、
$\displaystyle P( p | \{ x_i \}^n_h ) = \frac{ P( \{x_i\}^n_h | p ) P( p ) }{ P( \{ x_i \}^n_h ) } = \frac{ P( \{x_i\}^n_h | p ) P( p ) }{ \int dp \, P( \{ x_i \}^n_h | p ) P( p ) } \\ \displaystyle \because P( \{ x_i \}^n_h ) = P( \{ x_i \}^n_h | p ) P( p )$
最後は全確率の公式を用いた。

表が出る確率 $p$ に対し、 $n$ 回コインを投げて $h$ 回表が出る確率 $P(\{x_i\}^n_h|p)$ は、
$\displaystyle P(\{x_i\}^n_h|p) = p^h ( 1 - p )^{ n- h }$
で与えられる。

$P( p ) = 1$ であるため、 $P( \{ x_i \}^n_h )$ は、
$\displaystyle P( \{x_i\}^n_h ) = \int^1_0 dp \, P( {x_i}^n_h | p ) P( p ) = \int^1_0 dp \, P( {x_i}^n_h | p ) \\ \displaystyle \qquad = \int^1_0 dp \, p^h ( 1 - p )^{ n- h } \\ \displaystyle \qquad = \left[ - \frac{ 1 }{ n - h } p^h ( 1 - p )^{ n- ( h - 1) } \right]^1_0 + \frac{ h }{ n - h } \int^1_0 dp \, p^{h-1} ( 1 - p )^{ n- ( h - 1 ) } \\ \displaystyle \qquad = \frac{ h }{ n - h } \int^1_0 dp \, p^{h-1} ( 1 - p )^{ n- ( h - 1 ) } \\ \displaystyle \qquad = \frac{ 1 }{ {}_nC_h } \int^1_0 dp \, ( 1 - p )^{ n } \\ \displaystyle \qquad = \frac{ 1 }{ {}_nC_h } \left[ - \frac{ 1 }{ n + 1 } ( 1 - p )^{ n + 1 } \right]^1_0 \\ \displaystyle \qquad = \frac{ 1 }{ n + 1 } \frac{ 1 }{ {}_nC_h}$