IPythonデータサイエンスクックブックに載っていた内容の紹介。
以下、言葉と記号を整理しておく。
- : モデルを構成するパラメータ。ただし、確率変数として扱っていく。
- : 「事前確率分布」と呼ばれる、を決定するのに何も情報を持っていない時に仮定するの確率。一般的かつ直感的なのは、一様分布の事前確率分布である。
- : をある値に固定した時に測定結果を得る確率。これがいわゆるモデル関数になる。
- : 「事後確率分布」と呼ばれる、測定結果を得た時にが尤もらしくある確率。これが最終的に求めたいものである。
- : 測定結果が得られる確率。これは後に見るように、事後確率分布の規格化定数のように扱われる。
ここでは、イカサマが疑われるコインの表が出る確率をとし、このコインを用いたコイントスに対してベイズ法を適用する。
定義として、コインを投げた回数を、そのうち表が出た回数をとし、この測定結果の集合をと表記することにする。(は回目に出た面を表す)
pは確率であるため、であり、一様な事前確率分布は、
と求まる。
ベイズの定理より、
最後は全確率の公式を用いた。
表が出る確率に対し、回コインを投げて回表が出る確率は、
で与えられる。
であるため、は、
したがって、事後確率は、
と求まる。
例として、の時、事後確率分布はそれなりに鋭く、「コインはイカサマである」と結論付けるのが尤もらしいと言える。
一方で、の時は分布関数がより広がっており、「コインがイカサマであるのが尤もらしい」とは言い難い。