事前確率，事後確率，尤度，．．．

確率と統計の基礎(事前確率，事後確率，尤度，ベイズの法則，...)を勉強していると，何度も何度も見たことがある説明がなんとなく理解しづらく，難しく思えることがよくあります．

例えば，

「 $x$ が与えられたとき $y$ となる確率を $p(y\mid x)$ と書き，事後確率と呼ぶ．」

という文章はあらゆるところで見かけると思います．もちろん確率を勉強した人であれば何度も見た文章なので理解が難しいものではないのですが，それでもこの文章に「尤度」やら「事前確率」やら「カルバックライブラダイバージェンス」やらが混じり始めると，どこかで理解のほつれが出始めることがよくあると思います．

先ほどの文章の何が問題かというと， $p(y\mid x)$ は「yの事後確率」であって「xの事後確率」ではない点です． xに事後確率が存在しないわけではなく，この場合だと $p(x\mid y)$ はxの事後確率です．

丁寧に説明されている場合は，

「 $x$ が与えられたとき $y$ となる確率を $p(y\mid x)$ と書き， $y$ の事後確率と呼ぶ．」

とわざわざ書いてくれますが，基礎向け以外の解説だとよく省略して単に「事後確率」と呼ばれています．

というのも，統計では普通 $x$ と $y$ ではなく，観測データ $x$ とパラメータ $\theta$ で話を進めるからです．統計では，

「パラメータ $\theta$ により決まっているらしい確率分布 $p$ から得られたデータ $x$ をもとに，その背後にある法則(=パラメータ)を予測せよ」

という問題を解くことが基本なので， $x$ は与えられるもの，観測されるものという前提が暗黙にあります．よって，単に「事後確率」と言った場合，「 $x$ に関する事後確率 $p(x\mid \theta)$ 」ではなく「 $\theta$ に関する事後確率 $p(\theta\mid x)$ 」*1を指します．

では $p(x\mid \theta)$ がなんと呼ばれているかというと，「( $\theta$ の)尤度」です．つまり， $\theta$ が与えられた時のxの事後確率は $\theta$ の尤度です．

一方， $p(\theta)$ は，「 $\theta$ の事前確率」とは呼ばずに，単に「事前確率」と呼びます．

これらの暗黙の了解が頭にしっかりと入っていないと*2，急に出てきた「事後確率」「事前確率」などの言葉に混乱して「どっちの変数が与えられてて，どっちの変数が変数のままなのか」問題を処理できていないまま数式を読み進めることになり理解が追いつかなくなります．

まとめると，
観測データ $x$ ，
パラメータ $\theta$ と書くとき，
暗黙に
「事後確率」は「データ $x$ が与えられた時のパラメータ $\theta$ の事後確率 $p(\theta\mid x)$ 」を指す．
「尤度」は「パラメータ $\theta$ を決めたときのデータ $x$ の事後確率 $p(x\mid\theta)$ 」を指す．
「事前確率」は「パラメータ $\theta$ の事前確率 $p(\theta)$ 」を指す．