ベイズ推定(ベイズ予測分布)

訓練標本を ${\begin{align*}\mathcal{X}:=\{\boldsymbol{x}_i\}_{i=1}^n\end{align*}}$ とする．
${\begin{align*}p(\boldsymbol{\theta},\mathcal{X})\end{align*}}$ は ${\begin{align*}\boldsymbol{\theta},\mathcal{X}\end{align*}}$ の同時確率，
${\begin{align*}p(\boldsymbol{\theta}|\mathcal{X})\end{align*}}$ は ${\begin{align*}\boldsymbol{\theta}\end{align*}}$ の事後確率，
${\begin{align*}p(\boldsymbol{\theta})\end{align*}}$ は ${\begin{align*}\boldsymbol{\theta}\end{align*}}$ の事前確率，
${\begin{align*}p(\mathcal{X}|\boldsymbol{\theta}) = \prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})\end{align*}}$ は ${\begin{align*}\boldsymbol{\theta}\end{align*}}$ の尤度である．
ベイズ推定では ${\begin{align*}\boldsymbol{\theta}\end{align*}}$ は確率変数なのでモデルも条件付き確率 ${\begin{align*}q(\boldsymbol{x}_i|\boldsymbol{\theta})\end{align*}}$ で表される．

${\begin{align*}p(\boldsymbol{\theta},\mathcal{X})=p(\mathcal{X}|\boldsymbol{\theta})p(\boldsymbol{\theta})\end{align*}}$ ， ${\begin{align*}\int p(\boldsymbol{\theta},\mathcal{X})d\boldsymbol{\theta}=p(\mathcal{X})\end{align*}}$ から
${\begin{align*}p(\mathcal{X})=\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}\end{align*}}$ が得られる．
よって ${\begin{align*}p(\boldsymbol{\theta}|\mathcal{X}) = \frac{p(\mathcal{X}|\boldsymbol{\theta})p(\boldsymbol{\theta})}{p(\mathcal{X})} = \frac{\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})}{\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}}\end{align*}}$ であるから，ベイズ予測分布は
${\begin{align*}\widehat{p}_{\text{Bayes}}(\boldsymbol{x}) := \int q(\boldsymbol{x}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\mathcal{X})d\boldsymbol{\theta} = \frac{\int q(\boldsymbol{x}|\boldsymbol{\theta})\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}}{\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}} \end{align*}}$
となる．

${\begin{align*}\widehat{p}_{\text{Bayes}}(\boldsymbol{x}) := \int q(\boldsymbol{x}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\mathcal{X})d\boldsymbol{\theta}\end{align*}}$ は，
モデル ${\begin{align*} q(\boldsymbol{x}|\boldsymbol{\theta})\end{align*}}$ を ${\begin{align*} \boldsymbol{\theta}\end{align*}}$ の事後確率 ${\begin{align*} p(\boldsymbol{\theta}|\mathcal{X})\end{align*}}$ で重みをつけて平均したものと解釈できる．
最尤推定は尤度の最も高くなるパラメータ ${\begin{align*} \boldsymbol{\theta}\end{align*}}$ を選ぶが，ベイズ推定では事後確率の高いものを優先しつつ，低いものもある程度考慮にいれる．

keisukeのブログ

乱雑です！自分用のメモです！統計や機械学習の勉強と、読み物を書く練習と、備忘録用のブログ

ベイズ推定(ベイズ予測分布)