keisukeのブログ

***乱雑です!自分用のメモです!*** 統計や機械学習の勉強と、読み物を書く練習と、備忘録用のブログ

ベイズ推定(ベイズ予測分布)

訓練標本を{\begin{align*}\mathcal{X}:=\{\boldsymbol{x}_i\}_{i=1}^n\end{align*}}とする.
{\begin{align*}p(\boldsymbol{\theta},\mathcal{X})\end{align*}}{\begin{align*}\boldsymbol{\theta},\mathcal{X}\end{align*}}同時確率
{\begin{align*}p(\boldsymbol{\theta}|\mathcal{X})\end{align*}}{\begin{align*}\boldsymbol{\theta}\end{align*}}事後確率
{\begin{align*}p(\boldsymbol{\theta})\end{align*}}{\begin{align*}\boldsymbol{\theta}\end{align*}}事前確率
{\begin{align*}p(\mathcal{X}|\boldsymbol{\theta}) = \prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})\end{align*}}{\begin{align*}\boldsymbol{\theta}\end{align*}}尤度である.
ベイズ推定では{\begin{align*}\boldsymbol{\theta}\end{align*}}は確率変数なのでモデルも条件付き確率{\begin{align*}q(\boldsymbol{x}_i|\boldsymbol{\theta})\end{align*}}で表される.


{\begin{align*}p(\boldsymbol{\theta},\mathcal{X})=p(\mathcal{X}|\boldsymbol{\theta})p(\boldsymbol{\theta})\end{align*}}{\begin{align*}\int p(\boldsymbol{\theta},\mathcal{X})d\boldsymbol{\theta}=p(\mathcal{X})\end{align*}}から
{\begin{align*}p(\mathcal{X})=\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}\end{align*}}が得られる.
よって{\begin{align*}p(\boldsymbol{\theta}|\mathcal{X}) = \frac{p(\mathcal{X}|\boldsymbol{\theta})p(\boldsymbol{\theta})}{p(\mathcal{X})} = \frac{\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})}{\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}}\end{align*}}であるから,ベイズ予測分布は
{\begin{align*}\widehat{p}_{\text{Bayes}}(\boldsymbol{x}) := \int q(\boldsymbol{x}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\mathcal{X})d\boldsymbol{\theta} = \frac{\int q(\boldsymbol{x}|\boldsymbol{\theta})\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}}{\int\prod_{i=1}^nq(\boldsymbol{x}_i|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}} \end{align*}}
となる.


{\begin{align*}\widehat{p}_{\text{Bayes}}(\boldsymbol{x}) := \int q(\boldsymbol{x}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\mathcal{X})d\boldsymbol{\theta}\end{align*}}は,
モデル{\begin{align*} q(\boldsymbol{x}|\boldsymbol{\theta})\end{align*}}{\begin{align*} \boldsymbol{\theta}\end{align*}}の事後確率{\begin{align*} p(\boldsymbol{\theta}|\mathcal{X})\end{align*}}で重みをつけて平均したものと解釈できる.
最尤推定は尤度の最も高くなるパラメータ{\begin{align*} \boldsymbol{\theta}\end{align*}}を選ぶが,ベイズ推定では事後確率の高いものを優先しつつ,低いものもある程度考慮にいれる.