keisukeのブログ

***乱雑です!自分用のメモです!*** 統計や機械学習の勉強と、読み物を書く練習と、備忘録用のブログ

標準偏差(Standard Deviation, SD)と標準誤差(Standard Error, SE)

標準偏差(Standard Deviation, SD)  \sigma は、標本の散らばりを記述する。
標準誤差(Standard Error, SE)  \frac{\sigma}{\sqrt{n}} は、統計量の散らばりを記述する。

すなわち、
期待値±SDは、標本の各データは期待値から±SDに約68%散らばっていることを意味し*1
期待値±SEは、得られた標本から推定したある期待値は,母集団の対応する真値から±SEに約68%散らばっていることを意味する*2

例えば、
標本平均が10でSDが3と出た場合、標本の約68%のデータは7から13までの区間に含まれる。
標本平均が10でSEが3と出た場合、母集団における平均値は約68%の確率で7から13の区間に含まれる*3

標準偏差は,母集団の「分布」がどの程度散らばっているか,を表す量である.
一方,標準誤差は,母集団における真の「統計量(ほとんどの場合期待値のこと)」に対して今推定した統計量がどの程度散らばっているか,を表す量である.

統計学の入門書には必ず書いてあるが, n 個の確率変数  \{x_i\} が得られたとき,その標本平均を  \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i と書くことにすれば,
(母集団の)標準偏差  \sigma^* の推定値  \widehat{\sigma} \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} である.
これが標準偏差
これも必ず入門書に書いてあるが,母集団の真の平均を  \mu^* とおくと,今推定した標本平均  \overline{x} は,nが十分大きければ, \text{N}(\mu^*, \sigma^2/n) に従う*4.この分布の分散の平方根  \sigma/\sqrt{n} こそが標準誤差であり,つまり推定した  \overline{x} が真の  \mu^* に対してどれくらいばらついているのかを示している.

*1:標本が正規分布に従うなら

*2:こちらの場合,もし対象が平均値なら,たとえ標本が正規分布に従っていなくても,標本数が十分多ければ成立(中心極限定理).

*3:少し誤解を生む表現.頻度主義的には,「信頼水準68%で,母平均は7から13の区間に含まれる」であり,「母平均が7から13の区間に含まれる確率は68%」ではない.なぜなら,頻度主義では母平均は確率的な数ではなく一意に定まっているべき定数だからである.定数は揺れ動かないので,「7から13の区間に含まれる確率」は0%または100%である.ただし前述のように信頼水準という言葉を使って,「信頼水準68%で,母平均は7から13の区間に含まれる」というのは正しい.「何回も標本を取ってきて平均を取り,そのつど68%信頼区間を計算する.得られた68%信頼区間のリストは,100個中68個の割合で母平均を含む.残り32個は含まない.」

*4:中心極限定理!!