keisukeのブログ

***乱雑です!自分用のメモです!*** 統計や機械学習の勉強と、読み物を書く練習と、備忘録用のブログ

統計

カーネルとは直感的に説明するとなんなのか?

2015-06-01追記:はてなの TeX のレンダリングに難があるため Qiita に移行しました 追記ここまで How to intuitively explain what a kernel is?に対する回答がわかりやすかったので和訳 まずは質問の意図から。 質問者は、「カーネルとは直感的に説明する…

scipy.stats のパラメータ loc と scale について

scipy.stats の各種オブジェクトには locおよびscale というパラメータがあります. これらは結構混乱のもとなので,(自分向けに)まとめてみました. 任意の標準的な分布 があるとき, パラメータ loc=mu, scale=sigma と指定することで, が にしたがうよう…

scipy.stats - scipyの統計関数群のAPI

scipyにはstatsという統計関数をまとめたモジュールがあります. statsにはいろいろな統計関数が用意されていますが,APIは統一されていますので,それについてちょっとまとめてみます.

事前確率,事後確率,尤度,...

確率と統計の基礎(事前確率,事後確率,尤度,ベイズの法則,...)を勉強していると,何度も何度も見たことがある説明がなんとなく理解しづらく,難しく思えることがよくあります. 例えば, 「 が与えられたとき となる確率を と書き,事後確率と呼ぶ.」 と…

MCMCサンプリングって何をするもの

MCMC (マルコフ連鎖モンテカルロ法)サンプリングが結局何をしているかというと, サンプリングという名の通り,未知の確率分布のサンプリングをしている. 例えば未知の確率分布を推定したいが, 解析的に解けないので数値的に解くことにする. そういうとき…

p(x ; y, z)とp(x | y, z)の違い

probability - What is the meaning of the semicolon in $f(x;\Theta)$? - Cross Validated Probability notation question - Cross Validated Meaning of probability notations $P(z;d,w)$ and $P(z|d,w)$ - Cross Validated "The probability of x given…

マルコフ連鎖モンテカルロ法

マルコフ連鎖モンテカルロ(MCMC)法: ある時刻の標本が一つ前の時刻の標本に依存して生成されるとき,標本列をマルコフ連鎖と呼ぶ. MCMCでは,まず提案点と呼ばれる標本を生成する.提案点は代理分布にしたがって発生させる.代理分布は,ガウス分布や一様…

ベイズ推定(ベイズ予測分布)

訓練標本をとする. はの同時確率, はの事後確率, はの事前確率, はの尤度である. ベイズ推定ではは確率変数なのでモデルも条件付き確率で表される. ,から が得られる. よってであるから,ベイズ予測分布は となる. は, モデルをの事後確率で重みを…

推定量の性質について

一致性 推定量が一致性を持つ:標本数が無限に多いときに,ある値に収束する. すなわち,に対し このときがに確率収束すると呼び, と書く. 特に,標本平均が真の期待値に確率収束することは大数の弱法則と呼ばれる. 不偏性 期待二乗誤差について, と分…

メモ:主成分分析

主成分分析は,もとのデータ の分散共分散行列の対応する固有値が高い順にk個取ってきた固有ベクトル で張られる部分空間への, の正射影を与える.すなわち, なる変換である.

メモ:正定値/半正定値行列

行列Aが正定値行列(positive definite)であるとは, Aが対称(ゆえにAはnxn正方行列) Aの固有値がすべて正 である.これは, と等価.また,行列Aが半正定値行列(positive semi-definite)であるとは, Aが対称(ゆえにAはnxn正方行列) Aの固有値がすべて非…

【記事メモ】AdaBoost アルゴリズム (ブースティング)

AdaBoost アルゴリズム (ブースティング) 土方嘉徳 公式ブログ e-biz Diary http://e-biz.cocolog-nifty.com/blog/2010/09/adaboost-b724.html

標準偏差(Standard Deviation, SD)と標準誤差(Standard Error, SE)

標準偏差(Standard Deviation, SD) は、標本の散らばりを記述する。 標準誤差(Standard Error, SE) は、統計量の散らばりを記述する。すなわち、 期待値±SDは、標本の各データは期待値から±SDに約68%散らばっていることを意味し*1、 期待値±SEは、得られた標…

webページからデータを引き抜いて時系列プロット【yahooファイナンス】

時系列プロットの基本のための練習。 時系列プロットなら株価の動きが定番かなと思い、ターゲットをそれに決定。ということで、Yahooファイナンスのページから日経平均株価のデータを引き抜いてプロットします。 ちょっと長ったらしいコードですが: import …