潜在トピックモデル
Latent Dirichlet Allocation
- 言語モデル
- 文の生成確率を計算
- P(吃了吗)=?
- Bag of Words(順序無視、他1-gram)
- Bag of XXX
- 購買履歴
- 他画像処理、音声認識、情報検索など
- 教師なし学習
- 「白鵬が単独首位、琴欧州は敗れる。」トピック:相撲、?、?
LDAの生成過程
- 文章は幾つかのトピックによって生成された(全K個のトピックと仮定) 単語の右上の番号はその単語が属するトピックの番号

- トピックごとに単語の生成分布が違う。トピックにXXXのトピックと言うラベルが無い(教師なし学習)

多項分布(Multinomial distribution)
- n回試行,取りうる値={1,2,…,K}
- $x_i\in{1,2,…,K}$
- $p(x_i=k)=\pi$
- $\boldsymbol{\pi}={\pi_1,\pi_2,…,\pi_K}, \sum\limits_{k=1}^K\pi_k=1$
- $p(x_1,x_2,…,x_n)=\prod\limits_{i=1}^{n}p(x_i)= \prod\limits_{i=1}^{K}\pi_i^{n_k}$
- 各試行の回数だけに興味ある場合
- トピックから単語を生成する分布
- 文章のトピックの分布
ベイズ的統計(Bayesian statistics)
- ベイズの公式
-
事後分布
- $f(\boldsymbol{x}\vert\theta)=\prod_{i=i}^nf(x_i\vert\theta)$は尤度である、尤度は条件部$\theta$の関数で、$x$の分布ではない為、わざと$p$を使わない。
- ベイズでは分布のパラメータ$\theta$が確率分布すると仮定する, 伝統統計学ではパラメータが不変と見なす。
- $\propto$:比例する
- 分母は変数$\theta$にとって定数である$\Rightarrow $ 事後分布は事前分布と尤度に比例する
- 尤度関数:$f({\boldsymbol{x}}\vert\theta)$
- $\theta$が変数
- $\mathbb{x}=\left\{x_i,x_2,…x_n\right\}$ が観測値なので定数
-
$\int_{\Theta} f({\boldsymbol{x}}\vert\theta)=1$が成立する保証がないので確率の要件を満たさない。その為わざと$p$と書かない。
- 共役事前分:$p(\theta\vert\eta)$
- 事後分布と同じ分布族
- $\eta$:ハイパーパラメータ
-
事後分布2
ディリクレ分布(Dirichlet distribution)
- 多項分布の共役事前分布
- $\boldsymbol{\pi}$:確率変数
- $\boldsymbol{\alpha}$:ハイパーパラメータ
-
事後確率の計算
正規化すれば
但し、以下の証明は?
Bayes推定
観測値 $\boldsymbol{x}=\{x_1,x_2,…,x_n\}$に対して
- 真の分布: $p^*(x)$
- 知ることが出来ない
- そもそも現実のデータは何らかの分布から生成されたとは限らない
- 数学的仮定
- 統計的生成モデル:$p({x}\vert{\phi})$
- $x_i \sim p(x_i\vert\phi)$
- $p^*(x)$に出来るだけ近づける
- 問題:
- $p^*(x)$と$p(x\vert\phi)$どれだけ近い?
KL情報量
- 公式
- 性質
KL情報量が0の時は真の分布と近似の分布が一致する
- 以下によって$p(x\vert\phi)$を求める
最尤推定, Maximum Likelihood Estimattion, (MLE)
- 伝統統計学
- $p^*(x)$による期待値
-
真の分布 $p^*(x)$ が分からない
$\mathbb{E}_{p^*(x)}\left[\log{p(x)|\phi)}\right]$ を求めることが出来ない
-
観測データを真の分布からのサンプルとして期待値計算を近似する(モンテカルロ積分)
最大事後確率推定、Maximum a posterior(MAP)
- ベイズ統計学
- 点推定
- 過学習防止,汎化能力高い
事後期待値推定、Expected a posterior(EAP)
- ベイズ統計学
- 点推定