多項分布とディリクレ分布
例えば三色のボールが黒が1/5、白2/5個、青3/5の割合で袋に入っています。今6回ボールをとった結果は{黒,青,白,青,青,白}となりました。
するとこのボールの配列の生成確率はと計算されます。
もし、それぞれのボールの回数だけに興味ある場合、つまりp({黒× 1,青×3, 白×2})はどうなるのでしょう?
黒,青,白,青,青,白
黒,青,青,青,白,白
黒,青,白,白,青,青
…
…
…
…
以上のように、順番が違うけど{黒× 1,青×3, 白×2}の取り方はたくさんあります。具体的には
通りあります。こんな風に回数だけに興味があって、それの分布を一般化したのが多項分布です。
多項分布(Multinomial distribution)
- n回試行, 毎回の結果として取りうる値$x_i\in{1,2,…,K}$
- $p({x_i=k})=\pi_k$
- $\boldsymbol{\pi}={\pi_1,\pi_2,…,\pi_K}, \sum\limits_{k=1}^K\pi_k=1$
- $p(x_1,x_2,…,x_n)=\prod\limits_{i=1}^{n}p(x_i)= \prod\limits_{i=1}^{K}\pi_i^{n_k}$
- 各試行の回数だけに興味ある場合
ここで
ディリクレ分布(Dirichlet distribution)
- 多項分布の共役事前分布
- $\boldsymbol{\pi}$:確率変数
- $\boldsymbol{\alpha}$:ハイパーパラメータ
-
事後確率の計算
正規化すれば
但し、以下の証明は?
多項分布とディリクレ分布の比較
- 両分布は形式的に非常に似ていますが微妙に違う
- ディリクレ分布の正規化項目は$\boldsymbol{\pi}$に対する積分,多項分布の正規化項は$\boldsymbol{n}$に対する積分。
ディリクレ分布のガンマ関数を展開すれば
分布 | 変換した形 | 正規化項 | 積分項 |
---|---|---|---|
多項分布 | に対する積分 | ||
ディリクレ分布 | に対する積分 |