例えば三色のボールが黒が1/5、白2/5個、青3/5の割合で袋に入っています。今6回ボールをとった結果は{黒,青,白,青,青,白}となりました。

するとこのボールの配列の生成確率はと計算されます。

もし、それぞれのボールの回数だけに興味ある場合、つまりp({黒× 1,青×3, 白×2})はどうなるのでしょう?

黒,青,白,青,青,白
黒,青,青,青,白,白
黒,青,白,白,青,青



以上のように、順番が違うけど{黒× 1,青×3, 白×2}の取り方はたくさんあります。具体的には

通りあります。こんな風に回数だけに興味があって、それの分布を一般化したのが多項分布です。

多項分布(Multinomial distribution)

  • n回試行, 毎回の結果として取りうる値$x_i\in{1,2,…,K}$
  • $p({x_i=k})=\pi_k$
  • $\boldsymbol{\pi}={\pi_1,\pi_2,…,\pi_K}, \sum\limits_{k=1}^K\pi_k=1$
  • $p(x_1,x_2,…,x_n)=\prod\limits_{i=1}^{n}p(x_i)= \prod\limits_{i=1}^{K}\pi_i^{n_k}$
  • 各試行の回数だけに興味ある場合

ここで

ディリクレ分布(Dirichlet distribution)

  • 多項分布の共役事前分布
  • $\boldsymbol{\pi}$:確率変数
  • $\boldsymbol{\alpha}$:ハイパーパラメータ
  • 事後確率の計算

    正規化すれば

    但し、以下の証明は?

多項分布とディリクレ分布の比較

  • 両分布は形式的に非常に似ていますが微妙に違う
  • ディリクレ分布の正規化項目は$\boldsymbol{\pi}$に対する積分,多項分布の正規化項は$\boldsymbol{n}$に対する積分。

ディリクレ分布のガンマ関数を展開すれば

分布 変換した形 正規化項 積分項
多項分布 に対する積分
ディリクレ分布 に対する積分