最尤推定 VS 全確率定理
*『音声認識システム』p26,28
事像$X_i$の確率 $p_i^{ML}$と$p_i^{TP}$
キーワード
- 最尤推定 Maximum Likelihood Estimation(ML)
- 全確率定理 Total Probability Theorem(TP)
複数系列Ok(1<=k<=K)が確率的に与えられており、その観測確率がp(Ok)で与えられている場合、事像Xiの生起回数niで、その期待値は:
但し,$n_i^{(k)}$は事像k番目の系列において、事像Xiの生起回数である。この時、最尤パラメータは
により求めることができる。しかしp(Ok)が既知で、且つ全事像のniが全ての系列に於いて数えられる場合、全確率の定理によって
$p_i$が簡単に求まるのでは?ここで$p_i^{ML}$と$p_i^{TP}$はどんな関連があるのだろう???
例
A,B,C三種類の系列がある。
- A 長さ:300, 個数3
150 | 60 | 90 |
150 | 60 | 90 |
150 | 60 | 90 |
- B 長さ:600,個数9
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
- C 長さ500, 個数:4
250 | 100 | 150 |
250 | 100 | 150 |
250 | 100 | 150 |
250 | 100 | 150 |
最尤パラメータ推定
- 平均系列 長さ= 259.375 + 171.25 + 88.125 = 518.7
259.375 | 171.25 | 88.125 |
全確率の定理
G | Y | R | |
---|---|---|---|
p(A) = 3/16 | p(G|A) = 150/300 | p(Y|A) = 60/300 | p(R|A) = 90/300 |
p(B) = 9/16 | p(G|B) = 300/600 | p(Y|B) = 240/600 | p(R|B) = 60/600 |
p(C) = 4/16 | p(G|C) = 250/500 | p(Y|C) = 100/500 | p(R|C) = 150/500 |
$p(G)$
$= p(A) × p(G|A) + p(B) × p(G|B) + p(C) × p(G|C)$
$= 3/16 × 150/300 + 9/16 × 300/600 + 4/16 × 250/500$
$= 0.5$
$p(Y)$
$= p(A) × p(Y|A) + p(B) × p(Y|B) + p(C) × p(Y|C)$
$= 3/16 × 60/300 + 9/16 × 240/600 + 4/16 × 100/500$
$= 0.3125$
$p(R)$
$= p(A) × p(R|A) + p(B) × p(R|B) + p(C) × p(R|C)$
$= 3/16 × 90/300 + 9/16 × 60/600 + 4/16 × 150/500$
$= 0.1875$
比較
全確率の公式で求まるのに、なぜ最尤パラメータ推定なんかをする必要が生じるのだろう?全確率公式が適用せず、最尤パラメータ推定をしなければならない場合は今一思いつかない。
最尤推定は、その名の通り尤度を最大にする事が目的である。しかし、本当に尤度が最大になったのか?
尤度を比べてみる:
$L_{最尤推定}< L_{完全確率}$ 結果として最尤推定が負けた。