最尤推定 VS 全確率定理
*『音声認識システム』p26,28
事像Xiの確率 pMLiとpTPi
キーワード
- 最尤推定 Maximum Likelihood Estimation(ML)
- 全確率定理 Total Probability Theorem(TP)
複数系列Ok(1<=k<=K)が確率的に与えられており、その観測確率がp(Ok)で与えられている場合、事像Xiの生起回数niで、その期待値は:
E(ni)=K∑k=1p(Ok)⋅n(k)i但し,n(k)iは事像k番目の系列において、事像Xiの生起回数である。この時、最尤パラメータは
pMLi=K∑k=1p(Ok)⋅n(k)iM∑i=1K∑k=1p(Ok)⋅n(k)i=E(ni)M∑i=1E(ni)により求めることができる。しかしp(Ok)が既知で、且つ全事像のniが全ての系列に於いて数えられる場合、全確率の定理によって
pTPi=K∑k=1p(Ok)⋅p(i|Ok)piが簡単に求まるのでは?ここでpMLiとpTPiはどんな関連があるのだろう???
例
A,B,C三種類の系列がある。
- A 長さ:300, 個数3
150 | 60 | 90 |
150 | 60 | 90 |
150 | 60 | 90 |
- B 長さ:600,個数9
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
300 | 240 | 60 |
- C 長さ500, 個数:4
250 | 100 | 150 |
250 | 100 | 150 |
250 | 100 | 150 |
250 | 100 | 150 |
最尤パラメータ推定
E(G)=316×150+916×300+416×250=259.375E(Y)=316×60+916×240+416×100=171.25E(R)=316×90+916×60+416×150=88.125- 平均系列 長さ= 259.375 + 171.25 + 88.125 = 518.7
259.375 | 171.25 | 88.125 |
pML(G)=E(G)E(G)+E(Y)+E(R)=259.375518.7=0.50pML(Y)=E(Y)E(G)+E(Y)+E(R)=171.2518.7=0.33pML(R)=E(R)E(G)+E(Y)+E(R)=88.125518.7=0.17
全確率の定理
G | Y | R | |
---|---|---|---|
p(A) = 3/16 | p(G|A) = 150/300 | p(Y|A) = 60/300 | p(R|A) = 90/300 |
p(B) = 9/16 | p(G|B) = 300/600 | p(Y|B) = 240/600 | p(R|B) = 60/600 |
p(C) = 4/16 | p(G|C) = 250/500 | p(Y|C) = 100/500 | p(R|C) = 150/500 |
p(G)
=p(A)×p(G|A)+p(B)×p(G|B)+p(C)×p(G|C)
=3/16×150/300+9/16×300/600+4/16×250/500
=0.5
p(Y)
=p(A)×p(Y|A)+p(B)×p(Y|B)+p(C)×p(Y|C)
=3/16×60/300+9/16×240/600+4/16×100/500
=0.3125
p(R)
=p(A)×p(R|A)+p(B)×p(R|B)+p(C)×p(R|C)
=3/16×90/300+9/16×60/600+4/16×150/500
=0.1875
比較
全確率の公式で求まるのに、なぜ最尤パラメータ推定なんかをする必要が生じるのだろう?全確率公式が適用せず、最尤パラメータ推定をしなければならない場合は今一思いつかない。
最尤推定は、その名の通り尤度を最大にする事が目的である。しかし、本当に尤度が最大になったのか?
尤度を比べてみる:
LML=pML(G)×pML(Y)×pML(R)=0.5×0.33×0.17=0.02805LTP=p(G)×p(Y)×p(R)=0.5×0.3125×0.1875=0.029296
L最尤推定<L完全確率 結果として最尤推定が負けた。