*『音声認識システム』p26,28

事像Xiの確率 pMLipTPi

キーワード

  • 最尤推定 Maximum Likelihood Estimation(ML)
  • 全確率定理 Total Probability Theorem(TP)

複数系列Ok(1<=k<=K)が確率的に与えられており、その観測確率がp(Ok)で与えられている場合、事像Xiの生起回数niで、その期待値は:

E(ni)=Kk=1p(Ok)n(k)i

但し,n(k)iは事像k番目の系列において、事像Xiの生起回数である。この時、最尤パラメータは

pMLi=Kk=1p(Ok)n(k)iMi=1Kk=1p(Ok)n(k)i=E(ni)Mi=1E(ni)

により求めることができる。しかしp(Ok)が既知で、且つ全事像のniが全ての系列に於いて数えられる場合、全確率の定理によって

pTPi=Kk=1p(Ok)p(i|Ok)

piが簡単に求まるのでは?ここでpMLipTPiはどんな関連があるのだろう???


pMLivspTPi

A,B,C三種類の系列がある。

  • A 長さ:300, 個数3
150 60 90
150 60 90
150 60 90
  • B 長さ:600,個数9
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
  • C 長さ500, 個数:4
250 100 150
250 100 150
250 100 150
250 100 150

最尤パラメータ推定

E(G)=316×150+916×300+416×250=259.375E(Y)=316×60+916×240+416×100=171.25E(R)=316×90+916×60+416×150=88.125
  • 平均系列 長さ= 259.375 + 171.25 + 88.125 = 518.7
259.375 171.25 88.125

pML(G)=E(G)E(G)+E(Y)+E(R)=259.375518.7=0.50pML(Y)=E(Y)E(G)+E(Y)+E(R)=171.2518.7=0.33pML(R)=E(R)E(G)+E(Y)+E(R)=88.125518.7=0.17

全確率の定理

  G Y R
p(A) = 3/16 p(G|A) = 150/300 p(Y|A) = 60/300 p(R|A) = 90/300
p(B) = 9/16 p(G|B) = 300/600 p(Y|B) = 240/600 p(R|B) = 60/600
p(C) = 4/16 p(G|C) = 250/500 p(Y|C) = 100/500 p(R|C) = 150/500

p(G)
=p(A)×p(G|A)+p(B)×p(G|B)+p(C)×p(G|C)
=3/16×150/300+9/16×300/600+4/16×250/500
=0.5

p(Y)
=p(A)×p(Y|A)+p(B)×p(Y|B)+p(C)×p(Y|C)
=3/16×60/300+9/16×240/600+4/16×100/500
=0.3125

p(R)
=p(A)×p(R|A)+p(B)×p(R|B)+p(C)×p(R|C)
=3/16×90/300+9/16×60/600+4/16×150/500
=0.1875

比較

全確率の公式で求まるのに、なぜ最尤パラメータ推定なんかをする必要が生じるのだろう?全確率公式が適用せず、最尤パラメータ推定をしなければならない場合は今一思いつかない。

最尤推定は、その名の通り尤度を最大にする事が目的である。しかし、本当に尤度が最大になったのか? 尤度を比べてみる:
LML=pML(G)×pML(Y)×pML(R)=0.5×0.33×0.17=0.02805LTP=p(G)×p(Y)×p(R)=0.5×0.3125×0.1875=0.029296

L<L 結果として最尤推定が負けた。

どうして??