关于熵
熵
平均信息量 或 信息量的数学期望
信息量
概率的导数取log(一般以2为底)
概率的计算过程
下面是一个简单的语料库(corpus),
AAABB
根据语料库计算字母的概率。
字母A的概率是$\frac{3}{5}$
字母B的概率是$\frac{2}{5}$
计算信息量的过程
字母A的信息量是$\log_2{\frac{2}{5}^{-1}} = -\log_2{\frac{2}{5}}$
字母B的信息量是$\log_2{\frac{3}{5}^{-1}} = -\log_2{\frac{3}{5}}$
计算熵的过程
有3个A,2个B,所以
以下是python的计算结果
# 2为底
>>> (2 * - math.log2(float(2)/5) - 3 * math.log2(float(3)/5)) / 5
0.9709505944546686
汉字的信息量的简单的计算
假设汉字有5000个,每个字的出现概率一样 汉字每个字的概率是
每个汉字的信息量是
以2为底的信息量的单位就是我们俗称的bit,也就是说表示一个汉字需要12.287712379549449个bit。
蒙文的信息量
假设有256个字母(U1800 ~ U18FF)
每个蒙文字母的概率是
每个蒙文字母的信息量是
熵是信息量的平均值,因为我在上面的举例中假设每个字母出现概率相同所以在这里 熵=信息量。 同样内容的汉文书比英文书薄,是因为汉字的信息量大。