关于熵

熵

平均信息量 或 信息量的数学期望

概率的导数取log（一般以2为底）

下面是一个简单的语料库（corpus）,

AAABB

根据语料库计算字母的概率。

字母A的概率是$\frac{3}{5}$

字母B的概率是$\frac{2}{5}$

字母A的信息量是$\log_2{\frac{2}{5}^{-1}} = -\log_2{\frac{2}{5}}$

字母B的信息量是$\log_2{\frac{3}{5}^{-1}} = -\log_2{\frac{3}{5}}$

有3个A，2个B,所以

$\begin{align*} &\quad \frac{3 \times-\log_2\{\frac{3}{5}\} + 2\times-\log_2\{\frac{2}{5}\}}{5} \\ &= 0.9709505944546686 \end{align*}$

以下是python的计算结果

# 2为底
>>> (2 * - math.log2(float(2)/5) - 3 * math.log2(float(3)/5)) / 5
0.9709505944546686

假设汉字有5000个，每个字的出现概率一样汉字每个字的概率是

$p=\frac{1}{5000}$

每个汉字的信息量是

$-log_2(p)= 12.287712379549449$

以2为底的信息量的单位就是我们俗称的bit,也就是说表示一个汉字需要12.287712379549449个bit。

假设有256个字母（U1800 ~ U18FF）

每个蒙文字母的概率是 $p=\frac{1}{256} = 0.00390625$

每个蒙文字母的信息量是

$-log_2(p)= 8.0$

熵是信息量的平均值，因为我在上面的举例中假设每个字母出现概率相同所以在这里熵=信息量。同样内容的汉文书比英文书薄，是因为汉字的信息量大。