字面意思

  • perplexity n. 困惑;混乱

信息量:

假设事件A的发生概率是:$P_A$, 事件A的信息量是:

熵(平均信息量):

  • 表示系统的不确定性

    假设随机变量$X$的取值范围是 $\left\{x_1,x_2,…,x_n \right\}$

  • 取值范围:

  • $X$服从均匀分布时,取最大值

复杂度(Perplexity):

  • 复杂度越低,系统的预测能力越高
  • 取值范围
  • 表示语言模型的分歧数,候选数。

举例

数据集

  • 学习数据集1 : A B
  • 学习数据集2 : A B B B
  • 测试数据 : A B

使用数据集1建立模型

  • 模型参数
  • 信息量
  • 熵的计算:
  • 复杂度是:

所以复杂度是2

使用数据集2建立模型

  • 模型参数
  • 信息量
  • 熵的计算:
  • 复杂度是:

结论

因为$PP_1 < PP_2$,所以 使用数据集1建立的模型,对于测试数据集的预测性能更好。

LDA 的 Perplexity

  • $\sum_{d=1}^{D^{test}}N_d^{test}$ 表示所有测试文档中单词数的总和。
    • $N_d$是文档d的单词总数。
    • D是文档的总数。
    • $ p(\boldsymbol{w}_d^{test}\vert\mathcal{M}) $ 文档d中单词的似然。

其中

任意一个单词的分布

其中

  • $\theta_{dk}$ Topic k 出现的概率
  • $\phi_{kw_{dn}}$ Topic k 里单词$w_{dn}$出现的概率