复杂度
字面意思
- perplexity n. 困惑;混乱
信息量:
假设事件A的发生概率是:$P_A$, 事件A的信息量是:
熵(平均信息量):
-
表示系统的不确定性
假设随机变量$X$的取值范围是 $\left\{x_1,x_2,…,x_n \right\}$
-
取值范围:
-
$X$服从均匀分布时,取最大值
复杂度(Perplexity):
- 复杂度越低,系统的预测能力越高
- 取值范围
- 表示语言模型的分歧数,候选数。
举例
数据集
- 学习数据集1 :
A
B
- 学习数据集2 :
A
B
B
B
- 测试数据 :
A
B
使用数据集1建立模型
- 模型参数
- 信息量
- 熵的计算:
- 复杂度是:
所以复杂度是2。
使用数据集2建立模型
- 模型参数
- 信息量
- 熵的计算:
- 复杂度是:
结论
因为$PP_1 < PP_2$,所以 使用数据集1建立的模型,对于测试数据集的预测性能更好。
LDA 的 Perplexity
- $\sum_{d=1}^{D^{test}}N_d^{test}$ 表示所有测试文档中单词数的总和。
- $N_d$是文档d的单词总数。
- D是文档的总数。
- $ p(\boldsymbol{w}_d^{test}\vert\mathcal{M}) $ 文档d中单词的似然。
其中
任意一个单词的分布
其中
- $\theta_{dk}$ Topic k 出现的概率
- $\phi_{kw_{dn}}$ Topic k 里单词$w_{dn}$出现的概率