模型比较¶

性能比较¶

数值为近似值，随数据集变化。TD、NPMI、C_V越高越好。PPL越低越好。

使用LDA当： - 需要快速基线结果 - 可解释性至关重要 - 无GPU可用 - 频繁为新文档计算主题分布

使用ETM当： - 需要比LDA更好的性能 - 有GPU可用 - 需要适中的计算预算 - 与原始ETM论文进行比较

使用CTM当： - 需要上下文理解 - 需要质量和速度的良好平衡 - 遵循近期主题建模文献 - 处理标准规模的语料库

使用DTM当： - 分析时间动态 - 有带时间戳的文档 - 研究主题演化 - 调查新兴趋势

使用THETA-0.6B当： - 需要比CTM更好的质量 - 有8-12GB显存可用 - 需要快速实验

使用THETA-4B当： - 需要高质量结果 - 有16-20GB显存可用 - 生产环境部署

使用THETA-8B当： - 需要最高可能的质量 - 有24-32GB显存可用 - 关键应用

在1万文档语料库上的训练时间比较：

模型	CPU时间	GPU时间	显存	存储
LDA	15分钟	不适用	0GB	100MB
ETM	不适用	20分钟	4GB	500MB
CTM	不适用	25分钟	6GB	800MB
THETA-0.6B	不适用	30分钟	8GB	2GB
THETA-4B	不适用	50分钟	16GB	6GB
THETA-8B	不适用	90分钟	28GB	12GB

时间假设使用单GPU（V100或A100）。

考虑： - 数据集规模（文档数量） - 可用计算资源（显存） - 时间限制 - 质量要求（研究 vs 原型开发）

默认推荐： - 原型开发：THETA-0.6B 或 CTM - 生产环境：THETA-4B - 研究：THETA-8B - 快速基线：LDA - 时间分析：DTM

训练多个模型：

python run_pipeline.py \
    --dataset my_dataset \
    --models lda,etm,ctm,theta \
    --model_size 0.6B \
    --num_topics 20