附录A:常见问题与补充信息¶
参考资料和补充信息。
完整参数参考¶
为避免参数定义重复和漂移,参数权威参考统一维护在:
advanced/hyperparameters.md(推荐)api/run-pipeline.md(面向 CLI 的参考)
目录结构¶
./
├── ETM/
│ ├── main.py
│ ├── run_pipeline.py
│ ├── prepare_data.py
│ └── src/
├── data/
│ └── {dataset}/
│ └── {dataset}_cleaned.csv
├── result/
│ ├── 0.6B/
│ ├── 4B/
│ ├── 8B/
│ └── baseline/
└── embedding_models/
硬件要求¶
| 配置 | CPU | 内存 | GPU | CUDA | 存储 |
|---|---|---|---|---|---|
| 最低 | 4核 | 8GB | 4GB显存 | 11.8+ | 20GB |
| 推荐 | 8核 | 16GB | 12GB显存 | 12.1+ | 50GB SSD |
| 高性能 | 16+核 | 32GB+ | A100 40GB | 12.1+ | 200GB NVMe |
常见问题¶
问:THETA有什么不同?
答:THETA使用通义千问嵌入和神经变分推理,相比LDA或ETM具有更好的语义理解能力。
问:应该使用哪个模型规模?
答:原型开发用0.6B,生产环境用4B,追求最高质量用8B。
问:最小数据集规模?
答:建议至少500篇文档,平均每篇50词以上。
问:训练时间?
答:5K文档在V100上:0.6B约25分钟,4B约50分钟。
问:需要GPU吗?
答:是的。预处理和训练都需要GPU。
引用¶
@article{theta2024,
title={THETA:基于通义千问嵌入的先进主题建模},
author={CodeSoul团队},
year={2024},
url={https://github.com/CodeSoul-co/THETA}
}
联系方式¶
- 网站:https://theta.code-soul.com
- GitHub:https://github.com/CodeSoul-co/THETA
- 邮箱:support@theta.code-soul.com
文档版本:1.0.0
最后更新:2026年2月6日