跳转至

THETA主题模型

基于通义千问嵌入的先进主题建模


THETA是一个先进的主题建模框架,利用Qwen3-Embedding模型在主题发现和分析中实现卓越性能。THETA设计为对LDA和ETM等传统主题模型的改进,结合了大语言模型嵌入的强大能力与先进的神经主题建模架构。

  • 快速入门


    几分钟内安装THETA并训练您的第一个主题模型

    快速开始

  • 用户指南


    从数据准备到结果分析的完整工作流程

    用户指南

  • 模型


    THETA和基线模型的架构细节

    模型

  • API参考


    所有CLI工具的完整参数文档

    API参考

  • 附录


    常见问题、补充参考与硬件性能基准

    附录A


主要特点

特点 描述
强大嵌入 基于Qwen3-Embedding(0.6B / 4B / 8B)实现卓越语义理解
灵活训练 零样本、有监督和无监督模式
丰富可视化 主题分布、热图、UMAP投影、pyLDAvis
多语言 完全支持英文和中文数据
可扩展 通过新数据集和配置轻松定制
全面评估 TD、TC、NPMI等更多指标

模型比较

模型 嵌入 类型 特点
THETA Qwen3-Embedding 神经模型 我们的方法 — 最佳性能
LDA 概率模型 经典生成式模型
ETM Word2Vec 神经模型 嵌入主题模型
CTM SBERT 神经模型 上下文模型
DTM SBERT 神经模型 动态时序模型

快速示例

# 1. 预处理数据
python prepare_data.py \
    --dataset 20ng \
    --model theta \
    --model_size 0.6B \
    --mode zero_shot \
    --vocab_size 5000 \
    --gpu 0

# 2. 训练模型
python run_pipeline.py \
    --dataset 20ng \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --gpu 0

引用

如果您在研究中使用THETA,请引用:

@article{theta2025,
  title={THETA: Advanced Topic Modeling with Qwen Embeddings},
  author={CodeSoul},
  year={2025}
}

链接