可视化¶

English | 中文

训练过程会自动生成可视化。额外的可视化可以单独创建。

可视化输出¶

topic_words_bars.png 条形图，显示每个主题的前10个词及其概率权重。

topic_similarity.png 热图，显示主题-词分布之间的余弦相似度。

doc_topic_umap.png 文档在主题空间中的UMAP投影。点按主导主题着色。

topic_wordclouds.png 每个主题的词云，大小按词概率缩放。

metrics.png 比较评估指标的条形图。

pyldavis.html 使用pyLDAvis库的交互式可视化。在网页浏览器中打开。

单独生成可视化¶

为THETA模型生成可视化：

cd ./THETA

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 300

为基线模型生成可视化：

python -m visualization.run_visualization \
    --baseline \
    --result_dir ./result/baseline \
    --dataset my_dataset \
    --model lda \
    --num_topics 20 \
    --language en \
    --dpi 300

将 lda 替换为 etm、ctm 或 dtm 可用于其他基线模型。

自定义可视化¶

更高分辨率：

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 600

中文可视化：

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset chinese_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language zh \
    --dpi 300

中文可视化使用适当的字体并正确处理字符渲染。

训练期间跳过可视化¶

跳过自动可视化以节省时间：

python run_pipeline.py \
    --dataset my_dataset \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --skip-viz \
    --gpu 0 \
    --language en

之后可以使用单独的可视化命令生成可视化。