跳转至

可视化

English | 中文


训练过程会自动生成可视化。额外的可视化可以单独创建。


可视化输出

topic_words_bars.png 条形图,显示每个主题的前10个词及其概率权重。

topic_similarity.png 热图,显示主题-词分布之间的余弦相似度。

doc_topic_umap.png 文档在主题空间中的UMAP投影。点按主导主题着色。

topic_wordclouds.png 每个主题的词云,大小按词概率缩放。

metrics.png 比较评估指标的条形图。

pyldavis.html 使用pyLDAvis库的交互式可视化。在网页浏览器中打开。


单独生成可视化

为THETA模型生成可视化:

cd ./THETA

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 300

为基线模型生成可视化:

python -m visualization.run_visualization \
    --baseline \
    --result_dir ./result/baseline \
    --dataset my_dataset \
    --model lda \
    --num_topics 20 \
    --language en \
    --dpi 300

lda 替换为 etmctmdtm 可用于其他基线模型。


自定义可视化

更高分辨率:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 600

中文可视化:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset chinese_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language zh \
    --dpi 300

中文可视化使用适当的字体并正确处理字符渲染。


训练期间跳过可视化

跳过自动可视化以节省时间:

python run_pipeline.py \
    --dataset my_dataset \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --skip-viz \
    --gpu 0 \
    --language en

之后可以使用单独的可视化命令生成可视化。