visualization.run_visualization¶
独立的可视化生成工具。
基本用法¶
必需参数¶
| 参数 | 类型 | 描述 |
|---|---|---|
--result_dir |
字符串 | 结果目录路径 |
--dataset |
字符串 | 数据集名称 |
THETA模型参数¶
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
--mode |
字符串 | zero_shot |
训练模式(用于THETA模型) |
--model_size |
字符串 | 0.6B |
通义千问模型规模(用于THETA模型) |
基线模型参数¶
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
--baseline |
标志 | False | 指示为基线模型 |
--model |
字符串 | None | 基线模型名称:lda、etm、ctm 或 dtm |
--num_topics |
整数 | 20 |
主题数量(用于基线模型) |
输出配置¶
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
--language |
字符串 | en |
可视化语言:en 或 zh |
--dpi |
整数 | 300 |
图像分辨率(每英寸点数) |
示例¶
THETA模型可视化:
python -m visualization.run_visualization \
--result_dir ./result/0.6B \
--dataset my_dataset \
--mode zero_shot \
--model_size 0.6B \
--language en \
--dpi 300
LDA模型可视化:
python -m visualization.run_visualization \
--baseline \
--result_dir ./result/baseline \
--dataset my_dataset \
--model lda \
--num_topics 20 \
--language en \
--dpi 300
高分辨率可视化:
python -m visualization.run_visualization \
--result_dir ./result/0.6B \
--dataset my_dataset \
--mode zero_shot \
--model_size 0.6B \
--language en \
--dpi 600
中文可视化:
python -m visualization.run_visualization \
--result_dir ./result/0.6B \
--dataset chinese_dataset \
--mode zero_shot \
--model_size 0.6B \
--language zh \
--dpi 300
输出文件¶
可视化结果保存到与模型结果相同的目录:
- topic_words_bars.png:主题词条形图
- topic_similarity.png:主题相似性热图
- doc_topic_umap.png:文档-主题UMAP投影
- topic_wordclouds.png:每个主题的词云
- metrics.png:评估指标比较
- pyldavis.html:交互式可视化
dataclean.main¶
用于预处理原始文本的数据清洗模块。
基本用法¶
参数¶
| 参数 | 类型 | 描述 |
|---|---|---|
--input |
字符串 | 输入的CSV文件路径或目录 |
--output |
字符串 | 输出的CSV文件路径或目录 |
--language |
字符串 | 语言:english 或 chinese |
示例¶
清洗单个文件(英文):
python -m dataclean.main \
--input ./data/raw_data.csv \
--output ./data/cleaned_data.csv \
--language english
清洗单个文件(中文):
python -m dataclean.main \
--input ./data/raw_data.csv \
--output ./data/cleaned_data.csv \
--language chinese
清洗目录:
清洗操作¶
英文清洗: - 移除HTML标签和实体 - 移除URL和电子邮件地址 - 移除特殊字符(基本标点符号除外) - 规范化空白 - 移除非ASCII字符(可选) - 转换为小写(可选)
中文清洗: - 移除HTML标签和实体 - 移除URL和电子邮件地址 - 规范化全角和半角字符 - 处理中文标点符号 - 移除非中文字符(可选) - 保留词边界