跳转至

visualization.run_visualization

English | 中文


独立的可视化生成工具。


基本用法

python -m visualization.run_visualization --result_dir 目录路径 --dataset 数据集名称 [选项]

必需参数

参数 类型 描述
--result_dir 字符串 结果目录路径
--dataset 字符串 数据集名称

THETA模型参数

参数 类型 默认值 描述
--mode 字符串 zero_shot 训练模式(用于THETA模型)
--model_size 字符串 0.6B 通义千问模型规模(用于THETA模型)

基线模型参数

参数 类型 默认值 描述
--baseline 标志 False 指示为基线模型
--model 字符串 None 基线模型名称:ldaetmctmdtm
--num_topics 整数 20 主题数量(用于基线模型)

输出配置

参数 类型 默认值 描述
--language 字符串 en 可视化语言:enzh
--dpi 整数 300 图像分辨率(每英寸点数)

示例

THETA模型可视化:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 300

LDA模型可视化:

python -m visualization.run_visualization \
    --baseline \
    --result_dir ./result/baseline \
    --dataset my_dataset \
    --model lda \
    --num_topics 20 \
    --language en \
    --dpi 300

高分辨率可视化:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset my_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language en \
    --dpi 600

中文可视化:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset chinese_dataset \
    --mode zero_shot \
    --model_size 0.6B \
    --language zh \
    --dpi 300


输出文件

可视化结果保存到与模型结果相同的目录: - topic_words_bars.png:主题词条形图 - topic_similarity.png:主题相似性热图 - doc_topic_umap.png:文档-主题UMAP投影 - topic_wordclouds.png:每个主题的词云 - metrics.png:评估指标比较 - pyldavis.html:交互式可视化


dataclean.main

用于预处理原始文本的数据清洗模块。

基本用法

python -m dataclean.main --input 输入路径 --output 输出路径 --language 语言

参数

参数 类型 描述
--input 字符串 输入的CSV文件路径或目录
--output 字符串 输出的CSV文件路径或目录
--language 字符串 语言:englishchinese

示例

清洗单个文件(英文):

python -m dataclean.main \
    --input ./data/raw_data.csv \
    --output ./data/cleaned_data.csv \
    --language english

清洗单个文件(中文):

python -m dataclean.main \
    --input ./data/raw_data.csv \
    --output ./data/cleaned_data.csv \
    --language chinese

清洗目录:

python -m dataclean.main \
    --input ./data/raw/ \
    --output ./data/cleaned/ \
    --language english

清洗操作

英文清洗: - 移除HTML标签和实体 - 移除URL和电子邮件地址 - 移除特殊字符(基本标点符号除外) - 规范化空白 - 移除非ASCII字符(可选) - 转换为小写(可选)

中文清洗: - 移除HTML标签和实体 - 移除URL和电子邮件地址 - 规范化全角和半角字符 - 处理中文标点符号 - 移除非中文字符(可选) - 保留词边界