中文数据处理¶
THETA处理中文文本的专门指南。
专门预处理¶
中文文本需要与英文不同的处理方式:
数据清洗:
python -m dataclean.main \
--input ./data/chinese_corpus/raw_data.csv \
--output ./data/chinese_corpus/chinese_corpus_cleaned.csv \
--language chinese
中文清洗操作: - 移除HTML实体 - 规范化全角和半角字符 - 处理中文标点符号 - 保留中文词边界 - 繁体转简体(可选)
预处理:
python prepare_data.py \
--dataset chinese_corpus \
--model theta \
--model_size 0.6B \
--mode zero_shot \
--vocab_size 5000 \
--batch_size 32 \
--gpu 0
通义千问模型内部处理中文分词。
训练:
python run_pipeline.py \
--dataset chinese_corpus \
--models theta \
--model_size 0.6B \
--mode zero_shot \
--num_topics 20 \
--epochs 100 \
--batch_size 64 \
--gpu 0 \
--language zh
--language zh设置确保可视化中的中文字体。
中文可视化¶
中文可视化需要正确的字体配置:
python -m visualization.run_visualization \
--result_dir ./result/0.6B \
--dataset chinese_corpus \
--mode zero_shot \
--model_size 0.6B \
--language zh \
--dpi 300
可视化模块会自动: - 选择兼容中文的字体 - 处理字符编码 - 调整中文文本布局 - 使用中文字符渲染词云
中英文混合数据¶
对于包含两种语言的数据集:
- 按中文清洗(保留两种语言)
- 正常预处理(通义千问处理多语言)
- 使用适当的语言设置进行训练
- 可视化可能显示混合文本
应根据主要内容语言在--language参数中指定主要语言。