跳转至

中文数据处理

English | 中文


THETA处理中文文本的专门指南。


专门预处理

中文文本需要与英文不同的处理方式:

数据清洗:

python -m dataclean.main \
    --input ./data/chinese_corpus/raw_data.csv \
    --output ./data/chinese_corpus/chinese_corpus_cleaned.csv \
    --language chinese

中文清洗操作: - 移除HTML实体 - 规范化全角和半角字符 - 处理中文标点符号 - 保留中文词边界 - 繁体转简体(可选)

预处理:

python prepare_data.py \
    --dataset chinese_corpus \
    --model theta \
    --model_size 0.6B \
    --mode zero_shot \
    --vocab_size 5000 \
    --batch_size 32 \
    --gpu 0

通义千问模型内部处理中文分词。

训练:

python run_pipeline.py \
    --dataset chinese_corpus \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --gpu 0 \
    --language zh

--language zh设置确保可视化中的中文字体。


中文可视化

中文可视化需要正确的字体配置:

python -m visualization.run_visualization \
    --result_dir ./result/0.6B \
    --dataset chinese_corpus \
    --mode zero_shot \
    --model_size 0.6B \
    --language zh \
    --dpi 300

可视化模块会自动: - 选择兼容中文的字体 - 处理字符编码 - 调整中文文本布局 - 使用中文字符渲染词云


中英文混合数据

对于包含两种语言的数据集:

  1. 按中文清洗(保留两种语言)
  2. 正常预处理(通义千问处理多语言)
  3. 使用适当的语言设置进行训练
  4. 可视化可能显示混合文本

应根据主要内容语言在--language参数中指定主要语言。