跳转至

中文数据集示例

English | 中文


本示例演示如何使用THETA处理中文文本。


数据集描述

  • 领域:微博帖子
  • 规模:8000篇文档
  • 语言:中文
  • 来源:微博公开API
  • 主题:各类社会讨论

步骤1:数据清洗

清洗原始中文文本:

cd ./THETA

python -m dataclean.main \
    --input ./data/weibo/raw_data.csv \
    --output ./data/weibo/weibo_cleaned.csv \
    --language chinese

清洗移除: - URL和提及 - 特殊符号 - 过多标点 - 非中文字符


步骤2:预处理

python prepare_data.py \
    --dataset weibo \
    --model theta \
    --model_size 0.6B \
    --mode zero_shot \
    --vocab_size 5000 \
    --batch_size 32 \
    --max_length 512 \
    --gpu 0

通义千问模型原生支持中文分词。


步骤3:训练模型

python run_pipeline.py \
    --dataset weibo \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --hidden_dim 512 \
    --learning_rate 0.002 \
    --gpu 0 \
    --language zh

注意:--language zh 确保正确渲染中文字体。


步骤4:结果

发现的主题包括: - 生活,分享,日常,今天,开心(日常生活) - 工作,公司,同事,加班,项目(工作) - 美食,餐厅,好吃,推荐,味道(美食) - 旅游,景点,风景,拍照,美丽(旅游)

可视化使用适当字体正确显示中文字符。


步骤5:时序分析

如果微博数据包含时间戳,使用DTM:

python prepare_data.py \
    --dataset weibo \
    --model dtm \
    --vocab_size 5000 \
    --time_column year

python run_pipeline.py \
    --dataset weibo \
    --models dtm \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --gpu 0 \
    --language zh

DTM揭示主题随时间演化: - 远程工作讨论的兴起(2020-2021) - 环保意识增强(2021-2023) - 技术采纳趋势(2020-2023)