中文数据集示例¶

本示例演示如何使用THETA处理中文文本。

数据集描述¶

领域：微博帖子
规模：8000篇文档
语言：中文
来源：微博公开API
主题：各类社会讨论

步骤1：数据清洗¶

清洗原始中文文本：

cd ./THETA

python -m dataclean.main \
    --input ./data/weibo/raw_data.csv \
    --output ./data/weibo/weibo_cleaned.csv \
    --language chinese

清洗移除： - URL和提及 - 特殊符号 - 过多标点 - 非中文字符

步骤2：预处理¶

python prepare_data.py \
    --dataset weibo \
    --model theta \
    --model_size 0.6B \
    --mode zero_shot \
    --vocab_size 5000 \
    --batch_size 32 \
    --max_length 512 \
    --gpu 0

通义千问模型原生支持中文分词。

步骤3：训练模型¶

python run_pipeline.py \
    --dataset weibo \
    --models theta \
    --model_size 0.6B \
    --mode zero_shot \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --hidden_dim 512 \
    --learning_rate 0.002 \
    --gpu 0 \
    --language zh

注意：--language zh 确保正确渲染中文字体。

步骤4：结果¶

发现的主题包括： - 生活，分享，日常，今天，开心（日常生活） - 工作，公司，同事，加班，项目（工作） - 美食，餐厅，好吃，推荐，味道（美食） - 旅游，景点，风景，拍照，美丽（旅游）

可视化使用适当字体正确显示中文字符。

步骤5：时序分析¶

如果微博数据包含时间戳，使用DTM：

python prepare_data.py \
    --dataset weibo \
    --model dtm \
    --vocab_size 5000 \
    --time_column year

python run_pipeline.py \
    --dataset weibo \
    --models dtm \
    --num_topics 20 \
    --epochs 100 \
    --batch_size 64 \
    --gpu 0 \
    --language zh

DTM揭示主题随时间演化： - 远程工作讨论的兴起（2020-2021） - 环保意识增强（2021-2023） - 技术采纳趋势（2020-2023）