安装¶
本指南将帮助您在系统上安装THETA。
系统要求¶
THETA需要以下系统配置:
操作系统: - Linux(推荐Ubuntu 18.04或更高版本) - macOS 10.14或更高版本 - Windows 10/11(带WSL2)
硬件要求:
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| Python | 3.8+ | 3.9+ |
| 内存 | 8GB | 16GB+ |
| 显存 | 4GB(0.6B模型) | 12GB+(4B模型) |
| CUDA | 11.8+ | 12.1+ |
| 存储空间 | 20GB | 50GB+ |
模型特定GPU要求:
| 模型规模 | 参数量 | 嵌入维度 | 所需显存 | 适用场景 |
|---|---|---|---|---|
| 0.6B | 6亿 | 1024 | ~4GB | 快速实验,资源有限 |
| 4B | 40亿 | 2560 | ~12GB | 性能和速度平衡 |
| 8B | 80亿 | 4096 | ~24GB | 最佳质量结果 |
安装步骤¶
步骤1:克隆仓库¶
步骤2:创建虚拟环境¶
使用conda(推荐):
使用venv:
python -m venv theta-env
source theta-env/bin/activate # 在Linux/macOS上
# theta-env\Scripts\activate # 在Windows上
步骤3:安装依赖¶
安装包含以下关键包: - PyTorch(带CUDA支持) - Transformers - Sentence-Transformers - Gensim - scikit-learn - NumPy、Pandas - Matplotlib、Seaborn - UMAP-learn
步骤4:下载嵌入模型¶
下载Qwen3-Embedding模型:
# 0.6B模型(推荐首次用户使用)
python scripts/download_models.py --model 0.6B
# 4B模型
python scripts/download_models.py --model 4B
# 8B模型
python scripts/download_models.py --model 8B
模型将默认下载到 /root/embedding_models/ 目录。
验证安装¶
检查PyTorch和CUDA是否正确安装:
python -c "import torch; print(f'PyTorch版本:{torch.__version__}')"
python -c "import torch; print(f'CUDA可用:{torch.cuda.is_available()}')"
python -c "import torch; print(f'CUDA版本:{torch.version.cuda}')"
预期输出:
检查THETA安装: