Qwen1.5-1.8B-Chat-iCurSeek 模型使用指南
这是一个基于 Qwen1.5-1.8B-Chat-iCurSeek 模型进行 LoRA 微调的模型。本指南将帮助你完成模型的安装和使用。
环境要求
- Python 3.8+
- PyTorch 2.0+
- CUDA 11.7+ (用于GPU加速)
- 至少 8GB 显存 (用于推理)
安装步骤
- 创建并激活虚拟环境:
conda create -n qwen python=3.10
conda activate qwen
- 安装依赖:
pip install torch transformers accelerate
pip install modelscope
- 下载模型:
from modelscope import snapshot_download
model_dir = "Qwen1.5-1.8B-Chat-iCurSeek"
model_path = snapshot_download(model_dir)
使用方法
基础使用
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained(
"Qwen1.5-1.8B-Chat-iCurSeek",
torch_dtype=torch.float16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-1.8B-Chat-iCurSeek")
# 加载 LoRA 权重
model.load_adapter("path/to/adapter") # 替换为实际的 LoRA 权重路径
# 构建对话
messages = [
{"role": "system", "content": "你是一个有帮助的AI助手。"},
{"role": "user", "content": "你好,请介绍一下自己。"}
]
# 生成回复
response = model.chat(tokenizer, messages)
print(response)
提示词模板示例
- 基础对话模板:
messages = [
{"role": "system", "content": "你是一个有帮助的AI助手。"},
{"role": "user", "content": "问题内容"},
{"role": "assistant", "content": "AI的回答"},
{"role": "user", "content": "新的问题"}
]
- 角色扮演模板:
messages = [
{"role": "system", "content": "你现在是一位经验丰富的Python编程教师。"},
{"role": "user", "content": "请解释什么是装饰器?"}
]
- 任务指导模板:
messages = [
{"role": "system", "content": "你是一个专业的文章校对员,善于改进文章的表达和结构。"},
{"role": "user", "content": "请帮我修改以下文章:[文章内容]"}
]
- 多轮对话示例:
messages = [
{"role": "system", "content": "你是一个专业的数学老师。"},
{"role": "user", "content": "什么是二次方程?"},
{"role": "assistant", "content": "二次方程是一个包含未知数的平方项的方程,一般形式为 ax² + bx + c = 0,其中 a ≠ 0。"},
{"role": "user", "content": "那么如何求解二次方程呢?"}
]
生成参数设置
可以通过调整以下参数来控制模型的输出:
response = model.chat(
tokenizer,
messages,
temperature=0.7, # 控制输出的随机性,范围0-1,越大越随机
top_p=0.9, # 控制输出的多样性
max_length=2048, # 最大输出长度
repetition_penalty=1.1 # 重复惩罚系数
)
注意事项
- 确保有足够的显存运行模型
- 首次加载模型时会下载模型文件,请确保网络连接正常
- 使用 float16 精度可以减少显存占用
- 建议在生产环境中使用 try-except 进行异常处理
常见问题解决
显存不足:
- 尝试减小 batch_size
- 使用 float16 精度
- 使用梯度检查点(gradient checkpointing)
生成速度慢:
- 检查是否使用了 GPU 加速
- 适当减小 max_length 参数
- 考虑使用批处理模式
输出质量问题:
- 调整 temperature 和 top_p 参数
- 优化 system prompt
- 确保输入提示词的质量和清晰度
许可证
请确保遵守 Qwen 模型的使用许可证要求。
- Downloads last month
- 4
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support