Qwen1.5-1.8B-Chat-iCurSeek 模型使用指南

这是一个基于 Qwen1.5-1.8B-Chat-iCurSeek 模型进行 LoRA 微调的模型。本指南将帮助你完成模型的安装和使用。

环境要求

Python 3.8+
PyTorch 2.0+
CUDA 11.7+ (用于GPU加速)
至少 8GB 显存 (用于推理)

安装步骤

创建并激活虚拟环境：

conda create -n qwen python=3.10
conda activate qwen

安装依赖：

pip install torch transformers accelerate
pip install modelscope

下载模型：

from modelscope import snapshot_download
model_dir = "Qwen1.5-1.8B-Chat-iCurSeek"
model_path = snapshot_download(model_dir)

使用方法

基础使用

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained(
    "Qwen1.5-1.8B-Chat-iCurSeek",
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-1.8B-Chat-iCurSeek")

# 加载 LoRA 权重
model.load_adapter("path/to/adapter")  # 替换为实际的 LoRA 权重路径

# 构建对话
messages = [
    {"role": "system", "content": "你是一个有帮助的AI助手。"},
    {"role": "user", "content": "你好，请介绍一下自己。"}
]

# 生成回复
response = model.chat(tokenizer, messages)
print(response)

提示词模板示例

基础对话模板：

messages = [
    {"role": "system", "content": "你是一个有帮助的AI助手。"},
    {"role": "user", "content": "问题内容"},
    {"role": "assistant", "content": "AI的回答"},
    {"role": "user", "content": "新的问题"}
]

角色扮演模板：

messages = [
    {"role": "system", "content": "你现在是一位经验丰富的Python编程教师。"},
    {"role": "user", "content": "请解释什么是装饰器？"}
]

任务指导模板：

messages = [
    {"role": "system", "content": "你是一个专业的文章校对员，善于改进文章的表达和结构。"},
    {"role": "user", "content": "请帮我修改以下文章：[文章内容]"}
]

多轮对话示例：

messages = [
    {"role": "system", "content": "你是一个专业的数学老师。"},
    {"role": "user", "content": "什么是二次方程？"},
    {"role": "assistant", "content": "二次方程是一个包含未知数的平方项的方程，一般形式为 ax² + bx + c = 0，其中 a ≠ 0。"},
    {"role": "user", "content": "那么如何求解二次方程呢？"}
]

生成参数设置

可以通过调整以下参数来控制模型的输出：

response = model.chat(
    tokenizer,
    messages,
    temperature=0.7,    # 控制输出的随机性，范围0-1，越大越随机
    top_p=0.9,         # 控制输出的多样性
    max_length=2048,   # 最大输出长度
    repetition_penalty=1.1  # 重复惩罚系数
)

注意事项

确保有足够的显存运行模型
首次加载模型时会下载模型文件，请确保网络连接正常
使用 float16 精度可以减少显存占用
建议在生产环境中使用 try-except 进行异常处理

常见问题解决

显存不足：
- 尝试减小 batch_size
- 使用 float16 精度
- 使用梯度检查点（gradient checkpointing）
生成速度慢：
- 检查是否使用了 GPU 加速
- 适当减小 max_length 参数
- 考虑使用批处理模式
输出质量问题：
- 调整 temperature 和 top_p 参数
- 优化 system prompt
- 确保输入提示词的质量和清晰度

许可证

请确保遵守 Qwen 模型的使用许可证要求。