Qwen2.5-3B-MATH-GRPO-KOR

모델 개요

한국어 수학 추론에 특화된 Qwen2.5-3B 모델입니다. GRPO(Group Relative Policy Optimization)를 사용하여 한국어 수학 문제 해결 능력을 향상시켰습니다.

주요 특징

베이스 모델: Qwen/Qwen2.5-3B-Instruct
학습 방법: GRPO (Group Relative Policy Optimization)
데이터셋: ChuGyouk/AI-MO-NuminaMath-CoT-Ko (5,000 샘플)
언어: 한국어
특화 분야: 수학 문제 해결 및 추론

사용법

from unsloth import FastLanguageModel

# 모델 로드
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="byh711/Qwen2.5-3B-MATH-GRPO-KOR",
    max_seq_length=1024,
    load_in_4bit=True,
)

# 추론 모드
FastLanguageModel.for_inference(model)

# 프롬프트 설정
system_prompt = '''다음 형식으로 정확히 답변해주세요:
<reasoning>
단계별 풀이 과정을 자세히 설명
</reasoning>
<answer>
최종 답안
</answer>'''

# 수학 문제 입력
question = "어떤 수의 8배가 120보다 작을 때, 그 수의 최대 정수를 구하세요."

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": question}
]

# 토큰화 및 생성
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_ids=inputs, max_new_tokens=200, temperature=0.1)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

출력 형식

모델은 다음과 같은 XML 형식으로 답변을 생성합니다:

<reasoning>
1. 주어진 조건: 어떤 수를 x라고 하면, 8x < 120
2. 부등식 풀이: x < 120/8 = 15
3. x는 15보다 작아야 하므로, 최대 정수는 14
</reasoning>
<answer>
14
</answer>

학습 세부사항

학습 데이터: 5,000개 한국어 수학 문제
에포크: 2
배치 크기: 4 (효과적)
학습률: 5e-6
옵티마이저: AdamW 8bit
LoRA Rank: 64

라이선스

Apache 2.0

byh711
/

Qwen2.5-3B-MATH-GRPO-KOR

Qwen2.5-3B-MATH-GRPO-KOR

모델 개요

주요 특징

사용법

출력 형식

학습 세부사항

라이선스

Model tree for byh711/Qwen2.5-3B-MATH-GRPO-KOR

Dataset used to train byh711/Qwen2.5-3B-MATH-GRPO-KOR