p1atdev commited on
Commit
d56472a
·
verified ·
1 Parent(s): 72dca67

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -1
README.md CHANGED
@@ -7,6 +7,9 @@ base_model:
7
  - Qwen/Qwen2.5-0.5B
8
  ---
9
 
 
 
 
10
 
11
  prompt format:
12
  ```
@@ -56,9 +59,10 @@ print(pipe(prompt)[0]["generated_text"][len(prompt):])
56
 
57
  ## Training information
58
 
 
59
  - Device: 1x A100 80G
60
  - GPU Hour: about 1 hour
61
- - Base model: [Qwen/Qwen2.5-0.5B](https://huggingface.co/Qwen/Qwen2.5-0.5B)
62
 
63
  Wandb log: https://wandb.ai/p1atdev/grpo-math-01/runs/ytv8wxll
64
 
 
7
  - Qwen/Qwen2.5-0.5B
8
  ---
9
 
10
+ 簡単な算数問題を解けるように GRPO で学習してみた。学習コードは下の方にあります。
11
+
12
+ 学習データは簡単な問題なのでその場で合成したものを使いました。(コード参照)
13
 
14
  prompt format:
15
  ```
 
59
 
60
  ## Training information
61
 
62
+ - Base model: [Qwen/Qwen2.5-0.5B](https://huggingface.co/Qwen/Qwen2.5-0.5B)
63
  - Device: 1x A100 80G
64
  - GPU Hour: about 1 hour
65
+ - Total training steps: 140 steps ([the last checkpoint](https://huggingface.co/p1atdev/qwen2.5-0.5b-grpo-math-01/blob/9ede090f5ed41d88c16ffbc56a81b0772f19679e/model.safetensors))
66
 
67
  Wandb log: https://wandb.ai/p1atdev/grpo-math-01/runs/ytv8wxll
68