Files changed (1) hide show
  1. README.md +67 -55
README.md CHANGED
@@ -1,55 +1,67 @@
1
- ---
2
- license: apache-2.0
3
- datasets:
4
- - p1atdev/gsm8k-ja-slim
5
- - SyntheticVeryEasyMath5k
6
- - SyntheticEasyMath1k
7
- language:
8
- - ja
9
- base_model:
10
- - Qwen/Qwen2.5-1.5B
11
- library_name: transformers
12
- tags:
13
- - grpo
14
- ---
15
-
16
- # Qwen2.5 1.5B R15
17
-
18
- The `<|im_end|>` token does not work.
19
-
20
- ## Example
21
-
22
- ```py
23
- from transformers import pipeline
24
-
25
- messages = [
26
- {
27
- "role": "system",
28
- "content": """\
29
- あなたは思慮深いassistantとして回答します。
30
- userの質問に対して、<think></think>ブロック内で思考してから、<answer></answer>内にファイナルアンサーし、最後に<|im_end|>で回答終了してください。
31
- 具体的には「<think>ここで思考</think><answer>ここに最終解答</answer><|im_end|>」というような形です。
32
- userの指示に対応しなさい。""".strip(),
33
- {
34
- "role": "user",
35
- "content": """次の問題を解き、計算結果を数値のみで解答してください。
36
- ブレナンは学校の課題のために研究をしており、参考にするためにインターネットからファイルをコンピュータにダウンロードする必要がありました。800個のファイルをダウンロードした後、役に立たないものを70%削除しました。さらに400個のファイルをダウンロードしましたが、再び3/5が関係ないことに気づきました。2回目にダウンロードした関係のないファイルを削除した後、彼は何個の価値のあるファイルを持っていましたか?""",
37
- },
38
- ]
39
- prompt = tokenizer.apply_chat_template(
40
- messages,
41
- tokenize=False,
42
- add_generation_prompt=True,
43
- )
44
- prompt += "<think>" # optional
45
- print(prompt)
46
-
47
- print(
48
- pipe(
49
- prompt,
50
- do_sample=True,
51
- max_new_tokens=512,
52
- temperature=0.9,
53
- )[0]["generated_text"][len(prompt) :].strip()
54
- )
55
- ```
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - p1atdev/gsm8k-ja-slim
5
+ - SyntheticVeryEasyMath5k
6
+ - SyntheticEasyMath1k
7
+ language:
8
+ - zho
9
+ - eng
10
+ - fra
11
+ - spa
12
+ - por
13
+ - deu
14
+ - ita
15
+ - rus
16
+ - jpn
17
+ - kor
18
+ - vie
19
+ - tha
20
+ - ara
21
+ base_model:
22
+ - Qwen/Qwen2.5-1.5B
23
+ library_name: transformers
24
+ tags:
25
+ - grpo
26
+ ---
27
+
28
+ # Qwen2.5 1.5B R15
29
+
30
+ The `<|im_end|>` token does not work.
31
+
32
+ ## Example
33
+
34
+ ```py
35
+ from transformers import pipeline
36
+
37
+ messages = [
38
+ {
39
+ "role": "system",
40
+ "content": """\
41
+ あなたは思慮深いassistantとして回答します。
42
+ userの質問に対して、<think></think>ブロック内で思考してから、<answer></answer>内にファイナルアンサーし、最後に<|im_end|>で回答終了してください。
43
+ 具体的には「<think>ここで思考</think><answer>ここに最終解答</answer><|im_end|>」というような形です。
44
+ userの指示に対応しなさい。""".strip(),
45
+ {
46
+ "role": "user",
47
+ "content": """次の問題を解き、計算結果を数値のみで解答してください。
48
+ ブレナンは学校の課題のために研究をしており、参考にするためにインターネットからファイルをコンピュータにダウンロードする必要がありました。800個のファイルをダウンロードした後、役に立たないものを70%削除しました。さらに400個のファイルをダウンロードしましたが、再び3/5が関係ないことに気づきました。2回目にダウンロードした関係のないファイルを削除した後、彼は何個の価値のあるファイルを持っていましたか?""",
49
+ },
50
+ ]
51
+ prompt = tokenizer.apply_chat_template(
52
+ messages,
53
+ tokenize=False,
54
+ add_generation_prompt=True,
55
+ )
56
+ prompt += "<think>" # optional
57
+ print(prompt)
58
+
59
+ print(
60
+ pipe(
61
+ prompt,
62
+ do_sample=True,
63
+ max_new_tokens=512,
64
+ temperature=0.9,
65
+ )[0]["generated_text"][len(prompt) :].strip()
66
+ )
67
+ ```