Update README.md
Browse files
README.md
CHANGED
@@ -24,15 +24,22 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
|
|
24 |
|
25 |
・LLM2024コンペティションのために本モデルは作成いたしました。
|
26 |
|
27 |
-
Language
|
28 |
-
|
29 |
-
|
|
|
|
|
|
|
|
|
30 |
|
31 |
-
|
32 |
!pip install -U bitsandbytes
|
33 |
!pip install -U transformers
|
34 |
!pip install -U accelerate
|
35 |
!pip install -U datasets
|
|
|
|
|
|
|
36 |
from transformers import (
|
37 |
AutoModelForCausalLM,
|
38 |
AutoTokenizer,
|
@@ -55,7 +62,8 @@ model = AutoModelForCausalLM.from_pretrained(
|
|
55 |
device_map="auto",
|
56 |
token = HF_TOKEN
|
57 |
)
|
58 |
-
|
|
|
59 |
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
|
60 |
datasets = []
|
61 |
with open("./YOUR-DATA.jsonl", "r") as f:
|
@@ -75,7 +83,8 @@ for data in tqdm(datasets):
|
|
75 |
{input}
|
76 |
### 回答:
|
77 |
"""
|
78 |
-
|
|
|
79 |
tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
|
80 |
with torch.no_grad():
|
81 |
outputs = model.generate(
|
@@ -93,9 +102,10 @@ with open(f"./{model_name}-outputs.jsonl", 'w', encoding='utf-8') as f:
|
|
93 |
for result in results:
|
94 |
json.dump(result, f, ensure_ascii=False) # ensure_ascii=False for handling non-ASCII characters
|
95 |
f.write('\n')
|
|
|
96 |
|
97 |
|
98 |
-
|
99 |
まずサンプルコードを回して回答を確認すると「RGBの問題」と、「大喜利」についてうまく答えられていないことがわかったため、
|
100 |
|
101 |
それらに対して
|
|
|
24 |
|
25 |
・LLM2024コンペティションのために本モデルは作成いたしました。
|
26 |
|
27 |
+
| Language | Language |
|
28 |
+
| ---- | ---- |
|
29 |
+
|Japanese| ichikara-instruction-003-001-1.json A manually constructed instruction dataset|
|
30 |
+
|データセット作成チーム|関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)|
|
31 |
+
|
32 |
+
|
33 |
+
〇Usage
|
34 |
|
35 |
+
```
|
36 |
!pip install -U bitsandbytes
|
37 |
!pip install -U transformers
|
38 |
!pip install -U accelerate
|
39 |
!pip install -U datasets
|
40 |
+
```
|
41 |
+
|
42 |
+
```
|
43 |
from transformers import (
|
44 |
AutoModelForCausalLM,
|
45 |
AutoTokenizer,
|
|
|
62 |
device_map="auto",
|
63 |
token = HF_TOKEN
|
64 |
)
|
65 |
+
```
|
66 |
+
```
|
67 |
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
|
68 |
datasets = []
|
69 |
with open("./YOUR-DATA.jsonl", "r") as f:
|
|
|
83 |
{input}
|
84 |
### 回答:
|
85 |
"""
|
86 |
+
```
|
87 |
+
```
|
88 |
tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
|
89 |
with torch.no_grad():
|
90 |
outputs = model.generate(
|
|
|
102 |
for result in results:
|
103 |
json.dump(result, f, ensure_ascii=False) # ensure_ascii=False for handling non-ASCII characters
|
104 |
f.write('\n')
|
105 |
+
```
|
106 |
|
107 |
|
108 |
+
〇作成時に考えたこと
|
109 |
まずサンプルコードを回して回答を確認すると「RGBの問題」と、「大喜利」についてうまく答えられていないことがわかったため、
|
110 |
|
111 |
それらに対して
|