NibiruTwin commited on
Commit
7780c47
·
verified ·
1 Parent(s): 091391b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -7
README.md CHANGED
@@ -24,15 +24,22 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
24
 
25
  ・LLM2024コンペティションのために本モデルは作成いたしました。
26
 
27
- Language Dataset description
28
- Japanese ichikara-instruction-003-001-1.json A manually constructed instruction dataset
29
- データセット作成チーム: 関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)
 
 
 
 
30
 
31
- Usage
32
  !pip install -U bitsandbytes
33
  !pip install -U transformers
34
  !pip install -U accelerate
35
  !pip install -U datasets
 
 
 
36
  from transformers import (
37
  AutoModelForCausalLM,
38
  AutoTokenizer,
@@ -55,7 +62,8 @@ model = AutoModelForCausalLM.from_pretrained(
55
  device_map="auto",
56
  token = HF_TOKEN
57
  )
58
-
 
59
  tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
60
  datasets = []
61
  with open("./YOUR-DATA.jsonl", "r") as f:
@@ -75,7 +83,8 @@ for data in tqdm(datasets):
75
  {input}
76
  ### 回答:
77
  """
78
-
 
79
  tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
80
  with torch.no_grad():
81
  outputs = model.generate(
@@ -93,9 +102,10 @@ with open(f"./{model_name}-outputs.jsonl", 'w', encoding='utf-8') as f:
93
  for result in results:
94
  json.dump(result, f, ensure_ascii=False) # ensure_ascii=False for handling non-ASCII characters
95
  f.write('\n')
 
96
 
97
 
98
- 作成時に考えたこと
99
  まずサンプルコードを回して回答を確認すると「RGBの問題」と、「大喜利」についてうまく答えられていないことがわかったため、
100
 
101
  それらに対して
 
24
 
25
  ・LLM2024コンペティションのために本モデルは作成いたしました。
26
 
27
+ | Language | Language |
28
+ | ---- | ---- |
29
+ |Japanese| ichikara-instruction-003-001-1.json A manually constructed instruction dataset|
30
+ |データセット作成チーム|関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)|
31
+
32
+
33
+ 〇Usage
34
 
35
+ ```
36
  !pip install -U bitsandbytes
37
  !pip install -U transformers
38
  !pip install -U accelerate
39
  !pip install -U datasets
40
+ ```
41
+
42
+ ```
43
  from transformers import (
44
  AutoModelForCausalLM,
45
  AutoTokenizer,
 
62
  device_map="auto",
63
  token = HF_TOKEN
64
  )
65
+ ```
66
+ ```
67
  tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
68
  datasets = []
69
  with open("./YOUR-DATA.jsonl", "r") as f:
 
83
  {input}
84
  ### 回答:
85
  """
86
+ ```
87
+ ```
88
  tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
89
  with torch.no_grad():
90
  outputs = model.generate(
 
102
  for result in results:
103
  json.dump(result, f, ensure_ascii=False) # ensure_ascii=False for handling non-ASCII characters
104
  f.write('\n')
105
+ ```
106
 
107
 
108
+ 〇作成時に考えたこと
109
  まずサンプルコードを回して回答を確認すると「RGBの問題」と、「大喜利」についてうまく答えられていないことがわかったため、
110
 
111
  それらに対して