ShotaMatsumoto
/

llm-jp-3-13b-finetune-2

text-generation-inference

Model card Files Files and versions Community

ShotaMatsumoto commited on Dec 23, 2024

Commit

dc2a6e4

·

verified ·

1 Parent(s): 199e3fd

Update README.md

Files changed (1) hide show

README.md +68 -0

README.md CHANGED Viewed

@@ -79,6 +79,74 @@ generated_text = generate_text(prompt)
 print("\nGenerated Text:")
 print(generated_text)
 # jsonlファイルの出力方法は以下の通りです。
 import json

 print("\nGenerated Text:")
 print(generated_text)
+# 量子化
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from peft import PeftModel
+import torch
+from transformers import BitsAndBytesConfig
+ベースモデル ID とアダプタファイルパス
+base_model_id = "llm-jp/llm-jp-3-13b"
+adapter_model_path = "path/to/"
+デバイス設定
+device = "cuda" if torch.cuda.is_available() else "cpu"
+量子化の設定
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,  # 4-bit 量子化を有効化
+    bnb_4bit_use_double_quant=True,
+    bnb_4bit_quant_type="nf4",  # 量子化スキーム
+    bnb_4bit_compute_dtype=torch.float16,  # 推論時の計算精度
+)
+トークナイザーのロード
+tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
+ベースモデルのロード（量子化設定を使用）
+base_model = AutoModelForCausalLM.from_pretrained(
+    base_model_id,
+    quantization_config=bnb_config,
+    device_map="auto",  # 自動的に GPU に割り当て
+)
+アダプタの読み込み
+model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)
+`pad_token_id` の設定（トークナイザーから取得）
+model.config.pad_token_id = tokenizer.pad_token_id
+推論関数
+def generate_text(prompt, max_length=256, temperature=0.7):
+    # トークナイズして `attention_mask` を設定し、max_length を適用
+    inputs = tokenizer(
+        prompt,
+        return_tensors="pt",
+        padding=True,
+        truncation=True,
+        max_length=max_length  # 最大トークン数を制限
+    ).to(device)
+    outputs = model.generate(
+        inputs["input_ids"],
+        attention_mask=inputs["attention_mask"],
+        max_length=max_length,
+        temperature=temperature,
+        do_sample=True,
+        top_k=50,
+        top_p=0.9,
+        pad_token_id=tokenizer.pad_token_id  # 安全な動作のため明示的に指定
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+テストプロンプト
+prompt = "日本の経済について説明してください。"
+print("Generating text...")
+generated_text = generate_text(prompt, max_length=256)  # 最大長さを明示的に指定
+print("\nGenerated Text:")
+print(generated_text)
 # jsonlファイルの出力方法は以下の通りです。
 import json