ShotaMatsumoto
/

llm-jp-3-13b-finetune-2

@@ -40,25 +40,20 @@ from peft import PeftModel
 import torch
 #ベースモデル ID とアダプタファイルパス
 base_model_id = "llm-jp/llm-jp-3-13b"
 adapter_model_path = ""/path/to/adapter_model.safetensors""
 #デバイス設定
 device = "cuda" if torch.cuda.is_available() else "cpu"
 #トークナイザーとベースモデルのロード
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
 base_model = AutoModelForCausalLM.from_pretrained(base_model_id, torch_dtype=torch.float16).to(device)
- アダプタの読み込み
 model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)
- 推論関数
 def generate_text(prompt, max_length=256, temperature=0.7):
     inputs = tokenizer(prompt, return_tensors="pt").to(device)
     outputs = model.generate(
@@ -71,29 +66,29 @@ def generate_text(prompt, max_length=256, temperature=0.7):
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
- テストプロンプト
 prompt = "日本の経済について説明してください。"
 print("Generating text...")
 generated_text = generate_text(prompt)
 print("\nGenerated Text:")
 print(generated_text)
 # 量子化
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 import torch
 from transformers import BitsAndBytesConfig
-ベースモデル ID とアダプタファイルパス
 base_model_id = "llm-jp/llm-jp-3-13b"
 adapter_model_path = "path/to/"
-デバイス設定
 device = "cuda" if torch.cuda.is_available() else "cpu"
-量子化の設定
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,  # 4-bit 量子化を有効化
     bnb_4bit_use_double_quant=True,
@@ -101,7 +96,7 @@ bnb_config = BitsAndBytesConfig(
     bnb_4bit_compute_dtype=torch.float16,  # 推論時の計算精度
 )
-トークナイザーのロード
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
 ベースモデルのロード（量子化設定を使用）
@@ -110,14 +105,13 @@ base_model = AutoModelForCausalLM.from_pretrained(
     quantization_config=bnb_config,
     device_map="auto",  # 自動的に GPU に割り当て
 )
-アダプタの読み込み
 model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)
 `pad_token_id` の設定（トークナイザーから取得）
 model.config.pad_token_id = tokenizer.pad_token_id
-推論関数
 def generate_text(prompt, max_length=256, temperature=0.7):
     # トークナイズして `attention_mask` を設定し、max_length を適用
     inputs = tokenizer(
@@ -140,7 +134,7 @@ def generate_text(prompt, max_length=256, temperature=0.7):
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
-テストプロンプト
 prompt = "日本の経済について説明してください。"
 print("Generating text...")
 generated_text = generate_text(prompt, max_length=256)  # 最大長さを明示的に指定

 import torch
 #ベースモデル ID とアダプタファイルパス
 base_model_id = "llm-jp/llm-jp-3-13b"
 adapter_model_path = ""/path/to/adapter_model.safetensors""
 #デバイス設定
 device = "cuda" if torch.cuda.is_available() else "cpu"
 #トークナイザーとベースモデルのロード
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
 base_model = AutoModelForCausalLM.from_pretrained(base_model_id, torch_dtype=torch.float16).to(device)
+#アダプタの読み込み
 model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)
+#推論関数
 def generate_text(prompt, max_length=256, temperature=0.7):
     inputs = tokenizer(prompt, return_tensors="pt").to(device)
     outputs = model.generate(
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+#テストプロンプト
 prompt = "日本の経済について説明してください。"
 print("Generating text...")
 generated_text = generate_text(prompt)
 print("\nGenerated Text:")
 print(generated_text)
+```
 # 量子化
+```python
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 import torch
 from transformers import BitsAndBytesConfig
+#ベースモデル ID とアダプタファイルパス
 base_model_id = "llm-jp/llm-jp-3-13b"
 adapter_model_path = "path/to/"
+#デバイス設定
 device = "cuda" if torch.cuda.is_available() else "cpu"
+#量子化の設定
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,  # 4-bit 量子化を有効化
     bnb_4bit_use_double_quant=True,
     bnb_4bit_compute_dtype=torch.float16,  # 推論時の計算精度
 )
+#トークナイザーのロード
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
 ベースモデルのロード（量子化設定を使用）
     quantization_config=bnb_config,
     device_map="auto",  # 自動的に GPU に割り当て
 )
+#アダプタの読み込み
 model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)
 `pad_token_id` の設定（トークナイザーから取得）
 model.config.pad_token_id = tokenizer.pad_token_id
+#推論関数
 def generate_text(prompt, max_length=256, temperature=0.7):
     # トークナイズして `attention_mask` を設定し、max_length を適用
     inputs = tokenizer(
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+#テストプロンプト
 prompt = "日本の経済について説明してください。"
 print("Generating text...")
 generated_text = generate_text(prompt, max_length=256)  # 最大長さを明示的に指定