Update README.md

2e50cc2 verified 7 months ago

5.68 kB

	---
	base_model: llm-jp/llm-jp-3-13b
	tags:
	- text-generation-inference
	- transformers
	- unsloth
	- llama
	- trl
	language:
	- en
	---

	# Uploaded model

	- Developed by: ShotaMatsumoto
	- License: CC BY-NC-SA
	- Finetuned from model : llm-jp/llm-jp-3-13b

	# 概要
	「llm-jp/llm-jp-3-13bモデルにichikara-instructionデータを用いてファインチューニングを行ったモデルです。
	松尾研究室の講義のコンペ用としてモデル作成しました。

	https://weblab.t.u-tokyo.ac.jp/lecture/course-list/large-language-model/
	# データセットは以下を使いました。
	- ichikara-instruction-003-001-1.json
	- ichikara-instruction-003-001-2.1.json
	- ichikara-instruction-003-001-2.2.json
	- ichikara-instruction-003-001-5.1.json
	- ichikara-instruction-003-001-5.2.json
	- ichikara-instruction-003-003-1.json
	# 注意
	ichikara-instructionデータは、CC BY-NC-SAライセンス（表示-非営利-継承）で公開されています。このライセンスの下では、非営利目的での利用が許可されていますが、商用利用は認められていません。
	詳しくはこちらのホームページで確認してください。https://llm-jp.nii.ac.jp/blog/2024/04/30/v2.0-release.html

	# 推論方法
	事前にadapter_model.safetensorsをダウンロードしてください。
	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import PeftModel
	import torch

	#ベースモデル ID とアダプタファイルパス
	base_model_id = "llm-jp/llm-jp-3-13b"
	adapter_model_path = ""/path/to/adapter_model.safetensors""

	#デバイス設定
	device = "cuda" if torch.cuda.is_available() else "cpu"

	#トークナイザーとベースモデルのロード
	tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
	base_model = AutoModelForCausalLM.from_pretrained(base_model_id, torch_dtype=torch.float16).to(device)

	#アダプタの読み込み
	model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)

	#推論関数
	def generate_text(prompt, max_length=256, temperature=0.7):
	inputs = tokenizer(prompt, return_tensors="pt").to(device)
	outputs = model.generate(
	inputs["input_ids"],
	max_length=max_length,
	temperature=temperature,
	do_sample=True,
	top_k=50,
	top_p=0.9
	)
	return tokenizer.decode(outputs[0], skip_special_tokens=True)

	#テストプロンプト
	prompt = "日本の経済について説明してください。"
	print("Generating text...")
	generated_text = generate_text(prompt)
	print("\nGenerated Text:")
	print(generated_text)
	```

	# 量子化
	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import PeftModel
	import torch
	from transformers import BitsAndBytesConfig

	#ベースモデル ID とアダプタファイルパス
	base_model_id = "llm-jp/llm-jp-3-13b"
	adapter_model_path = "path/to/"

	#デバイス設定
	device = "cuda" if torch.cuda.is_available() else "cpu"

	#量子化の設定
	bnb_config = BitsAndBytesConfig(
	load_in_4bit=True, # 4-bit 量子化を有効化
	bnb_4bit_use_double_quant=True,
	bnb_4bit_quant_type="nf4", # 量子化スキーム
	bnb_4bit_compute_dtype=torch.float16, # 推論時の計算精度
	)

	#トークナイザーのロード
	tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)

	ベースモデルのロード（量子化設定を使用）
	base_model = AutoModelForCausalLM.from_pretrained(
	base_model_id,
	quantization_config=bnb_config,
	device_map="auto", # 自動的に GPU に割り当て
	)
	#アダプタの読み込み
	model = PeftModel.from_pretrained(base_model, adapter_model_path).to(device)

	`pad_token_id` の設定（トークナイザーから取得）
	model.config.pad_token_id = tokenizer.pad_token_id

	#推論関数
	def generate_text(prompt, max_length=256, temperature=0.7):
	# トークナイズして `attention_mask` を設定し、max_length を適用
	inputs = tokenizer(
	prompt,
	return_tensors="pt",
	padding=True,
	truncation=True,
	max_length=max_length # 最大トークン数を制限
	).to(device)

	outputs = model.generate(
	inputs["input_ids"],
	attention_mask=inputs["attention_mask"],
	max_length=max_length,
	temperature=temperature,
	do_sample=True,
	top_k=50,
	top_p=0.9,
	pad_token_id=tokenizer.pad_token_id # 安全な動作のため明示的に指定
	)
	return tokenizer.decode(outputs[0], skip_special_tokens=True)

	#テストプロンプト
	prompt = "日本の経済について説明してください。"
	print("Generating text...")
	generated_text = generate_text(prompt, max_length=256) # 最大長さを明示的に指定
	print("\nGenerated Text:")
	print(generated_text)
	```

	# jsonlファイルの出力方法は以下の通りです。
	```python
	import json
	from google.colab import files

	file_name = "elyza-tasks-results.jsonl"

	# JSON形式で保存
	with open(file_name, "w", encoding="utf-8") as f:
	json.dump(results, f, ensure_ascii=False)

	# 内容確認
	with open(file_name, 'w', encoding='utf-8') as f:
	for result in results:
	json.dump(result, f, ensure_ascii=False)
	f.write('\n')
	# ファイルのダウンロード
	files.download(file_name)
	```
	This llama model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) and Huggingface's TRL library.

	[<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)