SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora
概要
このモデルは、SakanaAI/TinySwallow-1.5B-Instructをベースモデルとして、unslothを使用してGRPO(Generative Reinforcement Policy Optimization)でファインチューニングしたLoRAアダプターです。
モデルの詳細
モデル説明
- 開発者: sora
- モデルタイプ: 言語モデル(LoRAアダプター)
- 言語: 日本語、英語
- ライセンス: Apache License 2.0
- ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct
使用方法
from transformers import AutoTokenizer
from peft import PeftModel
from unsloth import FastLanguageModel
# ベースモデルとトークナイザーの読み込み
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="SakanaAI/TinySwallow-1.5B-Instruct",
max_seq_length=2048,
load_in_4bit=False,
)
# LoRAアダプターの読み込み
model = PeftModel.from_pretrained(model, "hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora")
# アダプターの重みをベースモデルに統合
merged_model = model.merge_and_unload()
技術仕様
モデルアーキテクチャ
- ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct
- ファインチューニング手法: GRPO (Generative Reinforcement Policy Optimization)
- アダプター: LoRA
- フレームワーク: unsloth
依存関係
- PEFT 0.15.0
- transformers
- unsloth
制限事項と注意点
- このモデルは研究目的での使用を想定しています
- 商用利用可能ですが、以下の条件を満たす必要があります:
- ライセンス表示の維持
- 著作権表示の維持
- 変更箇所の明示(改変時)
- モデルの出力は、入力データの品質に依存します
- このモデルは「現状のまま」提供され、明示または黙示を問わず、いかなる保証も提供されません
- モデルの使用に起因するいかなる損害についても、作者は責任を負いません
引用
このモデルはApache License 2.0の下で提供されています。
- Downloads last month
- 11
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
HF Inference deployability: The model has no pipeline_tag.
Model tree for hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora
Base model
Qwen/Qwen2.5-1.5B
Finetuned
Qwen/Qwen2.5-1.5B-Instruct
Finetuned
SakanaAI/TinySwallow-1.5B-Instruct