SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora

概要

このモデルは、SakanaAI/TinySwallow-1.5B-Instructをベースモデルとして、unslothを使用してGRPO（Generative Reinforcement Policy Optimization）でファインチューニングしたLoRAアダプターです。

モデルの詳細

モデル説明

開発者: sora
モデルタイプ: 言語モデル（LoRAアダプター）
言語: 日本語、英語
ライセンス: Apache License 2.0
ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct

使用方法

from transformers import AutoTokenizer
from peft import PeftModel
from unsloth import FastLanguageModel

# ベースモデルとトークナイザーの読み込み
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="SakanaAI/TinySwallow-1.5B-Instruct",
    max_seq_length=2048,
    load_in_4bit=False,
)

# LoRAアダプターの読み込み
model = PeftModel.from_pretrained(model, "hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora")

# アダプターの重みをベースモデルに統合
merged_model = model.merge_and_unload()

技術仕様

モデルアーキテクチャ

ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct
ファインチューニング手法: GRPO (Generative Reinforcement Policy Optimization)
アダプター: LoRA
フレームワーク: unsloth

依存関係

PEFT 0.15.0
transformers
unsloth

制限事項と注意点

このモデルは研究目的での使用を想定しています
商用利用可能ですが、以下の条件を満たす必要があります：
- ライセンス表示の維持
- 著作権表示の維持
- 変更箇所の明示（改変時）
モデルの出力は、入力データの品質に依存します
このモデルは「現状のまま」提供され、明示または黙示を問わず、いかなる保証も提供されません
モデルの使用に起因するいかなる損害についても、作者は責任を負いません

引用

このモデルはApache License 2.0の下で提供されています。

hiroyuki0823
/

SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora

SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora

概要

モデルの詳細

モデル説明

使用方法

技術仕様

モデルアーキテクチャ

依存関係

制限事項と注意点

引用

Model tree for hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora