SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora

概要

このモデルは、SakanaAI/TinySwallow-1.5B-Instructをベースモデルとして、unslothを使用してGRPO(Generative Reinforcement Policy Optimization)でファインチューニングしたLoRAアダプターです。

モデルの詳細

モデル説明

  • 開発者: sora
  • モデルタイプ: 言語モデル(LoRAアダプター)
  • 言語: 日本語、英語
  • ライセンス: Apache License 2.0
  • ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct

使用方法

from transformers import AutoTokenizer
from peft import PeftModel
from unsloth import FastLanguageModel

# ベースモデルとトークナイザーの読み込み
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="SakanaAI/TinySwallow-1.5B-Instruct",
    max_seq_length=2048,
    load_in_4bit=False,
)

# LoRAアダプターの読み込み
model = PeftModel.from_pretrained(model, "hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora")

# アダプターの重みをベースモデルに統合
merged_model = model.merge_and_unload()

技術仕様

モデルアーキテクチャ

  • ベースモデル: SakanaAI/TinySwallow-1.5B-Instruct
  • ファインチューニング手法: GRPO (Generative Reinforcement Policy Optimization)
  • アダプター: LoRA
  • フレームワーク: unsloth

依存関係

  • PEFT 0.15.0
  • transformers
  • unsloth

制限事項と注意点

  • このモデルは研究目的での使用を想定しています
  • 商用利用可能ですが、以下の条件を満たす必要があります:
    • ライセンス表示の維持
    • 著作権表示の維持
    • 変更箇所の明示(改変時)
  • モデルの出力は、入力データの品質に依存します
  • このモデルは「現状のまま」提供され、明示または黙示を問わず、いかなる保証も提供されません
  • モデルの使用に起因するいかなる損害についても、作者は責任を負いません

引用

このモデルはApache License 2.0の下で提供されています。

Downloads last month
11
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hiroyuki0823/SakanaAI-TinySwallow-1.5B-Instruct-GRPO-lora

Base model

Qwen/Qwen2.5-1.5B
Adapter
(1)
this model