Japanese CLIP Model with Full Tuning
日本語画像・テキスト対応CLIPモデル(STAIR Captions v1.2で学習)
モデル概要 / Model Overview
このモデルは、STAIR Captions v1.2データセットで学習された日本語CLIPモデルです。
特徴 / Features
- Full Tuning: 画像エンコーダーとテキストエンコーダーの両方を学習
- 高品質な日本語理解: BERT-base-japanese-v3をファインチューニング
- 温度付きコントラスト損失: InfoNCE損失による効果的な学習
モデル詳細 / Model Details
- テキストエンコーダー: tohoku-nlp/bert-base-japanese-v3 (ファインチューニング)
- 画像エンコーダー: ResNet50 (ImageNet1K事前学習済み、ファインチューニング)
- 共通埋め込み次元: 768
- 画像サイズ: 224x224
- 最大テキスト長: 128
- 学習率: 1e-05
- 損失関数: 温度付きコントラスト損失 (InfoNCE)
学習データ / Training Data
- データセット: STAIR Captions v1.2
- 言語: 日本語
- ドメイン: 一般的な画像キャプション
ライセンス / License
Apache License 2.0
- Downloads last month
- 103
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support