Japanese Risk Classifier - リスクあり/なし 二値分類モデル

このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける状態・兆候・症状のリスク分類を想定しています。

📌 ベースモデル

🧪 学習設定

項目 設定値
学習エポック数 6
バッチサイズ 8
学習率 2e-5
トークナイザー AutoTokenizer
トークン長 padding="max_length"

使用データ:CSVファイル train.csv に含まれる以下の形式

text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり

🧠 ラベル定義

  • リスクなし → 0
  • リスクあり → 1

🛠 使用方法

推論(Inference)

from transformers import pipeline

classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)

出力例:

[{'label': 'リスクあり', 'score': 0.982}]

推論速度

ローカル環境(Windows)での実測:

⏱ 推論時間: 約2.00秒

💾 保存済みファイル構成

./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md

📄 ライセンス

MIT License

📄 Framework versions

transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体

fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper)

unidic-lite 1.0.8 以降 軽量辞書(fugashi用)

torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤


📬 お問い合わせ

本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。

Downloads last month
12
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Evaluation results