Qwen3 Japanese NSFW Models
Collection
Qwen3ベースのNSFW関連データによる日本語学習モデル
•
6 items
•
Updated
•
3
このモデルは、Qwen/Qwen3-8Bに対してNSFW系日本語データ約7Bトークンで継続事前学習を行ったモデルです。
事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。
学習はaxolotlを使ってtransformersベースで行いました。
学習環境はH200x8、学習時間は約65時間です。
学習に関する主なハイパーパラメータは以下の通りです。
- learning_rate: 1e-5
- lr_scheduler: cosine
- cosine_min_lr_ratio: 0.1
- batch_size(global): 256
- max_seq_length: 32768
- weight_decay: 0.01
- optimizer: paged_adamw_8bit
MITライセンスの元公開します。
Base model
Qwen/Qwen3-8B-Base