事前学習会の用のモデルです
パラメータ数は300M強24レイヤー、1024隠し層、16ヘッド
オープンソースな日本語データセットを利用
Unigram, Metaspaceデータセットからトークナイザーを学習
GPT2系のデコーダから作成DeepSpeed ZeRO-3 / CPUオフロード1epochのみ
Files info