BeagleWorks
/

beagle-pretrain-v1

Text Generation

text-generation-inference

Model card Files Files and versions

事前学習会の用のモデルです

モデル

パラメータ数は300M強
24レイヤー、1024隠し層、16ヘッド

学習データ

オープンソースな日本語データセットを利用

トークナイザー

Unigram, Metaspace
データセットからトークナイザーを学習

事前学習

GPT2系のデコーダから作成
DeepSpeed ZeRO-3 / CPUオフロード
1epochのみ

Downloads last month: 62

Safetensors

Model size

336M params

Tensor type

F32

·

Space using BeagleWorks/beagle-pretrain-v1 1