NanoTranslator-L
Introduction
这是 NanoTranslator 的 Large 型号,目前仅支持英译中。仓库中同时提供了 ONNX 版本的模型。
所有模型均收录于 NanoTranslator Collection 中。
P. | Arch. | Act. | V. | H. | I. | L. | A.H. | K.H. | Tie | |
---|---|---|---|---|---|---|---|---|---|---|
XXL | 100 | LLaMA | SwiGLU | 16000 | 768 | 4096 | 8 | 24 | 8 | True |
XL | 78 | LLaMA | GeGLU | 16000 | 768 | 4096 | 6 | 24 | 8 | True |
L | 49 | LLaMA | GeGLU | 16000 | 512 | 2816 | 8 | 16 | 8 | True |
M2 | 22 | Qwen2 | GeGLU | 4000 | 432 | 2304 | 6 | 24 | 8 | True |
M | 22 | LLaMA | SwiGLU | 8000 | 256 | 1408 | 16 | 16 | 4 | True |
S | 9 | LLaMA | SwiGLU | 4000 | 168 | 896 | 16 | 12 | 4 | True |
XS | 2 | LLaMA | SwiGLU | 2000 | 96 | 512 | 12 | 12 | 4 | True |
- V. - vocab size
- H. - hidden size
- I. - intermediate size
- L. - num layers
- Att. H. - num attention heads
- KV H. - num kv heads
- Tie Emb. - tie word embeddings