vishesh-t27
/

Nano-Llama-Base

Text Generation

text-generation-inference

Model card Files Files and versions

vishesh-t27 commited on Jul 16

Commit

925ac6f

·

verified ·

1 Parent(s): fa706dd

Update README.md

Files changed (1) hide show

README.md +4 -5

README.md CHANGED Viewed

@@ -17,12 +17,12 @@ library_name: transformers
 # Nano-Llama
-A compact 42M parameter LLaMA-2-style language model pretrained on FineWeb dataset.
 ## Model Details
 - **Architecture**: LLaMA-2-style transformer
-- **Parameters**: 42.48M
 - **Training Data**: FineWeb dataset (~100M tokens)
 - **Context Length**: 1024 tokens
 - **Layers**: 6
@@ -33,7 +33,7 @@ A compact 42M parameter LLaMA-2-style language model pretrained on FineWeb datas
 - **Dataset**: FineWeb (web-crawled high-quality text)
 - **Tokens Trained**: ~110M tokens
-- **Training Time**: ~8 hours on RTX 3090
 - **Optimizer**: AdamW
 - **Learning Rate**: 1e-4
@@ -67,10 +67,9 @@ print(generated_text)
 ## Limitations
-- Small model size (42M parameters)
 - Limited training data compared to larger models
 - May generate repetitive or nonsensical text
-- Best suited for short text generation tasks
 ## License

 # Nano-Llama
+A compact 67M parameter LLaMA-2-style language model pretrained on FineWeb dataset.
 ## Model Details
 - **Architecture**: LLaMA-2-style transformer
+- **Parameters**: 678M
 - **Training Data**: FineWeb dataset (~100M tokens)
 - **Context Length**: 1024 tokens
 - **Layers**: 6
 - **Dataset**: FineWeb (web-crawled high-quality text)
 - **Tokens Trained**: ~110M tokens
+- **Training Time**: ~6 hours on RTX 3090
 - **Optimizer**: AdamW
 - **Learning Rate**: 1e-4
 ## Limitations
+- Small model size (67M parameters)
 - Limited training data compared to larger models
 - May generate repetitive or nonsensical text
 ## License