fhswf
/

BPE_GPT2_TinyStoriesV2_cleaned_1024

text generation

Model card Files Files and versions

maxkm commited on May 23, 2024

Commit

5422e45

·

verified ·

1 Parent(s): 20eb232

Update README.md

Files changed (1) hide show

README.md +8 -2

README.md CHANGED Viewed

@@ -9,6 +9,12 @@ datasets:
 ---
 # BPE_GPT2_TinyStoriesV2_cleaned
-## Model Description
-BPE Tokenizer Model for dataset 'fhswf/TinyStoriesV2_cleaned'

 ---
 # BPE_GPT2_TinyStoriesV2_cleaned
+BPE Tokenizer Model for dataset 'fhswf/TinyStoriesV2_cleaned'
+Based on get-neo BPE Tokenizer, but with a smaller vocabulary.
+Trained with TinyStoriesV2.
+- Vocab Size: 1024
+- 256 Base chars
+- 1 extra Token: <|endoftext|>
+- 3839 merges