tangledgroup
/

tangled-alpha-0.10-core

@@ -6,7 +6,7 @@
   "attention_dropout": 0.0,
   "bos_token_id": 0,
   "eos_token_id": 1,
-  "head_dim": 256,
   "hidden_act": "silu",
   "hidden_size": 768,
   "initializer_range": 0.02,
@@ -14,7 +14,7 @@
   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
-  "num_attention_heads": 16,
   "num_hidden_layers": 32,
   "num_key_value_heads": 4,
   "pretraining_tp": 1,

   "attention_dropout": 0.0,
   "bos_token_id": 0,
   "eos_token_id": 1,
+  "head_dim": 64,
   "hidden_act": "silu",
   "hidden_size": 768,
   "initializer_range": 0.02,
   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
+  "num_attention_heads": 12,
   "num_hidden_layers": 32,
   "num_key_value_heads": 4,
   "pretraining_tp": 1,

scripts/pretrain_core_model_0.yaml CHANGED Viewed

@@ -10,7 +10,7 @@ model_config:
   vocab_size: 131072
   padded_vocab_size: 131072
   n_layer: 32
-  n_head: 16
   n_embd: 768
   n_query_groups: 4
   rotary_percentage: 1.0

   vocab_size: 131072
   padded_vocab_size: 131072
   n_layer: 32
+  n_head: 12
   n_embd: 768
   n_query_groups: 4
   rotary_percentage: 1.0