Upload TFBilma

Files changed (4) hide show

config.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-  "_name_or_path": "guillermoruiz/bilma",
   "architectures": [
-    "AutoModel"
   ],
   "auto_map": {
     "AutoConfig": "configuration_bilma.BilmaConfig",
-    "TFAutoModel": "modeling_bilma.Bilma"
   },
   "hidden_dropout_prob": 0.1,
   "hidden_size": 512,
-  "model_type": "Bilma",
   "num_attention_heads": 4,
   "num_hidden_layers": 2,
   "seq_max_length": 280,

 {
+  "_name_or_path": "bilma",
   "architectures": [
+    "Bilma"
   ],
   "auto_map": {
     "AutoConfig": "configuration_bilma.BilmaConfig",
+    "TFAutoModel": "modeling_bilma.TFBilma"
   },
   "hidden_dropout_prob": 0.1,
   "hidden_size": 512,
+  "model_type": "bilma",
   "num_attention_heads": 4,
   "num_hidden_layers": 2,
   "seq_max_length": 280,

configuration_bilma.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from transformers import PretrainedConfig
 class BilmaConfig(PretrainedConfig):
-    model_type = "Bilma"
     def __init__(
         self,

 from transformers import PretrainedConfig
 class BilmaConfig(PretrainedConfig):
+    model_type = "bilma"
     def __init__(
         self,

modeling_bilma.py CHANGED Viewed

@@ -90,7 +90,7 @@ class EncoderBlock(Layer):
         self.f_d = ff_dim
         self.rate = rate
-        self.att = MultiHeadAttention(num_heads=num_heads, key_dim=patch_dim)
         self.ffn = Sequential(
             #[Conv1D(ff_dim, kernel_size=1, activation=tf.nn.gelu),
             # Conv1D(patch_dim, kernel_size=1),]
@@ -98,8 +98,8 @@ class EncoderBlock(Layer):
              Dense(patch_dim, name=f"bilma/dense2_{layer_num}")]
         )
         #self.layernorm0 = LayerNormalization(epsilon=1e-6)
-        self.layernorm1 = LayerNormalization(epsilon=1e-6)
-        self.layernorm2 = LayerNormalization(epsilon=1e-6)
         self.dropout1 = Dropout(rate)
         self.dropout2 = Dropout(rate)
@@ -172,7 +172,7 @@ class Encoder(Layer):
         self.n_h = num_heads
         self.f_d = ff_dim
         self.rate = rate
-        self._layers = [EncoderBlock(i, embed_dim, num_heads, ff_dim, rate=0.1) for i in range(n)]
         self.pe = positional_encoding(self.max_length, self.embed_dim)
     def get_config(self):

         self.f_d = ff_dim
         self.rate = rate
+        self.att = MultiHeadAttention(num_heads=num_heads, key_dim=patch_dim, name=f"bilma/MHA_{layer_num}")
         self.ffn = Sequential(
             #[Conv1D(ff_dim, kernel_size=1, activation=tf.nn.gelu),
             # Conv1D(patch_dim, kernel_size=1),]
              Dense(patch_dim, name=f"bilma/dense2_{layer_num}")]
         )
         #self.layernorm0 = LayerNormalization(epsilon=1e-6)
+        self.layernorm1 = LayerNormalization(epsilon=1e-6, name=f"ln1_{layer_num}")
+        self.layernorm2 = LayerNormalization(epsilon=1e-6, name=f"ln2_{layer_num}")
         self.dropout1 = Dropout(rate)
         self.dropout2 = Dropout(rate)
         self.n_h = num_heads
         self.f_d = ff_dim
         self.rate = rate
+        self._layers = [EncoderBlock(i, embed_dim, num_heads, ff_dim, rate=0.1, name=f"enc_block_{i}") for i in range(n)]
         self.pe = positional_encoding(self.max_length, self.embed_dim)
     def get_config(self):

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fa26aa874976519680daa037613b66a5edc0021c69039e2b4e01f20e499f690
-size 156562964

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b66af189fde956eb4a944a6473178c837e1e3616230fc6049a11ed1c1b38379
+size 156564220