Mariyam123
/

modernbert-llm-router

Text Classification

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

Mariyam123 commited on Jan 31

Commit

a4739b9

·

verified ·

1 Parent(s): 09e8aae

End of training

Files changed (2) hide show

README.md +4 -4
tokenizer_config.json +1 -1

README.md CHANGED Viewed

@@ -39,8 +39,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 28
-- eval_batch_size: 24
 - seed: 42
 - optimizer: Use adamw_torch_fused with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
@@ -50,8 +50,8 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.0           | 1.0   | 547  | nan             | 0.2648 |
-| 0.0           | 2.0   | 1094 | nan             | 0.2648 |
 ### Framework versions

 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 10
+- eval_batch_size: 10
 - seed: 42
 - optimizer: Use adamw_torch_fused with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.0           | 1.0   | 1531 | nan             | 0.2648 |
+| 0.0           | 2.0   | 3062 | nan             | 0.2648 |
 ### Framework versions

tokenizer_config.json CHANGED Viewed

@@ -937,7 +937,7 @@
     "input_ids",
     "attention_mask"
   ],
-  "model_max_length": 512,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "tokenizer_class": "PreTrainedTokenizerFast",

     "input_ids",
     "attention_mask"
   ],
+  "model_max_length": 1024,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "tokenizer_class": "PreTrainedTokenizerFast",