Rodo-Sami
/

4bcc03c8-df85-4a35-aec2-a35701f2914d

Generated from Trainer

Model card Files Files and versions

Rodo-Sami commited on Dec 16, 2024

Commit

69fbe10

·

verified ·

1 Parent(s): 31b6efd

End of training

Files changed (2) hide show

README.md +9 -9
adapter_model.bin +1 -1

README.md CHANGED Viewed

@@ -66,10 +66,10 @@ lora_r: 32
 lora_target_linear: true
 lr_scheduler: cosine
 max_steps: 50
-micro_batch_size: 2
 mlflow_experiment_name: ./4ae6a17d2f0eebaf_train_data.json
 model_type: AutoModelForCausalLM
-num_epochs: 3
 optimizer: adamw_torch
 output_dir: miner_id_24
 pad_to_sequence_len: true
@@ -102,7 +102,7 @@ xformers_attention: true
 This model is a fine-tuned version of [Xenova/tiny-random-Phi3ForCausalLM](https://huggingface.co/Xenova/tiny-random-Phi3ForCausalLM) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 10.3672
 ## Model description
@@ -122,11 +122,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
 - gradient_accumulation_steps: 16
-- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 2
@@ -136,9 +136,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 10.3798       | 0.0007 | 1    | 10.3799         |
-| 10.3687       | 0.0164 | 25   | 10.3708         |
-| 10.383        | 0.0328 | 50   | 10.3672         |
 ### Framework versions

 lora_target_linear: true
 lr_scheduler: cosine
 max_steps: 50
+micro_batch_size: 4
 mlflow_experiment_name: ./4ae6a17d2f0eebaf_train_data.json
 model_type: AutoModelForCausalLM
+num_epochs: 2
 optimizer: adamw_torch
 output_dir: miner_id_24
 pad_to_sequence_len: true
 This model is a fine-tuned version of [Xenova/tiny-random-Phi3ForCausalLM](https://huggingface.co/Xenova/tiny-random-Phi3ForCausalLM) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 10.3650
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 16
+- total_train_batch_size: 64
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 2
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 10.3789       | 0.0013 | 1    | 10.3799         |
+| 10.3669       | 0.0328 | 25   | 10.3695         |
+| 10.3788       | 0.0655 | 50   | 10.3650         |
 ### Framework versions

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:920144d2583506580a1ce67af98ae9db797022d8dd508552593ce5a4cdfd266d
 size 120926

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9ada301b9e80ee9fd4bcac6dfcd6f285696180e928b083616fe630d7acd70b1
 size 120926