JammyMachina
/

improved_4bars-mdl

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

m4lw4r3exe commited on Dec 16, 2022

Commit

4d6f6c8

·

1 Parent(s): 6498a09

Training in progress, step 4096

Files changed (3) hide show

pytorch_model.bin +1 -1
training_args.bin +1 -1
training_args.json +8 -8

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:319da55f7bdc14e455deb61ce68f9663cffd4b765a97952f7c04b2708e957075
 size 139279005

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3352a22ed801d659719e4b07ea59a2ebaf5933d7084dacea95d7eeee616d94
 size 139279005

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0200139492e444a9d322a4f90a96e6dde09c7a882f05b816c2345dade5ea0f98
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:c956e29dc59f1758d4c871cae2cbd061682c3ec06c3f6ebfba7695270bfe97bc
 size 3515

training_args.json CHANGED Viewed

@@ -13,27 +13,27 @@
   "gradient_accumulation_steps": 1,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
-  "learning_rate": 0.0005,
-  "weight_decay": 0.1,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
   "adam_epsilon": 1e-08,
   "max_grad_norm": 1.0,
-  "num_train_epochs": 8,
   "max_steps": -1,
-  "lr_scheduler_type": "cosine",
   "warmup_ratio": 0.0,
-  "warmup_steps": 5000,
   "log_level": "passive",
   "log_level_replica": "passive",
   "log_on_each_node": true,
   "logging_dir": "models/improved_4bars/logs",
   "logging_strategy": "steps",
   "logging_first_step": false,
-  "logging_steps": 2048,
   "logging_nan_inf_filter": true,
   "save_strategy": "steps",
-  "save_steps": 8192,
   "save_total_limit": 5,
   "save_on_each_node": false,
   "no_cuda": false,
@@ -55,7 +55,7 @@
   "tpu_metrics_debug": false,
   "debug": [],
   "dataloader_drop_last": false,
-  "eval_steps": 2048,
   "dataloader_num_workers": 0,
   "past_index": -1,
   "run_name": "models/improved_4bars",

   "gradient_accumulation_steps": 1,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
+  "learning_rate": 5e-05,
+  "weight_decay": 0.0,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
   "adam_epsilon": 1e-08,
   "max_grad_norm": 1.0,
+  "num_train_epochs": 5,
   "max_steps": -1,
+  "lr_scheduler_type": "linear",
   "warmup_ratio": 0.0,
+  "warmup_steps": 0,
   "log_level": "passive",
   "log_level_replica": "passive",
   "log_on_each_node": true,
   "logging_dir": "models/improved_4bars/logs",
   "logging_strategy": "steps",
   "logging_first_step": false,
+  "logging_steps": 1024,
   "logging_nan_inf_filter": true,
   "save_strategy": "steps",
+  "save_steps": 4096,
   "save_total_limit": 5,
   "save_on_each_node": false,
   "no_cuda": false,
   "tpu_metrics_debug": false,
   "debug": [],
   "dataloader_drop_last": false,
+  "eval_steps": 1024,
   "dataloader_num_workers": 0,
   "past_index": -1,
   "run_name": "models/improved_4bars",