End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +16 -0
eval_results.json +11 -0
train_results.json +8 -0
trainer_state.json +650 -0

README.md CHANGED Viewed

@@ -44,7 +44,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0694
 - Precision: 0.9909
 - Recall: 0.9939
 - F1: 0.9923

 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0794
 - Precision: 0.9909
 - Recall: 0.9939
 - F1: 0.9923

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.85,
+    "eval_accuracy": 0.9906542056074766,
+    "eval_f1": 0.9922719141323793,
+    "eval_loss": 0.07943902164697647,
+    "eval_precision": 0.990909090909091,
+    "eval_recall": 0.9939393939393939,
+    "eval_runtime": 36.1652,
+    "eval_samples_per_second": 2.959,
+    "eval_steps_per_second": 0.387,
+    "total_flos": 1.7791424076806554e+17,
+    "train_loss": 0.16752889706538274,
+    "train_runtime": 3044.6611,
+    "train_samples_per_second": 2.785,
+    "train_steps_per_second": 0.085
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 19.85,
+    "eval_accuracy": 0.9906542056074766,
+    "eval_f1": 0.9922719141323793,
+    "eval_loss": 0.07943902164697647,
+    "eval_precision": 0.990909090909091,
+    "eval_recall": 0.9939393939393939,
+    "eval_runtime": 36.1652,
+    "eval_samples_per_second": 2.959,
+    "eval_steps_per_second": 0.387
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 19.85,
+    "total_flos": 1.7791424076806554e+17,
+    "train_loss": 0.16752889706538274,
+    "train_runtime": 3044.6611,
+    "train_samples_per_second": 2.785,
+    "train_steps_per_second": 0.085
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,650 @@

+{
+  "best_metric": 0.9906542056074766,
+  "best_model_checkpoint": "resnet-50-finetuned-FBark\\checkpoint-182",
+  "epoch": 19.849056603773583,
+  "eval_steps": 500,
+  "global_step": 260,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.98,
+      "step": 13,
+      "train_accuracy": 0.44339622641509435,
+      "train_f1": 0.30273443406045597,
+      "train_loss": 1.3222538232803345,
+      "train_precision": 0.4409161713465874,
+      "train_recall": 0.40814882032667876,
+      "train_runtime": 131.484,
+      "train_samples_per_second": 3.225,
+      "train_steps_per_second": 0.403
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.9973506927490234,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 1.4155,
+      "step": 13
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 0.38317757009345793,
+      "eval_f1": 0.2502374169040836,
+      "eval_loss": 1.2673313617706299,
+      "eval_precision": 0.3522222222222222,
+      "eval_recall": 0.3991341991341991,
+      "eval_runtime": 47.8505,
+      "eval_samples_per_second": 2.236,
+      "eval_steps_per_second": 0.293,
+      "step": 13
+    },
+    {
+      "epoch": 1.96,
+      "step": 26,
+      "train_accuracy": 0.5094339622641509,
+      "train_f1": 0.3768708281840832,
+      "train_loss": 1.2979044914245605,
+      "train_precision": 0.5660861330698287,
+      "train_recall": 0.4677431408134941,
+      "train_runtime": 148.3187,
+      "train_samples_per_second": 2.859,
+      "train_steps_per_second": 0.357
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 1.2892597913742065,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.389,
+      "step": 26
+    },
+    {
+      "epoch": 1.96,
+      "eval_accuracy": 0.42990654205607476,
+      "eval_f1": 0.31675399012689665,
+      "eval_loss": 1.2493001222610474,
+      "eval_precision": 0.3496434937611408,
+      "eval_recall": 0.4454545454545455,
+      "eval_runtime": 46.5066,
+      "eval_samples_per_second": 2.301,
+      "eval_steps_per_second": 0.301,
+      "step": 26
+    },
+    {
+      "epoch": 2.94,
+      "step": 39,
+      "train_accuracy": 0.4811320754716981,
+      "train_f1": 0.3565462103231007,
+      "train_loss": 1.2638133764266968,
+      "train_precision": 0.35321937321937324,
+      "train_recall": 0.44614604462474644,
+      "train_runtime": 133.803,
+      "train_samples_per_second": 3.169,
+      "train_steps_per_second": 0.396
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 1.521682620048523,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 1.3742,
+      "step": 39
+    },
+    {
+      "epoch": 2.94,
+      "eval_accuracy": 0.4392523364485981,
+      "eval_f1": 0.33554006968641115,
+      "eval_loss": 1.223555326461792,
+      "eval_precision": 0.3334061930783242,
+      "eval_recall": 0.4536796536796537,
+      "eval_runtime": 47.089,
+      "eval_samples_per_second": 2.272,
+      "eval_steps_per_second": 0.297,
+      "step": 39
+    },
+    {
+      "epoch": 4.0,
+      "step": 53,
+      "train_accuracy": 0.5683962264150944,
+      "train_f1": 0.4573118754465906,
+      "train_loss": 1.220451831817627,
+      "train_precision": 0.6263221242541064,
+      "train_recall": 0.5256962525336195,
+      "train_runtime": 123.6293,
+      "train_samples_per_second": 3.43,
+      "train_steps_per_second": 0.429
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.533220648765564,
+      "learning_rate": 0.0001223076923076923,
+      "loss": 1.2592,
+      "step": 53
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5233644859813084,
+      "eval_f1": 0.459322365844105,
+      "eval_loss": 1.1768313646316528,
+      "eval_precision": 0.6458215962441315,
+      "eval_recall": 0.5359683794466403,
+      "eval_runtime": 52.0476,
+      "eval_samples_per_second": 2.056,
+      "eval_steps_per_second": 0.269,
+      "step": 53
+    },
+    {
+      "epoch": 4.98,
+      "step": 66,
+      "train_accuracy": 0.5990566037735849,
+      "train_f1": 0.49108922737322597,
+      "train_loss": 1.1574139595031738,
+      "train_precision": 0.6493666135599222,
+      "train_recall": 0.55391404130241,
+      "train_runtime": 122.643,
+      "train_samples_per_second": 3.457,
+      "train_steps_per_second": 0.432
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 1.2271511554718018,
+      "learning_rate": 0.00015230769230769228,
+      "loss": 1.287,
+      "step": 66
+    },
+    {
+      "epoch": 4.98,
+      "eval_accuracy": 0.5607476635514018,
+      "eval_f1": 0.48464696223316917,
+      "eval_loss": 1.1236993074417114,
+      "eval_precision": 0.6436363636363637,
+      "eval_recall": 0.5723320158102767,
+      "eval_runtime": 41.452,
+      "eval_samples_per_second": 2.581,
+      "eval_steps_per_second": 0.338,
+      "step": 66
+    },
+    {
+      "epoch": 5.96,
+      "step": 79,
+      "train_accuracy": 0.6226415094339622,
+      "train_f1": 0.5420012941762071,
+      "train_loss": 1.0438413619995117,
+      "train_precision": 0.8243247706573527,
+      "train_recall": 0.5806628230445157,
+      "train_runtime": 120.0289,
+      "train_samples_per_second": 3.532,
+      "train_steps_per_second": 0.442
+    },
+    {
+      "epoch": 5.96,
+      "grad_norm": 1.7175101041793823,
+      "learning_rate": 0.00018230769230769228,
+      "loss": 1.2337,
+      "step": 79
+    },
+    {
+      "epoch": 5.96,
+      "eval_accuracy": 0.5981308411214953,
+      "eval_f1": 0.5485250474059656,
+      "eval_loss": 1.0242024660110474,
+      "eval_precision": 0.865625,
+      "eval_recall": 0.6083380387728214,
+      "eval_runtime": 45.0579,
+      "eval_samples_per_second": 2.375,
+      "eval_steps_per_second": 0.311,
+      "step": 79
+    },
+    {
+      "epoch": 6.94,
+      "step": 92,
+      "train_accuracy": 0.6745283018867925,
+      "train_f1": 0.6334819902275806,
+      "train_loss": 0.935691237449646,
+      "train_precision": 0.8151341081504686,
+      "train_recall": 0.6419837529777849,
+      "train_runtime": 130.3177,
+      "train_samples_per_second": 3.254,
+      "train_steps_per_second": 0.407
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 1.9299957752227783,
+      "learning_rate": 0.0002123076923076923,
+      "loss": 1.1327,
+      "step": 92
+    },
+    {
+      "epoch": 6.94,
+      "eval_accuracy": 0.7102803738317757,
+      "eval_f1": 0.7062065516379095,
+      "eval_loss": 0.9071274995803833,
+      "eval_precision": 0.8466666666666667,
+      "eval_recall": 0.7193111236589498,
+      "eval_runtime": 42.5223,
+      "eval_samples_per_second": 2.516,
+      "eval_steps_per_second": 0.329,
+      "step": 92
+    },
+    {
+      "epoch": 8.0,
+      "step": 106,
+      "train_accuracy": 0.7971698113207547,
+      "train_f1": 0.7766198391591397,
+      "train_loss": 0.7271670699119568,
+      "train_precision": 0.8651733397747755,
+      "train_recall": 0.7787121922468249,
+      "train_runtime": 114.2154,
+      "train_samples_per_second": 3.712,
+      "train_steps_per_second": 0.464
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 2.2226734161376953,
+      "learning_rate": 0.0002446153846153846,
+      "loss": 0.9421,
+      "step": 106
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7757009345794392,
+      "eval_f1": 0.7750786554065242,
+      "eval_loss": 0.7316702008247375,
+      "eval_precision": 0.8393822843822842,
+      "eval_recall": 0.78223226049313,
+      "eval_runtime": 37.8971,
+      "eval_samples_per_second": 2.823,
+      "eval_steps_per_second": 0.369,
+      "step": 106
+    },
+    {
+      "epoch": 8.98,
+      "step": 119,
+      "train_accuracy": 0.8867924528301887,
+      "train_f1": 0.8861109763599291,
+      "train_loss": 0.5811343193054199,
+      "train_precision": 0.9043399022853599,
+      "train_recall": 0.8790563087733421,
+      "train_runtime": 114.7718,
+      "train_samples_per_second": 3.694,
+      "train_steps_per_second": 0.462
+    },
+    {
+      "epoch": 8.98,
+      "grad_norm": 2.4611976146698,
+      "learning_rate": 0.0002746153846153846,
+      "loss": 0.8662,
+      "step": 119
+    },
+    {
+      "epoch": 8.98,
+      "eval_accuracy": 0.8785046728971962,
+      "eval_f1": 0.8814210982815635,
+      "eval_loss": 0.5671026110649109,
+      "eval_precision": 0.8899470899470898,
+      "eval_recall": 0.880764163372859,
+      "eval_runtime": 36.298,
+      "eval_samples_per_second": 2.948,
+      "eval_steps_per_second": 0.386,
+      "step": 119
+    },
+    {
+      "epoch": 9.96,
+      "step": 132,
+      "train_accuracy": 0.9316037735849056,
+      "train_f1": 0.9311136538837689,
+      "train_loss": 0.40401148796081543,
+      "train_precision": 0.9336201141469944,
+      "train_recall": 0.9344224750671604,
+      "train_runtime": 117.7535,
+      "train_samples_per_second": 3.601,
+      "train_steps_per_second": 0.45
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 2.956929922103882,
+      "learning_rate": 0.0002994871794871795,
+      "loss": 0.7054,
+      "step": 132
+    },
+    {
+      "epoch": 9.96,
+      "eval_accuracy": 0.9158878504672897,
+      "eval_f1": 0.9176957026713124,
+      "eval_loss": 0.3391460180282593,
+      "eval_precision": 0.922962962962963,
+      "eval_recall": 0.9159796725014117,
+      "eval_runtime": 36.2906,
+      "eval_samples_per_second": 2.948,
+      "eval_steps_per_second": 0.386,
+      "step": 132
+    },
+    {
+      "epoch": 10.94,
+      "step": 145,
+      "train_accuracy": 0.9410377358490566,
+      "train_f1": 0.9417046133414193,
+      "train_loss": 0.2951917350292206,
+      "train_precision": 0.9450684559692762,
+      "train_recall": 0.9400955207310657,
+      "train_runtime": 119.8783,
+      "train_samples_per_second": 3.537,
+      "train_steps_per_second": 0.442
+    },
+    {
+      "epoch": 10.94,
+      "grad_norm": 2.339923143386841,
+      "learning_rate": 0.00029615384615384616,
+      "loss": 0.595,
+      "step": 145
+    },
+    {
+      "epoch": 10.94,
+      "eval_accuracy": 0.9626168224299065,
+      "eval_f1": 0.9627651607231869,
+      "eval_loss": 0.24373753368854523,
+      "eval_precision": 0.9635610766045548,
+      "eval_recall": 0.9639939770374552,
+      "eval_runtime": 38.7327,
+      "eval_samples_per_second": 2.763,
+      "eval_steps_per_second": 0.361,
+      "step": 145
+    },
+    {
+      "epoch": 12.0,
+      "step": 159,
+      "train_accuracy": 0.9127358490566038,
+      "train_f1": 0.9180456649072474,
+      "train_loss": 0.27252715826034546,
+      "train_precision": 0.933049846444602,
+      "train_recall": 0.9085866769706422,
+      "train_runtime": 116.9422,
+      "train_samples_per_second": 3.626,
+      "train_steps_per_second": 0.453
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 4.72435188293457,
+      "learning_rate": 0.00029256410256410254,
+      "loss": 0.4509,
+      "step": 159
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9252336448598131,
+      "eval_f1": 0.9260400996325433,
+      "eval_loss": 0.22485339641571045,
+      "eval_precision": 0.9322943722943723,
+      "eval_recall": 0.9283832109919066,
+      "eval_runtime": 35.9322,
+      "eval_samples_per_second": 2.978,
+      "eval_steps_per_second": 0.39,
+      "step": 159
+    },
+    {
+      "epoch": 12.98,
+      "step": 169,
+      "train_accuracy": 0.9363207547169812,
+      "train_f1": 0.9364699926202164,
+      "train_loss": 0.23557166755199432,
+      "train_precision": 0.9409715380405036,
+      "train_recall": 0.9348327849415139,
+      "train_runtime": 133.051,
+      "train_samples_per_second": 3.187,
+      "train_steps_per_second": 0.398
+    },
+    {
+      "epoch": 12.98,
+      "grad_norm": 4.02577543258667,
+      "learning_rate": 0.00011666666666666665,
+      "loss": 0.4954,
+      "step": 169
+    },
+    {
+      "epoch": 12.98,
+      "eval_accuracy": 0.9813084112149533,
+      "eval_f1": 0.9844101823682084,
+      "eval_loss": 0.09772800654172897,
+      "eval_precision": 0.9848484848484848,
+      "eval_recall": 0.9844155844155844,
+      "eval_runtime": 46.2598,
+      "eval_samples_per_second": 2.313,
+      "eval_steps_per_second": 0.303,
+      "step": 169
+    },
+    {
+      "epoch": 13.96,
+      "step": 182,
+      "train_accuracy": 0.9693396226415094,
+      "train_f1": 0.9713518400105837,
+      "train_loss": 0.16475237905979156,
+      "train_precision": 0.9745377270610154,
+      "train_recall": 0.9693937925419673,
+      "train_runtime": 138.0499,
+      "train_samples_per_second": 3.071,
+      "train_steps_per_second": 0.384
+    },
+    {
+      "epoch": 13.96,
+      "grad_norm": 2.480182647705078,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 0.4842,
+      "step": 182
+    },
+    {
+      "epoch": 13.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.07943902164697647,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 60.5689,
+      "eval_samples_per_second": 1.767,
+      "eval_steps_per_second": 0.231,
+      "step": 182
+    },
+    {
+      "epoch": 14.94,
+      "step": 195,
+      "train_accuracy": 0.9716981132075472,
+      "train_f1": 0.9719681475881605,
+      "train_loss": 0.1421472579240799,
+      "train_precision": 0.9732013799086496,
+      "train_recall": 0.9717206659817743,
+      "train_runtime": 161.6921,
+      "train_samples_per_second": 2.622,
+      "train_steps_per_second": 0.328
+    },
+    {
+      "epoch": 14.94,
+      "grad_norm": 3.177818775177002,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.4194,
+      "step": 195
+    },
+    {
+      "epoch": 14.94,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.08730577677488327,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 47.0651,
+      "eval_samples_per_second": 2.273,
+      "eval_steps_per_second": 0.297,
+      "step": 195
+    },
+    {
+      "epoch": 16.0,
+      "step": 209,
+      "train_accuracy": 0.964622641509434,
+      "train_f1": 0.9654786147790538,
+      "train_loss": 0.170837864279747,
+      "train_precision": 0.9662175617420704,
+      "train_recall": 0.9652730803864843,
+      "train_runtime": 122.9869,
+      "train_samples_per_second": 3.448,
+      "train_steps_per_second": 0.431
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 2.836935520172119,
+      "learning_rate": 6.538461538461539e-05,
+      "loss": 0.4353,
+      "step": 209
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.07477138936519623,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 45.8048,
+      "eval_samples_per_second": 2.336,
+      "eval_steps_per_second": 0.306,
+      "step": 209
+    },
+    {
+      "epoch": 16.98,
+      "step": 222,
+      "train_accuracy": 0.9693396226415094,
+      "train_f1": 0.9698753879001953,
+      "train_loss": 0.13738253712654114,
+      "train_precision": 0.9698721656123299,
+      "train_recall": 0.9699632431180802,
+      "train_runtime": 120.4492,
+      "train_samples_per_second": 3.52,
+      "train_steps_per_second": 0.44
+    },
+    {
+      "epoch": 16.98,
+      "grad_norm": 2.6075973510742188,
+      "learning_rate": 4.871794871794872e-05,
+      "loss": 0.3996,
+      "step": 222
+    },
+    {
+      "epoch": 16.98,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06090036779642105,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 46.0048,
+      "eval_samples_per_second": 2.326,
+      "eval_steps_per_second": 0.304,
+      "step": 222
+    },
+    {
+      "epoch": 17.96,
+      "step": 235,
+      "train_accuracy": 0.9669811320754716,
+      "train_f1": 0.9669883931291977,
+      "train_loss": 0.15114478766918182,
+      "train_precision": 0.9689529722559259,
+      "train_recall": 0.9654587281320716,
+      "train_runtime": 117.4904,
+      "train_samples_per_second": 3.609,
+      "train_steps_per_second": 0.451
+    },
+    {
+      "epoch": 17.96,
+      "grad_norm": 3.3314599990844727,
+      "learning_rate": 3.2051282051282044e-05,
+      "loss": 0.4445,
+      "step": 235
+    },
+    {
+      "epoch": 17.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06219491362571716,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 44.1393,
+      "eval_samples_per_second": 2.424,
+      "eval_steps_per_second": 0.317,
+      "step": 235
+    },
+    {
+      "epoch": 18.94,
+      "step": 248,
+      "train_accuracy": 0.9740566037735849,
+      "train_f1": 0.973824007234904,
+      "train_loss": 0.13619276881217957,
+      "train_precision": 0.9751913290746111,
+      "train_recall": 0.9728311732620997,
+      "train_runtime": 116.7219,
+      "train_samples_per_second": 3.633,
+      "train_steps_per_second": 0.454
+    },
+    {
+      "epoch": 18.94,
+      "grad_norm": 3.210602045059204,
+      "learning_rate": 1.5384615384615384e-05,
+      "loss": 0.3838,
+      "step": 248
+    },
+    {
+      "epoch": 18.94,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.0594821497797966,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 36.336,
+      "eval_samples_per_second": 2.945,
+      "eval_steps_per_second": 0.385,
+      "step": 248
+    },
+    {
+      "epoch": 19.85,
+      "step": 260,
+      "train_accuracy": 0.9599056603773585,
+      "train_f1": 0.9607465386599348,
+      "train_loss": 0.16524513065814972,
+      "train_precision": 0.9620981874857844,
+      "train_recall": 0.9597895488701212,
+      "train_runtime": 115.5845,
+      "train_samples_per_second": 3.668,
+      "train_steps_per_second": 0.459
+    },
+    {
+      "epoch": 19.85,
+      "grad_norm": 4.980319976806641,
+      "learning_rate": 0.0,
+      "loss": 0.4,
+      "step": 260
+    },
+    {
+      "epoch": 19.85,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06939452886581421,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 35.1775,
+      "eval_samples_per_second": 3.042,
+      "eval_steps_per_second": 0.398,
+      "step": 260
+    },
+    {
+      "epoch": 19.85,
+      "step": 260,
+      "total_flos": 1.7791424076806554e+17,
+      "train_loss": 0.16752889706538274,
+      "train_runtime": 3044.6611,
+      "train_samples_per_second": 2.785,
+      "train_steps_per_second": 0.085
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 260,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.7791424076806554e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}