mtzig commited on Nov 17, 2024

Commit

2488092

verified ·

1 Parent(s): a9d2527

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7d74a5585ae993a6e9c7b07790aae8f0c6ede0a0774f81561a82c2708bee785
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:617b4e7ef51a4a829212565b9fe359e1fe2ac851a2809c966030d7ff627e0652
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27e9bf159d1c6df3c05935303e11481174d4ccae637c88832a535dd99556d132
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:484c335eaf99125df88c41fe4a33b89441821ba3fcc6e92f350103ae48ba7236
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7be2ae69c44d81511c682b00decc24cb698cd2a1b3d7d36ad084cd62543c800
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14aa0db470b8faf40c9a9a54850fb04cba410434d2242ef53956049744b85dce
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2f19a6fc04e0cba2606b2b3f6e922838a9154d5ed7a83c5e22162400cea0eca
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:226caa213c68d99c4b5b22445dd63531335c271e68ac179a65c21017095d3224
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e322c4ac5aea24fdd87b386e7ab20d27043a5b4904558e4a3f888885faeacc76
+size 14960

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6644b6a9bd9e7f33d704b68b923289be0932276f3b07da3a3701aaba7a083143
+size 14960

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d924e090a4b02ce846765ca991705d85a42b037b42a4c7ea5d729b76cb64cf67
+size 14960

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43c81c4cfe6c3ba8c7c89de671f39585f440ebbd595d231b4c9d3f90284dc13e
+size 14960

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03cdc269568a1e487c066c5ff642f345c717c102a5945b7ac45974c55ad482ad
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.014754703061600885,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.8306801736613604,
+      "eval_f1": 0.6163934426229508,
+      "eval_loss": 0.4624278247356415,
+      "eval_precision": 0.9494949494949495,
+      "eval_recall": 0.4563106796116505,
+      "eval_runtime": 50.0967,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.2,
+      "step": 0
+    },
+    {
+      "epoch": 0.00014754703061600885,
+      "grad_norm": 1.9701803922653198,
+      "learning_rate": 2.9498525073746314e-08,
+      "loss": 0.6704,
+      "step": 1
+    },
+    {
+      "epoch": 0.0002950940612320177,
+      "grad_norm": 1.8603360652923584,
+      "learning_rate": 5.899705014749263e-08,
+      "loss": 0.5838,
+      "step": 2
+    },
+    {
+      "epoch": 0.00044264109184802655,
+      "grad_norm": 2.2240378856658936,
+      "learning_rate": 8.849557522123894e-08,
+      "loss": 0.5271,
+      "step": 3
+    },
+    {
+      "epoch": 0.0005901881224640354,
+      "grad_norm": 1.9955577850341797,
+      "learning_rate": 1.1799410029498526e-07,
+      "loss": 0.6257,
+      "step": 4
+    },
+    {
+      "epoch": 0.0007377351530800443,
+      "grad_norm": 2.2215893268585205,
+      "learning_rate": 1.4749262536873157e-07,
+      "loss": 0.5975,
+      "step": 5
+    },
+    {
+      "epoch": 0.0008852821836960531,
+      "grad_norm": 1.9294912815093994,
+      "learning_rate": 1.7699115044247788e-07,
+      "loss": 0.5903,
+      "step": 6
+    },
+    {
+      "epoch": 0.0010328292143120619,
+      "grad_norm": 2.0847418308258057,
+      "learning_rate": 2.064896755162242e-07,
+      "loss": 0.5851,
+      "step": 7
+    },
+    {
+      "epoch": 0.0011803762449280708,
+      "grad_norm": 2.115176200866699,
+      "learning_rate": 2.359882005899705e-07,
+      "loss": 0.5952,
+      "step": 8
+    },
+    {
+      "epoch": 0.0013279232755440797,
+      "grad_norm": 2.261711835861206,
+      "learning_rate": 2.654867256637168e-07,
+      "loss": 0.589,
+      "step": 9
+    },
+    {
+      "epoch": 0.0014754703061600886,
+      "grad_norm": 1.9945313930511475,
+      "learning_rate": 2.9498525073746315e-07,
+      "loss": 0.6214,
+      "step": 10
+    },
+    {
+      "epoch": 0.0016230173367760973,
+      "grad_norm": 1.9860559701919556,
+      "learning_rate": 3.244837758112095e-07,
+      "loss": 0.6032,
+      "step": 11
+    },
+    {
+      "epoch": 0.0017705643673921062,
+      "grad_norm": 2.2528653144836426,
+      "learning_rate": 3.5398230088495575e-07,
+      "loss": 0.6562,
+      "step": 12
+    },
+    {
+      "epoch": 0.001918111398008115,
+      "grad_norm": 2.50659441947937,
+      "learning_rate": 3.834808259587021e-07,
+      "loss": 0.6093,
+      "step": 13
+    },
+    {
+      "epoch": 0.0020656584286241238,
+      "grad_norm": 1.8829281330108643,
+      "learning_rate": 4.129793510324484e-07,
+      "loss": 0.6456,
+      "step": 14
+    },
+    {
+      "epoch": 0.0022132054592401327,
+      "grad_norm": 2.3590948581695557,
+      "learning_rate": 4.4247787610619474e-07,
+      "loss": 0.722,
+      "step": 15
+    },
+    {
+      "epoch": 0.0023607524898561416,
+      "grad_norm": 1.8200560808181763,
+      "learning_rate": 4.71976401179941e-07,
+      "loss": 0.5189,
+      "step": 16
+    },
+    {
+      "epoch": 0.0025082995204721505,
+      "grad_norm": 2.125967502593994,
+      "learning_rate": 5.014749262536873e-07,
+      "loss": 0.5547,
+      "step": 17
+    },
+    {
+      "epoch": 0.0026558465510881594,
+      "grad_norm": 2.1043388843536377,
+      "learning_rate": 5.309734513274336e-07,
+      "loss": 0.5487,
+      "step": 18
+    },
+    {
+      "epoch": 0.0028033935817041683,
+      "grad_norm": 2.0919413566589355,
+      "learning_rate": 5.6047197640118e-07,
+      "loss": 0.5783,
+      "step": 19
+    },
+    {
+      "epoch": 0.002950940612320177,
+      "grad_norm": 2.051356554031372,
+      "learning_rate": 5.899705014749263e-07,
+      "loss": 0.6147,
+      "step": 20
+    },
+    {
+      "epoch": 0.002950940612320177,
+      "eval_accuracy": 0.829232995658466,
+      "eval_f1": 0.6168831168831169,
+      "eval_loss": 0.4627985954284668,
+      "eval_precision": 0.9313725490196079,
+      "eval_recall": 0.46116504854368934,
+      "eval_runtime": 49.6124,
+      "eval_samples_per_second": 5.865,
+      "eval_steps_per_second": 0.202,
+      "step": 20
+    },
+    {
+      "epoch": 0.003098487642936186,
+      "grad_norm": 2.2795355319976807,
+      "learning_rate": 6.194690265486726e-07,
+      "loss": 0.5637,
+      "step": 21
+    },
+    {
+      "epoch": 0.0032460346735521946,
+      "grad_norm": 2.2324700355529785,
+      "learning_rate": 6.48967551622419e-07,
+      "loss": 0.5646,
+      "step": 22
+    },
+    {
+      "epoch": 0.0033935817041682035,
+      "grad_norm": 3.0950839519500732,
+      "learning_rate": 6.784660766961653e-07,
+      "loss": 0.6036,
+      "step": 23
+    },
+    {
+      "epoch": 0.0035411287347842124,
+      "grad_norm": 1.8922393321990967,
+      "learning_rate": 7.079646017699115e-07,
+      "loss": 0.5911,
+      "step": 24
+    },
+    {
+      "epoch": 0.0036886757654002213,
+      "grad_norm": 2.513780117034912,
+      "learning_rate": 7.374631268436578e-07,
+      "loss": 0.6239,
+      "step": 25
+    },
+    {
+      "epoch": 0.00383622279601623,
+      "grad_norm": 2.138617753982544,
+      "learning_rate": 7.669616519174042e-07,
+      "loss": 0.5282,
+      "step": 26
+    },
+    {
+      "epoch": 0.003983769826632239,
+      "grad_norm": 1.7860370874404907,
+      "learning_rate": 7.964601769911505e-07,
+      "loss": 0.5166,
+      "step": 27
+    },
+    {
+      "epoch": 0.0041313168572482475,
+      "grad_norm": 1.7825922966003418,
+      "learning_rate": 8.259587020648968e-07,
+      "loss": 0.5581,
+      "step": 28
+    },
+    {
+      "epoch": 0.004278863887864257,
+      "grad_norm": 1.8826736211776733,
+      "learning_rate": 8.554572271386432e-07,
+      "loss": 0.5276,
+      "step": 29
+    },
+    {
+      "epoch": 0.004426410918480265,
+      "grad_norm": 2.067537307739258,
+      "learning_rate": 8.849557522123895e-07,
+      "loss": 0.5944,
+      "step": 30
+    },
+    {
+      "epoch": 0.004573957949096275,
+      "grad_norm": 2.011340379714966,
+      "learning_rate": 9.144542772861357e-07,
+      "loss": 0.5603,
+      "step": 31
+    },
+    {
+      "epoch": 0.004721504979712283,
+      "grad_norm": 1.8796640634536743,
+      "learning_rate": 9.43952802359882e-07,
+      "loss": 0.5679,
+      "step": 32
+    },
+    {
+      "epoch": 0.0048690520103282925,
+      "grad_norm": 2.359736442565918,
+      "learning_rate": 9.734513274336284e-07,
+      "loss": 0.5206,
+      "step": 33
+    },
+    {
+      "epoch": 0.005016599040944301,
+      "grad_norm": 2.2447509765625,
+      "learning_rate": 1.0029498525073746e-06,
+      "loss": 0.5807,
+      "step": 34
+    },
+    {
+      "epoch": 0.005164146071560309,
+      "grad_norm": 1.9554908275604248,
+      "learning_rate": 1.032448377581121e-06,
+      "loss": 0.5323,
+      "step": 35
+    },
+    {
+      "epoch": 0.005311693102176319,
+      "grad_norm": 2.3275227546691895,
+      "learning_rate": 1.0619469026548673e-06,
+      "loss": 0.5667,
+      "step": 36
+    },
+    {
+      "epoch": 0.005459240132792327,
+      "grad_norm": 2.8186075687408447,
+      "learning_rate": 1.0914454277286137e-06,
+      "loss": 0.655,
+      "step": 37
+    },
+    {
+      "epoch": 0.005606787163408337,
+      "grad_norm": 1.6935522556304932,
+      "learning_rate": 1.12094395280236e-06,
+      "loss": 0.5529,
+      "step": 38
+    },
+    {
+      "epoch": 0.005754334194024345,
+      "grad_norm": 2.2262094020843506,
+      "learning_rate": 1.1504424778761064e-06,
+      "loss": 0.6316,
+      "step": 39
+    },
+    {
+      "epoch": 0.005901881224640354,
+      "grad_norm": 1.9788655042648315,
+      "learning_rate": 1.1799410029498526e-06,
+      "loss": 0.5341,
+      "step": 40
+    },
+    {
+      "epoch": 0.005901881224640354,
+      "eval_accuracy": 0.8277858176555717,
+      "eval_f1": 0.6098360655737705,
+      "eval_loss": 0.4612308144569397,
+      "eval_precision": 0.9393939393939394,
+      "eval_recall": 0.45145631067961167,
+      "eval_runtime": 50.5301,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.198,
+      "step": 40
+    },
+    {
+      "epoch": 0.006049428255256363,
+      "grad_norm": 1.910378098487854,
+      "learning_rate": 1.2094395280235988e-06,
+      "loss": 0.6305,
+      "step": 41
+    },
+    {
+      "epoch": 0.006196975285872372,
+      "grad_norm": 1.9001059532165527,
+      "learning_rate": 1.2389380530973452e-06,
+      "loss": 0.5019,
+      "step": 42
+    },
+    {
+      "epoch": 0.006344522316488381,
+      "grad_norm": 2.275596857070923,
+      "learning_rate": 1.2684365781710917e-06,
+      "loss": 0.6744,
+      "step": 43
+    },
+    {
+      "epoch": 0.006492069347104389,
+      "grad_norm": 2.0762808322906494,
+      "learning_rate": 1.297935103244838e-06,
+      "loss": 0.596,
+      "step": 44
+    },
+    {
+      "epoch": 0.0066396163777203985,
+      "grad_norm": 1.8717623949050903,
+      "learning_rate": 1.3274336283185843e-06,
+      "loss": 0.6371,
+      "step": 45
+    },
+    {
+      "epoch": 0.006787163408336407,
+      "grad_norm": 2.0242576599121094,
+      "learning_rate": 1.3569321533923306e-06,
+      "loss": 0.6408,
+      "step": 46
+    },
+    {
+      "epoch": 0.006934710438952416,
+      "grad_norm": 3.683346748352051,
+      "learning_rate": 1.386430678466077e-06,
+      "loss": 0.5967,
+      "step": 47
+    },
+    {
+      "epoch": 0.007082257469568425,
+      "grad_norm": 2.0110268592834473,
+      "learning_rate": 1.415929203539823e-06,
+      "loss": 0.6027,
+      "step": 48
+    },
+    {
+      "epoch": 0.007229804500184434,
+      "grad_norm": 2.288217782974243,
+      "learning_rate": 1.4454277286135697e-06,
+      "loss": 0.5854,
+      "step": 49
+    },
+    {
+      "epoch": 0.0073773515308004425,
+      "grad_norm": 2.1070024967193604,
+      "learning_rate": 1.4749262536873157e-06,
+      "loss": 0.565,
+      "step": 50
+    },
+    {
+      "epoch": 0.007524898561416452,
+      "grad_norm": 1.879689335823059,
+      "learning_rate": 1.5044247787610621e-06,
+      "loss": 0.601,
+      "step": 51
+    },
+    {
+      "epoch": 0.00767244559203246,
+      "grad_norm": 1.9958750009536743,
+      "learning_rate": 1.5339233038348083e-06,
+      "loss": 0.5243,
+      "step": 52
+    },
+    {
+      "epoch": 0.007819992622648469,
+      "grad_norm": 2.1826648712158203,
+      "learning_rate": 1.5634218289085548e-06,
+      "loss": 0.6103,
+      "step": 53
+    },
+    {
+      "epoch": 0.007967539653264478,
+      "grad_norm": 1.838269591331482,
+      "learning_rate": 1.592920353982301e-06,
+      "loss": 0.5783,
+      "step": 54
+    },
+    {
+      "epoch": 0.008115086683880487,
+      "grad_norm": 1.9237309694290161,
+      "learning_rate": 1.6224188790560474e-06,
+      "loss": 0.4933,
+      "step": 55
+    },
+    {
+      "epoch": 0.008262633714496495,
+      "grad_norm": 1.7426055669784546,
+      "learning_rate": 1.6519174041297937e-06,
+      "loss": 0.5435,
+      "step": 56
+    },
+    {
+      "epoch": 0.008410180745112504,
+      "grad_norm": 1.5711760520935059,
+      "learning_rate": 1.68141592920354e-06,
+      "loss": 0.5268,
+      "step": 57
+    },
+    {
+      "epoch": 0.008557727775728514,
+      "grad_norm": 1.984619140625,
+      "learning_rate": 1.7109144542772863e-06,
+      "loss": 0.6161,
+      "step": 58
+    },
+    {
+      "epoch": 0.008705274806344523,
+      "grad_norm": 2.2215609550476074,
+      "learning_rate": 1.7404129793510328e-06,
+      "loss": 0.575,
+      "step": 59
+    },
+    {
+      "epoch": 0.00885282183696053,
+      "grad_norm": 2.1121788024902344,
+      "learning_rate": 1.769911504424779e-06,
+      "loss": 0.5857,
+      "step": 60
+    },
+    {
+      "epoch": 0.00885282183696053,
+      "eval_accuracy": 0.8277858176555717,
+      "eval_f1": 0.6072607260726073,
+      "eval_loss": 0.4569220244884491,
+      "eval_precision": 0.9484536082474226,
+      "eval_recall": 0.44660194174757284,
+      "eval_runtime": 50.1142,
+      "eval_samples_per_second": 5.807,
+      "eval_steps_per_second": 0.2,
+      "step": 60
+    },
+    {
+      "epoch": 0.00900036886757654,
+      "grad_norm": 1.9798246622085571,
+      "learning_rate": 1.7994100294985254e-06,
+      "loss": 0.4932,
+      "step": 61
+    },
+    {
+      "epoch": 0.00914791589819255,
+      "grad_norm": 1.7873258590698242,
+      "learning_rate": 1.8289085545722714e-06,
+      "loss": 0.4711,
+      "step": 62
+    },
+    {
+      "epoch": 0.009295462928808557,
+      "grad_norm": 2.109706163406372,
+      "learning_rate": 1.8584070796460179e-06,
+      "loss": 0.5424,
+      "step": 63
+    },
+    {
+      "epoch": 0.009443009959424566,
+      "grad_norm": 1.7430013418197632,
+      "learning_rate": 1.887905604719764e-06,
+      "loss": 0.5439,
+      "step": 64
+    },
+    {
+      "epoch": 0.009590556990040576,
+      "grad_norm": 1.8797430992126465,
+      "learning_rate": 1.9174041297935107e-06,
+      "loss": 0.5548,
+      "step": 65
+    },
+    {
+      "epoch": 0.009738104020656585,
+      "grad_norm": 2.084313154220581,
+      "learning_rate": 1.9469026548672567e-06,
+      "loss": 0.5142,
+      "step": 66
+    },
+    {
+      "epoch": 0.009885651051272593,
+      "grad_norm": 2.2595505714416504,
+      "learning_rate": 1.976401179941003e-06,
+      "loss": 0.5789,
+      "step": 67
+    },
+    {
+      "epoch": 0.010033198081888602,
+      "grad_norm": 2.101414203643799,
+      "learning_rate": 2.005899705014749e-06,
+      "loss": 0.5557,
+      "step": 68
+    },
+    {
+      "epoch": 0.010180745112504611,
+      "grad_norm": 1.9330633878707886,
+      "learning_rate": 2.035398230088496e-06,
+      "loss": 0.5573,
+      "step": 69
+    },
+    {
+      "epoch": 0.010328292143120619,
+      "grad_norm": 2.061075210571289,
+      "learning_rate": 2.064896755162242e-06,
+      "loss": 0.6316,
+      "step": 70
+    },
+    {
+      "epoch": 0.010475839173736628,
+      "grad_norm": 2.1672215461730957,
+      "learning_rate": 2.0943952802359885e-06,
+      "loss": 0.5352,
+      "step": 71
+    },
+    {
+      "epoch": 0.010623386204352638,
+      "grad_norm": 1.6692755222320557,
+      "learning_rate": 2.1238938053097345e-06,
+      "loss": 0.5023,
+      "step": 72
+    },
+    {
+      "epoch": 0.010770933234968647,
+      "grad_norm": 1.9689394235610962,
+      "learning_rate": 2.153392330383481e-06,
+      "loss": 0.5226,
+      "step": 73
+    },
+    {
+      "epoch": 0.010918480265584654,
+      "grad_norm": 2.438157320022583,
+      "learning_rate": 2.1828908554572274e-06,
+      "loss": 0.5675,
+      "step": 74
+    },
+    {
+      "epoch": 0.011066027296200664,
+      "grad_norm": 2.170057773590088,
+      "learning_rate": 2.212389380530974e-06,
+      "loss": 0.4975,
+      "step": 75
+    },
+    {
+      "epoch": 0.011213574326816673,
+      "grad_norm": 1.7632702589035034,
+      "learning_rate": 2.24188790560472e-06,
+      "loss": 0.5138,
+      "step": 76
+    },
+    {
+      "epoch": 0.011361121357432682,
+      "grad_norm": 2.0990798473358154,
+      "learning_rate": 2.2713864306784663e-06,
+      "loss": 0.4686,
+      "step": 77
+    },
+    {
+      "epoch": 0.01150866838804869,
+      "grad_norm": 1.6329792737960815,
+      "learning_rate": 2.3008849557522127e-06,
+      "loss": 0.4681,
+      "step": 78
+    },
+    {
+      "epoch": 0.0116562154186647,
+      "grad_norm": 2.017184019088745,
+      "learning_rate": 2.330383480825959e-06,
+      "loss": 0.5001,
+      "step": 79
+    },
+    {
+      "epoch": 0.011803762449280709,
+      "grad_norm": 1.9848320484161377,
+      "learning_rate": 2.359882005899705e-06,
+      "loss": 0.5562,
+      "step": 80
+    },
+    {
+      "epoch": 0.011803762449280709,
+      "eval_accuracy": 0.8364688856729378,
+      "eval_f1": 0.6366559485530546,
+      "eval_loss": 0.4472511410713196,
+      "eval_precision": 0.9428571428571428,
+      "eval_recall": 0.48058252427184467,
+      "eval_runtime": 49.4533,
+      "eval_samples_per_second": 5.884,
+      "eval_steps_per_second": 0.202,
+      "step": 80
+    },
+    {
+      "epoch": 0.011951309479896716,
+      "grad_norm": 2.2966082096099854,
+      "learning_rate": 2.3893805309734516e-06,
+      "loss": 0.6017,
+      "step": 81
+    },
+    {
+      "epoch": 0.012098856510512726,
+      "grad_norm": 2.56752610206604,
+      "learning_rate": 2.4188790560471976e-06,
+      "loss": 0.5368,
+      "step": 82
+    },
+    {
+      "epoch": 0.012246403541128735,
+      "grad_norm": 1.9481098651885986,
+      "learning_rate": 2.448377581120944e-06,
+      "loss": 0.588,
+      "step": 83
+    },
+    {
+      "epoch": 0.012393950571744744,
+      "grad_norm": 1.8865103721618652,
+      "learning_rate": 2.4778761061946905e-06,
+      "loss": 0.5751,
+      "step": 84
+    },
+    {
+      "epoch": 0.012541497602360752,
+      "grad_norm": 2.2721524238586426,
+      "learning_rate": 2.5073746312684365e-06,
+      "loss": 0.5319,
+      "step": 85
+    },
+    {
+      "epoch": 0.012689044632976761,
+      "grad_norm": 2.1798763275146484,
+      "learning_rate": 2.5368731563421834e-06,
+      "loss": 0.519,
+      "step": 86
+    },
+    {
+      "epoch": 0.01283659166359277,
+      "grad_norm": 1.6984542608261108,
+      "learning_rate": 2.5663716814159294e-06,
+      "loss": 0.4963,
+      "step": 87
+    },
+    {
+      "epoch": 0.012984138694208778,
+      "grad_norm": 1.9920787811279297,
+      "learning_rate": 2.595870206489676e-06,
+      "loss": 0.457,
+      "step": 88
+    },
+    {
+      "epoch": 0.013131685724824788,
+      "grad_norm": 1.8378043174743652,
+      "learning_rate": 2.625368731563422e-06,
+      "loss": 0.5445,
+      "step": 89
+    },
+    {
+      "epoch": 0.013279232755440797,
+      "grad_norm": 1.9275016784667969,
+      "learning_rate": 2.6548672566371687e-06,
+      "loss": 0.5571,
+      "step": 90
+    },
+    {
+      "epoch": 0.013426779786056806,
+      "grad_norm": 1.9556200504302979,
+      "learning_rate": 2.6843657817109147e-06,
+      "loss": 0.5127,
+      "step": 91
+    },
+    {
+      "epoch": 0.013574326816672814,
+      "grad_norm": 2.2737321853637695,
+      "learning_rate": 2.713864306784661e-06,
+      "loss": 0.4905,
+      "step": 92
+    },
+    {
+      "epoch": 0.013721873847288823,
+      "grad_norm": 2.186802864074707,
+      "learning_rate": 2.743362831858407e-06,
+      "loss": 0.5501,
+      "step": 93
+    },
+    {
+      "epoch": 0.013869420877904833,
+      "grad_norm": 1.774180293083191,
+      "learning_rate": 2.772861356932154e-06,
+      "loss": 0.4829,
+      "step": 94
+    },
+    {
+      "epoch": 0.014016967908520842,
+      "grad_norm": 2.271841526031494,
+      "learning_rate": 2.8023598820059e-06,
+      "loss": 0.4667,
+      "step": 95
+    },
+    {
+      "epoch": 0.01416451493913685,
+      "grad_norm": 1.8774105310440063,
+      "learning_rate": 2.831858407079646e-06,
+      "loss": 0.4369,
+      "step": 96
+    },
+    {
+      "epoch": 0.014312061969752859,
+      "grad_norm": 3.2019522190093994,
+      "learning_rate": 2.8613569321533925e-06,
+      "loss": 0.6799,
+      "step": 97
+    },
+    {
+      "epoch": 0.014459609000368868,
+      "grad_norm": 1.7792394161224365,
+      "learning_rate": 2.8908554572271393e-06,
+      "loss": 0.5064,
+      "step": 98
+    },
+    {
+      "epoch": 0.014607156030984876,
+      "grad_norm": 1.9200505018234253,
+      "learning_rate": 2.9203539823008853e-06,
+      "loss": 0.4738,
+      "step": 99
+    },
+    {
+      "epoch": 0.014754703061600885,
+      "grad_norm": 1.9603195190429688,
+      "learning_rate": 2.9498525073746313e-06,
+      "loss": 0.5169,
+      "step": 100
+    },
+    {
+      "epoch": 0.014754703061600885,
+      "eval_accuracy": 0.8596237337192475,
+      "eval_f1": 0.6996904024767802,
+      "eval_loss": 0.4301896095275879,
+      "eval_precision": 0.9658119658119658,
+      "eval_recall": 0.5485436893203883,
+      "eval_runtime": 50.2851,
+      "eval_samples_per_second": 5.787,
+      "eval_steps_per_second": 0.199,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 6777,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.071391499603149e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}