mtzig commited on Nov 23, 2024

Commit

916c150

verified ·

1 Parent(s): ac4a58c

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:852d0491768962159e9cf88b44bad53b90c67ec56b3259dda59b35fa4d58340b
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12c42bd6b8cea8979480d0fb89a5cd66a1d2c8532be449c1f70e8fb2bcc6293c
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d33cdd9773d6b5b9f63cec9c92b40470a60e53c9c721f450e0aeee7038e84ef
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6db6d22295dde123b105030b1c1e0d2fa0bc92137a932c162902793e53ba67a6
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2375b2f858b1e0569c01e57396909efec2e70bc24162d03ac637df0a853425a1
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32a951bd3b1e27cebdc97a8729f9df801c8f7375c9e159eec8725cf095c441d2
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ceea8c55c71ce41ecc992f85dee4a157c40d57e6bca33a39317b2210eacb7b16
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0d21c76cb9b2dd01a5910d2e1f299fad7351e387c000db9a72c79bc799508d6
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1354281929c4028b95bc5eef091554bd272c91e14f2a311bf59109a32cca99a8
+size 15088

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5afb4b23b654c95d4606f9532d2a8fae8e22c559b0e7e486e0c9a27958ebdf91
+size 15088

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff392158ebdefac397be55eca50280a7d914d9a89e3c6e5725a4b1017bc95158
+size 15088

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a44bc7efc80a256bee5010496ff76cf7a2ae3338c63a27d285d369f5ad63f54
+size 15088

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02a4a397f4545a6634eb1d91b5d81363c9e5f9c9127f994c54b1dbbb2266f2b3
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.0847457627118644,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.7546099290780142,
+      "eval_f1": 0.36162361623616235,
+      "eval_loss": 0.49413058161735535,
+      "eval_precision": 0.6363636363636364,
+      "eval_recall": 0.25257731958762886,
+      "eval_runtime": 51.7135,
+      "eval_samples_per_second": 5.646,
+      "eval_steps_per_second": 0.193,
+      "step": 0
+    },
+    {
+      "epoch": 0.000847457627118644,
+      "grad_norm": 1.8022950887680054,
+      "learning_rate": 1.6949152542372883e-07,
+      "loss": 0.4871,
+      "step": 1
+    },
+    {
+      "epoch": 0.001694915254237288,
+      "grad_norm": 1.6145427227020264,
+      "learning_rate": 3.3898305084745766e-07,
+      "loss": 0.443,
+      "step": 2
+    },
+    {
+      "epoch": 0.002542372881355932,
+      "grad_norm": 2.0260508060455322,
+      "learning_rate": 5.084745762711865e-07,
+      "loss": 0.5426,
+      "step": 3
+    },
+    {
+      "epoch": 0.003389830508474576,
+      "grad_norm": 1.438798427581787,
+      "learning_rate": 6.779661016949153e-07,
+      "loss": 0.4559,
+      "step": 4
+    },
+    {
+      "epoch": 0.00423728813559322,
+      "grad_norm": 2.0105838775634766,
+      "learning_rate": 8.474576271186441e-07,
+      "loss": 0.4625,
+      "step": 5
+    },
+    {
+      "epoch": 0.005084745762711864,
+      "grad_norm": 1.818857192993164,
+      "learning_rate": 1.016949152542373e-06,
+      "loss": 0.5044,
+      "step": 6
+    },
+    {
+      "epoch": 0.005932203389830509,
+      "grad_norm": 3.1182994842529297,
+      "learning_rate": 1.186440677966102e-06,
+      "loss": 0.6415,
+      "step": 7
+    },
+    {
+      "epoch": 0.006779661016949152,
+      "grad_norm": 1.8738701343536377,
+      "learning_rate": 1.3559322033898307e-06,
+      "loss": 0.5268,
+      "step": 8
+    },
+    {
+      "epoch": 0.007627118644067797,
+      "grad_norm": 2.299548864364624,
+      "learning_rate": 1.5254237288135596e-06,
+      "loss": 0.4975,
+      "step": 9
+    },
+    {
+      "epoch": 0.00847457627118644,
+      "grad_norm": 2.331179141998291,
+      "learning_rate": 1.6949152542372882e-06,
+      "loss": 0.5234,
+      "step": 10
+    },
+    {
+      "epoch": 0.009322033898305085,
+      "grad_norm": 1.9474170207977295,
+      "learning_rate": 1.8644067796610171e-06,
+      "loss": 0.4841,
+      "step": 11
+    },
+    {
+      "epoch": 0.010169491525423728,
+      "grad_norm": 1.6214301586151123,
+      "learning_rate": 2.033898305084746e-06,
+      "loss": 0.4232,
+      "step": 12
+    },
+    {
+      "epoch": 0.011016949152542373,
+      "grad_norm": 2.3513247966766357,
+      "learning_rate": 2.203389830508475e-06,
+      "loss": 0.6045,
+      "step": 13
+    },
+    {
+      "epoch": 0.011864406779661017,
+      "grad_norm": 1.8450990915298462,
+      "learning_rate": 2.372881355932204e-06,
+      "loss": 0.5038,
+      "step": 14
+    },
+    {
+      "epoch": 0.012711864406779662,
+      "grad_norm": 1.9837912321090698,
+      "learning_rate": 2.5423728813559323e-06,
+      "loss": 0.4716,
+      "step": 15
+    },
+    {
+      "epoch": 0.013559322033898305,
+      "grad_norm": 1.9894237518310547,
+      "learning_rate": 2.7118644067796613e-06,
+      "loss": 0.4758,
+      "step": 16
+    },
+    {
+      "epoch": 0.01440677966101695,
+      "grad_norm": 2.0753157138824463,
+      "learning_rate": 2.8813559322033903e-06,
+      "loss": 0.4984,
+      "step": 17
+    },
+    {
+      "epoch": 0.015254237288135594,
+      "grad_norm": 2.442741632461548,
+      "learning_rate": 3.0508474576271192e-06,
+      "loss": 0.5174,
+      "step": 18
+    },
+    {
+      "epoch": 0.016101694915254237,
+      "grad_norm": 1.9772732257843018,
+      "learning_rate": 3.2203389830508473e-06,
+      "loss": 0.5237,
+      "step": 19
+    },
+    {
+      "epoch": 0.01694915254237288,
+      "grad_norm": 1.8191900253295898,
+      "learning_rate": 3.3898305084745763e-06,
+      "loss": 0.483,
+      "step": 20
+    },
+    {
+      "epoch": 0.01694915254237288,
+      "eval_accuracy": 0.7645390070921986,
+      "eval_f1": 0.3712121212121212,
+      "eval_loss": 0.489811509847641,
+      "eval_precision": 0.7,
+      "eval_recall": 0.25257731958762886,
+      "eval_runtime": 51.7942,
+      "eval_samples_per_second": 5.638,
+      "eval_steps_per_second": 0.193,
+      "step": 20
+    },
+    {
+      "epoch": 0.017796610169491526,
+      "grad_norm": 1.6104735136032104,
+      "learning_rate": 3.5593220338983053e-06,
+      "loss": 0.4962,
+      "step": 21
+    },
+    {
+      "epoch": 0.01864406779661017,
+      "grad_norm": 4.9892897605896,
+      "learning_rate": 3.7288135593220342e-06,
+      "loss": 0.4929,
+      "step": 22
+    },
+    {
+      "epoch": 0.019491525423728815,
+      "grad_norm": 1.9893275499343872,
+      "learning_rate": 3.898305084745763e-06,
+      "loss": 0.4361,
+      "step": 23
+    },
+    {
+      "epoch": 0.020338983050847456,
+      "grad_norm": 1.6889193058013916,
+      "learning_rate": 4.067796610169492e-06,
+      "loss": 0.4808,
+      "step": 24
+    },
+    {
+      "epoch": 0.0211864406779661,
+      "grad_norm": 2.095546245574951,
+      "learning_rate": 4.23728813559322e-06,
+      "loss": 0.5017,
+      "step": 25
+    },
+    {
+      "epoch": 0.022033898305084745,
+      "grad_norm": 1.7155216932296753,
+      "learning_rate": 4.40677966101695e-06,
+      "loss": 0.4901,
+      "step": 26
+    },
+    {
+      "epoch": 0.02288135593220339,
+      "grad_norm": 1.7803897857666016,
+      "learning_rate": 4.576271186440678e-06,
+      "loss": 0.4776,
+      "step": 27
+    },
+    {
+      "epoch": 0.023728813559322035,
+      "grad_norm": 1.9448434114456177,
+      "learning_rate": 4.745762711864408e-06,
+      "loss": 0.463,
+      "step": 28
+    },
+    {
+      "epoch": 0.02457627118644068,
+      "grad_norm": 1.8458937406539917,
+      "learning_rate": 4.915254237288136e-06,
+      "loss": 0.5081,
+      "step": 29
+    },
+    {
+      "epoch": 0.025423728813559324,
+      "grad_norm": 1.8070677518844604,
+      "learning_rate": 5.084745762711865e-06,
+      "loss": 0.4508,
+      "step": 30
+    },
+    {
+      "epoch": 0.026271186440677965,
+      "grad_norm": 1.8023436069488525,
+      "learning_rate": 5.254237288135594e-06,
+      "loss": 0.4382,
+      "step": 31
+    },
+    {
+      "epoch": 0.02711864406779661,
+      "grad_norm": 2.1084094047546387,
+      "learning_rate": 5.423728813559323e-06,
+      "loss": 0.5103,
+      "step": 32
+    },
+    {
+      "epoch": 0.027966101694915254,
+      "grad_norm": 2.0315449237823486,
+      "learning_rate": 5.593220338983051e-06,
+      "loss": 0.4936,
+      "step": 33
+    },
+    {
+      "epoch": 0.0288135593220339,
+      "grad_norm": 1.6474404335021973,
+      "learning_rate": 5.7627118644067805e-06,
+      "loss": 0.4135,
+      "step": 34
+    },
+    {
+      "epoch": 0.029661016949152543,
+      "grad_norm": 1.6273308992385864,
+      "learning_rate": 5.932203389830509e-06,
+      "loss": 0.4333,
+      "step": 35
+    },
+    {
+      "epoch": 0.030508474576271188,
+      "grad_norm": 1.7373437881469727,
+      "learning_rate": 6.1016949152542385e-06,
+      "loss": 0.4807,
+      "step": 36
+    },
+    {
+      "epoch": 0.03135593220338983,
+      "grad_norm": 1.7728058099746704,
+      "learning_rate": 6.271186440677966e-06,
+      "loss": 0.4788,
+      "step": 37
+    },
+    {
+      "epoch": 0.03220338983050847,
+      "grad_norm": 1.839632511138916,
+      "learning_rate": 6.440677966101695e-06,
+      "loss": 0.5109,
+      "step": 38
+    },
+    {
+      "epoch": 0.03305084745762712,
+      "grad_norm": 2.0971577167510986,
+      "learning_rate": 6.610169491525424e-06,
+      "loss": 0.3893,
+      "step": 39
+    },
+    {
+      "epoch": 0.03389830508474576,
+      "grad_norm": 1.9932570457458496,
+      "learning_rate": 6.779661016949153e-06,
+      "loss": 0.5491,
+      "step": 40
+    },
+    {
+      "epoch": 0.03389830508474576,
+      "eval_accuracy": 0.7716312056737589,
+      "eval_f1": 0.3686274509803922,
+      "eval_loss": 0.4646168649196625,
+      "eval_precision": 0.7704918032786885,
+      "eval_recall": 0.2422680412371134,
+      "eval_runtime": 50.3457,
+      "eval_samples_per_second": 5.8,
+      "eval_steps_per_second": 0.199,
+      "step": 40
+    },
+    {
+      "epoch": 0.03474576271186441,
+      "grad_norm": 2.155245780944824,
+      "learning_rate": 6.949152542372882e-06,
+      "loss": 0.5208,
+      "step": 41
+    },
+    {
+      "epoch": 0.03559322033898305,
+      "grad_norm": 2.139366626739502,
+      "learning_rate": 7.1186440677966106e-06,
+      "loss": 0.4249,
+      "step": 42
+    },
+    {
+      "epoch": 0.036440677966101696,
+      "grad_norm": 1.818919062614441,
+      "learning_rate": 7.288135593220339e-06,
+      "loss": 0.3855,
+      "step": 43
+    },
+    {
+      "epoch": 0.03728813559322034,
+      "grad_norm": 1.7183736562728882,
+      "learning_rate": 7.4576271186440685e-06,
+      "loss": 0.4531,
+      "step": 44
+    },
+    {
+      "epoch": 0.038135593220338986,
+      "grad_norm": 1.7476608753204346,
+      "learning_rate": 7.627118644067797e-06,
+      "loss": 0.4361,
+      "step": 45
+    },
+    {
+      "epoch": 0.03898305084745763,
+      "grad_norm": 1.6213011741638184,
+      "learning_rate": 7.796610169491526e-06,
+      "loss": 0.4214,
+      "step": 46
+    },
+    {
+      "epoch": 0.03983050847457627,
+      "grad_norm": 2.0858964920043945,
+      "learning_rate": 7.966101694915255e-06,
+      "loss": 0.4487,
+      "step": 47
+    },
+    {
+      "epoch": 0.04067796610169491,
+      "grad_norm": 1.9192991256713867,
+      "learning_rate": 8.135593220338983e-06,
+      "loss": 0.3855,
+      "step": 48
+    },
+    {
+      "epoch": 0.04152542372881356,
+      "grad_norm": 2.8907480239868164,
+      "learning_rate": 8.305084745762712e-06,
+      "loss": 0.5793,
+      "step": 49
+    },
+    {
+      "epoch": 0.0423728813559322,
+      "grad_norm": 2.0093941688537598,
+      "learning_rate": 8.47457627118644e-06,
+      "loss": 0.4369,
+      "step": 50
+    },
+    {
+      "epoch": 0.043220338983050846,
+      "grad_norm": 1.8551487922668457,
+      "learning_rate": 8.64406779661017e-06,
+      "loss": 0.3609,
+      "step": 51
+    },
+    {
+      "epoch": 0.04406779661016949,
+      "grad_norm": 2.578389883041382,
+      "learning_rate": 8.8135593220339e-06,
+      "loss": 0.4005,
+      "step": 52
+    },
+    {
+      "epoch": 0.044915254237288135,
+      "grad_norm": 1.8454015254974365,
+      "learning_rate": 8.983050847457628e-06,
+      "loss": 0.3813,
+      "step": 53
+    },
+    {
+      "epoch": 0.04576271186440678,
+      "grad_norm": 1.8623127937316895,
+      "learning_rate": 9.152542372881356e-06,
+      "loss": 0.371,
+      "step": 54
+    },
+    {
+      "epoch": 0.046610169491525424,
+      "grad_norm": 1.5980563163757324,
+      "learning_rate": 9.322033898305085e-06,
+      "loss": 0.3526,
+      "step": 55
+    },
+    {
+      "epoch": 0.04745762711864407,
+      "grad_norm": 1.9545420408248901,
+      "learning_rate": 9.491525423728815e-06,
+      "loss": 0.3964,
+      "step": 56
+    },
+    {
+      "epoch": 0.048305084745762714,
+      "grad_norm": 2.28120493888855,
+      "learning_rate": 9.661016949152544e-06,
+      "loss": 0.4318,
+      "step": 57
+    },
+    {
+      "epoch": 0.04915254237288136,
+      "grad_norm": 2.028052568435669,
+      "learning_rate": 9.830508474576272e-06,
+      "loss": 0.3738,
+      "step": 58
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.778688669204712,
+      "learning_rate": 1e-05,
+      "loss": 0.356,
+      "step": 59
+    },
+    {
+      "epoch": 0.05084745762711865,
+      "grad_norm": 1.9434354305267334,
+      "learning_rate": 1.016949152542373e-05,
+      "loss": 0.3868,
+      "step": 60
+    },
+    {
+      "epoch": 0.05084745762711865,
+      "eval_accuracy": 0.8014184397163121,
+      "eval_f1": 0.4852941176470588,
+      "eval_loss": 0.39268842339515686,
+      "eval_precision": 0.8461538461538461,
+      "eval_recall": 0.3402061855670103,
+      "eval_runtime": 51.5844,
+      "eval_samples_per_second": 5.661,
+      "eval_steps_per_second": 0.194,
+      "step": 60
+    },
+    {
+      "epoch": 0.051694915254237285,
+      "grad_norm": 2.865485429763794,
+      "learning_rate": 1.0338983050847458e-05,
+      "loss": 0.4346,
+      "step": 61
+    },
+    {
+      "epoch": 0.05254237288135593,
+      "grad_norm": 1.7954847812652588,
+      "learning_rate": 1.0508474576271188e-05,
+      "loss": 0.3288,
+      "step": 62
+    },
+    {
+      "epoch": 0.053389830508474574,
+      "grad_norm": 1.9036914110183716,
+      "learning_rate": 1.0677966101694917e-05,
+      "loss": 0.345,
+      "step": 63
+    },
+    {
+      "epoch": 0.05423728813559322,
+      "grad_norm": 1.8734129667282104,
+      "learning_rate": 1.0847457627118645e-05,
+      "loss": 0.3011,
+      "step": 64
+    },
+    {
+      "epoch": 0.05508474576271186,
+      "grad_norm": 1.7967445850372314,
+      "learning_rate": 1.1016949152542374e-05,
+      "loss": 0.3054,
+      "step": 65
+    },
+    {
+      "epoch": 0.05593220338983051,
+      "grad_norm": 2.14163875579834,
+      "learning_rate": 1.1186440677966102e-05,
+      "loss": 0.3151,
+      "step": 66
+    },
+    {
+      "epoch": 0.05677966101694915,
+      "grad_norm": 2.054262399673462,
+      "learning_rate": 1.1355932203389833e-05,
+      "loss": 0.3112,
+      "step": 67
+    },
+    {
+      "epoch": 0.0576271186440678,
+      "grad_norm": 2.427635669708252,
+      "learning_rate": 1.1525423728813561e-05,
+      "loss": 0.3375,
+      "step": 68
+    },
+    {
+      "epoch": 0.05847457627118644,
+      "grad_norm": 2.156615972518921,
+      "learning_rate": 1.169491525423729e-05,
+      "loss": 0.2858,
+      "step": 69
+    },
+    {
+      "epoch": 0.059322033898305086,
+      "grad_norm": 1.882498860359192,
+      "learning_rate": 1.1864406779661018e-05,
+      "loss": 0.2763,
+      "step": 70
+    },
+    {
+      "epoch": 0.06016949152542373,
+      "grad_norm": 2.2266876697540283,
+      "learning_rate": 1.2033898305084745e-05,
+      "loss": 0.2747,
+      "step": 71
+    },
+    {
+      "epoch": 0.061016949152542375,
+      "grad_norm": 2.385572671890259,
+      "learning_rate": 1.2203389830508477e-05,
+      "loss": 0.2908,
+      "step": 72
+    },
+    {
+      "epoch": 0.06186440677966102,
+      "grad_norm": 3.370197057723999,
+      "learning_rate": 1.2372881355932205e-05,
+      "loss": 0.3021,
+      "step": 73
+    },
+    {
+      "epoch": 0.06271186440677966,
+      "grad_norm": 2.4264488220214844,
+      "learning_rate": 1.2542372881355932e-05,
+      "loss": 0.2979,
+      "step": 74
+    },
+    {
+      "epoch": 0.0635593220338983,
+      "grad_norm": 2.0098724365234375,
+      "learning_rate": 1.2711864406779661e-05,
+      "loss": 0.2354,
+      "step": 75
+    },
+    {
+      "epoch": 0.06440677966101695,
+      "grad_norm": 1.5533535480499268,
+      "learning_rate": 1.288135593220339e-05,
+      "loss": 0.1868,
+      "step": 76
+    },
+    {
+      "epoch": 0.06525423728813559,
+      "grad_norm": 2.51094651222229,
+      "learning_rate": 1.305084745762712e-05,
+      "loss": 0.2803,
+      "step": 77
+    },
+    {
+      "epoch": 0.06610169491525424,
+      "grad_norm": 2.6391665935516357,
+      "learning_rate": 1.3220338983050848e-05,
+      "loss": 0.2686,
+      "step": 78
+    },
+    {
+      "epoch": 0.06694915254237288,
+      "grad_norm": 1.9863828420639038,
+      "learning_rate": 1.3389830508474577e-05,
+      "loss": 0.232,
+      "step": 79
+    },
+    {
+      "epoch": 0.06779661016949153,
+      "grad_norm": 3.283465623855591,
+      "learning_rate": 1.3559322033898305e-05,
+      "loss": 0.2752,
+      "step": 80
+    },
+    {
+      "epoch": 0.06779661016949153,
+      "eval_accuracy": 0.9148936170212766,
+      "eval_f1": 0.8235294117647058,
+      "eval_loss": 0.24302659928798676,
+      "eval_precision": 0.958904109589041,
+      "eval_recall": 0.7216494845360825,
+      "eval_runtime": 50.3657,
+      "eval_samples_per_second": 5.798,
+      "eval_steps_per_second": 0.199,
+      "step": 80
+    },
+    {
+      "epoch": 0.06864406779661017,
+      "grad_norm": 4.136785507202148,
+      "learning_rate": 1.3728813559322034e-05,
+      "loss": 0.2669,
+      "step": 81
+    },
+    {
+      "epoch": 0.06949152542372881,
+      "grad_norm": 2.905684471130371,
+      "learning_rate": 1.3898305084745764e-05,
+      "loss": 0.2977,
+      "step": 82
+    },
+    {
+      "epoch": 0.07033898305084746,
+      "grad_norm": 3.484105110168457,
+      "learning_rate": 1.4067796610169493e-05,
+      "loss": 0.2463,
+      "step": 83
+    },
+    {
+      "epoch": 0.0711864406779661,
+      "grad_norm": 2.0514471530914307,
+      "learning_rate": 1.4237288135593221e-05,
+      "loss": 0.189,
+      "step": 84
+    },
+    {
+      "epoch": 0.07203389830508475,
+      "grad_norm": 3.3227920532226562,
+      "learning_rate": 1.440677966101695e-05,
+      "loss": 0.3301,
+      "step": 85
+    },
+    {
+      "epoch": 0.07288135593220339,
+      "grad_norm": 4.558714866638184,
+      "learning_rate": 1.4576271186440678e-05,
+      "loss": 0.2356,
+      "step": 86
+    },
+    {
+      "epoch": 0.07372881355932204,
+      "grad_norm": 3.302720069885254,
+      "learning_rate": 1.4745762711864408e-05,
+      "loss": 0.1992,
+      "step": 87
+    },
+    {
+      "epoch": 0.07457627118644068,
+      "grad_norm": 2.9582176208496094,
+      "learning_rate": 1.4915254237288137e-05,
+      "loss": 0.2135,
+      "step": 88
+    },
+    {
+      "epoch": 0.07542372881355933,
+      "grad_norm": 2.0440144538879395,
+      "learning_rate": 1.5084745762711865e-05,
+      "loss": 0.1561,
+      "step": 89
+    },
+    {
+      "epoch": 0.07627118644067797,
+      "grad_norm": 3.5674586296081543,
+      "learning_rate": 1.5254237288135594e-05,
+      "loss": 0.2177,
+      "step": 90
+    },
+    {
+      "epoch": 0.07711864406779662,
+      "grad_norm": 5.187112808227539,
+      "learning_rate": 1.5423728813559326e-05,
+      "loss": 0.2427,
+      "step": 91
+    },
+    {
+      "epoch": 0.07796610169491526,
+      "grad_norm": 5.343093395233154,
+      "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.1792,
+      "step": 92
+    },
+    {
+      "epoch": 0.0788135593220339,
+      "grad_norm": 7.031548500061035,
+      "learning_rate": 1.576271186440678e-05,
+      "loss": 0.1923,
+      "step": 93
+    },
+    {
+      "epoch": 0.07966101694915254,
+      "grad_norm": 4.42516565322876,
+      "learning_rate": 1.593220338983051e-05,
+      "loss": 0.2155,
+      "step": 94
+    },
+    {
+      "epoch": 0.08050847457627118,
+      "grad_norm": 4.800620079040527,
+      "learning_rate": 1.6101694915254237e-05,
+      "loss": 0.1527,
+      "step": 95
+    },
+    {
+      "epoch": 0.08135593220338982,
+      "grad_norm": 1.2162249088287354,
+      "learning_rate": 1.6271186440677967e-05,
+      "loss": 0.0701,
+      "step": 96
+    },
+    {
+      "epoch": 0.08220338983050847,
+      "grad_norm": 3.083869218826294,
+      "learning_rate": 1.6440677966101697e-05,
+      "loss": 0.1733,
+      "step": 97
+    },
+    {
+      "epoch": 0.08305084745762711,
+      "grad_norm": 4.925241470336914,
+      "learning_rate": 1.6610169491525424e-05,
+      "loss": 0.2633,
+      "step": 98
+    },
+    {
+      "epoch": 0.08389830508474576,
+      "grad_norm": 8.311452865600586,
+      "learning_rate": 1.6779661016949154e-05,
+      "loss": 0.1714,
+      "step": 99
+    },
+    {
+      "epoch": 0.0847457627118644,
+      "grad_norm": 3.1740920543670654,
+      "learning_rate": 1.694915254237288e-05,
+      "loss": 0.1319,
+      "step": 100
+    },
+    {
+      "epoch": 0.0847457627118644,
+      "eval_accuracy": 0.9716312056737588,
+      "eval_f1": 0.9481865284974094,
+      "eval_loss": 0.09902569651603699,
+      "eval_precision": 0.953125,
+      "eval_recall": 0.9432989690721649,
+      "eval_runtime": 49.823,
+      "eval_samples_per_second": 5.861,
+      "eval_steps_per_second": 0.201,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1180,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.0886959446491136e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}