Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -17
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89c03989f75d0aa4bd09aa494db2abf9fdb0699814577f09a2b8630feeff3136
 size 1115268200

 version https://git-lfs.github.com/spec/v1
+oid sha256:d08f5b2079b12d0ebc378b7ba37719cef438a77d0c7ff748f868686e1b3dec97
 size 1115268200

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:122128e68accfbfaa61106e4a08a7177da6af52b3b3da0e1b17c0c52f40ef1dc
 size 2230655994

 version https://git-lfs.github.com/spec/v1
+oid sha256:092349cbd12ca364369f5254eb4088d1727ae8d73317e0a9eb7f6a8a952e8b0e
 size 2230655994

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21c2e0a4cab570225070feda692b2162a9b40fcabdd5637926e2d942260865f5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:719d6c8ad98e64ac546193b08135e5ed391384ea1aee1b3a87bf60d493661041
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:719551c691645b80be6d64346b6b37cbcf1c3bcf115735210b293531a14241f1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b0732bd2e1d48df8ec9b79fbeaa48f18a2d97b40cc9d445eba425f193f78c1
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1abbaa3e61df15650b0b8d5e31d1765de2d084229bfb2c0930169fd3f38b650
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb77a464f5f5dde250d2da9dbae68cde20b2e27488ac4cb6eb0fd199c937e351
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:697b606be1130775bd88ffdee4a1649261f6a26edeb2e1eb8717d55a9b3c7246
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1404f64094b86b7230b1f67e3aa381b83b84932923cdc1093b67ee7107422cf
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2308ce4ffc571a690001de8ba0878d90739f84e4e4454d446e6a0d99a5cf7725
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fad6afabe76ea52242f10034f8797c23d3674c8c98c091ce9874f58404da396
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9979034fcf548b3e23fd45a62872fd7ef6105dc04e4dd23df2112f398552a57
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:049fdec0553048dd05a5ad06b02a552f63c94725a91eeac5445c5486fc909146
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:449907656080f489d0957ade04723380fc9c1022cbe70db248bd76c2479b6cb3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a10fbc2c96490be41edb285328e8594b3d7a5b655870fbd35c0dc5dee8d29b72
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d07c008bd2cdb25b485adf5e638dba6920e10d6fcd21f404a65d134bb5f6bf5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:915fe561107f56ccd5cd8e3bc1f398b677c030eb325f5a04f8d80a8df56dbe2e
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd329b76d03f410648ef363897eabe18ec0afb682154549bd5a0ea9c20f875eb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d55733a134083157b7e4bd9816117f4f58ac26f258c32f14bcd22330f75627d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,38 +1,199 @@
 {
-  "best_metric": 0.5555555524691358,
-  "best_model_checkpoint": "checkpoint/cross_encoder_20250522_full_data/checkpoint-1",
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "grad_norm": 3.537013292312622,
-      "learning_rate": 1e-06,
-      "loss": 0.7455,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_f2": 0.5555555524691358,
-      "eval_loss": 0.6809892654418945,
-      "eval_precision": 0.2,
       "eval_recall": 1.0,
-      "eval_runtime": 0.1671,
-      "eval_samples_per_second": 59.844,
-      "eval_steps_per_second": 5.984,
-      "step": 1
     }
   ],
   "logging_steps": 200,
-  "max_steps": 2,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 16839409139712.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.49999999700000003,
+  "best_model_checkpoint": "checkpoint/cross_encoder_20250522_full_data/checkpoint-4633",
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 4633,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "grad_norm": 2.436934471130371,
+      "learning_rate": 4.315925766076824e-12,
+      "loss": 0.7375,
       "step": 1
     },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.8707695007324219,
+      "learning_rate": 8.631851532153648e-10,
+      "loss": 0.7326,
+      "step": 200
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.4507315158843994,
+      "learning_rate": 1.7263703064307296e-09,
+      "loss": 0.734,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 4.8174872398376465,
+      "learning_rate": 2.589555459646094e-09,
+      "loss": 0.731,
+      "step": 600
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.8691744208335876,
+      "learning_rate": 3.452740612861459e-09,
+      "loss": 0.7356,
+      "step": 800
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.7719039916992188,
+      "learning_rate": 4.315925766076823e-09,
+      "loss": 0.7286,
+      "step": 1000
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.3143906593322754,
+      "learning_rate": 5.179110919292188e-09,
+      "loss": 0.7302,
+      "step": 1200
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.4967010021209717,
+      "learning_rate": 6.042296072507553e-09,
+      "loss": 0.7318,
+      "step": 1400
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 3.2115557193756104,
+      "learning_rate": 6.905481225722918e-09,
+      "loss": 0.7322,
+      "step": 1600
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 2.6317012310028076,
+      "learning_rate": 7.768666378938282e-09,
+      "loss": 0.7288,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.578616738319397,
+      "learning_rate": 8.631851532153647e-09,
+      "loss": 0.727,
+      "step": 2000
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 2.6788175106048584,
+      "learning_rate": 9.495036685369011e-09,
+      "loss": 0.7236,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.1162360906600952,
+      "learning_rate": 9.99960892371536e-09,
+      "loss": 0.7234,
+      "step": 2400
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.412252426147461,
+      "learning_rate": 9.995454119562455e-09,
+      "loss": 0.7273,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.049833297729492,
+      "learning_rate": 9.986762270880315e-09,
+      "loss": 0.7216,
+      "step": 2800
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.14269757270813,
+      "learning_rate": 9.973541271907098e-09,
+      "loss": 0.7236,
+      "step": 3000
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 3.2950925827026367,
+      "learning_rate": 9.955803130412195e-09,
+      "loss": 0.7257,
+      "step": 3200
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.6116753816604614,
+      "learning_rate": 9.933563956790353e-09,
+      "loss": 0.7202,
+      "step": 3400
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.2606937885284424,
+      "learning_rate": 9.906843949429669e-09,
+      "loss": 0.718,
+      "step": 3600
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 3.41159725189209,
+      "learning_rate": 9.875667376366706e-09,
+      "loss": 0.717,
+      "step": 3800
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.007009983062744,
+      "learning_rate": 9.840062553245418e-09,
+      "loss": 0.7156,
+      "step": 4000
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.2354674339294434,
+      "learning_rate": 9.800061817599912e-09,
+      "loss": 0.7138,
+      "step": 4200
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 3.80654239654541,
+      "learning_rate": 9.755701499484371e-09,
+      "loss": 0.7144,
+      "step": 4400
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 5.391232490539551,
+      "learning_rate": 9.707021888476834e-09,
+      "loss": 0.7088,
+      "step": 4600
+    },
     {
       "epoch": 1.0,
+      "eval_f2": 0.49999999700000003,
+      "eval_loss": 0.7074111700057983,
+      "eval_precision": 0.16666666666666666,
       "eval_recall": 1.0,
+      "eval_runtime": 1108.1527,
+      "eval_samples_per_second": 108.462,
+      "eval_steps_per_second": 1.695,
+      "step": 4633
     }
   ],
   "logging_steps": 200,
+  "max_steps": 23165,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 7.801698556418458e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c35a0a052756eed7c3a8019317fe0fdeda73d19c1f4811fdf8efcef22ec1a7d
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f6928b07215cfaf54c32601499d6f401be4da6b2575801bc58eba1077b9208c
 size 5048