Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7480b3de8a1af5f4c9d40f532a8665622af17700a9b31694fcc3f37e29aadddd
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:36e53edd075cd161d8de745d78eeec19547d29c9da3a44ad1f11fb0d260b940d
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32005cb3fedda9be225f7f315230f7b1ec0e95242b639390239f0572603ab716
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:107c9afca397321eba53a1f9b71f7d5e17df566dd96385f8a5abeda94b8b09f8
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19dda9b9c51d52de1d670d65c71a5a24c8a57307810abd2d3ac54af342b2bf7f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce3f194643b4dd69f77fc4a51955be921f1a2045bc4f988e1958582626652d3a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8551605939865112,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.027472527472527472,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 12.35,
       "eval_steps_per_second": 3.09,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.3446356680704e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.810309112071991,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.054945054945054944,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.35,
       "eval_steps_per_second": 3.09,
       "step": 50
+    },
+    {
+      "epoch": 0.028021978021978023,
+      "grad_norm": 4.3182268142700195,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.9381,
+      "step": 51
+    },
+    {
+      "epoch": 0.02857142857142857,
+      "grad_norm": 3.6858444213867188,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.0042,
+      "step": 52
+    },
+    {
+      "epoch": 0.02912087912087912,
+      "grad_norm": 3.4486730098724365,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.9807,
+      "step": 53
+    },
+    {
+      "epoch": 0.02967032967032967,
+      "grad_norm": 4.263784885406494,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 0.7938,
+      "step": 54
+    },
+    {
+      "epoch": 0.03021978021978022,
+      "grad_norm": 3.1360929012298584,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.7528,
+      "step": 55
+    },
+    {
+      "epoch": 0.03076923076923077,
+      "grad_norm": 3.7347052097320557,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.8403,
+      "step": 56
+    },
+    {
+      "epoch": 0.03131868131868132,
+      "grad_norm": 3.3182191848754883,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.8076,
+      "step": 57
+    },
+    {
+      "epoch": 0.031868131868131866,
+      "grad_norm": 2.980205774307251,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.7868,
+      "step": 58
+    },
+    {
+      "epoch": 0.03241758241758242,
+      "grad_norm": 3.3988683223724365,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.8072,
+      "step": 59
+    },
+    {
+      "epoch": 0.03296703296703297,
+      "grad_norm": 3.52750301361084,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.8784,
+      "step": 60
+    },
+    {
+      "epoch": 0.033516483516483515,
+      "grad_norm": 3.604893684387207,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.7565,
+      "step": 61
+    },
+    {
+      "epoch": 0.03406593406593406,
+      "grad_norm": 3.4089083671569824,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.8974,
+      "step": 62
+    },
+    {
+      "epoch": 0.03461538461538462,
+      "grad_norm": 4.178040504455566,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.868,
+      "step": 63
+    },
+    {
+      "epoch": 0.035164835164835165,
+      "grad_norm": 3.4511518478393555,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.0132,
+      "step": 64
+    },
+    {
+      "epoch": 0.03571428571428571,
+      "grad_norm": 3.3299479484558105,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.8356,
+      "step": 65
+    },
+    {
+      "epoch": 0.03626373626373627,
+      "grad_norm": 3.3526644706726074,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.8513,
+      "step": 66
+    },
+    {
+      "epoch": 0.036813186813186814,
+      "grad_norm": 3.367147922515869,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.0042,
+      "step": 67
+    },
+    {
+      "epoch": 0.03736263736263736,
+      "grad_norm": 3.2283849716186523,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.8084,
+      "step": 68
+    },
+    {
+      "epoch": 0.03791208791208791,
+      "grad_norm": 3.1080996990203857,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.9091,
+      "step": 69
+    },
+    {
+      "epoch": 0.038461538461538464,
+      "grad_norm": 3.440809488296509,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.912,
+      "step": 70
+    },
+    {
+      "epoch": 0.03901098901098901,
+      "grad_norm": 4.543209552764893,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.9512,
+      "step": 71
+    },
+    {
+      "epoch": 0.03956043956043956,
+      "grad_norm": 3.6167526245117188,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.7516,
+      "step": 72
+    },
+    {
+      "epoch": 0.04010989010989011,
+      "grad_norm": 4.1947479248046875,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.9431,
+      "step": 73
+    },
+    {
+      "epoch": 0.04065934065934066,
+      "grad_norm": 3.461369752883911,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.8908,
+      "step": 74
+    },
+    {
+      "epoch": 0.04120879120879121,
+      "grad_norm": 3.3791346549987793,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.7087,
+      "step": 75
+    },
+    {
+      "epoch": 0.041758241758241756,
+      "grad_norm": 3.541050434112549,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.7779,
+      "step": 76
+    },
+    {
+      "epoch": 0.04230769230769231,
+      "grad_norm": 3.108454465866089,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.8149,
+      "step": 77
+    },
+    {
+      "epoch": 0.04285714285714286,
+      "grad_norm": 3.772913932800293,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.7668,
+      "step": 78
+    },
+    {
+      "epoch": 0.043406593406593405,
+      "grad_norm": 3.0966885089874268,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.8225,
+      "step": 79
+    },
+    {
+      "epoch": 0.04395604395604396,
+      "grad_norm": 3.7791407108306885,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 0.8693,
+      "step": 80
+    },
+    {
+      "epoch": 0.04450549450549451,
+      "grad_norm": 4.253763198852539,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.0137,
+      "step": 81
+    },
+    {
+      "epoch": 0.045054945054945054,
+      "grad_norm": 3.970787525177002,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.0145,
+      "step": 82
+    },
+    {
+      "epoch": 0.0456043956043956,
+      "grad_norm": 3.273193597793579,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.8402,
+      "step": 83
+    },
+    {
+      "epoch": 0.046153846153846156,
+      "grad_norm": 3.246183156967163,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.8381,
+      "step": 84
+    },
+    {
+      "epoch": 0.046703296703296704,
+      "grad_norm": 3.3997747898101807,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.9744,
+      "step": 85
+    },
+    {
+      "epoch": 0.04725274725274725,
+      "grad_norm": 3.4663801193237305,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.9223,
+      "step": 86
+    },
+    {
+      "epoch": 0.0478021978021978,
+      "grad_norm": 3.421869993209839,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.9882,
+      "step": 87
+    },
+    {
+      "epoch": 0.04835164835164835,
+      "grad_norm": 2.5848114490509033,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.6518,
+      "step": 88
+    },
+    {
+      "epoch": 0.0489010989010989,
+      "grad_norm": 4.04249382019043,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.8867,
+      "step": 89
+    },
+    {
+      "epoch": 0.04945054945054945,
+      "grad_norm": 3.6130316257476807,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.8811,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 3.202869176864624,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.6812,
+      "step": 91
+    },
+    {
+      "epoch": 0.05054945054945055,
+      "grad_norm": 5.957513332366943,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.8074,
+      "step": 92
+    },
+    {
+      "epoch": 0.0510989010989011,
+      "grad_norm": 9.279909133911133,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.7514,
+      "step": 93
+    },
+    {
+      "epoch": 0.051648351648351645,
+      "grad_norm": 3.816479206085205,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 0.7612,
+      "step": 94
+    },
+    {
+      "epoch": 0.0521978021978022,
+      "grad_norm": 3.6703317165374756,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.6952,
+      "step": 95
+    },
+    {
+      "epoch": 0.05274725274725275,
+      "grad_norm": 2.994513988494873,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 0.5601,
+      "step": 96
+    },
+    {
+      "epoch": 0.053296703296703295,
+      "grad_norm": 3.6805593967437744,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 0.7776,
+      "step": 97
+    },
+    {
+      "epoch": 0.05384615384615385,
+      "grad_norm": 3.7631995677948,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 0.6875,
+      "step": 98
+    },
+    {
+      "epoch": 0.0543956043956044,
+      "grad_norm": 4.067095756530762,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.6078,
+      "step": 99
+    },
+    {
+      "epoch": 0.054945054945054944,
+      "grad_norm": 3.9707226753234863,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.5355,
+      "step": 100
+    },
+    {
+      "epoch": 0.054945054945054944,
+      "eval_loss": 0.810309112071991,
+      "eval_runtime": 248.3207,
+      "eval_samples_per_second": 12.347,
+      "eval_steps_per_second": 3.089,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.46892713361408e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null