Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +108 -108
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "down_proj",
-    "up_proj",
-    "v_proj",
-    "q_proj",
-    "o_proj",
     "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "down_proj",
     "gate_proj",
+    "k_proj",
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05746f7ea36e1c8d2f86e95b550f932f9925b9d6d6fe6f7c4a246ce454cb3548
 size 432223744

 version https://git-lfs.github.com/spec/v1
+oid sha256:6194354092db75cf52814663d1970d75ded31798a74533293f5e68869152658e
 size 432223744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaa92982403fc4fc2cbc06653a6892d8e76b97b5eb9a9b05e8d043b0e8fe4d32
 size 864785974

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a564288a72a567f9b461e5fd1d0f0ea4f3832498afb3f2d825f3cbcb809ee90
 size 864785974

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.03170052915811539,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.721370604147881,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.014427412082957619,
-      "grad_norm": 12.593785285949707,
       "learning_rate": 5e-05,
       "loss": 4.8158,
       "step": 1
@@ -18,368 +18,368 @@
     {
       "epoch": 0.014427412082957619,
       "eval_loss": 4.899957656860352,
-      "eval_runtime": 29.6783,
-      "eval_samples_per_second": 15.735,
-      "eval_steps_per_second": 1.988,
       "step": 1
     },
     {
       "epoch": 0.028854824165915238,
-      "grad_norm": 11.860882759094238,
       "learning_rate": 0.0001,
       "loss": 4.3372,
       "step": 2
     },
     {
       "epoch": 0.04328223624887286,
-      "grad_norm": 10.129796028137207,
       "learning_rate": 9.989294616193017e-05,
-      "loss": 3.5527,
       "step": 3
     },
     {
       "epoch": 0.057709648331830475,
-      "grad_norm": 9.78841781616211,
       "learning_rate": 9.957224306869053e-05,
-      "loss": 1.9134,
       "step": 4
     },
     {
       "epoch": 0.0721370604147881,
-      "grad_norm": 7.427072525024414,
       "learning_rate": 9.903926402016153e-05,
-      "loss": 1.0155,
       "step": 5
     },
     {
       "epoch": 0.08656447249774572,
-      "grad_norm": 3.731661081314087,
       "learning_rate": 9.829629131445342e-05,
-      "loss": 0.6265,
       "step": 6
     },
     {
       "epoch": 0.10099188458070334,
-      "grad_norm": 5.106438159942627,
       "learning_rate": 9.73465064747553e-05,
-      "loss": 0.4308,
       "step": 7
     },
     {
       "epoch": 0.11541929666366095,
-      "grad_norm": 2.3000714778900146,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 0.3065,
       "step": 8
     },
     {
       "epoch": 0.12984670874661858,
-      "grad_norm": 2.5791616439819336,
       "learning_rate": 9.484363707663442e-05,
-      "loss": 0.154,
       "step": 9
     },
     {
       "epoch": 0.1442741208295762,
-      "grad_norm": 2.1033170223236084,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.3065,
       "step": 10
     },
     {
       "epoch": 0.1587015329125338,
-      "grad_norm": 1.8672364950180054,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 0.2196,
       "step": 11
     },
     {
       "epoch": 0.17312894499549145,
-      "grad_norm": 1.7648990154266357,
       "learning_rate": 8.966766701456177e-05,
-      "loss": 0.1896,
       "step": 12
     },
     {
       "epoch": 0.18755635707844906,
-      "grad_norm": 2.424722909927368,
       "learning_rate": 8.759199037394887e-05,
-      "loss": 0.3486,
       "step": 13
     },
     {
       "epoch": 0.20198376916140667,
-      "grad_norm": 2.8545210361480713,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 0.3139,
       "step": 14
     },
     {
       "epoch": 0.2164111812443643,
-      "grad_norm": 1.8271303176879883,
       "learning_rate": 8.296729075500344e-05,
-      "loss": 0.2364,
       "step": 15
     },
     {
       "epoch": 0.2308385933273219,
-      "grad_norm": 1.1875014305114746,
       "learning_rate": 8.043807145043604e-05,
-      "loss": 0.1507,
       "step": 16
     },
     {
       "epoch": 0.24526600541027954,
-      "grad_norm": 1.014682650566101,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 0.1298,
       "step": 17
     },
     {
       "epoch": 0.25969341749323716,
-      "grad_norm": 1.273716688156128,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.1948,
       "step": 18
     },
     {
       "epoch": 0.27412082957619477,
-      "grad_norm": 0.9742581248283386,
       "learning_rate": 7.211443451095007e-05,
-      "loss": 0.1087,
       "step": 19
     },
     {
       "epoch": 0.2885482416591524,
-      "grad_norm": 1.013121485710144,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 0.1107,
       "step": 20
     },
     {
       "epoch": 0.30297565374211,
-      "grad_norm": 0.9588230848312378,
       "learning_rate": 6.607197326515808e-05,
-      "loss": 0.1007,
       "step": 21
     },
     {
       "epoch": 0.3174030658250676,
-      "grad_norm": 1.2048404216766357,
       "learning_rate": 6.294095225512603e-05,
       "loss": 0.1354,
       "step": 22
     },
     {
       "epoch": 0.3318304779080252,
-      "grad_norm": 1.152151346206665,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 0.1269,
       "step": 23
     },
     {
       "epoch": 0.3462578899909829,
-      "grad_norm": 1.1883742809295654,
       "learning_rate": 5.6526309611002594e-05,
-      "loss": 0.1032,
       "step": 24
     },
     {
       "epoch": 0.3606853020739405,
-      "grad_norm": 1.3539164066314697,
       "learning_rate": 5.327015646150716e-05,
-      "loss": 0.1446,
       "step": 25
     },
     {
       "epoch": 0.3606853020739405,
-      "eval_loss": 0.08934932947158813,
-      "eval_runtime": 25.0942,
-      "eval_samples_per_second": 18.61,
-      "eval_steps_per_second": 2.351,
       "step": 25
     },
     {
       "epoch": 0.3751127141568981,
-      "grad_norm": 1.3412762880325317,
       "learning_rate": 5e-05,
-      "loss": 0.132,
       "step": 26
     },
     {
       "epoch": 0.38954012623985573,
-      "grad_norm": 1.1308883428573608,
       "learning_rate": 4.6729843538492847e-05,
-      "loss": 0.1017,
       "step": 27
     },
     {
       "epoch": 0.40396753832281335,
-      "grad_norm": 0.8957684636116028,
       "learning_rate": 4.347369038899744e-05,
-      "loss": 0.0924,
       "step": 28
     },
     {
       "epoch": 0.41839495040577096,
-      "grad_norm": 0.8164778351783752,
       "learning_rate": 4.0245483899193595e-05,
-      "loss": 0.0701,
       "step": 29
     },
     {
       "epoch": 0.4328223624887286,
-      "grad_norm": 0.5023563504219055,
       "learning_rate": 3.705904774487396e-05,
-      "loss": 0.0358,
       "step": 30
     },
     {
       "epoch": 0.4472497745716862,
-      "grad_norm": 1.1154674291610718,
       "learning_rate": 3.392802673484193e-05,
-      "loss": 0.115,
       "step": 31
     },
     {
       "epoch": 0.4616771866546438,
-      "grad_norm": 1.0004397630691528,
       "learning_rate": 3.086582838174551e-05,
-      "loss": 0.077,
       "step": 32
     },
     {
       "epoch": 0.47610459873760147,
-      "grad_norm": 0.5923359990119934,
       "learning_rate": 2.7885565489049946e-05,
-      "loss": 0.0419,
       "step": 33
     },
     {
       "epoch": 0.4905320108205591,
-      "grad_norm": 0.723777711391449,
       "learning_rate": 2.500000000000001e-05,
-      "loss": 0.0508,
       "step": 34
     },
     {
       "epoch": 0.5049594229035167,
-      "grad_norm": 0.3847024142742157,
       "learning_rate": 2.2221488349019903e-05,
-      "loss": 0.027,
       "step": 35
     },
     {
       "epoch": 0.5193868349864743,
-      "grad_norm": 0.49491414427757263,
       "learning_rate": 1.9561928549563968e-05,
-      "loss": 0.0316,
       "step": 36
     },
     {
       "epoch": 0.5338142470694319,
-      "grad_norm": 0.8395834565162659,
       "learning_rate": 1.703270924499656e-05,
-      "loss": 0.0529,
       "step": 37
     },
     {
       "epoch": 0.5482416591523895,
-      "grad_norm": 0.8114633560180664,
       "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.0757,
       "step": 38
     },
     {
       "epoch": 0.5626690712353472,
-      "grad_norm": 1.0842156410217285,
       "learning_rate": 1.2408009626051137e-05,
-      "loss": 0.0637,
       "step": 39
     },
     {
       "epoch": 0.5770964833183048,
-      "grad_norm": 0.648339033126831,
       "learning_rate": 1.0332332985438248e-05,
-      "loss": 0.0313,
       "step": 40
     },
     {
       "epoch": 0.5915238954012624,
-      "grad_norm": 0.689995527267456,
       "learning_rate": 8.426519384872733e-06,
-      "loss": 0.0442,
       "step": 41
     },
     {
       "epoch": 0.60595130748422,
-      "grad_norm": 0.36629754304885864,
       "learning_rate": 6.698729810778065e-06,
-      "loss": 0.019,
       "step": 42
     },
     {
       "epoch": 0.6203787195671776,
-      "grad_norm": 0.6916483640670776,
       "learning_rate": 5.156362923365588e-06,
-      "loss": 0.0566,
       "step": 43
     },
     {
       "epoch": 0.6348061316501352,
-      "grad_norm": 0.7285714745521545,
       "learning_rate": 3.8060233744356633e-06,
-      "loss": 0.0803,
       "step": 44
     },
     {
       "epoch": 0.6492335437330928,
-      "grad_norm": 0.2885792553424835,
       "learning_rate": 2.653493525244721e-06,
-      "loss": 0.021,
       "step": 45
     },
     {
       "epoch": 0.6636609558160504,
-      "grad_norm": 0.6232315301895142,
       "learning_rate": 1.70370868554659e-06,
-      "loss": 0.0502,
       "step": 46
     },
     {
       "epoch": 0.6780883678990082,
-      "grad_norm": 0.5776230692863464,
       "learning_rate": 9.607359798384785e-07,
-      "loss": 0.0221,
       "step": 47
     },
     {
       "epoch": 0.6925157799819658,
-      "grad_norm": 0.3192145526409149,
       "learning_rate": 4.277569313094809e-07,
-      "loss": 0.0192,
       "step": 48
     },
     {
       "epoch": 0.7069431920649234,
-      "grad_norm": 0.3708704710006714,
       "learning_rate": 1.0705383806982606e-07,
-      "loss": 0.017,
       "step": 49
     },
     {
       "epoch": 0.721370604147881,
-      "grad_norm": 0.8798678517341614,
       "learning_rate": 0.0,
-      "loss": 0.0488,
       "step": 50
     },
     {
       "epoch": 0.721370604147881,
-      "eval_loss": 0.03170052915811539,
-      "eval_runtime": 25.0939,
-      "eval_samples_per_second": 18.61,
-      "eval_steps_per_second": 2.351,
       "step": 50
     }
   ],

 {
+  "best_metric": 0.03202689066529274,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.721370604147881,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.014427412082957619,
+      "grad_norm": 12.869671821594238,
       "learning_rate": 5e-05,
       "loss": 4.8158,
       "step": 1
     {
       "epoch": 0.014427412082957619,
       "eval_loss": 4.899957656860352,
+      "eval_runtime": 25.2347,
+      "eval_samples_per_second": 18.506,
+      "eval_steps_per_second": 2.338,
       "step": 1
     },
     {
       "epoch": 0.028854824165915238,
+      "grad_norm": 12.127988815307617,
       "learning_rate": 0.0001,
       "loss": 4.3372,
       "step": 2
     },
     {
       "epoch": 0.04328223624887286,
+      "grad_norm": 10.47082233428955,
       "learning_rate": 9.989294616193017e-05,
+      "loss": 3.537,
       "step": 3
     },
     {
       "epoch": 0.057709648331830475,
+      "grad_norm": 10.397321701049805,
       "learning_rate": 9.957224306869053e-05,
+      "loss": 1.8995,
       "step": 4
     },
     {
       "epoch": 0.0721370604147881,
+      "grad_norm": 7.817731857299805,
       "learning_rate": 9.903926402016153e-05,
+      "loss": 1.0094,
       "step": 5
     },
     {
       "epoch": 0.08656447249774572,
+      "grad_norm": 3.884652614593506,
       "learning_rate": 9.829629131445342e-05,
+      "loss": 0.6253,
       "step": 6
     },
     {
       "epoch": 0.10099188458070334,
+      "grad_norm": 5.4003143310546875,
       "learning_rate": 9.73465064747553e-05,
+      "loss": 0.4278,
       "step": 7
     },
     {
       "epoch": 0.11541929666366095,
+      "grad_norm": 2.3437485694885254,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 0.3056,
       "step": 8
     },
     {
       "epoch": 0.12984670874661858,
+      "grad_norm": 3.3503763675689697,
       "learning_rate": 9.484363707663442e-05,
+      "loss": 0.1621,
       "step": 9
     },
     {
       "epoch": 0.1442741208295762,
+      "grad_norm": 2.092745065689087,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.3065,
       "step": 10
     },
     {
       "epoch": 0.1587015329125338,
+      "grad_norm": 1.8460384607315063,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 0.2195,
       "step": 11
     },
     {
       "epoch": 0.17312894499549145,
+      "grad_norm": 1.7845020294189453,
       "learning_rate": 8.966766701456177e-05,
+      "loss": 0.1868,
       "step": 12
     },
     {
       "epoch": 0.18755635707844906,
+      "grad_norm": 2.3783392906188965,
       "learning_rate": 8.759199037394887e-05,
+      "loss": 0.3424,
       "step": 13
     },
     {
       "epoch": 0.20198376916140667,
+      "grad_norm": 2.957718849182129,
       "learning_rate": 8.535533905932738e-05,
+      "loss": 0.3271,
       "step": 14
     },
     {
       "epoch": 0.2164111812443643,
+      "grad_norm": 1.7753095626831055,
       "learning_rate": 8.296729075500344e-05,
+      "loss": 0.2367,
       "step": 15
     },
     {
       "epoch": 0.2308385933273219,
+      "grad_norm": 1.1912699937820435,
       "learning_rate": 8.043807145043604e-05,
+      "loss": 0.152,
       "step": 16
     },
     {
       "epoch": 0.24526600541027954,
+      "grad_norm": 1.0135375261306763,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 0.1297,
       "step": 17
     },
     {
       "epoch": 0.25969341749323716,
+      "grad_norm": 1.2794404029846191,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1951,
       "step": 18
     },
     {
       "epoch": 0.27412082957619477,
+      "grad_norm": 0.9989929795265198,
       "learning_rate": 7.211443451095007e-05,
+      "loss": 0.1089,
       "step": 19
     },
     {
       "epoch": 0.2885482416591524,
+      "grad_norm": 1.0387895107269287,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 0.1125,
       "step": 20
     },
     {
       "epoch": 0.30297565374211,
+      "grad_norm": 0.9766268134117126,
       "learning_rate": 6.607197326515808e-05,
+      "loss": 0.1028,
       "step": 21
     },
     {
       "epoch": 0.3174030658250676,
+      "grad_norm": 1.1917319297790527,
       "learning_rate": 6.294095225512603e-05,
       "loss": 0.1354,
       "step": 22
     },
     {
       "epoch": 0.3318304779080252,
+      "grad_norm": 1.130652904510498,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.1233,
       "step": 23
     },
     {
       "epoch": 0.3462578899909829,
+      "grad_norm": 1.20221745967865,
       "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.1017,
       "step": 24
     },
     {
       "epoch": 0.3606853020739405,
+      "grad_norm": 1.392185091972351,
       "learning_rate": 5.327015646150716e-05,
+      "loss": 0.1485,
       "step": 25
     },
     {
       "epoch": 0.3606853020739405,
+      "eval_loss": 0.08833841979503632,
+      "eval_runtime": 25.2222,
+      "eval_samples_per_second": 18.515,
+      "eval_steps_per_second": 2.339,
       "step": 25
     },
     {
       "epoch": 0.3751127141568981,
+      "grad_norm": 1.3019057512283325,
       "learning_rate": 5e-05,
+      "loss": 0.1304,
       "step": 26
     },
     {
       "epoch": 0.38954012623985573,
+      "grad_norm": 1.0852798223495483,
       "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.0982,
       "step": 27
     },
     {
       "epoch": 0.40396753832281335,
+      "grad_norm": 0.9120009541511536,
       "learning_rate": 4.347369038899744e-05,
+      "loss": 0.0921,
       "step": 28
     },
     {
       "epoch": 0.41839495040577096,
+      "grad_norm": 0.8051550984382629,
       "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.0685,
       "step": 29
     },
     {
       "epoch": 0.4328223624887286,
+      "grad_norm": 0.5153581500053406,
       "learning_rate": 3.705904774487396e-05,
+      "loss": 0.0357,
       "step": 30
     },
     {
       "epoch": 0.4472497745716862,
+      "grad_norm": 1.1851726770401,
       "learning_rate": 3.392802673484193e-05,
+      "loss": 0.1203,
       "step": 31
     },
     {
       "epoch": 0.4616771866546438,
+      "grad_norm": 0.9966608881950378,
       "learning_rate": 3.086582838174551e-05,
+      "loss": 0.0767,
       "step": 32
     },
     {
       "epoch": 0.47610459873760147,
+      "grad_norm": 0.602455735206604,
       "learning_rate": 2.7885565489049946e-05,
+      "loss": 0.0417,
       "step": 33
     },
     {
       "epoch": 0.4905320108205591,
+      "grad_norm": 0.760809600353241,
       "learning_rate": 2.500000000000001e-05,
+      "loss": 0.053,
       "step": 34
     },
     {
       "epoch": 0.5049594229035167,
+      "grad_norm": 0.3891076445579529,
       "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.0259,
       "step": 35
     },
     {
       "epoch": 0.5193868349864743,
+      "grad_norm": 0.4962649345397949,
       "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.0317,
       "step": 36
     },
     {
       "epoch": 0.5338142470694319,
+      "grad_norm": 0.8641317486763,
       "learning_rate": 1.703270924499656e-05,
+      "loss": 0.0545,
       "step": 37
     },
     {
       "epoch": 0.5482416591523895,
+      "grad_norm": 0.7959501147270203,
       "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.0723,
       "step": 38
     },
     {
       "epoch": 0.5626690712353472,
+      "grad_norm": 1.0905723571777344,
       "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.0648,
       "step": 39
     },
     {
       "epoch": 0.5770964833183048,
+      "grad_norm": 0.646719753742218,
       "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.0293,
       "step": 40
     },
     {
       "epoch": 0.5915238954012624,
+      "grad_norm": 0.6736879348754883,
       "learning_rate": 8.426519384872733e-06,
+      "loss": 0.043,
       "step": 41
     },
     {
       "epoch": 0.60595130748422,
+      "grad_norm": 0.36716800928115845,
       "learning_rate": 6.698729810778065e-06,
+      "loss": 0.018,
       "step": 42
     },
     {
       "epoch": 0.6203787195671776,
+      "grad_norm": 0.7141299247741699,
       "learning_rate": 5.156362923365588e-06,
+      "loss": 0.0563,
       "step": 43
     },
     {
       "epoch": 0.6348061316501352,
+      "grad_norm": 0.748298168182373,
       "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.0834,
       "step": 44
     },
     {
       "epoch": 0.6492335437330928,
+      "grad_norm": 0.29328033328056335,
       "learning_rate": 2.653493525244721e-06,
+      "loss": 0.0223,
       "step": 45
     },
     {
       "epoch": 0.6636609558160504,
+      "grad_norm": 0.6507622599601746,
       "learning_rate": 1.70370868554659e-06,
+      "loss": 0.0515,
       "step": 46
     },
     {
       "epoch": 0.6780883678990082,
+      "grad_norm": 0.6655824780464172,
       "learning_rate": 9.607359798384785e-07,
+      "loss": 0.0271,
       "step": 47
     },
     {
       "epoch": 0.6925157799819658,
+      "grad_norm": 0.3097899258136749,
       "learning_rate": 4.277569313094809e-07,
+      "loss": 0.018,
       "step": 48
     },
     {
       "epoch": 0.7069431920649234,
+      "grad_norm": 0.2763792872428894,
       "learning_rate": 1.0705383806982606e-07,
+      "loss": 0.0143,
       "step": 49
     },
     {
       "epoch": 0.721370604147881,
+      "grad_norm": 0.8340288400650024,
       "learning_rate": 0.0,
+      "loss": 0.0485,
       "step": 50
     },
     {
       "epoch": 0.721370604147881,
+      "eval_loss": 0.03202689066529274,
+      "eval_runtime": 25.7723,
+      "eval_samples_per_second": 18.12,
+      "eval_steps_per_second": 2.289,
       "step": 50
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7acc0cf6c02e346a49a9f44b29df69885aac295931248d24b77f45bc3730482
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:e04ff39143d3a08df1503997c88c750664e522682c1aba5a43153d07c12a6873
 size 6776