End of training

Browse files

Files changed (5) hide show

all_results.json +4 -4
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +44 -44
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.2777628990079393e-05,
-    "train_runtime": 1623.824,
     "train_samples": 5,
-    "train_samples_per_second": 0.025,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.198883056640625e-07,
+    "train_runtime": 1338.4099,
     "train_samples": 5,
+    "train_samples_per_second": 0.03,
+    "train_steps_per_second": 0.007
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0a8909a95efcbe374a6541abb9cec81781b79dd89370a7cefb2002415c8c2f1
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:b17adb89ed44f71d4a01f77b6fd841a58ed9f3e4a0f1dc8880e91944f7b3b71d
 size 1976163472

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.2777628990079393e-05,
-    "train_runtime": 1623.824,
     "train_samples": 5,
-    "train_samples_per_second": 0.025,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.198883056640625e-07,
+    "train_runtime": 1338.4099,
     "train_samples": 5,
+    "train_samples_per_second": 0.03,
+    "train_steps_per_second": 0.007
 }

trainer_state.json CHANGED Viewed

@@ -10,108 +10,108 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 63.125,
       "epoch": 0.8,
-      "grad_norm": 50.59278869628906,
       "kl": 0.0,
       "learning_rate": 5e-07,
-      "loss": -0.0,
-      "reward": 0.8121425714343786,
-      "reward_std": 0.8144996035844088,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.21801758371293545,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.09412499889731407,
       "step": 2
     },
     {
-      "completion_length": 31.166666666666668,
       "epoch": 1.4,
-      "grad_norm": 21.586397171020508,
-      "kl": 0.011931343139925351,
       "learning_rate": 4.415111107797445e-07,
       "loss": 0.0,
-      "reward": 0.7031528850396475,
-      "reward_std": 0.5314880435665449,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.23665287097295126,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.13316666831572851,
       "step": 4
     },
     {
-      "completion_length": 140.16666666666666,
       "epoch": 2.0,
-      "grad_norm": 45.60252380371094,
-      "kl": 0.00353768285519133,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
-      "reward": 0.9151320060094198,
-      "reward_std": 0.08266036212444305,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.18446536362171173,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.06400000055631001,
       "step": 6
     },
     {
-      "completion_length": 102.75,
       "epoch": 2.8,
-      "grad_norm": 17.846336364746094,
-      "kl": 0.02034348575398326,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
-      "reward": 0.4168152790516615,
-      "reward_std": 0.3510805666446686,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.10931528732180595,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.1925000101327896,
       "step": 8
     },
     {
-      "completion_length": 71.66666666666667,
       "epoch": 3.4,
-      "grad_norm": 23.495813369750977,
-      "kl": 0.032075743501385055,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
-      "reward": 0.9811434671282768,
-      "reward_std": 0.06655756291002035,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.20147676517566046,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.11299999554951985,
       "step": 10
     },
     {
       "epoch": 3.4,
       "step": 10,
       "total_flos": 0.0,
-      "train_loss": 1.2777628990079393e-05,
-      "train_runtime": 1623.824,
-      "train_samples_per_second": 0.025,
-      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 176.875,
       "epoch": 0.8,
+      "grad_norm": 7.9261298179626465,
       "kl": 0.0,
       "learning_rate": 5e-07,
+      "loss": 0.0,
+      "reward": 0.06529645575210452,
+      "reward_std": 0.031127130147069693,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.06529645575210452,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0,
       "step": 2
     },
     {
+      "completion_length": 175.83333333333334,
       "epoch": 1.4,
+      "grad_norm": 7.617096424102783,
+      "kl": 0.00035043573977115255,
       "learning_rate": 4.415111107797445e-07,
       "loss": 0.0,
+      "reward": 0.19371196130911508,
+      "reward_std": 0.08724394316474597,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.19371196130911508,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0,
       "step": 4
     },
     {
+      "completion_length": 217.66666666666666,
       "epoch": 2.0,
+      "grad_norm": 5.332751750946045,
+      "kl": 0.000615184020716697,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
+      "reward": 0.02679351655145486,
+      "reward_std": 0.009128622089823088,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.02679351655145486,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0,
       "step": 6
     },
     {
+      "completion_length": 189.75,
       "epoch": 2.8,
+      "grad_norm": 6.812089920043945,
+      "kl": 0.0007357565191341564,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
+      "reward": 0.06324641685932875,
+      "reward_std": 0.013577945763245225,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.06324641685932875,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0,
       "step": 8
     },
     {
+      "completion_length": 148.83333333333334,
       "epoch": 3.4,
+      "grad_norm": 19.7174129486084,
+      "kl": 0.0018994022199573617,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
+      "reward": 0.0978486401339372,
+      "reward_std": 0.02896895833934347,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.0978486401339372,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0,
       "step": 10
     },
     {
       "epoch": 3.4,
       "step": 10,
       "total_flos": 0.0,
+      "train_loss": 6.198883056640625e-07,
+      "train_runtime": 1338.4099,
+      "train_samples_per_second": 0.03,
+      "train_steps_per_second": 0.007
     }
   ],
   "logging_steps": 2,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2175c18f16d6e6d59547030a83233f595993266fa299da6ab34672d6a9bf3bab
 size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e046ce14192fe9ac41d33a4d40c20ce6277c0fee8682bede53c4781b1faacf8
 size 5880