Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.bin +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +735 -3
training_args.bin +1 -1

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9af4c3a65b7a773b24b082fa3d2bdf3b889f0c61459c6c6dc53f6e339785bcd4
 size 75641741

 version https://git-lfs.github.com/spec/v1
+oid sha256:9055d8916d0c01135ce2a001532dec396deba87cc0a07dbf0c98d4dace46d428
 size 75641741

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:461887c9ec08fe4b1692b9fa6def1741d6a60b64bb08c37d3fdc064aa795bd26
 size 151222021

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e8f78d2228b6babafffa91ef4beb07ff87afac189965b622082f7cfda273dcc
 size 151222021

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdda7482499b855a06935901db3ef5c0346fd12eb58a510bec30c9e4dab13b1e
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd3a816ab8628e6038ecf426e93a907752049203fbc39b63fcde557182a866f
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:749e3338e97b1ab6783e7f614fd50b2475fd9e06f92f74c2d73b555d52907729
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:518177a2ab7cf6b410a68ee416a0234864cb6c8e1fae811ce6d16681d4149303
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.19331142470520007,
   "eval_steps": 200,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1487,10 +1487,742 @@
       "eval_samples_per_second": 0.729,
       "eval_steps_per_second": 0.729,
       "step": 1000
     }
   ],
   "logging_steps": 10,
-  "max_steps": 5173,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2648831203231574,
   "eval_steps": 200,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.729,
       "eval_steps_per_second": 0.729,
       "step": 1000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004917027842051741,
+      "logits/chosen": -2.3743691444396973,
+      "logits/rejected": -2.3645715713500977,
+      "logps/chosen": -467.918701171875,
+      "logps/rejected": -392.2208557128906,
+      "loss": 13.2044,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -34.59047317504883,
+      "rewards/margins": -6.761924743652344,
+      "rewards/rejected": -27.82854652404785,
+      "step": 1010
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004913043488808868,
+      "logits/chosen": -2.2389774322509766,
+      "logits/rejected": -2.229212760925293,
+      "logps/chosen": -486.40362548828125,
+      "logps/rejected": -460.124267578125,
+      "loss": 12.247,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -36.01793670654297,
+      "rewards/margins": -2.4814937114715576,
+      "rewards/rejected": -33.53643798828125,
+      "step": 1020
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004909379125837757,
+      "logits/chosen": -2.3661270141601562,
+      "logits/rejected": -2.35339093208313,
+      "logps/chosen": -450.0957946777344,
+      "logps/rejected": -419.64453125,
+      "loss": 9.5754,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -32.51788330078125,
+      "rewards/margins": -2.8007171154022217,
+      "rewards/rejected": -29.717166900634766,
+      "step": 1030
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.000490689498823928,
+      "logits/chosen": -2.502885341644287,
+      "logits/rejected": -2.475445032119751,
+      "logps/chosen": -544.1683349609375,
+      "logps/rejected": -447.0438537597656,
+      "loss": 14.0802,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -40.440181732177734,
+      "rewards/margins": -7.666708946228027,
+      "rewards/rejected": -32.773475646972656,
+      "step": 1040
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004903107023416835,
+      "logits/chosen": -2.5913939476013184,
+      "logits/rejected": -2.5680718421936035,
+      "logps/chosen": -486.11907958984375,
+      "logps/rejected": -368.26251220703125,
+      "loss": 13.0584,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -35.45328140258789,
+      "rewards/margins": -9.003652572631836,
+      "rewards/rejected": -26.449630737304688,
+      "step": 1050
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004898811381307269,
+      "logits/chosen": -2.5621819496154785,
+      "logits/rejected": -2.5630691051483154,
+      "logps/chosen": -415.2149353027344,
+      "logps/rejected": -372.393798828125,
+      "loss": 10.9069,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -30.74907875061035,
+      "rewards/margins": -3.5560336112976074,
+      "rewards/rejected": -27.193042755126953,
+      "step": 1060
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004894424536834149,
+      "logits/chosen": -2.6120645999908447,
+      "logits/rejected": -2.604825019836426,
+      "logps/chosen": -513.4226684570312,
+      "logps/rejected": -459.19647216796875,
+      "loss": 11.3672,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -39.00333023071289,
+      "rewards/margins": -4.482884883880615,
+      "rewards/rejected": -34.520442962646484,
+      "step": 1070
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000488994665678449,
+      "logits/chosen": -2.880282163619995,
+      "logits/rejected": -2.8795719146728516,
+      "logps/chosen": -424.77874755859375,
+      "logps/rejected": -367.4000244140625,
+      "loss": 11.0388,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -31.353382110595703,
+      "rewards/margins": -5.197685718536377,
+      "rewards/rejected": -26.15569496154785,
+      "step": 1080
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004885377911406459,
+      "logits/chosen": -2.947252035140991,
+      "logits/rejected": -2.940441370010376,
+      "logps/chosen": -442.61651611328125,
+      "logps/rejected": -374.4497985839844,
+      "loss": 11.9975,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -31.82815170288086,
+      "rewards/margins": -5.211056709289551,
+      "rewards/rejected": -26.617095947265625,
+      "step": 1090
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00048807184744029076,
+      "logits/chosen": -2.9204514026641846,
+      "logits/rejected": -2.922818660736084,
+      "logps/chosen": -416.2978515625,
+      "logps/rejected": -395.44378662109375,
+      "loss": 9.0951,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -30.16245460510254,
+      "rewards/margins": -1.954272985458374,
+      "rewards/rejected": -28.208179473876953,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00048759685229247675,
+      "logits/chosen": -2.950378179550171,
+      "logits/rejected": -2.9522385597229004,
+      "logps/chosen": -456.4190368652344,
+      "logps/rejected": -417.6458435058594,
+      "loss": 10.6616,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -33.50844192504883,
+      "rewards/margins": -3.696442127227783,
+      "rewards/rejected": -29.811996459960938,
+      "step": 1110
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004872103512563103,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 24.7455,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1120
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00048716163259071837,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 41.8228,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1130
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000487112823756431,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 110.7265,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1140
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000487112823756431,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 245.3322,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1150
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000487112823756431,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 1041.9771,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1160
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004870639247720053,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 437.3346,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1170
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004870639247720053,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 123.7268,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1180
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004870639247720053,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 315.4085,
+      "rewards/accuracies": 0.23749999701976776,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1190
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004870639247720053,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 52542.0625,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": NaN,
+      "eval_logps/rejected": NaN,
+      "eval_loss": NaN,
+      "eval_rewards/accuracies": 0.2244604378938675,
+      "eval_rewards/chosen": NaN,
+      "eval_rewards/margins": NaN,
+      "eval_rewards/rejected": NaN,
+      "eval_runtime": 988.4543,
+      "eval_samples_per_second": 0.703,
+      "eval_steps_per_second": 0.703,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 197.8537,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1210
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 4813.8465,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1220
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 2048.3082,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1230
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 143.0693,
+      "rewards/accuracies": 0.16249999403953552,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1240
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 16874.5531,
+      "rewards/accuracies": 0.21250000596046448,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1250
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 2509.9437,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1260
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 9635.2938,
+      "rewards/accuracies": 0.1875,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1270
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 3857.9113,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1280
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 4572.7609,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1290
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 606.0347,
+      "rewards/accuracies": 0.15000000596046448,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1300
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 1759.0598,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1310
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 14436.2953,
+      "rewards/accuracies": 0.21250000596046448,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1320
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 386264.375,
+      "rewards/accuracies": 0.0625,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1330
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 8430.657,
+      "rewards/accuracies": 0.1875,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1340
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 6939.275,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1350
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 4295.0949,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1360
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 17283.3672,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1370
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 24895.7469,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1380
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 45136.4094,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1390
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 165.0189,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1400
+    },
+    {
+      "epoch": 0.25,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": NaN,
+      "eval_logps/rejected": NaN,
+      "eval_loss": NaN,
+      "eval_rewards/accuracies": 0.17553956806659698,
+      "eval_rewards/chosen": NaN,
+      "eval_rewards/margins": NaN,
+      "eval_rewards/rejected": NaN,
+      "eval_runtime": 987.1061,
+      "eval_samples_per_second": 0.704,
+      "eval_steps_per_second": 0.704,
+      "step": 1400
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 8688.7203,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1410
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 9484.9836,
+      "rewards/accuracies": 0.1875,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1420
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 9308.6922,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1430
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 2905.9373,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1440
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 4738.7867,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1450
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 424.0728,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1460
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 2181.5133,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1470
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 23597.5219,
+      "rewards/accuracies": 0.16249999403953552,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1480
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 1259.9596,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1490
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004870149356560326,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 7475.4719,
+      "rewards/accuracies": 0.21250000596046448,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 5662,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5958bf8104a088a450e0b4310623d9428611ebdb5fcbb92ab0f567ab6883bfbd
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:396a28579afc547a6f46654c7646d9a3770584a235915799960ff8d28e97bcac
 size 4091