{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "advantages": -2.60770320892334e-08,
      "completion_length": 256.0,
      "epoch": 0.001,
      "grad_norm": 3.7380807399749756,
      "kl": 0.0,
      "learning_rate": 9.989999999999999e-07,
      "loss": 0.0637,
      "reward": 0.7604166865348816,
      "reward_mean": 0.7604166865348816,
      "reward_std": 0.42027419805526733,
      "rewards/accuracy_reward": 0.5104166865348816,
      "rewards/format_reward": 0.25,
      "step": 1
    },
    {
      "advantages": 0.0,
      "completion_length": 201.0625,
      "epoch": 0.002,
      "grad_norm": 5.145930290222168,
      "kl": 0.00118255615234375,
      "learning_rate": 9.98e-07,
      "loss": -0.0282,
      "reward": 0.7708333730697632,
      "reward_mean": 0.7708333730697632,
      "reward_std": 0.7378304600715637,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.5,
      "step": 2
    },
    {
      "advantages": 0.0,
      "completion_length": 232.0,
      "epoch": 0.003,
      "grad_norm": 3.798980474472046,
      "kl": 0.003448486328125,
      "learning_rate": 9.97e-07,
      "loss": 0.0955,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.7253239154815674,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 0.8125,
      "step": 3
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 245.25,
      "epoch": 0.004,
      "grad_norm": 4.136316299438477,
      "kl": 0.00421142578125,
      "learning_rate": 9.959999999999999e-07,
      "loss": 0.0824,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.598172664642334,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.8125,
      "step": 4
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 229.5,
      "epoch": 0.005,
      "grad_norm": 3.53371000289917,
      "kl": 0.00439453125,
      "learning_rate": 9.95e-07,
      "loss": 0.0099,
      "reward": 1.21875,
      "reward_mean": 1.21875,
      "reward_std": 0.2041158676147461,
      "rewards/accuracy_reward": 0.21875,
      "rewards/format_reward": 1.0,
      "step": 5
    },
    {
      "advantages": -5.960464477539063e-08,
      "completion_length": 191.125,
      "epoch": 0.006,
      "grad_norm": 4.162847518920898,
      "kl": 0.00921630859375,
      "learning_rate": 9.94e-07,
      "loss": 0.0321,
      "reward": 1.3020833730697632,
      "reward_mean": 1.3020833730697632,
      "reward_std": 0.41478484869003296,
      "rewards/accuracy_reward": 0.4270833432674408,
      "rewards/format_reward": 0.875,
      "step": 6
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 212.5,
      "epoch": 0.007,
      "grad_norm": 3.7386105060577393,
      "kl": 0.01312255859375,
      "learning_rate": 9.929999999999999e-07,
      "loss": 0.0328,
      "reward": 1.1041667461395264,
      "reward_mean": 1.1041667461395264,
      "reward_std": 0.349293053150177,
      "rewards/accuracy_reward": 0.2291666865348816,
      "rewards/format_reward": 0.875,
      "step": 7
    },
    {
      "advantages": -1.1920928955078125e-07,
      "completion_length": 229.5625,
      "epoch": 0.008,
      "grad_norm": 3.4274792671203613,
      "kl": 0.01171875,
      "learning_rate": 9.92e-07,
      "loss": -0.0102,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.28498581051826477,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 8
    },
    {
      "advantages": 0.0,
      "completion_length": 187.4375,
      "epoch": 0.009,
      "grad_norm": 5.677432537078857,
      "kl": 0.01123046875,
      "learning_rate": 9.91e-07,
      "loss": 0.1596,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.4972116947174072,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.9375,
      "step": 9
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 196.25,
      "epoch": 0.01,
      "grad_norm": 4.712809085845947,
      "kl": 0.0247802734375,
      "learning_rate": 9.9e-07,
      "loss": -0.1289,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.37918925285339355,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 10
    },
    {
      "advantages": 0.0,
      "completion_length": 116.0625,
      "epoch": 0.011,
      "grad_norm": 4.270755767822266,
      "kl": 0.0751953125,
      "learning_rate": 9.89e-07,
      "loss": -0.0513,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 11
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 170.0625,
      "epoch": 0.012,
      "grad_norm": 3.437450408935547,
      "kl": 0.04638671875,
      "learning_rate": 9.88e-07,
      "loss": -0.0187,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 12
    },
    {
      "advantages": 0.0,
      "completion_length": 86.5,
      "epoch": 0.013,
      "grad_norm": 4.844762802124023,
      "kl": 0.0419921875,
      "learning_rate": 9.87e-07,
      "loss": 0.0026,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 13
    },
    {
      "advantages": -6.332993507385254e-08,
      "completion_length": 186.875,
      "epoch": 0.014,
      "grad_norm": 4.118823528289795,
      "kl": 0.04638671875,
      "learning_rate": 9.86e-07,
      "loss": -0.0292,
      "reward": 1.5833333730697632,
      "reward_mean": 1.5833333730697632,
      "reward_std": 0.32946425676345825,
      "rewards/accuracy_reward": 0.5833333730697632,
      "rewards/format_reward": 1.0,
      "step": 14
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 95.75,
      "epoch": 0.015,
      "grad_norm": 4.095740795135498,
      "kl": 0.0703125,
      "learning_rate": 9.849999999999999e-07,
      "loss": 0.1122,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 15
    },
    {
      "advantages": -9.313225746154785e-08,
      "completion_length": 136.9375,
      "epoch": 0.016,
      "grad_norm": 5.639898777008057,
      "kl": 0.0859375,
      "learning_rate": 9.84e-07,
      "loss": -0.0948,
      "reward": 1.5833333730697632,
      "reward_mean": 1.5833333730697632,
      "reward_std": 0.3827785551548004,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 16
    },
    {
      "advantages": 2.2351741790771484e-08,
      "completion_length": 134.1875,
      "epoch": 0.017,
      "grad_norm": 5.9321980476379395,
      "kl": 0.0654296875,
      "learning_rate": 9.83e-07,
      "loss": -0.126,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.47921282052993774,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 17
    },
    {
      "advantages": 5.21540641784668e-08,
      "completion_length": 124.375,
      "epoch": 0.018,
      "grad_norm": 7.639815807342529,
      "kl": 0.052734375,
      "learning_rate": 9.819999999999999e-07,
      "loss": 0.0134,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.5096293687820435,
      "rewards/accuracy_reward": 0.3125000298023224,
      "rewards/format_reward": 0.9375,
      "step": 18
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 160.6875,
      "epoch": 0.019,
      "grad_norm": 4.792241096496582,
      "kl": 0.064453125,
      "learning_rate": 9.81e-07,
      "loss": 0.1099,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 1.0,
      "step": 19
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 161.0625,
      "epoch": 0.02,
      "grad_norm": 3.4121909141540527,
      "kl": 0.064453125,
      "learning_rate": 9.8e-07,
      "loss": 0.0186,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 1.0,
      "step": 20
    },
    {
      "advantages": -2.60770320892334e-07,
      "completion_length": 204.0625,
      "epoch": 0.021,
      "grad_norm": 3.9842889308929443,
      "kl": 0.0703125,
      "learning_rate": 9.789999999999999e-07,
      "loss": -0.0411,
      "reward": 1.4166667461395264,
      "reward_mean": 1.4166667461395264,
      "reward_std": 0.18292954564094543,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 1.0,
      "step": 21
    },
    {
      "advantages": 0.0,
      "completion_length": 140.875,
      "epoch": 0.022,
      "grad_norm": 6.302048206329346,
      "kl": 0.050537109375,
      "learning_rate": 9.78e-07,
      "loss": 0.1697,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.3471825420856476,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 22
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 111.5625,
      "epoch": 0.023,
      "grad_norm": 8.212870597839355,
      "kl": 0.1103515625,
      "learning_rate": 9.77e-07,
      "loss": 0.1932,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.44403791427612305,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 23
    },
    {
      "advantages": -9.685754776000977e-08,
      "completion_length": 180.25,
      "epoch": 0.024,
      "grad_norm": 4.934231758117676,
      "kl": 0.0791015625,
      "learning_rate": 9.759999999999998e-07,
      "loss": 0.2501,
      "reward": 1.4270833730697632,
      "reward_mean": 1.4270833730697632,
      "reward_std": 0.31544241309165955,
      "rewards/accuracy_reward": 0.4270833432674408,
      "rewards/format_reward": 1.0,
      "step": 24
    },
    {
      "advantages": -7.82310962677002e-08,
      "completion_length": 117.625,
      "epoch": 0.025,
      "grad_norm": 6.088715076446533,
      "kl": 0.126953125,
      "learning_rate": 9.75e-07,
      "loss": -0.0576,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.36558622121810913,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 25
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 93.5625,
      "epoch": 0.026,
      "grad_norm": 7.816601753234863,
      "kl": 0.1103515625,
      "learning_rate": 9.74e-07,
      "loss": 0.1863,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 26
    },
    {
      "advantages": -4.842877388000488e-08,
      "completion_length": 150.6875,
      "epoch": 0.027,
      "grad_norm": 5.928228378295898,
      "kl": 0.162109375,
      "learning_rate": 9.729999999999998e-07,
      "loss": -0.2134,
      "reward": 1.3645833730697632,
      "reward_mean": 1.3645833730697632,
      "reward_std": 0.28207486867904663,
      "rewards/accuracy_reward": 0.4270833730697632,
      "rewards/format_reward": 0.9375,
      "step": 27
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 98.0,
      "epoch": 0.028,
      "grad_norm": 6.595263481140137,
      "kl": 0.1005859375,
      "learning_rate": 9.72e-07,
      "loss": -0.0471,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2925041913986206,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 28
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 119.75,
      "epoch": 0.029,
      "grad_norm": 4.980852127075195,
      "kl": 0.1279296875,
      "learning_rate": 9.709999999999999e-07,
      "loss": 0.0662,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 1.0,
      "step": 29
    },
    {
      "advantages": 7.078051567077637e-08,
      "completion_length": 112.875,
      "epoch": 0.03,
      "grad_norm": 6.368246555328369,
      "kl": 0.166015625,
      "learning_rate": 9.7e-07,
      "loss": 0.0972,
      "reward": 1.5729167461395264,
      "reward_mean": 1.5729167461395264,
      "reward_std": 0.27226415276527405,
      "rewards/accuracy_reward": 0.5729166865348816,
      "rewards/format_reward": 1.0,
      "step": 30
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 109.4375,
      "epoch": 0.031,
      "grad_norm": 3.693007469177246,
      "kl": 0.1259765625,
      "learning_rate": 9.69e-07,
      "loss": -0.0644,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 31
    },
    {
      "advantages": 2.9802322387695312e-08,
      "completion_length": 99.0,
      "epoch": 0.032,
      "grad_norm": 7.649048805236816,
      "kl": 0.150390625,
      "learning_rate": 9.679999999999999e-07,
      "loss": -0.0374,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.41912031173706055,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 32
    },
    {
      "advantages": 1.0803341865539551e-07,
      "completion_length": 107.25,
      "epoch": 0.033,
      "grad_norm": 7.077078819274902,
      "kl": 0.1416015625,
      "learning_rate": 9.67e-07,
      "loss": -0.0125,
      "reward": 1.4791667461395264,
      "reward_mean": 1.4791667461395264,
      "reward_std": 0.27867573499679565,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 1.0,
      "step": 33
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 102.875,
      "epoch": 0.034,
      "grad_norm": 7.0495991706848145,
      "kl": 0.125,
      "learning_rate": 9.66e-07,
      "loss": -0.1118,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 34
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 102.5625,
      "epoch": 0.035,
      "grad_norm": 6.116304874420166,
      "kl": 0.1328125,
      "learning_rate": 9.649999999999999e-07,
      "loss": -0.023,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.4972116947174072,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 0.9375,
      "step": 35
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 121.9375,
      "epoch": 0.036,
      "grad_norm": 5.6247453689575195,
      "kl": 0.25,
      "learning_rate": 9.64e-07,
      "loss": 0.0057,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.5260357856750488,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 36
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 114.0,
      "epoch": 0.037,
      "grad_norm": 5.942628860473633,
      "kl": 0.0859375,
      "learning_rate": 9.63e-07,
      "loss": 0.0132,
      "reward": 1.53125,
      "reward_mean": 1.53125,
      "reward_std": 0.24511480331420898,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_reward": 1.0,
      "step": 37
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 120.9375,
      "epoch": 0.038,
      "grad_norm": 6.8025312423706055,
      "kl": 0.09375,
      "learning_rate": 9.619999999999999e-07,
      "loss": 0.298,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.3608423173427582,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 38
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 95.0,
      "epoch": 0.039,
      "grad_norm": 4.515552520751953,
      "kl": 0.05712890625,
      "learning_rate": 9.61e-07,
      "loss": -0.0356,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.12400396168231964,
      "rewards/accuracy_reward": 0.7291666269302368,
      "rewards/format_reward": 1.0,
      "step": 39
    },
    {
      "advantages": -1.6391277313232422e-07,
      "completion_length": 115.6875,
      "epoch": 0.04,
      "grad_norm": 3.725029706954956,
      "kl": 0.0947265625,
      "learning_rate": 9.6e-07,
      "loss": 0.0472,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.08908708393573761,
      "rewards/accuracy_reward": 0.3333333730697632,
      "rewards/format_reward": 1.0,
      "step": 40
    },
    {
      "advantages": 0.0,
      "completion_length": 108.125,
      "epoch": 0.041,
      "grad_norm": 4.70515775680542,
      "kl": 0.11328125,
      "learning_rate": 9.589999999999998e-07,
      "loss": 0.0818,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.08908706903457642,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 41
    },
    {
      "advantages": 1.862645149230957e-07,
      "completion_length": 116.1875,
      "epoch": 0.042,
      "grad_norm": 6.178482532501221,
      "kl": 0.125,
      "learning_rate": 9.58e-07,
      "loss": -0.0352,
      "reward": 1.4166667461395264,
      "reward_mean": 1.4166667461395264,
      "reward_std": 0.18292953073978424,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 1.0,
      "step": 42
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 114.5625,
      "epoch": 0.043,
      "grad_norm": 3.4989614486694336,
      "kl": 0.087890625,
      "learning_rate": 9.57e-07,
      "loss": -0.0562,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 43
    },
    {
      "advantages": -5.960464477539063e-08,
      "completion_length": 111.4375,
      "epoch": 0.044,
      "grad_norm": 5.46613883972168,
      "kl": 0.11181640625,
      "learning_rate": 9.559999999999998e-07,
      "loss": 0.0258,
      "reward": 1.4895833730697632,
      "reward_mean": 1.4895833730697632,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.4895833730697632,
      "rewards/format_reward": 1.0,
      "step": 44
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 145.5625,
      "epoch": 0.045,
      "grad_norm": 4.604372501373291,
      "kl": 0.140625,
      "learning_rate": 9.55e-07,
      "loss": -0.1122,
      "reward": 1.65625,
      "reward_mean": 1.65625,
      "reward_std": 0.2041158676147461,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_reward": 1.0,
      "step": 45
    },
    {
      "advantages": -1.0803341865539551e-07,
      "completion_length": 133.6875,
      "epoch": 0.046,
      "grad_norm": 5.48823881149292,
      "kl": 0.08935546875,
      "learning_rate": 9.539999999999999e-07,
      "loss": 0.0234,
      "reward": 1.5416667461395264,
      "reward_mean": 1.5416667461395264,
      "reward_std": 0.24800795316696167,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 1.0,
      "step": 46
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 113.8125,
      "epoch": 0.047,
      "grad_norm": 3.9073755741119385,
      "kl": 0.12451171875,
      "learning_rate": 9.529999999999999e-07,
      "loss": 0.0176,
      "reward": 1.4583333730697632,
      "reward_mean": 1.4583333730697632,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.4583333730697632,
      "rewards/format_reward": 1.0,
      "step": 47
    },
    {
      "advantages": 0.0,
      "completion_length": 145.6875,
      "epoch": 0.048,
      "grad_norm": 5.332810878753662,
      "kl": 0.08740234375,
      "learning_rate": 9.52e-07,
      "loss": -0.0314,
      "reward": 1.59375,
      "reward_mean": 1.59375,
      "reward_std": 0.22201895713806152,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_reward": 1.0,
      "step": 48
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 126.875,
      "epoch": 0.049,
      "grad_norm": 5.358933925628662,
      "kl": 0.150390625,
      "learning_rate": 9.509999999999999e-07,
      "loss": 0.1055,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.249358132481575,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 49
    },
    {
      "advantages": 0.0,
      "completion_length": 138.875,
      "epoch": 0.05,
      "grad_norm": 5.692139625549316,
      "kl": 0.0859375,
      "learning_rate": 9.499999999999999e-07,
      "loss": -0.1248,
      "reward": 1.4479167461395264,
      "reward_mean": 1.4479167461395264,
      "reward_std": 0.17747542262077332,
      "rewards/accuracy_reward": 0.4479166865348816,
      "rewards/format_reward": 1.0,
      "step": 50
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 146.875,
      "epoch": 0.051,
      "grad_norm": 5.381588459014893,
      "kl": 0.08935546875,
      "learning_rate": 9.489999999999999e-07,
      "loss": -0.129,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.41746097803115845,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 51
    },
    {
      "advantages": 2.2351741790771484e-08,
      "completion_length": 150.875,
      "epoch": 0.052,
      "grad_norm": 5.1832451820373535,
      "kl": 0.083984375,
      "learning_rate": 9.479999999999999e-07,
      "loss": -0.0529,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.2925041913986206,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 52
    },
    {
      "advantages": 0.0,
      "completion_length": 124.8125,
      "epoch": 0.053,
      "grad_norm": 0.0,
      "kl": 0.1689453125,
      "learning_rate": 9.469999999999999e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 53
    },
    {
      "advantages": -2.9802322387695312e-08,
      "completion_length": 126.0,
      "epoch": 0.054,
      "grad_norm": 6.027964115142822,
      "kl": 0.07421875,
      "learning_rate": 9.459999999999999e-07,
      "loss": 0.1005,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 54
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 144.75,
      "epoch": 0.055,
      "grad_norm": 4.921864986419678,
      "kl": 0.07568359375,
      "learning_rate": 9.45e-07,
      "loss": 0.0249,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.3047097325325012,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 55
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 125.125,
      "epoch": 0.056,
      "grad_norm": 5.077033042907715,
      "kl": 0.0673828125,
      "learning_rate": 9.439999999999999e-07,
      "loss": -0.045,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.5260357856750488,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 56
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 131.625,
      "epoch": 0.057,
      "grad_norm": 4.984986782073975,
      "kl": 0.1015625,
      "learning_rate": 9.429999999999999e-07,
      "loss": -0.0956,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.3608423173427582,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 57
    },
    {
      "advantages": 4.470348358154297e-08,
      "completion_length": 175.25,
      "epoch": 0.058,
      "grad_norm": 3.103456974029541,
      "kl": 0.0810546875,
      "learning_rate": 9.419999999999999e-07,
      "loss": -0.0034,
      "reward": 1.2291667461395264,
      "reward_mean": 1.2291667461395264,
      "reward_std": 0.12400396913290024,
      "rewards/accuracy_reward": 0.2291666865348816,
      "rewards/format_reward": 1.0,
      "step": 58
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 147.25,
      "epoch": 0.059,
      "grad_norm": 4.62039852142334,
      "kl": 0.07763671875,
      "learning_rate": 9.409999999999999e-07,
      "loss": 0.1301,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.37714511156082153,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 59
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 167.25,
      "epoch": 0.06,
      "grad_norm": 4.27726411819458,
      "kl": 0.111328125,
      "learning_rate": 9.399999999999999e-07,
      "loss": -0.0044,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 1.0,
      "step": 60
    },
    {
      "advantages": 0.0,
      "completion_length": 147.25,
      "epoch": 0.061,
      "grad_norm": 4.738762855529785,
      "kl": 0.087890625,
      "learning_rate": 9.389999999999999e-07,
      "loss": -0.0094,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.40089184045791626,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 61
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 163.75,
      "epoch": 0.062,
      "grad_norm": 4.51692008972168,
      "kl": 0.07421875,
      "learning_rate": 9.379999999999998e-07,
      "loss": 0.1029,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.48037588596343994,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 62
    },
    {
      "advantages": 0.0,
      "completion_length": 128.5625,
      "epoch": 0.063,
      "grad_norm": 3.7537429332733154,
      "kl": 0.06396484375,
      "learning_rate": 9.37e-07,
      "loss": 0.0021,
      "reward": 1.21875,
      "reward_mean": 1.21875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.21875,
      "rewards/format_reward": 1.0,
      "step": 63
    },
    {
      "advantages": -8.195638656616211e-08,
      "completion_length": 183.0625,
      "epoch": 0.064,
      "grad_norm": 4.70877742767334,
      "kl": 0.0732421875,
      "learning_rate": 9.36e-07,
      "loss": -0.0168,
      "reward": 1.1041667461395264,
      "reward_mean": 1.1041667461395264,
      "reward_std": 0.25392839312553406,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 1.0,
      "step": 64
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 169.0625,
      "epoch": 0.065,
      "grad_norm": 2.69047212600708,
      "kl": 0.0927734375,
      "learning_rate": 9.35e-07,
      "loss": -0.0626,
      "reward": 1.59375,
      "reward_mean": 1.59375,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_reward": 0.9375,
      "step": 65
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 125.9375,
      "epoch": 0.066,
      "grad_norm": 5.199371814727783,
      "kl": 0.109375,
      "learning_rate": 9.34e-07,
      "loss": 0.0566,
      "reward": 1.53125,
      "reward_mean": 1.53125,
      "reward_std": 0.24511480331420898,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_reward": 1.0,
      "step": 66
    },
    {
      "advantages": 7.078051567077637e-08,
      "completion_length": 161.5,
      "epoch": 0.067,
      "grad_norm": 4.959042549133301,
      "kl": 0.1240234375,
      "learning_rate": 9.33e-07,
      "loss": -0.0491,
      "reward": 1.5416667461395264,
      "reward_mean": 1.5416667461395264,
      "reward_std": 0.20198571681976318,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 1.0,
      "step": 67
    },
    {
      "advantages": 0.0,
      "completion_length": 131.1875,
      "epoch": 0.068,
      "grad_norm": 0.0,
      "kl": 0.064453125,
      "learning_rate": 9.32e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 68
    },
    {
      "advantages": -5.587935447692871e-08,
      "completion_length": 149.3125,
      "epoch": 0.069,
      "grad_norm": 5.306145668029785,
      "kl": 0.0908203125,
      "learning_rate": 9.31e-07,
      "loss": 0.1358,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.384762704372406,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 1.0,
      "step": 69
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 158.8125,
      "epoch": 0.07,
      "grad_norm": 4.328370571136475,
      "kl": 0.107421875,
      "learning_rate": 9.3e-07,
      "loss": -0.0507,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.3204349875450134,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 70
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 130.5,
      "epoch": 0.071,
      "grad_norm": 5.123632431030273,
      "kl": 0.1259765625,
      "learning_rate": 9.29e-07,
      "loss": -0.0134,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 71
    },
    {
      "advantages": 2.9802322387695312e-08,
      "completion_length": 180.6875,
      "epoch": 0.072,
      "grad_norm": 2.0722601413726807,
      "kl": 0.0810546875,
      "learning_rate": 9.28e-07,
      "loss": -0.02,
      "reward": 1.4791667461395264,
      "reward_mean": 1.4791667461395264,
      "reward_std": 0.15268757939338684,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 1.0,
      "step": 72
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 138.25,
      "epoch": 0.073,
      "grad_norm": 6.854410648345947,
      "kl": 0.1533203125,
      "learning_rate": 9.27e-07,
      "loss": -0.1078,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.3369941711425781,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 73
    },
    {
      "advantages": 1.564621925354004e-07,
      "completion_length": 159.75,
      "epoch": 0.074,
      "grad_norm": 5.237288951873779,
      "kl": 0.11328125,
      "learning_rate": 9.26e-07,
      "loss": -0.0132,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.2658637762069702,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 74
    },
    {
      "advantages": -1.0803341865539551e-07,
      "completion_length": 158.4375,
      "epoch": 0.075,
      "grad_norm": 4.552402496337891,
      "kl": 0.11328125,
      "learning_rate": 9.25e-07,
      "loss": 0.078,
      "reward": 1.5520833730697632,
      "reward_mean": 1.5520833730697632,
      "reward_std": 0.20653896033763885,
      "rewards/accuracy_reward": 0.5520833730697632,
      "rewards/format_reward": 1.0,
      "step": 75
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 172.8125,
      "epoch": 0.076,
      "grad_norm": 4.742386817932129,
      "kl": 0.146484375,
      "learning_rate": 9.24e-07,
      "loss": -0.016,
      "reward": 1.40625,
      "reward_mean": 1.40625,
      "reward_std": 0.3198433816432953,
      "rewards/accuracy_reward": 0.40625,
      "rewards/format_reward": 1.0,
      "step": 76
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 125.3125,
      "epoch": 0.077,
      "grad_norm": 3.670785903930664,
      "kl": 0.10791015625,
      "learning_rate": 9.23e-07,
      "loss": -0.0209,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 77
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 132.4375,
      "epoch": 0.078,
      "grad_norm": 3.141366958618164,
      "kl": 0.17578125,
      "learning_rate": 9.22e-07,
      "loss": 0.0153,
      "reward": 1.28125,
      "reward_mean": 1.28125,
      "reward_std": 0.1602174937725067,
      "rewards/accuracy_reward": 0.28125,
      "rewards/format_reward": 1.0,
      "step": 78
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 155.0,
      "epoch": 0.079,
      "grad_norm": 4.80902099609375,
      "kl": 0.16796875,
      "learning_rate": 9.21e-07,
      "loss": 0.013,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.44403791427612305,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 79
    },
    {
      "advantages": 5.587935447692871e-08,
      "completion_length": 151.1875,
      "epoch": 0.08,
      "grad_norm": 2.728870391845703,
      "kl": 0.150390625,
      "learning_rate": 9.2e-07,
      "loss": -0.0162,
      "reward": 1.2291667461395264,
      "reward_mean": 1.2291667461395264,
      "reward_std": 0.08625819534063339,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 1.0,
      "step": 80
    },
    {
      "advantages": 0.0,
      "completion_length": 135.375,
      "epoch": 0.081,
      "grad_norm": 0.0,
      "kl": 0.140625,
      "learning_rate": 9.19e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 81
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 131.0625,
      "epoch": 0.082,
      "grad_norm": 5.101280212402344,
      "kl": 0.119140625,
      "learning_rate": 9.18e-07,
      "loss": 0.0076,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 82
    },
    {
      "advantages": 0.0,
      "completion_length": 149.8125,
      "epoch": 0.083,
      "grad_norm": 6.299161911010742,
      "kl": 0.1328125,
      "learning_rate": 9.17e-07,
      "loss": 0.1103,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.5430608987808228,
      "rewards/accuracy_reward": 0.40625,
      "rewards/format_reward": 0.9375,
      "step": 83
    },
    {
      "advantages": 0.0,
      "completion_length": 158.8125,
      "epoch": 0.084,
      "grad_norm": 5.345361232757568,
      "kl": 0.16015625,
      "learning_rate": 9.16e-07,
      "loss": -0.0678,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.3471825420856476,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 84
    },
    {
      "advantages": 8.940696716308594e-08,
      "completion_length": 147.0,
      "epoch": 0.085,
      "grad_norm": 4.728163719177246,
      "kl": 0.1328125,
      "learning_rate": 9.15e-07,
      "loss": 0.0498,
      "reward": 1.5104167461395264,
      "reward_mean": 1.5104167461395264,
      "reward_std": 0.16554003953933716,
      "rewards/accuracy_reward": 0.5104166865348816,
      "rewards/format_reward": 1.0,
      "step": 85
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 135.4375,
      "epoch": 0.086,
      "grad_norm": 5.456924915313721,
      "kl": 0.146484375,
      "learning_rate": 9.14e-07,
      "loss": -0.0519,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.3924052119255066,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 86
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 141.875,
      "epoch": 0.087,
      "grad_norm": 3.1715574264526367,
      "kl": 0.2578125,
      "learning_rate": 9.13e-07,
      "loss": 0.0425,
      "reward": 1.84375,
      "reward_mean": 1.84375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_reward": 1.0,
      "step": 87
    },
    {
      "advantages": 0.0,
      "completion_length": 136.25,
      "epoch": 0.088,
      "grad_norm": 6.198694705963135,
      "kl": 0.154296875,
      "learning_rate": 9.12e-07,
      "loss": 0.148,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.9375,
      "step": 88
    },
    {
      "advantages": -1.1175870895385742e-08,
      "completion_length": 150.3125,
      "epoch": 0.089,
      "grad_norm": 5.361752510070801,
      "kl": 0.244140625,
      "learning_rate": 9.109999999999999e-07,
      "loss": -0.1088,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.3608423173427582,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 89
    },
    {
      "advantages": 1.2665987014770508e-07,
      "completion_length": 162.5625,
      "epoch": 0.09,
      "grad_norm": 3.3533167839050293,
      "kl": 0.15625,
      "learning_rate": 9.1e-07,
      "loss": 0.0269,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 90
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 154.125,
      "epoch": 0.091,
      "grad_norm": 4.257230281829834,
      "kl": 0.138671875,
      "learning_rate": 9.09e-07,
      "loss": -0.0494,
      "reward": 1.65625,
      "reward_mean": 1.65625,
      "reward_std": 0.3369941711425781,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_reward": 1.0,
      "step": 91
    },
    {
      "advantages": 5.587935447692871e-08,
      "completion_length": 153.5625,
      "epoch": 0.092,
      "grad_norm": 3.06853985786438,
      "kl": 0.146484375,
      "learning_rate": 9.08e-07,
      "loss": -0.0155,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.08625819534063339,
      "rewards/accuracy_reward": 0.7291666269302368,
      "rewards/format_reward": 1.0,
      "step": 92
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 173.5625,
      "epoch": 0.093,
      "grad_norm": 4.021603584289551,
      "kl": 0.150390625,
      "learning_rate": 9.07e-07,
      "loss": 0.1183,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.3369941711425781,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 93
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 137.125,
      "epoch": 0.094,
      "grad_norm": 3.569105625152588,
      "kl": 0.1728515625,
      "learning_rate": 9.06e-07,
      "loss": -0.0621,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 94
    },
    {
      "advantages": -3.3527612686157227e-08,
      "completion_length": 151.4375,
      "epoch": 0.095,
      "grad_norm": 4.879980564117432,
      "kl": 0.1416015625,
      "learning_rate": 9.05e-07,
      "loss": -0.0726,
      "reward": 1.3958333730697632,
      "reward_mean": 1.3958333730697632,
      "reward_std": 0.3177132308483124,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 1.0,
      "step": 95
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 138.9375,
      "epoch": 0.096,
      "grad_norm": 3.0653719902038574,
      "kl": 0.201171875,
      "learning_rate": 9.039999999999999e-07,
      "loss": 0.0793,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 96
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 165.0,
      "epoch": 0.097,
      "grad_norm": 5.2285027503967285,
      "kl": 0.17578125,
      "learning_rate": 9.03e-07,
      "loss": -0.0091,
      "reward": 1.5833333730697632,
      "reward_mean": 1.5833333730697632,
      "reward_std": 0.5487886071205139,
      "rewards/accuracy_reward": 0.7083333730697632,
      "rewards/format_reward": 0.875,
      "step": 97
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 187.9375,
      "epoch": 0.098,
      "grad_norm": 5.323462963104248,
      "kl": 0.13671875,
      "learning_rate": 9.02e-07,
      "loss": 0.1548,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.3471629321575165,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 98
    },
    {
      "advantages": -1.043081283569336e-07,
      "completion_length": 203.3125,
      "epoch": 0.099,
      "grad_norm": 4.417811870574951,
      "kl": 0.1181640625,
      "learning_rate": 9.01e-07,
      "loss": -0.0588,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.21507522463798523,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 99
    },
    {
      "advantages": 0.0,
      "completion_length": 205.1875,
      "epoch": 0.1,
      "grad_norm": 5.388199329376221,
      "kl": 0.1484375,
      "learning_rate": 9e-07,
      "loss": 0.2401,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.2486058473587036,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 100
    },
    {
      "advantages": 0.0,
      "completion_length": 128.9375,
      "epoch": 0.101,
      "grad_norm": 0.0,
      "kl": 0.13671875,
      "learning_rate": 8.99e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 101
    },
    {
      "advantages": -1.0803341865539551e-07,
      "completion_length": 199.75,
      "epoch": 0.102,
      "grad_norm": 4.06512975692749,
      "kl": 0.12109375,
      "learning_rate": 8.98e-07,
      "loss": 0.0036,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.33592626452445984,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 102
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 177.625,
      "epoch": 0.103,
      "grad_norm": 4.752602577209473,
      "kl": 0.140625,
      "learning_rate": 8.969999999999999e-07,
      "loss": 0.0261,
      "reward": 1.4583333730697632,
      "reward_mean": 1.4583333730697632,
      "reward_std": 0.27215445041656494,
      "rewards/accuracy_reward": 0.4583333730697632,
      "rewards/format_reward": 1.0,
      "step": 103
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 123.625,
      "epoch": 0.104,
      "grad_norm": 5.437667369842529,
      "kl": 0.177734375,
      "learning_rate": 8.96e-07,
      "loss": -0.0163,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 104
    },
    {
      "advantages": 1.1175870895385742e-08,
      "completion_length": 162.4375,
      "epoch": 0.105,
      "grad_norm": 5.383893013000488,
      "kl": 0.1123046875,
      "learning_rate": 8.95e-07,
      "loss": 0.0715,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 105
    },
    {
      "advantages": -1.30385160446167e-07,
      "completion_length": 178.75,
      "epoch": 0.106,
      "grad_norm": 4.805429935455322,
      "kl": 0.142578125,
      "learning_rate": 8.939999999999999e-07,
      "loss": -0.0543,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.1451837718486786,
      "rewards/accuracy_reward": 0.3750000298023224,
      "rewards/format_reward": 1.0,
      "step": 106
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 170.75,
      "epoch": 0.107,
      "grad_norm": 2.5841424465179443,
      "kl": 0.28125,
      "learning_rate": 8.93e-07,
      "loss": -0.0829,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 107
    },
    {
      "advantages": -5.587935447692871e-08,
      "completion_length": 188.6875,
      "epoch": 0.108,
      "grad_norm": 4.707062244415283,
      "kl": 0.15234375,
      "learning_rate": 8.92e-07,
      "loss": -0.0264,
      "reward": 1.6458333730697632,
      "reward_mean": 1.6458333730697632,
      "reward_std": 0.31493228673934937,
      "rewards/accuracy_reward": 0.6458333730697632,
      "rewards/format_reward": 1.0,
      "step": 108
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 190.9375,
      "epoch": 0.109,
      "grad_norm": 5.0554022789001465,
      "kl": 0.1396484375,
      "learning_rate": 8.91e-07,
      "loss": 0.0244,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 109
    },
    {
      "advantages": 9.685754776000977e-08,
      "completion_length": 186.0,
      "epoch": 0.11,
      "grad_norm": 5.242109298706055,
      "kl": 0.142578125,
      "learning_rate": 8.9e-07,
      "loss": -0.0693,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.25392839312553406,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 110
    },
    {
      "advantages": -7.450580596923828e-08,
      "completion_length": 176.25,
      "epoch": 0.111,
      "grad_norm": 4.1332621574401855,
      "kl": 0.1494140625,
      "learning_rate": 8.89e-07,
      "loss": -0.0321,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.12400396913290024,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 111
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 144.4375,
      "epoch": 0.112,
      "grad_norm": 3.3191065788269043,
      "kl": 0.15234375,
      "learning_rate": 8.88e-07,
      "loss": -0.0225,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 112
    },
    {
      "advantages": 0.0,
      "completion_length": 176.5,
      "epoch": 0.113,
      "grad_norm": 4.919429302215576,
      "kl": 0.14453125,
      "learning_rate": 8.869999999999999e-07,
      "loss": 0.0628,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 113
    },
    {
      "advantages": 7.078051567077637e-08,
      "completion_length": 189.375,
      "epoch": 0.114,
      "grad_norm": 4.54962682723999,
      "kl": 0.14453125,
      "learning_rate": 8.86e-07,
      "loss": 0.0199,
      "reward": 1.6041667461395264,
      "reward_mean": 1.6041667461395264,
      "reward_std": 0.33592626452445984,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 1.0,
      "step": 114
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 199.25,
      "epoch": 0.115,
      "grad_norm": 3.2728166580200195,
      "kl": 0.1640625,
      "learning_rate": 8.85e-07,
      "loss": -0.0123,
      "reward": 1.3958333730697632,
      "reward_mean": 1.3958333730697632,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 1.0,
      "step": 115
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 192.375,
      "epoch": 0.116,
      "grad_norm": 3.095080614089966,
      "kl": 0.146484375,
      "learning_rate": 8.839999999999999e-07,
      "loss": -0.0267,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 116
    },
    {
      "advantages": 3.3527612686157227e-08,
      "completion_length": 152.625,
      "epoch": 0.117,
      "grad_norm": 5.22807502746582,
      "kl": 0.1669921875,
      "learning_rate": 8.83e-07,
      "loss": -0.0066,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.49022960662841797,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 117
    },
    {
      "advantages": 0.0,
      "completion_length": 155.375,
      "epoch": 0.118,
      "grad_norm": 0.0,
      "kl": 0.150390625,
      "learning_rate": 8.82e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 118
    },
    {
      "advantages": 0.0,
      "completion_length": 143.375,
      "epoch": 0.119,
      "grad_norm": 0.0,
      "kl": 0.1943359375,
      "learning_rate": 8.81e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 119
    },
    {
      "advantages": 3.725290298461914e-08,
      "completion_length": 164.5625,
      "epoch": 0.12,
      "grad_norm": 3.923374891281128,
      "kl": 0.162109375,
      "learning_rate": 8.799999999999999e-07,
      "loss": -0.0003,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.26346173882484436,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 120
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 180.0625,
      "epoch": 0.121,
      "grad_norm": 4.817902565002441,
      "kl": 0.169921875,
      "learning_rate": 8.79e-07,
      "loss": -0.0816,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.49022960662841797,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 121
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 159.5625,
      "epoch": 0.122,
      "grad_norm": 3.3247320652008057,
      "kl": 0.3046875,
      "learning_rate": 8.78e-07,
      "loss": 0.0201,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 122
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 114.375,
      "epoch": 0.123,
      "grad_norm": 4.4976091384887695,
      "kl": 0.2001953125,
      "learning_rate": 8.769999999999999e-07,
      "loss": -0.0023,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 123
    },
    {
      "advantages": -3.203749656677246e-07,
      "completion_length": 151.625,
      "epoch": 0.124,
      "grad_norm": 4.727357387542725,
      "kl": 0.162109375,
      "learning_rate": 8.76e-07,
      "loss": -0.1441,
      "reward": 1.5208333730697632,
      "reward_mean": 1.5208333730697632,
      "reward_std": 0.058925580233335495,
      "rewards/accuracy_reward": 0.5208333134651184,
      "rewards/format_reward": 1.0,
      "step": 124
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 154.625,
      "epoch": 0.125,
      "grad_norm": 5.586273670196533,
      "kl": 0.212890625,
      "learning_rate": 8.75e-07,
      "loss": -0.0295,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.3745020925998688,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 125
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 210.4375,
      "epoch": 0.126,
      "grad_norm": 3.2797603607177734,
      "kl": 0.154296875,
      "learning_rate": 8.739999999999999e-07,
      "loss": -0.0005,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 126
    },
    {
      "advantages": 0.0,
      "completion_length": 149.25,
      "epoch": 0.127,
      "grad_norm": 0.0,
      "kl": 0.171875,
      "learning_rate": 8.729999999999999e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 127
    },
    {
      "advantages": 0.0,
      "completion_length": 142.9375,
      "epoch": 0.128,
      "grad_norm": 0.0,
      "kl": 0.2158203125,
      "learning_rate": 8.72e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 128
    },
    {
      "advantages": 1.0058283805847168e-07,
      "completion_length": 214.9375,
      "epoch": 0.129,
      "grad_norm": 4.753498554229736,
      "kl": 0.12890625,
      "learning_rate": 8.71e-07,
      "loss": 0.0282,
      "reward": 1.5208333730697632,
      "reward_mean": 1.5208333730697632,
      "reward_std": 0.2298392653465271,
      "rewards/accuracy_reward": 0.5208333730697632,
      "rewards/format_reward": 1.0,
      "step": 129
    },
    {
      "advantages": -3.725290298461914e-08,
      "completion_length": 169.9375,
      "epoch": 0.13,
      "grad_norm": 2.9244163036346436,
      "kl": 0.146484375,
      "learning_rate": 8.699999999999999e-07,
      "loss": -0.0707,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.08908706903457642,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 130
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 140.1875,
      "epoch": 0.131,
      "grad_norm": 3.525092840194702,
      "kl": 0.15625,
      "learning_rate": 8.69e-07,
      "loss": 0.0386,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 131
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 150.75,
      "epoch": 0.132,
      "grad_norm": 3.3508222103118896,
      "kl": 0.150390625,
      "learning_rate": 8.68e-07,
      "loss": -0.0317,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 132
    },
    {
      "advantages": -1.2293457984924316e-07,
      "completion_length": 207.0625,
      "epoch": 0.133,
      "grad_norm": 4.877673625946045,
      "kl": 0.15625,
      "learning_rate": 8.669999999999999e-07,
      "loss": -0.0678,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.17251640558242798,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 133
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 114.5625,
      "epoch": 0.134,
      "grad_norm": 4.1597580909729,
      "kl": 0.1904296875,
      "learning_rate": 8.659999999999999e-07,
      "loss": -0.0128,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 134
    },
    {
      "advantages": 0.0,
      "completion_length": 171.625,
      "epoch": 0.135,
      "grad_norm": 0.0,
      "kl": 0.16015625,
      "learning_rate": 8.65e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 135
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 193.3125,
      "epoch": 0.136,
      "grad_norm": 3.460597276687622,
      "kl": 0.1650390625,
      "learning_rate": 8.639999999999999e-07,
      "loss": -0.0345,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 136
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 164.75,
      "epoch": 0.137,
      "grad_norm": 3.3782408237457275,
      "kl": 0.16015625,
      "learning_rate": 8.629999999999999e-07,
      "loss": 0.0302,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 137
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 159.6875,
      "epoch": 0.138,
      "grad_norm": 6.104968547821045,
      "kl": 0.162109375,
      "learning_rate": 8.62e-07,
      "loss": 0.064,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.249358132481575,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 138
    },
    {
      "advantages": 0.0,
      "completion_length": 204.4375,
      "epoch": 0.139,
      "grad_norm": 4.3379902839660645,
      "kl": 0.1484375,
      "learning_rate": 8.61e-07,
      "loss": 0.0819,
      "reward": 1.4791667461395264,
      "reward_mean": 1.4791667461395264,
      "reward_std": 0.3759046792984009,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 1.0,
      "step": 139
    },
    {
      "advantages": -6.146728992462158e-08,
      "completion_length": 184.6875,
      "epoch": 0.14,
      "grad_norm": 2.6453442573547363,
      "kl": 0.1630859375,
      "learning_rate": 8.599999999999999e-07,
      "loss": -0.0203,
      "reward": 1.7708333730697632,
      "reward_mean": 1.7708333730697632,
      "reward_std": 0.19795583188533783,
      "rewards/accuracy_reward": 0.7708333730697632,
      "rewards/format_reward": 1.0,
      "step": 140
    },
    {
      "advantages": 0.0,
      "completion_length": 154.0625,
      "epoch": 0.141,
      "grad_norm": 3.7319183349609375,
      "kl": 0.15234375,
      "learning_rate": 8.59e-07,
      "loss": -0.011,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 141
    },
    {
      "advantages": 0.0,
      "completion_length": 148.25,
      "epoch": 0.142,
      "grad_norm": 0.0,
      "kl": 0.171875,
      "learning_rate": 8.58e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 142
    },
    {
      "advantages": 1.1175870895385742e-08,
      "completion_length": 149.1875,
      "epoch": 0.143,
      "grad_norm": 3.001418113708496,
      "kl": 0.1650390625,
      "learning_rate": 8.569999999999999e-07,
      "loss": -0.0812,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.15268756449222565,
      "rewards/accuracy_reward": 0.7291667461395264,
      "rewards/format_reward": 1.0,
      "step": 143
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 176.3125,
      "epoch": 0.144,
      "grad_norm": 4.027692794799805,
      "kl": 0.1669921875,
      "learning_rate": 8.559999999999999e-07,
      "loss": 0.037,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 144
    },
    {
      "advantages": 0.0,
      "completion_length": 156.0,
      "epoch": 0.145,
      "grad_norm": 0.0,
      "kl": 0.19921875,
      "learning_rate": 8.55e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 145
    },
    {
      "advantages": -2.942979335784912e-07,
      "completion_length": 190.5625,
      "epoch": 0.146,
      "grad_norm": 4.445368766784668,
      "kl": 0.15625,
      "learning_rate": 8.539999999999999e-07,
      "loss": -0.0205,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.18292956054210663,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 146
    },
    {
      "advantages": 4.470348358154297e-07,
      "completion_length": 192.4375,
      "epoch": 0.147,
      "grad_norm": 5.451050758361816,
      "kl": 0.169921875,
      "learning_rate": 8.529999999999999e-07,
      "loss": -0.0488,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.117851123213768,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 147
    },
    {
      "advantages": -9.685754776000977e-08,
      "completion_length": 175.25,
      "epoch": 0.148,
      "grad_norm": 4.9530205726623535,
      "kl": 0.169921875,
      "learning_rate": 8.52e-07,
      "loss": -0.0464,
      "reward": 1.5416667461395264,
      "reward_mean": 1.5416667461395264,
      "reward_std": 0.20693820714950562,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 1.0,
      "step": 148
    },
    {
      "advantages": -5.587935447692871e-08,
      "completion_length": 177.75,
      "epoch": 0.149,
      "grad_norm": 6.3942551612854,
      "kl": 0.158203125,
      "learning_rate": 8.51e-07,
      "loss": -0.1093,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.2630349099636078,
      "rewards/accuracy_reward": 0.7083333730697632,
      "rewards/format_reward": 1.0,
      "step": 149
    },
    {
      "advantages": 0.0,
      "completion_length": 198.8125,
      "epoch": 0.15,
      "grad_norm": 4.109989166259766,
      "kl": 0.1533203125,
      "learning_rate": 8.499999999999999e-07,
      "loss": -0.0619,
      "reward": 1.03125,
      "reward_mean": 1.03125,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 1.0,
      "step": 150
    },
    {
      "advantages": 0.0,
      "completion_length": 163.8125,
      "epoch": 0.151,
      "grad_norm": 0.0,
      "kl": 0.158203125,
      "learning_rate": 8.489999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 151
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 147.3125,
      "epoch": 0.152,
      "grad_norm": 3.5985171794891357,
      "kl": 0.173828125,
      "learning_rate": 8.48e-07,
      "loss": 0.0055,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 152
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 150.875,
      "epoch": 0.153,
      "grad_norm": 4.749815940856934,
      "kl": 0.1767578125,
      "learning_rate": 8.469999999999999e-07,
      "loss": -0.0527,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 153
    },
    {
      "advantages": 0.0,
      "completion_length": 165.75,
      "epoch": 0.154,
      "grad_norm": 0.0,
      "kl": 0.1962890625,
      "learning_rate": 8.459999999999999e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 154
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 184.1875,
      "epoch": 0.155,
      "grad_norm": 5.736739635467529,
      "kl": 0.18359375,
      "learning_rate": 8.45e-07,
      "loss": 0.1821,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 155
    },
    {
      "advantages": 3.203749656677246e-07,
      "completion_length": 214.9375,
      "epoch": 0.156,
      "grad_norm": 3.542316436767578,
      "kl": 0.208984375,
      "learning_rate": 8.439999999999999e-07,
      "loss": 0.033,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.058925580233335495,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 156
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 204.625,
      "epoch": 0.157,
      "grad_norm": 4.769254684448242,
      "kl": 0.173828125,
      "learning_rate": 8.429999999999999e-07,
      "loss": 0.0339,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.4189920723438263,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 157
    },
    {
      "advantages": 0.0,
      "completion_length": 178.25,
      "epoch": 0.158,
      "grad_norm": 2.834043264389038,
      "kl": 0.1796875,
      "learning_rate": 8.419999999999999e-07,
      "loss": 0.0343,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 158
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 192.75,
      "epoch": 0.159,
      "grad_norm": 3.128997802734375,
      "kl": 0.150390625,
      "learning_rate": 8.41e-07,
      "loss": 0.008,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 159
    },
    {
      "advantages": 1.1920928955078125e-07,
      "completion_length": 183.6875,
      "epoch": 0.16,
      "grad_norm": 5.255495071411133,
      "kl": 0.171875,
      "learning_rate": 8.399999999999999e-07,
      "loss": 0.1298,
      "reward": 1.40625,
      "reward_mean": 1.40625,
      "reward_std": 0.3250930905342102,
      "rewards/accuracy_reward": 0.4062500298023224,
      "rewards/format_reward": 1.0,
      "step": 160
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 192.5625,
      "epoch": 0.161,
      "grad_norm": 3.1085081100463867,
      "kl": 0.18359375,
      "learning_rate": 8.389999999999999e-07,
      "loss": -0.0476,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 161
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 149.125,
      "epoch": 0.162,
      "grad_norm": 5.676258563995361,
      "kl": 0.208984375,
      "learning_rate": 8.38e-07,
      "loss": -0.0042,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.4189920723438263,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 162
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 202.4375,
      "epoch": 0.163,
      "grad_norm": 3.1146128177642822,
      "kl": 0.19140625,
      "learning_rate": 8.369999999999999e-07,
      "loss": -0.0357,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.12400397658348083,
      "rewards/accuracy_reward": 0.7291666269302368,
      "rewards/format_reward": 1.0,
      "step": 163
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 190.375,
      "epoch": 0.164,
      "grad_norm": 4.653083324432373,
      "kl": 0.251953125,
      "learning_rate": 8.359999999999999e-07,
      "loss": 0.0293,
      "reward": 1.5104167461395264,
      "reward_mean": 1.5104167461395264,
      "reward_std": 0.1473138928413391,
      "rewards/accuracy_reward": 0.5104166865348816,
      "rewards/format_reward": 1.0,
      "step": 164
    },
    {
      "advantages": 2.9802322387695312e-08,
      "completion_length": 208.0625,
      "epoch": 0.165,
      "grad_norm": 3.3702642917633057,
      "kl": 0.185546875,
      "learning_rate": 8.349999999999999e-07,
      "loss": -0.001,
      "reward": 1.8541667461395264,
      "reward_mean": 1.8541667461395264,
      "reward_std": 0.10681165009737015,
      "rewards/accuracy_reward": 0.8541666865348816,
      "rewards/format_reward": 1.0,
      "step": 165
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 166.375,
      "epoch": 0.166,
      "grad_norm": 4.143738746643066,
      "kl": 0.1865234375,
      "learning_rate": 8.34e-07,
      "loss": -0.0756,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 1.0,
      "step": 166
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 153.25,
      "epoch": 0.167,
      "grad_norm": 3.872225522994995,
      "kl": 0.185546875,
      "learning_rate": 8.329999999999999e-07,
      "loss": -0.0012,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 167
    },
    {
      "advantages": -4.470348358154297e-08,
      "completion_length": 197.3125,
      "epoch": 0.168,
      "grad_norm": 4.1173319816589355,
      "kl": 0.1953125,
      "learning_rate": 8.319999999999999e-07,
      "loss": 0.1437,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.15430334210395813,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 168
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 159.75,
      "epoch": 0.169,
      "grad_norm": 2.953240156173706,
      "kl": 0.18359375,
      "learning_rate": 8.31e-07,
      "loss": 0.0664,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 169
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 153.4375,
      "epoch": 0.17,
      "grad_norm": 4.36264705657959,
      "kl": 0.18359375,
      "learning_rate": 8.299999999999999e-07,
      "loss": -0.0093,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 170
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 163.1875,
      "epoch": 0.171,
      "grad_norm": 3.9977848529815674,
      "kl": 0.240234375,
      "learning_rate": 8.289999999999999e-07,
      "loss": 0.0138,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.24775780737400055,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 171
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 174.875,
      "epoch": 0.172,
      "grad_norm": 4.679101467132568,
      "kl": 0.189453125,
      "learning_rate": 8.28e-07,
      "loss": 0.1979,
      "reward": 1.4166667461395264,
      "reward_mean": 1.4166667461395264,
      "reward_std": 0.34194856882095337,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 1.0,
      "step": 172
    },
    {
      "advantages": 7.82310962677002e-08,
      "completion_length": 205.75,
      "epoch": 0.173,
      "grad_norm": 5.067877292633057,
      "kl": 0.22265625,
      "learning_rate": 8.269999999999999e-07,
      "loss": -0.1021,
      "reward": 1.3854167461395264,
      "reward_mean": 1.3854167461395264,
      "reward_std": 0.30385708808898926,
      "rewards/accuracy_reward": 0.3854166865348816,
      "rewards/format_reward": 1.0,
      "step": 173
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 155.3125,
      "epoch": 0.174,
      "grad_norm": 6.50193977355957,
      "kl": 0.2412109375,
      "learning_rate": 8.259999999999999e-07,
      "loss": 0.0323,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 174
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 215.9375,
      "epoch": 0.175,
      "grad_norm": 4.612828731536865,
      "kl": 0.18359375,
      "learning_rate": 8.249999999999999e-07,
      "loss": -0.0642,
      "reward": 1.6458333730697632,
      "reward_mean": 1.6458333730697632,
      "reward_std": 0.35351940989494324,
      "rewards/accuracy_reward": 0.6458333730697632,
      "rewards/format_reward": 1.0,
      "step": 175
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 166.5,
      "epoch": 0.176,
      "grad_norm": 5.000982761383057,
      "kl": 0.1982421875,
      "learning_rate": 8.24e-07,
      "loss": 0.0311,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.44403791427612305,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 176
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 122.5625,
      "epoch": 0.177,
      "grad_norm": 4.273613929748535,
      "kl": 0.2578125,
      "learning_rate": 8.229999999999999e-07,
      "loss": 0.0966,
      "reward": 1.53125,
      "reward_mean": 1.53125,
      "reward_std": 0.24775780737400055,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_reward": 1.0,
      "step": 177
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 191.5625,
      "epoch": 0.178,
      "grad_norm": 4.648405075073242,
      "kl": 0.193359375,
      "learning_rate": 8.219999999999999e-07,
      "loss": 0.0292,
      "reward": 1.8645833730697632,
      "reward_mean": 1.8645833730697632,
      "reward_std": 0.1746465265750885,
      "rewards/accuracy_reward": 0.8645833730697632,
      "rewards/format_reward": 1.0,
      "step": 178
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 173.9375,
      "epoch": 0.179,
      "grad_norm": 3.65451717376709,
      "kl": 0.2119140625,
      "learning_rate": 8.21e-07,
      "loss": -0.0106,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 179
    },
    {
      "advantages": 0.0,
      "completion_length": 126.375,
      "epoch": 0.18,
      "grad_norm": 5.720065116882324,
      "kl": 0.73828125,
      "learning_rate": 8.199999999999999e-07,
      "loss": -0.1224,
      "reward": 1.53125,
      "reward_mean": 1.53125,
      "reward_std": 0.35564959049224854,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_reward": 1.0,
      "step": 180
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 149.0,
      "epoch": 0.181,
      "grad_norm": 4.597268581390381,
      "kl": 0.21875,
      "learning_rate": 8.189999999999999e-07,
      "loss": 0.0604,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 181
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 148.6875,
      "epoch": 0.182,
      "grad_norm": 3.944310188293457,
      "kl": 0.232421875,
      "learning_rate": 8.179999999999999e-07,
      "loss": 0.0728,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 182
    },
    {
      "advantages": -1.043081283569336e-07,
      "completion_length": 128.1875,
      "epoch": 0.183,
      "grad_norm": 5.491823673248291,
      "kl": 0.2314453125,
      "learning_rate": 8.169999999999999e-07,
      "loss": -0.0613,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.07715167105197906,
      "rewards/accuracy_reward": 0.7083332538604736,
      "rewards/format_reward": 1.0,
      "step": 183
    },
    {
      "advantages": 0.0,
      "completion_length": 141.625,
      "epoch": 0.184,
      "grad_norm": 0.0,
      "kl": 0.2451171875,
      "learning_rate": 8.159999999999999e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 184
    },
    {
      "advantages": -2.9802322387695312e-08,
      "completion_length": 161.125,
      "epoch": 0.185,
      "grad_norm": 5.50625467300415,
      "kl": 0.2421875,
      "learning_rate": 8.149999999999999e-07,
      "loss": -0.0947,
      "reward": 1.3958333730697632,
      "reward_mean": 1.3958333730697632,
      "reward_std": 0.43129098415374756,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 1.0,
      "step": 185
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 143.0625,
      "epoch": 0.186,
      "grad_norm": 6.193937301635742,
      "kl": 0.271484375,
      "learning_rate": 8.14e-07,
      "loss": -0.0267,
      "reward": 1.84375,
      "reward_mean": 1.84375,
      "reward_std": 0.3061639666557312,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_reward": 1.0,
      "step": 186
    },
    {
      "advantages": 0.0,
      "completion_length": 149.125,
      "epoch": 0.187,
      "grad_norm": 0.0,
      "kl": 0.2490234375,
      "learning_rate": 8.129999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 187
    },
    {
      "advantages": 0.0,
      "completion_length": 111.75,
      "epoch": 0.188,
      "grad_norm": 4.042557716369629,
      "kl": 0.275390625,
      "learning_rate": 8.12e-07,
      "loss": -0.0301,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 188
    },
    {
      "advantages": 3.3527612686157227e-08,
      "completion_length": 129.0,
      "epoch": 0.189,
      "grad_norm": 5.769200325012207,
      "kl": 0.38671875,
      "learning_rate": 8.11e-07,
      "loss": 0.0278,
      "reward": 1.40625,
      "reward_mean": 1.40625,
      "reward_std": 0.5065323710441589,
      "rewards/accuracy_reward": 0.40625,
      "rewards/format_reward": 1.0,
      "step": 189
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 194.125,
      "epoch": 0.19,
      "grad_norm": 4.864434242248535,
      "kl": 0.228515625,
      "learning_rate": 8.1e-07,
      "loss": 0.0537,
      "reward": 1.5208333730697632,
      "reward_mean": 1.5208333730697632,
      "reward_std": 0.38895100355148315,
      "rewards/accuracy_reward": 0.5208333730697632,
      "rewards/format_reward": 1.0,
      "step": 190
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 130.5,
      "epoch": 0.191,
      "grad_norm": 3.6852304935455322,
      "kl": 0.2490234375,
      "learning_rate": 8.09e-07,
      "loss": -0.0524,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 191
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 158.9375,
      "epoch": 0.192,
      "grad_norm": 4.945519924163818,
      "kl": 0.2373046875,
      "learning_rate": 8.08e-07,
      "loss": -0.0072,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.3657589256763458,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 192
    },
    {
      "advantages": 0.0,
      "completion_length": 164.4375,
      "epoch": 0.193,
      "grad_norm": 0.0,
      "kl": 0.25,
      "learning_rate": 8.070000000000001e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 193
    },
    {
      "advantages": 0.0,
      "completion_length": 118.75,
      "epoch": 0.194,
      "grad_norm": 4.313383102416992,
      "kl": 0.2734375,
      "learning_rate": 8.06e-07,
      "loss": 0.0147,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.22160130739212036,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 194
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 156.125,
      "epoch": 0.195,
      "grad_norm": 3.259519577026367,
      "kl": 0.26171875,
      "learning_rate": 8.05e-07,
      "loss": -0.0172,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 195
    },
    {
      "advantages": 0.0,
      "completion_length": 128.1875,
      "epoch": 0.196,
      "grad_norm": 0.0,
      "kl": 0.2216796875,
      "learning_rate": 8.04e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 196
    },
    {
      "advantages": 8.195638656616211e-08,
      "completion_length": 156.0,
      "epoch": 0.197,
      "grad_norm": 5.883679389953613,
      "kl": 0.283203125,
      "learning_rate": 8.03e-07,
      "loss": -0.0908,
      "reward": 1.6041667461395264,
      "reward_mean": 1.6041667461395264,
      "reward_std": 0.2335786670446396,
      "rewards/accuracy_reward": 0.6041667461395264,
      "rewards/format_reward": 1.0,
      "step": 197
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 122.625,
      "epoch": 0.198,
      "grad_norm": 3.723879814147949,
      "kl": 0.3203125,
      "learning_rate": 8.02e-07,
      "loss": -0.0498,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 198
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 135.375,
      "epoch": 0.199,
      "grad_norm": 4.400403022766113,
      "kl": 0.30078125,
      "learning_rate": 8.01e-07,
      "loss": -0.0618,
      "reward": 1.4583333730697632,
      "reward_mean": 1.4583333730697632,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.4583333730697632,
      "rewards/format_reward": 1.0,
      "step": 199
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 176.5625,
      "epoch": 0.2,
      "grad_norm": 5.768075942993164,
      "kl": 0.2578125,
      "learning_rate": 8e-07,
      "loss": -0.0495,
      "reward": 1.59375,
      "reward_mean": 1.59375,
      "reward_std": 0.2041158676147461,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_reward": 1.0,
      "step": 200
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 131.25,
      "epoch": 0.201,
      "grad_norm": 5.473985195159912,
      "kl": 0.259765625,
      "learning_rate": 7.99e-07,
      "loss": 0.0693,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 201
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 141.25,
      "epoch": 0.202,
      "grad_norm": 5.938058853149414,
      "kl": 0.26171875,
      "learning_rate": 7.98e-07,
      "loss": -0.0473,
      "reward": 1.65625,
      "reward_mean": 1.65625,
      "reward_std": 0.44478052854537964,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_reward": 1.0,
      "step": 202
    },
    {
      "advantages": 1.1175870895385742e-08,
      "completion_length": 163.875,
      "epoch": 0.203,
      "grad_norm": 5.90596342086792,
      "kl": 0.263671875,
      "learning_rate": 7.970000000000001e-07,
      "loss": 0.2037,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.4355512857437134,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 203
    },
    {
      "advantages": 1.825392246246338e-07,
      "completion_length": 126.875,
      "epoch": 0.204,
      "grad_norm": 6.201707363128662,
      "kl": 0.259765625,
      "learning_rate": 7.96e-07,
      "loss": -0.0593,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.3478616774082184,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 204
    },
    {
      "advantages": 0.0,
      "completion_length": 137.0,
      "epoch": 0.205,
      "grad_norm": 0.0,
      "kl": 0.2578125,
      "learning_rate": 7.95e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 205
    },
    {
      "advantages": 0.0,
      "completion_length": 130.375,
      "epoch": 0.206,
      "grad_norm": 3.8991453647613525,
      "kl": 0.3203125,
      "learning_rate": 7.94e-07,
      "loss": -0.0435,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 206
    },
    {
      "advantages": -7.450580596923828e-08,
      "completion_length": 141.1875,
      "epoch": 0.207,
      "grad_norm": 5.12335205078125,
      "kl": 0.28515625,
      "learning_rate": 7.93e-07,
      "loss": -0.134,
      "reward": 1.7708333730697632,
      "reward_mean": 1.7708333730697632,
      "reward_std": 0.12400396913290024,
      "rewards/accuracy_reward": 0.7708333730697632,
      "rewards/format_reward": 1.0,
      "step": 207
    },
    {
      "advantages": 0.0,
      "completion_length": 155.9375,
      "epoch": 0.208,
      "grad_norm": 0.0,
      "kl": 0.28125,
      "learning_rate": 7.92e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 208
    },
    {
      "advantages": 3.725290298461914e-08,
      "completion_length": 158.9375,
      "epoch": 0.209,
      "grad_norm": 4.06764030456543,
      "kl": 0.333984375,
      "learning_rate": 7.91e-07,
      "loss": 0.0656,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.10681164264678955,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 209
    },
    {
      "advantages": 0.0,
      "completion_length": 180.9375,
      "epoch": 0.21,
      "grad_norm": 0.0,
      "kl": 0.2451171875,
      "learning_rate": 7.9e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 210
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 152.1875,
      "epoch": 0.211,
      "grad_norm": 3.491947650909424,
      "kl": 0.28515625,
      "learning_rate": 7.89e-07,
      "loss": -0.0244,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.16517186164855957,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 211
    },
    {
      "advantages": 1.2665987014770508e-07,
      "completion_length": 175.125,
      "epoch": 0.212,
      "grad_norm": 5.700802326202393,
      "kl": 0.29296875,
      "learning_rate": 7.88e-07,
      "loss": 0.0936,
      "reward": 1.6041667461395264,
      "reward_mean": 1.6041667461395264,
      "reward_std": 0.32618677616119385,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 1.0,
      "step": 212
    },
    {
      "advantages": 0.0,
      "completion_length": 164.0,
      "epoch": 0.213,
      "grad_norm": 4.179893493652344,
      "kl": 0.25390625,
      "learning_rate": 7.87e-07,
      "loss": -0.0081,
      "reward": 1.96875,
      "reward_mean": 1.96875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.96875,
      "rewards/format_reward": 1.0,
      "step": 213
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 137.125,
      "epoch": 0.214,
      "grad_norm": 4.17854118347168,
      "kl": 0.2470703125,
      "learning_rate": 7.86e-07,
      "loss": 0.0071,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 214
    },
    {
      "advantages": 1.4156103134155273e-07,
      "completion_length": 189.875,
      "epoch": 0.215,
      "grad_norm": 4.708441734313965,
      "kl": 0.30859375,
      "learning_rate": 7.85e-07,
      "loss": -0.0134,
      "reward": 1.4791667461395264,
      "reward_mean": 1.4791667461395264,
      "reward_std": 0.2903805673122406,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 1.0,
      "step": 215
    },
    {
      "advantages": 0.0,
      "completion_length": 132.0,
      "epoch": 0.216,
      "grad_norm": 0.0,
      "kl": 0.30078125,
      "learning_rate": 7.84e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 216
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 145.3125,
      "epoch": 0.217,
      "grad_norm": 3.518888473510742,
      "kl": 0.34765625,
      "learning_rate": 7.83e-07,
      "loss": 0.0506,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 217
    },
    {
      "advantages": -5.587935447692871e-08,
      "completion_length": 165.9375,
      "epoch": 0.218,
      "grad_norm": 5.872474193572998,
      "kl": 0.28125,
      "learning_rate": 7.82e-07,
      "loss": 0.0886,
      "reward": 1.6770833730697632,
      "reward_mean": 1.6770833730697632,
      "reward_std": 0.541657567024231,
      "rewards/accuracy_reward": 0.7395833730697632,
      "rewards/format_reward": 0.9375,
      "step": 218
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 142.6875,
      "epoch": 0.219,
      "grad_norm": 5.611164093017578,
      "kl": 0.298828125,
      "learning_rate": 7.81e-07,
      "loss": -0.0346,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 219
    },
    {
      "advantages": -5.21540641784668e-08,
      "completion_length": 152.9375,
      "epoch": 0.22,
      "grad_norm": 5.375847816467285,
      "kl": 0.287109375,
      "learning_rate": 7.799999999999999e-07,
      "loss": 0.0275,
      "reward": 1.3541667461395264,
      "reward_mean": 1.3541667461395264,
      "reward_std": 0.2335786670446396,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/format_reward": 1.0,
      "step": 220
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 125.8125,
      "epoch": 0.221,
      "grad_norm": 5.226174354553223,
      "kl": 0.328125,
      "learning_rate": 7.79e-07,
      "loss": 0.1148,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.875,
      "step": 221
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 138.4375,
      "epoch": 0.222,
      "grad_norm": 4.286291122436523,
      "kl": 0.3515625,
      "learning_rate": 7.78e-07,
      "loss": 0.0188,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 222
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 133.9375,
      "epoch": 0.223,
      "grad_norm": 5.600376605987549,
      "kl": 0.39453125,
      "learning_rate": 7.77e-07,
      "loss": -0.0054,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.7083333730697632,
      "rewards/format_reward": 1.0,
      "step": 223
    },
    {
      "advantages": 0.0,
      "completion_length": 162.125,
      "epoch": 0.224,
      "grad_norm": 4.409877300262451,
      "kl": 0.34375,
      "learning_rate": 7.76e-07,
      "loss": 0.0028,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 224
    },
    {
      "advantages": 0.0,
      "completion_length": 115.5625,
      "epoch": 0.225,
      "grad_norm": 0.0,
      "kl": 0.291015625,
      "learning_rate": 7.75e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 225
    },
    {
      "advantages": 5.587935447692871e-08,
      "completion_length": 133.25,
      "epoch": 0.226,
      "grad_norm": 6.370109558105469,
      "kl": 0.30859375,
      "learning_rate": 7.74e-07,
      "loss": -0.1677,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.3450327515602112,
      "rewards/accuracy_reward": 0.7500000596046448,
      "rewards/format_reward": 1.0,
      "step": 226
    },
    {
      "advantages": 0.0,
      "completion_length": 101.8125,
      "epoch": 0.227,
      "grad_norm": 0.0,
      "kl": 0.3828125,
      "learning_rate": 7.729999999999999e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 227
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 136.875,
      "epoch": 0.228,
      "grad_norm": 3.316059112548828,
      "kl": 0.44921875,
      "learning_rate": 7.72e-07,
      "loss": 0.0161,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 228
    },
    {
      "advantages": -1.4156103134155273e-07,
      "completion_length": 131.5625,
      "epoch": 0.229,
      "grad_norm": 5.905332088470459,
      "kl": 0.349609375,
      "learning_rate": 7.71e-07,
      "loss": 0.0514,
      "reward": 1.8541667461395264,
      "reward_mean": 1.8541667461395264,
      "reward_std": 0.2903805673122406,
      "rewards/accuracy_reward": 0.8541666865348816,
      "rewards/format_reward": 1.0,
      "step": 229
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 146.5,
      "epoch": 0.23,
      "grad_norm": 4.266251564025879,
      "kl": 0.322265625,
      "learning_rate": 7.699999999999999e-07,
      "loss": 0.0306,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 230
    },
    {
      "advantages": 0.0,
      "completion_length": 127.9375,
      "epoch": 0.231,
      "grad_norm": 0.0,
      "kl": 0.30078125,
      "learning_rate": 7.69e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 231
    },
    {
      "advantages": -5.960464477539063e-08,
      "completion_length": 113.8125,
      "epoch": 0.232,
      "grad_norm": 6.29781436920166,
      "kl": 0.34765625,
      "learning_rate": 7.68e-07,
      "loss": -0.009,
      "reward": 1.7708333730697632,
      "reward_mean": 1.7708333730697632,
      "reward_std": 0.2048145979642868,
      "rewards/accuracy_reward": 0.7708333730697632,
      "rewards/format_reward": 1.0,
      "step": 232
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 112.5625,
      "epoch": 0.233,
      "grad_norm": 4.406736373901367,
      "kl": 0.298828125,
      "learning_rate": 7.67e-07,
      "loss": -0.0023,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 233
    },
    {
      "advantages": 0.0,
      "completion_length": 100.125,
      "epoch": 0.234,
      "grad_norm": 0.0,
      "kl": 0.3359375,
      "learning_rate": 7.66e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 234
    },
    {
      "advantages": -6.705522537231445e-08,
      "completion_length": 120.125,
      "epoch": 0.235,
      "grad_norm": 3.8253743648529053,
      "kl": 0.3359375,
      "learning_rate": 7.65e-07,
      "loss": 0.0283,
      "reward": 1.0416667461395264,
      "reward_mean": 1.0416667461395264,
      "reward_std": 0.1178511530160904,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 1.0,
      "step": 235
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 134.6875,
      "epoch": 0.236,
      "grad_norm": 3.9648969173431396,
      "kl": 0.373046875,
      "learning_rate": 7.64e-07,
      "loss": 0.0765,
      "reward": 1.53125,
      "reward_mean": 1.53125,
      "reward_std": 0.24775780737400055,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_reward": 1.0,
      "step": 236
    },
    {
      "advantages": 0.0,
      "completion_length": 132.0625,
      "epoch": 0.237,
      "grad_norm": 7.067671775817871,
      "kl": 0.36328125,
      "learning_rate": 7.629999999999999e-07,
      "loss": -0.1304,
      "reward": 1.6979167461395264,
      "reward_mean": 1.6979167461395264,
      "reward_std": 0.28634417057037354,
      "rewards/accuracy_reward": 0.6979166865348816,
      "rewards/format_reward": 1.0,
      "step": 237
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 116.75,
      "epoch": 0.238,
      "grad_norm": 5.4808030128479,
      "kl": 0.375,
      "learning_rate": 7.62e-07,
      "loss": 0.0004,
      "reward": 1.7604167461395264,
      "reward_mean": 1.7604167461395264,
      "reward_std": 0.1473138928413391,
      "rewards/accuracy_reward": 0.7604166865348816,
      "rewards/format_reward": 1.0,
      "step": 238
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 110.3125,
      "epoch": 0.239,
      "grad_norm": 4.075715065002441,
      "kl": 0.31640625,
      "learning_rate": 7.61e-07,
      "loss": 0.0067,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 0.9375,
      "step": 239
    },
    {
      "advantages": 0.0,
      "completion_length": 103.3125,
      "epoch": 0.24,
      "grad_norm": 0.0,
      "kl": 0.396484375,
      "learning_rate": 7.599999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 240
    },
    {
      "advantages": 1.6391277313232422e-07,
      "completion_length": 109.4375,
      "epoch": 0.241,
      "grad_norm": 5.156554222106934,
      "kl": 0.421875,
      "learning_rate": 7.59e-07,
      "loss": -0.0393,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.08908708393573761,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 241
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 119.125,
      "epoch": 0.242,
      "grad_norm": 4.303339004516602,
      "kl": 0.3984375,
      "learning_rate": 7.58e-07,
      "loss": 0.1162,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 242
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 111.1875,
      "epoch": 0.243,
      "grad_norm": 4.342909336090088,
      "kl": 0.439453125,
      "learning_rate": 7.57e-07,
      "loss": 0.0012,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 243
    },
    {
      "advantages": 4.470348358154297e-08,
      "completion_length": 118.4375,
      "epoch": 0.244,
      "grad_norm": 7.558548450469971,
      "kl": 0.37890625,
      "learning_rate": 7.559999999999999e-07,
      "loss": -0.1255,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.4149954617023468,
      "rewards/accuracy_reward": 0.3750000298023224,
      "rewards/format_reward": 1.0,
      "step": 244
    },
    {
      "advantages": 0.0,
      "completion_length": 106.875,
      "epoch": 0.245,
      "grad_norm": 4.70227575302124,
      "kl": 0.36328125,
      "learning_rate": 7.55e-07,
      "loss": 0.0574,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.22903135418891907,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 245
    },
    {
      "advantages": 0.0,
      "completion_length": 129.9375,
      "epoch": 0.246,
      "grad_norm": 0.0,
      "kl": 0.37109375,
      "learning_rate": 7.54e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 246
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 118.5625,
      "epoch": 0.247,
      "grad_norm": 4.569678783416748,
      "kl": 0.421875,
      "learning_rate": 7.529999999999999e-07,
      "loss": -0.0377,
      "reward": 1.84375,
      "reward_mean": 1.84375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_reward": 1.0,
      "step": 247
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 126.25,
      "epoch": 0.248,
      "grad_norm": 4.764584064483643,
      "kl": 0.33203125,
      "learning_rate": 7.52e-07,
      "loss": 0.0018,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 1.0,
      "step": 248
    },
    {
      "advantages": 0.0,
      "completion_length": 125.3125,
      "epoch": 0.249,
      "grad_norm": 5.263643264770508,
      "kl": 0.384765625,
      "learning_rate": 7.51e-07,
      "loss": 0.0607,
      "reward": 1.96875,
      "reward_mean": 1.96875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.96875,
      "rewards/format_reward": 1.0,
      "step": 249
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 120.75,
      "epoch": 0.25,
      "grad_norm": 4.139052867889404,
      "kl": 0.38671875,
      "learning_rate": 7.5e-07,
      "loss": 0.0403,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 250
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 113.0625,
      "epoch": 0.251,
      "grad_norm": 4.267086029052734,
      "kl": 0.40234375,
      "learning_rate": 7.489999999999999e-07,
      "loss": -0.0034,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 251
    },
    {
      "advantages": 0.0,
      "completion_length": 110.9375,
      "epoch": 0.252,
      "grad_norm": 0.0,
      "kl": 0.44140625,
      "learning_rate": 7.48e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 252
    },
    {
      "advantages": 1.2665987014770508e-07,
      "completion_length": 125.0,
      "epoch": 0.253,
      "grad_norm": 4.108771324157715,
      "kl": 0.375,
      "learning_rate": 7.47e-07,
      "loss": 0.0269,
      "reward": 1.8541667461395264,
      "reward_mean": 1.8541667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.8541667461395264,
      "rewards/format_reward": 1.0,
      "step": 253
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 109.4375,
      "epoch": 0.254,
      "grad_norm": 6.75657320022583,
      "kl": 0.53125,
      "learning_rate": 7.459999999999999e-07,
      "loss": -0.0183,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.49022960662841797,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 254
    },
    {
      "advantages": 1.043081283569336e-07,
      "completion_length": 125.5625,
      "epoch": 0.255,
      "grad_norm": 6.262571334838867,
      "kl": 0.443359375,
      "learning_rate": 7.45e-07,
      "loss": 0.1093,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.13908715546131134,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 255
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 114.25,
      "epoch": 0.256,
      "grad_norm": 4.935299396514893,
      "kl": 0.5078125,
      "learning_rate": 7.44e-07,
      "loss": -0.0599,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 256
    },
    {
      "advantages": 0.0,
      "completion_length": 141.25,
      "epoch": 0.257,
      "grad_norm": 5.354793548583984,
      "kl": 0.419921875,
      "learning_rate": 7.429999999999999e-07,
      "loss": 0.0394,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.22201895713806152,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 257
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 95.3125,
      "epoch": 0.258,
      "grad_norm": 4.425192832946777,
      "kl": 0.40234375,
      "learning_rate": 7.42e-07,
      "loss": 0.0065,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 258
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 114.4375,
      "epoch": 0.259,
      "grad_norm": 6.3800835609436035,
      "kl": 0.41015625,
      "learning_rate": 7.41e-07,
      "loss": -0.017,
      "reward": 1.8645833730697632,
      "reward_mean": 1.8645833730697632,
      "reward_std": 0.1746465265750885,
      "rewards/accuracy_reward": 0.8645833730697632,
      "rewards/format_reward": 1.0,
      "step": 259
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 132.375,
      "epoch": 0.26,
      "grad_norm": 4.138468265533447,
      "kl": 0.41015625,
      "learning_rate": 7.4e-07,
      "loss": 0.0899,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 260
    },
    {
      "advantages": 7.450580596923828e-08,
      "completion_length": 127.375,
      "epoch": 0.261,
      "grad_norm": 5.36328649520874,
      "kl": 0.490234375,
      "learning_rate": 7.389999999999999e-07,
      "loss": -0.1071,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.2136232852935791,
      "rewards/accuracy_reward": 0.7083333730697632,
      "rewards/format_reward": 1.0,
      "step": 261
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 119.875,
      "epoch": 0.262,
      "grad_norm": 4.338840007781982,
      "kl": 0.451171875,
      "learning_rate": 7.38e-07,
      "loss": -0.0061,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.9375,
      "step": 262
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 126.5625,
      "epoch": 0.263,
      "grad_norm": 4.404613971710205,
      "kl": 0.5078125,
      "learning_rate": 7.37e-07,
      "loss": -0.0745,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 263
    },
    {
      "advantages": 0.0,
      "completion_length": 117.5625,
      "epoch": 0.264,
      "grad_norm": 0.0,
      "kl": 0.37109375,
      "learning_rate": 7.359999999999999e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 264
    },
    {
      "advantages": 0.0,
      "completion_length": 123.875,
      "epoch": 0.265,
      "grad_norm": 0.0,
      "kl": 0.404296875,
      "learning_rate": 7.35e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 265
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 117.4375,
      "epoch": 0.266,
      "grad_norm": 5.04351282119751,
      "kl": 0.4375,
      "learning_rate": 7.34e-07,
      "loss": 0.0671,
      "reward": 1.40625,
      "reward_mean": 1.40625,
      "reward_std": 0.18600594997406006,
      "rewards/accuracy_reward": 0.40625,
      "rewards/format_reward": 1.0,
      "step": 266
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 98.3125,
      "epoch": 0.267,
      "grad_norm": 4.765639305114746,
      "kl": 0.421875,
      "learning_rate": 7.329999999999999e-07,
      "loss": 0.0228,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 267
    },
    {
      "advantages": 0.0,
      "completion_length": 132.8125,
      "epoch": 0.268,
      "grad_norm": 0.0,
      "kl": 0.4296875,
      "learning_rate": 7.319999999999999e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 268
    },
    {
      "advantages": -1.9371509552001953e-07,
      "completion_length": 118.875,
      "epoch": 0.269,
      "grad_norm": 4.1043314933776855,
      "kl": 0.392578125,
      "learning_rate": 7.31e-07,
      "loss": -0.0282,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.07715165615081787,
      "rewards/accuracy_reward": 0.7083333730697632,
      "rewards/format_reward": 1.0,
      "step": 269
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 137.8125,
      "epoch": 0.27,
      "grad_norm": 4.980680465698242,
      "kl": 0.41015625,
      "learning_rate": 7.3e-07,
      "loss": 0.0036,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 270
    },
    {
      "advantages": 0.0,
      "completion_length": 134.1875,
      "epoch": 0.271,
      "grad_norm": 0.0,
      "kl": 0.421875,
      "learning_rate": 7.289999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 271
    },
    {
      "advantages": 0.0,
      "completion_length": 93.8125,
      "epoch": 0.272,
      "grad_norm": 5.348329544067383,
      "kl": 0.46484375,
      "learning_rate": 7.28e-07,
      "loss": 0.0097,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 272
    },
    {
      "advantages": 3.203749656677246e-07,
      "completion_length": 134.125,
      "epoch": 0.273,
      "grad_norm": 3.749969244003296,
      "kl": 0.4375,
      "learning_rate": 7.27e-07,
      "loss": -0.062,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.058925580233335495,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 273
    },
    {
      "advantages": 0.0,
      "completion_length": 116.875,
      "epoch": 0.274,
      "grad_norm": 4.896990776062012,
      "kl": 0.455078125,
      "learning_rate": 7.259999999999999e-07,
      "loss": 0.0062,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.9375,
      "step": 274
    },
    {
      "advantages": 0.0,
      "completion_length": 98.25,
      "epoch": 0.275,
      "grad_norm": 5.642269611358643,
      "kl": 0.5,
      "learning_rate": 7.249999999999999e-07,
      "loss": -0.0376,
      "reward": 1.28125,
      "reward_mean": 1.28125,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.28125,
      "rewards/format_reward": 1.0,
      "step": 275
    },
    {
      "advantages": 0.0,
      "completion_length": 140.1875,
      "epoch": 0.276,
      "grad_norm": 3.443995714187622,
      "kl": 0.392578125,
      "learning_rate": 7.24e-07,
      "loss": -0.0466,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 276
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 96.4375,
      "epoch": 0.277,
      "grad_norm": 7.930581092834473,
      "kl": 0.38671875,
      "learning_rate": 7.229999999999999e-07,
      "loss": -0.138,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.4355512857437134,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 277
    },
    {
      "advantages": 0.0,
      "completion_length": 125.25,
      "epoch": 0.278,
      "grad_norm": 0.0,
      "kl": 0.3984375,
      "learning_rate": 7.219999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 278
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 108.0625,
      "epoch": 0.279,
      "grad_norm": 6.782789707183838,
      "kl": 0.375,
      "learning_rate": 7.21e-07,
      "loss": 0.0696,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 279
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 106.5,
      "epoch": 0.28,
      "grad_norm": 4.9994611740112305,
      "kl": 0.443359375,
      "learning_rate": 7.2e-07,
      "loss": -0.0264,
      "reward": 1.59375,
      "reward_mean": 1.59375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_reward": 1.0,
      "step": 280
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 143.5625,
      "epoch": 0.281,
      "grad_norm": 6.117532253265381,
      "kl": 0.640625,
      "learning_rate": 7.189999999999999e-07,
      "loss": 0.0769,
      "reward": 1.9479167461395264,
      "reward_mean": 1.9479167461395264,
      "reward_std": 0.1473138928413391,
      "rewards/accuracy_reward": 0.9479166865348816,
      "rewards/format_reward": 1.0,
      "step": 281
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 157.4375,
      "epoch": 0.282,
      "grad_norm": 3.375563859939575,
      "kl": 0.39453125,
      "learning_rate": 7.179999999999999e-07,
      "loss": -0.0054,
      "reward": 1.7083333730697632,
      "reward_mean": 1.7083333730697632,
      "reward_std": 0.1178511381149292,
      "rewards/accuracy_reward": 0.7083333134651184,
      "rewards/format_reward": 1.0,
      "step": 282
    },
    {
      "advantages": 0.0,
      "completion_length": 121.9375,
      "epoch": 0.283,
      "grad_norm": 0.0,
      "kl": 0.41015625,
      "learning_rate": 7.17e-07,
      "loss": 0.0,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 283
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 100.875,
      "epoch": 0.284,
      "grad_norm": 6.159756183624268,
      "kl": 0.41015625,
      "learning_rate": 7.159999999999999e-07,
      "loss": 0.0617,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.3104073107242584,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 284
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 111.3125,
      "epoch": 0.285,
      "grad_norm": 5.778822898864746,
      "kl": 0.412109375,
      "learning_rate": 7.149999999999999e-07,
      "loss": -0.0822,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 285
    },
    {
      "advantages": 0.0,
      "completion_length": 110.1875,
      "epoch": 0.286,
      "grad_norm": 0.0,
      "kl": 0.40234375,
      "learning_rate": 7.14e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 286
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 121.25,
      "epoch": 0.287,
      "grad_norm": 4.658452987670898,
      "kl": 0.42578125,
      "learning_rate": 7.129999999999999e-07,
      "loss": -0.01,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 287
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 151.0,
      "epoch": 0.288,
      "grad_norm": 3.2589261531829834,
      "kl": 0.45703125,
      "learning_rate": 7.119999999999999e-07,
      "loss": -0.0573,
      "reward": 1.4791667461395264,
      "reward_mean": 1.4791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 1.0,
      "step": 288
    },
    {
      "advantages": -3.725290298461914e-08,
      "completion_length": 112.9375,
      "epoch": 0.289,
      "grad_norm": 4.990071773529053,
      "kl": 0.400390625,
      "learning_rate": 7.11e-07,
      "loss": -0.0088,
      "reward": 1.9166667461395264,
      "reward_mean": 1.9166667461395264,
      "reward_std": 0.12598814070224762,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 289
    },
    {
      "advantages": 0.0,
      "completion_length": 123.6875,
      "epoch": 0.29,
      "grad_norm": 4.007847309112549,
      "kl": 0.4375,
      "learning_rate": 7.1e-07,
      "loss": 0.0285,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.1602174937725067,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 290
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 108.4375,
      "epoch": 0.291,
      "grad_norm": 4.9294867515563965,
      "kl": 0.443359375,
      "learning_rate": 7.089999999999999e-07,
      "loss": -0.0249,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 291
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 135.375,
      "epoch": 0.292,
      "grad_norm": 4.507473945617676,
      "kl": 0.3984375,
      "learning_rate": 7.079999999999999e-07,
      "loss": 0.0089,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 292
    },
    {
      "advantages": 0.0,
      "completion_length": 122.25,
      "epoch": 0.293,
      "grad_norm": 0.0,
      "kl": 0.41796875,
      "learning_rate": 7.07e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 293
    },
    {
      "advantages": 0.0,
      "completion_length": 135.625,
      "epoch": 0.294,
      "grad_norm": 5.223430633544922,
      "kl": 0.466796875,
      "learning_rate": 7.059999999999999e-07,
      "loss": 0.0928,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 294
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 105.6875,
      "epoch": 0.295,
      "grad_norm": 5.42147970199585,
      "kl": 0.44140625,
      "learning_rate": 7.049999999999999e-07,
      "loss": 0.0288,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 295
    },
    {
      "advantages": 0.0,
      "completion_length": 126.6875,
      "epoch": 0.296,
      "grad_norm": 3.41044545173645,
      "kl": 0.51953125,
      "learning_rate": 7.04e-07,
      "loss": -0.0624,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 296
    },
    {
      "advantages": 0.0,
      "completion_length": 126.1875,
      "epoch": 0.297,
      "grad_norm": 0.0,
      "kl": 0.42578125,
      "learning_rate": 7.029999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 297
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 107.6875,
      "epoch": 0.298,
      "grad_norm": 4.168430328369141,
      "kl": 0.390625,
      "learning_rate": 7.019999999999999e-07,
      "loss": 0.0322,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 298
    },
    {
      "advantages": 0.0,
      "completion_length": 135.125,
      "epoch": 0.299,
      "grad_norm": 0.0,
      "kl": 0.4375,
      "learning_rate": 7.009999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 299
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 123.4375,
      "epoch": 0.3,
      "grad_norm": 7.8173346519470215,
      "kl": 0.45703125,
      "learning_rate": 7e-07,
      "loss": 0.2183,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 300
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 112.4375,
      "epoch": 0.301,
      "grad_norm": 4.600705623626709,
      "kl": 0.46484375,
      "learning_rate": 6.989999999999999e-07,
      "loss": 0.0528,
      "reward": 1.6458333730697632,
      "reward_mean": 1.6458333730697632,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.6458333730697632,
      "rewards/format_reward": 1.0,
      "step": 301
    },
    {
      "advantages": 7.078051567077637e-08,
      "completion_length": 119.1875,
      "epoch": 0.302,
      "grad_norm": 4.796161651611328,
      "kl": 0.53515625,
      "learning_rate": 6.979999999999999e-07,
      "loss": 0.057,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.0862581804394722,
      "rewards/accuracy_reward": 0.9375000596046448,
      "rewards/format_reward": 1.0,
      "step": 302
    },
    {
      "advantages": 0.0,
      "completion_length": 116.0,
      "epoch": 0.303,
      "grad_norm": 4.70276403427124,
      "kl": 0.515625,
      "learning_rate": 6.97e-07,
      "loss": -0.0333,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 303
    },
    {
      "advantages": 0.0,
      "completion_length": 123.875,
      "epoch": 0.304,
      "grad_norm": 4.684284687042236,
      "kl": 0.43359375,
      "learning_rate": 6.959999999999999e-07,
      "loss": -0.0197,
      "reward": 1.96875,
      "reward_mean": 1.96875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.96875,
      "rewards/format_reward": 1.0,
      "step": 304
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 104.625,
      "epoch": 0.305,
      "grad_norm": 4.7765889167785645,
      "kl": 0.5078125,
      "learning_rate": 6.949999999999999e-07,
      "loss": -0.0436,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 305
    },
    {
      "advantages": 0.0,
      "completion_length": 112.125,
      "epoch": 0.306,
      "grad_norm": 0.0,
      "kl": 0.419921875,
      "learning_rate": 6.939999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 306
    },
    {
      "advantages": 0.0,
      "completion_length": 111.5,
      "epoch": 0.307,
      "grad_norm": 8.246498107910156,
      "kl": 0.4765625,
      "learning_rate": 6.929999999999999e-07,
      "loss": 0.1117,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 307
    },
    {
      "advantages": 0.0,
      "completion_length": 116.6875,
      "epoch": 0.308,
      "grad_norm": 0.0,
      "kl": 0.39453125,
      "learning_rate": 6.919999999999999e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 308
    },
    {
      "advantages": -2.60770320892334e-08,
      "completion_length": 105.5,
      "epoch": 0.309,
      "grad_norm": 8.390800476074219,
      "kl": 0.470703125,
      "learning_rate": 6.909999999999999e-07,
      "loss": -0.0529,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.4355512857437134,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.9375,
      "step": 309
    },
    {
      "advantages": 0.0,
      "completion_length": 108.0,
      "epoch": 0.31,
      "grad_norm": 0.0,
      "kl": 0.482421875,
      "learning_rate": 6.9e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 310
    },
    {
      "advantages": 0.0,
      "completion_length": 112.5625,
      "epoch": 0.311,
      "grad_norm": 0.0,
      "kl": 0.51953125,
      "learning_rate": 6.889999999999999e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 311
    },
    {
      "advantages": 0.0,
      "completion_length": 105.8125,
      "epoch": 0.312,
      "grad_norm": 0.0,
      "kl": 0.41796875,
      "learning_rate": 6.879999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 312
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 95.5625,
      "epoch": 0.313,
      "grad_norm": 5.6205830574035645,
      "kl": 0.5390625,
      "learning_rate": 6.87e-07,
      "loss": -0.0113,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 0.9375,
      "step": 313
    },
    {
      "advantages": 0.0,
      "completion_length": 111.5,
      "epoch": 0.314,
      "grad_norm": 0.0,
      "kl": 0.416015625,
      "learning_rate": 6.86e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 314
    },
    {
      "advantages": 0.0,
      "completion_length": 123.125,
      "epoch": 0.315,
      "grad_norm": 0.0,
      "kl": 0.46875,
      "learning_rate": 6.85e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 315
    },
    {
      "advantages": 0.0,
      "completion_length": 113.3125,
      "epoch": 0.316,
      "grad_norm": 0.0,
      "kl": 0.419921875,
      "learning_rate": 6.84e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 316
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 116.9375,
      "epoch": 0.317,
      "grad_norm": 5.153122901916504,
      "kl": 0.453125,
      "learning_rate": 6.830000000000001e-07,
      "loss": 0.0341,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 317
    },
    {
      "advantages": 0.0,
      "completion_length": 144.5625,
      "epoch": 0.318,
      "grad_norm": 0.0,
      "kl": 0.4375,
      "learning_rate": 6.82e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 318
    },
    {
      "advantages": 0.0,
      "completion_length": 102.3125,
      "epoch": 0.319,
      "grad_norm": 0.0,
      "kl": 0.5234375,
      "learning_rate": 6.81e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 319
    },
    {
      "advantages": 0.0,
      "completion_length": 109.75,
      "epoch": 0.32,
      "grad_norm": 0.0,
      "kl": 0.5078125,
      "learning_rate": 6.800000000000001e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 320
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 104.5625,
      "epoch": 0.321,
      "grad_norm": 4.661564826965332,
      "kl": 0.53125,
      "learning_rate": 6.79e-07,
      "loss": -0.0622,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 321
    },
    {
      "advantages": 0.0,
      "completion_length": 121.375,
      "epoch": 0.322,
      "grad_norm": 5.486865043640137,
      "kl": 0.49609375,
      "learning_rate": 6.78e-07,
      "loss": 0.0983,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 322
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 128.4375,
      "epoch": 0.323,
      "grad_norm": 3.9005072116851807,
      "kl": 0.4453125,
      "learning_rate": 6.77e-07,
      "loss": -0.041,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 323
    },
    {
      "advantages": 0.0,
      "completion_length": 115.8125,
      "epoch": 0.324,
      "grad_norm": 0.0,
      "kl": 0.44140625,
      "learning_rate": 6.76e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 324
    },
    {
      "advantages": 1.1175870895385742e-08,
      "completion_length": 125.4375,
      "epoch": 0.325,
      "grad_norm": 5.992334842681885,
      "kl": 0.40625,
      "learning_rate": 6.75e-07,
      "loss": 0.0715,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.447756826877594,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 325
    },
    {
      "advantages": 0.0,
      "completion_length": 117.0,
      "epoch": 0.326,
      "grad_norm": 0.0,
      "kl": 0.482421875,
      "learning_rate": 6.74e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 326
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 121.6875,
      "epoch": 0.327,
      "grad_norm": 5.490609169006348,
      "kl": 0.5078125,
      "learning_rate": 6.730000000000001e-07,
      "loss": -0.0609,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 327
    },
    {
      "advantages": 0.0,
      "completion_length": 125.5,
      "epoch": 0.328,
      "grad_norm": 4.8279337882995605,
      "kl": 0.41796875,
      "learning_rate": 6.72e-07,
      "loss": -0.0221,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 328
    },
    {
      "advantages": 0.0,
      "completion_length": 115.3125,
      "epoch": 0.329,
      "grad_norm": 0.0,
      "kl": 1.2578125,
      "learning_rate": 6.71e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 329
    },
    {
      "advantages": 0.0,
      "completion_length": 124.5,
      "epoch": 0.33,
      "grad_norm": 0.0,
      "kl": 0.49609375,
      "learning_rate": 6.7e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 330
    },
    {
      "advantages": 0.0,
      "completion_length": 117.375,
      "epoch": 0.331,
      "grad_norm": 0.0,
      "kl": 0.4453125,
      "learning_rate": 6.69e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 331
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 113.0,
      "epoch": 0.332,
      "grad_norm": 6.589673042297363,
      "kl": 0.390625,
      "learning_rate": 6.68e-07,
      "loss": 0.0033,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 0.9375,
      "step": 332
    },
    {
      "advantages": 0.0,
      "completion_length": 116.5,
      "epoch": 0.333,
      "grad_norm": 0.0,
      "kl": 0.48828125,
      "learning_rate": 6.67e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 333
    },
    {
      "advantages": -7.450580596923828e-08,
      "completion_length": 125.5625,
      "epoch": 0.334,
      "grad_norm": 4.017887592315674,
      "kl": 0.625,
      "learning_rate": 6.66e-07,
      "loss": -0.0525,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 334
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 118.5,
      "epoch": 0.335,
      "grad_norm": 5.249420166015625,
      "kl": 0.453125,
      "learning_rate": 6.65e-07,
      "loss": 0.0686,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 335
    },
    {
      "advantages": 0.0,
      "completion_length": 111.25,
      "epoch": 0.336,
      "grad_norm": 0.0,
      "kl": 0.44921875,
      "learning_rate": 6.64e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 336
    },
    {
      "advantages": 0.0,
      "completion_length": 121.125,
      "epoch": 0.337,
      "grad_norm": 0.0,
      "kl": 0.4609375,
      "learning_rate": 6.63e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 337
    },
    {
      "advantages": 0.0,
      "completion_length": 116.375,
      "epoch": 0.338,
      "grad_norm": 0.0,
      "kl": 0.466796875,
      "learning_rate": 6.62e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 338
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 110.5,
      "epoch": 0.339,
      "grad_norm": 4.943254470825195,
      "kl": 0.48828125,
      "learning_rate": 6.61e-07,
      "loss": 0.0704,
      "reward": 1.15625,
      "reward_mean": 1.15625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.15625,
      "rewards/format_reward": 1.0,
      "step": 339
    },
    {
      "advantages": 0.0,
      "completion_length": 114.625,
      "epoch": 0.34,
      "grad_norm": 4.797520637512207,
      "kl": 0.4921875,
      "learning_rate": 6.6e-07,
      "loss": 0.0547,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 340
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 123.1875,
      "epoch": 0.341,
      "grad_norm": 5.215485095977783,
      "kl": 0.447265625,
      "learning_rate": 6.59e-07,
      "loss": 0.0024,
      "reward": 1.6770833730697632,
      "reward_mean": 1.6770833730697632,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.6770833730697632,
      "rewards/format_reward": 1.0,
      "step": 341
    },
    {
      "advantages": 0.0,
      "completion_length": 132.0625,
      "epoch": 0.342,
      "grad_norm": 0.0,
      "kl": 0.48828125,
      "learning_rate": 6.58e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 342
    },
    {
      "advantages": 0.0,
      "completion_length": 100.0,
      "epoch": 0.343,
      "grad_norm": 0.0,
      "kl": 0.43359375,
      "learning_rate": 6.57e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 343
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 124.125,
      "epoch": 0.344,
      "grad_norm": 5.066404819488525,
      "kl": 0.46484375,
      "learning_rate": 6.56e-07,
      "loss": 0.0417,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 344
    },
    {
      "advantages": 0.0,
      "completion_length": 111.9375,
      "epoch": 0.345,
      "grad_norm": 0.0,
      "kl": 0.5390625,
      "learning_rate": 6.55e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 345
    },
    {
      "advantages": 0.0,
      "completion_length": 125.25,
      "epoch": 0.346,
      "grad_norm": 5.6763505935668945,
      "kl": 0.4765625,
      "learning_rate": 6.54e-07,
      "loss": 0.0047,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 346
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 108.8125,
      "epoch": 0.347,
      "grad_norm": 5.239328384399414,
      "kl": 0.71484375,
      "learning_rate": 6.53e-07,
      "loss": 0.0418,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 347
    },
    {
      "advantages": 0.0,
      "completion_length": 113.0,
      "epoch": 0.348,
      "grad_norm": 0.0,
      "kl": 0.4609375,
      "learning_rate": 6.52e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 348
    },
    {
      "advantages": 0.0,
      "completion_length": 116.125,
      "epoch": 0.349,
      "grad_norm": 0.0,
      "kl": 0.4765625,
      "learning_rate": 6.51e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 349
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 105.3125,
      "epoch": 0.35,
      "grad_norm": 7.965950012207031,
      "kl": 0.447265625,
      "learning_rate": 6.5e-07,
      "loss": -0.0053,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.6307864785194397,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 0.9375,
      "step": 350
    },
    {
      "advantages": 0.0,
      "completion_length": 135.9375,
      "epoch": 0.351,
      "grad_norm": 0.0,
      "kl": 0.625,
      "learning_rate": 6.49e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 351
    },
    {
      "advantages": 1.9371509552001953e-07,
      "completion_length": 142.0,
      "epoch": 0.352,
      "grad_norm": 3.862729787826538,
      "kl": 0.453125,
      "learning_rate": 6.48e-07,
      "loss": -0.0357,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.07715165615081787,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 352
    },
    {
      "advantages": 0.0,
      "completion_length": 109.625,
      "epoch": 0.353,
      "grad_norm": 0.0,
      "kl": 0.57421875,
      "learning_rate": 6.47e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 353
    },
    {
      "advantages": 0.0,
      "completion_length": 106.125,
      "epoch": 0.354,
      "grad_norm": 0.0,
      "kl": 0.5078125,
      "learning_rate": 6.46e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 354
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 113.3125,
      "epoch": 0.355,
      "grad_norm": 5.779082775115967,
      "kl": 0.52734375,
      "learning_rate": 6.45e-07,
      "loss": -0.0804,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 1.0,
      "step": 355
    },
    {
      "advantages": 0.0,
      "completion_length": 112.4375,
      "epoch": 0.356,
      "grad_norm": 0.0,
      "kl": 0.42578125,
      "learning_rate": 6.44e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 356
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 117.6875,
      "epoch": 0.357,
      "grad_norm": 6.260042190551758,
      "kl": 0.458984375,
      "learning_rate": 6.43e-07,
      "loss": -0.081,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 357
    },
    {
      "advantages": 0.0,
      "completion_length": 133.5625,
      "epoch": 0.358,
      "grad_norm": 0.0,
      "kl": 0.46875,
      "learning_rate": 6.42e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 358
    },
    {
      "advantages": 0.0,
      "completion_length": 123.0625,
      "epoch": 0.359,
      "grad_norm": 0.0,
      "kl": 1.40625,
      "learning_rate": 6.41e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 359
    },
    {
      "advantages": 0.0,
      "completion_length": 115.9375,
      "epoch": 0.36,
      "grad_norm": 0.0,
      "kl": 0.4453125,
      "learning_rate": 6.4e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 360
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 125.375,
      "epoch": 0.361,
      "grad_norm": 4.933547019958496,
      "kl": 0.48828125,
      "learning_rate": 6.389999999999999e-07,
      "loss": -0.1138,
      "reward": 1.8958333730697632,
      "reward_mean": 1.8958333730697632,
      "reward_std": 0.0862581804394722,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/format_reward": 1.0,
      "step": 361
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 131.9375,
      "epoch": 0.362,
      "grad_norm": 5.297484874725342,
      "kl": 0.458984375,
      "learning_rate": 6.38e-07,
      "loss": -0.0348,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 362
    },
    {
      "advantages": 6.705522537231445e-08,
      "completion_length": 124.125,
      "epoch": 0.363,
      "grad_norm": 6.302598476409912,
      "kl": 0.4140625,
      "learning_rate": 6.37e-07,
      "loss": -0.0008,
      "reward": 1.7604167461395264,
      "reward_mean": 1.7604167461395264,
      "reward_std": 0.2062394917011261,
      "rewards/accuracy_reward": 0.7604167461395264,
      "rewards/format_reward": 1.0,
      "step": 363
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 135.25,
      "epoch": 0.364,
      "grad_norm": 3.608915328979492,
      "kl": 0.390625,
      "learning_rate": 6.36e-07,
      "loss": -0.0212,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 364
    },
    {
      "advantages": -6.705522537231445e-08,
      "completion_length": 140.625,
      "epoch": 0.365,
      "grad_norm": 5.799376964569092,
      "kl": 0.4296875,
      "learning_rate": 6.35e-07,
      "loss": 0.0235,
      "reward": 1.4583333730697632,
      "reward_mean": 1.4583333730697632,
      "reward_std": 0.2630348801612854,
      "rewards/accuracy_reward": 0.4583333730697632,
      "rewards/format_reward": 1.0,
      "step": 365
    },
    {
      "advantages": 0.0,
      "completion_length": 129.8125,
      "epoch": 0.366,
      "grad_norm": 0.0,
      "kl": 0.4453125,
      "learning_rate": 6.34e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 366
    },
    {
      "advantages": 0.0,
      "completion_length": 137.6875,
      "epoch": 0.367,
      "grad_norm": 4.999783039093018,
      "kl": 0.44140625,
      "learning_rate": 6.33e-07,
      "loss": 0.0351,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 367
    },
    {
      "advantages": 0.0,
      "completion_length": 125.875,
      "epoch": 0.368,
      "grad_norm": 0.0,
      "kl": 0.3671875,
      "learning_rate": 6.319999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 368
    },
    {
      "advantages": 0.0,
      "completion_length": 134.875,
      "epoch": 0.369,
      "grad_norm": 0.0,
      "kl": 0.43359375,
      "learning_rate": 6.31e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 369
    },
    {
      "advantages": 0.0,
      "completion_length": 136.8125,
      "epoch": 0.37,
      "grad_norm": 0.0,
      "kl": 0.427734375,
      "learning_rate": 6.3e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 370
    },
    {
      "advantages": -8.195638656616211e-08,
      "completion_length": 142.375,
      "epoch": 0.371,
      "grad_norm": 6.962843418121338,
      "kl": 0.40625,
      "learning_rate": 6.289999999999999e-07,
      "loss": -0.0594,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.2630348801612854,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 371
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 136.625,
      "epoch": 0.372,
      "grad_norm": 6.798043251037598,
      "kl": 0.447265625,
      "learning_rate": 6.28e-07,
      "loss": -0.0675,
      "reward": 1.46875,
      "reward_mean": 1.46875,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_reward": 1.0,
      "step": 372
    },
    {
      "advantages": 0.0,
      "completion_length": 130.625,
      "epoch": 0.373,
      "grad_norm": 5.091549396514893,
      "kl": 0.447265625,
      "learning_rate": 6.27e-07,
      "loss": 0.0482,
      "reward": 1.96875,
      "reward_mean": 1.96875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.96875,
      "rewards/format_reward": 1.0,
      "step": 373
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 131.5625,
      "epoch": 0.374,
      "grad_norm": 5.158649444580078,
      "kl": 0.4453125,
      "learning_rate": 6.26e-07,
      "loss": 0.0248,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 374
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 150.875,
      "epoch": 0.375,
      "grad_norm": 4.258111953735352,
      "kl": 0.392578125,
      "learning_rate": 6.249999999999999e-07,
      "loss": -0.0959,
      "reward": 1.34375,
      "reward_mean": 1.34375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_reward": 1.0,
      "step": 375
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 128.4375,
      "epoch": 0.376,
      "grad_norm": 4.292641639709473,
      "kl": 0.40625,
      "learning_rate": 6.24e-07,
      "loss": 0.0573,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_reward": 1.0,
      "step": 376
    },
    {
      "advantages": 0.0,
      "completion_length": 129.8125,
      "epoch": 0.377,
      "grad_norm": 0.0,
      "kl": 0.41796875,
      "learning_rate": 6.23e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 377
    },
    {
      "advantages": 0.0,
      "completion_length": 161.0,
      "epoch": 0.378,
      "grad_norm": 0.0,
      "kl": 0.390625,
      "learning_rate": 6.219999999999999e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 378
    },
    {
      "advantages": 0.0,
      "completion_length": 148.5625,
      "epoch": 0.379,
      "grad_norm": 4.622002124786377,
      "kl": 0.42578125,
      "learning_rate": 6.21e-07,
      "loss": 0.0414,
      "reward": 1.9166667461395264,
      "reward_mean": 1.9166667461395264,
      "reward_std": 0.08908706158399582,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 379
    },
    {
      "advantages": 0.0,
      "completion_length": 130.8125,
      "epoch": 0.38,
      "grad_norm": 6.805364608764648,
      "kl": 0.4453125,
      "learning_rate": 6.2e-07,
      "loss": 0.1685,
      "reward": 1.96875,
      "reward_mean": 1.96875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.96875,
      "rewards/format_reward": 1.0,
      "step": 380
    },
    {
      "advantages": 0.0,
      "completion_length": 146.0,
      "epoch": 0.381,
      "grad_norm": 4.019841194152832,
      "kl": 0.416015625,
      "learning_rate": 6.189999999999999e-07,
      "loss": -0.0306,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 381
    },
    {
      "advantages": 0.0,
      "completion_length": 133.1875,
      "epoch": 0.382,
      "grad_norm": 0.0,
      "kl": 0.54296875,
      "learning_rate": 6.18e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 382
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 129.8125,
      "epoch": 0.383,
      "grad_norm": 4.163370132446289,
      "kl": 0.435546875,
      "learning_rate": 6.17e-07,
      "loss": -0.0085,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 383
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 170.8125,
      "epoch": 0.384,
      "grad_norm": 3.4316840171813965,
      "kl": 0.4453125,
      "learning_rate": 6.16e-07,
      "loss": -0.1353,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.18898223340511322,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 384
    },
    {
      "advantages": 6.705522537231445e-08,
      "completion_length": 181.375,
      "epoch": 0.385,
      "grad_norm": 3.732250690460205,
      "kl": 0.486328125,
      "learning_rate": 6.149999999999999e-07,
      "loss": -0.0222,
      "reward": 1.2916667461395264,
      "reward_mean": 1.2916667461395264,
      "reward_std": 0.1178511530160904,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/format_reward": 1.0,
      "step": 385
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 143.1875,
      "epoch": 0.386,
      "grad_norm": 4.219268321990967,
      "kl": 0.404296875,
      "learning_rate": 6.14e-07,
      "loss": 0.0139,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 386
    },
    {
      "advantages": -7.450580596923828e-08,
      "completion_length": 145.0625,
      "epoch": 0.387,
      "grad_norm": 4.608545780181885,
      "kl": 0.5234375,
      "learning_rate": 6.13e-07,
      "loss": 0.0689,
      "reward": 1.0833333730697632,
      "reward_mean": 1.0833333730697632,
      "reward_std": 0.15430335700511932,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 1.0,
      "step": 387
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 124.1875,
      "epoch": 0.388,
      "grad_norm": 5.094681262969971,
      "kl": 0.4140625,
      "learning_rate": 6.119999999999999e-07,
      "loss": -0.0963,
      "reward": 1.1875,
      "reward_mean": 1.1875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 1.0,
      "step": 388
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 158.1875,
      "epoch": 0.389,
      "grad_norm": 4.464499473571777,
      "kl": 0.4296875,
      "learning_rate": 6.11e-07,
      "loss": -0.0446,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 389
    },
    {
      "advantages": 0.0,
      "completion_length": 182.6875,
      "epoch": 0.39,
      "grad_norm": 0.0,
      "kl": 0.3984375,
      "learning_rate": 6.1e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 390
    },
    {
      "advantages": 0.0,
      "completion_length": 154.5625,
      "epoch": 0.391,
      "grad_norm": 0.0,
      "kl": 0.75,
      "learning_rate": 6.089999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 391
    },
    {
      "advantages": 0.0,
      "completion_length": 149.4375,
      "epoch": 0.392,
      "grad_norm": 0.0,
      "kl": 0.46484375,
      "learning_rate": 6.079999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 392
    },
    {
      "advantages": 0.0,
      "completion_length": 136.8125,
      "epoch": 0.393,
      "grad_norm": 0.0,
      "kl": 0.421875,
      "learning_rate": 6.07e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 393
    },
    {
      "advantages": 0.0,
      "completion_length": 169.1875,
      "epoch": 0.394,
      "grad_norm": 0.0,
      "kl": 0.4296875,
      "learning_rate": 6.06e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 394
    },
    {
      "advantages": 0.0,
      "completion_length": 164.6875,
      "epoch": 0.395,
      "grad_norm": 0.0,
      "kl": 0.416015625,
      "learning_rate": 6.049999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 395
    },
    {
      "advantages": 0.0,
      "completion_length": 128.9375,
      "epoch": 0.396,
      "grad_norm": 0.0,
      "kl": 0.4296875,
      "learning_rate": 6.04e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 396
    },
    {
      "advantages": 0.0,
      "completion_length": 153.375,
      "epoch": 0.397,
      "grad_norm": 0.0,
      "kl": 0.392578125,
      "learning_rate": 6.03e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 397
    },
    {
      "advantages": 8.195638656616211e-08,
      "completion_length": 154.6875,
      "epoch": 0.398,
      "grad_norm": 5.41452169418335,
      "kl": 0.671875,
      "learning_rate": 6.019999999999999e-07,
      "loss": -0.184,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.3382667005062103,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 398
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 154.3125,
      "epoch": 0.399,
      "grad_norm": 4.080648899078369,
      "kl": 0.453125,
      "learning_rate": 6.009999999999999e-07,
      "loss": 0.0161,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 399
    },
    {
      "advantages": 0.0,
      "completion_length": 169.75,
      "epoch": 0.4,
      "grad_norm": 0.0,
      "kl": 0.4453125,
      "learning_rate": 6e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 400
    },
    {
      "advantages": 0.0,
      "completion_length": 170.5,
      "epoch": 0.401,
      "grad_norm": 0.0,
      "kl": 0.54296875,
      "learning_rate": 5.989999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 401
    },
    {
      "advantages": 0.0,
      "completion_length": 141.875,
      "epoch": 0.402,
      "grad_norm": 0.0,
      "kl": 0.4375,
      "learning_rate": 5.979999999999999e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 402
    },
    {
      "advantages": 0.0,
      "completion_length": 186.8125,
      "epoch": 0.403,
      "grad_norm": 4.032413959503174,
      "kl": 0.375,
      "learning_rate": 5.97e-07,
      "loss": 0.0794,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 403
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 142.25,
      "epoch": 0.404,
      "grad_norm": 4.112726211547852,
      "kl": 0.4140625,
      "learning_rate": 5.96e-07,
      "loss": -0.1048,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 404
    },
    {
      "advantages": 6.705522537231445e-08,
      "completion_length": 190.5625,
      "epoch": 0.405,
      "grad_norm": 3.8361196517944336,
      "kl": 0.357421875,
      "learning_rate": 5.949999999999999e-07,
      "loss": 0.0243,
      "reward": 1.625,
      "reward_mean": 1.625,
      "reward_std": 0.1178511530160904,
      "rewards/accuracy_reward": 0.6250000596046448,
      "rewards/format_reward": 1.0,
      "step": 405
    },
    {
      "advantages": 0.0,
      "completion_length": 168.5625,
      "epoch": 0.406,
      "grad_norm": 0.0,
      "kl": 0.390625,
      "learning_rate": 5.939999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 406
    },
    {
      "advantages": 0.0,
      "completion_length": 144.75,
      "epoch": 0.407,
      "grad_norm": 0.0,
      "kl": 0.396484375,
      "learning_rate": 5.93e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 407
    },
    {
      "advantages": 0.0,
      "completion_length": 200.375,
      "epoch": 0.408,
      "grad_norm": 0.0,
      "kl": 0.3828125,
      "learning_rate": 5.919999999999999e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 408
    },
    {
      "advantages": 0.0,
      "completion_length": 177.75,
      "epoch": 0.409,
      "grad_norm": 0.0,
      "kl": 0.44140625,
      "learning_rate": 5.909999999999999e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/format_reward": 1.0,
      "step": 409
    },
    {
      "advantages": 0.0,
      "completion_length": 150.4375,
      "epoch": 0.41,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.9e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 410
    },
    {
      "advantages": 7.450580596923828e-08,
      "completion_length": 191.9375,
      "epoch": 0.411,
      "grad_norm": 3.727123737335205,
      "kl": 0.404296875,
      "learning_rate": 5.89e-07,
      "loss": 0.0212,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.0862581878900528,
      "rewards/accuracy_reward": 0.9375000596046448,
      "rewards/format_reward": 1.0,
      "step": 411
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 202.25,
      "epoch": 0.412,
      "grad_norm": 3.3219895362854004,
      "kl": 0.37890625,
      "learning_rate": 5.879999999999999e-07,
      "loss": -0.0367,
      "reward": 1.3125,
      "reward_mean": 1.3125,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 1.0,
      "step": 412
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 218.8125,
      "epoch": 0.413,
      "grad_norm": 3.1788170337677,
      "kl": 0.3515625,
      "learning_rate": 5.87e-07,
      "loss": -0.0693,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 413
    },
    {
      "advantages": 0.0,
      "completion_length": 229.3125,
      "epoch": 0.414,
      "grad_norm": 0.0,
      "kl": 0.36328125,
      "learning_rate": 5.86e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 414
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 226.9375,
      "epoch": 0.415,
      "grad_norm": 2.9099948406219482,
      "kl": 0.388671875,
      "learning_rate": 5.849999999999999e-07,
      "loss": 0.0902,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 415
    },
    {
      "advantages": -2.9802322387695312e-08,
      "completion_length": 260.3125,
      "epoch": 0.416,
      "grad_norm": 4.535805702209473,
      "kl": 0.37109375,
      "learning_rate": 5.839999999999999e-07,
      "loss": -0.0929,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.44478052854537964,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 416
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 213.5625,
      "epoch": 0.417,
      "grad_norm": 3.6784188747406006,
      "kl": 0.39453125,
      "learning_rate": 5.83e-07,
      "loss": 0.0398,
      "reward": 1.6770833730697632,
      "reward_mean": 1.6770833730697632,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.6770833730697632,
      "rewards/format_reward": 1.0,
      "step": 417
    },
    {
      "advantages": 0.0,
      "completion_length": 169.125,
      "epoch": 0.418,
      "grad_norm": 0.0,
      "kl": 0.34375,
      "learning_rate": 5.819999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 418
    },
    {
      "advantages": -7.078051567077637e-08,
      "completion_length": 241.4375,
      "epoch": 0.419,
      "grad_norm": 3.5229690074920654,
      "kl": 0.380859375,
      "learning_rate": 5.809999999999999e-07,
      "loss": 0.0437,
      "reward": 1.3958333730697632,
      "reward_mean": 1.3958333730697632,
      "reward_std": 0.0862581804394722,
      "rewards/accuracy_reward": 0.3958333730697632,
      "rewards/format_reward": 1.0,
      "step": 419
    },
    {
      "advantages": 0.0,
      "completion_length": 199.5,
      "epoch": 0.42,
      "grad_norm": 0.0,
      "kl": 0.392578125,
      "learning_rate": 5.8e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 420
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 234.625,
      "epoch": 0.421,
      "grad_norm": 4.843015193939209,
      "kl": 0.40234375,
      "learning_rate": 5.79e-07,
      "loss": -0.0363,
      "reward": 1.7916667461395264,
      "reward_mean": 1.7916667461395264,
      "reward_std": 0.3205420970916748,
      "rewards/accuracy_reward": 0.7916667461395264,
      "rewards/format_reward": 1.0,
      "step": 421
    },
    {
      "advantages": 1.2665987014770508e-07,
      "completion_length": 218.4375,
      "epoch": 0.422,
      "grad_norm": 5.061634540557861,
      "kl": 0.37890625,
      "learning_rate": 5.779999999999999e-07,
      "loss": 0.0372,
      "reward": 1.3854167461395264,
      "reward_mean": 1.3854167461395264,
      "reward_std": 0.1473138928413391,
      "rewards/accuracy_reward": 0.3854166865348816,
      "rewards/format_reward": 1.0,
      "step": 422
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 150.4375,
      "epoch": 0.423,
      "grad_norm": 4.365501880645752,
      "kl": 0.44140625,
      "learning_rate": 5.769999999999999e-07,
      "loss": 0.0644,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 423
    },
    {
      "advantages": 0.0,
      "completion_length": 184.5,
      "epoch": 0.424,
      "grad_norm": 0.0,
      "kl": 0.380859375,
      "learning_rate": 5.76e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 424
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 170.8125,
      "epoch": 0.425,
      "grad_norm": 3.8927226066589355,
      "kl": 0.38671875,
      "learning_rate": 5.749999999999999e-07,
      "loss": -0.0322,
      "reward": 1.40625,
      "reward_mean": 1.40625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.40625,
      "rewards/format_reward": 1.0,
      "step": 425
    },
    {
      "advantages": 0.0,
      "completion_length": 201.1875,
      "epoch": 0.426,
      "grad_norm": 0.0,
      "kl": 0.390625,
      "learning_rate": 5.739999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 426
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 238.875,
      "epoch": 0.427,
      "grad_norm": 2.8062853813171387,
      "kl": 0.37890625,
      "learning_rate": 5.73e-07,
      "loss": -0.0371,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 427
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 191.8125,
      "epoch": 0.428,
      "grad_norm": 3.564711570739746,
      "kl": 0.39453125,
      "learning_rate": 5.719999999999999e-07,
      "loss": -0.012,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9375,
      "step": 428
    },
    {
      "advantages": -2.60770320892334e-08,
      "completion_length": 237.375,
      "epoch": 0.429,
      "grad_norm": 5.137650012969971,
      "kl": 0.35546875,
      "learning_rate": 5.709999999999999e-07,
      "loss": -0.0172,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.4355512857437134,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 429
    },
    {
      "advantages": 0.0,
      "completion_length": 228.375,
      "epoch": 0.43,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.699999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 430
    },
    {
      "advantages": 3.203749656677246e-07,
      "completion_length": 189.4375,
      "epoch": 0.431,
      "grad_norm": 3.582122325897217,
      "kl": 0.3828125,
      "learning_rate": 5.69e-07,
      "loss": 0.0219,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.058925580233335495,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 431
    },
    {
      "advantages": 0.0,
      "completion_length": 153.125,
      "epoch": 0.432,
      "grad_norm": 0.0,
      "kl": 0.3671875,
      "learning_rate": 5.679999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 432
    },
    {
      "advantages": 0.0,
      "completion_length": 226.8125,
      "epoch": 0.433,
      "grad_norm": 0.0,
      "kl": 0.38671875,
      "learning_rate": 5.669999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 433
    },
    {
      "advantages": 0.0,
      "completion_length": 194.875,
      "epoch": 0.434,
      "grad_norm": 0.0,
      "kl": 0.38671875,
      "learning_rate": 5.66e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 434
    },
    {
      "advantages": 0.0,
      "completion_length": 135.875,
      "epoch": 0.435,
      "grad_norm": 0.0,
      "kl": 0.396484375,
      "learning_rate": 5.649999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 435
    },
    {
      "advantages": 0.0,
      "completion_length": 173.5,
      "epoch": 0.436,
      "grad_norm": 0.0,
      "kl": 0.390625,
      "learning_rate": 5.639999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 436
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 221.3125,
      "epoch": 0.437,
      "grad_norm": 4.741230010986328,
      "kl": 0.3515625,
      "learning_rate": 5.629999999999999e-07,
      "loss": -0.0242,
      "reward": 1.7291667461395264,
      "reward_mean": 1.7291667461395264,
      "reward_std": 0.32618677616119385,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 1.0,
      "step": 437
    },
    {
      "advantages": 0.0,
      "completion_length": 229.0625,
      "epoch": 0.438,
      "grad_norm": 0.0,
      "kl": 0.359375,
      "learning_rate": 5.620000000000001e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 438
    },
    {
      "advantages": 0.0,
      "completion_length": 217.1875,
      "epoch": 0.439,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.61e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 439
    },
    {
      "advantages": 0.0,
      "completion_length": 221.0625,
      "epoch": 0.44,
      "grad_norm": 0.0,
      "kl": 0.49609375,
      "learning_rate": 5.6e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_mean": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 440
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 192.6875,
      "epoch": 0.441,
      "grad_norm": 2.999258041381836,
      "kl": 0.47265625,
      "learning_rate": 5.590000000000001e-07,
      "loss": 0.0634,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 441
    },
    {
      "advantages": 1.2665987014770508e-07,
      "completion_length": 195.4375,
      "epoch": 0.442,
      "grad_norm": 4.589319705963135,
      "kl": 0.37109375,
      "learning_rate": 5.58e-07,
      "loss": -0.1397,
      "reward": 1.8541667461395264,
      "reward_mean": 1.8541667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.8541666865348816,
      "rewards/format_reward": 1.0,
      "step": 442
    },
    {
      "advantages": 0.0,
      "completion_length": 204.5625,
      "epoch": 0.443,
      "grad_norm": 3.8165395259857178,
      "kl": 0.46484375,
      "learning_rate": 5.57e-07,
      "loss": 0.122,
      "reward": 1.9166667461395264,
      "reward_mean": 1.9166667461395264,
      "reward_std": 0.08908707648515701,
      "rewards/accuracy_reward": 0.9166667461395264,
      "rewards/format_reward": 1.0,
      "step": 443
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 235.3125,
      "epoch": 0.444,
      "grad_norm": 3.3493289947509766,
      "kl": 0.40234375,
      "learning_rate": 5.560000000000001e-07,
      "loss": -0.0344,
      "reward": 1.4583333730697632,
      "reward_mean": 1.4583333730697632,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.4583333730697632,
      "rewards/format_reward": 1.0,
      "step": 444
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 173.0625,
      "epoch": 0.445,
      "grad_norm": 3.844341278076172,
      "kl": 0.52734375,
      "learning_rate": 5.55e-07,
      "loss": 0.0581,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.18600594997406006,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 445
    },
    {
      "advantages": 0.0,
      "completion_length": 164.0,
      "epoch": 0.446,
      "grad_norm": 0.0,
      "kl": 0.421875,
      "learning_rate": 5.54e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 446
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 160.0625,
      "epoch": 0.447,
      "grad_norm": 3.5318963527679443,
      "kl": 0.37890625,
      "learning_rate": 5.53e-07,
      "loss": 0.0321,
      "reward": 1.5625,
      "reward_mean": 1.5625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 1.0,
      "step": 447
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 207.6875,
      "epoch": 0.448,
      "grad_norm": 5.7608489990234375,
      "kl": 0.359375,
      "learning_rate": 5.520000000000001e-07,
      "loss": 0.0509,
      "reward": 1.375,
      "reward_mean": 1.375,
      "reward_std": 0.49871626496315,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 1.0,
      "step": 448
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 242.75,
      "epoch": 0.449,
      "grad_norm": 4.810704708099365,
      "kl": 0.46875,
      "learning_rate": 5.51e-07,
      "loss": -0.0634,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.2651650309562683,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 0.9375,
      "step": 449
    },
    {
      "advantages": 2.60770320892334e-08,
      "completion_length": 161.0625,
      "epoch": 0.45,
      "grad_norm": 7.428137302398682,
      "kl": 0.3984375,
      "learning_rate": 5.5e-07,
      "loss": 0.0819,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.4355512857437134,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 450
    },
    {
      "advantages": 0.0,
      "completion_length": 193.1875,
      "epoch": 0.451,
      "grad_norm": 0.0,
      "kl": 0.388671875,
      "learning_rate": 5.490000000000001e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 451
    },
    {
      "advantages": 1.862645149230957e-07,
      "completion_length": 235.75,
      "epoch": 0.452,
      "grad_norm": 3.380284547805786,
      "kl": 0.36328125,
      "learning_rate": 5.48e-07,
      "loss": -0.0072,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.0589255690574646,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 452
    },
    {
      "advantages": 7.078051567077637e-08,
      "completion_length": 177.75,
      "epoch": 0.453,
      "grad_norm": 4.489373683929443,
      "kl": 0.40234375,
      "learning_rate": 5.47e-07,
      "loss": -0.1424,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.0862581804394722,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 453
    },
    {
      "advantages": 0.0,
      "completion_length": 161.125,
      "epoch": 0.454,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.46e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 454
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 179.1875,
      "epoch": 0.455,
      "grad_norm": 4.947906017303467,
      "kl": 0.419921875,
      "learning_rate": 5.45e-07,
      "loss": -0.1043,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 455
    },
    {
      "advantages": 0.0,
      "completion_length": 155.6875,
      "epoch": 0.456,
      "grad_norm": 0.0,
      "kl": 0.4140625,
      "learning_rate": 5.44e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 456
    },
    {
      "advantages": 0.0,
      "completion_length": 136.625,
      "epoch": 0.457,
      "grad_norm": 0.0,
      "kl": 0.361328125,
      "learning_rate": 5.43e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 457
    },
    {
      "advantages": 0.0,
      "completion_length": 149.5625,
      "epoch": 0.458,
      "grad_norm": 0.0,
      "kl": 0.421875,
      "learning_rate": 5.420000000000001e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 458
    },
    {
      "advantages": 0.0,
      "completion_length": 185.8125,
      "epoch": 0.459,
      "grad_norm": 0.0,
      "kl": 0.3984375,
      "learning_rate": 5.41e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 459
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 180.25,
      "epoch": 0.46,
      "grad_norm": 4.1631245613098145,
      "kl": 0.3671875,
      "learning_rate": 5.4e-07,
      "loss": 0.0139,
      "reward": 1.125,
      "reward_mean": 1.125,
      "reward_std": 0.2314550280570984,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 1.0,
      "step": 460
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 190.875,
      "epoch": 0.461,
      "grad_norm": 4.054723262786865,
      "kl": 0.37109375,
      "learning_rate": 5.39e-07,
      "loss": 0.0473,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 461
    },
    {
      "advantages": 0.0,
      "completion_length": 192.8125,
      "epoch": 0.462,
      "grad_norm": 4.4658122062683105,
      "kl": 0.447265625,
      "learning_rate": 5.38e-07,
      "loss": 0.0566,
      "reward": 1.5833333730697632,
      "reward_mean": 1.5833333730697632,
      "reward_std": 0.26726123690605164,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 462
    },
    {
      "advantages": 0.0,
      "completion_length": 192.625,
      "epoch": 0.463,
      "grad_norm": 0.0,
      "kl": 0.400390625,
      "learning_rate": 5.37e-07,
      "loss": 0.0,
      "reward": 1.6666667461395264,
      "reward_mean": 1.6666667461395264,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666269302368,
      "rewards/format_reward": 1.0,
      "step": 463
    },
    {
      "advantages": 0.0,
      "completion_length": 161.0,
      "epoch": 0.464,
      "grad_norm": 0.0,
      "kl": 0.36328125,
      "learning_rate": 5.36e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 464
    },
    {
      "advantages": 1.6391277313232422e-07,
      "completion_length": 180.875,
      "epoch": 0.465,
      "grad_norm": 4.05633544921875,
      "kl": 0.384765625,
      "learning_rate": 5.35e-07,
      "loss": 0.0124,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.08908708393573761,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 465
    },
    {
      "advantages": -7.82310962677002e-08,
      "completion_length": 189.9375,
      "epoch": 0.466,
      "grad_norm": 5.274670124053955,
      "kl": 0.3828125,
      "learning_rate": 5.34e-07,
      "loss": -0.021,
      "reward": 1.8333333730697632,
      "reward_mean": 1.8333333730697632,
      "reward_std": 0.2630348801612854,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/format_reward": 0.9375,
      "step": 466
    },
    {
      "advantages": 0.0,
      "completion_length": 219.5,
      "epoch": 0.467,
      "grad_norm": 0.0,
      "kl": 0.384765625,
      "learning_rate": 5.33e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 467
    },
    {
      "advantages": 0.0,
      "completion_length": 193.125,
      "epoch": 0.468,
      "grad_norm": 0.0,
      "kl": 0.369140625,
      "learning_rate": 5.32e-07,
      "loss": 0.0,
      "reward": 1.0,
      "reward_mean": 1.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 1.0,
      "step": 468
    },
    {
      "advantages": -2.2351741790771484e-08,
      "completion_length": 181.75,
      "epoch": 0.469,
      "grad_norm": 5.394594669342041,
      "kl": 0.42578125,
      "learning_rate": 5.31e-07,
      "loss": 0.0852,
      "reward": 1.6458333730697632,
      "reward_mean": 1.6458333730697632,
      "reward_std": 0.4082317352294922,
      "rewards/accuracy_reward": 0.7708333730697632,
      "rewards/format_reward": 0.875,
      "step": 469
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 162.875,
      "epoch": 0.47,
      "grad_norm": 5.32183837890625,
      "kl": 0.40234375,
      "learning_rate": 5.3e-07,
      "loss": 0.1006,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 470
    },
    {
      "advantages": 0.0,
      "completion_length": 171.9375,
      "epoch": 0.471,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.29e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 471
    },
    {
      "advantages": 0.0,
      "completion_length": 156.0,
      "epoch": 0.472,
      "grad_norm": 0.0,
      "kl": 0.390625,
      "learning_rate": 5.28e-07,
      "loss": 0.0,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 472
    },
    {
      "advantages": -1.2665987014770508e-07,
      "completion_length": 153.8125,
      "epoch": 0.473,
      "grad_norm": 5.101055145263672,
      "kl": 0.42578125,
      "learning_rate": 5.27e-07,
      "loss": 0.0903,
      "reward": 1.9791667461395264,
      "reward_mean": 1.9791667461395264,
      "reward_std": 0.05892554670572281,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/format_reward": 1.0,
      "step": 473
    },
    {
      "advantages": 0.0,
      "completion_length": 186.9375,
      "epoch": 0.474,
      "grad_norm": 0.0,
      "kl": 0.41796875,
      "learning_rate": 5.26e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 474
    },
    {
      "advantages": 3.725290298461914e-09,
      "completion_length": 185.75,
      "epoch": 0.475,
      "grad_norm": 4.348298072814941,
      "kl": 0.390625,
      "learning_rate": 5.25e-07,
      "loss": 0.0827,
      "reward": 1.15625,
      "reward_mean": 1.15625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.15625,
      "rewards/format_reward": 1.0,
      "step": 475
    },
    {
      "advantages": 0.0,
      "completion_length": 199.0625,
      "epoch": 0.476,
      "grad_norm": 3.2782394886016846,
      "kl": 0.375,
      "learning_rate": 5.24e-07,
      "loss": -0.0661,
      "reward": 1.90625,
      "reward_mean": 1.90625,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_reward": 1.0,
      "step": 476
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 170.6875,
      "epoch": 0.477,
      "grad_norm": 4.559285640716553,
      "kl": 0.40234375,
      "learning_rate": 5.23e-07,
      "loss": -0.0058,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 477
    },
    {
      "advantages": -1.862645149230957e-08,
      "completion_length": 182.0,
      "epoch": 0.478,
      "grad_norm": 3.9179017543792725,
      "kl": 0.44140625,
      "learning_rate": 5.22e-07,
      "loss": 0.0788,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 478
    },
    {
      "advantages": 0.0,
      "completion_length": 174.9375,
      "epoch": 0.479,
      "grad_norm": 4.1898298263549805,
      "kl": 0.3984375,
      "learning_rate": 5.21e-07,
      "loss": -0.058,
      "reward": 1.875,
      "reward_mean": 1.875,
      "reward_std": 0.13363061845302582,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_reward": 1.0,
      "step": 479
    },
    {
      "advantages": 0.0,
      "completion_length": 158.5625,
      "epoch": 0.48,
      "grad_norm": 3.0333094596862793,
      "kl": 0.3828125,
      "learning_rate": 5.2e-07,
      "loss": 0.0462,
      "reward": 1.78125,
      "reward_mean": 1.78125,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_reward": 1.0,
      "step": 480
    },
    {
      "advantages": 0.0,
      "completion_length": 142.5,
      "epoch": 0.481,
      "grad_norm": 0.0,
      "kl": 0.39453125,
      "learning_rate": 5.19e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 481
    },
    {
      "advantages": 0.0,
      "completion_length": 162.3125,
      "epoch": 0.482,
      "grad_norm": 0.0,
      "kl": 0.4375,
      "learning_rate": 5.18e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 482
    },
    {
      "advantages": 0.0,
      "completion_length": 152.4375,
      "epoch": 0.483,
      "grad_norm": 4.092982292175293,
      "kl": 0.3984375,
      "learning_rate": 5.17e-07,
      "loss": -0.008,
      "reward": 1.71875,
      "reward_mean": 1.71875,
      "reward_std": 0.0883883461356163,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_reward": 1.0,
      "step": 483
    },
    {
      "advantages": 0.0,
      "completion_length": 175.5,
      "epoch": 0.484,
      "grad_norm": 0.0,
      "kl": 0.40625,
      "learning_rate": 5.16e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 484
    },
    {
      "advantages": 0.0,
      "completion_length": 166.8125,
      "epoch": 0.485,
      "grad_norm": 0.0,
      "kl": 0.4375,
      "learning_rate": 5.149999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 485
    },
    {
      "advantages": 1.862645149230957e-08,
      "completion_length": 151.8125,
      "epoch": 0.486,
      "grad_norm": 5.26322078704834,
      "kl": 0.41015625,
      "learning_rate": 5.14e-07,
      "loss": -0.0091,
      "reward": 1.6875,
      "reward_mean": 1.6875,
      "reward_std": 0.2587745785713196,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_reward": 1.0,
      "step": 486
    },
    {
      "advantages": 0.0,
      "completion_length": 182.5625,
      "epoch": 0.487,
      "grad_norm": 0.0,
      "kl": 0.42578125,
      "learning_rate": 5.13e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 487
    },
    {
      "advantages": 0.0,
      "completion_length": 158.125,
      "epoch": 0.488,
      "grad_norm": 0.0,
      "kl": 0.44140625,
      "learning_rate": 5.12e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 488
    },
    {
      "advantages": 1.4901161193847656e-08,
      "completion_length": 202.3125,
      "epoch": 0.489,
      "grad_norm": 6.207299709320068,
      "kl": 0.33984375,
      "learning_rate": 5.11e-07,
      "loss": -0.1083,
      "reward": 1.59375,
      "reward_mean": 1.59375,
      "reward_std": 0.2041158676147461,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_reward": 1.0,
      "step": 489
    },
    {
      "advantages": -7.450580596923828e-09,
      "completion_length": 167.625,
      "epoch": 0.49,
      "grad_norm": 3.2399141788482666,
      "kl": 0.6015625,
      "learning_rate": 5.1e-07,
      "loss": -0.042,
      "reward": 1.4375,
      "reward_mean": 1.4375,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 1.0,
      "step": 490
    },
    {
      "advantages": 3.203749656677246e-07,
      "completion_length": 148.0625,
      "epoch": 0.491,
      "grad_norm": 4.004068851470947,
      "kl": 0.48046875,
      "learning_rate": 5.09e-07,
      "loss": 0.0066,
      "reward": 1.8125,
      "reward_mean": 1.8125,
      "reward_std": 0.058925580233335495,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_reward": 1.0,
      "step": 491
    },
    {
      "advantages": 0.0,
      "completion_length": 189.375,
      "epoch": 0.492,
      "grad_norm": 0.0,
      "kl": 0.40234375,
      "learning_rate": 5.079999999999999e-07,
      "loss": 0.0,
      "reward": 1.5,
      "reward_mean": 1.5,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 492
    },
    {
      "advantages": 0.0,
      "completion_length": 157.5625,
      "epoch": 0.493,
      "grad_norm": 0.0,
      "kl": 0.40234375,
      "learning_rate": 5.07e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 493
    },
    {
      "advantages": 0.0,
      "completion_length": 145.6875,
      "epoch": 0.494,
      "grad_norm": 0.0,
      "kl": 0.494140625,
      "learning_rate": 5.06e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 494
    },
    {
      "advantages": 1.6391277313232422e-07,
      "completion_length": 151.25,
      "epoch": 0.495,
      "grad_norm": 4.36698579788208,
      "kl": 0.427734375,
      "learning_rate": 5.049999999999999e-07,
      "loss": -0.0001,
      "reward": 1.75,
      "reward_mean": 1.75,
      "reward_std": 0.0890870913863182,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 495
    },
    {
      "advantages": -3.725290298461914e-09,
      "completion_length": 179.875,
      "epoch": 0.496,
      "grad_norm": 4.543258190155029,
      "kl": 0.3828125,
      "learning_rate": 5.04e-07,
      "loss": -0.0217,
      "reward": 1.84375,
      "reward_mean": 1.84375,
      "reward_std": 0.1293872892856598,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_reward": 1.0,
      "step": 496
    },
    {
      "advantages": 0.0,
      "completion_length": 188.625,
      "epoch": 0.497,
      "grad_norm": 0.0,
      "kl": 0.41796875,
      "learning_rate": 5.03e-07,
      "loss": 0.0,
      "reward": 1.25,
      "reward_mean": 1.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 497
    },
    {
      "advantages": -1.4901161193847656e-08,
      "completion_length": 148.8125,
      "epoch": 0.498,
      "grad_norm": 4.038569450378418,
      "kl": 0.4609375,
      "learning_rate": 5.02e-07,
      "loss": -0.0576,
      "reward": 1.9375,
      "reward_mean": 1.9375,
      "reward_std": 0.1157275140285492,
      "rewards/accuracy_reward": 0.9375,
      "rewards/format_reward": 1.0,
      "step": 498
    },
    {
      "advantages": 0.0,
      "completion_length": 129.25,
      "epoch": 0.499,
      "grad_norm": 0.0,
      "kl": 0.42578125,
      "learning_rate": 5.009999999999999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_mean": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 499
    },
    {
      "advantages": 7.450580596923828e-09,
      "completion_length": 148.125,
      "epoch": 0.5,
      "grad_norm": 5.02844762802124,
      "kl": 0.4453125,
      "learning_rate": 5e-07,
      "loss": -0.0852,
      "reward": 1.0625,
      "reward_mean": 1.0625,
      "reward_std": 0.1767766922712326,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 1.0,
      "step": 500
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 1000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}