{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.24,
  "eval_steps": 500,
  "global_step": 450,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 505.9479351043701,
      "epoch": 0.0010666666666666667,
      "grad_norm": 0.1341146091763646,
      "kl": 0.0,
      "learning_rate": 7.142857142857142e-08,
      "loss": -0.0,
      "reward": 0.3046875079162419,
      "reward_std": 0.4547263579443097,
      "rewards/equation_reward_func": 0.03645833441987634,
      "rewards/format_reward_func": 0.26822917466051877,
      "step": 2
    },
    {
      "completion_length": 511.1562671661377,
      "epoch": 0.0021333333333333334,
      "grad_norm": 0.11909890519385766,
      "kl": 0.0004194974899291992,
      "learning_rate": 1.4285714285714285e-07,
      "loss": 0.0,
      "reward": 0.3098958386108279,
      "reward_std": 0.4707766156643629,
      "rewards/equation_reward_func": 0.0494791679084301,
      "rewards/format_reward_func": 0.26041667349636555,
      "step": 4
    },
    {
      "completion_length": 484.7057456970215,
      "epoch": 0.0032,
      "grad_norm": 0.10838779091076944,
      "kl": 0.0003948211669921875,
      "learning_rate": 2.1428571428571426e-07,
      "loss": 0.0,
      "reward": 0.25520834187045693,
      "reward_std": 0.4062541304156184,
      "rewards/equation_reward_func": 0.04427083418704569,
      "rewards/format_reward_func": 0.2109375053551048,
      "step": 6
    },
    {
      "completion_length": 502.9635524749756,
      "epoch": 0.004266666666666667,
      "grad_norm": 0.11359857035268194,
      "kl": 0.00040793418884277344,
      "learning_rate": 2.857142857142857e-07,
      "loss": 0.0,
      "reward": 0.3229166753590107,
      "reward_std": 0.4702935107052326,
      "rewards/equation_reward_func": 0.07291666860692203,
      "rewards/format_reward_func": 0.250000006519258,
      "step": 8
    },
    {
      "completion_length": 472.85418128967285,
      "epoch": 0.005333333333333333,
      "grad_norm": 0.13319802291837166,
      "kl": 0.00041985511779785156,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 0.0,
      "reward": 0.3359375074505806,
      "reward_std": 0.47765984758734703,
      "rewards/equation_reward_func": 0.052083334885537624,
      "rewards/format_reward_func": 0.28385417396202683,
      "step": 10
    },
    {
      "completion_length": 474.9609489440918,
      "epoch": 0.0064,
      "grad_norm": 0.1283866658242959,
      "kl": 0.0004889965057373047,
      "learning_rate": 4.285714285714285e-07,
      "loss": 0.0,
      "reward": 0.40625000512227416,
      "reward_std": 0.5288777491077781,
      "rewards/equation_reward_func": 0.0703125016298145,
      "rewards/format_reward_func": 0.33593750884756446,
      "step": 12
    },
    {
      "completion_length": 487.7526226043701,
      "epoch": 0.007466666666666667,
      "grad_norm": 0.11491878824082066,
      "kl": 0.0008172988891601562,
      "learning_rate": 5e-07,
      "loss": 0.0,
      "reward": 0.3984375139698386,
      "reward_std": 0.4919305704534054,
      "rewards/equation_reward_func": 0.05208333395421505,
      "rewards/format_reward_func": 0.3463541781529784,
      "step": 14
    },
    {
      "completion_length": 468.70313835144043,
      "epoch": 0.008533333333333334,
      "grad_norm": 0.12246266971775394,
      "kl": 0.0011203289031982422,
      "learning_rate": 4.999740409224932e-07,
      "loss": 0.0,
      "reward": 0.5494791846722364,
      "reward_std": 0.5318632125854492,
      "rewards/equation_reward_func": 0.08854167023673654,
      "rewards/format_reward_func": 0.46093751303851604,
      "step": 16
    },
    {
      "completion_length": 454.82292556762695,
      "epoch": 0.0096,
      "grad_norm": 0.10480668657811888,
      "kl": 0.00298309326171875,
      "learning_rate": 4.998961690809627e-07,
      "loss": 0.0,
      "reward": 0.6796875204890966,
      "reward_std": 0.5534657873213291,
      "rewards/equation_reward_func": 0.06770833465270698,
      "rewards/format_reward_func": 0.611979192122817,
      "step": 18
    },
    {
      "completion_length": 453.3411560058594,
      "epoch": 0.010666666666666666,
      "grad_norm": 0.11208435254258003,
      "kl": 0.005069732666015625,
      "learning_rate": 4.997664006472578e-07,
      "loss": 0.0,
      "reward": 0.7500000186264515,
      "reward_std": 0.5607063695788383,
      "rewards/equation_reward_func": 0.0859375016298145,
      "rewards/format_reward_func": 0.6640625167638063,
      "step": 20
    },
    {
      "completion_length": 450.89063262939453,
      "epoch": 0.011733333333333333,
      "grad_norm": 0.10552116383248636,
      "kl": 0.005932807922363281,
      "learning_rate": 4.995847625707292e-07,
      "loss": 0.0,
      "reward": 0.8593750149011612,
      "reward_std": 0.5123661290854216,
      "rewards/equation_reward_func": 0.09895833511836827,
      "rewards/format_reward_func": 0.7604166939854622,
      "step": 22
    },
    {
      "completion_length": 449.1198043823242,
      "epoch": 0.0128,
      "grad_norm": 0.10482422281110657,
      "kl": 0.007808685302734375,
      "learning_rate": 4.993512925726318e-07,
      "loss": 0.0,
      "reward": 0.8958333544433117,
      "reward_std": 0.44584160670638084,
      "rewards/equation_reward_func": 0.07812500302679837,
      "rewards/format_reward_func": 0.8177083507180214,
      "step": 24
    },
    {
      "completion_length": 437.75782012939453,
      "epoch": 0.013866666666666666,
      "grad_norm": 0.08078578907154227,
      "kl": 0.0073490142822265625,
      "learning_rate": 4.990660391382923e-07,
      "loss": 0.0,
      "reward": 0.9505208656191826,
      "reward_std": 0.40651129884645343,
      "rewards/equation_reward_func": 0.09895833604969084,
      "rewards/format_reward_func": 0.8515625186264515,
      "step": 26
    },
    {
      "completion_length": 441.77345275878906,
      "epoch": 0.014933333333333333,
      "grad_norm": 0.08279347003242855,
      "kl": 0.00899505615234375,
      "learning_rate": 4.987290615070384e-07,
      "loss": 0.0,
      "reward": 0.9583333544433117,
      "reward_std": 0.31725937221199274,
      "rewards/equation_reward_func": 0.06510416814126074,
      "rewards/format_reward_func": 0.893229179084301,
      "step": 28
    },
    {
      "completion_length": 438.5364685058594,
      "epoch": 0.016,
      "grad_norm": 0.07534793657846317,
      "kl": 0.01221466064453125,
      "learning_rate": 4.983404296598978e-07,
      "loss": 0.0,
      "reward": 1.0104166828095913,
      "reward_std": 0.286367348395288,
      "rewards/equation_reward_func": 0.08072916860692203,
      "rewards/format_reward_func": 0.9296875186264515,
      "step": 30
    },
    {
      "completion_length": 446.8125114440918,
      "epoch": 0.017066666666666667,
      "grad_norm": 0.07968622664869553,
      "kl": 0.011959075927734375,
      "learning_rate": 4.979002243050646e-07,
      "loss": 0.0,
      "reward": 1.0026041977107525,
      "reward_std": 0.344503759406507,
      "rewards/equation_reward_func": 0.09635416860692203,
      "rewards/format_reward_func": 0.9062500223517418,
      "step": 32
    },
    {
      "completion_length": 427.65886306762695,
      "epoch": 0.018133333333333335,
      "grad_norm": 0.08471832672268678,
      "kl": 0.027118682861328125,
      "learning_rate": 4.974085368611381e-07,
      "loss": 0.0,
      "reward": 1.0442708693444729,
      "reward_std": 0.2840048740617931,
      "rewards/equation_reward_func": 0.1015625037252903,
      "rewards/format_reward_func": 0.9427083544433117,
      "step": 34
    },
    {
      "completion_length": 444.25261878967285,
      "epoch": 0.0192,
      "grad_norm": 0.06852883069586094,
      "kl": 0.01403045654296875,
      "learning_rate": 4.968654694381379e-07,
      "loss": 0.0,
      "reward": 0.9921875335276127,
      "reward_std": 0.21781930467113853,
      "rewards/equation_reward_func": 0.05208333511836827,
      "rewards/format_reward_func": 0.9401041865348816,
      "step": 36
    },
    {
      "completion_length": 383.59896659851074,
      "epoch": 0.020266666666666665,
      "grad_norm": 0.08057979196934888,
      "kl": 0.0169677734375,
      "learning_rate": 4.962711348162987e-07,
      "loss": 0.0,
      "reward": 1.1223958656191826,
      "reward_std": 0.2702699927613139,
      "rewards/equation_reward_func": 0.14062500395812094,
      "rewards/format_reward_func": 0.9817708507180214,
      "step": 38
    },
    {
      "completion_length": 411.5677185058594,
      "epoch": 0.021333333333333333,
      "grad_norm": 0.07850698291787955,
      "kl": 0.017246246337890625,
      "learning_rate": 4.956256564226487e-07,
      "loss": 0.0,
      "reward": 1.0989583656191826,
      "reward_std": 0.2887088777497411,
      "rewards/equation_reward_func": 0.13281250279396772,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 40
    },
    {
      "completion_length": 396.64584159851074,
      "epoch": 0.0224,
      "grad_norm": 0.07505103817031399,
      "kl": 0.017597198486328125,
      "learning_rate": 4.949291683053768e-07,
      "loss": 0.0,
      "reward": 1.0807291977107525,
      "reward_std": 0.2670950279571116,
      "rewards/equation_reward_func": 0.11458333698101342,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 42
    },
    {
      "completion_length": 387.0468864440918,
      "epoch": 0.023466666666666667,
      "grad_norm": 0.09175240895759779,
      "kl": 0.017871856689453125,
      "learning_rate": 4.941818151059955e-07,
      "loss": 0.0,
      "reward": 1.1015625335276127,
      "reward_std": 0.2870901683345437,
      "rewards/equation_reward_func": 0.1354166711680591,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 44
    },
    {
      "completion_length": 400.3645935058594,
      "epoch": 0.024533333333333334,
      "grad_norm": 0.09491357639118295,
      "kl": 0.019161224365234375,
      "learning_rate": 4.933837520293017e-07,
      "loss": 0.0,
      "reward": 1.070312537252903,
      "reward_std": 0.2785795754753053,
      "rewards/equation_reward_func": 0.10937500442378223,
      "rewards/format_reward_func": 0.9609375260770321,
      "step": 46
    },
    {
      "completion_length": 403.8671989440918,
      "epoch": 0.0256,
      "grad_norm": 0.08449768835766272,
      "kl": 0.01947021484375,
      "learning_rate": 4.925351448111454e-07,
      "loss": 0.0,
      "reward": 1.0598958767950535,
      "reward_std": 0.1955897193402052,
      "rewards/equation_reward_func": 0.08333333604969084,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 48
    },
    {
      "completion_length": 384.1770896911621,
      "epoch": 0.02666666666666667,
      "grad_norm": 0.09879170444522951,
      "kl": 0.02040863037109375,
      "learning_rate": 4.91636169684011e-07,
      "loss": 0.0,
      "reward": 1.1223958730697632,
      "reward_std": 0.31093722581863403,
      "rewards/equation_reward_func": 0.1406250037252903,
      "rewards/format_reward_func": 0.9817708432674408,
      "step": 50
    },
    {
      "completion_length": 391.669282913208,
      "epoch": 0.027733333333333332,
      "grad_norm": 0.10757568231914379,
      "kl": 0.0244903564453125,
      "learning_rate": 4.906870133404186e-07,
      "loss": 0.0,
      "reward": 1.1197916977107525,
      "reward_std": 0.3494974756613374,
      "rewards/equation_reward_func": 0.15885417140088975,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 52
    },
    {
      "completion_length": 387.16407012939453,
      "epoch": 0.0288,
      "grad_norm": 0.0916962283697697,
      "kl": 0.02394866943359375,
      "learning_rate": 4.896878728941531e-07,
      "loss": 0.0,
      "reward": 1.1067708656191826,
      "reward_std": 0.25607615802437067,
      "rewards/equation_reward_func": 0.1328125020954758,
      "rewards/format_reward_func": 0.9739583544433117,
      "step": 54
    },
    {
      "completion_length": 346.4114646911621,
      "epoch": 0.029866666666666666,
      "grad_norm": 0.09993350369732659,
      "kl": 0.0276031494140625,
      "learning_rate": 4.886389558393284e-07,
      "loss": 0.0,
      "reward": 1.1510416939854622,
      "reward_std": 0.2859157114289701,
      "rewards/equation_reward_func": 0.16145833767950535,
      "rewards/format_reward_func": 0.9895833432674408,
      "step": 56
    },
    {
      "completion_length": 361.99219512939453,
      "epoch": 0.030933333333333334,
      "grad_norm": 0.11653485215024455,
      "kl": 0.02984619140625,
      "learning_rate": 4.875404800072976e-07,
      "loss": 0.0,
      "reward": 1.1640625447034836,
      "reward_std": 0.3471745736896992,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 58
    },
    {
      "completion_length": 367.1015739440918,
      "epoch": 0.032,
      "grad_norm": 0.07180913754511904,
      "kl": 0.03044891357421875,
      "learning_rate": 4.86392673521415e-07,
      "loss": 0.0,
      "reward": 1.0911458805203438,
      "reward_std": 0.1999878236092627,
      "rewards/equation_reward_func": 0.10416666930541396,
      "rewards/format_reward_func": 0.9869791753590107,
      "step": 60
    },
    {
      "completion_length": 366.5208435058594,
      "epoch": 0.03306666666666667,
      "grad_norm": 0.08088172620555445,
      "kl": 0.0330810546875,
      "learning_rate": 4.851957747496606e-07,
      "loss": 0.0,
      "reward": 1.1510416939854622,
      "reward_std": 0.28296295227482915,
      "rewards/equation_reward_func": 0.16927083488553762,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 62
    },
    {
      "completion_length": 357.73178482055664,
      "epoch": 0.034133333333333335,
      "grad_norm": 0.0844167380266008,
      "kl": 0.03631591796875,
      "learning_rate": 4.839500322551386e-07,
      "loss": 0.0,
      "reward": 1.1197916939854622,
      "reward_std": 0.2452517431229353,
      "rewards/equation_reward_func": 0.14843750186264515,
      "rewards/format_reward_func": 0.9713541753590107,
      "step": 64
    },
    {
      "completion_length": 353.9739685058594,
      "epoch": 0.0352,
      "grad_norm": 0.0778527671209511,
      "kl": 0.041229248046875,
      "learning_rate": 4.826557047444563e-07,
      "loss": 0.0,
      "reward": 1.1796875298023224,
      "reward_std": 0.30663188826292753,
      "rewards/equation_reward_func": 0.19791667279787362,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 66
    },
    {
      "completion_length": 348.2239685058594,
      "epoch": 0.03626666666666667,
      "grad_norm": 0.07408528500512421,
      "kl": 0.044708251953125,
      "learning_rate": 4.813130610139993e-07,
      "loss": 0.0,
      "reward": 1.0729167014360428,
      "reward_std": 0.17930190591141582,
      "rewards/equation_reward_func": 0.0885416695382446,
      "rewards/format_reward_func": 0.9843750149011612,
      "step": 68
    },
    {
      "completion_length": 318.35938835144043,
      "epoch": 0.037333333333333336,
      "grad_norm": 0.10471668022395769,
      "kl": 0.0505828857421875,
      "learning_rate": 4.799223798941089e-07,
      "loss": 0.0001,
      "reward": 1.187500037252903,
      "reward_std": 0.2974981819279492,
      "rewards/equation_reward_func": 0.2031250053551048,
      "rewards/format_reward_func": 0.9843750111758709,
      "step": 70
    },
    {
      "completion_length": 312.2213659286499,
      "epoch": 0.0384,
      "grad_norm": 0.08445574387607607,
      "kl": 0.058990478515625,
      "learning_rate": 4.78483950191177e-07,
      "loss": 0.0001,
      "reward": 1.1562500298023224,
      "reward_std": 0.23554043704643846,
      "rewards/equation_reward_func": 0.17187500651925802,
      "rewards/format_reward_func": 0.9843750111758709,
      "step": 72
    },
    {
      "completion_length": 320.13542556762695,
      "epoch": 0.039466666666666664,
      "grad_norm": 0.10154941280104149,
      "kl": 0.0615997314453125,
      "learning_rate": 4.769980706276687e-07,
      "loss": 0.0001,
      "reward": 1.1770833730697632,
      "reward_std": 0.26962050748988986,
      "rewards/equation_reward_func": 0.19270834000781178,
      "rewards/format_reward_func": 0.9843750111758709,
      "step": 74
    },
    {
      "completion_length": 334.70052909851074,
      "epoch": 0.04053333333333333,
      "grad_norm": 0.08509345877302323,
      "kl": 0.061676025390625,
      "learning_rate": 4.7546504978008595e-07,
      "loss": 0.0001,
      "reward": 1.1458333730697632,
      "reward_std": 0.20033816620707512,
      "rewards/equation_reward_func": 0.15885417233221233,
      "rewards/format_reward_func": 0.986979179084301,
      "step": 76
    },
    {
      "completion_length": 333.23438453674316,
      "epoch": 0.0416,
      "grad_norm": 0.10027144175078107,
      "kl": 0.065399169921875,
      "learning_rate": 4.738852060148848e-07,
      "loss": 0.0001,
      "reward": 1.1171875447034836,
      "reward_std": 0.23261011950671673,
      "rewards/equation_reward_func": 0.13541667070239782,
      "rewards/format_reward_func": 0.9817708507180214,
      "step": 78
    },
    {
      "completion_length": 331.69011878967285,
      "epoch": 0.042666666666666665,
      "grad_norm": 0.07507534432076213,
      "kl": 0.071014404296875,
      "learning_rate": 4.722588674223593e-07,
      "loss": 0.0001,
      "reward": 1.1276042014360428,
      "reward_std": 0.2506814347580075,
      "rewards/equation_reward_func": 0.14843750442378223,
      "rewards/format_reward_func": 0.9791666828095913,
      "step": 80
    },
    {
      "completion_length": 344.0781364440918,
      "epoch": 0.04373333333333333,
      "grad_norm": 0.09863254302808237,
      "kl": 0.070526123046875,
      "learning_rate": 4.70586371748506e-07,
      "loss": 0.0001,
      "reward": 1.2031250447034836,
      "reward_std": 0.2764001186005771,
      "rewards/equation_reward_func": 0.2109375074505806,
      "rewards/format_reward_func": 0.9921875074505806,
      "step": 82
    },
    {
      "completion_length": 330.4479274749756,
      "epoch": 0.0448,
      "grad_norm": 0.10155910053999813,
      "kl": 0.07550048828125,
      "learning_rate": 4.6886806632488363e-07,
      "loss": 0.0001,
      "reward": 1.2708333730697632,
      "reward_std": 0.3232872476801276,
      "rewards/equation_reward_func": 0.28906251140870154,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 84
    },
    {
      "completion_length": 341.1197986602783,
      "epoch": 0.04586666666666667,
      "grad_norm": 0.09455703883061281,
      "kl": 0.07513427734375,
      "learning_rate": 4.6710430799648143e-07,
      "loss": 0.0001,
      "reward": 1.1953125298023224,
      "reward_std": 0.3194303079508245,
      "rewards/equation_reward_func": 0.2291666753590107,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 86
    },
    {
      "completion_length": 341.54427909851074,
      "epoch": 0.046933333333333334,
      "grad_norm": 0.08290471243926564,
      "kl": 0.077423095703125,
      "learning_rate": 4.652954630476127e-07,
      "loss": 0.0001,
      "reward": 1.1979167014360428,
      "reward_std": 0.2291324818506837,
      "rewards/equation_reward_func": 0.2239583395421505,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 88
    },
    {
      "completion_length": 335.0989627838135,
      "epoch": 0.048,
      "grad_norm": 0.10748566516697469,
      "kl": 0.088287353515625,
      "learning_rate": 4.6344190712584713e-07,
      "loss": 0.0001,
      "reward": 1.1692708730697632,
      "reward_std": 0.3015799345448613,
      "rewards/equation_reward_func": 0.1979166700039059,
      "rewards/format_reward_func": 0.9713541902601719,
      "step": 90
    },
    {
      "completion_length": 314.3177185058594,
      "epoch": 0.04906666666666667,
      "grad_norm": 0.10758855837243832,
      "kl": 0.08538818359375,
      "learning_rate": 4.615440251639995e-07,
      "loss": 0.0001,
      "reward": 1.3151041977107525,
      "reward_std": 0.3682410903275013,
      "rewards/equation_reward_func": 0.33593750838190317,
      "rewards/format_reward_func": 0.9791666753590107,
      "step": 92
    },
    {
      "completion_length": 313.01302909851074,
      "epoch": 0.050133333333333335,
      "grad_norm": 0.124066638172858,
      "kl": 0.0859375,
      "learning_rate": 4.596022113001894e-07,
      "loss": 0.0001,
      "reward": 1.276041705161333,
      "reward_std": 0.30914933141320944,
      "rewards/equation_reward_func": 0.29427084303461015,
      "rewards/format_reward_func": 0.9817708432674408,
      "step": 94
    },
    {
      "completion_length": 334.85417556762695,
      "epoch": 0.0512,
      "grad_norm": 0.1018803932324317,
      "kl": 0.088104248046875,
      "learning_rate": 4.576168687959895e-07,
      "loss": 0.0001,
      "reward": 1.2135417014360428,
      "reward_std": 0.2573512555100024,
      "rewards/equation_reward_func": 0.2395833416376263,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 96
    },
    {
      "completion_length": 351.9817810058594,
      "epoch": 0.05226666666666667,
      "grad_norm": 0.10509374857128695,
      "kl": 0.098785400390625,
      "learning_rate": 4.555884099526793e-07,
      "loss": 0.0001,
      "reward": 1.250000037252903,
      "reward_std": 0.29483586829155684,
      "rewards/equation_reward_func": 0.27083334093913436,
      "rewards/format_reward_func": 0.9791666753590107,
      "step": 98
    },
    {
      "completion_length": 358.38021755218506,
      "epoch": 0.05333333333333334,
      "grad_norm": 0.0978516383302316,
      "kl": 0.08575439453125,
      "learning_rate": 4.5351725602562174e-07,
      "loss": 0.0001,
      "reward": 1.2942708656191826,
      "reward_std": 0.32903878297656775,
      "rewards/equation_reward_func": 0.3203125046566129,
      "rewards/format_reward_func": 0.9739583432674408,
      "step": 100
    },
    {
      "completion_length": 361.90365409851074,
      "epoch": 0.0544,
      "grad_norm": 0.07892841773395727,
      "kl": 0.092681884765625,
      "learning_rate": 4.514038371367791e-07,
      "loss": 0.0001,
      "reward": 1.2838542014360428,
      "reward_std": 0.23603887297213078,
      "rewards/equation_reward_func": 0.2942708432674408,
      "rewards/format_reward_func": 0.9895833395421505,
      "step": 102
    },
    {
      "completion_length": 370.2447986602783,
      "epoch": 0.055466666666666664,
      "grad_norm": 0.07956969957231312,
      "kl": 0.088226318359375,
      "learning_rate": 4.4924859218538936e-07,
      "loss": 0.0001,
      "reward": 1.2682292088866234,
      "reward_std": 0.2611841419711709,
      "rewards/equation_reward_func": 0.2838541760575026,
      "rewards/format_reward_func": 0.9843750074505806,
      "step": 104
    },
    {
      "completion_length": 405.403657913208,
      "epoch": 0.05653333333333333,
      "grad_norm": 0.10207984517578009,
      "kl": 0.0877227783203125,
      "learning_rate": 4.470519687568185e-07,
      "loss": 0.0001,
      "reward": 1.2786458618938923,
      "reward_std": 0.27022232208400965,
      "rewards/equation_reward_func": 0.31250000838190317,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 106
    },
    {
      "completion_length": 392.93490982055664,
      "epoch": 0.0576,
      "grad_norm": 0.08438917528245744,
      "kl": 0.0877685546875,
      "learning_rate": 4.4481442302960923e-07,
      "loss": 0.0001,
      "reward": 1.3072917014360428,
      "reward_std": 0.31525306357070804,
      "rewards/equation_reward_func": 0.34375000838190317,
      "rewards/format_reward_func": 0.963541679084301,
      "step": 108
    },
    {
      "completion_length": 399.8698024749756,
      "epoch": 0.058666666666666666,
      "grad_norm": 0.08270590545214734,
      "kl": 0.09637451171875,
      "learning_rate": 4.4253641968074505e-07,
      "loss": 0.0001,
      "reward": 1.268229190260172,
      "reward_std": 0.24568770825862885,
      "rewards/equation_reward_func": 0.3046875062864274,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 110
    },
    {
      "completion_length": 409.60417556762695,
      "epoch": 0.05973333333333333,
      "grad_norm": 0.10271913225077348,
      "kl": 0.0924072265625,
      "learning_rate": 4.402184317891501e-07,
      "loss": 0.0001,
      "reward": 1.2812500335276127,
      "reward_std": 0.33530174382030964,
      "rewards/equation_reward_func": 0.3385416748933494,
      "rewards/format_reward_func": 0.9427083544433117,
      "step": 112
    },
    {
      "completion_length": 416.4088649749756,
      "epoch": 0.0608,
      "grad_norm": 0.08166810576477633,
      "kl": 0.095794677734375,
      "learning_rate": 4.37860940737443e-07,
      "loss": 0.0001,
      "reward": 1.1770833805203438,
      "reward_std": 0.26351519441232085,
      "rewards/equation_reward_func": 0.22395834187045693,
      "rewards/format_reward_func": 0.9531250149011612,
      "step": 114
    },
    {
      "completion_length": 390.3463611602783,
      "epoch": 0.06186666666666667,
      "grad_norm": 0.09414353563065953,
      "kl": 0.11090087890625,
      "learning_rate": 4.354644361119671e-07,
      "loss": 0.0001,
      "reward": 1.398437537252903,
      "reward_std": 0.30470984475687146,
      "rewards/equation_reward_func": 0.42187501583248377,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 116
    },
    {
      "completion_length": 378.01563358306885,
      "epoch": 0.06293333333333333,
      "grad_norm": 0.07635029320541607,
      "kl": 0.124725341796875,
      "learning_rate": 4.3302941560111716e-07,
      "loss": 0.0001,
      "reward": 1.3958333730697632,
      "reward_std": 0.36394598754122853,
      "rewards/equation_reward_func": 0.4166666765231639,
      "rewards/format_reward_func": 0.9791666865348816,
      "step": 118
    },
    {
      "completion_length": 392.65625953674316,
      "epoch": 0.064,
      "grad_norm": 0.0833024147650861,
      "kl": 0.1026611328125,
      "learning_rate": 4.3055638489198236e-07,
      "loss": 0.0001,
      "reward": 1.3359375298023224,
      "reward_std": 0.37286510691046715,
      "rewards/equation_reward_func": 0.3906250102445483,
      "rewards/format_reward_func": 0.9453125186264515,
      "step": 120
    },
    {
      "completion_length": 399.5078182220459,
      "epoch": 0.06506666666666666,
      "grad_norm": 0.0892199212165042,
      "kl": 0.1014404296875,
      "learning_rate": 4.280458575653296e-07,
      "loss": 0.0001,
      "reward": 1.3307292088866234,
      "reward_std": 0.3504871279001236,
      "rewards/equation_reward_func": 0.38802084513008595,
      "rewards/format_reward_func": 0.9427083507180214,
      "step": 122
    },
    {
      "completion_length": 450.1354331970215,
      "epoch": 0.06613333333333334,
      "grad_norm": 0.06581923430481687,
      "kl": 0.114990234375,
      "learning_rate": 4.2549835498894665e-07,
      "loss": 0.0001,
      "reward": 1.2604166939854622,
      "reward_std": 0.3068140549585223,
      "rewards/equation_reward_func": 0.32552084559574723,
      "rewards/format_reward_func": 0.9348958544433117,
      "step": 124
    },
    {
      "completion_length": 390.036470413208,
      "epoch": 0.0672,
      "grad_norm": 0.07114986931726634,
      "kl": 0.10528564453125,
      "learning_rate": 4.229144062093679e-07,
      "loss": 0.0001,
      "reward": 1.3723958730697632,
      "reward_std": 0.29870040342211723,
      "rewards/equation_reward_func": 0.39843751303851604,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 126
    },
    {
      "completion_length": 392.59115505218506,
      "epoch": 0.06826666666666667,
      "grad_norm": 0.0877107079994648,
      "kl": 0.109405517578125,
      "learning_rate": 4.2029454784200675e-07,
      "loss": 0.0001,
      "reward": 1.390625037252903,
      "reward_std": 0.280646042432636,
      "rewards/equation_reward_func": 0.42447917722165585,
      "rewards/format_reward_func": 0.9661458507180214,
      "step": 128
    },
    {
      "completion_length": 421.0078191757202,
      "epoch": 0.06933333333333333,
      "grad_norm": 0.09643905280459295,
      "kl": 0.10009765625,
      "learning_rate": 4.1763932395971433e-07,
      "loss": 0.0001,
      "reward": 1.2942708693444729,
      "reward_std": 0.3986189612187445,
      "rewards/equation_reward_func": 0.3567708421032876,
      "rewards/format_reward_func": 0.9375000223517418,
      "step": 130
    },
    {
      "completion_length": 461.4791736602783,
      "epoch": 0.0704,
      "grad_norm": 0.06366382823979087,
      "kl": 0.101837158203125,
      "learning_rate": 4.1494928597979117e-07,
      "loss": 0.0001,
      "reward": 1.2760417088866234,
      "reward_std": 0.27500381181016564,
      "rewards/equation_reward_func": 0.32291667629033327,
      "rewards/format_reward_func": 0.9531250186264515,
      "step": 132
    },
    {
      "completion_length": 394.3255319595337,
      "epoch": 0.07146666666666666,
      "grad_norm": 0.0853911421540347,
      "kl": 0.130126953125,
      "learning_rate": 4.122249925494726e-07,
      "loss": 0.0001,
      "reward": 1.403645858168602,
      "reward_std": 0.25308565702289343,
      "rewards/equation_reward_func": 0.43229168001562357,
      "rewards/format_reward_func": 0.9713541828095913,
      "step": 134
    },
    {
      "completion_length": 426.466157913208,
      "epoch": 0.07253333333333334,
      "grad_norm": 0.0692987274556644,
      "kl": 0.11669921875,
      "learning_rate": 4.094670094299131e-07,
      "loss": 0.0001,
      "reward": 1.281250037252903,
      "reward_std": 0.316250397823751,
      "rewards/equation_reward_func": 0.33072917559184134,
      "rewards/format_reward_func": 0.9505208469927311,
      "step": 136
    },
    {
      "completion_length": 439.9010543823242,
      "epoch": 0.0736,
      "grad_norm": 0.08170658774133101,
      "kl": 0.104949951171875,
      "learning_rate": 4.066759093786931e-07,
      "loss": 0.0001,
      "reward": 1.2760416977107525,
      "reward_std": 0.35973797645419836,
      "rewards/equation_reward_func": 0.3411458428017795,
      "rewards/format_reward_func": 0.9348958618938923,
      "step": 138
    },
    {
      "completion_length": 416.6406354904175,
      "epoch": 0.07466666666666667,
      "grad_norm": 0.06667199771271264,
      "kl": 0.12353515625,
      "learning_rate": 4.038522720308732e-07,
      "loss": 0.0001,
      "reward": 1.3854167088866234,
      "reward_std": 0.21267010737210512,
      "rewards/equation_reward_func": 0.4088541741948575,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 140
    },
    {
      "completion_length": 440.536470413208,
      "epoch": 0.07573333333333333,
      "grad_norm": 0.0850091968151683,
      "kl": 0.11474609375,
      "learning_rate": 4.009966837786194e-07,
      "loss": 0.0001,
      "reward": 1.3255208693444729,
      "reward_std": 0.30754279950633645,
      "rewards/equation_reward_func": 0.36458334629423916,
      "rewards/format_reward_func": 0.9609375074505806,
      "step": 142
    },
    {
      "completion_length": 401.09896659851074,
      "epoch": 0.0768,
      "grad_norm": 0.0768836508261685,
      "kl": 0.116485595703125,
      "learning_rate": 3.981097376494259e-07,
      "loss": 0.0001,
      "reward": 1.4557292237877846,
      "reward_std": 0.31219895882532,
      "rewards/equation_reward_func": 0.5026041828095913,
      "rewards/format_reward_func": 0.9531250186264515,
      "step": 144
    },
    {
      "completion_length": 461.122407913208,
      "epoch": 0.07786666666666667,
      "grad_norm": 0.10600525349484782,
      "kl": 0.114044189453125,
      "learning_rate": 3.951920331829592e-07,
      "loss": 0.0001,
      "reward": 1.2890625335276127,
      "reward_std": 0.2976598385721445,
      "rewards/equation_reward_func": 0.3255208437331021,
      "rewards/format_reward_func": 0.963541679084301,
      "step": 146
    },
    {
      "completion_length": 413.9713649749756,
      "epoch": 0.07893333333333333,
      "grad_norm": 0.0723392326431143,
      "kl": 0.123321533203125,
      "learning_rate": 3.922441763065506e-07,
      "loss": 0.0001,
      "reward": 1.4088542014360428,
      "reward_std": 0.23494611913338304,
      "rewards/equation_reward_func": 0.43750000931322575,
      "rewards/format_reward_func": 0.9713541828095913,
      "step": 148
    },
    {
      "completion_length": 458.7604331970215,
      "epoch": 0.08,
      "grad_norm": 0.09048584328529992,
      "kl": 0.12384033203125,
      "learning_rate": 3.8926677920936093e-07,
      "loss": 0.0001,
      "reward": 1.2656250223517418,
      "reward_std": 0.3245450472459197,
      "rewards/equation_reward_func": 0.32031250838190317,
      "rewards/format_reward_func": 0.9453125111758709,
      "step": 150
    },
    {
      "completion_length": 378.33073902130127,
      "epoch": 0.08106666666666666,
      "grad_norm": 0.10455674533718096,
      "kl": 0.13720703125,
      "learning_rate": 3.862604602152464e-07,
      "loss": 0.0001,
      "reward": 1.4244792014360428,
      "reward_std": 0.26624298514798284,
      "rewards/equation_reward_func": 0.46093751210719347,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 152
    },
    {
      "completion_length": 421.9140796661377,
      "epoch": 0.08213333333333334,
      "grad_norm": 0.10103705731464013,
      "kl": 0.129638671875,
      "learning_rate": 3.8322584365434934e-07,
      "loss": 0.0001,
      "reward": 1.3255208879709244,
      "reward_std": 0.24930242728441954,
      "rewards/equation_reward_func": 0.3723958465270698,
      "rewards/format_reward_func": 0.9531250186264515,
      "step": 154
    },
    {
      "completion_length": 463.58334159851074,
      "epoch": 0.0832,
      "grad_norm": 0.09221432956401719,
      "kl": 0.127166748046875,
      "learning_rate": 3.8016355973344173e-07,
      "loss": 0.0001,
      "reward": 1.234375037252903,
      "reward_std": 0.2910663695074618,
      "rewards/equation_reward_func": 0.28906250605359674,
      "rewards/format_reward_func": 0.9453125260770321,
      "step": 156
    },
    {
      "completion_length": 419.51563835144043,
      "epoch": 0.08426666666666667,
      "grad_norm": 0.08138226453807305,
      "kl": 0.1285400390625,
      "learning_rate": 3.7707424440504863e-07,
      "loss": 0.0001,
      "reward": 1.3489583730697632,
      "reward_std": 0.23599386168643832,
      "rewards/equation_reward_func": 0.37500001094304025,
      "rewards/format_reward_func": 0.9739583544433117,
      "step": 158
    },
    {
      "completion_length": 361.1015729904175,
      "epoch": 0.08533333333333333,
      "grad_norm": 0.13299459818559828,
      "kl": 0.15423583984375,
      "learning_rate": 3.739585392353787e-07,
      "loss": 0.0002,
      "reward": 1.434895858168602,
      "reward_std": 0.28986221412196755,
      "rewards/equation_reward_func": 0.458333341171965,
      "rewards/format_reward_func": 0.9765625186264515,
      "step": 160
    },
    {
      "completion_length": 391.0599117279053,
      "epoch": 0.0864,
      "grad_norm": 0.10062549742509476,
      "kl": 0.140045166015625,
      "learning_rate": 3.7081709127108767e-07,
      "loss": 0.0001,
      "reward": 1.4244791939854622,
      "reward_std": 0.2554763099178672,
      "rewards/equation_reward_func": 0.4427083439659327,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 162
    },
    {
      "completion_length": 346.71094512939453,
      "epoch": 0.08746666666666666,
      "grad_norm": 0.07557865430106443,
      "kl": 0.165771484375,
      "learning_rate": 3.6765055290490513e-07,
      "loss": 0.0002,
      "reward": 1.510416716337204,
      "reward_std": 0.23889524163678288,
      "rewards/equation_reward_func": 0.5390625223517418,
      "rewards/format_reward_func": 0.9713541828095913,
      "step": 164
    },
    {
      "completion_length": 374.559907913208,
      "epoch": 0.08853333333333334,
      "grad_norm": 0.09484161296330915,
      "kl": 0.145050048828125,
      "learning_rate": 3.644595817401501e-07,
      "loss": 0.0001,
      "reward": 1.4140625596046448,
      "reward_std": 0.2526052575558424,
      "rewards/equation_reward_func": 0.43229167931713164,
      "rewards/format_reward_func": 0.9817708507180214,
      "step": 166
    },
    {
      "completion_length": 389.614595413208,
      "epoch": 0.0896,
      "grad_norm": 0.10850466477020716,
      "kl": 0.140869140625,
      "learning_rate": 3.6124484045416483e-07,
      "loss": 0.0001,
      "reward": 1.3411458730697632,
      "reward_std": 0.20541261043399572,
      "rewards/equation_reward_func": 0.3515625118743628,
      "rewards/format_reward_func": 0.9895833432674408,
      "step": 168
    },
    {
      "completion_length": 314.33594512939453,
      "epoch": 0.09066666666666667,
      "grad_norm": 0.09160402552556286,
      "kl": 0.159759521484375,
      "learning_rate": 3.580069966606949e-07,
      "loss": 0.0002,
      "reward": 1.4739583805203438,
      "reward_std": 0.2342346585355699,
      "rewards/equation_reward_func": 0.5000000114087015,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 170
    },
    {
      "completion_length": 359.8906354904175,
      "epoch": 0.09173333333333333,
      "grad_norm": 0.09610423165466968,
      "kl": 0.154388427734375,
      "learning_rate": 3.547467227712444e-07,
      "loss": 0.0002,
      "reward": 1.437500037252903,
      "reward_std": 0.1834291499108076,
      "rewards/equation_reward_func": 0.45572918467223644,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 172
    },
    {
      "completion_length": 365.7343854904175,
      "epoch": 0.0928,
      "grad_norm": 0.09889865100739882,
      "kl": 0.15478515625,
      "learning_rate": 3.5146469585543386e-07,
      "loss": 0.0002,
      "reward": 1.414062537252903,
      "reward_std": 0.19458062946796417,
      "rewards/equation_reward_func": 0.4322916797827929,
      "rewards/format_reward_func": 0.9817708432674408,
      "step": 174
    },
    {
      "completion_length": 348.29427909851074,
      "epoch": 0.09386666666666667,
      "grad_norm": 0.09367098793216834,
      "kl": 0.159515380859375,
      "learning_rate": 3.481615975003922e-07,
      "loss": 0.0002,
      "reward": 1.4739583879709244,
      "reward_std": 0.15797653933987021,
      "rewards/equation_reward_func": 0.4921875149011612,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 176
    },
    {
      "completion_length": 357.6145963668823,
      "epoch": 0.09493333333333333,
      "grad_norm": 0.07894542256229298,
      "kl": 0.150299072265625,
      "learning_rate": 3.448381136692089e-07,
      "loss": 0.0002,
      "reward": 1.4401042126119137,
      "reward_std": 0.2548735234886408,
      "rewards/equation_reward_func": 0.4765625074505806,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 178
    },
    {
      "completion_length": 353.8281354904175,
      "epoch": 0.096,
      "grad_norm": 0.10120368862706956,
      "kl": 0.1510009765625,
      "learning_rate": 3.4149493455847897e-07,
      "loss": 0.0002,
      "reward": 1.377604216337204,
      "reward_std": 0.17720257258042693,
      "rewards/equation_reward_func": 0.3932291795499623,
      "rewards/format_reward_func": 0.9843750074505806,
      "step": 180
    },
    {
      "completion_length": 337.3437547683716,
      "epoch": 0.09706666666666666,
      "grad_norm": 0.06857743257585827,
      "kl": 0.171661376953125,
      "learning_rate": 3.3813275445496766e-07,
      "loss": 0.0002,
      "reward": 1.3958333879709244,
      "reward_std": 0.216899492777884,
      "rewards/equation_reward_func": 0.4140625144354999,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 182
    },
    {
      "completion_length": 373.3619899749756,
      "epoch": 0.09813333333333334,
      "grad_norm": 0.07039499292151902,
      "kl": 0.185546875,
      "learning_rate": 3.347522715914262e-07,
      "loss": 0.0002,
      "reward": 1.2838542088866234,
      "reward_std": 0.14952099742367864,
      "rewards/equation_reward_func": 0.29947917186655104,
      "rewards/format_reward_func": 0.9843750037252903,
      "step": 184
    },
    {
      "completion_length": 343.94011783599854,
      "epoch": 0.0992,
      "grad_norm": 0.07557857715641425,
      "kl": 0.172119140625,
      "learning_rate": 3.313541880015877e-07,
      "loss": 0.0002,
      "reward": 1.3671875521540642,
      "reward_std": 0.15858241729438305,
      "rewards/equation_reward_func": 0.380208347691223,
      "rewards/format_reward_func": 0.986979179084301,
      "step": 186
    },
    {
      "completion_length": 360.5390748977661,
      "epoch": 0.10026666666666667,
      "grad_norm": 0.11214755840839478,
      "kl": 0.213623046875,
      "learning_rate": 3.279392093743747e-07,
      "loss": 0.0002,
      "reward": 1.3880208730697632,
      "reward_std": 0.19066602177917957,
      "rewards/equation_reward_func": 0.4010416786186397,
      "rewards/format_reward_func": 0.9869791753590107,
      "step": 188
    },
    {
      "completion_length": 322.72397232055664,
      "epoch": 0.10133333333333333,
      "grad_norm": 0.09281179127833081,
      "kl": 0.2625732421875,
      "learning_rate": 3.245080449073459e-07,
      "loss": 0.0003,
      "reward": 1.4557292088866234,
      "reward_std": 0.21278624143451452,
      "rewards/equation_reward_func": 0.4765625102445483,
      "rewards/format_reward_func": 0.9791666753590107,
      "step": 190
    },
    {
      "completion_length": 337.25261306762695,
      "epoch": 0.1024,
      "grad_norm": 0.12372831662094742,
      "kl": 0.18206787109375,
      "learning_rate": 3.210614071594162e-07,
      "loss": 0.0002,
      "reward": 1.4218750447034836,
      "reward_std": 0.21987988194450736,
      "rewards/equation_reward_func": 0.440104179084301,
      "rewards/format_reward_func": 0.9817708395421505,
      "step": 192
    },
    {
      "completion_length": 344.55729961395264,
      "epoch": 0.10346666666666667,
      "grad_norm": 0.06378441341807725,
      "kl": 0.167724609375,
      "learning_rate": 3.1760001190287695e-07,
      "loss": 0.0002,
      "reward": 1.351562537252903,
      "reward_std": 0.14025551918894053,
      "rewards/equation_reward_func": 0.36979167722165585,
      "rewards/format_reward_func": 0.9817708432674408,
      "step": 194
    },
    {
      "completion_length": 314.03646659851074,
      "epoch": 0.10453333333333334,
      "grad_norm": 0.09003427985578723,
      "kl": 0.17474365234375,
      "learning_rate": 3.141245779747502e-07,
      "loss": 0.0002,
      "reward": 1.4479167237877846,
      "reward_std": 0.2472039177082479,
      "rewards/equation_reward_func": 0.46875001722946763,
      "rewards/format_reward_func": 0.979166679084301,
      "step": 196
    },
    {
      "completion_length": 282.7083406448364,
      "epoch": 0.1056,
      "grad_norm": 0.1290749910466798,
      "kl": 0.21856689453125,
      "learning_rate": 3.106358271275056e-07,
      "loss": 0.0002,
      "reward": 1.476562537252903,
      "reward_std": 0.1649267366155982,
      "rewards/equation_reward_func": 0.4843750186264515,
      "rewards/format_reward_func": 0.9921875074505806,
      "step": 198
    },
    {
      "completion_length": 276.01823806762695,
      "epoch": 0.10666666666666667,
      "grad_norm": 0.08477695235189277,
      "kl": 0.1934814453125,
      "learning_rate": 3.0713448387917227e-07,
      "loss": 0.0002,
      "reward": 1.5468750298023224,
      "reward_std": 0.13912134431302547,
      "rewards/equation_reward_func": 0.552083348389715,
      "rewards/format_reward_func": 0.9947916716337204,
      "step": 200
    },
    {
      "completion_length": 317.55730152130127,
      "epoch": 0.10773333333333333,
      "grad_norm": 2.4369008488049477,
      "kl": 5.66986083984375,
      "learning_rate": 3.0362127536287636e-07,
      "loss": 0.0057,
      "reward": 1.421875037252903,
      "reward_std": 0.16129080019891262,
      "rewards/equation_reward_func": 0.4270833423361182,
      "rewards/format_reward_func": 0.9947916679084301,
      "step": 202
    },
    {
      "completion_length": 321.65625762939453,
      "epoch": 0.1088,
      "grad_norm": 0.09396431699981035,
      "kl": 0.18658447265625,
      "learning_rate": 3.0009693117583523e-07,
      "loss": 0.0002,
      "reward": 1.4348958656191826,
      "reward_std": 0.19856942351907492,
      "rewards/equation_reward_func": 0.453125013737008,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 204
    },
    {
      "completion_length": 330.83855056762695,
      "epoch": 0.10986666666666667,
      "grad_norm": 0.07687252722110068,
      "kl": 0.1839599609375,
      "learning_rate": 2.965621832278401e-07,
      "loss": 0.0002,
      "reward": 1.377604216337204,
      "reward_std": 0.15589443547651172,
      "rewards/equation_reward_func": 0.39583334885537624,
      "rewards/format_reward_func": 0.9817708469927311,
      "step": 206
    },
    {
      "completion_length": 328.23438358306885,
      "epoch": 0.11093333333333333,
      "grad_norm": 0.0810844061250071,
      "kl": 0.1962890625,
      "learning_rate": 2.9301776558925875e-07,
      "loss": 0.0002,
      "reward": 1.3697917014360428,
      "reward_std": 0.20208620419725776,
      "rewards/equation_reward_func": 0.4036458465270698,
      "rewards/format_reward_func": 0.9661458544433117,
      "step": 208
    },
    {
      "completion_length": 313.95313262939453,
      "epoch": 0.112,
      "grad_norm": 0.0851816615508796,
      "kl": 0.23468017578125,
      "learning_rate": 2.894644143385885e-07,
      "loss": 0.0002,
      "reward": 1.3958333767950535,
      "reward_std": 0.18581857532262802,
      "rewards/equation_reward_func": 0.4244791748933494,
      "rewards/format_reward_func": 0.971354179084301,
      "step": 210
    },
    {
      "completion_length": 326.42448806762695,
      "epoch": 0.11306666666666666,
      "grad_norm": 0.0786620471083819,
      "kl": 0.19378662109375,
      "learning_rate": 2.859028674095937e-07,
      "loss": 0.0002,
      "reward": 1.4010417014360428,
      "reward_std": 0.1981433075852692,
      "rewards/equation_reward_func": 0.42708334513008595,
      "rewards/format_reward_func": 0.9739583432674408,
      "step": 212
    },
    {
      "completion_length": 308.4192781448364,
      "epoch": 0.11413333333333334,
      "grad_norm": 0.08352066179848143,
      "kl": 0.189453125,
      "learning_rate": 2.823338644380566e-07,
      "loss": 0.0002,
      "reward": 1.4401042126119137,
      "reward_std": 0.2307603359222412,
      "rewards/equation_reward_func": 0.47135418048128486,
      "rewards/format_reward_func": 0.9687500149011612,
      "step": 214
    },
    {
      "completion_length": 341.86198711395264,
      "epoch": 0.1152,
      "grad_norm": 0.10334760188864624,
      "kl": 0.22479248046875,
      "learning_rate": 2.7875814660817504e-07,
      "loss": 0.0002,
      "reward": 1.3880208693444729,
      "reward_std": 0.2630339222960174,
      "rewards/equation_reward_func": 0.4244791779201478,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 216
    },
    {
      "completion_length": 390.3906364440918,
      "epoch": 0.11626666666666667,
      "grad_norm": 0.1090470945421399,
      "kl": 0.2252197265625,
      "learning_rate": 2.751764564986396e-07,
      "loss": 0.0002,
      "reward": 1.223958358168602,
      "reward_std": 0.23174711503088474,
      "rewards/equation_reward_func": 0.27864584047347307,
      "rewards/format_reward_func": 0.9453125223517418,
      "step": 218
    },
    {
      "completion_length": 329.63282585144043,
      "epoch": 0.11733333333333333,
      "grad_norm": 0.10077949546695844,
      "kl": 0.2005615234375,
      "learning_rate": 2.715895379284194e-07,
      "loss": 0.0002,
      "reward": 1.3958333730697632,
      "reward_std": 0.26168868225067854,
      "rewards/equation_reward_func": 0.4427083469927311,
      "rewards/format_reward_func": 0.9531250223517418,
      "step": 220
    },
    {
      "completion_length": 358.4375104904175,
      "epoch": 0.1184,
      "grad_norm": 0.08964140632655672,
      "kl": 0.21527099609375,
      "learning_rate": 2.6799813580229174e-07,
      "loss": 0.0002,
      "reward": 1.3593750447034836,
      "reward_std": 0.25906086526811123,
      "rewards/equation_reward_func": 0.4036458386108279,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 222
    },
    {
      "completion_length": 343.70834255218506,
      "epoch": 0.11946666666666667,
      "grad_norm": 0.07620045097589506,
      "kl": 0.19964599609375,
      "learning_rate": 2.6440299595614606e-07,
      "loss": 0.0002,
      "reward": 1.3307291939854622,
      "reward_std": 0.2277261232957244,
      "rewards/equation_reward_func": 0.3697916753590107,
      "rewards/format_reward_func": 0.9609375223517418,
      "step": 224
    },
    {
      "completion_length": 343.32032108306885,
      "epoch": 0.12053333333333334,
      "grad_norm": 0.08700892029776192,
      "kl": 0.2109375,
      "learning_rate": 2.6080486500209347e-07,
      "loss": 0.0002,
      "reward": 1.3541667014360428,
      "reward_std": 0.21279292972758412,
      "rewards/equation_reward_func": 0.40104167512618005,
      "rewards/format_reward_func": 0.9531250149011612,
      "step": 226
    },
    {
      "completion_length": 275.88542556762695,
      "epoch": 0.1216,
      "grad_norm": 0.11035562445594559,
      "kl": 0.202880859375,
      "learning_rate": 2.572044901734166e-07,
      "loss": 0.0002,
      "reward": 1.5833333730697632,
      "reward_std": 0.25712650874629617,
      "rewards/equation_reward_func": 0.6197916865348816,
      "rewards/format_reward_func": 0.9635416716337204,
      "step": 228
    },
    {
      "completion_length": 314.13542318344116,
      "epoch": 0.12266666666666666,
      "grad_norm": 0.10200349640738855,
      "kl": 0.21881103515625,
      "learning_rate": 2.536026191693893e-07,
      "loss": 0.0002,
      "reward": 1.4505208693444729,
      "reward_std": 0.29838538402691483,
      "rewards/equation_reward_func": 0.5156250093132257,
      "rewards/format_reward_func": 0.9348958544433117,
      "step": 230
    },
    {
      "completion_length": 334.46615505218506,
      "epoch": 0.12373333333333333,
      "grad_norm": 0.104610809797409,
      "kl": 0.20111083984375,
      "learning_rate": 2.5e-07,
      "loss": 0.0002,
      "reward": 1.4479166939854622,
      "reward_std": 0.32854113075882196,
      "rewards/equation_reward_func": 0.4921875128056854,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 232
    },
    {
      "completion_length": 348.3463592529297,
      "epoch": 0.1248,
      "grad_norm": 0.11970668433207705,
      "kl": 0.21832275390625,
      "learning_rate": 2.4639738083061073e-07,
      "loss": 0.0002,
      "reward": 1.2968750409781933,
      "reward_std": 0.28170605981722474,
      "rewards/equation_reward_func": 0.35937500884756446,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 234
    },
    {
      "completion_length": 353.0625104904175,
      "epoch": 0.12586666666666665,
      "grad_norm": 0.11146940462264297,
      "kl": 0.2242431640625,
      "learning_rate": 2.4279550982658345e-07,
      "loss": 0.0002,
      "reward": 1.283854205161333,
      "reward_std": 0.2352255848236382,
      "rewards/equation_reward_func": 0.3359375107102096,
      "rewards/format_reward_func": 0.9479166828095913,
      "step": 236
    },
    {
      "completion_length": 328.27865982055664,
      "epoch": 0.12693333333333334,
      "grad_norm": 0.09019157224178884,
      "kl": 0.2286376953125,
      "learning_rate": 2.3919513499790646e-07,
      "loss": 0.0002,
      "reward": 1.4036458767950535,
      "reward_std": 0.2419091323390603,
      "rewards/equation_reward_func": 0.4557291849050671,
      "rewards/format_reward_func": 0.947916679084301,
      "step": 238
    },
    {
      "completion_length": 292.41146755218506,
      "epoch": 0.128,
      "grad_norm": 0.11216015195235872,
      "kl": 0.20770263671875,
      "learning_rate": 2.3559700404385394e-07,
      "loss": 0.0002,
      "reward": 1.4218750521540642,
      "reward_std": 0.214123603887856,
      "rewards/equation_reward_func": 0.45833334303461015,
      "rewards/format_reward_func": 0.963541679084301,
      "step": 240
    },
    {
      "completion_length": 289.44011306762695,
      "epoch": 0.12906666666666666,
      "grad_norm": 0.06748907528166415,
      "kl": 0.21905517578125,
      "learning_rate": 2.3200186419770823e-07,
      "loss": 0.0002,
      "reward": 1.4973958730697632,
      "reward_std": 0.21762575302273035,
      "rewards/equation_reward_func": 0.5390625144354999,
      "rewards/format_reward_func": 0.9583333544433117,
      "step": 242
    },
    {
      "completion_length": 312.97396659851074,
      "epoch": 0.13013333333333332,
      "grad_norm": 0.08585761519803439,
      "kl": 0.22705078125,
      "learning_rate": 2.284104620715807e-07,
      "loss": 0.0002,
      "reward": 1.382812537252903,
      "reward_std": 0.2223974741064012,
      "rewards/equation_reward_func": 0.4218750149011612,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 244
    },
    {
      "completion_length": 281.0208377838135,
      "epoch": 0.1312,
      "grad_norm": 0.09243139356469632,
      "kl": 0.22540283203125,
      "learning_rate": 2.2482354350136043e-07,
      "loss": 0.0002,
      "reward": 1.4947917088866234,
      "reward_std": 0.23069008206948638,
      "rewards/equation_reward_func": 0.5208333479240537,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 246
    },
    {
      "completion_length": 301.8541736602783,
      "epoch": 0.13226666666666667,
      "grad_norm": 0.09610646803963738,
      "kl": 0.22479248046875,
      "learning_rate": 2.2124185339182496e-07,
      "loss": 0.0002,
      "reward": 1.3802083730697632,
      "reward_std": 0.1815217286348343,
      "rewards/equation_reward_func": 0.4270833432674408,
      "rewards/format_reward_func": 0.9531250186264515,
      "step": 248
    },
    {
      "completion_length": 347.1015729904175,
      "epoch": 0.13333333333333333,
      "grad_norm": 0.1746681094283612,
      "kl": 0.23883056640625,
      "learning_rate": 2.1766613556194344e-07,
      "loss": 0.0002,
      "reward": 1.2213542088866234,
      "reward_std": 0.22283816616982222,
      "rewards/equation_reward_func": 0.26041667559184134,
      "rewards/format_reward_func": 0.9609375149011612,
      "step": 250
    },
    {
      "completion_length": 293.10677909851074,
      "epoch": 0.1344,
      "grad_norm": 0.07969455343084161,
      "kl": 0.305419921875,
      "learning_rate": 2.1409713259040628e-07,
      "loss": 0.0003,
      "reward": 1.4114583730697632,
      "reward_std": 0.2006126595661044,
      "rewards/equation_reward_func": 0.432291679084301,
      "rewards/format_reward_func": 0.9791666753590107,
      "step": 252
    },
    {
      "completion_length": 295.825532913208,
      "epoch": 0.13546666666666668,
      "grad_norm": 0.11043203499359036,
      "kl": 0.215087890625,
      "learning_rate": 2.105355856614115e-07,
      "loss": 0.0002,
      "reward": 1.4114583730697632,
      "reward_std": 0.3007270940579474,
      "rewards/equation_reward_func": 0.46354168374091387,
      "rewards/format_reward_func": 0.9479166828095913,
      "step": 254
    },
    {
      "completion_length": 295.0286531448364,
      "epoch": 0.13653333333333334,
      "grad_norm": 0.10604018583177363,
      "kl": 0.2293701171875,
      "learning_rate": 2.069822344107413e-07,
      "loss": 0.0002,
      "reward": 1.4401042088866234,
      "reward_std": 0.16259960131719708,
      "rewards/equation_reward_func": 0.46875001303851604,
      "rewards/format_reward_func": 0.9713541828095913,
      "step": 256
    },
    {
      "completion_length": 312.09897232055664,
      "epoch": 0.1376,
      "grad_norm": 0.11581309250324548,
      "kl": 0.22454833984375,
      "learning_rate": 2.034378167721599e-07,
      "loss": 0.0002,
      "reward": 1.3411458618938923,
      "reward_std": 0.31250663055107,
      "rewards/equation_reward_func": 0.39322918001562357,
      "rewards/format_reward_func": 0.9479166939854622,
      "step": 258
    },
    {
      "completion_length": 301.36980152130127,
      "epoch": 0.13866666666666666,
      "grad_norm": 0.10375800085599599,
      "kl": 0.24493408203125,
      "learning_rate": 1.9990306882416485e-07,
      "loss": 0.0002,
      "reward": 1.4635416977107525,
      "reward_std": 0.2693312247283757,
      "rewards/equation_reward_func": 0.5104166809469461,
      "rewards/format_reward_func": 0.9531250149011612,
      "step": 260
    },
    {
      "completion_length": 314.0885524749756,
      "epoch": 0.13973333333333332,
      "grad_norm": 0.1087966329523751,
      "kl": 0.222900390625,
      "learning_rate": 1.9637872463712362e-07,
      "loss": 0.0002,
      "reward": 1.4062500409781933,
      "reward_std": 0.26262100599706173,
      "rewards/equation_reward_func": 0.44270834792405367,
      "rewards/format_reward_func": 0.963541679084301,
      "step": 262
    },
    {
      "completion_length": 281.7239646911621,
      "epoch": 0.1408,
      "grad_norm": 0.09695420136164315,
      "kl": 0.26971435546875,
      "learning_rate": 1.9286551612082773e-07,
      "loss": 0.0003,
      "reward": 1.4479167088866234,
      "reward_std": 0.2460037199780345,
      "rewards/equation_reward_func": 0.48697918094694614,
      "rewards/format_reward_func": 0.9609375149011612,
      "step": 264
    },
    {
      "completion_length": 315.37240505218506,
      "epoch": 0.14186666666666667,
      "grad_norm": 0.10037156483806228,
      "kl": 0.24798583984375,
      "learning_rate": 1.8936417287249446e-07,
      "loss": 0.0002,
      "reward": 1.3385417088866234,
      "reward_std": 0.2581388554535806,
      "rewards/equation_reward_func": 0.39583334466442466,
      "rewards/format_reward_func": 0.9427083469927311,
      "step": 266
    },
    {
      "completion_length": 334.924485206604,
      "epoch": 0.14293333333333333,
      "grad_norm": 0.15279355937220046,
      "kl": 0.26873779296875,
      "learning_rate": 1.8587542202524985e-07,
      "loss": 0.0003,
      "reward": 1.268229205161333,
      "reward_std": 0.28603212209418416,
      "rewards/equation_reward_func": 0.3177083428017795,
      "rewards/format_reward_func": 0.9505208544433117,
      "step": 268
    },
    {
      "completion_length": 292.8906297683716,
      "epoch": 0.144,
      "grad_norm": 0.09627939797808117,
      "kl": 0.25811767578125,
      "learning_rate": 1.82399988097123e-07,
      "loss": 0.0003,
      "reward": 1.3828125335276127,
      "reward_std": 0.240143911447376,
      "rewards/equation_reward_func": 0.4479166786186397,
      "rewards/format_reward_func": 0.9348958544433117,
      "step": 270
    },
    {
      "completion_length": 303.7291774749756,
      "epoch": 0.14506666666666668,
      "grad_norm": 0.09414307623625273,
      "kl": 0.25408935546875,
      "learning_rate": 1.7893859284058378e-07,
      "loss": 0.0003,
      "reward": 1.3671875298023224,
      "reward_std": 0.24746731435880065,
      "rewards/equation_reward_func": 0.4218750111758709,
      "rewards/format_reward_func": 0.9453125149011612,
      "step": 272
    },
    {
      "completion_length": 276.94792318344116,
      "epoch": 0.14613333333333334,
      "grad_norm": 0.1299701036522939,
      "kl": 0.57366943359375,
      "learning_rate": 1.7549195509265407e-07,
      "loss": 0.0006,
      "reward": 1.4348958730697632,
      "reward_std": 0.2572689475491643,
      "rewards/equation_reward_func": 0.4791666748933494,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 274
    },
    {
      "completion_length": 248.166672706604,
      "epoch": 0.1472,
      "grad_norm": 0.08206460484425186,
      "kl": 0.256103515625,
      "learning_rate": 1.7206079062562536e-07,
      "loss": 0.0003,
      "reward": 1.5833333656191826,
      "reward_std": 0.21109008882194757,
      "rewards/equation_reward_func": 0.6145833458285779,
      "rewards/format_reward_func": 0.9687500260770321,
      "step": 276
    },
    {
      "completion_length": 305.27865409851074,
      "epoch": 0.14826666666666666,
      "grad_norm": 0.10621644156716899,
      "kl": 0.2762451171875,
      "learning_rate": 1.6864581199841226e-07,
      "loss": 0.0003,
      "reward": 1.312500026077032,
      "reward_std": 0.24705103458836675,
      "rewards/equation_reward_func": 0.36718751094304025,
      "rewards/format_reward_func": 0.9453125186264515,
      "step": 278
    },
    {
      "completion_length": 286.6406297683716,
      "epoch": 0.14933333333333335,
      "grad_norm": 0.10751127049009096,
      "kl": 0.26580810546875,
      "learning_rate": 1.6524772840857388e-07,
      "loss": 0.0003,
      "reward": 1.3072916977107525,
      "reward_std": 0.2637113491073251,
      "rewards/equation_reward_func": 0.38281250768341124,
      "rewards/format_reward_func": 0.9244791865348816,
      "step": 280
    },
    {
      "completion_length": 275.32552909851074,
      "epoch": 0.1504,
      "grad_norm": 0.10203495847611208,
      "kl": 0.29620361328125,
      "learning_rate": 1.6186724554503237e-07,
      "loss": 0.0003,
      "reward": 1.4687500409781933,
      "reward_std": 0.23805115604773164,
      "rewards/equation_reward_func": 0.5156250128056854,
      "rewards/format_reward_func": 0.9531250186264515,
      "step": 282
    },
    {
      "completion_length": 312.76823806762695,
      "epoch": 0.15146666666666667,
      "grad_norm": 0.09010102560559675,
      "kl": 0.26605224609375,
      "learning_rate": 1.5850506544152103e-07,
      "loss": 0.0003,
      "reward": 1.2786458618938923,
      "reward_std": 0.27972705382853746,
      "rewards/equation_reward_func": 0.35156250977888703,
      "rewards/format_reward_func": 0.9270833432674408,
      "step": 284
    },
    {
      "completion_length": 263.97916984558105,
      "epoch": 0.15253333333333333,
      "grad_norm": 0.09699956880184334,
      "kl": 0.271728515625,
      "learning_rate": 1.5516188633079107e-07,
      "loss": 0.0003,
      "reward": 1.4088542088866234,
      "reward_std": 0.21715012891218066,
      "rewards/equation_reward_func": 0.432291679084301,
      "rewards/format_reward_func": 0.9765625186264515,
      "step": 286
    },
    {
      "completion_length": 284.93750762939453,
      "epoch": 0.1536,
      "grad_norm": 0.13730205530993134,
      "kl": 0.26202392578125,
      "learning_rate": 1.5183840249960784e-07,
      "loss": 0.0003,
      "reward": 1.2916666977107525,
      "reward_std": 0.2690475699491799,
      "rewards/equation_reward_func": 0.3411458432674408,
      "rewards/format_reward_func": 0.9505208507180214,
      "step": 288
    },
    {
      "completion_length": 313.8724036216736,
      "epoch": 0.15466666666666667,
      "grad_norm": 0.10982987970993405,
      "kl": 0.25787353515625,
      "learning_rate": 1.4853530414456612e-07,
      "loss": 0.0003,
      "reward": 1.3359375447034836,
      "reward_std": 0.28103851480409503,
      "rewards/equation_reward_func": 0.38020834419876337,
      "rewards/format_reward_func": 0.9557291865348816,
      "step": 290
    },
    {
      "completion_length": 280.13021659851074,
      "epoch": 0.15573333333333333,
      "grad_norm": 0.10569696273751499,
      "kl": 0.2752685546875,
      "learning_rate": 1.4525327722875568e-07,
      "loss": 0.0003,
      "reward": 1.3723958730697632,
      "reward_std": 0.253665282856673,
      "rewards/equation_reward_func": 0.4270833453629166,
      "rewards/format_reward_func": 0.9453125223517418,
      "step": 292
    },
    {
      "completion_length": 266.9010486602783,
      "epoch": 0.1568,
      "grad_norm": 0.1273947740183966,
      "kl": 0.2657470703125,
      "learning_rate": 1.4199300333930515e-07,
      "loss": 0.0003,
      "reward": 1.4635417088866234,
      "reward_std": 0.28517728950828314,
      "rewards/equation_reward_func": 0.5026041837409139,
      "rewards/format_reward_func": 0.9609375111758709,
      "step": 294
    },
    {
      "completion_length": 328.830735206604,
      "epoch": 0.15786666666666666,
      "grad_norm": 0.1699855426323704,
      "kl": 0.2620849609375,
      "learning_rate": 1.3875515954583523e-07,
      "loss": 0.0003,
      "reward": 1.2187500447034836,
      "reward_std": 0.3317327341064811,
      "rewards/equation_reward_func": 0.2942708428017795,
      "rewards/format_reward_func": 0.9244791902601719,
      "step": 296
    },
    {
      "completion_length": 329.12240982055664,
      "epoch": 0.15893333333333334,
      "grad_norm": 0.14001227147909825,
      "kl": 0.27099609375,
      "learning_rate": 1.3554041825985e-07,
      "loss": 0.0003,
      "reward": 1.1979167014360428,
      "reward_std": 0.2845407989807427,
      "rewards/equation_reward_func": 0.28125000931322575,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 298
    },
    {
      "completion_length": 283.0989661216736,
      "epoch": 0.16,
      "grad_norm": 0.10223346879835553,
      "kl": 0.24761962890625,
      "learning_rate": 1.323494470950949e-07,
      "loss": 0.0002,
      "reward": 1.429687537252903,
      "reward_std": 0.26960491156205535,
      "rewards/equation_reward_func": 0.47135418094694614,
      "rewards/format_reward_func": 0.9583333544433117,
      "step": 300
    },
    {
      "completion_length": 254.60156726837158,
      "epoch": 0.16106666666666666,
      "grad_norm": 0.08918786164304986,
      "kl": 0.260986328125,
      "learning_rate": 1.2918290872891236e-07,
      "loss": 0.0003,
      "reward": 1.4348958805203438,
      "reward_std": 0.15168809751048684,
      "rewards/equation_reward_func": 0.458333347691223,
      "rewards/format_reward_func": 0.9765625111758709,
      "step": 302
    },
    {
      "completion_length": 280.38021516799927,
      "epoch": 0.16213333333333332,
      "grad_norm": 0.10981016883182508,
      "kl": 0.26275634765625,
      "learning_rate": 1.260414607646213e-07,
      "loss": 0.0003,
      "reward": 1.3880208618938923,
      "reward_std": 0.2798879165202379,
      "rewards/equation_reward_func": 0.42708334303461015,
      "rewards/format_reward_func": 0.9609375111758709,
      "step": 304
    },
    {
      "completion_length": 236.63802528381348,
      "epoch": 0.1632,
      "grad_norm": 0.1126860308935798,
      "kl": 0.24639892578125,
      "learning_rate": 1.2292575559495143e-07,
      "loss": 0.0002,
      "reward": 1.5338541939854622,
      "reward_std": 0.21581484470516443,
      "rewards/equation_reward_func": 0.5598958488553762,
      "rewards/format_reward_func": 0.9739583507180214,
      "step": 306
    },
    {
      "completion_length": 274.51823902130127,
      "epoch": 0.16426666666666667,
      "grad_norm": 0.11433058952931557,
      "kl": 0.2418212890625,
      "learning_rate": 1.1983644026655835e-07,
      "loss": 0.0002,
      "reward": 1.3984375298023224,
      "reward_std": 0.2787149855867028,
      "rewards/equation_reward_func": 0.4505208458285779,
      "rewards/format_reward_func": 0.9479166828095913,
      "step": 308
    },
    {
      "completion_length": 269.51303005218506,
      "epoch": 0.16533333333333333,
      "grad_norm": 0.10900628538932935,
      "kl": 0.2515869140625,
      "learning_rate": 1.1677415634565066e-07,
      "loss": 0.0003,
      "reward": 1.4531250298023224,
      "reward_std": 0.21808092296123505,
      "rewards/equation_reward_func": 0.5026041760575026,
      "rewards/format_reward_func": 0.950520858168602,
      "step": 310
    },
    {
      "completion_length": 276.29948711395264,
      "epoch": 0.1664,
      "grad_norm": 0.10471445766441949,
      "kl": 0.24822998046875,
      "learning_rate": 1.1373953978475353e-07,
      "loss": 0.0002,
      "reward": 1.4088542014360428,
      "reward_std": 0.2563867177814245,
      "rewards/equation_reward_func": 0.4557291786186397,
      "rewards/format_reward_func": 0.9531250260770321,
      "step": 312
    },
    {
      "completion_length": 281.54167652130127,
      "epoch": 0.16746666666666668,
      "grad_norm": 0.11476171924959432,
      "kl": 0.25030517578125,
      "learning_rate": 1.1073322079063913e-07,
      "loss": 0.0003,
      "reward": 1.419270884245634,
      "reward_std": 0.2665014350786805,
      "rewards/equation_reward_func": 0.46354168374091387,
      "rewards/format_reward_func": 0.9557291865348816,
      "step": 314
    },
    {
      "completion_length": 282.43490409851074,
      "epoch": 0.16853333333333334,
      "grad_norm": 0.0841971248428421,
      "kl": 0.21875,
      "learning_rate": 1.0775582369344946e-07,
      "loss": 0.0002,
      "reward": 1.424479216337204,
      "reward_std": 0.2608643379062414,
      "rewards/equation_reward_func": 0.46875001303851604,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 316
    },
    {
      "completion_length": 273.4349060058594,
      "epoch": 0.1696,
      "grad_norm": 0.09515899802774246,
      "kl": 0.24407958984375,
      "learning_rate": 1.0480796681704077e-07,
      "loss": 0.0002,
      "reward": 1.4010417088866234,
      "reward_std": 0.2546477783471346,
      "rewards/equation_reward_func": 0.4453125174622983,
      "rewards/format_reward_func": 0.9557291865348816,
      "step": 318
    },
    {
      "completion_length": 316.6458435058594,
      "epoch": 0.17066666666666666,
      "grad_norm": 0.099987410497596,
      "kl": 0.23638916015625,
      "learning_rate": 1.018902623505741e-07,
      "loss": 0.0002,
      "reward": 1.2942708656191826,
      "reward_std": 0.29723000014200807,
      "rewards/equation_reward_func": 0.3671875111758709,
      "rewards/format_reward_func": 0.927083358168602,
      "step": 320
    },
    {
      "completion_length": 288.893235206604,
      "epoch": 0.17173333333333332,
      "grad_norm": 0.11246455050265577,
      "kl": 0.23480224609375,
      "learning_rate": 9.900331622138063e-08,
      "loss": 0.0002,
      "reward": 1.3723958730697632,
      "reward_std": 0.289981079287827,
      "rewards/equation_reward_func": 0.4114583421032876,
      "rewards/format_reward_func": 0.9609375149011612,
      "step": 322
    },
    {
      "completion_length": 264.9921979904175,
      "epoch": 0.1728,
      "grad_norm": 0.10025221120521255,
      "kl": 0.24884033203125,
      "learning_rate": 9.614772796912681e-08,
      "loss": 0.0002,
      "reward": 1.398437537252903,
      "reward_std": 0.21295037120580673,
      "rewards/equation_reward_func": 0.4296875102445483,
      "rewards/format_reward_func": 0.9687500111758709,
      "step": 324
    },
    {
      "completion_length": 283.9114661216736,
      "epoch": 0.17386666666666667,
      "grad_norm": 0.08393060980669469,
      "kl": 0.2662353515625,
      "learning_rate": 9.332409062130686e-08,
      "loss": 0.0003,
      "reward": 1.3046875298023224,
      "reward_std": 0.211736383382231,
      "rewards/equation_reward_func": 0.3437500102445483,
      "rewards/format_reward_func": 0.9609375149011612,
      "step": 326
    },
    {
      "completion_length": 280.97657108306885,
      "epoch": 0.17493333333333333,
      "grad_norm": 0.09266235555090595,
      "kl": 0.26544189453125,
      "learning_rate": 9.053299057008699e-08,
      "loss": 0.0003,
      "reward": 1.3619792014360428,
      "reward_std": 0.18739549908787012,
      "rewards/equation_reward_func": 0.40364584513008595,
      "rewards/format_reward_func": 0.9583333544433117,
      "step": 328
    },
    {
      "completion_length": 266.9140729904175,
      "epoch": 0.176,
      "grad_norm": 0.17475099073751835,
      "kl": 0.24237060546875,
      "learning_rate": 8.777500745052743e-08,
      "loss": 0.0002,
      "reward": 1.4192708879709244,
      "reward_std": 0.2251653028652072,
      "rewards/equation_reward_func": 0.45312501629814506,
      "rewards/format_reward_func": 0.9661458544433117,
      "step": 330
    },
    {
      "completion_length": 281.2734489440918,
      "epoch": 0.17706666666666668,
      "grad_norm": 0.11185068411943261,
      "kl": 0.24456787109375,
      "learning_rate": 8.505071402020892e-08,
      "loss": 0.0002,
      "reward": 1.393229216337204,
      "reward_std": 0.2644071178510785,
      "rewards/equation_reward_func": 0.4453125111758709,
      "rewards/format_reward_func": 0.947916679084301,
      "step": 332
    },
    {
      "completion_length": 283.9192819595337,
      "epoch": 0.17813333333333334,
      "grad_norm": 0.14116520705594282,
      "kl": 0.2410888671875,
      "learning_rate": 8.236067604028562e-08,
      "loss": 0.0002,
      "reward": 1.3723958656191826,
      "reward_std": 0.2818891149945557,
      "rewards/equation_reward_func": 0.41406250931322575,
      "rewards/format_reward_func": 0.9583333544433117,
      "step": 334
    },
    {
      "completion_length": 260.65104579925537,
      "epoch": 0.1792,
      "grad_norm": 0.1336225513443869,
      "kl": 0.239501953125,
      "learning_rate": 7.970545215799327e-08,
      "loss": 0.0002,
      "reward": 1.4869791939854622,
      "reward_std": 0.28690007980912924,
      "rewards/equation_reward_func": 0.5390625186264515,
      "rewards/format_reward_func": 0.9479166902601719,
      "step": 336
    },
    {
      "completion_length": 248.3099012374878,
      "epoch": 0.18026666666666666,
      "grad_norm": 0.09856720056681173,
      "kl": 0.23907470703125,
      "learning_rate": 7.708559379063204e-08,
      "loss": 0.0002,
      "reward": 1.4817708656191826,
      "reward_std": 0.23133338056504726,
      "rewards/equation_reward_func": 0.5260416767559946,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 338
    },
    {
      "completion_length": 290.5052146911621,
      "epoch": 0.18133333333333335,
      "grad_norm": 0.1122615481772805,
      "kl": 0.24444580078125,
      "learning_rate": 7.45016450110534e-08,
      "loss": 0.0002,
      "reward": 1.2838542014360428,
      "reward_std": 0.2104581743478775,
      "rewards/equation_reward_func": 0.32291667233221233,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 340
    },
    {
      "completion_length": 284.09896516799927,
      "epoch": 0.1824,
      "grad_norm": 0.09965326339693975,
      "kl": 0.2493896484375,
      "learning_rate": 7.195414243467029e-08,
      "loss": 0.0002,
      "reward": 1.3906250335276127,
      "reward_std": 0.27104497281834483,
      "rewards/equation_reward_func": 0.4401041779201478,
      "rewards/format_reward_func": 0.9505208469927311,
      "step": 342
    },
    {
      "completion_length": 282.057297706604,
      "epoch": 0.18346666666666667,
      "grad_norm": 0.08762325381098879,
      "kl": 0.32757568359375,
      "learning_rate": 6.944361510801763e-08,
      "loss": 0.0003,
      "reward": 1.2994792014360428,
      "reward_std": 0.23241478390991688,
      "rewards/equation_reward_func": 0.3385416711680591,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 344
    },
    {
      "completion_length": 279.9739685058594,
      "epoch": 0.18453333333333333,
      "grad_norm": 0.14683183029957406,
      "kl": 0.6046142578125,
      "learning_rate": 6.697058439888283e-08,
      "loss": 0.0006,
      "reward": 1.3697917088866234,
      "reward_std": 0.26870738714933395,
      "rewards/equation_reward_func": 0.41406251629814506,
      "rewards/format_reward_func": 0.955729179084301,
      "step": 346
    },
    {
      "completion_length": 270.08594703674316,
      "epoch": 0.1856,
      "grad_norm": 0.12276857645312758,
      "kl": 0.24163818359375,
      "learning_rate": 6.453556388803288e-08,
      "loss": 0.0002,
      "reward": 1.4062500484287739,
      "reward_std": 0.28894974663853645,
      "rewards/equation_reward_func": 0.4557291795499623,
      "rewards/format_reward_func": 0.9505208544433117,
      "step": 348
    },
    {
      "completion_length": 256.07552909851074,
      "epoch": 0.18666666666666668,
      "grad_norm": 0.1261473193256241,
      "kl": 0.29376220703125,
      "learning_rate": 6.213905926255697e-08,
      "loss": 0.0003,
      "reward": 1.4479167014360428,
      "reward_std": 0.250754666980356,
      "rewards/equation_reward_func": 0.5078125149011612,
      "rewards/format_reward_func": 0.9401041902601719,
      "step": 350
    },
    {
      "completion_length": 249.1354274749756,
      "epoch": 0.18773333333333334,
      "grad_norm": 0.08506597582252638,
      "kl": 0.244384765625,
      "learning_rate": 5.978156821084987e-08,
      "loss": 0.0002,
      "reward": 1.432291705161333,
      "reward_std": 0.19336163811385632,
      "rewards/equation_reward_func": 0.47916667349636555,
      "rewards/format_reward_func": 0.9531250260770321,
      "step": 352
    },
    {
      "completion_length": 277.8489685058594,
      "epoch": 0.1888,
      "grad_norm": 0.12037895470125451,
      "kl": 0.23748779296875,
      "learning_rate": 5.7463580319254853e-08,
      "loss": 0.0002,
      "reward": 1.3437500521540642,
      "reward_std": 0.2519768704660237,
      "rewards/equation_reward_func": 0.4114583432674408,
      "rewards/format_reward_func": 0.9322916865348816,
      "step": 354
    },
    {
      "completion_length": 252.59375858306885,
      "epoch": 0.18986666666666666,
      "grad_norm": 0.11733297431372698,
      "kl": 0.239013671875,
      "learning_rate": 5.518557697039081e-08,
      "loss": 0.0002,
      "reward": 1.4557292014360428,
      "reward_std": 0.2128398958593607,
      "rewards/equation_reward_func": 0.4921875107102096,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 356
    },
    {
      "completion_length": 252.0677137374878,
      "epoch": 0.19093333333333334,
      "grad_norm": 0.08775856965094549,
      "kl": 2.04522705078125,
      "learning_rate": 5.294803124318145e-08,
      "loss": 0.0021,
      "reward": 1.5104167088866234,
      "reward_std": 0.2261988613754511,
      "rewards/equation_reward_func": 0.5338541800156236,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 358
    },
    {
      "completion_length": 266.70313262939453,
      "epoch": 0.192,
      "grad_norm": 0.10933086508784831,
      "kl": 0.2430419921875,
      "learning_rate": 5.07514078146106e-08,
      "loss": 0.0002,
      "reward": 1.3984375409781933,
      "reward_std": 0.22465246403589845,
      "rewards/equation_reward_func": 0.4401041786186397,
      "rewards/format_reward_func": 0.9583333507180214,
      "step": 360
    },
    {
      "completion_length": 244.33073902130127,
      "epoch": 0.19306666666666666,
      "grad_norm": 0.09058401208636457,
      "kl": 0.2347412109375,
      "learning_rate": 4.859616286322094e-08,
      "loss": 0.0002,
      "reward": 1.4895833730697632,
      "reward_std": 0.20016511622816324,
      "rewards/equation_reward_func": 0.5260416809469461,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 362
    },
    {
      "completion_length": 254.1927146911621,
      "epoch": 0.19413333333333332,
      "grad_norm": 0.06760472710437652,
      "kl": 0.24163818359375,
      "learning_rate": 4.648274397437829e-08,
      "loss": 0.0002,
      "reward": 1.416666705161333,
      "reward_std": 0.1794181428849697,
      "rewards/equation_reward_func": 0.447916679084301,
      "rewards/format_reward_func": 0.9687500186264515,
      "step": 364
    },
    {
      "completion_length": 265.5052156448364,
      "epoch": 0.1952,
      "grad_norm": 0.09934227406541099,
      "kl": 0.24114990234375,
      "learning_rate": 4.4411590047320617e-08,
      "loss": 0.0002,
      "reward": 1.437500037252903,
      "reward_std": 0.23727863328531384,
      "rewards/equation_reward_func": 0.47916667722165585,
      "rewards/format_reward_func": 0.9583333507180214,
      "step": 366
    },
    {
      "completion_length": 287.24219131469727,
      "epoch": 0.19626666666666667,
      "grad_norm": 0.08869368411582416,
      "kl": 0.2509765625,
      "learning_rate": 4.2383131204010494e-08,
      "loss": 0.0003,
      "reward": 1.3229166977107525,
      "reward_std": 0.2696537869051099,
      "rewards/equation_reward_func": 0.36718750558793545,
      "rewards/format_reward_func": 0.9557291828095913,
      "step": 368
    },
    {
      "completion_length": 250.90886116027832,
      "epoch": 0.19733333333333333,
      "grad_norm": 0.11141469624967881,
      "kl": 0.2425537109375,
      "learning_rate": 4.039778869981064e-08,
      "loss": 0.0002,
      "reward": 1.408854205161333,
      "reward_std": 0.2594145955517888,
      "rewards/equation_reward_func": 0.45572917349636555,
      "rewards/format_reward_func": 0.9531250223517418,
      "step": 370
    },
    {
      "completion_length": 288.8619861602783,
      "epoch": 0.1984,
      "grad_norm": 0.09328173881518842,
      "kl": 0.260009765625,
      "learning_rate": 3.845597483600049e-08,
      "loss": 0.0003,
      "reward": 1.2708333618938923,
      "reward_std": 0.24974829843267798,
      "rewards/equation_reward_func": 0.3281250046566129,
      "rewards/format_reward_func": 0.942708358168602,
      "step": 372
    },
    {
      "completion_length": 257.04167652130127,
      "epoch": 0.19946666666666665,
      "grad_norm": 0.11987502766296552,
      "kl": 0.26214599609375,
      "learning_rate": 3.655809287415284e-08,
      "loss": 0.0003,
      "reward": 1.4140625521540642,
      "reward_std": 0.23185446253046393,
      "rewards/equation_reward_func": 0.45572918001562357,
      "rewards/format_reward_func": 0.9583333544433117,
      "step": 374
    },
    {
      "completion_length": 246.8671932220459,
      "epoch": 0.20053333333333334,
      "grad_norm": 0.07938676127449044,
      "kl": 0.2530517578125,
      "learning_rate": 3.4704536952387285e-08,
      "loss": 0.0003,
      "reward": 1.4531250298023224,
      "reward_std": 0.2485762145370245,
      "rewards/equation_reward_func": 0.4843750090803951,
      "rewards/format_reward_func": 0.9687500186264515,
      "step": 376
    },
    {
      "completion_length": 271.40625762939453,
      "epoch": 0.2016,
      "grad_norm": 0.10397425885690677,
      "kl": 0.253662109375,
      "learning_rate": 3.2895692003518575e-08,
      "loss": 0.0003,
      "reward": 1.372395884245634,
      "reward_std": 0.2290022149682045,
      "rewards/equation_reward_func": 0.419270847691223,
      "rewards/format_reward_func": 0.9531250149011612,
      "step": 378
    },
    {
      "completion_length": 277.70313262939453,
      "epoch": 0.20266666666666666,
      "grad_norm": 0.11176010513775461,
      "kl": 0.2552490234375,
      "learning_rate": 3.113193367511635e-08,
      "loss": 0.0003,
      "reward": 1.3489583693444729,
      "reward_std": 0.3045574314892292,
      "rewards/equation_reward_func": 0.4114583481568843,
      "rewards/format_reward_func": 0.9375000186264515,
      "step": 380
    },
    {
      "completion_length": 264.783860206604,
      "epoch": 0.20373333333333332,
      "grad_norm": 0.09633127157125651,
      "kl": 0.2548828125,
      "learning_rate": 2.9413628251493934e-08,
      "loss": 0.0003,
      "reward": 1.3932292014360428,
      "reward_std": 0.26427287235856056,
      "rewards/equation_reward_func": 0.4401041737291962,
      "rewards/format_reward_func": 0.9531250111758709,
      "step": 382
    },
    {
      "completion_length": 249.04167366027832,
      "epoch": 0.2048,
      "grad_norm": 0.06042361226548213,
      "kl": 0.25054931640625,
      "learning_rate": 2.774113257764066e-08,
      "loss": 0.0003,
      "reward": 1.4322917088866234,
      "reward_std": 0.19768574135378003,
      "rewards/equation_reward_func": 0.4817708507180214,
      "rewards/format_reward_func": 0.9505208469927311,
      "step": 384
    },
    {
      "completion_length": 289.47136306762695,
      "epoch": 0.20586666666666667,
      "grad_norm": 0.09636095745621918,
      "kl": 0.24542236328125,
      "learning_rate": 2.611479398511518e-08,
      "loss": 0.0002,
      "reward": 1.291666705161333,
      "reward_std": 0.22107936535030603,
      "rewards/equation_reward_func": 0.3463541760575026,
      "rewards/format_reward_func": 0.9453125186264515,
      "step": 386
    },
    {
      "completion_length": 247.9687581062317,
      "epoch": 0.20693333333333333,
      "grad_norm": 0.10748505650467376,
      "kl": 0.2657470703125,
      "learning_rate": 2.4534950219914057e-08,
      "loss": 0.0003,
      "reward": 1.494791705161333,
      "reward_std": 0.24816493690013885,
      "rewards/equation_reward_func": 0.5312500125728548,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 388
    },
    {
      "completion_length": 248.68490505218506,
      "epoch": 0.208,
      "grad_norm": 0.11757891850912854,
      "kl": 0.2335205078125,
      "learning_rate": 2.300192937233128e-08,
      "loss": 0.0002,
      "reward": 1.4505208656191826,
      "reward_std": 0.22064228588715196,
      "rewards/equation_reward_func": 0.4895833458285779,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 390
    },
    {
      "completion_length": 271.49480056762695,
      "epoch": 0.20906666666666668,
      "grad_norm": 0.07918511324806074,
      "kl": 0.23931884765625,
      "learning_rate": 2.1516049808822935e-08,
      "loss": 0.0002,
      "reward": 1.3515625409781933,
      "reward_std": 0.18755131447687745,
      "rewards/equation_reward_func": 0.38020834140479565,
      "rewards/format_reward_func": 0.9713541828095913,
      "step": 392
    },
    {
      "completion_length": 259.51563835144043,
      "epoch": 0.21013333333333334,
      "grad_norm": 0.1495234231858708,
      "kl": 0.241455078125,
      "learning_rate": 2.007762010589098e-08,
      "loss": 0.0002,
      "reward": 1.4947917088866234,
      "reward_std": 0.33302151458337903,
      "rewards/equation_reward_func": 0.5468750111758709,
      "rewards/format_reward_func": 0.9479166828095913,
      "step": 394
    },
    {
      "completion_length": 280.27344608306885,
      "epoch": 0.2112,
      "grad_norm": 0.10448152858384566,
      "kl": 0.25335693359375,
      "learning_rate": 1.8686938986000627e-08,
      "loss": 0.0003,
      "reward": 1.3593750335276127,
      "reward_std": 0.2329879915341735,
      "rewards/equation_reward_func": 0.3984375107102096,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 396
    },
    {
      "completion_length": 243.24479961395264,
      "epoch": 0.21226666666666666,
      "grad_norm": 0.10158686561243806,
      "kl": 0.26129150390625,
      "learning_rate": 1.734429525554365e-08,
      "loss": 0.0003,
      "reward": 1.5312500447034836,
      "reward_std": 0.26366367703303695,
      "rewards/equation_reward_func": 0.5677083469927311,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 398
    },
    {
      "completion_length": 262.8463611602783,
      "epoch": 0.21333333333333335,
      "grad_norm": 0.0879686678616527,
      "kl": 0.23956298828125,
      "learning_rate": 1.604996774486145e-08,
      "loss": 0.0002,
      "reward": 1.4479167088866234,
      "reward_std": 0.2433197470381856,
      "rewards/equation_reward_func": 0.4973958428017795,
      "rewards/format_reward_func": 0.9505208544433117,
      "step": 400
    },
    {
      "completion_length": 255.82292366027832,
      "epoch": 0.2144,
      "grad_norm": 0.09500435271087032,
      "kl": 0.23638916015625,
      "learning_rate": 1.4804225250339281e-08,
      "loss": 0.0002,
      "reward": 1.4192708730697632,
      "reward_std": 0.23259615385904908,
      "rewards/equation_reward_func": 0.4609375165309757,
      "rewards/format_reward_func": 0.9583333469927311,
      "step": 402
    },
    {
      "completion_length": 217.63802671432495,
      "epoch": 0.21546666666666667,
      "grad_norm": 0.10034531857683562,
      "kl": 0.2501220703125,
      "learning_rate": 1.360732647858498e-08,
      "loss": 0.0003,
      "reward": 1.5156250335276127,
      "reward_std": 0.17062418861314654,
      "rewards/equation_reward_func": 0.5442708432674408,
      "rewards/format_reward_func": 0.9713541865348816,
      "step": 404
    },
    {
      "completion_length": 234.06771516799927,
      "epoch": 0.21653333333333333,
      "grad_norm": 0.12227115923971459,
      "kl": 0.248779296875,
      "learning_rate": 1.2459519992702311e-08,
      "loss": 0.0002,
      "reward": 1.4921875298023224,
      "reward_std": 0.23618489829823375,
      "rewards/equation_reward_func": 0.5234375111758709,
      "rewards/format_reward_func": 0.9687500149011612,
      "step": 406
    },
    {
      "completion_length": 243.70052909851074,
      "epoch": 0.2176,
      "grad_norm": 0.15926056972625335,
      "kl": 0.27069091796875,
      "learning_rate": 1.1361044160671629e-08,
      "loss": 0.0003,
      "reward": 1.4505208618938923,
      "reward_std": 0.28682674188166857,
      "rewards/equation_reward_func": 0.5052083535119891,
      "rewards/format_reward_func": 0.9453125149011612,
      "step": 408
    },
    {
      "completion_length": 275.8385486602783,
      "epoch": 0.21866666666666668,
      "grad_norm": 0.12757068910568817,
      "kl": 0.24969482421875,
      "learning_rate": 1.0312127105846947e-08,
      "loss": 0.0002,
      "reward": 1.3645833730697632,
      "reward_std": 0.21345845330506563,
      "rewards/equation_reward_func": 0.40104167675599456,
      "rewards/format_reward_func": 0.9635416828095913,
      "step": 410
    },
    {
      "completion_length": 287.200532913208,
      "epoch": 0.21973333333333334,
      "grad_norm": 0.11457759488995656,
      "kl": 0.244384765625,
      "learning_rate": 9.312986659581301e-09,
      "loss": 0.0002,
      "reward": 1.3229166977107525,
      "reward_std": 0.21469376189634204,
      "rewards/equation_reward_func": 0.3593750111758709,
      "rewards/format_reward_func": 0.9635416865348816,
      "step": 412
    },
    {
      "completion_length": 265.48438358306885,
      "epoch": 0.2208,
      "grad_norm": 0.12852298602657852,
      "kl": 0.2640380859375,
      "learning_rate": 8.363830315988945e-09,
      "loss": 0.0003,
      "reward": 1.3463541828095913,
      "reward_std": 0.23709475807845592,
      "rewards/equation_reward_func": 0.39583334093913436,
      "rewards/format_reward_func": 0.9505208507180214,
      "step": 414
    },
    {
      "completion_length": 271.54688358306885,
      "epoch": 0.22186666666666666,
      "grad_norm": 0.08478231012580131,
      "kl": 0.28369140625,
      "learning_rate": 7.46485518885462e-09,
      "loss": 0.0003,
      "reward": 1.3489583693444729,
      "reward_std": 0.22044954542070627,
      "rewards/equation_reward_func": 0.3932291807141155,
      "rewards/format_reward_func": 0.9557291828095913,
      "step": 416
    },
    {
      "completion_length": 243.90625667572021,
      "epoch": 0.22293333333333334,
      "grad_norm": 0.10846557765273872,
      "kl": 0.24072265625,
      "learning_rate": 6.616247970698319e-09,
      "loss": 0.0002,
      "reward": 1.533854205161333,
      "reward_std": 0.2181540415622294,
      "rewards/equation_reward_func": 0.5598958469927311,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 418
    },
    {
      "completion_length": 264.71094608306885,
      "epoch": 0.224,
      "grad_norm": 0.1142319675311567,
      "kl": 0.261962890625,
      "learning_rate": 5.8181848940044855e-09,
      "loss": 0.0003,
      "reward": 1.4114583805203438,
      "reward_std": 0.22676061373203993,
      "rewards/equation_reward_func": 0.4635416807141155,
      "rewards/format_reward_func": 0.9479166828095913,
      "step": 420
    },
    {
      "completion_length": 229.906259059906,
      "epoch": 0.22506666666666666,
      "grad_norm": 0.09559713141008308,
      "kl": 0.2418212890625,
      "learning_rate": 5.070831694623135e-09,
      "loss": 0.0002,
      "reward": 1.531250037252903,
      "reward_std": 0.19829656789079309,
      "rewards/equation_reward_func": 0.5703125149011612,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 422
    },
    {
      "completion_length": 248.05209159851074,
      "epoch": 0.22613333333333333,
      "grad_norm": 0.11040696978140259,
      "kl": 0.24212646484375,
      "learning_rate": 4.374343577351336e-09,
      "loss": 0.0002,
      "reward": 1.4192708656191826,
      "reward_std": 0.27204828383401036,
      "rewards/equation_reward_func": 0.4531250123400241,
      "rewards/format_reward_func": 0.9661458544433117,
      "step": 424
    },
    {
      "completion_length": 257.89584159851074,
      "epoch": 0.2272,
      "grad_norm": 0.0992000332189083,
      "kl": 0.24200439453125,
      "learning_rate": 3.7288651837012745e-09,
      "loss": 0.0002,
      "reward": 1.4062500298023224,
      "reward_std": 0.2646353510208428,
      "rewards/equation_reward_func": 0.45312501094304025,
      "rewards/format_reward_func": 0.9531250223517418,
      "step": 426
    },
    {
      "completion_length": 231.69792461395264,
      "epoch": 0.22826666666666667,
      "grad_norm": 0.1407050044165881,
      "kl": 0.27252197265625,
      "learning_rate": 3.134530561862081e-09,
      "loss": 0.0003,
      "reward": 1.4869792014360428,
      "reward_std": 0.15594792971387506,
      "rewards/equation_reward_func": 0.5104166809469461,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 428
    },
    {
      "completion_length": 276.9817762374878,
      "epoch": 0.22933333333333333,
      "grad_norm": 0.1167791204621414,
      "kl": 0.24884033203125,
      "learning_rate": 2.5914631388619103e-09,
      "loss": 0.0002,
      "reward": 1.3463542088866234,
      "reward_std": 0.21618649549782276,
      "rewards/equation_reward_func": 0.3906250107102096,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 430
    },
    {
      "completion_length": 249.96094417572021,
      "epoch": 0.2304,
      "grad_norm": 0.10179382560252617,
      "kl": 0.24853515625,
      "learning_rate": 2.0997756949353297e-09,
      "loss": 0.0002,
      "reward": 1.4817708656191826,
      "reward_std": 0.20142082124948502,
      "rewards/equation_reward_func": 0.513020845130086,
      "rewards/format_reward_func": 0.9687500111758709,
      "step": 432
    },
    {
      "completion_length": 304.00261211395264,
      "epoch": 0.23146666666666665,
      "grad_norm": 0.12633771333357205,
      "kl": 0.2705078125,
      "learning_rate": 1.6595703401020844e-09,
      "loss": 0.0003,
      "reward": 1.2734375409781933,
      "reward_std": 0.2817671154625714,
      "rewards/equation_reward_func": 0.3307291779201478,
      "rewards/format_reward_func": 0.9427083507180214,
      "step": 434
    },
    {
      "completion_length": 244.33594417572021,
      "epoch": 0.23253333333333334,
      "grad_norm": 0.12174371002417166,
      "kl": 0.24542236328125,
      "learning_rate": 1.2709384929615596e-09,
      "loss": 0.0002,
      "reward": 1.4817708805203438,
      "reward_std": 0.24246670864522457,
      "rewards/equation_reward_func": 0.5208333441987634,
      "rewards/format_reward_func": 0.9609375186264515,
      "step": 436
    },
    {
      "completion_length": 274.6692781448364,
      "epoch": 0.2336,
      "grad_norm": 0.08153629624949502,
      "kl": 0.2364501953125,
      "learning_rate": 9.339608617077165e-10,
      "loss": 0.0002,
      "reward": 1.3958333730697632,
      "reward_std": 0.18359084147959948,
      "rewards/equation_reward_func": 0.44531250884756446,
      "rewards/format_reward_func": 0.9505208544433117,
      "step": 438
    },
    {
      "completion_length": 271.5208406448364,
      "epoch": 0.23466666666666666,
      "grad_norm": 0.10062195336090982,
      "kl": 0.25860595703125,
      "learning_rate": 6.487074273681114e-10,
      "loss": 0.0003,
      "reward": 1.3567708730697632,
      "reward_std": 0.2888470063917339,
      "rewards/equation_reward_func": 0.4062500102445483,
      "rewards/format_reward_func": 0.950520858168602,
      "step": 440
    },
    {
      "completion_length": 279.31511306762695,
      "epoch": 0.23573333333333332,
      "grad_norm": 0.11347953554392516,
      "kl": 0.27435302734375,
      "learning_rate": 4.152374292708538e-10,
      "loss": 0.0003,
      "reward": 1.328125037252903,
      "reward_std": 0.2600484313443303,
      "rewards/equation_reward_func": 0.3723958460614085,
      "rewards/format_reward_func": 0.9557291902601719,
      "step": 442
    },
    {
      "completion_length": 229.1927137374878,
      "epoch": 0.2368,
      "grad_norm": 0.08761777334438094,
      "kl": 0.23480224609375,
      "learning_rate": 2.3359935274214204e-10,
      "loss": 0.0002,
      "reward": 1.5416667088866234,
      "reward_std": 0.19063151394948363,
      "rewards/equation_reward_func": 0.5651041842065752,
      "rewards/format_reward_func": 0.9765625149011612,
      "step": 444
    },
    {
      "completion_length": 269.6927146911621,
      "epoch": 0.23786666666666667,
      "grad_norm": 0.08325007668726372,
      "kl": 0.24908447265625,
      "learning_rate": 1.0383091903720665e-10,
      "loss": 0.0002,
      "reward": 1.3802083730697632,
      "reward_std": 0.19487999146804214,
      "rewards/equation_reward_func": 0.41927084675990045,
      "rewards/format_reward_func": 0.9609375223517418,
      "step": 446
    },
    {
      "completion_length": 252.57813453674316,
      "epoch": 0.23893333333333333,
      "grad_norm": 0.07984790038875238,
      "kl": 0.24322509765625,
      "learning_rate": 2.595907750671533e-11,
      "loss": 0.0002,
      "reward": 1.4505208730697632,
      "reward_std": 0.1807808456942439,
      "rewards/equation_reward_func": 0.47656251257285476,
      "rewards/format_reward_func": 0.9739583469927311,
      "step": 448
    },
    {
      "completion_length": 277.79948806762695,
      "epoch": 0.24,
      "grad_norm": 0.11593052361546653,
      "kl": 0.26580810546875,
      "learning_rate": 0.0,
      "loss": 0.0003,
      "reward": 1.3541667088866234,
      "reward_std": 0.2557070981711149,
      "rewards/equation_reward_func": 0.40364584303461015,
      "rewards/format_reward_func": 0.9505208469927311,
      "step": 450
    },
    {
      "epoch": 0.24,
      "step": 450,
      "total_flos": 0.0,
      "train_loss": 0.00020930594997387746,
      "train_runtime": 20107.4364,
      "train_samples_per_second": 0.537,
      "train_steps_per_second": 0.022
    }
  ],
  "logging_steps": 2,
  "max_steps": 450,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}