diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,38443 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.951603498542275,
+  "eval_steps": 500,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3699.0,
+      "completions/mean_length": 610.0078125,
+      "completions/mean_terminated_length": 534.484619140625,
+      "completions/min_length": 22.0,
+      "completions/min_terminated_length": 22.0,
+      "epoch": 0.009329446064139942,
+      "grad_norm": 0.13819736242294312,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 555247.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.26035600900650024,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 1
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3926.0,
+      "completions/mean_length": 596.0346069335938,
+      "completions/mean_terminated_length": 540.4796142578125,
+      "completions/min_length": 55.0,
+      "completions/min_terminated_length": 55.0,
+      "epoch": 0.018658892128279883,
+      "grad_norm": 0.1229914054274559,
+      "learning_rate": 1e-06,
+      "loss": -0.0022,
+      "num_tokens": 1119206.0,
+      "reward": 0.4776785969734192,
+      "reward_std": 0.21755866706371307,
+      "rewards/verify_math_reward/mean": 0.4776785671710968,
+      "rewards/verify_math_reward/std": 0.49978047609329224,
+      "step": 2
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3738.0,
+      "completions/mean_length": 596.0223388671875,
+      "completions/mean_terminated_length": 532.3863525390625,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.027988338192419825,
+      "grad_norm": 0.13747826218605042,
+      "learning_rate": 1e-06,
+      "loss": -0.0121,
+      "num_tokens": 1686250.0,
+      "reward": 0.4988839626312256,
+      "reward_std": 0.23206350207328796,
+      "rewards/verify_math_reward/mean": 0.4988839328289032,
+      "rewards/verify_math_reward/std": 0.5002779960632324,
+      "step": 3
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3539.0,
+      "completions/mean_length": 564.5960083007812,
+      "completions/mean_terminated_length": 520.7028198242188,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 0.037317784256559766,
+      "grad_norm": 0.16430562734603882,
+      "learning_rate": 1e-06,
+      "loss": 0.0092,
+      "num_tokens": 2226504.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.24920079112052917,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 565.3895263671875,
+      "completions/mean_terminated_length": 545.576904296875,
+      "completions/min_length": 19.0,
+      "completions/min_terminated_length": 19.0,
+      "epoch": 0.04664723032069971,
+      "grad_norm": 0.16295573115348816,
+      "learning_rate": 1e-06,
+      "loss": 0.0166,
+      "num_tokens": 2796181.0,
+      "reward": 0.5055803656578064,
+      "reward_std": 0.28827616572380066,
+      "rewards/verify_math_reward/mean": 0.5055803656578064,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 603.372802734375,
+      "completions/mean_terminated_length": 551.952392578125,
+      "completions/min_length": 89.0,
+      "completions/min_terminated_length": 89.0,
+      "epoch": 0.05597667638483965,
+      "grad_norm": 0.14144107699394226,
+      "learning_rate": 1e-06,
+      "loss": 0.0155,
+      "num_tokens": 3373979.0,
+      "reward": 0.5111607313156128,
+      "reward_std": 0.25476565957069397,
+      "rewards/verify_math_reward/mean": 0.5111607313156128,
+      "rewards/verify_math_reward/std": 0.5001546144485474,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2267.0,
+      "completions/mean_length": 557.7288208007812,
+      "completions/mean_terminated_length": 521.8274536132812,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.15719428658485413,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 3935296.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.2519795596599579,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 7
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3053.0,
+      "completions/mean_length": 619.966552734375,
+      "completions/mean_terminated_length": 568.7904663085938,
+      "completions/min_length": 57.0,
+      "completions/min_terminated_length": 57.0,
+      "epoch": 0.07463556851311953,
+      "grad_norm": 0.13995982706546783,
+      "learning_rate": 1e-06,
+      "loss": -0.012,
+      "num_tokens": 4511930.0,
+      "reward": 0.5078125,
+      "reward_std": 0.24746696650981903,
+      "rewards/verify_math_reward/mean": 0.5078125,
+      "rewards/verify_math_reward/std": 0.5002182126045227,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3136.0,
+      "completions/mean_length": 615.185302734375,
+      "completions/mean_terminated_length": 567.9343872070312,
+      "completions/min_length": 69.0,
+      "completions/min_terminated_length": 69.0,
+      "epoch": 0.08396501457725948,
+      "grad_norm": 0.13150471448898315,
+      "learning_rate": 1e-06,
+      "loss": 0.0117,
+      "num_tokens": 5102960.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.22883078455924988,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 9
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3174.0,
+      "completions/mean_length": 596.9308471679688,
+      "completions/mean_terminated_length": 565.4076538085938,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 0.09329446064139942,
+      "grad_norm": 0.12639360129833221,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 5700282.0,
+      "reward": 0.5189732313156128,
+      "reward_std": 0.23198682069778442,
+      "rewards/verify_math_reward/mean": 0.5189732313156128,
+      "rewards/verify_math_reward/std": 0.49991893768310547,
+      "step": 10
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3772.0,
+      "completions/mean_length": 646.614990234375,
+      "completions/mean_terminated_length": 579.9032592773438,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 0.10262390670553936,
+      "grad_norm": 0.12482870370149612,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 6294361.0,
+      "reward": 0.4933035969734192,
+      "reward_std": 0.19501692056655884,
+      "rewards/verify_math_reward/mean": 0.4933035671710968,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 11
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2617.0,
+      "completions/mean_length": 601.154052734375,
+      "completions/mean_terminated_length": 553.7127075195312,
+      "completions/min_length": 67.0,
+      "completions/min_terminated_length": 67.0,
+      "epoch": 0.1119533527696793,
+      "grad_norm": 0.12638172507286072,
+      "learning_rate": 1e-06,
+      "loss": -0.0039,
+      "num_tokens": 6886323.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.20342837274074554,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2701.0,
+      "completions/mean_length": 635.5167846679688,
+      "completions/mean_terminated_length": 588.5418701171875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.12128279883381925,
+      "grad_norm": 0.11367672681808472,
+      "learning_rate": 1e-06,
+      "loss": 0.0062,
+      "num_tokens": 7494586.0,
+      "reward": 0.5546875,
+      "reward_std": 0.21763604879379272,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 13
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2779.0,
+      "completions/mean_length": 568.1730346679688,
+      "completions/mean_terminated_length": 528.3555297851562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.13681843876838684,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 8058821.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.23022836446762085,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2455.0,
+      "completions/mean_length": 616.7120971679688,
+      "completions/mean_terminated_length": 573.4666748046875,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "epoch": 0.13994169096209913,
+      "grad_norm": 0.12186138331890106,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 8659803.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.18036124110221863,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 15
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3734.0,
+      "completions/mean_length": 637.3917846679688,
+      "completions/mean_terminated_length": 562.4617919921875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 0.14927113702623906,
+      "grad_norm": 0.12683585286140442,
+      "learning_rate": 1e-06,
+      "loss": 0.0083,
+      "num_tokens": 9244546.0,
+      "reward": 0.5390625,
+      "reward_std": 0.20489898324012756,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2093.0,
+      "completions/mean_length": 592.6116333007812,
+      "completions/mean_terminated_length": 557.064208984375,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 0.158600583090379,
+      "grad_norm": 0.1239178404211998,
+      "learning_rate": 1e-06,
+      "loss": 0.0051,
+      "num_tokens": 9824286.0,
+      "reward": 0.5625,
+      "reward_std": 0.22368666529655457,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 17
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3810.0,
+      "completions/mean_length": 679.9553833007812,
+      "completions/mean_terminated_length": 581.9058227539062,
+      "completions/min_length": 25.0,
+      "completions/min_terminated_length": 25.0,
+      "epoch": 0.16793002915451896,
+      "grad_norm": 0.12310385704040527,
+      "learning_rate": 1e-06,
+      "loss": 0.017,
+      "num_tokens": 10412358.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.2187958061695099,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936985969543457,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2945.0,
+      "completions/mean_length": 600.3370971679688,
+      "completions/mean_terminated_length": 528.6719970703125,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 0.1772594752186589,
+      "grad_norm": 0.14129288494586945,
+      "learning_rate": 1e-06,
+      "loss": -0.0168,
+      "num_tokens": 10970988.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.25784680247306824,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 19
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3255.0,
+      "completions/mean_length": 574.2232666015625,
+      "completions/mean_terminated_length": 530.44970703125,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.18658892128279883,
+      "grad_norm": 0.12139517813920975,
+      "learning_rate": 1e-06,
+      "loss": 0.0175,
+      "num_tokens": 11531604.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.20846940577030182,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 20
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 586.8192138671875,
+      "completions/mean_terminated_length": 539.1832885742188,
+      "completions/min_length": 54.0,
+      "completions/min_terminated_length": 54.0,
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.12492037564516068,
+      "learning_rate": 1e-06,
+      "loss": 0.0156,
+      "num_tokens": 12090434.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.19298996031284332,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 21
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2767.0,
+      "completions/mean_length": 645.552490234375,
+      "completions/mean_terminated_length": 602.66552734375,
+      "completions/min_length": 75.0,
+      "completions/min_terminated_length": 75.0,
+      "epoch": 0.20524781341107873,
+      "grad_norm": 0.11325538158416748,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 12719225.0,
+      "reward": 0.5078125,
+      "reward_std": 0.21368838846683502,
+      "rewards/verify_math_reward/mean": 0.5078125,
+      "rewards/verify_math_reward/std": 0.5002182126045227,
+      "step": 22
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2971.0,
+      "completions/mean_length": 629.3482666015625,
+      "completions/mean_terminated_length": 558.2779541015625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.21457725947521866,
+      "grad_norm": 0.11964946985244751,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 13293729.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.18246740102767944,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 23
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3421.0,
+      "completions/mean_length": 614.9185791015625,
+      "completions/mean_terminated_length": 579.5974731445312,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.2239067055393586,
+      "grad_norm": 0.1198398619890213,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 13892128.0,
+      "reward": 0.53125,
+      "reward_std": 0.20331665873527527,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 24
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3672.0,
+      "completions/mean_length": 670.3013916015625,
+      "completions/mean_terminated_length": 608.015869140625,
+      "completions/min_length": 75.0,
+      "completions/min_terminated_length": 75.0,
+      "epoch": 0.23323615160349853,
+      "grad_norm": 0.11495624482631683,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 14512414.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.179909810423851,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838003516197205,
+      "step": 25
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4095.0,
+      "completions/mean_length": 632.630615234375,
+      "completions/mean_terminated_length": 589.5830688476562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.2425655976676385,
+      "grad_norm": 0.12420367449522018,
+      "learning_rate": 1e-06,
+      "loss": 0.0135,
+      "num_tokens": 15121667.0,
+      "reward": 0.4977678656578064,
+      "reward_std": 0.20959801971912384,
+      "rewards/verify_math_reward/mean": 0.4977678656578064,
+      "rewards/verify_math_reward/std": 0.5002742409706116,
+      "step": 26
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 618.3236694335938,
+      "completions/mean_terminated_length": 555.0931396484375,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 0.2518950437317784,
+      "grad_norm": 0.1307782381772995,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 15698269.0,
+      "reward": 0.578125,
+      "reward_std": 0.22623679041862488,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 27
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 576.2064819335938,
+      "completions/mean_terminated_length": 548.4915771484375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.1312188059091568,
+      "learning_rate": 1e-06,
+      "loss": 0.0111,
+      "num_tokens": 16275870.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.2146647721529007,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 28
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 609.4330444335938,
+      "completions/mean_terminated_length": 566.09716796875,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 0.2705539358600583,
+      "grad_norm": 0.12355566024780273,
+      "learning_rate": 1e-06,
+      "loss": 0.0106,
+      "num_tokens": 16865850.0,
+      "reward": 0.4988839626312256,
+      "reward_std": 0.20162531733512878,
+      "rewards/verify_math_reward/mean": 0.4988839328289032,
+      "rewards/verify_math_reward/std": 0.5002779960632324,
+      "step": 29
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2581.0,
+      "completions/mean_length": 551.9319458007812,
+      "completions/mean_terminated_length": 532.0438232421875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.27988338192419826,
+      "grad_norm": 0.12701798975467682,
+      "learning_rate": 1e-06,
+      "loss": 0.016,
+      "num_tokens": 17435229.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.20947928726673126,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 30
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2770.0,
+      "completions/mean_length": 672.4888916015625,
+      "completions/mean_terminated_length": 606.277587890625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 0.2892128279883382,
+      "grad_norm": 0.1089508980512619,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 18053027.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.1957337111234665,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 31
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2854.0,
+      "completions/mean_length": 585.7991333007812,
+      "completions/mean_terminated_length": 554.1756591796875,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.29854227405247813,
+      "grad_norm": 0.1300877034664154,
+      "learning_rate": 1e-06,
+      "loss": 0.014,
+      "num_tokens": 18635975.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.21771204471588135,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 32
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2357.0,
+      "completions/mean_length": 540.849365234375,
+      "completions/mean_terminated_length": 520.8989868164062,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "epoch": 0.30787172011661806,
+      "grad_norm": 0.12996546924114227,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 19186632.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.1891927272081375,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 33
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2823.0,
+      "completions/mean_length": 601.3839721679688,
+      "completions/mean_terminated_length": 565.925537109375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.317201166180758,
+      "grad_norm": 0.12991100549697876,
+      "learning_rate": 1e-06,
+      "loss": 0.0075,
+      "num_tokens": 19772000.0,
+      "reward": 0.5401785969734192,
+      "reward_std": 0.2281140238046646,
+      "rewards/verify_math_reward/mean": 0.5401785969734192,
+      "rewards/verify_math_reward/std": 0.49866142868995667,
+      "step": 34
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3997.0,
+      "completions/mean_length": 627.1451416015625,
+      "completions/mean_terminated_length": 576.07470703125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.11559727042913437,
+      "learning_rate": 1e-06,
+      "loss": 0.0166,
+      "num_tokens": 20364330.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.20151470601558685,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 35
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2236.0,
+      "completions/mean_length": 648.239990234375,
+      "completions/mean_terminated_length": 585.5534057617188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.3358600583090379,
+      "grad_norm": 0.12591630220413208,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 20972441.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.21714679896831512,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 36
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 620.8527221679688,
+      "completions/mean_terminated_length": 565.6915893554688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.34518950437317786,
+      "grad_norm": 0.12799470126628876,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 21548109.0,
+      "reward": 0.546875,
+      "reward_std": 0.21128980815410614,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 37
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3290.0,
+      "completions/mean_length": 648.4710083007812,
+      "completions/mean_terminated_length": 565.7302856445312,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.3545189504373178,
+      "grad_norm": 0.11907628178596497,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 22132459.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.19674541056156158,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936985969543457,
+      "step": 38
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2611.0,
+      "completions/mean_length": 571.8895263671875,
+      "completions/mean_terminated_length": 544.140625,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 0.3638483965014577,
+      "grad_norm": 0.13216789066791534,
+      "learning_rate": 1e-06,
+      "loss": 0.019,
+      "num_tokens": 22712064.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.22364458441734314,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 39
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3386.0,
+      "completions/mean_length": 591.5390625,
+      "completions/mean_terminated_length": 559.9673461914062,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.37317784256559766,
+      "grad_norm": 0.11718650162220001,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 23311667.0,
+      "reward": 0.5100446939468384,
+      "reward_std": 0.19294719398021698,
+      "rewards/verify_math_reward/mean": 0.5100446343421936,
+      "rewards/verify_math_reward/std": 0.5001782774925232,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4017.0,
+      "completions/mean_length": 679.5089721679688,
+      "completions/mean_terminated_length": 621.3394165039062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 0.3825072886297376,
+      "grad_norm": 0.13004381954669952,
+      "learning_rate": 1e-06,
+      "loss": -0.0117,
+      "num_tokens": 23960851.0,
+      "reward": 0.4899553656578064,
+      "reward_std": 0.25212928652763367,
+      "rewards/verify_math_reward/mean": 0.4899553656578064,
+      "rewards/verify_math_reward/std": 0.5001782774925232,
+      "step": 41
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3935.0,
+      "completions/mean_length": 595.8984375,
+      "completions/mean_terminated_length": 564.3660278320312,
+      "completions/min_length": 80.0,
+      "completions/min_terminated_length": 80.0,
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.11121316254138947,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 24553208.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.18967169523239136,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608627796173,
+      "step": 42
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3857.0,
+      "completions/mean_length": 604.8850708007812,
+      "completions/mean_terminated_length": 561.49267578125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 0.40116618075801747,
+      "grad_norm": 0.13258139789104462,
+      "learning_rate": 1e-06,
+      "loss": 0.0059,
+      "num_tokens": 25136265.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.21362309157848358,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 43
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 547.6830444335938,
+      "completions/mean_terminated_length": 523.7617797851562,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 0.41049562682215746,
+      "grad_norm": 0.12222025543451309,
+      "learning_rate": 1e-06,
+      "loss": 0.0156,
+      "num_tokens": 25688605.0,
+      "reward": 0.609375,
+      "reward_std": 0.17941944301128387,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 44
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4000.0,
+      "completions/mean_length": 621.8515625,
+      "completions/mean_terminated_length": 570.7032470703125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 0.4198250728862974,
+      "grad_norm": 0.11610330641269684,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 26285928.0,
+      "reward": 0.6015625,
+      "reward_std": 0.20095019042491913,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 45
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2399.0,
+      "completions/mean_length": 691.325927734375,
+      "completions/mean_terminated_length": 613.5935668945312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 0.4291545189504373,
+      "grad_norm": 0.12367964535951614,
+      "learning_rate": 1e-06,
+      "loss": 0.0085,
+      "num_tokens": 26911884.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.2368360310792923,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 46
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 660.140625,
+      "completions/mean_terminated_length": 601.641357421875,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 0.43848396501457726,
+      "grad_norm": 0.11936866492033005,
+      "learning_rate": 1e-06,
+      "loss": 0.0141,
+      "num_tokens": 27526826.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.2177773267030716,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 47
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 593.5625,
+      "completions/mean_terminated_length": 554.0316162109375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 0.4478134110787172,
+      "grad_norm": 0.13356272876262665,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 28112346.0,
+      "reward": 0.5212053656578064,
+      "reward_std": 0.2054987996816635,
+      "rewards/verify_math_reward/mean": 0.5212053656578064,
+      "rewards/verify_math_reward/std": 0.49982914328575134,
+      "step": 48
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3727.0,
+      "completions/mean_length": 602.919677734375,
+      "completions/mean_terminated_length": 575.4151000976562,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.11741620302200317,
+      "learning_rate": 1e-06,
+      "loss": 0.0277,
+      "num_tokens": 28706906.0,
+      "reward": 0.504464328289032,
+      "reward_std": 0.18400903046131134,
+      "rewards/verify_math_reward/mean": 0.5044642686843872,
+      "rewards/verify_math_reward/std": 0.5002593398094177,
+      "step": 49
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3559.0,
+      "completions/mean_length": 675.6328125,
+      "completions/mean_terminated_length": 565.2984008789062,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.46647230320699706,
+      "grad_norm": 0.13388733565807343,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 29300121.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.22691050171852112,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756613254547,
+      "step": 50
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3378.0,
+      "completions/mean_length": 658.2489013671875,
+      "completions/mean_terminated_length": 579.7614135742188,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 0.47580174927113705,
+      "grad_norm": 0.13145190477371216,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 29889200.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.24213102459907532,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 51
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3970.0,
+      "completions/mean_length": 594.7667846679688,
+      "completions/mean_terminated_length": 539.1915893554688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.485131195335277,
+      "grad_norm": 0.1295243501663208,
+      "learning_rate": 1e-06,
+      "loss": 0.0264,
+      "num_tokens": 30444455.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.19279566407203674,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 52
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 595.5457763671875,
+      "completions/mean_terminated_length": 548.0283203125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.4944606413994169,
+      "grad_norm": 0.11764854192733765,
+      "learning_rate": 1e-06,
+      "loss": 0.004,
+      "num_tokens": 31014664.0,
+      "reward": 0.5546875,
+      "reward_std": 0.19200357794761658,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 53
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3689.0,
+      "completions/mean_length": 545.8627319335938,
+      "completions/mean_terminated_length": 509.84100341796875,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 0.5037900874635568,
+      "grad_norm": 0.12535780668258667,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 31556733.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.19681818783283234,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924396276473999,
+      "step": 54
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 559.9308471679688,
+      "completions/mean_terminated_length": 520.0203247070312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.5131195335276968,
+      "grad_norm": 0.1356523185968399,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 32111863.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.19238516688346863,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 55
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3399.0,
+      "completions/mean_length": 614.3392944335938,
+      "completions/mean_terminated_length": 563.0803833007812,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.12192821502685547,
+      "learning_rate": 1e-06,
+      "loss": 0.0152,
+      "num_tokens": 32700471.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.20383884012699127,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 56
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2324.0,
+      "completions/mean_length": 566.9553833007812,
+      "completions/mean_terminated_length": 535.1621704101562,
+      "completions/min_length": 70.0,
+      "completions/min_terminated_length": 70.0,
+      "epoch": 0.5317784256559767,
+      "grad_norm": 0.13773545622825623,
+      "learning_rate": 1e-06,
+      "loss": 0.0225,
+      "num_tokens": 33262447.0,
+      "reward": 0.5859375,
+      "reward_std": 0.19261200726032257,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 57
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2196.0,
+      "completions/mean_length": 596.4085083007812,
+      "completions/mean_terminated_length": 552.9107666015625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.5411078717201167,
+      "grad_norm": 0.12552210688591003,
+      "learning_rate": 1e-06,
+      "loss": 0.0098,
+      "num_tokens": 33841637.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.23059673607349396,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 58
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3837.0,
+      "completions/mean_length": 595.4308471679688,
+      "completions/mean_terminated_length": 543.8935546875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.5504373177842565,
+      "grad_norm": 0.1274687796831131,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 34416039.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.18513628840446472,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 59
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3239.0,
+      "completions/mean_length": 590.310302734375,
+      "completions/mean_terminated_length": 538.6976318359375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.5597667638483965,
+      "grad_norm": 0.12446974217891693,
+      "learning_rate": 1e-06,
+      "loss": 0.0148,
+      "num_tokens": 34976717.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.1707427203655243,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 60
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2976.0,
+      "completions/mean_length": 683.3627319335938,
+      "completions/mean_terminated_length": 597.4610595703125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 0.5690962099125364,
+      "grad_norm": 0.11948134750127792,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 35582922.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.21211464703083038,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973994791507721,
+      "step": 61
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3982.0,
+      "completions/mean_length": 641.0089721679688,
+      "completions/mean_terminated_length": 609.8828735351562,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 0.5784256559766764,
+      "grad_norm": 0.1262824833393097,
+      "learning_rate": 1e-06,
+      "loss": 0.0077,
+      "num_tokens": 36208466.0,
+      "reward": 0.5133928656578064,
+      "reward_std": 0.24821694195270538,
+      "rewards/verify_math_reward/mean": 0.5133928656578064,
+      "rewards/verify_math_reward/std": 0.500099778175354,
+      "step": 62
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 609.0892944335938,
+      "completions/mean_terminated_length": 549.7208251953125,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.12981727719306946,
+      "learning_rate": 1e-06,
+      "loss": -0.0043,
+      "num_tokens": 36771426.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.20711390674114227,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 63
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3503.0,
+      "completions/mean_length": 627.7199096679688,
+      "completions/mean_terminated_length": 576.657958984375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.5970845481049563,
+      "grad_norm": 0.13456951081752777,
+      "learning_rate": 1e-06,
+      "loss": 0.0172,
+      "num_tokens": 37370383.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.20549951493740082,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 64
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2873.0,
+      "completions/mean_length": 632.9308471679688,
+      "completions/mean_terminated_length": 569.9658813476562,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.6064139941690962,
+      "grad_norm": 0.11932039260864258,
+      "learning_rate": 1e-06,
+      "loss": 0.0103,
+      "num_tokens": 37969633.0,
+      "reward": 0.546875,
+      "reward_std": 0.1770561784505844,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 65
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2319.0,
+      "completions/mean_length": 580.9185791015625,
+      "completions/mean_terminated_length": 537.228271484375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 0.6157434402332361,
+      "grad_norm": 0.11847219616174698,
+      "learning_rate": 1e-06,
+      "loss": 0.0122,
+      "num_tokens": 38543616.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.18257686495780945,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 66
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2846.0,
+      "completions/mean_length": 675.6272583007812,
+      "completions/mean_terminated_length": 629.1968383789062,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.6250728862973761,
+      "grad_norm": 0.10224071890115738,
+      "learning_rate": 1e-06,
+      "loss": -0.0045,
+      "num_tokens": 39195498.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.19561424851417542,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943605065345764,
+      "step": 67
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 618.34375,
+      "completions/mean_terminated_length": 575.11865234375,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 0.634402332361516,
+      "grad_norm": 0.12181031703948975,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 39788102.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.1716417372226715,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 68
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 678.0245971679688,
+      "completions/mean_terminated_length": 611.9203491210938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 0.643731778425656,
+      "grad_norm": 0.12990140914916992,
+      "learning_rate": 1e-06,
+      "loss": 0.0202,
+      "num_tokens": 40416348.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.2387114316225052,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606892466545105,
+      "step": 69
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2959.0,
+      "completions/mean_length": 644.1663208007812,
+      "completions/mean_terminated_length": 589.3753051757812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.13729752600193024,
+      "learning_rate": 1e-06,
+      "loss": 0.0037,
+      "num_tokens": 41026217.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.24611146748065948,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 70
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1841.0,
+      "completions/mean_length": 605.0379638671875,
+      "completions/mean_terminated_length": 565.6365966796875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 0.6623906705539359,
+      "grad_norm": 0.12223481386899948,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 41626955.0,
+      "reward": 0.5334821939468384,
+      "reward_std": 0.19384802877902985,
+      "rewards/verify_math_reward/mean": 0.5334821343421936,
+      "rewards/verify_math_reward/std": 0.49915632605552673,
+      "step": 71
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3670.0,
+      "completions/mean_length": 667.7288208007812,
+      "completions/mean_terminated_length": 581.43359375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.6717201166180758,
+      "grad_norm": 0.13852868974208832,
+      "learning_rate": 1e-06,
+      "loss": -0.0109,
+      "num_tokens": 42232568.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.2327456921339035,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3816.0,
+      "completions/mean_length": 641.5502319335938,
+      "completions/mean_terminated_length": 590.6919555664062,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 0.6810495626822157,
+      "grad_norm": 0.12090474367141724,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 42850925.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.19088521599769592,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 73
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2885.0,
+      "completions/mean_length": 686.5792846679688,
+      "completions/mean_terminated_length": 604.7531127929688,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 0.6903790087463557,
+      "grad_norm": 0.123042993247509,
+      "learning_rate": 1e-06,
+      "loss": 0.0128,
+      "num_tokens": 43469788.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.23014530539512634,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 74
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3779.0,
+      "completions/mean_length": 678.4085083007812,
+      "completions/mean_terminated_length": 592.3821411132812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.6997084548104956,
+      "grad_norm": 0.11929791420698166,
+      "learning_rate": 1e-06,
+      "loss": -0.0076,
+      "num_tokens": 44072594.0,
+      "reward": 0.5178571939468384,
+      "reward_std": 0.2101197987794876,
+      "rewards/verify_math_reward/mean": 0.5178571343421936,
+      "rewards/verify_math_reward/std": 0.4999600946903229,
+      "step": 75
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3359.0,
+      "completions/mean_length": 691.9777221679688,
+      "completions/mean_terminated_length": 634.0204467773438,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 0.7090379008746356,
+      "grad_norm": 0.12030773609876633,
+      "learning_rate": 1e-06,
+      "loss": 0.0072,
+      "num_tokens": 44724406.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.23878629505634308,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 76
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2971.0,
+      "completions/mean_length": 657.1730346679688,
+      "completions/mean_terminated_length": 574.64111328125,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.140348881483078,
+      "learning_rate": 1e-06,
+      "loss": 0.0083,
+      "num_tokens": 45318841.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.2462616264820099,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 77
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3232.0,
+      "completions/mean_length": 612.5592041015625,
+      "completions/mean_terminated_length": 577.2141723632812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.7276967930029155,
+      "grad_norm": 0.12273713946342468,
+      "learning_rate": 1e-06,
+      "loss": 0.016,
+      "num_tokens": 45916742.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.21327468752861023,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 78
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2177.0,
+      "completions/mean_length": 578.146240234375,
+      "completions/mean_terminated_length": 546.453857421875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.7370262390670554,
+      "grad_norm": 0.15242497622966766,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 46491081.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.24901039898395538,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 79
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3639.0,
+      "completions/mean_length": 584.9721069335938,
+      "completions/mean_terminated_length": 533.2808227539062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.7463556851311953,
+      "grad_norm": 0.1354115754365921,
+      "learning_rate": 1e-06,
+      "loss": 0.0159,
+      "num_tokens": 47052016.0,
+      "reward": 0.609375,
+      "reward_std": 0.234275221824646,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 80
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2721.0,
+      "completions/mean_length": 672.7667846679688,
+      "completions/mean_terminated_length": 602.5866088867188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.7556851311953353,
+      "grad_norm": 0.12694555521011353,
+      "learning_rate": 1e-06,
+      "loss": 0.0109,
+      "num_tokens": 47676903.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.2230786681175232,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 81
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3950.0,
+      "completions/mean_length": 652.4676513671875,
+      "completions/mean_terminated_length": 581.871337890625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.7650145772594752,
+      "grad_norm": 0.11660673469305038,
+      "learning_rate": 1e-06,
+      "loss": 0.0015,
+      "num_tokens": 48281954.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.17405030131340027,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 82
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4055.0,
+      "completions/mean_length": 615.458740234375,
+      "completions/mean_terminated_length": 580.1431274414062,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 0.7743440233236152,
+      "grad_norm": 0.11257554590702057,
+      "learning_rate": 1e-06,
+      "loss": -0.001,
+      "num_tokens": 48881757.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.18513768911361694,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 83
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4054.0,
+      "completions/mean_length": 665.0234375,
+      "completions/mean_terminated_length": 602.6420288085938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.12210234254598618,
+      "learning_rate": 1e-06,
+      "loss": 0.0052,
+      "num_tokens": 49507698.0,
+      "reward": 0.4955357313156128,
+      "reward_std": 0.2192864567041397,
+      "rewards/verify_math_reward/mean": 0.4955357015132904,
+      "rewards/verify_math_reward/std": 0.500259280204773,
+      "step": 84
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 649.6473388671875,
+      "completions/mean_terminated_length": 578.9931640625,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 0.793002915451895,
+      "grad_norm": 0.11843501776456833,
+      "learning_rate": 1e-06,
+      "loss": 0.0062,
+      "num_tokens": 50105782.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.19990073144435883,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 85
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3070.0,
+      "completions/mean_length": 610.638427734375,
+      "completions/mean_terminated_length": 591.0797119140625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.8023323615160349,
+      "grad_norm": 0.12302396446466446,
+      "learning_rate": 1e-06,
+      "loss": -0.0033,
+      "num_tokens": 50719298.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.2105405479669571,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 86
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3432.0,
+      "completions/mean_length": 557.1529541015625,
+      "completions/mean_terminated_length": 537.2940673828125,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.8116618075801749,
+      "grad_norm": 0.12430504709482193,
+      "learning_rate": 1e-06,
+      "loss": 0.0167,
+      "num_tokens": 51278691.0,
+      "reward": 0.6015625,
+      "reward_std": 0.18809686601161957,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 87
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 581.357177734375,
+      "completions/mean_terminated_length": 541.6884765625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.8209912536443149,
+      "grad_norm": 0.12935684621334076,
+      "learning_rate": 1e-06,
+      "loss": 0.0221,
+      "num_tokens": 51838699.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.19738341867923737,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 88
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3783.0,
+      "completions/mean_length": 656.5022583007812,
+      "completions/mean_terminated_length": 597.9409790039062,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 0.8303206997084548,
+      "grad_norm": 0.12048202753067017,
+      "learning_rate": 1e-06,
+      "loss": 0.0119,
+      "num_tokens": 52467333.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.19516101479530334,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 89
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3795.0,
+      "completions/mean_length": 644.53125,
+      "completions/mean_terminated_length": 581.7772827148438,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 0.8396501457725948,
+      "grad_norm": 0.11943095922470093,
+      "learning_rate": 1e-06,
+      "loss": 0.0053,
+      "num_tokens": 53066849.0,
+      "reward": 0.5703125,
+      "reward_std": 0.18745999038219452,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 90
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3328.0,
+      "completions/mean_length": 613.0814819335938,
+      "completions/mean_terminated_length": 569.7909545898438,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.1321592479944229,
+      "learning_rate": 1e-06,
+      "loss": 0.0226,
+      "num_tokens": 53659074.0,
+      "reward": 0.6015625,
+      "reward_std": 0.21458598971366882,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 91
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2999.0,
+      "completions/mean_length": 666.7835083007812,
+      "completions/mean_terminated_length": 600.4618530273438,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 0.8583090379008746,
+      "grad_norm": 0.11667869985103607,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 54273960.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.18051601946353912,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 92
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2585.0,
+      "completions/mean_length": 600.3292846679688,
+      "completions/mean_terminated_length": 572.8043212890625,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.8676384839650145,
+      "grad_norm": 0.1307196170091629,
+      "learning_rate": 1e-06,
+      "loss": 0.0152,
+      "num_tokens": 54880719.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.24070632457733154,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 93
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 640.8828125,
+      "completions/mean_terminated_length": 593.9807739257812,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.8769679300291545,
+      "grad_norm": 0.11762183904647827,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 55482550.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.1821310967206955,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 94
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3517.0,
+      "completions/mean_length": 659.5502319335938,
+      "completions/mean_terminated_length": 616.8372802734375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.8862973760932945,
+      "grad_norm": 0.11842679977416992,
+      "learning_rate": 1e-06,
+      "loss": 0.0066,
+      "num_tokens": 56115947.0,
+      "reward": 0.546875,
+      "reward_std": 0.19952097535133362,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 95
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2713.0,
+      "completions/mean_length": 617.068115234375,
+      "completions/mean_terminated_length": 597.5454711914062,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 0.8956268221574344,
+      "grad_norm": 0.13340096175670624,
+      "learning_rate": 1e-06,
+      "loss": 0.0091,
+      "num_tokens": 56731816.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.25370344519615173,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 96
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 675.0625,
+      "completions/mean_terminated_length": 624.6976318359375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.9049562682215744,
+      "grad_norm": 0.12861862778663635,
+      "learning_rate": 1e-06,
+      "loss": 0.0123,
+      "num_tokens": 57374720.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.2177562117576599,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 97
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3863.0,
+      "completions/mean_length": 735.8783569335938,
+      "completions/mean_terminated_length": 651.298583984375,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.12009000033140182,
+      "learning_rate": 1e-06,
+      "loss": 0.0195,
+      "num_tokens": 58029883.0,
+      "reward": 0.5055803656578064,
+      "reward_std": 0.20448850095272064,
+      "rewards/verify_math_reward/mean": 0.5055803656578064,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 98
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 678.6785888671875,
+      "completions/mean_terminated_length": 608.61962890625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 0.9236151603498542,
+      "grad_norm": 0.11858928203582764,
+      "learning_rate": 1e-06,
+      "loss": 0.004,
+      "num_tokens": 58663467.0,
+      "reward": 0.4799107313156128,
+      "reward_std": 0.21324008703231812,
+      "rewards/verify_math_reward/mean": 0.4799107015132904,
+      "rewards/verify_math_reward/std": 0.4998753070831299,
+      "step": 99
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3930.0,
+      "completions/mean_length": 676.4263916015625,
+      "completions/mean_terminated_length": 606.3212280273438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.9329446064139941,
+      "grad_norm": 0.110529325902462,
+      "learning_rate": 1e-06,
+      "loss": 0.0175,
+      "num_tokens": 59286081.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.17281359434127808,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3954.0,
+      "completions/mean_length": 642.6652221679688,
+      "completions/mean_terminated_length": 591.8233032226562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 0.9422740524781341,
+      "grad_norm": 0.11486780643463135,
+      "learning_rate": 1e-06,
+      "loss": -0.002,
+      "num_tokens": 59894181.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.1902037262916565,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2266.0,
+      "completions/mean_length": 625.890625,
+      "completions/mean_terminated_length": 594.62841796875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.9516034985422741,
+      "grad_norm": 0.12553581595420837,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 60522123.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.20320791006088257,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 770.4531860351562,
+      "completions/mean_terminated_length": 667.1277465820312,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 0.960932944606414,
+      "grad_norm": 0.10908481478691101,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 61189321.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.17671987414360046,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608329772949,
+      "step": 103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4075.0,
+      "completions/mean_length": 626.3214721679688,
+      "completions/mean_terminated_length": 583.1954956054688,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 0.970262390670554,
+      "grad_norm": 0.13236378133296967,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 61798393.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.2327795773744583,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4045.0,
+      "completions/mean_length": 624.4453125,
+      "completions/mean_terminated_length": 561.3261108398438,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.13066381216049194,
+      "learning_rate": 1e-06,
+      "loss": -0.014,
+      "num_tokens": 62380256.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.2111382633447647,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3616.0,
+      "completions/mean_length": 658.6652221679688,
+      "completions/mean_terminated_length": 592.1865844726562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 0.9889212827988338,
+      "grad_norm": 0.12282067537307739,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 62982980.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.19321031868457794,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606892466545105,
+      "step": 106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022727272727272707,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2180.0,
+      "completions/mean_length": 607.0625,
+      "completions/mean_terminated_length": 525.9244384765625,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 0.9982507288629737,
+      "grad_norm": 0.12465576082468033,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 63573256.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.20880205929279327,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2778.0,
+      "completions/mean_length": 623.8671875,
+      "completions/mean_terminated_length": 580.7107543945312,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.00932944606414,
+      "grad_norm": 0.12487806379795074,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 64177609.0,
+      "reward": 0.578125,
+      "reward_std": 0.2260114848613739,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 641.9888916015625,
+      "completions/mean_terminated_length": 583.1804809570312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.01865889212828,
+      "grad_norm": 0.13888868689537048,
+      "learning_rate": 1e-06,
+      "loss": 0.0296,
+      "num_tokens": 64787839.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.23921138048171997,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2985.0,
+      "completions/mean_length": 679.6942138671875,
+      "completions/mean_terminated_length": 613.6222534179688,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.0279883381924197,
+      "grad_norm": 0.11260522902011871,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 65420213.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.18171106278896332,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943605065345764,
+      "step": 110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3918.0,
+      "completions/mean_length": 690.7299194335938,
+      "completions/mean_terminated_length": 592.9896240234375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.0373177842565597,
+      "grad_norm": 0.1303315907716751,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 66041083.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.1854732781648636,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3618.0,
+      "completions/mean_length": 623.7154541015625,
+      "completions/mean_terminated_length": 556.5608520507812,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 1.0466472303206997,
+      "grad_norm": 0.12855571508407593,
+      "learning_rate": 1e-06,
+      "loss": 0.0102,
+      "num_tokens": 66624876.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.20940370857715607,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 629.0960083007812,
+      "completions/mean_terminated_length": 586.0045166015625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 1.0559766763848397,
+      "grad_norm": 0.12134411185979843,
+      "learning_rate": 1e-06,
+      "loss": -0.0033,
+      "num_tokens": 67234122.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.19907476007938385,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689781665802,
+      "step": 113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2329.0,
+      "completions/mean_length": 668.825927734375,
+      "completions/mean_terminated_length": 602.5437622070312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 1.0653061224489795,
+      "grad_norm": 0.1247580423951149,
+      "learning_rate": 1e-06,
+      "loss": 0.0029,
+      "num_tokens": 67875206.0,
+      "reward": 0.5234375,
+      "reward_std": 0.2039564698934555,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2129.0,
+      "completions/mean_length": 619.6027221679688,
+      "completions/mean_terminated_length": 576.3932495117188,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 1.0746355685131195,
+      "grad_norm": 0.12528985738754272,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 68473226.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.1946403682231903,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 662.2377319335938,
+      "completions/mean_terminated_length": 611.6840209960938,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.0839650145772595,
+      "grad_norm": 0.12204413115978241,
+      "learning_rate": 1e-06,
+      "loss": 0.0029,
+      "num_tokens": 69101183.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.20223332941532135,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3165.0,
+      "completions/mean_length": 637.161865234375,
+      "completions/mean_terminated_length": 578.2713012695312,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 1.0932944606413995,
+      "grad_norm": 0.12889699637889862,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 69695760.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.223838210105896,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2714.0,
+      "completions/mean_length": 623.7142944335938,
+      "completions/mean_terminated_length": 592.4324340820312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.1026239067055394,
+      "grad_norm": 0.11693552881479263,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 70296192.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.17382459342479706,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 623.4921875,
+      "completions/mean_terminated_length": 556.3333129882812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 1.1119533527696792,
+      "grad_norm": 0.12983927130699158,
+      "learning_rate": 1e-06,
+      "loss": 0.0103,
+      "num_tokens": 70858833.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.20347003638744354,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3785.0,
+      "completions/mean_length": 661.78125,
+      "completions/mean_terminated_length": 611.2208251953125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.1212827988338192,
+      "grad_norm": 0.1284332573413849,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 71495181.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.19738341867923737,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3249.0,
+      "completions/mean_length": 651.6239013671875,
+      "completions/mean_terminated_length": 592.9796142578125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.1306122448979592,
+      "grad_norm": 0.1337193250656128,
+      "learning_rate": 1e-06,
+      "loss": -0.0037,
+      "num_tokens": 72114796.0,
+      "reward": 0.546875,
+      "reward_std": 0.2297341525554657,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3067.0,
+      "completions/mean_length": 636.8326416015625,
+      "completions/mean_terminated_length": 589.8756103515625,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 1.1399416909620992,
+      "grad_norm": 0.13222360610961914,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 72714814.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1995958387851715,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 674.1596069335938,
+      "completions/mean_terminated_length": 623.7814331054688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.149271137026239,
+      "grad_norm": 0.11800728738307953,
+      "learning_rate": 1e-06,
+      "loss": 0.0194,
+      "num_tokens": 73355701.0,
+      "reward": 0.6015625,
+      "reward_std": 0.2128635197877884,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2949.0,
+      "completions/mean_length": 626.6674194335938,
+      "completions/mean_terminated_length": 591.465576171875,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.158600583090379,
+      "grad_norm": 0.11077390611171722,
+      "learning_rate": 1e-06,
+      "loss": 0.0118,
+      "num_tokens": 73969843.0,
+      "reward": 0.6015625,
+      "reward_std": 0.1770094931125641,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 691.4453735351562,
+      "completions/mean_terminated_length": 629.5443115234375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.167930029154519,
+      "grad_norm": 0.109529510140419,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 74614186.0,
+      "reward": 0.5111607313156128,
+      "reward_std": 0.15698787569999695,
+      "rewards/verify_math_reward/mean": 0.5111607313156128,
+      "rewards/verify_math_reward/std": 0.5001546144485474,
+      "step": 125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2955.0,
+      "completions/mean_length": 622.9866333007812,
+      "completions/mean_terminated_length": 575.8416748046875,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 1.177259475218659,
+      "grad_norm": 0.12651211023330688,
+      "learning_rate": 1e-06,
+      "loss": 0.0043,
+      "num_tokens": 75211710.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.19509612023830414,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2372.0,
+      "completions/mean_length": 627.5714721679688,
+      "completions/mean_terminated_length": 584.4610595703125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 1.186588921282799,
+      "grad_norm": 0.11638539284467697,
+      "learning_rate": 1e-06,
+      "loss": 0.0118,
+      "num_tokens": 75811558.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17742638289928436,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3709.0,
+      "completions/mean_length": 642.8895263671875,
+      "completions/mean_terminated_length": 599.969482421875,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.1959183673469387,
+      "grad_norm": 0.12096329778432846,
+      "learning_rate": 1e-06,
+      "loss": 0.0053,
+      "num_tokens": 76434451.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.2248164415359497,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3591.0,
+      "completions/mean_length": 649.7767944335938,
+      "completions/mean_terminated_length": 606.9423828125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.2052478134110787,
+      "grad_norm": 0.12809109687805176,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 77064683.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.22352485358715057,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 726.8984985351562,
+      "completions/mean_terminated_length": 638.1363525390625,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 1.2145772594752187,
+      "grad_norm": 0.13690784573554993,
+      "learning_rate": 1e-06,
+      "loss": -0.0077,
+      "num_tokens": 77714920.0,
+      "reward": 0.5133928656578064,
+      "reward_std": 0.24900856614112854,
+      "rewards/verify_math_reward/mean": 0.5133928656578064,
+      "rewards/verify_math_reward/std": 0.500099778175354,
+      "step": 130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 579.279052734375,
+      "completions/mean_terminated_length": 555.57080078125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.2239067055393587,
+      "grad_norm": 0.1269935518503189,
+      "learning_rate": 1e-06,
+      "loss": 0.0119,
+      "num_tokens": 78294530.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.18927009403705597,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 636.5647583007812,
+      "completions/mean_terminated_length": 557.5821533203125,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 1.2332361516034984,
+      "grad_norm": 0.13009558618068695,
+      "learning_rate": 1e-06,
+      "loss": 0.0015,
+      "num_tokens": 78868468.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.2007683664560318,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2822.0,
+      "completions/mean_length": 642.8616333007812,
+      "completions/mean_terminated_length": 572.068359375,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 1.2425655976676384,
+      "grad_norm": 0.12400022894144058,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 79461616.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.1953885406255722,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 611.7890625,
+      "completions/mean_terminated_length": 584.3543701171875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.2518950437317784,
+      "grad_norm": 0.12356150895357132,
+      "learning_rate": 1e-06,
+      "loss": 0.0115,
+      "num_tokens": 80062371.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.21334956586360931,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3541.0,
+      "completions/mean_length": 601.8002319335938,
+      "completions/mean_terminated_length": 550.3567504882812,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.2612244897959184,
+      "grad_norm": 0.1391543745994568,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 80632352.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.21429498493671417,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2227.0,
+      "completions/mean_length": 620.6317138671875,
+      "completions/mean_terminated_length": 553.41748046875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.2705539358600584,
+      "grad_norm": 0.11735261231660843,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 81210406.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.1582338809967041,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3883.0,
+      "completions/mean_length": 658.0592041015625,
+      "completions/mean_terminated_length": 603.4886474609375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 1.2798833819241984,
+      "grad_norm": 0.12435299158096313,
+      "learning_rate": 1e-06,
+      "loss": 0.0216,
+      "num_tokens": 81828907.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.1993023008108139,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2638.0,
+      "completions/mean_length": 671.578125,
+      "completions/mean_terminated_length": 597.3887939453125,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 1.2892128279883381,
+      "grad_norm": 0.1195169985294342,
+      "learning_rate": 1e-06,
+      "loss": 0.0075,
+      "num_tokens": 82445129.0,
+      "reward": 0.546875,
+      "reward_std": 0.19628825783729553,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2622.0,
+      "completions/mean_length": 663.15625,
+      "completions/mean_terminated_length": 600.7409057617188,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 1.2985422740524781,
+      "grad_norm": 0.13412754237651825,
+      "learning_rate": 1e-06,
+      "loss": -0.0019,
+      "num_tokens": 83069565.0,
+      "reward": 0.5100446939468384,
+      "reward_std": 0.2442018687725067,
+      "rewards/verify_math_reward/mean": 0.5100446343421936,
+      "rewards/verify_math_reward/std": 0.5001782774925232,
+      "step": 139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2407.0,
+      "completions/mean_length": 684.0881958007812,
+      "completions/mean_terminated_length": 614.14013671875,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.3078717201166181,
+      "grad_norm": 0.11663468927145004,
+      "learning_rate": 1e-06,
+      "loss": 0.0019,
+      "num_tokens": 83701836.0,
+      "reward": 0.504464328289032,
+      "reward_std": 0.2003546804189682,
+      "rewards/verify_math_reward/mean": 0.5044642686843872,
+      "rewards/verify_math_reward/std": 0.5002593398094177,
+      "step": 140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2325.0,
+      "completions/mean_length": 698.7109985351562,
+      "completions/mean_terminated_length": 617.1759643554688,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 1.3172011661807579,
+      "grad_norm": 0.1169997975230217,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 84335793.0,
+      "reward": 0.512276828289032,
+      "reward_std": 0.20813307166099548,
+      "rewards/verify_math_reward/mean": 0.5122767686843872,
+      "rewards/verify_math_reward/std": 0.500128448009491,
+      "step": 141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2892.0,
+      "completions/mean_length": 649.28125,
+      "completions/mean_terminated_length": 618.229736328125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 1.3265306122448979,
+      "grad_norm": 0.1337287276983261,
+      "learning_rate": 1e-06,
+      "loss": 0.0091,
+      "num_tokens": 84978189.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.22692006826400757,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3251.0,
+      "completions/mean_length": 717.7288208007812,
+      "completions/mean_terminated_length": 600.6986083984375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.3358600583090379,
+      "grad_norm": 0.1338474601507187,
+      "learning_rate": 1e-06,
+      "loss": 0.0091,
+      "num_tokens": 85589962.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.22192324697971344,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943602085113525,
+      "step": 143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 691.9464721679688,
+      "completions/mean_terminated_length": 641.830078125,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 1.3451895043731779,
+      "grad_norm": 0.11507385224103928,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 86252914.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.22202880680561066,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3833.0,
+      "completions/mean_length": 692.3717041015625,
+      "completions/mean_terminated_length": 578.5247802734375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 1.3545189504373178,
+      "grad_norm": 0.12863509356975555,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 86841151.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.19887904822826385,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3616.0,
+      "completions/mean_length": 679.7701416015625,
+      "completions/mean_terminated_length": 613.6996459960938,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.3638483965014578,
+      "grad_norm": 0.14015160501003265,
+      "learning_rate": 1e-06,
+      "loss": -0.0018,
+      "num_tokens": 87483977.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.24220699071884155,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3925.0,
+      "completions/mean_length": 707.6641235351562,
+      "completions/mean_terminated_length": 622.3740844726562,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.3731778425655976,
+      "grad_norm": 0.13800568878650665,
+      "learning_rate": 1e-06,
+      "loss": 0.0206,
+      "num_tokens": 88115540.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.221356600522995,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3267.0,
+      "completions/mean_length": 718.4453735351562,
+      "completions/mean_terminated_length": 625.4850463867188,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.3825072886297376,
+      "grad_norm": 0.12576371431350708,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 88744411.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.2235715538263321,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2045.0,
+      "completions/mean_length": 630.9017944335938,
+      "completions/mean_terminated_length": 555.8312377929688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.3918367346938776,
+      "grad_norm": 0.1185988187789917,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 89316499.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1904633492231369,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3367.0,
+      "completions/mean_length": 646.8951416015625,
+      "completions/mean_terminated_length": 588.1702880859375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.4011661807580174,
+      "grad_norm": 0.12802352011203766,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 89930933.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1799500733613968,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4094.0,
+      "completions/mean_length": 699.1160888671875,
+      "completions/mean_terminated_length": 589.5391845703125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 1.4104956268221573,
+      "grad_norm": 0.12424515187740326,
+      "learning_rate": 1e-06,
+      "loss": -0.006,
+      "num_tokens": 90539853.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.19189481437206268,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2411.0,
+      "completions/mean_length": 640.5078125,
+      "completions/mean_terminated_length": 573.6780395507812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.4198250728862973,
+      "grad_norm": 0.1243554949760437,
+      "learning_rate": 1e-06,
+      "loss": 0.0077,
+      "num_tokens": 91128596.0,
+      "reward": 0.6640625,
+      "reward_std": 0.19189481437206268,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3125.0,
+      "completions/mean_length": 656.1819458007812,
+      "completions/mean_terminated_length": 581.6590576171875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.4291545189504373,
+      "grad_norm": 0.12588343024253845,
+      "learning_rate": 1e-06,
+      "loss": 0.0167,
+      "num_tokens": 91727935.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.1839316487312317,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1980.0,
+      "completions/mean_length": 643.2511596679688,
+      "completions/mean_terminated_length": 572.4658813476562,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 1.4384839650145773,
+      "grad_norm": 0.11955566704273224,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 92313088.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1943764090538025,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 607.9888916015625,
+      "completions/mean_terminated_length": 564.6350708007812,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.4478134110787173,
+      "grad_norm": 0.1298545002937317,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 92897118.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.19167795777320862,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2315.0,
+      "completions/mean_length": 614.3850708007812,
+      "completions/mean_terminated_length": 551.0829467773438,
+      "completions/min_length": 197.0,
+      "completions/min_terminated_length": 197.0,
+      "epoch": 1.457142857142857,
+      "grad_norm": 0.1303454339504242,
+      "learning_rate": 1e-06,
+      "loss": -0.0003,
+      "num_tokens": 93471375.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.19166657328605652,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3856.0,
+      "completions/mean_length": 695.2645263671875,
+      "completions/mean_terminated_length": 641.2846069335938,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 1.466472303206997,
+      "grad_norm": 0.10413635522127151,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 94128492.0,
+      "reward": 0.5703125,
+      "reward_std": 0.16837765276432037,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 695.3236694335938,
+      "completions/mean_terminated_length": 617.6826171875,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 1.475801749271137,
+      "grad_norm": 0.1186751201748848,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 94760438.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.1894555538892746,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3324.0,
+      "completions/mean_length": 686.5569458007812,
+      "completions/mean_terminated_length": 628.5073852539062,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 1.485131195335277,
+      "grad_norm": 0.11440914124250412,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 95392697.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.18295525014400482,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 683.2332763671875,
+      "completions/mean_terminated_length": 601.3268432617188,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.4944606413994168,
+      "grad_norm": 0.12605339288711548,
+      "learning_rate": 1e-06,
+      "loss": 0.0103,
+      "num_tokens": 96008962.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.20647267997264862,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 160
+    },
+    {
+      "clip_ratio/high_max": 0.012116559606511146,
+      "clip_ratio/high_mean": 0.005343925469787791,
+      "clip_ratio/low_mean": 0.0034358479824732058,
+      "clip_ratio/low_min": 0.00012867694385931827,
+      "clip_ratio/region_mean": 0.008779773372225463,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3620.0,
+      "completions/mean_length": 608.171875,
+      "completions/mean_terminated_length": 532.60888671875,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 1.5037900874635568,
+      "grad_norm": 0.1880822628736496,
+      "learning_rate": 1e-06,
+      "loss": 0.0103,
+      "num_tokens": 96565900.0,
+      "reward": 0.625,
+      "reward_std": 0.18840177357196808,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2976.0,
+      "completions/mean_length": 580.9777221679688,
+      "completions/mean_terminated_length": 541.3047485351562,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.5131195335276968,
+      "grad_norm": 0.1276920586824417,
+      "learning_rate": 1e-06,
+      "loss": 0.0096,
+      "num_tokens": 97139888.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1839316487312317,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 689.239990234375,
+      "completions/mean_terminated_length": 591.4569091796875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.5224489795918368,
+      "grad_norm": 0.13044473528862,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 97746455.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.1896805614233017,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763264656067,
+      "step": 163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3935.0,
+      "completions/mean_length": 636.3292846679688,
+      "completions/mean_terminated_length": 557.34130859375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.5317784256559768,
+      "grad_norm": 0.12751109898090363,
+      "learning_rate": 1e-06,
+      "loss": 0.0281,
+      "num_tokens": 98321438.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.170254185795784,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3678.0,
+      "completions/mean_length": 649.8527221679688,
+      "completions/mean_terminated_length": 591.17822265625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.5411078717201168,
+      "grad_norm": 0.12062021344900131,
+      "learning_rate": 1e-06,
+      "loss": 0.0172,
+      "num_tokens": 98932130.0,
+      "reward": 0.578125,
+      "reward_std": 0.19284433126449585,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 643.3839721679688,
+      "completions/mean_terminated_length": 560.5211181640625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 1.5504373177842565,
+      "grad_norm": 0.1180112361907959,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 99516730.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.1597748100757599,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2018.0,
+      "completions/mean_length": 598.8471069335938,
+      "completions/mean_terminated_length": 543.3367309570312,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.5597667638483965,
+      "grad_norm": 0.137054905295372,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 100080961.0,
+      "reward": 0.609375,
+      "reward_std": 0.1894962340593338,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3689.0,
+      "completions/mean_length": 723.7611694335938,
+      "completions/mean_terminated_length": 626.968994140625,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 1.5690962099125363,
+      "grad_norm": 0.13055726885795593,
+      "learning_rate": 1e-06,
+      "loss": -0.0037,
+      "num_tokens": 100711075.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.21819737553596497,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3872.0,
+      "completions/mean_length": 715.3582763671875,
+      "completions/mean_terminated_length": 630.261962890625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 1.5784256559766763,
+      "grad_norm": 0.12505494058132172,
+      "learning_rate": 1e-06,
+      "loss": 0.0166,
+      "num_tokens": 101345892.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.22395020723342896,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3662.0,
+      "completions/mean_length": 666.8939819335938,
+      "completions/mean_terminated_length": 580.5777587890625,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.5877551020408163,
+      "grad_norm": 0.12575773894786835,
+      "learning_rate": 1e-06,
+      "loss": 0.0042,
+      "num_tokens": 101931973.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.19392317533493042,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3605.0,
+      "completions/mean_length": 695.0513916015625,
+      "completions/mean_terminated_length": 593.413818359375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 1.5970845481049563,
+      "grad_norm": 0.12819413840770721,
+      "learning_rate": 1e-06,
+      "loss": -0.0096,
+      "num_tokens": 102538011.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.19279521703720093,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3791.0,
+      "completions/mean_length": 659.7756958007812,
+      "completions/mean_terminated_length": 593.3185424804688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.6064139941690962,
+      "grad_norm": 0.12030527740716934,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 103157218.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.17145811021327972,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3619.0,
+      "completions/mean_length": 623.0480346679688,
+      "completions/mean_terminated_length": 559.9033813476562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.6157434402332362,
+      "grad_norm": 0.12983718514442444,
+      "learning_rate": 1e-06,
+      "loss": 0.0155,
+      "num_tokens": 103748469.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.20054012537002563,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3047.0,
+      "completions/mean_length": 739.8683471679688,
+      "completions/mean_terminated_length": 671.0637817382812,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.6250728862973762,
+      "grad_norm": 0.11184944212436676,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 104433335.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.2003892958164215,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3619.0,
+      "completions/mean_length": 634.9832763671875,
+      "completions/mean_terminated_length": 576.0556640625,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.634402332361516,
+      "grad_norm": 0.12884528934955597,
+      "learning_rate": 1e-06,
+      "loss": 0.0071,
+      "num_tokens": 105024464.0,
+      "reward": 0.578125,
+      "reward_std": 0.17171843349933624,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 711.5078735351562,
+      "completions/mean_terminated_length": 622.3402099609375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 1.643731778425656,
+      "grad_norm": 0.13214844465255737,
+      "learning_rate": 1e-06,
+      "loss": 0.0198,
+      "num_tokens": 105658135.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.25254225730895996,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3531.0,
+      "completions/mean_length": 671.8660888671875,
+      "completions/mean_terminated_length": 613.56640625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.6530612244897958,
+      "grad_norm": 0.1255129724740982,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 106288727.0,
+      "reward": 0.5703125,
+      "reward_std": 0.22367849946022034,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 623.1484375,
+      "completions/mean_terminated_length": 583.9514770507812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.6623906705539357,
+      "grad_norm": 0.1195969507098198,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 106905692.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.18524546921253204,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973994791507721,
+      "step": 178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2288.0,
+      "completions/mean_length": 664.732177734375,
+      "completions/mean_terminated_length": 598.370849609375,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 1.6717201166180757,
+      "grad_norm": 0.12886367738246918,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 107529100.0,
+      "reward": 0.5625,
+      "reward_std": 0.21312496066093445,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3655.0,
+      "completions/mean_length": 658.9241333007812,
+      "completions/mean_terminated_length": 604.3673706054688,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 1.6810495626822157,
+      "grad_norm": 0.11670944094657898,
+      "learning_rate": 1e-06,
+      "loss": -0.0054,
+      "num_tokens": 108158928.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.1662733107805252,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4014.0,
+      "completions/mean_length": 775.3951416015625,
+      "completions/mean_terminated_length": 624.2824096679688,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 1.6903790087463557,
+      "grad_norm": 0.13003426790237427,
+      "learning_rate": 1e-06,
+      "loss": 0.0046,
+      "num_tokens": 108783642.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.2073410153388977,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3712.0,
+      "completions/mean_length": 706.9063110351562,
+      "completions/mean_terminated_length": 625.5679931640625,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "epoch": 1.6997084548104957,
+      "grad_norm": 0.11653265357017517,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 109416078.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.17314989864826202,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 713.6194458007812,
+      "completions/mean_terminated_length": 648.20361328125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 1.7090379008746357,
+      "grad_norm": 0.13665492832660675,
+      "learning_rate": 1e-06,
+      "loss": 0.0222,
+      "num_tokens": 110079089.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.2716216742992401,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715369939804077,
+      "step": 183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3900.0,
+      "completions/mean_length": 681.8170166015625,
+      "completions/mean_terminated_length": 583.8208618164062,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.7183673469387755,
+      "grad_norm": 0.14328347146511078,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 110679221.0,
+      "reward": 0.5703125,
+      "reward_std": 0.22638945281505585,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3380.0,
+      "completions/mean_length": 669.5234375,
+      "completions/mean_terminated_length": 583.2734375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 1.7276967930029155,
+      "grad_norm": 0.12823760509490967,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 111274914.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.20786207914352417,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2426.0,
+      "completions/mean_length": 625.755615234375,
+      "completions/mean_terminated_length": 570.67236328125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.7370262390670554,
+      "grad_norm": 0.13960646092891693,
+      "learning_rate": 1e-06,
+      "loss": 0.0165,
+      "num_tokens": 111867335.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.23401561379432678,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3851.0,
+      "completions/mean_length": 624.4420166015625,
+      "completions/mean_terminated_length": 557.3014526367188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.7463556851311952,
+      "grad_norm": 0.1303594410419464,
+      "learning_rate": 1e-06,
+      "loss": -0.0027,
+      "num_tokens": 112447251.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.21165889501571655,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3712.0,
+      "completions/mean_length": 698.1785888671875,
+      "completions/mean_terminated_length": 628.5194091796875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 1.7556851311953352,
+      "grad_norm": 0.12363781780004501,
+      "learning_rate": 1e-06,
+      "loss": 0.0036,
+      "num_tokens": 113094907.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.21706831455230713,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3446.0,
+      "completions/mean_length": 684.7288208007812,
+      "completions/mean_terminated_length": 610.8244018554688,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.7650145772594752,
+      "grad_norm": 0.11238560825586319,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 113724768.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1637873649597168,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2210.0,
+      "completions/mean_length": 645.2020263671875,
+      "completions/mean_terminated_length": 590.4274291992188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.7743440233236152,
+      "grad_norm": 0.1156289279460907,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 114330741.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.16420035064220428,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 724.5111694335938,
+      "completions/mean_terminated_length": 635.6861572265625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 1.7836734693877552,
+      "grad_norm": 0.12296874076128006,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 114981311.0,
+      "reward": 0.5100446939468384,
+      "reward_std": 0.20978277921676636,
+      "rewards/verify_math_reward/mean": 0.5100446343421936,
+      "rewards/verify_math_reward/std": 0.5001782774925232,
+      "step": 191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3943.0,
+      "completions/mean_length": 677.099365234375,
+      "completions/mean_terminated_length": 603.0296020507812,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 1.7930029154518952,
+      "grad_norm": 0.1256035715341568,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 115599896.0,
+      "reward": 0.5859375,
+      "reward_std": 0.20674553513526917,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 634.6239013671875,
+      "completions/mean_terminated_length": 599.5028076171875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.802332361516035,
+      "grad_norm": 0.11491705477237701,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 116218519.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.1791905015707016,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 618.935302734375,
+      "completions/mean_terminated_length": 559.7344360351562,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.811661807580175,
+      "grad_norm": 0.12553679943084717,
+      "learning_rate": 1e-06,
+      "loss": 0.0112,
+      "num_tokens": 116792309.0,
+      "reward": 0.609375,
+      "reward_std": 0.19118830561637878,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3036.0,
+      "completions/mean_length": 611.9832763671875,
+      "completions/mean_terminated_length": 556.681396484375,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.820991253644315,
+      "grad_norm": 0.13754640519618988,
+      "learning_rate": 1e-06,
+      "loss": 0.0237,
+      "num_tokens": 117363374.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.20016175508499146,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2981.0,
+      "completions/mean_length": 666.614990234375,
+      "completions/mean_terminated_length": 592.318115234375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.8303206997084547,
+      "grad_norm": 0.12373079359531403,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 117984685.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.18295595049858093,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3246.0,
+      "completions/mean_length": 678.3705444335938,
+      "completions/mean_terminated_length": 600.3424682617188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 1.8396501457725947,
+      "grad_norm": 0.13277728855609894,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 118598137.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.20824436843395233,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4003.0,
+      "completions/mean_length": 693.3080444335938,
+      "completions/mean_terminated_length": 603.6609497070312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.8489795918367347,
+      "grad_norm": 0.1427263468503952,
+      "learning_rate": 1e-06,
+      "loss": 0.0423,
+      "num_tokens": 119213093.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.21582846343517303,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3991.0,
+      "completions/mean_length": 703.4397583007812,
+      "completions/mean_terminated_length": 618.04345703125,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 1.8583090379008746,
+      "grad_norm": 0.11273408681154251,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 119840343.0,
+      "reward": 0.6171875,
+      "reward_std": 0.18904300034046173,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 650.982177734375,
+      "completions/mean_terminated_length": 580.3554077148438,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 1.8676384839650146,
+      "grad_norm": 0.14073939621448517,
+      "learning_rate": 1e-06,
+      "loss": 0.0205,
+      "num_tokens": 120447431.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.2494611144065857,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3474.0,
+      "completions/mean_length": 652.9955444335938,
+      "completions/mean_terminated_length": 598.3446655273438,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.8769679300291546,
+      "grad_norm": 0.12974786758422852,
+      "learning_rate": 1e-06,
+      "loss": 0.003,
+      "num_tokens": 121051923.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1859629601240158,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2348.0,
+      "completions/mean_length": 697.5636596679688,
+      "completions/mean_terminated_length": 627.891845703125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.8862973760932946,
+      "grad_norm": 0.11633289605379105,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 121690708.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.18167714774608612,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3117.0,
+      "completions/mean_length": 688.2611694335938,
+      "completions/mean_terminated_length": 602.4827880859375,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 1.8956268221574344,
+      "grad_norm": 0.12267957627773285,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 122300734.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1968199908733368,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3783.0,
+      "completions/mean_length": 704.739990234375,
+      "completions/mean_terminated_length": 615.39404296875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 1.9049562682215744,
+      "grad_norm": 0.125501811504364,
+      "learning_rate": 1e-06,
+      "loss": 0.0118,
+      "num_tokens": 122929269.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.20666630566120148,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3833.0,
+      "completions/mean_length": 751.8560791015625,
+      "completions/mean_terminated_length": 647.9528198242188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.9142857142857141,
+      "grad_norm": 0.11129347234964371,
+      "learning_rate": 1e-06,
+      "loss": -0.0013,
+      "num_tokens": 123578268.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.1782180517911911,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2494.0,
+      "completions/mean_length": 714.2098388671875,
+      "completions/mean_terminated_length": 621.1329956054688,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.9236151603498541,
+      "grad_norm": 0.1164608746767044,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 124219112.0,
+      "reward": 0.5223214626312256,
+      "reward_std": 0.1895272135734558,
+      "rewards/verify_math_reward/mean": 0.5223214030265808,
+      "rewards/verify_math_reward/std": 0.49978047609329224,
+      "step": 206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 717.8125610351562,
+      "completions/mean_terminated_length": 616.8551635742188,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.9329446064139941,
+      "grad_norm": 0.12072525918483734,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 124846040.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.1901698261499405,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 713.8314819335938,
+      "completions/mean_terminated_length": 636.6129760742188,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 1.9422740524781341,
+      "grad_norm": 0.11601443588733673,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 125489233.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.1690174639225006,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4011.0,
+      "completions/mean_length": 675.7879638671875,
+      "completions/mean_terminated_length": 613.6022338867188,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 1.951603498542274,
+      "grad_norm": 0.1186499372124672,
+      "learning_rate": 1e-06,
+      "loss": -0.0096,
+      "num_tokens": 126129115.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.20666815340518951,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2952.0,
+      "completions/mean_length": 760.0156860351562,
+      "completions/mean_terminated_length": 672.1260375976562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.960932944606414,
+      "grad_norm": 0.12476658821105957,
+      "learning_rate": 1e-06,
+      "loss": 0.0036,
+      "num_tokens": 126803345.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.16570988297462463,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 678.8482666015625,
+      "completions/mean_terminated_length": 612.7599487304688,
+      "completions/min_length": 86.0,
+      "completions/min_terminated_length": 86.0,
+      "epoch": 1.970262390670554,
+      "grad_norm": 0.1370057910680771,
+      "learning_rate": 1e-06,
+      "loss": 0.012,
+      "num_tokens": 127434905.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.2277858853340149,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 637.9375,
+      "completions/mean_terminated_length": 571.0579833984375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.9795918367346939,
+      "grad_norm": 0.13216781616210938,
+      "learning_rate": 1e-06,
+      "loss": 0.0032,
+      "num_tokens": 128024761.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.19948704540729523,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2139.0,
+      "completions/mean_length": 652.1998291015625,
+      "completions/mean_terminated_length": 589.585205078125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.9889212827988338,
+      "grad_norm": 0.1154385507106781,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 128625788.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.16691452264785767,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3451.0,
+      "completions/mean_length": 671.6217041015625,
+      "completions/mean_terminated_length": 573.3329467773438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.9982507288629736,
+      "grad_norm": 0.1378655582666397,
+      "learning_rate": 1e-06,
+      "loss": 0.0189,
+      "num_tokens": 129221665.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.2290155440568924,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3731.0,
+      "completions/mean_length": 652.9185791015625,
+      "completions/mean_terminated_length": 582.3314819335938,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.00932944606414,
+      "grad_norm": 0.1272018551826477,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 129823376.0,
+      "reward": 0.59375,
+      "reward_std": 0.20000699162483215,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3848.0,
+      "completions/mean_length": 635.0647583007812,
+      "completions/mean_terminated_length": 584.1109619140625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.01865889212828,
+      "grad_norm": 0.1249706968665123,
+      "learning_rate": 1e-06,
+      "loss": 0.017,
+      "num_tokens": 130435594.0,
+      "reward": 0.625,
+      "reward_std": 0.17860347032546997,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3391.0,
+      "completions/mean_length": 724.5301513671875,
+      "completions/mean_terminated_length": 611.7589111328125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.02798833819242,
+      "grad_norm": 0.1199277713894844,
+      "learning_rate": 1e-06,
+      "loss": -0.002,
+      "num_tokens": 131058989.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.18288108706474304,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763264656067,
+      "step": 217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 696.896240234375,
+      "completions/mean_terminated_length": 607.3436889648438,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 2.03731778425656,
+      "grad_norm": 0.11401030421257019,
+      "learning_rate": 1e-06,
+      "loss": -0.0049,
+      "num_tokens": 131693576.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.1718367636203766,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3053.0,
+      "completions/mean_length": 626.357177734375,
+      "completions/mean_terminated_length": 559.253662109375,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 2.0466472303206995,
+      "grad_norm": 0.1312752068042755,
+      "learning_rate": 1e-06,
+      "loss": -0.0045,
+      "num_tokens": 132279736.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.19155782461166382,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 670.8761596679688,
+      "completions/mean_terminated_length": 600.6572265625,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 2.0559766763848395,
+      "grad_norm": 0.11966001242399216,
+      "learning_rate": 1e-06,
+      "loss": -0.0077,
+      "num_tokens": 132897745.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.18553857505321503,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761127948761,
+      "step": 220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3201.0,
+      "completions/mean_length": 688.9230346679688,
+      "completions/mean_terminated_length": 591.130859375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.0653061224489795,
+      "grad_norm": 0.12390231341123581,
+      "learning_rate": 1e-06,
+      "loss": -0.0003,
+      "num_tokens": 133524068.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.16792230308055878,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3010.0,
+      "completions/mean_length": 646.1049194335938,
+      "completions/mean_terminated_length": 583.3795166015625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 2.0746355685131195,
+      "grad_norm": 0.12680338323116302,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 134125354.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.1713072657585144,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3255.0,
+      "completions/mean_length": 663.560302734375,
+      "completions/mean_terminated_length": 613.0260620117188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 2.0839650145772595,
+      "grad_norm": 0.1163000613451004,
+      "learning_rate": 1e-06,
+      "loss": 0.0133,
+      "num_tokens": 134754496.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.18077746033668518,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3616.0,
+      "completions/mean_length": 661.8013916015625,
+      "completions/mean_terminated_length": 595.3833618164062,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 2.0932944606413995,
+      "grad_norm": 0.14293843507766724,
+      "learning_rate": 1e-06,
+      "loss": 0.0296,
+      "num_tokens": 135362958.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.23375527560710907,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161848425865173,
+      "step": 224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2762.0,
+      "completions/mean_length": 677.6373291015625,
+      "completions/mean_terminated_length": 599.5924682617188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.1026239067055394,
+      "grad_norm": 0.10091352462768555,
+      "learning_rate": 1e-06,
+      "loss": -0.0018,
+      "num_tokens": 135962553.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1557076871395111,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3848.0,
+      "completions/mean_length": 645.3270263671875,
+      "completions/mean_terminated_length": 558.4679565429688,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 2.1119533527696794,
+      "grad_norm": 0.12225000560283661,
+      "learning_rate": 1e-06,
+      "loss": -0.003,
+      "num_tokens": 136524278.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.179006889462471,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2817.0,
+      "completions/mean_length": 666.8605346679688,
+      "completions/mean_terminated_length": 600.5403442382812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 2.1212827988338194,
+      "grad_norm": 0.12009953707456589,
+      "learning_rate": 1e-06,
+      "loss": 0.0097,
+      "num_tokens": 137148793.0,
+      "reward": 0.609375,
+      "reward_std": 0.17261996865272522,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3462.0,
+      "completions/mean_length": 714.5167846679688,
+      "completions/mean_terminated_length": 613.4609375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.130612244897959,
+      "grad_norm": 0.11147555708885193,
+      "learning_rate": 1e-06,
+      "loss": 0.0052,
+      "num_tokens": 137779704.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.16746655106544495,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763264656067,
+      "step": 228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3432.0,
+      "completions/mean_length": 682.4832763671875,
+      "completions/mean_terminated_length": 604.549072265625,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 2.139941690962099,
+      "grad_norm": 0.12987785041332245,
+      "learning_rate": 1e-06,
+      "loss": 0.0262,
+      "num_tokens": 138387857.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.20398928225040436,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 718.1920166015625,
+      "completions/mean_terminated_length": 629.2005004882812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 2.149271137026239,
+      "grad_norm": 0.11622848361730576,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 139027237.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.20944397151470184,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2505.0,
+      "completions/mean_length": 655.216552734375,
+      "completions/mean_terminated_length": 588.6712036132812,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 2.158600583090379,
+      "grad_norm": 0.1269744485616684,
+      "learning_rate": 1e-06,
+      "loss": 0.0022,
+      "num_tokens": 139634191.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.16871324181556702,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3614.0,
+      "completions/mean_length": 768.4676513671875,
+      "completions/mean_terminated_length": 621.0944213867188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 2.167930029154519,
+      "grad_norm": 0.09723895788192749,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 140257434.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.129900723695755,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3163.0,
+      "completions/mean_length": 641.6674194335938,
+      "completions/mean_terminated_length": 590.8108520507812,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 2.177259475218659,
+      "grad_norm": 0.10979227721691132,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 140867600.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.16134923696517944,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3440.0,
+      "completions/mean_length": 654.4163208007812,
+      "completions/mean_terminated_length": 595.819580078125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 2.186588921282799,
+      "grad_norm": 0.11229733377695084,
+      "learning_rate": 1e-06,
+      "loss": 0.0115,
+      "num_tokens": 141475117.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.15687911212444305,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 706.1272583007812,
+      "completions/mean_terminated_length": 608.8289184570312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.195918367346939,
+      "grad_norm": 0.1288706362247467,
+      "learning_rate": 1e-06,
+      "loss": 0.0014,
+      "num_tokens": 142097327.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.21617180109024048,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3080.0,
+      "completions/mean_length": 698.5714721679688,
+      "completions/mean_terminated_length": 613.0526123046875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.205247813411079,
+      "grad_norm": 0.13237717747688293,
+      "learning_rate": 1e-06,
+      "loss": 0.0072,
+      "num_tokens": 142726223.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.21680979430675507,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3362.0,
+      "completions/mean_length": 739.3035888671875,
+      "completions/mean_terminated_length": 674.384521484375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 2.2145772594752184,
+      "grad_norm": 0.1296413689851761,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 143412151.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.24176080524921417,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 591.75,
+      "completions/mean_terminated_length": 560.18017578125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.2239067055393584,
+      "grad_norm": 0.12846998870372772,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 143994743.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1666869819164276,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2262.0,
+      "completions/mean_length": 610.8504638671875,
+      "completions/mean_terminated_length": 559.5401611328125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.2332361516034984,
+      "grad_norm": 0.1109478622674942,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 144574313.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3155.0,
+      "completions/mean_length": 672.4453125,
+      "completions/mean_terminated_length": 594.2819213867188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.2425655976676384,
+      "grad_norm": 0.1168147623538971,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 145185776.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.1638326644897461,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 240
+    },
+    {
+      "clip_ratio/high_max": 0.018368792487308383,
+      "clip_ratio/high_mean": 0.00804357198649086,
+      "clip_ratio/low_mean": 0.004262413567630574,
+      "clip_ratio/low_min": 0.0005176992708584294,
+      "clip_ratio/region_mean": 0.012305985379498452,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3030.0,
+      "completions/mean_length": 671.1484375,
+      "completions/mean_terminated_length": 600.9351196289062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 2.2518950437317784,
+      "grad_norm": 0.2730906009674072,
+      "learning_rate": 1e-06,
+      "loss": 0.01,
+      "num_tokens": 145801517.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.20873039960861206,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3254.0,
+      "completions/mean_length": 662.3828125,
+      "completions/mean_terminated_length": 595.97607421875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.2612244897959184,
+      "grad_norm": 0.13381898403167725,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 146415372.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.19077390432357788,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3416.0,
+      "completions/mean_length": 734.7645263671875,
+      "completions/mean_terminated_length": 646.2096557617188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 2.2705539358600584,
+      "grad_norm": 0.1320689618587494,
+      "learning_rate": 1e-06,
+      "loss": 0.01,
+      "num_tokens": 147068497.0,
+      "reward": 0.5334821939468384,
+      "reward_std": 0.23856060206890106,
+      "rewards/verify_math_reward/mean": 0.5334821343421936,
+      "rewards/verify_math_reward/std": 0.49915629625320435,
+      "step": 243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3375.0,
+      "completions/mean_length": 616.2109375,
+      "completions/mean_terminated_length": 568.9739990234375,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 2.2798833819241984,
+      "grad_norm": 0.1339106410741806,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 147666798.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.20749256014823914,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2897.0,
+      "completions/mean_length": 712.638427734375,
+      "completions/mean_terminated_length": 651.1226806640625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 2.2892128279883384,
+      "grad_norm": 0.11931008845567703,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 148324666.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1803637593984604,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924396276473999,
+      "step": 245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 632.78125,
+      "completions/mean_terminated_length": 581.7938842773438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.298542274052478,
+      "grad_norm": 0.13235315680503845,
+      "learning_rate": 1e-06,
+      "loss": 0.0061,
+      "num_tokens": 148929230.0,
+      "reward": 0.609375,
+      "reward_std": 0.19107066094875336,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3745.0,
+      "completions/mean_length": 621.4955444335938,
+      "completions/mean_terminated_length": 550.2642822265625,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.307871720116618,
+      "grad_norm": 0.13729095458984375,
+      "learning_rate": 1e-06,
+      "loss": -0.0038,
+      "num_tokens": 149498898.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.20203717052936554,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 698.8158569335938,
+      "completions/mean_terminated_length": 609.3139038085938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.317201166180758,
+      "grad_norm": 0.12783533334732056,
+      "learning_rate": 1e-06,
+      "loss": -0.0147,
+      "num_tokens": 150114221.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.19528047740459442,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3251.0,
+      "completions/mean_length": 712.4564819335938,
+      "completions/mean_terminated_length": 603.3099365234375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.326530612244898,
+      "grad_norm": 0.13753677904605865,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 150721550.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.21623891592025757,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3964.0,
+      "completions/mean_length": 667.1752319335938,
+      "completions/mean_terminated_length": 616.6942138671875,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 2.335860058309038,
+      "grad_norm": 0.13102750480175018,
+      "learning_rate": 1e-06,
+      "loss": 0.0101,
+      "num_tokens": 151358915.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.20993433892726898,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2862.0,
+      "completions/mean_length": 672.671875,
+      "completions/mean_terminated_length": 586.5010986328125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.345189504373178,
+      "grad_norm": 0.13345371186733246,
+      "learning_rate": 1e-06,
+      "loss": -0.0074,
+      "num_tokens": 151948245.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.204860121011734,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3697.0,
+      "completions/mean_length": 702.0313110351562,
+      "completions/mean_terminated_length": 592.5484008789062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 2.354518950437318,
+      "grad_norm": 0.11863140761852264,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 152551913.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.1940726339817047,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3275.0,
+      "completions/mean_length": 645.2020263671875,
+      "completions/mean_terminated_length": 586.4483642578125,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 2.363848396501458,
+      "grad_norm": 0.1312142312526703,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 153164438.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.2070397585630417,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 685.5513916015625,
+      "completions/mean_terminated_length": 599.7047729492188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 2.373177842565598,
+      "grad_norm": 0.12271033227443695,
+      "learning_rate": 1e-06,
+      "loss": -0.0156,
+      "num_tokens": 153790932.0,
+      "reward": 0.578125,
+      "reward_std": 0.19411788880825043,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2977.0,
+      "completions/mean_length": 746.0714721679688,
+      "completions/mean_terminated_length": 630.0230712890625,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 2.3825072886297374,
+      "grad_norm": 0.11483033001422882,
+      "learning_rate": 1e-06,
+      "loss": -0.001,
+      "num_tokens": 154438316.0,
+      "reward": 0.5546875,
+      "reward_std": 0.18975545465946198,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 637.5111694335938,
+      "completions/mean_terminated_length": 582.614501953125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.3918367346938774,
+      "grad_norm": 0.11873350292444229,
+      "learning_rate": 1e-06,
+      "loss": 0.0108,
+      "num_tokens": 155043382.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.16010111570358276,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3515.0,
+      "completions/mean_length": 642.818115234375,
+      "completions/mean_terminated_length": 588.0056762695312,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.4011661807580174,
+      "grad_norm": 0.1250615119934082,
+      "learning_rate": 1e-06,
+      "loss": 0.0035,
+      "num_tokens": 155648139.0,
+      "reward": 0.5859375,
+      "reward_std": 0.19685529172420502,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2073.0,
+      "completions/mean_length": 590.3928833007812,
+      "completions/mean_terminated_length": 534.748291015625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 2.4104956268221573,
+      "grad_norm": 0.12371426075696945,
+      "learning_rate": 1e-06,
+      "loss": -0.001,
+      "num_tokens": 156205979.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17224974930286407,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3599.0,
+      "completions/mean_length": 720.5100708007812,
+      "completions/mean_terminated_length": 595.4918823242188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 2.4198250728862973,
+      "grad_norm": 0.12302586436271667,
+      "learning_rate": 1e-06,
+      "loss": -0.0049,
+      "num_tokens": 156813876.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1852782517671585,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3948.0,
+      "completions/mean_length": 708.2031860351562,
+      "completions/mean_terminated_length": 634.8072509765625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.4291545189504373,
+      "grad_norm": 0.12513022124767303,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 157459050.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.21432706713676453,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 725.5513916015625,
+      "completions/mean_terminated_length": 612.8142700195312,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 2.4384839650145773,
+      "grad_norm": 0.14809367060661316,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 158075256.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.24089428782463074,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652786254883,
+      "step": 261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4066.0,
+      "completions/mean_length": 703.4732666015625,
+      "completions/mean_terminated_length": 589.9976806640625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 2.4478134110787173,
+      "grad_norm": 0.1256195306777954,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 158681432.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.18686267733573914,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2689.0,
+      "completions/mean_length": 672.0546875,
+      "completions/mean_terminated_length": 597.8756713867188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 2.4571428571428573,
+      "grad_norm": 0.13301654160022736,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 159288785.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.2112138420343399,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2814.0,
+      "completions/mean_length": 743.8326416015625,
+      "completions/mean_terminated_length": 587.189208984375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 2.466472303206997,
+      "grad_norm": 0.13447239995002747,
+      "learning_rate": 1e-06,
+      "loss": -0.0087,
+      "num_tokens": 159893955.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.2173650562763214,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3562.0,
+      "completions/mean_length": 734.3594360351562,
+      "completions/mean_terminated_length": 593.6395263671875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 2.4758017492711373,
+      "grad_norm": 0.13209767639636993,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 160485693.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1871197670698166,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3720.0,
+      "completions/mean_length": 639.0803833007812,
+      "completions/mean_terminated_length": 556.1142578125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.485131195335277,
+      "grad_norm": 0.12567594647407532,
+      "learning_rate": 1e-06,
+      "loss": -0.0075,
+      "num_tokens": 161051981.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15989314019680023,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3693.0,
+      "completions/mean_length": 664.140625,
+      "completions/mean_terminated_length": 565.63720703125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.494460641399417,
+      "grad_norm": 0.1250281184911728,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 161630403.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.19102534651756287,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4018.0,
+      "completions/mean_length": 601.2332763671875,
+      "completions/mean_terminated_length": 525.5199584960938,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.503790087463557,
+      "grad_norm": 0.13596193492412567,
+      "learning_rate": 1e-06,
+      "loss": 0.013,
+      "num_tokens": 162181124.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.19456438720226288,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3085.0,
+      "completions/mean_length": 592.1953125,
+      "completions/mean_terminated_length": 540.6104125976562,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.513119533527697,
+      "grad_norm": 0.12503011524677277,
+      "learning_rate": 1e-06,
+      "loss": 0.0043,
+      "num_tokens": 162752875.0,
+      "reward": 0.640625,
+      "reward_std": 0.17171843349933624,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 674.1317138671875,
+      "completions/mean_terminated_length": 575.9150390625,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 2.522448979591837,
+      "grad_norm": 0.1236991137266159,
+      "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 163345905.0,
+      "reward": 0.5546875,
+      "reward_std": 0.17851974070072174,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 622.8705444335938,
+      "completions/mean_terminated_length": 559.7227172851562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.5317784256559768,
+      "grad_norm": 0.124686598777771,
+      "learning_rate": 1e-06,
+      "loss": 0.017,
+      "num_tokens": 163925213.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1755893975496292,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3927.0,
+      "completions/mean_length": 663.7388916015625,
+      "completions/mean_terminated_length": 577.3432006835938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 2.5411078717201168,
+      "grad_norm": 0.12142544984817505,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 164519675.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.18468162417411804,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2865.0,
+      "completions/mean_length": 634.958740234375,
+      "completions/mean_terminated_length": 555.939453125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 2.5504373177842563,
+      "grad_norm": 0.1158989742398262,
+      "learning_rate": 1e-06,
+      "loss": 0.0051,
+      "num_tokens": 165100822.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.14083585143089294,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 616.0770263671875,
+      "completions/mean_terminated_length": 544.734619140625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.5597667638483967,
+      "grad_norm": 0.11704935133457184,
+      "learning_rate": 1e-06,
+      "loss": -0.0003,
+      "num_tokens": 165664107.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15495911240577698,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3581.0,
+      "completions/mean_length": 715.4029541015625,
+      "completions/mean_terminated_length": 622.3589477539062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 2.5690962099125363,
+      "grad_norm": 0.13065844774246216,
+      "learning_rate": 1e-06,
+      "loss": -0.0013,
+      "num_tokens": 166290828.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.20854565501213074,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 738.8047485351562,
+      "completions/mean_terminated_length": 642.4442749023438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.5784256559766763,
+      "grad_norm": 0.11663296073675156,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 166934365.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.18829230964183807,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3474.0,
+      "completions/mean_length": 653.8404541015625,
+      "completions/mean_terminated_length": 579.2667846679688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.5877551020408163,
+      "grad_norm": 0.14339974522590637,
+      "learning_rate": 1e-06,
+      "loss": -0.0011,
+      "num_tokens": 167521038.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.21463198959827423,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3880.0,
+      "completions/mean_length": 715.4174194335938,
+      "completions/mean_terminated_length": 594.2635498046875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.5970845481049563,
+      "grad_norm": 0.1284037083387375,
+      "learning_rate": 1e-06,
+      "loss": -0.0101,
+      "num_tokens": 168124844.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.18186122179031372,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 695.4699096679688,
+      "completions/mean_terminated_length": 629.7030639648438,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 2.6064139941690962,
+      "grad_norm": 0.11293873935937881,
+      "learning_rate": 1e-06,
+      "loss": -0.0033,
+      "num_tokens": 168776033.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.16645735502243042,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3984.0,
+      "completions/mean_length": 678.2489013671875,
+      "completions/mean_terminated_length": 559.8510131835938,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 2.6157434402332362,
+      "grad_norm": 0.13129226863384247,
+      "learning_rate": 1e-06,
+      "loss": 0.0016,
+      "num_tokens": 169359400.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.15570586919784546,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2915.0,
+      "completions/mean_length": 728.3560791015625,
+      "completions/mean_terminated_length": 643.5869140625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 2.6250728862973762,
+      "grad_norm": 0.11450564861297607,
+      "learning_rate": 1e-06,
+      "loss": -0.002,
+      "num_tokens": 170017567.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.18738332390785217,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3966.0,
+      "completions/mean_length": 688.8426513671875,
+      "completions/mean_terminated_length": 574.8777465820312,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 2.6344023323615158,
+      "grad_norm": 0.12026088684797287,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 170599610.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.17577557265758514,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3024.0,
+      "completions/mean_length": 742.7489013671875,
+      "completions/mean_terminated_length": 614.52490234375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 2.643731778425656,
+      "grad_norm": 0.12936659157276154,
+      "learning_rate": 1e-06,
+      "loss": -0.0053,
+      "num_tokens": 171220313.0,
+      "reward": 0.609375,
+      "reward_std": 0.212449848651886,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 692.2277221679688,
+      "completions/mean_terminated_length": 622.4464721679688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 2.6530612244897958,
+      "grad_norm": 0.13705040514469147,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 171856861.0,
+      "reward": 0.6015625,
+      "reward_std": 0.23453807830810547,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3671.0,
+      "completions/mean_length": 691.8114013671875,
+      "completions/mean_terminated_length": 594.1021728515625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.6623906705539357,
+      "grad_norm": 0.14273203909397125,
+      "learning_rate": 1e-06,
+      "loss": -0.0028,
+      "num_tokens": 172473908.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.19261160492897034,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 712.622802734375,
+      "completions/mean_terminated_length": 611.5103149414062,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.6717201166180757,
+      "grad_norm": 0.11666254699230194,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 173103362.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.1758490353822708,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2968.0,
+      "completions/mean_length": 731.0870971679688,
+      "completions/mean_terminated_length": 582.0582885742188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 2.6810495626822157,
+      "grad_norm": 0.11857963353395462,
+      "learning_rate": 1e-06,
+      "loss": -0.0181,
+      "num_tokens": 173699544.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.16458265483379364,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4067.0,
+      "completions/mean_length": 760.5123291015625,
+      "completions/mean_terminated_length": 628.9500732421875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 2.6903790087463557,
+      "grad_norm": 0.12353627383708954,
+      "learning_rate": 1e-06,
+      "loss": -0.0097,
+      "num_tokens": 174331403.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.18765361607074738,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3551.0,
+      "completions/mean_length": 738.036865234375,
+      "completions/mean_terminated_length": 609.6326904296875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 2.6997084548104957,
+      "grad_norm": 0.13085076212882996,
+      "learning_rate": 1e-06,
+      "loss": -0.0098,
+      "num_tokens": 174942580.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.18344561755657196,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2508.0,
+      "completions/mean_length": 766.6295166015625,
+      "completions/mean_terminated_length": 647.3109741210938,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 2.7090379008746357,
+      "grad_norm": 0.1308446228504181,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 175595744.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.24472320079803467,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2632.0,
+      "completions/mean_length": 692.6875610351562,
+      "completions/mean_terminated_length": 586.9459228515625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.7183673469387752,
+      "grad_norm": 0.13336847722530365,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 176197424.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.2052348405122757,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2644.0,
+      "completions/mean_length": 672.328125,
+      "completions/mean_terminated_length": 590.1599731445312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 2.7276967930029157,
+      "grad_norm": 0.12759360671043396,
+      "learning_rate": 1e-06,
+      "loss": -0.0024,
+      "num_tokens": 176799726.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.20237983763217926,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4081.0,
+      "completions/mean_length": 648.7221069335938,
+      "completions/mean_terminated_length": 590.0283813476562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 2.7370262390670552,
+      "grad_norm": 0.13208197057247162,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 177408629.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.19456368684768677,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3258.0,
+      "completions/mean_length": 622.5803833007812,
+      "completions/mean_terminated_length": 559.42724609375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.746355685131195,
+      "grad_norm": 0.13532754778862,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 177990973.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.20233957469463348,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2364.0,
+      "completions/mean_length": 733.8928833007812,
+      "completions/mean_terminated_length": 613.401123046875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.755685131195335,
+      "grad_norm": 0.13921375572681427,
+      "learning_rate": 1e-06,
+      "loss": -0.0132,
+      "num_tokens": 178617381.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.22303910553455353,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 758.0045166015625,
+      "completions/mean_terminated_length": 618.2744140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.765014577259475,
+      "grad_norm": 0.12173353880643845,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 179243265.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.1637125015258789,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3279.0,
+      "completions/mean_length": 692.1317138671875,
+      "completions/mean_terminated_length": 598.4472045898438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 2.774344023323615,
+      "grad_norm": 0.11701571941375732,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 179850327.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15488353371620178,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2600.0,
+      "completions/mean_length": 727.0614013671875,
+      "completions/mean_terminated_length": 622.3878173828125,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 2.783673469387755,
+      "grad_norm": 0.13242870569229126,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 180486798.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.20163418352603912,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936988949775696,
+      "step": 298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 686.1339721679688,
+      "completions/mean_terminated_length": 588.2617797851562,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 2.793002915451895,
+      "grad_norm": 0.11804566532373428,
+      "learning_rate": 1e-06,
+      "loss": 0.0051,
+      "num_tokens": 181088902.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.18452827632427216,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2634.0,
+      "completions/mean_length": 642.2199096679688,
+      "completions/mean_terminated_length": 595.3359985351562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 2.8023323615160347,
+      "grad_norm": 0.12089167535305023,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 181702043.0,
+      "reward": 0.65625,
+      "reward_std": 0.16660960018634796,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2934.0,
+      "completions/mean_length": 608.560302734375,
+      "completions/mean_terminated_length": 549.1828002929688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.811661807580175,
+      "grad_norm": 0.13452772796154022,
+      "learning_rate": 1e-06,
+      "loss": 0.0073,
+      "num_tokens": 182266537.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.18930783867835999,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3091.0,
+      "completions/mean_length": 622.9342041015625,
+      "completions/mean_terminated_length": 555.7644653320312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 2.8209912536443147,
+      "grad_norm": 0.13278339803218842,
+      "learning_rate": 1e-06,
+      "loss": 0.0112,
+      "num_tokens": 182835126.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.16596952080726624,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2644.0,
+      "completions/mean_length": 656.6038208007812,
+      "completions/mean_terminated_length": 594.0692749023438,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 2.8303206997084547,
+      "grad_norm": 0.1224234402179718,
+      "learning_rate": 1e-06,
+      "loss": -0.0035,
+      "num_tokens": 183459755.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.17394152283668518,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3826.0,
+      "completions/mean_length": 671.6038208007812,
+      "completions/mean_terminated_length": 597.4150390625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.8396501457725947,
+      "grad_norm": 0.12831582129001617,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 184071240.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.18155770003795624,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2412.0,
+      "completions/mean_length": 695.2857666015625,
+      "completions/mean_terminated_length": 573.410400390625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.8489795918367347,
+      "grad_norm": 0.13423438370227814,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 184655200.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.19391925632953644,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3999.0,
+      "completions/mean_length": 719.5324096679688,
+      "completions/mean_terminated_length": 622.6188354492188,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.8583090379008746,
+      "grad_norm": 0.13095982372760773,
+      "learning_rate": 1e-06,
+      "loss": 0.0261,
+      "num_tokens": 185284581.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.18915177881717682,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3411.0,
+      "completions/mean_length": 632.029052734375,
+      "completions/mean_terminated_length": 585.0068359375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.8676384839650146,
+      "grad_norm": 0.1279597133398056,
+      "learning_rate": 1e-06,
+      "loss": -0.0068,
+      "num_tokens": 185899263.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.20079933106899261,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3013.0,
+      "completions/mean_length": 674.880615234375,
+      "completions/mean_terminated_length": 600.7628173828125,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.8769679300291546,
+      "grad_norm": 0.11159589141607285,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 186502884.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.16799716651439667,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865824937820435,
+      "step": 308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3311.0,
+      "completions/mean_length": 750.2176513671875,
+      "completions/mean_terminated_length": 630.3109741210938,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 2.8862973760932946,
+      "grad_norm": 0.12934349477291107,
+      "learning_rate": 1e-06,
+      "loss": -0.0089,
+      "num_tokens": 187135599.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.17912591993808746,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2810.0,
+      "completions/mean_length": 706.4866333007812,
+      "completions/mean_terminated_length": 609.1986083984375,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 2.8956268221574346,
+      "grad_norm": 0.12779387831687927,
+      "learning_rate": 1e-06,
+      "loss": -0.0157,
+      "num_tokens": 187749667.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.2099011391401291,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3368.0,
+      "completions/mean_length": 730.6652221679688,
+      "completions/mean_terminated_length": 614.0831298828125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.904956268221574,
+      "grad_norm": 0.133760005235672,
+      "learning_rate": 1e-06,
+      "loss": -0.0189,
+      "num_tokens": 188372759.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.21034803986549377,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3346.0,
+      "completions/mean_length": 779.9877319335938,
+      "completions/mean_terminated_length": 669.0714721679688,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 2.914285714285714,
+      "grad_norm": 0.12504105269908905,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 189038772.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.18644827604293823,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 787.1998291015625,
+      "completions/mean_terminated_length": 636.624267578125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.923615160349854,
+      "grad_norm": 0.1323768049478531,
+      "learning_rate": 1e-06,
+      "loss": 0.0101,
+      "num_tokens": 189683575.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.19178743660449982,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 753.294677734375,
+      "completions/mean_terminated_length": 625.4739379882812,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.932944606413994,
+      "grad_norm": 0.13254469633102417,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 190313623.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.18667609989643097,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3437.0,
+      "completions/mean_length": 732.1339721679688,
+      "completions/mean_terminated_length": 615.602783203125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 2.942274052478134,
+      "grad_norm": 0.11032266914844513,
+      "learning_rate": 1e-06,
+      "loss": 0.0002,
+      "num_tokens": 190932255.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14984887838363647,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3254.0,
+      "completions/mean_length": 714.7489013671875,
+      "completions/mean_terminated_length": 617.6980590820312,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 2.951603498542274,
+      "grad_norm": 0.12519097328186035,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 191570182.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.18576611578464508,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 769.6652221679688,
+      "completions/mean_terminated_length": 674.1905517578125,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 2.960932944606414,
+      "grad_norm": 0.12233088165521622,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 192244866.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.17025348544120789,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3460.0,
+      "completions/mean_length": 694.8158569335938,
+      "completions/mean_terminated_length": 593.1712646484375,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 2.970262390670554,
+      "grad_norm": 0.14599263668060303,
+      "learning_rate": 1e-06,
+      "loss": -0.0225,
+      "num_tokens": 192853869.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.22140008211135864,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4094.0,
+      "completions/mean_length": 669.122802734375,
+      "completions/mean_terminated_length": 582.8626708984375,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 2.979591836734694,
+      "grad_norm": 0.13434584438800812,
+      "learning_rate": 1e-06,
+      "loss": -0.0098,
+      "num_tokens": 193451187.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.1926429718732834,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2348.0,
+      "completions/mean_length": 667.9967041015625,
+      "completions/mean_terminated_length": 585.7245483398438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.9889212827988336,
+      "grad_norm": 0.12504513561725616,
+      "learning_rate": 1e-06,
+      "loss": -0.0107,
+      "num_tokens": 194045888.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.15341928601264954,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3788.0,
+      "completions/mean_length": 646.3817138671875,
+      "completions/mean_terminated_length": 571.646484375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.9982507288629736,
+      "grad_norm": 0.13025930523872375,
+      "learning_rate": 1e-06,
+      "loss": 0.0046,
+      "num_tokens": 194643726.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.19343574345111847,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3061.0,
+      "completions/mean_length": 701.8683471679688,
+      "completions/mean_terminated_length": 584.2886962890625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.00932944606414,
+      "grad_norm": 0.13409017026424408,
+      "learning_rate": 1e-06,
+      "loss": -0.0136,
+      "num_tokens": 195240144.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.23525162041187286,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3124.0,
+      "completions/mean_length": 705.5402221679688,
+      "completions/mean_terminated_length": 575.8933715820312,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.01865889212828,
+      "grad_norm": 0.1364138275384903,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 195833588.0,
+      "reward": 0.625,
+      "reward_std": 0.19452865421772003,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3178.0,
+      "completions/mean_length": 727.4085083007812,
+      "completions/mean_terminated_length": 602.6458129882812,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.02798833819242,
+      "grad_norm": 0.13122336566448212,
+      "learning_rate": 1e-06,
+      "loss": -0.0229,
+      "num_tokens": 196447274.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.15405938029289246,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4068.0,
+      "completions/mean_length": 711.8225708007812,
+      "completions/mean_terminated_length": 622.6632690429688,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.03731778425656,
+      "grad_norm": 0.1151110902428627,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 197095235.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.1594706028699875,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 668.1350708007812,
+      "completions/mean_terminated_length": 565.693115234375,
+      "completions/min_length": 94.0,
+      "completions/min_terminated_length": 94.0,
+      "epoch": 3.0466472303206995,
+      "grad_norm": 0.1365208923816681,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 197681964.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.19643980264663696,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3048.0,
+      "completions/mean_length": 681.6317138671875,
+      "completions/mean_terminated_length": 595.6864624023438,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 3.0559766763848395,
+      "grad_norm": 0.1353214979171753,
+      "learning_rate": 1e-06,
+      "loss": 0.0077,
+      "num_tokens": 198293226.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.17266343533992767,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2767.0,
+      "completions/mean_length": 765.779052734375,
+      "completions/mean_terminated_length": 601.9976196289062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.0653061224489795,
+      "grad_norm": 0.12885475158691406,
+      "learning_rate": 1e-06,
+      "loss": -0.013,
+      "num_tokens": 198918780.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.17731650173664093,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3713.0,
+      "completions/mean_length": 693.1160888671875,
+      "completions/mean_terminated_length": 587.3878173828125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.0746355685131195,
+      "grad_norm": 0.12753824889659882,
+      "learning_rate": 1e-06,
+      "loss": -0.0068,
+      "num_tokens": 199517132.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.14617222547531128,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3190.0,
+      "completions/mean_length": 690.5245971679688,
+      "completions/mean_terminated_length": 600.8041381835938,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 3.0839650145772595,
+      "grad_norm": 0.1325608193874359,
+      "learning_rate": 1e-06,
+      "loss": -0.0185,
+      "num_tokens": 200129474.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.17841166257858276,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3476.0,
+      "completions/mean_length": 683.2388916015625,
+      "completions/mean_terminated_length": 581.248291015625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 3.0932944606413995,
+      "grad_norm": 0.13901954889297485,
+      "learning_rate": 1e-06,
+      "loss": -0.0004,
+      "num_tokens": 200720280.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.209706112742424,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2190.0,
+      "completions/mean_length": 686.6596069335938,
+      "completions/mean_terminated_length": 588.802490234375,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 3.1026239067055394,
+      "grad_norm": 0.12468723952770233,
+      "learning_rate": 1e-06,
+      "loss": -0.0038,
+      "num_tokens": 201307479.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.16086140275001526,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3565.0,
+      "completions/mean_length": 670.6283569335938,
+      "completions/mean_terminated_length": 551.9664916992188,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 3.1119533527696794,
+      "grad_norm": 0.13708895444869995,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 201859106.0,
+      "reward": 0.65625,
+      "reward_std": 0.1816764622926712,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3241.0,
+      "completions/mean_length": 691.099365234375,
+      "completions/mean_terminated_length": 601.39404296875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.1212827988338194,
+      "grad_norm": 0.1290242075920105,
+      "learning_rate": 1e-06,
+      "loss": 0.0053,
+      "num_tokens": 202480763.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16416895389556885,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3713.0,
+      "completions/mean_length": 751.4922485351562,
+      "completions/mean_terminated_length": 599.291748046875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 3.130612244897959,
+      "grad_norm": 0.13000929355621338,
+      "learning_rate": 1e-06,
+      "loss": -0.0057,
+      "num_tokens": 203091556.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.17821593582630157,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2734.0,
+      "completions/mean_length": 712.9642944335938,
+      "completions/mean_terminated_length": 591.7225341796875,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 3.139941690962099,
+      "grad_norm": 0.13226984441280365,
+      "learning_rate": 1e-06,
+      "loss": -0.0157,
+      "num_tokens": 203681964.0,
+      "reward": 0.65625,
+      "reward_std": 0.16491642594337463,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3666.0,
+      "completions/mean_length": 761.5011596679688,
+      "completions/mean_terminated_length": 633.9942016601562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.149271137026239,
+      "grad_norm": 0.12499138712882996,
+      "learning_rate": 1e-06,
+      "loss": -0.0079,
+      "num_tokens": 204319189.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.19951984286308289,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2691.0,
+      "completions/mean_length": 689.1685791015625,
+      "completions/mean_terminated_length": 591.3834838867188,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 3.158600583090379,
+      "grad_norm": 0.1238812655210495,
+      "learning_rate": 1e-06,
+      "loss": 0.0042,
+      "num_tokens": 204923796.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16837625205516815,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2879.0,
+      "completions/mean_length": 843.3516235351562,
+      "completions/mean_terminated_length": 626.5083618164062,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.167930029154519,
+      "grad_norm": 0.11512185633182526,
+      "learning_rate": 1e-06,
+      "loss": -0.0156,
+      "num_tokens": 205540407.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.1513572782278061,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943605065345764,
+      "step": 339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3706.0,
+      "completions/mean_length": 689.1574096679688,
+      "completions/mean_terminated_length": 587.3436889648438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.177259475218659,
+      "grad_norm": 0.1282913088798523,
+      "learning_rate": 1e-06,
+      "loss": 0.0044,
+      "num_tokens": 206139876.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1639835089445114,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 652.5402221679688,
+      "completions/mean_terminated_length": 569.8971557617188,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.186588921282799,
+      "grad_norm": 0.1217779591679573,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 206721136.0,
+      "reward": 0.65625,
+      "reward_std": 0.14496827125549316,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2097.0,
+      "completions/mean_length": 749.0402221679688,
+      "completions/mean_terminated_length": 600.8065185546875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 3.195918367346939,
+      "grad_norm": 0.13950563967227936,
+      "learning_rate": 1e-06,
+      "loss": -0.0148,
+      "num_tokens": 207328548.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.23296253383159637,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3329.0,
+      "completions/mean_length": 709.9475708007812,
+      "completions/mean_terminated_length": 600.7200317382812,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 3.205247813411079,
+      "grad_norm": 0.14613395929336548,
+      "learning_rate": 1e-06,
+      "loss": -0.0065,
+      "num_tokens": 207943061.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.2227773815393448,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4092.0,
+      "completions/mean_length": 790.3058471679688,
+      "completions/mean_terminated_length": 663.9003295898438,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 3.2145772594752184,
+      "grad_norm": 0.13230329751968384,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 208609151.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.21868480741977692,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 642.0513916015625,
+      "completions/mean_terminated_length": 571.241455078125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 3.2239067055393584,
+      "grad_norm": 0.12874354422092438,
+      "learning_rate": 1e-06,
+      "loss": -0.0089,
+      "num_tokens": 209195853.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16470026969909668,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2255.0,
+      "completions/mean_length": 684.8281860351562,
+      "completions/mean_terminated_length": 558.4884033203125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.2332361516034984,
+      "grad_norm": 0.12298430502414703,
+      "learning_rate": 1e-06,
+      "loss": -0.0103,
+      "num_tokens": 209763883.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1428307294845581,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3553.0,
+      "completions/mean_length": 703.7879638671875,
+      "completions/mean_terminated_length": 586.2748413085938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 3.2425655976676384,
+      "grad_norm": 0.12920339405536652,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 210362469.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.1734083741903305,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2806.0,
+      "completions/mean_length": 677.5480346679688,
+      "completions/mean_terminated_length": 587.4857177734375,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.2518950437317784,
+      "grad_norm": 0.13406428694725037,
+      "learning_rate": 1e-06,
+      "loss": 0.0111,
+      "num_tokens": 210956608.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.19538643956184387,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3504.0,
+      "completions/mean_length": 684.5123291015625,
+      "completions/mean_terminated_length": 558.160888671875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 3.2612244897959184,
+      "grad_norm": 0.14350523054599762,
+      "learning_rate": 1e-06,
+      "loss": -0.009,
+      "num_tokens": 211522875.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.18952831625938416,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 706.3605346679688,
+      "completions/mean_terminated_length": 564.4686279296875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.2705539358600584,
+      "grad_norm": 0.13202689588069916,
+      "learning_rate": 1e-06,
+      "loss": -0.0036,
+      "num_tokens": 212099918.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1633320301771164,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3190.0,
+      "completions/mean_length": 771.1730346679688,
+      "completions/mean_terminated_length": 595.3595581054688,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 3.2798833819241984,
+      "grad_norm": 0.11288853734731674,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 212692793.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.13834992051124573,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 715.8214721679688,
+      "completions/mean_terminated_length": 602.7589111328125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 3.2892128279883384,
+      "grad_norm": 0.12326151132583618,
+      "learning_rate": 1e-06,
+      "loss": -0.0243,
+      "num_tokens": 213307697.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.16897033154964447,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2603.0,
+      "completions/mean_length": 739.9408569335938,
+      "completions/mean_terminated_length": 607.5672607421875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.298542274052478,
+      "grad_norm": 0.1377718150615692,
+      "learning_rate": 1e-06,
+      "loss": 0.0052,
+      "num_tokens": 213927204.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.20831994712352753,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3698.0,
+      "completions/mean_length": 812.130615234375,
+      "completions/mean_terminated_length": 650.6287841796875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 3.307871720116618,
+      "grad_norm": 0.13006362318992615,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 214575897.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.1814585030078888,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2778.0,
+      "completions/mean_length": 803.1964721679688,
+      "completions/mean_terminated_length": 624.9976196289062,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 3.317201166180758,
+      "grad_norm": 0.1344502717256546,
+      "learning_rate": 1e-06,
+      "loss": -0.0101,
+      "num_tokens": 215201073.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.20665815472602844,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448275566101074,
+      "step": 355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3572.0,
+      "completions/mean_length": 754.8392944335938,
+      "completions/mean_terminated_length": 619.0197143554688,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 3.326530612244898,
+      "grad_norm": 0.13514229655265808,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 215827457.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.18874765932559967,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3045.0,
+      "completions/mean_length": 778.068115234375,
+      "completions/mean_terminated_length": 614.8910522460938,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 3.335860058309038,
+      "grad_norm": 0.1412975788116455,
+      "learning_rate": 1e-06,
+      "loss": -0.0097,
+      "num_tokens": 216444142.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.20741769671440125,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 776.2600708007812,
+      "completions/mean_terminated_length": 669.171630859375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.345189504373178,
+      "grad_norm": 0.1185586154460907,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 217121199.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.17618785798549652,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3623.0,
+      "completions/mean_length": 744.7813110351562,
+      "completions/mean_terminated_length": 588.1822509765625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.354518950437318,
+      "grad_norm": 0.13598987460136414,
+      "learning_rate": 1e-06,
+      "loss": 0.0042,
+      "num_tokens": 217711339.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.17852112650871277,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909069061279297,
+      "step": 359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4065.0,
+      "completions/mean_length": 770.849365234375,
+      "completions/mean_terminated_length": 619.52978515625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 3.363848396501458,
+      "grad_norm": 0.12691107392311096,
+      "learning_rate": 1e-06,
+      "loss": -0.0116,
+      "num_tokens": 218345660.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 804.091552734375,
+      "completions/mean_terminated_length": 617.757080078125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 3.373177842565598,
+      "grad_norm": 0.126580610871315,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 218957126.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.16819261014461517,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652786254883,
+      "step": 361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2645.0,
+      "completions/mean_length": 818.2188110351562,
+      "completions/mean_terminated_length": 640.8328857421875,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 3.3825072886297374,
+      "grad_norm": 0.12290062010288239,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "num_tokens": 219585282.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.18193678557872772,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3306.0,
+      "completions/mean_length": 702.0022583007812,
+      "completions/mean_terminated_length": 580.3676147460938,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.3918367346938774,
+      "grad_norm": 0.14238247275352478,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 220171924.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.18550649285316467,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3450.0,
+      "completions/mean_length": 769.0904541015625,
+      "completions/mean_terminated_length": 605.4718627929688,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.4011661807580174,
+      "grad_norm": 0.1256083846092224,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 220785253.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1413230001926422,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4046.0,
+      "completions/mean_length": 799.5335083007812,
+      "completions/mean_terminated_length": 604.7068481445312,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 3.4104956268221573,
+      "grad_norm": 0.13669243454933167,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 221394035.0,
+      "reward": 0.5859375,
+      "reward_std": 0.1702534705400467,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3142.0,
+      "completions/mean_length": 690.3739013671875,
+      "completions/mean_terminated_length": 572.3960571289062,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 3.4198250728862973,
+      "grad_norm": 0.14225222170352936,
+      "learning_rate": 1e-06,
+      "loss": -0.0027,
+      "num_tokens": 221974210.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.18603530526161194,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2425.0,
+      "completions/mean_length": 751.1506958007812,
+      "completions/mean_terminated_length": 594.8493041992188,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 3.4291545189504373,
+      "grad_norm": 0.1299821138381958,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 222572625.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1774769276380539,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3020.0,
+      "completions/mean_length": 691.0636596679688,
+      "completions/mean_terminated_length": 585.2716064453125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 3.4384839650145773,
+      "grad_norm": 0.12235794216394424,
+      "learning_rate": 1e-06,
+      "loss": -0.013,
+      "num_tokens": 223163754.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16258454322814941,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3107.0,
+      "completions/mean_length": 652.9609375,
+      "completions/mean_terminated_length": 566.2940063476562,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 3.4478134110787173,
+      "grad_norm": 0.13919448852539062,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 223743023.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.17333675920963287,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3094.0,
+      "completions/mean_length": 680.2589721679688,
+      "completions/mean_terminated_length": 582.2181396484375,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 3.4571428571428573,
+      "grad_norm": 0.12423066794872284,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 224339439.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.16769154369831085,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3473.0,
+      "completions/mean_length": 794.4006958007812,
+      "completions/mean_terminated_length": 652.1897583007812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.466472303206997,
+      "grad_norm": 0.1391342729330063,
+      "learning_rate": 1e-06,
+      "loss": -0.0117,
+      "num_tokens": 224991174.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.18621936440467834,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4096.0,
+      "completions/mean_length": 746.4263916015625,
+      "completions/mean_terminated_length": 622.3680419921875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 3.4758017492711373,
+      "grad_norm": 0.12099606543779373,
+      "learning_rate": 1e-06,
+      "loss": -0.0065,
+      "num_tokens": 225619756.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.16548095643520355,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3272.0,
+      "completions/mean_length": 808.802490234375,
+      "completions/mean_terminated_length": 630.9070434570312,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.485131195335277,
+      "grad_norm": 0.12439883500337601,
+      "learning_rate": 1e-06,
+      "loss": -0.0174,
+      "num_tokens": 226234571.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17299722135066986,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 755.1183471679688,
+      "completions/mean_terminated_length": 623.3433837890625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 3.494460641399417,
+      "grad_norm": 0.11875832825899124,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 226861997.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16018669307231903,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3489.0,
+      "completions/mean_length": 756.9141235351562,
+      "completions/mean_terminated_length": 617.1383666992188,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 3.503790087463557,
+      "grad_norm": 0.12686309218406677,
+      "learning_rate": 1e-06,
+      "loss": -0.0246,
+      "num_tokens": 227475128.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.17269553244113922,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 811.6886596679688,
+      "completions/mean_terminated_length": 642.0762939453125,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 3.513119533527697,
+      "grad_norm": 0.13370086252689362,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 228117617.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.19313082098960876,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2335.0,
+      "completions/mean_length": 756.302490234375,
+      "completions/mean_terminated_length": 608.3904418945312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.522448979591837,
+      "grad_norm": 0.1330876648426056,
+      "learning_rate": 1e-06,
+      "loss": -0.0167,
+      "num_tokens": 228741232.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.18257758021354675,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3415.0,
+      "completions/mean_length": 703.6652221679688,
+      "completions/mean_terminated_length": 594.2350463867188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.5317784256559768,
+      "grad_norm": 0.11800918728113174,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 229350516.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.14992444217205048,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3395.0,
+      "completions/mean_length": 806.7199096679688,
+      "completions/mean_terminated_length": 644.9519653320312,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 3.5411078717201168,
+      "grad_norm": 0.14276005327701569,
+      "learning_rate": 1e-06,
+      "loss": -0.0268,
+      "num_tokens": 229993193.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.21158403158187866,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 651.7142944335938,
+      "completions/mean_terminated_length": 544.6996459960938,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.5504373177842563,
+      "grad_norm": 0.13489356637001038,
+      "learning_rate": 1e-06,
+      "loss": -0.0008,
+      "num_tokens": 230560097.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.15367820858955383,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 705.4955444335938,
+      "completions/mean_terminated_length": 596.1244506835938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.5597667638483967,
+      "grad_norm": 0.14186830818653107,
+      "learning_rate": 1e-06,
+      "loss": 0.0002,
+      "num_tokens": 231160437.0,
+      "reward": 0.6328125,
+      "reward_std": 0.21117034554481506,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 811.3705444335938,
+      "completions/mean_terminated_length": 645.7913208007812,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 3.5690962099125363,
+      "grad_norm": 0.13240933418273926,
+      "learning_rate": 1e-06,
+      "loss": -0.0057,
+      "num_tokens": 231795641.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.19171005487442017,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3423.0,
+      "completions/mean_length": 774.6897583007812,
+      "completions/mean_terminated_length": 611.3465576171875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.5784256559766763,
+      "grad_norm": 0.1344354897737503,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 232405531.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.20959803462028503,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 736.0100708007812,
+      "completions/mean_terminated_length": 635.5965576171875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.5877551020408163,
+      "grad_norm": 0.13360871374607086,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 233047668.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.1902337223291397,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3651.0,
+      "completions/mean_length": 783.1439819335938,
+      "completions/mean_terminated_length": 620.2166137695312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.5970845481049563,
+      "grad_norm": 0.13681259751319885,
+      "learning_rate": 1e-06,
+      "loss": -0.0095,
+      "num_tokens": 233668421.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.1968969702720642,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3249.0,
+      "completions/mean_length": 737.3170166015625,
+      "completions/mean_terminated_length": 636.9425048828125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 3.6064139941690962,
+      "grad_norm": 0.13389994204044342,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 234314313.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.21556490659713745,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3528.0,
+      "completions/mean_length": 745.9732666015625,
+      "completions/mean_terminated_length": 581.2177734375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 3.6157434402332362,
+      "grad_norm": 0.12165497988462448,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 234891121.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17903897166252136,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 734.6920166015625,
+      "completions/mean_terminated_length": 589.9091796875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 3.6250728862973762,
+      "grad_norm": 0.14059767127037048,
+      "learning_rate": 1e-06,
+      "loss": 0.0012,
+      "num_tokens": 235488165.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.17746874690055847,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3469.0,
+      "completions/mean_length": 745.9553833007812,
+      "completions/mean_terminated_length": 601.6577758789062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.6344023323615158,
+      "grad_norm": 0.1238742545247078,
+      "learning_rate": 1e-06,
+      "loss": -0.0115,
+      "num_tokens": 236113357.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.17400823533535004,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3224.0,
+      "completions/mean_length": 767.8281860351562,
+      "completions/mean_terminated_length": 656.5051879882812,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 3.643731778425656,
+      "grad_norm": 0.13081805408000946,
+      "learning_rate": 1e-06,
+      "loss": -0.0322,
+      "num_tokens": 236772851.0,
+      "reward": 0.6171875,
+      "reward_std": 0.20974071323871613,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1949.0,
+      "completions/mean_length": 763.8392944335938,
+      "completions/mean_terminated_length": 612.20068359375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 3.6530612244897958,
+      "grad_norm": 0.14588944613933563,
+      "learning_rate": 1e-06,
+      "loss": 0.0054,
+      "num_tokens": 237388123.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.16671909391880035,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3377.0,
+      "completions/mean_length": 757.2879638671875,
+      "completions/mean_terminated_length": 584.8662109375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.6623906705539357,
+      "grad_norm": 0.13380998373031616,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 237969885.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.16660889983177185,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4033.0,
+      "completions/mean_length": 705.9141235351562,
+      "completions/mean_terminated_length": 580.3553466796875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 3.6717201166180757,
+      "grad_norm": 0.1253570020198822,
+      "learning_rate": 1e-06,
+      "loss": -0.003,
+      "num_tokens": 238553496.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.18460313975811005,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4051.0,
+      "completions/mean_length": 720.4531860351562,
+      "completions/mean_terminated_length": 583.2357788085938,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.6810495626822157,
+      "grad_norm": 0.1264265775680542,
+      "learning_rate": 1e-06,
+      "loss": -0.0041,
+      "num_tokens": 239142566.0,
+      "reward": 0.625,
+      "reward_std": 0.18730594217777252,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3665.0,
+      "completions/mean_length": 754.6842041015625,
+      "completions/mean_terminated_length": 598.5478515625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 3.6903790087463557,
+      "grad_norm": 0.1310785710811615,
+      "learning_rate": 1e-06,
+      "loss": -0.0154,
+      "num_tokens": 239737771.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17325684428215027,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3529.0,
+      "completions/mean_length": 876.2455444335938,
+      "completions/mean_terminated_length": 665.678955078125,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 3.6997084548104957,
+      "grad_norm": 0.12681274116039276,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 240402111.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.18547147512435913,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936985969543457,
+      "step": 396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 667.7824096679688,
+      "completions/mean_terminated_length": 561.2669677734375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 3.7090379008746357,
+      "grad_norm": 0.12940621376037598,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 240985628.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1590908169746399,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3782.0,
+      "completions/mean_length": 799.2589721679688,
+      "completions/mean_terminated_length": 637.1240844726562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.7183673469387752,
+      "grad_norm": 0.12849397957324982,
+      "learning_rate": 1e-06,
+      "loss": -0.0226,
+      "num_tokens": 241622580.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.17326006293296814,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3870.0,
+      "completions/mean_length": 792.8047485351562,
+      "completions/mean_terminated_length": 618.1351318359375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 3.7276967930029157,
+      "grad_norm": 0.1368076503276825,
+      "learning_rate": 1e-06,
+      "loss": 0.0065,
+      "num_tokens": 242234397.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.18419378995895386,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2744.0,
+      "completions/mean_length": 750.0513916015625,
+      "completions/mean_terminated_length": 614.0371704101562,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 3.7370262390670552,
+      "grad_norm": 0.1369449347257614,
+      "learning_rate": 1e-06,
+      "loss": -0.0035,
+      "num_tokens": 242854931.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.21545502543449402,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3763.0,
+      "completions/mean_length": 680.1796875,
+      "completions/mean_terminated_length": 557.7630004882812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.746355685131195,
+      "grad_norm": 0.12297762185335159,
+      "learning_rate": 1e-06,
+      "loss": -0.0285,
+      "num_tokens": 243425140.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1634521782398224,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3484.0,
+      "completions/mean_length": 852.9342041015625,
+      "completions/mean_terminated_length": 644.9465942382812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.755685131195335,
+      "grad_norm": 0.1394238919019699,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 244059201.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.19027970731258392,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3385.0,
+      "completions/mean_length": 783.7756958007812,
+      "completions/mean_terminated_length": 628.9988403320312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.765014577259475,
+      "grad_norm": 0.12618130445480347,
+      "learning_rate": 1e-06,
+      "loss": -0.0225,
+      "num_tokens": 244694312.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.18663515150547028,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3943.0,
+      "completions/mean_length": 803.2935791015625,
+      "completions/mean_terminated_length": 661.4656372070312,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 3.774344023323615,
+      "grad_norm": 0.13492321968078613,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 245347295.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.20177754759788513,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3137.0,
+      "completions/mean_length": 703.8538208007812,
+      "completions/mean_terminated_length": 578.21875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 3.783673469387755,
+      "grad_norm": 0.11796524375677109,
+      "learning_rate": 1e-06,
+      "loss": -0.0118,
+      "num_tokens": 245937228.0,
+      "reward": 0.65625,
+      "reward_std": 0.1425590217113495,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3520.0,
+      "completions/mean_length": 716.3426513671875,
+      "completions/mean_terminated_length": 619.3375244140625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.793002915451895,
+      "grad_norm": 0.1338043510913849,
+      "learning_rate": 1e-06,
+      "loss": -0.0004,
+      "num_tokens": 246560319.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.22202950716018677,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 858.6027221679688,
+      "completions/mean_terminated_length": 667.2671508789062,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.8023323615160347,
+      "grad_norm": 0.12642014026641846,
+      "learning_rate": 1e-06,
+      "loss": -0.0075,
+      "num_tokens": 247217323.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.1669113039970398,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2653.0,
+      "completions/mean_length": 747.6105346679688,
+      "completions/mean_terminated_length": 574.68896484375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.811661807580175,
+      "grad_norm": 0.13587544858455658,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 247792414.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.17370514571666718,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2308.0,
+      "completions/mean_length": 773.2332763671875,
+      "completions/mean_terminated_length": 605.7315063476562,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.8209912536443147,
+      "grad_norm": 0.13434529304504395,
+      "learning_rate": 1e-06,
+      "loss": -0.0026,
+      "num_tokens": 248393487.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.16247648000717163,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3665.0,
+      "completions/mean_length": 774.4330444335938,
+      "completions/mean_terminated_length": 623.2765502929688,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 3.8303206997084547,
+      "grad_norm": 0.13005517423152924,
+      "learning_rate": 1e-06,
+      "loss": -0.0271,
+      "num_tokens": 249010507.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.19110456109046936,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 936.55810546875,
+      "completions/mean_terminated_length": 713.8494262695312,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 3.8396501457725947,
+      "grad_norm": 0.1262396275997162,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 249708807.0,
+      "reward": 0.4843750298023224,
+      "reward_std": 0.19310013949871063,
+      "rewards/verify_math_reward/mean": 0.484375,
+      "rewards/verify_math_reward/std": 0.5000349283218384,
+      "step": 411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2598.0,
+      "completions/mean_length": 779.1082763671875,
+      "completions/mean_terminated_length": 611.9026489257812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.8489795918367347,
+      "grad_norm": 0.15091830492019653,
+      "learning_rate": 1e-06,
+      "loss": -0.0191,
+      "num_tokens": 250326296.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.19767513871192932,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3112.0,
+      "completions/mean_length": 798.5658569335938,
+      "completions/mean_terminated_length": 578.7369384765625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 3.8583090379008746,
+      "grad_norm": 0.12895776331424713,
+      "learning_rate": 1e-06,
+      "loss": -0.0198,
+      "num_tokens": 250893003.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.15860295295715332,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3987.0,
+      "completions/mean_length": 835.818115234375,
+      "completions/mean_terminated_length": 634.9537963867188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 3.8676384839650146,
+      "grad_norm": 0.13272640109062195,
+      "learning_rate": 1e-06,
+      "loss": -0.0148,
+      "num_tokens": 251520296.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.17224019765853882,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3594.0,
+      "completions/mean_length": 748.3192138671875,
+      "completions/mean_terminated_length": 604.1234130859375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 3.8769679300291546,
+      "grad_norm": 0.1382935494184494,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 252119854.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.21237428486347198,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 822.4955444335938,
+      "completions/mean_terminated_length": 665.5204467773438,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 3.8862973760932946,
+      "grad_norm": 0.12975755333900452,
+      "learning_rate": 1e-06,
+      "loss": -0.013,
+      "num_tokens": 252768954.0,
+      "reward": 0.6015625,
+      "reward_std": 0.21440306305885315,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3475.0,
+      "completions/mean_length": 815.5156860351562,
+      "completions/mean_terminated_length": 613.4005126953125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 3.8956268221574346,
+      "grad_norm": 0.12999078631401062,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 253378456.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.19915145635604858,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3918.0,
+      "completions/mean_length": 759.974365234375,
+      "completions/mean_terminated_length": 632.4089965820312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 3.904956268221574,
+      "grad_norm": 0.13193072378635406,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 254021177.0,
+      "reward": 0.6328125,
+      "reward_std": 0.18794602155685425,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2361.0,
+      "completions/mean_length": 775.6428833007812,
+      "completions/mean_terminated_length": 620.4859619140625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.914285714285714,
+      "grad_norm": 0.14001573622226715,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "num_tokens": 254638129.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.17810533940792084,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 891.5614013671875,
+      "completions/mean_terminated_length": 673.858154296875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.923615160349854,
+      "grad_norm": 0.13152745366096497,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 255283120.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.19107136130332947,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4077.0,
+      "completions/mean_length": 737.513427734375,
+      "completions/mean_terminated_length": 633.16455078125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.932944606413994,
+      "grad_norm": 0.13388368487358093,
+      "learning_rate": 1e-06,
+      "loss": 0.0014,
+      "num_tokens": 255926788.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.16841013729572296,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3894.0,
+      "completions/mean_length": 841.8594360351562,
+      "completions/mean_terminated_length": 677.8170776367188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 3.942274052478134,
+      "grad_norm": 0.1300029158592224,
+      "learning_rate": 1e-06,
+      "loss": -0.0057,
+      "num_tokens": 256595958.0,
+      "reward": 0.5859375,
+      "reward_std": 0.19936829805374146,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3005.0,
+      "completions/mean_length": 695.739990234375,
+      "completions/mean_terminated_length": 557.5180053710938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.951603498542274,
+      "grad_norm": 0.13235510885715485,
+      "learning_rate": 1e-06,
+      "loss": -0.0301,
+      "num_tokens": 257161205.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.13790595531463623,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3845.0,
+      "completions/mean_length": 704.7745971679688,
+      "completions/mean_terminated_length": 595.3801879882812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.960932944606414,
+      "grad_norm": 0.12774226069450378,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 257760619.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1627379208803177,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2694.0,
+      "completions/mean_length": 747.3069458007812,
+      "completions/mean_terminated_length": 611.18115234375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.970262390670554,
+      "grad_norm": 0.1442898064851761,
+      "learning_rate": 1e-06,
+      "loss": -0.0285,
+      "num_tokens": 258376766.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.2099011391401291,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3606.0,
+      "completions/mean_length": 730.7623291015625,
+      "completions/mean_terminated_length": 581.7191162109375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 3.979591836734694,
+      "grad_norm": 0.14264552295207977,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 258960417.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.19366355240345,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2921.0,
+      "completions/mean_length": 681.7154541015625,
+      "completions/mean_terminated_length": 567.5120849609375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.9889212827988336,
+      "grad_norm": 0.11849533021450043,
+      "learning_rate": 1e-06,
+      "loss": 0.0056,
+      "num_tokens": 259545202.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.13557225465774536,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.051136363636363646,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3115.0,
+      "completions/mean_length": 769.1818237304688,
+      "completions/mean_terminated_length": 589.8922119140625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 3.9982507288629736,
+      "grad_norm": 0.13029074668884277,
+      "learning_rate": 1e-06,
+      "loss": -0.0045,
+      "num_tokens": 260138544.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16086068749427795,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 720.5658569335938,
+      "completions/mean_terminated_length": 599.5964965820312,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 4.0093294460641395,
+      "grad_norm": 0.1270969659090042,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 260745683.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.17750760912895203,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3923.0,
+      "completions/mean_length": 827.1607666015625,
+      "completions/mean_terminated_length": 621.6465454101562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.01865889212828,
+      "grad_norm": 0.13756363093852997,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 261359411.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.17863735556602478,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3725.0,
+      "completions/mean_length": 785.8627319335938,
+      "completions/mean_terminated_length": 598.4964599609375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 4.0279883381924195,
+      "grad_norm": 0.1424919068813324,
+      "learning_rate": 1e-06,
+      "loss": -0.0211,
+      "num_tokens": 261960632.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.17765280604362488,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 835.1217041015625,
+      "completions/mean_terminated_length": 678.7520141601562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.03731778425656,
+      "grad_norm": 0.1345667988061905,
+      "learning_rate": 1e-06,
+      "loss": -0.018,
+      "num_tokens": 262632277.0,
+      "reward": 0.5859375,
+      "reward_std": 0.1917860209941864,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2559.0,
+      "completions/mean_length": 703.8538208007812,
+      "completions/mean_terminated_length": 553.618896484375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.0466472303206995,
+      "grad_norm": 0.14514771103858948,
+      "learning_rate": 1e-06,
+      "loss": -0.0048,
+      "num_tokens": 263194626.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.17179511487483978,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3971.0,
+      "completions/mean_length": 841.4777221679688,
+      "completions/mean_terminated_length": 653.1995239257812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.05597667638484,
+      "grad_norm": 0.13529257476329803,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 263842422.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.19986502826213837,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3431.0,
+      "completions/mean_length": 794.2824096679688,
+      "completions/mean_terminated_length": 615.6011352539062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.0653061224489795,
+      "grad_norm": 0.11853773891925812,
+      "learning_rate": 1e-06,
+      "loss": -0.0196,
+      "num_tokens": 264453595.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14943519234657288,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3527.0,
+      "completions/mean_length": 833.7299194335938,
+      "completions/mean_terminated_length": 657.1835327148438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.07463556851312,
+      "grad_norm": 0.13476435840129852,
+      "learning_rate": 1e-06,
+      "loss": -0.0191,
+      "num_tokens": 265103849.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.17479917407035828,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.4876568913459778,
+      "step": 436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3311.0,
+      "completions/mean_length": 750.9063110351562,
+      "completions/mean_terminated_length": 594.5934448242188,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 4.0839650145772595,
+      "grad_norm": 0.13191767036914825,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 265713941.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.15413424372673035,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 837.0089721679688,
+      "completions/mean_terminated_length": 615.5995483398438,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 4.093294460641399,
+      "grad_norm": 0.1257736086845398,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 266316133.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.16078399121761322,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3974.0,
+      "completions/mean_length": 859.2053833007812,
+      "completions/mean_terminated_length": 680.0188598632812,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 4.1026239067055394,
+      "grad_norm": 0.14162789285182953,
+      "learning_rate": 1e-06,
+      "loss": -0.0199,
+      "num_tokens": 266991877.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.21601955592632294,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3119.0,
+      "completions/mean_length": 830.7969360351562,
+      "completions/mean_terminated_length": 658.1362915039062,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.111953352769679,
+      "grad_norm": 0.14433181285858154,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 267643799.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17239172756671906,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2661.0,
+      "completions/mean_length": 781.982177734375,
+      "completions/mean_terminated_length": 594.396240234375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 4.121282798833819,
+      "grad_norm": 0.1444917917251587,
+      "learning_rate": 1e-06,
+      "loss": -0.0268,
+      "num_tokens": 268230599.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.20426028966903687,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3348.0,
+      "completions/mean_length": 834.7745971679688,
+      "completions/mean_terminated_length": 617.3595581054688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.130612244897959,
+      "grad_norm": 0.11794041097164154,
+      "learning_rate": 1e-06,
+      "loss": -0.0193,
+      "num_tokens": 268837589.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.15631386637687683,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2801.0,
+      "completions/mean_length": 918.2332763671875,
+      "completions/mean_terminated_length": 698.2924194335938,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 4.139941690962099,
+      "grad_norm": 0.11573206633329391,
+      "learning_rate": 1e-06,
+      "loss": -0.0252,
+      "num_tokens": 269517694.0,
+      "reward": 0.578125,
+      "reward_std": 0.16386516392230988,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3152.0,
+      "completions/mean_length": 788.6596069335938,
+      "completions/mean_terminated_length": 580.7247924804688,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 4.149271137026239,
+      "grad_norm": 0.14195089042186737,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 270092837.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.19632920622825623,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4025.0,
+      "completions/mean_length": 797.8147583007812,
+      "completions/mean_terminated_length": 619.32470703125,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 4.158600583090379,
+      "grad_norm": 0.12240738421678543,
+      "learning_rate": 1e-06,
+      "loss": -0.0142,
+      "num_tokens": 270708999.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.15372125804424286,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3886.0,
+      "completions/mean_length": 907.42529296875,
+      "completions/mean_terminated_length": 682.6630859375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 4.167930029154519,
+      "grad_norm": 0.114719919860363,
+      "learning_rate": 1e-06,
+      "loss": -0.0142,
+      "num_tokens": 271370764.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.146052747964859,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 835.1529541015625,
+      "completions/mean_terminated_length": 678.7847900390625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 4.1772594752186585,
+      "grad_norm": 0.13486167788505554,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 272042389.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.19599655270576477,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3218.0,
+      "completions/mean_length": 750.0859985351562,
+      "completions/mean_terminated_length": 597.8214721679688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 4.186588921282799,
+      "grad_norm": 0.15013878047466278,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 272661986.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.21155081689357758,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3594.0,
+      "completions/mean_length": 727.7891235351562,
+      "completions/mean_terminated_length": 574.5099487304688,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.1959183673469385,
+      "grad_norm": 0.15057620406150818,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 273241637.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.19325028359889984,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3797.0,
+      "completions/mean_length": 758.8928833007812,
+      "completions/mean_terminated_length": 590.668212890625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 4.205247813411079,
+      "grad_norm": 0.13374288380146027,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 273834909.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15225812792778015,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3210.0,
+      "completions/mean_length": 862.8326416015625,
+      "completions/mean_terminated_length": 639.0573120117188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 4.214577259475218,
+      "grad_norm": 0.13761775195598602,
+      "learning_rate": 1e-06,
+      "loss": -0.0124,
+      "num_tokens": 274453847.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.20511652529239655,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3378.0,
+      "completions/mean_length": 808.6172485351562,
+      "completions/mean_terminated_length": 597.7874145507812,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.223906705539359,
+      "grad_norm": 0.12827613949775696,
+      "learning_rate": 1e-06,
+      "loss": -0.0105,
+      "num_tokens": 275038920.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.1660016030073166,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3856.0,
+      "completions/mean_length": 804.8739013671875,
+      "completions/mean_terminated_length": 585.4655151367188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.233236151603498,
+      "grad_norm": 0.1444123089313507,
+      "learning_rate": 1e-06,
+      "loss": -0.0141,
+      "num_tokens": 275621903.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.16529481112957,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 795.1842041015625,
+      "completions/mean_terminated_length": 595.9633178710938,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 4.242565597667639,
+      "grad_norm": 0.12860849499702454,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 276200636.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3479.0,
+      "completions/mean_length": 761.5904541015625,
+      "completions/mean_terminated_length": 601.6947021484375,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.251895043731778,
+      "grad_norm": 0.14034169912338257,
+      "learning_rate": 1e-06,
+      "loss": -0.012,
+      "num_tokens": 276803565.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.17337700724601746,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2779.0,
+      "completions/mean_length": 755.388427734375,
+      "completions/mean_terminated_length": 615.548828125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 4.261224489795918,
+      "grad_norm": 0.15026754140853882,
+      "learning_rate": 1e-06,
+      "loss": -0.0136,
+      "num_tokens": 277412905.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.19764302670955658,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2898.0,
+      "completions/mean_length": 794.3080444335938,
+      "completions/mean_terminated_length": 599.172607421875,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 4.270553935860058,
+      "grad_norm": 0.13028138875961304,
+      "learning_rate": 1e-06,
+      "loss": -0.0331,
+      "num_tokens": 278005461.0,
+      "reward": 0.6015625,
+      "reward_std": 0.18494194746017456,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2918.0,
+      "completions/mean_length": 747.7332763671875,
+      "completions/mean_terminated_length": 545.6484985351562,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.279883381924198,
+      "grad_norm": 0.13466346263885498,
+      "learning_rate": 1e-06,
+      "loss": -0.0082,
+      "num_tokens": 278543598.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.11626280844211578,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3224.0,
+      "completions/mean_length": 805.2266235351562,
+      "completions/mean_terminated_length": 614.8511962890625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 4.289212827988338,
+      "grad_norm": 0.13225360214710236,
+      "learning_rate": 1e-06,
+      "loss": -0.0237,
+      "num_tokens": 279147633.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14989416301250458,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3653.0,
+      "completions/mean_length": 818.0413208007812,
+      "completions/mean_terminated_length": 644.7062377929688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.298542274052478,
+      "grad_norm": 0.14628779888153076,
+      "learning_rate": 1e-06,
+      "loss": -0.0135,
+      "num_tokens": 279789270.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.222105473279953,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2195.0,
+      "completions/mean_length": 782.8392944335938,
+      "completions/mean_terminated_length": 623.9625854492188,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 4.307871720116618,
+      "grad_norm": 0.13780836760997772,
+      "learning_rate": 1e-06,
+      "loss": -0.011,
+      "num_tokens": 280418446.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.17923328280448914,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3502.0,
+      "completions/mean_length": 794.208740234375,
+      "completions/mean_terminated_length": 594.9290161132812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 4.317201166180758,
+      "grad_norm": 0.12764322757720947,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 281012161.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.1743106245994568,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 883.8917846679688,
+      "completions/mean_terminated_length": 640.9591674804688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.326530612244898,
+      "grad_norm": 0.12587527930736542,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 281636736.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.143612802028656,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2662.0,
+      "completions/mean_length": 760.5391235351562,
+      "completions/mean_terminated_length": 608.7503051757812,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 4.335860058309038,
+      "grad_norm": 0.12094590067863464,
+      "learning_rate": 1e-06,
+      "loss": -0.0201,
+      "num_tokens": 282241499.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1525944322347641,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3679.0,
+      "completions/mean_length": 830.0033569335938,
+      "completions/mean_terminated_length": 595.6016235351562,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 4.345189504373177,
+      "grad_norm": 0.133238285779953,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 282831262.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.15781019628047943,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263834953308105,
+      "step": 465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 813.7801513671875,
+      "completions/mean_terminated_length": 586.6098022460938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 4.354518950437318,
+      "grad_norm": 0.14964893460273743,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 283408169.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.18622256815433502,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2530.0,
+      "completions/mean_length": 789.7734985351562,
+      "completions/mean_terminated_length": 602.6285400390625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 4.363848396501457,
+      "grad_norm": 0.12583027780056,
+      "learning_rate": 1e-06,
+      "loss": -0.0049,
+      "num_tokens": 284004334.0,
+      "reward": 0.6640625,
+      "reward_std": 0.16191306710243225,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3776.0,
+      "completions/mean_length": 883.3750610351562,
+      "completions/mean_terminated_length": 673.274658203125,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 4.373177842565598,
+      "grad_norm": 0.1296965479850769,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 284653014.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.17614509165287018,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 722.724365234375,
+      "completions/mean_terminated_length": 597.7882080078125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 4.382507288629737,
+      "grad_norm": 0.13411414623260498,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 285254535.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.149361714720726,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4065.0,
+      "completions/mean_length": 846.5670166015625,
+      "completions/mean_terminated_length": 650.4473266601562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 4.391836734693878,
+      "grad_norm": 0.1258615404367447,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 285897859.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.14293991029262543,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3597.0,
+      "completions/mean_length": 835.8761596679688,
+      "completions/mean_terminated_length": 630.9098510742188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 4.401166180758017,
+      "grad_norm": 0.1337389349937439,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 286518228.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16627302765846252,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3720.0,
+      "completions/mean_length": 726.411865234375,
+      "completions/mean_terminated_length": 585.3593139648438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.410495626822158,
+      "grad_norm": 0.15227915346622467,
+      "learning_rate": 1e-06,
+      "loss": -0.0092,
+      "num_tokens": 287106541.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.2021552175283432,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2800.0,
+      "completions/mean_length": 782.6652221679688,
+      "completions/mean_terminated_length": 599.241455078125,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 4.419825072886297,
+      "grad_norm": 0.12876202166080475,
+      "learning_rate": 1e-06,
+      "loss": -0.0333,
+      "num_tokens": 287706833.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1628890484571457,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 801.9386596679688,
+      "completions/mean_terminated_length": 635.8839111328125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.429154518950437,
+      "grad_norm": 0.13935180008411407,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 288340874.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.18036304414272308,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2607.0,
+      "completions/mean_length": 813.2455444335938,
+      "completions/mean_terminated_length": 619.2293090820312,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 4.438483965014577,
+      "grad_norm": 0.12817791104316711,
+      "learning_rate": 1e-06,
+      "loss": -0.0189,
+      "num_tokens": 288960022.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.16503477096557617,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3492.0,
+      "completions/mean_length": 847.286865234375,
+      "completions/mean_terminated_length": 597.3858642578125,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 4.447813411078717,
+      "grad_norm": 0.13169068098068237,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 289545887.0,
+      "reward": 0.6015625,
+      "reward_std": 0.1699160635471344,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 817.9252319335938,
+      "completions/mean_terminated_length": 591.0418090820312,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 4.457142857142857,
+      "grad_norm": 0.14308656752109528,
+      "learning_rate": 1e-06,
+      "loss": -0.0197,
+      "num_tokens": 290125988.0,
+      "reward": 0.640625,
+      "reward_std": 0.17359565198421478,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3143.0,
+      "completions/mean_length": 797.6864013671875,
+      "completions/mean_terminated_length": 598.6165771484375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 4.466472303206997,
+      "grad_norm": 0.13955950736999512,
+      "learning_rate": 1e-06,
+      "loss": 0.0128,
+      "num_tokens": 290726051.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16589100658893585,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3376.0,
+      "completions/mean_length": 837.4620971679688,
+      "completions/mean_terminated_length": 616.0834350585938,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 4.475801749271137,
+      "grad_norm": 0.1139809638261795,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 291331689.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.13034509122371674,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2763.0,
+      "completions/mean_length": 832.505615234375,
+      "completions/mean_terminated_length": 589.8956909179688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.485131195335277,
+      "grad_norm": 0.14736969769001007,
+      "learning_rate": 1e-06,
+      "loss": -0.027,
+      "num_tokens": 291907006.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1905835121870041,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3747.0,
+      "completions/mean_length": 782.0558471679688,
+      "completions/mean_terminated_length": 623.1415405273438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.494460641399417,
+      "grad_norm": 0.11887058615684509,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 292526000.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.13534656167030334,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4049.0,
+      "completions/mean_length": 1020.98779296875,
+      "completions/mean_terminated_length": 681.8599853515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.503790087463557,
+      "grad_norm": 0.13074375689029694,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 293175237.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.19557330012321472,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 815.9989013671875,
+      "completions/mean_terminated_length": 609.782958984375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 4.513119533527696,
+      "grad_norm": 0.1316675990819931,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 293774124.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16153216361999512,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2819.0,
+      "completions/mean_length": 824.9386596679688,
+      "completions/mean_terminated_length": 606.8678588867188,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 4.522448979591837,
+      "grad_norm": 0.13047119975090027,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 294377669.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.15826597809791565,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3534.0,
+      "completions/mean_length": 906.6183471679688,
+      "completions/mean_terminated_length": 665.404541015625,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 4.531778425655976,
+      "grad_norm": 0.13221052289009094,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 295042951.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.1698397994041443,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3916.0,
+      "completions/mean_length": 765.7891235351562,
+      "completions/mean_terminated_length": 593.8063354492188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.541107871720117,
+      "grad_norm": 0.12726761400699615,
+      "learning_rate": 1e-06,
+      "loss": -0.0067,
+      "num_tokens": 295643962.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15443845093250275,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3385.0,
+      "completions/mean_length": 843.3672485351562,
+      "completions/mean_terminated_length": 609.9246215820312,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 4.550437317784256,
+      "grad_norm": 0.14112919569015503,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 296235995.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.19561424851417542,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 1007.0357666015625,
+      "completions/mean_terminated_length": 708.3475952148438,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 4.559766763848397,
+      "grad_norm": 0.11537722498178482,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 296899523.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1654042750597,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 832.739990234375,
+      "completions/mean_terminated_length": 639.8759155273438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.569096209912536,
+      "grad_norm": 0.14216546714305878,
+      "learning_rate": 1e-06,
+      "loss": -0.0264,
+      "num_tokens": 297527938.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.199411079287529,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2496.0,
+      "completions/mean_length": 832.958740234375,
+      "completions/mean_terminated_length": 636.0177612304688,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 4.578425655976677,
+      "grad_norm": 0.13702218234539032,
+      "learning_rate": 1e-06,
+      "loss": -0.0179,
+      "num_tokens": 298162645.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.170254185795784,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 810.966552734375,
+      "completions/mean_terminated_length": 604.4342041015625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.587755102040816,
+      "grad_norm": 0.11966714262962341,
+      "learning_rate": 1e-06,
+      "loss": 0.0133,
+      "num_tokens": 298759119.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1426691859960556,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2667.0,
+      "completions/mean_length": 831.6842041015625,
+      "completions/mean_terminated_length": 642.8394165039062,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 4.597084548104956,
+      "grad_norm": 0.14490832388401031,
+      "learning_rate": 1e-06,
+      "loss": -0.0241,
+      "num_tokens": 299396196.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.1980990767478943,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3047.0,
+      "completions/mean_length": 859.5636596679688,
+      "completions/mean_terminated_length": 581.033935546875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 4.606413994169096,
+      "grad_norm": 0.13457715511322021,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 299962573.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.16739028692245483,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2886.0,
+      "completions/mean_length": 804.2969360351562,
+      "completions/mean_terminated_length": 617.9740600585938,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.615743440233236,
+      "grad_norm": 0.13072776794433594,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 300570999.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1743113249540329,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4014.0,
+      "completions/mean_length": 754.1395263671875,
+      "completions/mean_terminated_length": 552.44140625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 4.625072886297376,
+      "grad_norm": 0.14342716336250305,
+      "learning_rate": 1e-06,
+      "loss": -0.0266,
+      "num_tokens": 301118732.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1770215779542923,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.46100425720214844,
+      "step": 495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3442.0,
+      "completions/mean_length": 761.3973388671875,
+      "completions/mean_terminated_length": 621.809326171875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 4.634402332361516,
+      "grad_norm": 0.13373427093029022,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 301738152.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.16304102540016174,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3391.0,
+      "completions/mean_length": 761.9520263671875,
+      "completions/mean_terminated_length": 593.881591796875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.643731778425656,
+      "grad_norm": 0.1349562555551529,
+      "learning_rate": 1e-06,
+      "loss": -0.0154,
+      "num_tokens": 302325245.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.17389734089374542,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2602.0,
+      "completions/mean_length": 738.4051513671875,
+      "completions/mean_terminated_length": 560.8590087890625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.653061224489796,
+      "grad_norm": 0.13668808341026306,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 302897792.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1671295464038849,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 841.0078735351562,
+      "completions/mean_terminated_length": 644.5526733398438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.662390670553936,
+      "grad_norm": 0.12017830461263657,
+      "learning_rate": 1e-06,
+      "loss": -0.022,
+      "num_tokens": 303532007.0,
+      "reward": 0.640625,
+      "reward_std": 0.15759406983852386,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 935.2701416015625,
+      "completions/mean_terminated_length": 692.1370239257812,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 4.671720116618076,
+      "grad_norm": 0.153817281126976,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 304196825.0,
+      "reward": 0.5390625,
+      "reward_std": 0.18521295487880707,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 868.7109985351562,
+      "completions/mean_terminated_length": 637.0872802734375,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 4.681049562682215,
+      "grad_norm": 0.13420456647872925,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 304824046.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.18667538464069366,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 806.4777221679688,
+      "completions/mean_terminated_length": 644.6978759765625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 4.690379008746356,
+      "grad_norm": 0.13107848167419434,
+      "learning_rate": 1e-06,
+      "loss": -0.0302,
+      "num_tokens": 305459466.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1738552749156952,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3316.0,
+      "completions/mean_length": 835.8170166015625,
+      "completions/mean_terminated_length": 647.2113037109375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 4.699708454810495,
+      "grad_norm": 0.1311369091272354,
+      "learning_rate": 1e-06,
+      "loss": -0.021,
+      "num_tokens": 306091942.0,
+      "reward": 0.59375,
+      "reward_std": 0.18419085443019867,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3426.0,
+      "completions/mean_length": 766.0324096679688,
+      "completions/mean_terminated_length": 598.1676025390625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 4.709037900874636,
+      "grad_norm": 0.14386148750782013,
+      "learning_rate": 1e-06,
+      "loss": -0.0225,
+      "num_tokens": 306689627.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.20883847773075104,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3040.0,
+      "completions/mean_length": 762.669677734375,
+      "completions/mean_terminated_length": 615.0396118164062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.718367346938775,
+      "grad_norm": 0.12091245502233505,
+      "learning_rate": 1e-06,
+      "loss": -0.0139,
+      "num_tokens": 307307627.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.13850508630275726,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3922.0,
+      "completions/mean_length": 923.802490234375,
+      "completions/mean_terminated_length": 654.97216796875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 4.727696793002916,
+      "grad_norm": 0.1387169510126114,
+      "learning_rate": 1e-06,
+      "loss": -0.0079,
+      "num_tokens": 307951002.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.17942126095294952,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.4970270097255707,
+      "step": 506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3613.0,
+      "completions/mean_length": 874.2254638671875,
+      "completions/mean_terminated_length": 651.2387084960938,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.737026239067055,
+      "grad_norm": 0.15239207446575165,
+      "learning_rate": 1e-06,
+      "loss": -0.006,
+      "num_tokens": 308587700.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.21019718050956726,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3988.0,
+      "completions/mean_length": 857.1563110351562,
+      "completions/mean_terminated_length": 612.20166015625,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 4.746355685131196,
+      "grad_norm": 0.13962629437446594,
+      "learning_rate": 1e-06,
+      "loss": -0.0166,
+      "num_tokens": 309198496.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16314977407455444,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 766.5089721679688,
+      "completions/mean_terminated_length": 594.5634155273438,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 4.755685131195335,
+      "grad_norm": 0.14048907160758972,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 309790984.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.17577417194843292,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3132.0,
+      "completions/mean_length": 861.4408569335938,
+      "completions/mean_terminated_length": 608.4368286132812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.765014577259475,
+      "grad_norm": 0.12899498641490936,
+      "learning_rate": 1e-06,
+      "loss": -0.0317,
+      "num_tokens": 310385259.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.15957936644554138,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2696.0,
+      "completions/mean_length": 814.7131958007812,
+      "completions/mean_terminated_length": 604.2743530273438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 4.774344023323615,
+      "grad_norm": 0.14420810341835022,
+      "learning_rate": 1e-06,
+      "loss": -0.0288,
+      "num_tokens": 310982346.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.17284567654132843,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3594.0,
+      "completions/mean_length": 872.1473388671875,
+      "completions/mean_terminated_length": 611.5947265625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 4.783673469387755,
+      "grad_norm": 0.13967280089855194,
+      "learning_rate": 1e-06,
+      "loss": -0.0135,
+      "num_tokens": 311581630.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.1749500334262848,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3479.0,
+      "completions/mean_length": 788.052490234375,
+      "completions/mean_terminated_length": 592.5473022460938,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 4.793002915451895,
+      "grad_norm": 0.14434507489204407,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 312170757.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.18524505198001862,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3974.0,
+      "completions/mean_length": 883.7199096679688,
+      "completions/mean_terminated_length": 653.1734008789062,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.802332361516035,
+      "grad_norm": 0.13082991540431976,
+      "learning_rate": 1e-06,
+      "loss": -0.0166,
+      "num_tokens": 312800770.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1623242348432541,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3669.0,
+      "completions/mean_length": 826.0547485351562,
+      "completions/mean_terminated_length": 599.73388671875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 4.811661807580175,
+      "grad_norm": 0.13562647998332977,
+      "learning_rate": 1e-06,
+      "loss": -0.0203,
+      "num_tokens": 313383995.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.16863657534122467,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3187.0,
+      "completions/mean_length": 826.4620971679688,
+      "completions/mean_terminated_length": 612.6397094726562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.820991253644315,
+      "grad_norm": 0.1445397287607193,
+      "learning_rate": 1e-06,
+      "loss": -0.0095,
+      "num_tokens": 313982913.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.17659832537174225,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3135.0,
+      "completions/mean_length": 899.85498046875,
+      "completions/mean_terminated_length": 649.8555908203125,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 4.830320699708455,
+      "grad_norm": 0.1289319097995758,
+      "learning_rate": 1e-06,
+      "loss": -0.0262,
+      "num_tokens": 314612807.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.1680738478899002,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2997.0,
+      "completions/mean_length": 816.982177734375,
+      "completions/mean_terminated_length": 581.6459350585938,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 4.839650145772595,
+      "grad_norm": 0.14406071603298187,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 315190087.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16811592876911163,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2498.0,
+      "completions/mean_length": 822.6897583007812,
+      "completions/mean_terminated_length": 579.3501586914062,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 4.848979591836734,
+      "grad_norm": 0.14825446903705597,
+      "learning_rate": 1e-06,
+      "loss": -0.0115,
+      "num_tokens": 315772529.0,
+      "reward": 0.625,
+      "reward_std": 0.17430922389030457,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2776.0,
+      "completions/mean_length": 826.4910888671875,
+      "completions/mean_terminated_length": 562.2484741210938,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 4.858309037900875,
+      "grad_norm": 0.15536543726921082,
+      "learning_rate": 1e-06,
+      "loss": -0.0224,
+      "num_tokens": 316321769.0,
+      "reward": 0.609375,
+      "reward_std": 0.16991646587848663,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3257.0,
+      "completions/mean_length": 825.3236694335938,
+      "completions/mean_terminated_length": 586.3880615234375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 4.867638483965014,
+      "grad_norm": 0.1325286477804184,
+      "learning_rate": 1e-06,
+      "loss": -0.037,
+      "num_tokens": 316894963.0,
+      "reward": 0.6171875,
+      "reward_std": 0.15154093503952026,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2749.0,
+      "completions/mean_length": 779.1752319335938,
+      "completions/mean_terminated_length": 570.6441650390625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.876967930029155,
+      "grad_norm": 0.13267797231674194,
+      "learning_rate": 1e-06,
+      "loss": -0.0318,
+      "num_tokens": 317462824.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15131382644176483,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2893.0,
+      "completions/mean_length": 755.8035888671875,
+      "completions/mean_terminated_length": 562.5690307617188,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 4.886297376093294,
+      "grad_norm": 0.1674153357744217,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 318026456.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.2234174758195877,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161848425865173,
+      "step": 523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2776.0,
+      "completions/mean_length": 845.4576416015625,
+      "completions/mean_terminated_length": 649.27099609375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.895626822157435,
+      "grad_norm": 0.1450287252664566,
+      "learning_rate": 1e-06,
+      "loss": -0.0221,
+      "num_tokens": 318660426.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.2036636620759964,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 716.7433471679688,
+      "completions/mean_terminated_length": 550.5503540039062,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.904956268221574,
+      "grad_norm": 0.13918952643871307,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 319229780.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1494358777999878,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2711.0,
+      "completions/mean_length": 761.9051513671875,
+      "completions/mean_terminated_length": 593.8323364257812,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 4.914285714285715,
+      "grad_norm": 0.11945682764053345,
+      "learning_rate": 1e-06,
+      "loss": -0.0234,
+      "num_tokens": 319826663.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1371113657951355,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 929.9364013671875,
+      "completions/mean_terminated_length": 610.9962768554688,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.923615160349854,
+      "grad_norm": 0.13910621404647827,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 320417670.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.15139049291610718,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3243.0,
+      "completions/mean_length": 881.7131958007812,
+      "completions/mean_terminated_length": 626.1192626953125,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.932944606413994,
+      "grad_norm": 0.15693318843841553,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 321026821.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.1835525780916214,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 813.091552734375,
+      "completions/mean_terminated_length": 590.0571899414062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.942274052478134,
+      "grad_norm": 0.15590135753154755,
+      "learning_rate": 1e-06,
+      "loss": -0.0176,
+      "num_tokens": 321616591.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.1770561784505844,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3626.0,
+      "completions/mean_length": 712.0033569335938,
+      "completions/mean_terminated_length": 590.7271728515625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.9516034985422746,
+      "grad_norm": 0.12643130123615265,
+      "learning_rate": 1e-06,
+      "loss": -0.004,
+      "num_tokens": 322222642.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.16145406663417816,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 869.5000610351562,
+      "completions/mean_terminated_length": 625.4789428710938,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 4.960932944606414,
+      "grad_norm": 0.15435025095939636,
+      "learning_rate": 1e-06,
+      "loss": -0.0196,
+      "num_tokens": 322830978.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.208243265748024,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2920.0,
+      "completions/mean_length": 735.5067138671875,
+      "completions/mean_terminated_length": 549.4723510742188,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 4.970262390670554,
+      "grad_norm": 0.12676119804382324,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 323386632.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.13899043202400208,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3907.0,
+      "completions/mean_length": 848.2913208007812,
+      "completions/mean_terminated_length": 602.666259765625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.979591836734694,
+      "grad_norm": 0.15604153275489807,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 323978437.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.19644230604171753,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 723.1295166015625,
+      "completions/mean_terminated_length": 598.2083129882812,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 4.988921282798834,
+      "grad_norm": 0.13526904582977295,
+      "learning_rate": 1e-06,
+      "loss": -0.0162,
+      "num_tokens": 324591993.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1867866814136505,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.05965909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2796.0,
+      "completions/mean_length": 800.039794921875,
+      "completions/mean_terminated_length": 590.9305419921875,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 4.998250728862974,
+      "grad_norm": 0.1538151651620865,
+      "learning_rate": 1e-06,
+      "loss": -0.0349,
+      "num_tokens": 325172889.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.18963709473609924,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 1009.6607666015625,
+      "completions/mean_terminated_length": 656.4974975585938,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.0093294460641395,
+      "grad_norm": 0.1324121356010437,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 325791001.0,
+      "reward": 0.53125,
+      "reward_std": 0.1785971224308014,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 851.0580444335938,
+      "completions/mean_terminated_length": 634.7285766601562,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 5.01865889212828,
+      "grad_norm": 0.13117796182632446,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 326406669.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1670207679271698,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3977.0,
+      "completions/mean_length": 798.5725708007812,
+      "completions/mean_terminated_length": 591.260986328125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 5.0279883381924195,
+      "grad_norm": 0.13558591902256012,
+      "learning_rate": 1e-06,
+      "loss": -0.0143,
+      "num_tokens": 326994766.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.16100971400737762,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2884.0,
+      "completions/mean_length": 788.7310791015625,
+      "completions/mean_terminated_length": 584.9656372070312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.03731778425656,
+      "grad_norm": 0.13228186964988708,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 327579069.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.163679301738739,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2887.0,
+      "completions/mean_length": 768.8114013671875,
+      "completions/mean_terminated_length": 563.8187255859375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 5.0466472303206995,
+      "grad_norm": 0.1459277719259262,
+      "learning_rate": 1e-06,
+      "loss": -0.0301,
+      "num_tokens": 328135196.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15529540181159973,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3063.0,
+      "completions/mean_length": 856.8928833007812,
+      "completions/mean_terminated_length": 607.7307739257812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.05597667638484,
+      "grad_norm": 0.14010262489318848,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 328732980.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.16401489078998566,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2267.0,
+      "completions/mean_length": 843.3605346679688,
+      "completions/mean_terminated_length": 588.9422607421875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 5.0653061224489795,
+      "grad_norm": 0.15258248150348663,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 329315143.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.18228264153003693,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.4866124987602234,
+      "step": 542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 816.5770263671875,
+      "completions/mean_terminated_length": 542.9613037109375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.07463556851312,
+      "grad_norm": 0.1298285722732544,
+      "learning_rate": 1e-06,
+      "loss": -0.0447,
+      "num_tokens": 329854980.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.14575035870075226,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3784.0,
+      "completions/mean_length": 807.8850708007812,
+      "completions/mean_terminated_length": 650.2093505859375,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 5.0839650145772595,
+      "grad_norm": 0.12721940875053406,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 330506645.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1452706754207611,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3290.0,
+      "completions/mean_length": 772.6808471679688,
+      "completions/mean_terminated_length": 572.1017456054688,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 5.093294460641399,
+      "grad_norm": 0.1556389182806015,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 331076847.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.183292955160141,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3547.0,
+      "completions/mean_length": 802.2991333007812,
+      "completions/mean_terminated_length": 574.3341674804688,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 5.1026239067055394,
+      "grad_norm": 0.12720397114753723,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 331645355.0,
+      "reward": 0.65625,
+      "reward_std": 0.1528993397951126,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 735.5279541015625,
+      "completions/mean_terminated_length": 541.1204223632812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 5.111953352769679,
+      "grad_norm": 0.1253661811351776,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 332199012.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12967249751091003,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3018.0,
+      "completions/mean_length": 900.9609985351562,
+      "completions/mean_terminated_length": 617.5614013671875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.121282798833819,
+      "grad_norm": 0.13752582669258118,
+      "learning_rate": 1e-06,
+      "loss": -0.0262,
+      "num_tokens": 332808097.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.17476637661457062,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3720.0,
+      "completions/mean_length": 755.9699096679688,
+      "completions/mean_terminated_length": 545.9798583984375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.130612244897959,
+      "grad_norm": 0.1480942666530609,
+      "learning_rate": 1e-06,
+      "loss": -0.0194,
+      "num_tokens": 333349902.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1615314781665802,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.46100425720214844,
+      "step": 549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3536.0,
+      "completions/mean_length": 832.1819458007812,
+      "completions/mean_terminated_length": 610.444580078125,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 5.139941690962099,
+      "grad_norm": 0.1550217717885971,
+      "learning_rate": 1e-06,
+      "loss": -0.0169,
+      "num_tokens": 333952401.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.19629710912704468,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3957.0,
+      "completions/mean_length": 746.810302734375,
+      "completions/mean_terminated_length": 561.4016723632812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.149271137026239,
+      "grad_norm": 0.14474813640117645,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 334516335.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1497069001197815,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 1035.47216796875,
+      "completions/mean_terminated_length": 672.4880981445312,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 5.158600583090379,
+      "grad_norm": 0.13239631056785583,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 335169582.0,
+      "reward": 0.504464328289032,
+      "reward_std": 0.16927595436573029,
+      "rewards/verify_math_reward/mean": 0.5044642686843872,
+      "rewards/verify_math_reward/std": 0.5002593398094177,
+      "step": 552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3440.0,
+      "completions/mean_length": 819.6752319335938,
+      "completions/mean_terminated_length": 654.5146484375,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 5.167930029154519,
+      "grad_norm": 0.12959615886211395,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 335820411.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.16435441374778748,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3919.0,
+      "completions/mean_length": 824.716552734375,
+      "completions/mean_terminated_length": 602.4719848632812,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.1772594752186585,
+      "grad_norm": 0.15217341482639313,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 336410781.0,
+      "reward": 0.6484375,
+      "reward_std": 0.19336046278476715,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2336.0,
+      "completions/mean_length": 843.7467041015625,
+      "completions/mean_terminated_length": 626.9298095703125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 5.186588921282799,
+      "grad_norm": 0.15517523884773254,
+      "learning_rate": 1e-06,
+      "loss": -0.0351,
+      "num_tokens": 337020074.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.18968309462070465,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3798.0,
+      "completions/mean_length": 900.78466796875,
+      "completions/mean_terminated_length": 659.129638671875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.1959183673469385,
+      "grad_norm": 0.1398380547761917,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 337662601.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1760370135307312,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 862.8471069335938,
+      "completions/mean_terminated_length": 605.7530517578125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.205247813411079,
+      "grad_norm": 0.17168253660202026,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 338251480.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.1845717579126358,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3851.0,
+      "completions/mean_length": 849.9542846679688,
+      "completions/mean_terminated_length": 625.28759765625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.214577259475218,
+      "grad_norm": 0.1361083835363388,
+      "learning_rate": 1e-06,
+      "loss": -0.0205,
+      "num_tokens": 338864031.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.15033742785453796,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2474.0,
+      "completions/mean_length": 913.5178833007812,
+      "completions/mean_terminated_length": 660.4530029296875,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 5.223906705539359,
+      "grad_norm": 0.13579238951206207,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 339506991.0,
+      "reward": 0.578125,
+      "reward_std": 0.1685623973608017,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4014.0,
+      "completions/mean_length": 821.2455444335938,
+      "completions/mean_terminated_length": 586.2152709960938,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 5.233236151603498,
+      "grad_norm": 0.14370384812355042,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 340081019.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.15082457661628723,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 823.4910888671875,
+      "completions/mean_terminated_length": 596.9928588867188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.242565597667639,
+      "grad_norm": 0.14612165093421936,
+      "learning_rate": 1e-06,
+      "loss": -0.0033,
+      "num_tokens": 340672531.0,
+      "reward": 0.6328125,
+      "reward_std": 0.17442260682582855,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2471.0,
+      "completions/mean_length": 760.2210083007812,
+      "completions/mean_terminated_length": 579.6964721679688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 5.251895043731778,
+      "grad_norm": 0.14979024231433868,
+      "learning_rate": 1e-06,
+      "loss": -0.0123,
+      "num_tokens": 341256473.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1756240278482437,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4056.0,
+      "completions/mean_length": 1067.1898193359375,
+      "completions/mean_terminated_length": 716.4059448242188,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 5.261224489795918,
+      "grad_norm": 0.1400134116411209,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 341926595.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.17510268092155457,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3840.0,
+      "completions/mean_length": 801.9688110351562,
+      "completions/mean_terminated_length": 615.51416015625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 5.270553935860058,
+      "grad_norm": 0.14505355060100555,
+      "learning_rate": 1e-06,
+      "loss": -0.0086,
+      "num_tokens": 342541015.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.17559124529361725,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 859.0647583007812,
+      "completions/mean_terminated_length": 626.748779296875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.279883381924198,
+      "grad_norm": 0.14341820776462555,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 343151633.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.16060107946395874,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3584.0,
+      "completions/mean_length": 1012.1328735351562,
+      "completions/mean_terminated_length": 701.4729614257812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 5.289212827988338,
+      "grad_norm": 0.13181324303150177,
+      "learning_rate": 1e-06,
+      "loss": -0.077,
+      "num_tokens": 343817280.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.19418390095233917,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161848425865173,
+      "step": 566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3365.0,
+      "completions/mean_length": 874.0938110351562,
+      "completions/mean_terminated_length": 588.3110961914062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 5.298542274052478,
+      "grad_norm": 0.1548570990562439,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 344394980.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.18858583271503448,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 944.8404541015625,
+      "completions/mean_terminated_length": 656.9756469726562,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 5.307871720116618,
+      "grad_norm": 0.13820196688175201,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 345025277.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.16499200463294983,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2487.0,
+      "completions/mean_length": 693.8248291015625,
+      "completions/mean_terminated_length": 530.6795043945312,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 5.317201166180758,
+      "grad_norm": 0.14032450318336487,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 345556376.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.14229759573936462,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2866.0,
+      "completions/mean_length": 853.3303833007812,
+      "completions/mean_terminated_length": 624.7550659179688,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 5.326530612244898,
+      "grad_norm": 0.15670815110206604,
+      "learning_rate": 1e-06,
+      "loss": -0.0156,
+      "num_tokens": 346170056.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.19674400985240936,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2937.0,
+      "completions/mean_length": 1003.7623291015625,
+      "completions/mean_terminated_length": 671.2224731445312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 5.335860058309038,
+      "grad_norm": 0.1319567710161209,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 346810179.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.170298770070076,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3537.0,
+      "completions/mean_length": 779.9152221679688,
+      "completions/mean_terminated_length": 600.4564208984375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 5.345189504373177,
+      "grad_norm": 0.15103895962238312,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 347404335.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.18340425193309784,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3306.0,
+      "completions/mean_length": 939.6808471679688,
+      "completions/mean_terminated_length": 651.3447265625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.354518950437318,
+      "grad_norm": 0.14508672058582306,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 348033809.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.16563068330287933,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2852.0,
+      "completions/mean_length": 876.7388916015625,
+      "completions/mean_terminated_length": 624.931396484375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.363848396501457,
+      "grad_norm": 0.1509408801794052,
+      "learning_rate": 1e-06,
+      "loss": -0.0054,
+      "num_tokens": 348644039.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16225893795490265,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.475953072309494,
+      "step": 574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2204.0,
+      "completions/mean_length": 848.2846069335938,
+      "completions/mean_terminated_length": 568.7842407226562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.373177842565598,
+      "grad_norm": 0.14984580874443054,
+      "learning_rate": 1e-06,
+      "loss": -0.028,
+      "num_tokens": 349214006.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17287889122962952,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975653409957886,
+      "step": 575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3561.0,
+      "completions/mean_length": 731.9207763671875,
+      "completions/mean_terminated_length": 566.4742431640625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.382507288629737,
+      "grad_norm": 0.15863996744155884,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 349783927.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.1578873097896576,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3934.0,
+      "completions/mean_length": 912.8069458007812,
+      "completions/mean_terminated_length": 638.859375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 5.391836734693878,
+      "grad_norm": 0.15568514168262482,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 350401082.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.18512418866157532,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3526.0,
+      "completions/mean_length": 922.1038208007812,
+      "completions/mean_terminated_length": 593.7697143554688,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 5.401166180758017,
+      "grad_norm": 0.15030905604362488,
+      "learning_rate": 1e-06,
+      "loss": -0.0262,
+      "num_tokens": 350981071.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1554141491651535,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 817.5848388671875,
+      "completions/mean_terminated_length": 623.8250732421875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 5.410495626822158,
+      "grad_norm": 0.16143877804279327,
+      "learning_rate": 1e-06,
+      "loss": -0.0172,
+      "num_tokens": 351593787.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.1687125563621521,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3989.0,
+      "completions/mean_length": 869.1373291015625,
+      "completions/mean_terminated_length": 658.1058349609375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.419825072886297,
+      "grad_norm": 0.13263040781021118,
+      "learning_rate": 1e-06,
+      "loss": -0.0197,
+      "num_tokens": 352249254.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.1642010509967804,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3095.0,
+      "completions/mean_length": 902.8795166015625,
+      "completions/mean_terminated_length": 653.1167602539062,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 5.429154518950437,
+      "grad_norm": 0.15279339253902435,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 352890202.0,
+      "reward": 0.609375,
+      "reward_std": 0.15718218684196472,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3083.0,
+      "completions/mean_length": 726.6484985351562,
+      "completions/mean_terminated_length": 573.3173828125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 5.438483965014577,
+      "grad_norm": 0.1596021056175232,
+      "learning_rate": 1e-06,
+      "loss": -0.0161,
+      "num_tokens": 353465615.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.15898343920707703,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4044.0,
+      "completions/mean_length": 851.7254638671875,
+      "completions/mean_terminated_length": 597.9614868164062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 5.447813411078717,
+      "grad_norm": 0.14287786185741425,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 354062873.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.17002595961093903,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3734.0,
+      "completions/mean_length": 916.646240234375,
+      "completions/mean_terminated_length": 634.637939453125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.457142857142857,
+      "grad_norm": 0.23945553600788116,
+      "learning_rate": 1e-06,
+      "loss": -0.0372,
+      "num_tokens": 354671044.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.15123826265335083,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2969.0,
+      "completions/mean_length": 800.6484985351562,
+      "completions/mean_terminated_length": 572.5692138671875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.466472303206997,
+      "grad_norm": 0.15243570506572723,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 355236065.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1820102334022522,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3518.0,
+      "completions/mean_length": 921.74560546875,
+      "completions/mean_terminated_length": 606.2674560546875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 5.475801749271137,
+      "grad_norm": 0.16602863371372223,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 355826165.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.17810675501823425,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3279.0,
+      "completions/mean_length": 842.0189819335938,
+      "completions/mean_terminated_length": 612.6463623046875,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 5.485131195335277,
+      "grad_norm": 0.15476739406585693,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 356428318.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.16416895389556885,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2564.0,
+      "completions/mean_length": 909.90185546875,
+      "completions/mean_terminated_length": 610.3541259765625,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.494460641399417,
+      "grad_norm": 0.14812588691711426,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 357025782.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.15698717534542084,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3983.0,
+      "completions/mean_length": 854.8125610351562,
+      "completions/mean_terminated_length": 630.4821166992188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.503790087463557,
+      "grad_norm": 0.13244247436523438,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 357632102.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.15570978820323944,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3391.0,
+      "completions/mean_length": 918.7444458007812,
+      "completions/mean_terminated_length": 653.6529541015625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.513119533527696,
+      "grad_norm": 0.15337373316287994,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 358261089.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.18904118239879608,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3689.0,
+      "completions/mean_length": 943.2266235351562,
+      "completions/mean_terminated_length": 667.7415161132812,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 5.522448979591837,
+      "grad_norm": 0.13773854076862335,
+      "learning_rate": 1e-06,
+      "loss": -0.042,
+      "num_tokens": 358907604.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.16366903483867645,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 931.71435546875,
+      "completions/mean_terminated_length": 634.2173461914062,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.531778425655976,
+      "grad_norm": 0.1630888730287552,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 359521884.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.17938737571239471,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3255.0,
+      "completions/mean_length": 859.107177734375,
+      "completions/mean_terminated_length": 626.7942504882812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.541107871720117,
+      "grad_norm": 0.13411062955856323,
+      "learning_rate": 1e-06,
+      "loss": -0.0251,
+      "num_tokens": 360130524.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.1557832509279251,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3928.0,
+      "completions/mean_length": 898.76123046875,
+      "completions/mean_terminated_length": 623.6048583984375,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 5.550437317784256,
+      "grad_norm": 0.14365045726299286,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 360745078.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.14613084495067596,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3853.0,
+      "completions/mean_length": 726.7109985351562,
+      "completions/mean_terminated_length": 581.5844116210938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.559766763848397,
+      "grad_norm": 0.14855937659740448,
+      "learning_rate": 1e-06,
+      "loss": -0.011,
+      "num_tokens": 361327891.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.19223956763744354,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 804.1205444335938,
+      "completions/mean_terminated_length": 613.6812133789062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.569096209912536,
+      "grad_norm": 0.1522262692451477,
+      "learning_rate": 1e-06,
+      "loss": -0.0314,
+      "num_tokens": 361938511.0,
+      "reward": 0.6171875,
+      "reward_std": 0.21282006800174713,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3918.0,
+      "completions/mean_length": 755.6038208007812,
+      "completions/mean_terminated_length": 603.5904541015625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 5.578425655976677,
+      "grad_norm": 0.15594299137592316,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 362551796.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.18268606066703796,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2126.0,
+      "completions/mean_length": 858.474365234375,
+      "completions/mean_terminated_length": 567.0182495117188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.587755102040816,
+      "grad_norm": 0.1511084884405136,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 363111405.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15710552036762238,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2504.0,
+      "completions/mean_length": 836.2779541015625,
+      "completions/mean_terminated_length": 593.9484252929688,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 5.597084548104956,
+      "grad_norm": 0.1524042934179306,
+      "learning_rate": 1e-06,
+      "loss": -0.0349,
+      "num_tokens": 363700030.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.16282165050506592,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3437.0,
+      "completions/mean_length": 812.6641235351562,
+      "completions/mean_terminated_length": 643.1021118164062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 5.606413994169096,
+      "grad_norm": 0.1423005759716034,
+      "learning_rate": 1e-06,
+      "loss": -0.009,
+      "num_tokens": 364331241.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.1617264747619629,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 600
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3961.0,
+      "completions/mean_length": 899.755615234375,
+      "completions/mean_terminated_length": 645.5963745117188,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 5.615743440233236,
+      "grad_norm": 0.15083767473697662,
+      "learning_rate": 1e-06,
+      "loss": -0.0241,
+      "num_tokens": 364957470.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.18986602127552032,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 601
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3045.0,
+      "completions/mean_length": 952.8170166015625,
+      "completions/mean_terminated_length": 627.6600952148438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.625072886297376,
+      "grad_norm": 0.1534229964017868,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 365556466.0,
+      "reward": 0.609375,
+      "reward_std": 0.19110387563705444,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 602
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3887.0,
+      "completions/mean_length": 750.193115234375,
+      "completions/mean_terminated_length": 556.6339721679688,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 5.634402332361516,
+      "grad_norm": 0.14218640327453613,
+      "learning_rate": 1e-06,
+      "loss": -0.014,
+      "num_tokens": 366117255.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.13809071481227875,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 603
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3414.0,
+      "completions/mean_length": 917.6707763671875,
+      "completions/mean_terminated_length": 652.48974609375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 5.643731778425656,
+      "grad_norm": 0.15133124589920044,
+      "learning_rate": 1e-06,
+      "loss": -0.0317,
+      "num_tokens": 366737096.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.20339447259902954,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 604
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3449.0,
+      "completions/mean_length": 870.8861694335938,
+      "completions/mean_terminated_length": 606.021728515625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.653061224489796,
+      "grad_norm": 0.14131079614162445,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 367325426.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.17404918372631073,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 605
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3051.0,
+      "completions/mean_length": 944.3013916015625,
+      "completions/mean_terminated_length": 618.2635498046875,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 5.662390670553936,
+      "grad_norm": 0.1873425543308258,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 367926440.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.14446905255317688,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 606
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 751.1250610351562,
+      "completions/mean_terminated_length": 586.6229248046875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.671720116618076,
+      "grad_norm": 0.12935638427734375,
+      "learning_rate": 1e-06,
+      "loss": -0.0248,
+      "num_tokens": 368522600.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.14823377132415771,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 607
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3137.0,
+      "completions/mean_length": 900.7902221679688,
+      "completions/mean_terminated_length": 655.0048217773438,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 5.681049562682215,
+      "grad_norm": 0.15427511930465698,
+      "learning_rate": 1e-06,
+      "loss": -0.0066,
+      "num_tokens": 369160092.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.17626412212848663,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 608
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2963.0,
+      "completions/mean_length": 834.8772583007812,
+      "completions/mean_terminated_length": 654.3439331054688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.690379008746356,
+      "grad_norm": 0.13125135004520416,
+      "learning_rate": 1e-06,
+      "loss": -0.0194,
+      "num_tokens": 369799854.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.15357083082199097,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 609
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2962.0,
+      "completions/mean_length": 812.8705444335938,
+      "completions/mean_terminated_length": 589.8212280273438,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 5.699708454810495,
+      "grad_norm": 0.1430377960205078,
+      "learning_rate": 1e-06,
+      "loss": -0.0318,
+      "num_tokens": 370383658.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.17107972502708435,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 610
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 790.5770263671875,
+      "completions/mean_terminated_length": 578.5902709960938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.709037900874636,
+      "grad_norm": 0.15086200833320618,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 370957191.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.17235784232616425,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 611
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 952.2131958007812,
+      "completions/mean_terminated_length": 660.8378295898438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 5.718367346938775,
+      "grad_norm": 0.14042527973651886,
+      "learning_rate": 1e-06,
+      "loss": -0.056,
+      "num_tokens": 371589694.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1762627214193344,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 612
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3154.0,
+      "completions/mean_length": 722.091552734375,
+      "completions/mean_terminated_length": 564.4322509765625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.727696793002916,
+      "grad_norm": 0.13101571798324585,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 372153040.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.11648217588663101,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 613
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3687.0,
+      "completions/mean_length": 818.3683471679688,
+      "completions/mean_terminated_length": 612.3013305664062,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 5.737026239067055,
+      "grad_norm": 0.16602221131324768,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 372749194.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.19554010033607483,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 614
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3717.0,
+      "completions/mean_length": 836.4364013671875,
+      "completions/mean_terminated_length": 606.6702270507812,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 5.746355685131196,
+      "grad_norm": 0.14646975696086884,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 373338641.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.14271238446235657,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 615
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3454.0,
+      "completions/mean_length": 892.7701416015625,
+      "completions/mean_terminated_length": 638.055419921875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 5.755685131195335,
+      "grad_norm": 0.13492605090141296,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 373953427.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.15549084544181824,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 616
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3218.0,
+      "completions/mean_length": 861.7142944335938,
+      "completions/mean_terminated_length": 617.1044311523438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 5.765014577259475,
+      "grad_norm": 0.14568999409675598,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 374548219.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.17554594576358795,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 617
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2873.0,
+      "completions/mean_length": 909.32373046875,
+      "completions/mean_terminated_length": 609.7216186523438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.774344023323615,
+      "grad_norm": 0.13196724653244019,
+      "learning_rate": 1e-06,
+      "loss": -0.0298,
+      "num_tokens": 375132165.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1314416527748108,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 618
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3656.0,
+      "completions/mean_length": 882.2042846679688,
+      "completions/mean_terminated_length": 639.14404296875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.783673469387755,
+      "grad_norm": 0.14321132004261017,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 375765884.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.19058141112327576,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 619
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 851.6116333007812,
+      "completions/mean_terminated_length": 610.4220581054688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.793002915451895,
+      "grad_norm": 0.15028724074363708,
+      "learning_rate": 1e-06,
+      "loss": -0.0298,
+      "num_tokens": 376354840.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.1806240826845169,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 620
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 820.5435791015625,
+      "completions/mean_terminated_length": 610.4786376953125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 5.802332361516035,
+      "grad_norm": 0.14434611797332764,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 376950695.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.17510157823562622,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 621
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3406.0,
+      "completions/mean_length": 781.4732666015625,
+      "completions/mean_terminated_length": 585.5792236328125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 5.811661807580175,
+      "grad_norm": 0.15130048990249634,
+      "learning_rate": 1e-06,
+      "loss": -0.0195,
+      "num_tokens": 377525167.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16468818485736847,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 622
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3172.0,
+      "completions/mean_length": 1031.622802734375,
+      "completions/mean_terminated_length": 668.1822509765625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 5.820991253644315,
+      "grad_norm": 0.14292049407958984,
+      "learning_rate": 1e-06,
+      "loss": -0.0263,
+      "num_tokens": 378146845.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.1868608444929123,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.49828118085861206,
+      "step": 623
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 904.4364013671875,
+      "completions/mean_terminated_length": 650.6494140625,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 5.830320699708455,
+      "grad_norm": 0.1270424723625183,
+      "learning_rate": 1e-06,
+      "loss": -0.0458,
+      "num_tokens": 378778404.0,
+      "reward": 0.578125,
+      "reward_std": 0.11712227016687393,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 624
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2395.0,
+      "completions/mean_length": 803.8582763671875,
+      "completions/mean_terminated_length": 592.7233276367188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.839650145772595,
+      "grad_norm": 0.12839479744434357,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 379362293.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1277952641248703,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 625
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2403.0,
+      "completions/mean_length": 805.5234985351562,
+      "completions/mean_terminated_length": 598.6488647460938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.848979591836734,
+      "grad_norm": 0.14423708617687225,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 379951530.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1581925004720688,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 626
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3237.0,
+      "completions/mean_length": 831.6395263671875,
+      "completions/mean_terminated_length": 533.4336547851562,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 5.858309037900875,
+      "grad_norm": 0.16185839474201202,
+      "learning_rate": 1e-06,
+      "loss": -0.029,
+      "num_tokens": 380468759.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.17664320766925812,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 627
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2450.0,
+      "completions/mean_length": 836.7332763671875,
+      "completions/mean_terminated_length": 640.0201416015625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 5.867638483965014,
+      "grad_norm": 0.13921836018562317,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 381105248.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17633871734142303,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 628
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2003.0,
+      "completions/mean_length": 805.5703735351562,
+      "completions/mean_terminated_length": 535.341796875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 5.876967930029155,
+      "grad_norm": 0.15873199701309204,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 381632471.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.17694559693336487,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 629
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 1038.2623291015625,
+      "completions/mean_terminated_length": 649.7949829101562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 5.886297376093294,
+      "grad_norm": 0.1511031836271286,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 382245162.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.17446258664131165,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 630
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3142.0,
+      "completions/mean_length": 920.6551513671875,
+      "completions/mean_terminated_length": 600.7800903320312,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.895626822157435,
+      "grad_norm": 0.15285640954971313,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 382827405.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1698736995458603,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 631
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2569.0,
+      "completions/mean_length": 810.4631958007812,
+      "completions/mean_terminated_length": 574.6590576171875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 5.904956268221574,
+      "grad_norm": 0.153993621468544,
+      "learning_rate": 1e-06,
+      "loss": -0.0181,
+      "num_tokens": 383399332.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1521807461977005,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 632
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4017.0,
+      "completions/mean_length": 962.0480346679688,
+      "completions/mean_terminated_length": 671.5841674804688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.914285714285715,
+      "grad_norm": 0.14376863837242126,
+      "learning_rate": 1e-06,
+      "loss": -0.0351,
+      "num_tokens": 384035239.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.1906474083662033,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 633
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2917.0,
+      "completions/mean_length": 757.3471069335938,
+      "completions/mean_terminated_length": 589.0445556640625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.923615160349854,
+      "grad_norm": 0.14942072331905365,
+      "learning_rate": 1e-06,
+      "loss": -0.0185,
+      "num_tokens": 384625606.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.16086068749427795,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 634
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3056.0,
+      "completions/mean_length": 988.0089721679688,
+      "completions/mean_terminated_length": 615.0499877929688,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 5.932944606413994,
+      "grad_norm": 0.15287573635578156,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 385210910.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1543617844581604,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 635
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3069.0,
+      "completions/mean_length": 915.6975708007812,
+      "completions/mean_terminated_length": 608.177490234375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 5.942274052478134,
+      "grad_norm": 0.14832653105258942,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 385793799.0,
+      "reward": 0.6328125,
+      "reward_std": 0.19554080069065094,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 636
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3119.0,
+      "completions/mean_length": 837.419677734375,
+      "completions/mean_terminated_length": 620.1809692382812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.9516034985422746,
+      "grad_norm": 0.12214856594800949,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 386405911.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1418454498052597,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 637
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3049.0,
+      "completions/mean_length": 771.5123291015625,
+      "completions/mean_terminated_length": 558.3028564453125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 5.960932944606414,
+      "grad_norm": 0.16159658133983612,
+      "learning_rate": 1e-06,
+      "loss": -0.0087,
+      "num_tokens": 386958514.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1906997561454773,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 638
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3366.0,
+      "completions/mean_length": 902.9051513671875,
+      "completions/mean_terminated_length": 623.8968505859375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.970262390670554,
+      "grad_norm": 0.1529039740562439,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 387561197.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.15534000098705292,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 639
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3818.0,
+      "completions/mean_length": 868.060302734375,
+      "completions/mean_terminated_length": 564.5787963867188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 5.979591836734694,
+      "grad_norm": 0.1584150344133377,
+      "learning_rate": 1e-06,
+      "loss": -0.0192,
+      "num_tokens": 388113867.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.165370374917984,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 640
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 906.7176513671875,
+      "completions/mean_terminated_length": 598.3292846679688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.988921282798834,
+      "grad_norm": 0.1418311595916748,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 388693070.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16386333107948303,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 641
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.048295454545454586,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 743.8778686523438,
+      "completions/mean_terminated_length": 573.7701416015625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.998250728862974,
+      "grad_norm": 0.1640530824661255,
+      "learning_rate": 1e-06,
+      "loss": -0.0393,
+      "num_tokens": 389256557.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1731078028678894,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 642
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3275.0,
+      "completions/mean_length": 856.5614013671875,
+      "completions/mean_terminated_length": 573.503662109375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.0093294460641395,
+      "grad_norm": 0.14234739542007446,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 389823220.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14297270774841309,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 643
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3624.0,
+      "completions/mean_length": 869.7377319335938,
+      "completions/mean_terminated_length": 604.7789916992188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.01865889212828,
+      "grad_norm": 0.12194245308637619,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 390408713.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.13891443610191345,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 644
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3388.0,
+      "completions/mean_length": 900.9375610351562,
+      "completions/mean_terminated_length": 600.5470581054688,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.0279883381924195,
+      "grad_norm": 0.14325366914272308,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 390978953.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.17156830430030823,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 645
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 880.1574096679688,
+      "completions/mean_terminated_length": 632.7848510742188,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 6.03731778425656,
+      "grad_norm": 0.1419011652469635,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 391591414.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.17964836955070496,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 646
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3961.0,
+      "completions/mean_length": 894.55029296875,
+      "completions/mean_terminated_length": 648.2848510742188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 6.0466472303206995,
+      "grad_norm": 0.1366526186466217,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 392215843.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14925476908683777,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 647
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4061.0,
+      "completions/mean_length": 994.7623291015625,
+      "completions/mean_terminated_length": 635.5902709960938,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.05597667638484,
+      "grad_norm": 0.18923039734363556,
+      "learning_rate": 1e-06,
+      "loss": -0.0776,
+      "num_tokens": 392826094.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.2201537787914276,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 648
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 814.2344360351562,
+      "completions/mean_terminated_length": 536.11865234375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.0653061224489795,
+      "grad_norm": 0.16814157366752625,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 393352928.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.17258675396442413,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 649
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3583.0,
+      "completions/mean_length": 902.65966796875,
+      "completions/mean_terminated_length": 580.9717407226562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 6.07463556851312,
+      "grad_norm": 0.13550487160682678,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 393916143.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1503053456544876,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 650
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 837.122802734375,
+      "completions/mean_terminated_length": 607.4049682617188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 6.0839650145772595,
+      "grad_norm": 0.14408986270427704,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 394514197.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.14635583758354187,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 651
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3004.0,
+      "completions/mean_length": 1014.7053833007812,
+      "completions/mean_terminated_length": 627.6080322265625,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 6.093294460641399,
+      "grad_norm": 0.16759803891181946,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 395094981.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.19290581345558167,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 652
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 932.5089721679688,
+      "completions/mean_terminated_length": 635.0867309570312,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 6.1026239067055394,
+      "grad_norm": 0.11808391660451889,
+      "learning_rate": 1e-06,
+      "loss": -0.0355,
+      "num_tokens": 395705717.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.11881474405527115,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 653
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 947.1417846679688,
+      "completions/mean_terminated_length": 651.0952758789062,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 6.111953352769679,
+      "grad_norm": 0.14583361148834229,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 396321052.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.16961409151554108,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 654
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3367.0,
+      "completions/mean_length": 898.4910888671875,
+      "completions/mean_terminated_length": 627.5157470703125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 6.121282798833819,
+      "grad_norm": 0.14111021161079407,
+      "learning_rate": 1e-06,
+      "loss": -0.0317,
+      "num_tokens": 396923100.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1572902798652649,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 655
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 903.6886596679688,
+      "completions/mean_terminated_length": 645.6851806640625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 6.130612244897959,
+      "grad_norm": 0.14313118159770966,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 397548669.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.1674344688653946,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 656
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2741.0,
+      "completions/mean_length": 891.372802734375,
+      "completions/mean_terminated_length": 615.5806274414062,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.139941690962099,
+      "grad_norm": 0.13182544708251953,
+      "learning_rate": 1e-06,
+      "loss": -0.0311,
+      "num_tokens": 398154883.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1338074505329132,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 657
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3931.0,
+      "completions/mean_length": 852.302490234375,
+      "completions/mean_terminated_length": 615.3377075195312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 6.149271137026239,
+      "grad_norm": 0.16187366843223572,
+      "learning_rate": 1e-06,
+      "loss": -0.0422,
+      "num_tokens": 398765794.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.18419449031352997,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 658
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 960.0089721679688,
+      "completions/mean_terminated_length": 592.4489135742188,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 6.158600583090379,
+      "grad_norm": 0.15267084538936615,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 399331946.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1725439727306366,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 659
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 945.9129638671875,
+      "completions/mean_terminated_length": 628.582275390625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.167930029154519,
+      "grad_norm": 0.1346728652715683,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 399929636.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17490653693675995,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 660
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 938.6194458007812,
+      "completions/mean_terminated_length": 616.2791748046875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.1772594752186585,
+      "grad_norm": 0.16225330531597137,
+      "learning_rate": 1e-06,
+      "loss": -0.0166,
+      "num_tokens": 400521079.0,
+      "reward": 0.640625,
+      "reward_std": 0.1985887587070465,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 661
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3338.0,
+      "completions/mean_length": 874.9631958007812,
+      "completions/mean_terminated_length": 614.6381225585938,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 6.186588921282799,
+      "grad_norm": 0.14276763796806335,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 401126718.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17739136517047882,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 662
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3870.0,
+      "completions/mean_length": 965.37060546875,
+      "completions/mean_terminated_length": 641.5123291015625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 6.1959183673469385,
+      "grad_norm": 0.1537197083234787,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 401736746.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.19227458536624908,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 663
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4052.0,
+      "completions/mean_length": 931.161865234375,
+      "completions/mean_terminated_length": 620.8836059570312,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 6.205247813411079,
+      "grad_norm": 0.13656635582447052,
+      "learning_rate": 1e-06,
+      "loss": -0.0112,
+      "num_tokens": 402331723.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.14845947921276093,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 664
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3742.0,
+      "completions/mean_length": 926.0457763671875,
+      "completions/mean_terminated_length": 653.2376098632812,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.214577259475218,
+      "grad_norm": 0.14149661362171173,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 402962164.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.16972355544567108,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 665
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3206.0,
+      "completions/mean_length": 900.45654296875,
+      "completions/mean_terminated_length": 595.7469482421875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.223906705539359,
+      "grad_norm": 0.1426355391740799,
+      "learning_rate": 1e-06,
+      "loss": -0.0463,
+      "num_tokens": 403536453.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.15082597732543945,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 666
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3801.0,
+      "completions/mean_length": 952.794677734375,
+      "completions/mean_terminated_length": 678.1456298828125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 6.233236151603498,
+      "grad_norm": 0.1378466784954071,
+      "learning_rate": 1e-06,
+      "loss": -0.0355,
+      "num_tokens": 404189125.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.16863587498664856,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 667
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3476.0,
+      "completions/mean_length": 881.8170166015625,
+      "completions/mean_terminated_length": 617.8502197265625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.242565597667639,
+      "grad_norm": 0.14645691215991974,
+      "learning_rate": 1e-06,
+      "loss": -0.0207,
+      "num_tokens": 404797473.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.16059784591197968,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 668
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3574.0,
+      "completions/mean_length": 892.1272583007812,
+      "completions/mean_terminated_length": 641.5234985351562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.251895043731778,
+      "grad_norm": 0.1429297924041748,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 405415563.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.181003138422966,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 669
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3012.0,
+      "completions/mean_length": 892.958740234375,
+      "completions/mean_terminated_length": 621.5145263671875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.261224489795918,
+      "grad_norm": 0.13177646696567535,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 406013766.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.13696233928203583,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 670
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3991.0,
+      "completions/mean_length": 1022.7913208007812,
+      "completions/mean_terminated_length": 654.0062255859375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.270553935860058,
+      "grad_norm": 0.14521095156669617,
+      "learning_rate": 1e-06,
+      "loss": -0.0753,
+      "num_tokens": 406622603.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.1802103966474533,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 671
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2827.0,
+      "completions/mean_length": 940.294677734375,
+      "completions/mean_terminated_length": 643.6044311523438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 6.279883381924198,
+      "grad_norm": 0.14574165642261505,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 407235387.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.16424493491649628,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 672
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2938.0,
+      "completions/mean_length": 950.3303833007812,
+      "completions/mean_terminated_length": 624.916259765625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 6.289212827988338,
+      "grad_norm": 0.1456872522830963,
+      "learning_rate": 1e-06,
+      "loss": -0.0487,
+      "num_tokens": 407831595.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15879730880260468,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 673
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 1039.2991943359375,
+      "completions/mean_terminated_length": 702.1908569335938,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 6.298542274052478,
+      "grad_norm": 0.14945022761821747,
+      "learning_rate": 1e-06,
+      "loss": -0.0315,
+      "num_tokens": 408498487.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.17217488586902618,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 674
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3519.0,
+      "completions/mean_length": 935.646240234375,
+      "completions/mean_terminated_length": 680.2255859375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 6.307871720116618,
+      "grad_norm": 0.1541002094745636,
+      "learning_rate": 1e-06,
+      "loss": -0.0461,
+      "num_tokens": 409153746.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.19851066172122955,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 675
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3251.0,
+      "completions/mean_length": 832.9063110351562,
+      "completions/mean_terminated_length": 598.712890625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 6.317201166180758,
+      "grad_norm": 0.13816270232200623,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 409748926.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.15420952439308167,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 676
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 1006.64404296875,
+      "completions/mean_terminated_length": 609.7745361328125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.326530612244898,
+      "grad_norm": 0.14650343358516693,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 410323615.0,
+      "reward": 0.625,
+      "reward_std": 0.1820116490125656,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 677
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3043.0,
+      "completions/mean_length": 893.0881958007812,
+      "completions/mean_terminated_length": 663.214111328125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.335860058309038,
+      "grad_norm": 0.11925744265317917,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 410964878.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15146467089653015,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 678
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 812.0592041015625,
+      "completions/mean_terminated_length": 567.9292602539062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.345189504373177,
+      "grad_norm": 0.14287491142749786,
+      "learning_rate": 1e-06,
+      "loss": 0.0035,
+      "num_tokens": 411525475.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.13437016308307648,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 679
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3755.0,
+      "completions/mean_length": 852.8605346679688,
+      "completions/mean_terminated_length": 611.7637939453125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.354518950437318,
+      "grad_norm": 0.1437513679265976,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 412123334.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13606193661689758,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 680
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3154.0,
+      "completions/mean_length": 857.9230346679688,
+      "completions/mean_terminated_length": 570.7059936523438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.363848396501457,
+      "grad_norm": 0.1336721032857895,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 412680489.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.155109241604805,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 681
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3161.0,
+      "completions/mean_length": 910.1629638671875,
+      "completions/mean_terminated_length": 631.788818359375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.373177842565598,
+      "grad_norm": 0.14269065856933594,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 413286707.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16642485558986664,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 682
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 974.6585083007812,
+      "completions/mean_terminated_length": 664.4392700195312,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.382507288629737,
+      "grad_norm": 0.14866507053375244,
+      "learning_rate": 1e-06,
+      "loss": -0.0385,
+      "num_tokens": 413918145.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.15357083082199097,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 683
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 981.12841796875,
+      "completions/mean_terminated_length": 658.9002075195312,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 6.391836734693878,
+      "grad_norm": 0.15749813616275787,
+      "learning_rate": 1e-06,
+      "loss": -0.0186,
+      "num_tokens": 414549188.0,
+      "reward": 0.5859375,
+      "reward_std": 0.18092785775661469,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 684
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 952.71435546875,
+      "completions/mean_terminated_length": 661.3853759765625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 6.401166180758017,
+      "grad_norm": 0.12710365653038025,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 415189156.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.15079136192798615,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 685
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3387.0,
+      "completions/mean_length": 863.5067138671875,
+      "completions/mean_terminated_length": 602.2557373046875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 6.410495626822158,
+      "grad_norm": 0.14502064883708954,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 415779874.0,
+      "reward": 0.640625,
+      "reward_std": 0.1710023432970047,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 686
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 989.9766235351562,
+      "completions/mean_terminated_length": 621.5967407226562,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 6.419825072886297,
+      "grad_norm": 0.1616830825805664,
+      "learning_rate": 1e-06,
+      "loss": -0.0333,
+      "num_tokens": 416369597.0,
+      "reward": 0.640625,
+      "reward_std": 0.1674344390630722,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 687
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3798.0,
+      "completions/mean_length": 972.2199096679688,
+      "completions/mean_terminated_length": 678.5311889648438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.429154518950437,
+      "grad_norm": 0.1500493437051773,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 417016282.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1824253350496292,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3898.0,
+      "completions/mean_length": 1091.552490234375,
+      "completions/mean_terminated_length": 662.3456420898438,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 6.438483965014577,
+      "grad_norm": 0.13980795443058014,
+      "learning_rate": 1e-06,
+      "loss": -0.0313,
+      "num_tokens": 417626809.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.14553210139274597,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 689
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2959.0,
+      "completions/mean_length": 955.247802734375,
+      "completions/mean_terminated_length": 608.869873046875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.447813411078717,
+      "grad_norm": 0.15495805442333221,
+      "learning_rate": 1e-06,
+      "loss": -0.0322,
+      "num_tokens": 418207175.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1691262423992157,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 690
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 903.86279296875,
+      "completions/mean_terminated_length": 612.2545776367188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.457142857142857,
+      "grad_norm": 0.14153935015201569,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 418795676.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1726934313774109,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 691
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3847.0,
+      "completions/mean_length": 865.4375610351562,
+      "completions/mean_terminated_length": 682.5755004882812,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.466472303206997,
+      "grad_norm": 0.1511821299791336,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 419461996.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.19425947964191437,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 692
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3805.0,
+      "completions/mean_length": 1053.759033203125,
+      "completions/mean_terminated_length": 619.153076171875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.475801749271137,
+      "grad_norm": 0.14980465173721313,
+      "learning_rate": 1e-06,
+      "loss": -0.0588,
+      "num_tokens": 420038196.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.14740821719169617,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 693
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 1087.680908203125,
+      "completions/mean_terminated_length": 666.669189453125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.485131195335277,
+      "grad_norm": 0.13873988389968872,
+      "learning_rate": 1e-06,
+      "loss": -0.033,
+      "num_tokens": 420656022.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.15236620604991913,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 694
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3044.0,
+      "completions/mean_length": 912.9375610351562,
+      "completions/mean_terminated_length": 579.3242797851562,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 6.494460641399417,
+      "grad_norm": 0.15610650181770325,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 421212630.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.15613093972206116,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 695
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 985.4364013671875,
+      "completions/mean_terminated_length": 607.8085327148438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 6.503790087463557,
+      "grad_norm": 0.14351730048656464,
+      "learning_rate": 1e-06,
+      "loss": -0.0186,
+      "num_tokens": 421790509.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.13534724712371826,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 696
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3434.0,
+      "completions/mean_length": 831.9453735351562,
+      "completions/mean_terminated_length": 572.3939819335938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.513119533527696,
+      "grad_norm": 0.1457185596227646,
+      "learning_rate": 1e-06,
+      "loss": -0.0266,
+      "num_tokens": 422345764.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.14861032366752625,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 697
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3618.0,
+      "completions/mean_length": 929.6719360351562,
+      "completions/mean_terminated_length": 669.63525390625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 6.522448979591837,
+      "grad_norm": 0.1634896993637085,
+      "learning_rate": 1e-06,
+      "loss": -0.0387,
+      "num_tokens": 422982518.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1843799650669098,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 698
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3476.0,
+      "completions/mean_length": 1110.2935791015625,
+      "completions/mean_terminated_length": 666.265380859375,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 6.531778425655976,
+      "grad_norm": 0.1411629021167755,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 423595085.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.17115317285060883,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 699
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3406.0,
+      "completions/mean_length": 832.7969360351562,
+      "completions/mean_terminated_length": 602.774169921875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 6.541107871720117,
+      "grad_norm": 0.1352481096982956,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 424177959.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1339162141084671,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 700
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 973.8538208007812,
+      "completions/mean_terminated_length": 655.1107177734375,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 6.550437317784256,
+      "grad_norm": 0.13937661051750183,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 424796572.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.17371399700641632,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 701
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4004.0,
+      "completions/mean_length": 919.122802734375,
+      "completions/mean_terminated_length": 573.126220703125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.559766763848397,
+      "grad_norm": 0.15014061331748962,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 425345554.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.17720702290534973,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 702
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3873.0,
+      "completions/mean_length": 1026.7679443359375,
+      "completions/mean_terminated_length": 654.15771484375,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 6.569096209912536,
+      "grad_norm": 0.14446890354156494,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 425961666.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.15131382644176483,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 703
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 1053.071533203125,
+      "completions/mean_terminated_length": 657.8360595703125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.578425655976677,
+      "grad_norm": 0.1557384729385376,
+      "learning_rate": 1e-06,
+      "loss": -0.0831,
+      "num_tokens": 426580882.0,
+      "reward": 0.59375,
+      "reward_std": 0.17152412235736847,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 704
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2204.0,
+      "completions/mean_length": 876.7288208007812,
+      "completions/mean_terminated_length": 620.7385864257812,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 6.587755102040816,
+      "grad_norm": 0.13753269612789154,
+      "learning_rate": 1e-06,
+      "loss": -0.0119,
+      "num_tokens": 427181935.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14060622453689575,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 705
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3479.0,
+      "completions/mean_length": 897.4285888671875,
+      "completions/mean_terminated_length": 613.7156982421875,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 6.597084548104956,
+      "grad_norm": 0.15909099578857422,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 427775327.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.18227237462997437,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 706
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2677.0,
+      "completions/mean_length": 974.08935546875,
+      "completions/mean_terminated_length": 603.8251953125,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 6.606413994169096,
+      "grad_norm": 0.1492423266172409,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 428344783.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.15680170059204102,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 707
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3719.0,
+      "completions/mean_length": 902.0402221679688,
+      "completions/mean_terminated_length": 622.956298828125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.615743440233236,
+      "grad_norm": 0.14789535105228424,
+      "learning_rate": 1e-06,
+      "loss": -0.0525,
+      "num_tokens": 428937483.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.17194482684135437,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 708
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 884.72998046875,
+      "completions/mean_terminated_length": 569.8995361328125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 6.625072886297376,
+      "grad_norm": 0.15483340620994568,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 429488153.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.14120353758335114,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 709
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 1068.734375,
+      "completions/mean_terminated_length": 636.267822265625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 6.634402332361516,
+      "grad_norm": 0.15241001546382904,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 430078747.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.17661041021347046,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 710
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2739.0,
+      "completions/mean_length": 817.0335083007812,
+      "completions/mean_terminated_length": 585.8995971679688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 6.643731778425656,
+      "grad_norm": 0.1431237906217575,
+      "learning_rate": 1e-06,
+      "loss": -0.0372,
+      "num_tokens": 430651977.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1448495239019394,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 711
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 1037.8973388671875,
+      "completions/mean_terminated_length": 662.3408203125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 6.653061224489796,
+      "grad_norm": 0.1589026004076004,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 431270061.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.16976633667945862,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 712
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3211.0,
+      "completions/mean_length": 964.5949096679688,
+      "completions/mean_terminated_length": 597.5723266601562,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 6.662390670553936,
+      "grad_norm": 0.14149640500545502,
+      "learning_rate": 1e-06,
+      "loss": -0.0739,
+      "num_tokens": 431840346.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.15195322036743164,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 713
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3896.0,
+      "completions/mean_length": 930.6886596679688,
+      "completions/mean_terminated_length": 641.5310668945312,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 6.671720116618076,
+      "grad_norm": 0.149410679936409,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 432458187.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1560874730348587,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 714
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3469.0,
+      "completions/mean_length": 947.26904296875,
+      "completions/mean_terminated_length": 655.4353637695312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.681049562682215,
+      "grad_norm": 0.1367138922214508,
+      "learning_rate": 1e-06,
+      "loss": -0.038,
+      "num_tokens": 433090844.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1543956845998764,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 715
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3140.0,
+      "completions/mean_length": 970.5145263671875,
+      "completions/mean_terminated_length": 642.9358520507812,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.690379008746356,
+      "grad_norm": 0.15205246210098267,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 433710841.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.1888468712568283,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 716
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3867.0,
+      "completions/mean_length": 1123.083740234375,
+      "completions/mean_terminated_length": 632.10791015625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 6.699708454810495,
+      "grad_norm": 0.16829803586006165,
+      "learning_rate": 1e-06,
+      "loss": -0.0661,
+      "num_tokens": 434291212.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1829131692647934,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 717
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3726.0,
+      "completions/mean_length": 1159.1395263671875,
+      "completions/mean_terminated_length": 669.6627807617188,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 6.709037900874636,
+      "grad_norm": 0.16678796708583832,
+      "learning_rate": 1e-06,
+      "loss": -0.0724,
+      "num_tokens": 434897105.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.19261159002780914,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 718
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2520.0,
+      "completions/mean_length": 1044.89404296875,
+      "completions/mean_terminated_length": 644.2437133789062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.718367346938775,
+      "grad_norm": 0.145506352186203,
+      "learning_rate": 1e-06,
+      "loss": -0.021,
+      "num_tokens": 435502114.0,
+      "reward": 0.609375,
+      "reward_std": 0.15326520800590515,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 719
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2719.0,
+      "completions/mean_length": 1008.6719360351562,
+      "completions/mean_terminated_length": 651.11083984375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 6.727696793002916,
+      "grad_norm": 0.16412486135959625,
+      "learning_rate": 1e-06,
+      "loss": -0.0313,
+      "num_tokens": 436114468.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.14586910605430603,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 720
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3120.0,
+      "completions/mean_length": 901.427490234375,
+      "completions/mean_terminated_length": 601.0830688476562,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.737026239067055,
+      "grad_norm": 0.14590677618980408,
+      "learning_rate": 1e-06,
+      "loss": -0.0433,
+      "num_tokens": 436704867.0,
+      "reward": 0.65625,
+      "reward_std": 0.18516905605793,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 721
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3546.0,
+      "completions/mean_length": 1101.8515625,
+      "completions/mean_terminated_length": 674.1160278320312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.746355685131196,
+      "grad_norm": 0.14151152968406677,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 437328086.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1660429686307907,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 722
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3775.0,
+      "completions/mean_length": 910.4230346679688,
+      "completions/mean_terminated_length": 619.4141845703125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 6.755685131195335,
+      "grad_norm": 0.13452281057834625,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 437930249.0,
+      "reward": 0.6640625,
+      "reward_std": 0.14680413901805878,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 723
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3963.0,
+      "completions/mean_length": 941.9810791015625,
+      "completions/mean_terminated_length": 658.0426025390625,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 6.765014577259475,
+      "grad_norm": 0.13875821232795715,
+      "learning_rate": 1e-06,
+      "loss": -0.0649,
+      "num_tokens": 438555760.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.17836818099021912,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 724
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3943.0,
+      "completions/mean_length": 1076.5592041015625,
+      "completions/mean_terminated_length": 675.7484741210938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 6.774344023323615,
+      "grad_norm": 0.13399802148342133,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 439193261.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1561630368232727,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 725
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3305.0,
+      "completions/mean_length": 857.1607666015625,
+      "completions/mean_terminated_length": 574.1553344726562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.783673469387755,
+      "grad_norm": 0.14856798946857452,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 439751413.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.14992626011371613,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 726
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3847.0,
+      "completions/mean_length": 953.8739013671875,
+      "completions/mean_terminated_length": 633.0910034179688,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.793002915451895,
+      "grad_norm": 0.11999521404504776,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 440358428.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.13373005390167236,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 727
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3954.0,
+      "completions/mean_length": 1010.42529296875,
+      "completions/mean_terminated_length": 609.6506958007812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.802332361516035,
+      "grad_norm": 0.19046589732170105,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 440922769.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.19670899212360382,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 728
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3262.0,
+      "completions/mean_length": 1006.1138916015625,
+      "completions/mean_terminated_length": 652.5447387695312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.811661807580175,
+      "grad_norm": 0.16059322655200958,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 441544191.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.18047182261943817,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 729
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 1020.1785888671875,
+      "completions/mean_terminated_length": 672.4769897460938,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 6.820991253644315,
+      "grad_norm": 0.15191487967967987,
+      "learning_rate": 1e-06,
+      "loss": -0.0501,
+      "num_tokens": 442179631.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.19881586730480194,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 730
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3857.0,
+      "completions/mean_length": 944.2902221679688,
+      "completions/mean_terminated_length": 647.9755859375,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 6.830320699708455,
+      "grad_norm": 0.16478540003299713,
+      "learning_rate": 1e-06,
+      "loss": -0.0576,
+      "num_tokens": 442799195.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.18088370561599731,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 731
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3638.0,
+      "completions/mean_length": 1061.7410888671875,
+      "completions/mean_terminated_length": 641.4942626953125,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 6.839650145772595,
+      "grad_norm": 0.1515892744064331,
+      "learning_rate": 1e-06,
+      "loss": -0.0478,
+      "num_tokens": 443386363.0,
+      "reward": 0.65625,
+      "reward_std": 0.1409093141555786,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 732
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2568.0,
+      "completions/mean_length": 1060.466552734375,
+      "completions/mean_terminated_length": 661.861083984375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 6.848979591836734,
+      "grad_norm": 0.14148367941379547,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 443993661.0,
+      "reward": 0.625,
+      "reward_std": 0.12692944705486298,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 733
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 1087.958740234375,
+      "completions/mean_terminated_length": 688.6611938476562,
+      "completions/min_length": 216.0,
+      "completions/min_terminated_length": 216.0,
+      "epoch": 6.858309037900875,
+      "grad_norm": 0.15652503073215485,
+      "learning_rate": 1e-06,
+      "loss": -0.0304,
+      "num_tokens": 444626224.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.163072407245636,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 734
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3020.0,
+      "completions/mean_length": 981.380615234375,
+      "completions/mean_terminated_length": 654.9407958984375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.867638483965014,
+      "grad_norm": 0.14108288288116455,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 445250269.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.13354460895061493,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 735
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2872.0,
+      "completions/mean_length": 950.1272583007812,
+      "completions/mean_terminated_length": 568.2127685546875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 6.876967930029155,
+      "grad_norm": 0.15446877479553223,
+      "learning_rate": 1e-06,
+      "loss": -0.0846,
+      "num_tokens": 445789239.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.15267042815685272,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 736
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3761.0,
+      "completions/mean_length": 984.9152221679688,
+      "completions/mean_terminated_length": 654.6024780273438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.886297376093294,
+      "grad_norm": 0.17698132991790771,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 446415867.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1683780699968338,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 737
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3886.0,
+      "completions/mean_length": 970.7935791015625,
+      "completions/mean_terminated_length": 591.3880004882812,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 6.895626822157435,
+      "grad_norm": 0.12509697675704956,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 446979690.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.12433614581823349,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 738
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2788.0,
+      "completions/mean_length": 1183.818115234375,
+      "completions/mean_terminated_length": 724.7919921875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 6.904956268221574,
+      "grad_norm": 0.1635567843914032,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 447636855.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.19016842544078827,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 739
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3124.0,
+      "completions/mean_length": 1079.9832763671875,
+      "completions/mean_terminated_length": 644.7215576171875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 6.914285714285715,
+      "grad_norm": 0.15128153562545776,
+      "learning_rate": 1e-06,
+      "loss": -0.0548,
+      "num_tokens": 448233488.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.18043790757656097,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 740
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3537.0,
+      "completions/mean_length": 930.4464721679688,
+      "completions/mean_terminated_length": 628.5966186523438,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 6.923615160349854,
+      "grad_norm": 0.15063291788101196,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 448837144.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1652994155883789,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 741
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3951.0,
+      "completions/mean_length": 1076.9832763671875,
+      "completions/mean_terminated_length": 641.2886352539062,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 6.932944606413994,
+      "grad_norm": 0.1616082787513733,
+      "learning_rate": 1e-06,
+      "loss": -0.075,
+      "num_tokens": 449428305.0,
+      "reward": 0.625,
+      "reward_std": 0.18032237887382507,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 742
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 881.8839721679688,
+      "completions/mean_terminated_length": 605.275146484375,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 6.942274052478134,
+      "grad_norm": 0.15175040066242218,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 450007769.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15030281245708466,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 743
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2878.0,
+      "completions/mean_length": 975.55029296875,
+      "completions/mean_terminated_length": 618.4838256835938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 6.9516034985422746,
+      "grad_norm": 0.14866061508655548,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 450594838.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16037032008171082,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 744
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3004.0,
+      "completions/mean_length": 864.8783569335938,
+      "completions/mean_terminated_length": 569.7089233398438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 6.960932944606414,
+      "grad_norm": 0.15572293102741241,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 451146817.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 745
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2350.0,
+      "completions/mean_length": 936.5000610351562,
+      "completions/mean_terminated_length": 618.2211303710938,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 6.970262390670554,
+      "grad_norm": 0.15726704895496368,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 451729737.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.18393094837665558,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 746
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2202.0,
+      "completions/mean_length": 997.3973388671875,
+      "completions/mean_terminated_length": 642.830810546875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.979591836734694,
+      "grad_norm": 0.1498706042766571,
+      "learning_rate": 1e-06,
+      "loss": -0.0218,
+      "num_tokens": 452339277.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.14458850026130676,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 747
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3101.0,
+      "completions/mean_length": 970.0022583007812,
+      "completions/mean_terminated_length": 638.106201171875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 6.988921282798834,
+      "grad_norm": 0.1454838216304779,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 452948351.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.15721359848976135,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 748
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3443.0,
+      "completions/mean_length": 907.6392211914062,
+      "completions/mean_terminated_length": 577.8087768554688,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 6.998250728862974,
+      "grad_norm": 0.14799146354198456,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 453556804.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.13470645248889923,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 749
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 917.45654296875,
+      "completions/mean_terminated_length": 627.0901489257812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 7.0093294460641395,
+      "grad_norm": 0.1317032277584076,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 454149237.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.15988247096538544,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 750
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 992.5145263671875,
+      "completions/mean_terminated_length": 663.0086669921875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.01865889212828,
+      "grad_norm": 0.15026330947875977,
+      "learning_rate": 1e-06,
+      "loss": -0.0301,
+      "num_tokens": 454767994.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.16544592380523682,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 1095.052490234375,
+      "completions/mean_terminated_length": 670.7146606445312,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.0279883381924195,
+      "grad_norm": 0.15019945800304413,
+      "learning_rate": 1e-06,
+      "loss": -0.053,
+      "num_tokens": 455384865.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17746664583683014,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111400604248,
+      "step": 752
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2482.0,
+      "completions/mean_length": 987.6451416015625,
+      "completions/mean_terminated_length": 618.98876953125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 7.03731778425656,
+      "grad_norm": 0.1614040732383728,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 455973283.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.17900758981704712,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 753
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2577.0,
+      "completions/mean_length": 884.88623046875,
+      "completions/mean_terminated_length": 621.1715087890625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 7.0466472303206995,
+      "grad_norm": 0.15174107253551483,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 456570725.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.154775470495224,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 754
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3830.0,
+      "completions/mean_length": 990.380615234375,
+      "completions/mean_terminated_length": 613.3529663085938,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 7.05597667638484,
+      "grad_norm": 0.15587319433689117,
+      "learning_rate": 1e-06,
+      "loss": -0.0137,
+      "num_tokens": 457143722.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15240967273712158,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 755
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 948.474365234375,
+      "completions/mean_terminated_length": 635.6527709960938,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 7.0653061224489795,
+      "grad_norm": 0.15170101821422577,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 457744315.0,
+      "reward": 0.640625,
+      "reward_std": 0.15274599194526672,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 756
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3473.0,
+      "completions/mean_length": 947.349365234375,
+      "completions/mean_terminated_length": 600.1004028320312,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 7.07463556851312,
+      "grad_norm": 0.1556454300880432,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 458316044.0,
+      "reward": 0.65625,
+      "reward_std": 0.1766764223575592,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 757
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3354.0,
+      "completions/mean_length": 962.36279296875,
+      "completions/mean_terminated_length": 599.4383544921875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.0839650145772595,
+      "grad_norm": 0.1393265575170517,
+      "learning_rate": 1e-06,
+      "loss": -0.0452,
+      "num_tokens": 458890897.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.13496677577495575,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 758
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4004.0,
+      "completions/mean_length": 1038.4398193359375,
+      "completions/mean_terminated_length": 658.6423950195312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.093294460641399,
+      "grad_norm": 0.1311669498682022,
+      "learning_rate": 1e-06,
+      "loss": -0.0222,
+      "num_tokens": 459515091.0,
+      "reward": 0.5625,
+      "reward_std": 0.1151694804430008,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 759
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4009.0,
+      "completions/mean_length": 909.989990234375,
+      "completions/mean_terminated_length": 601.9180297851562,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.1026239067055394,
+      "grad_norm": 0.13678602874279022,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 460089826.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.15101072192192078,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 760
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4012.0,
+      "completions/mean_length": 927.91748046875,
+      "completions/mean_terminated_length": 634.2902221679688,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.111953352769679,
+      "grad_norm": 0.15244071185588837,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 460699960.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.16157494485378265,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 761
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2406.0,
+      "completions/mean_length": 917.0313110351562,
+      "completions/mean_terminated_length": 583.8471069335938,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 7.121282798833819,
+      "grad_norm": 0.1366218626499176,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 461255428.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.1292613297700882,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 762
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 954.5145263671875,
+      "completions/mean_terminated_length": 663.3524169921875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.130612244897959,
+      "grad_norm": 0.13859689235687256,
+      "learning_rate": 1e-06,
+      "loss": -0.0737,
+      "num_tokens": 461890369.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.13095128536224365,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 763
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3923.0,
+      "completions/mean_length": 1081.4765625,
+      "completions/mean_terminated_length": 619.7927856445312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.139941690962099,
+      "grad_norm": 0.15567605197429657,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 462471204.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.15996167063713074,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 764
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2903.0,
+      "completions/mean_length": 901.9364013671875,
+      "completions/mean_terminated_length": 588.7929077148438,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 7.149271137026239,
+      "grad_norm": 0.15489253401756287,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 463039995.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.15202920138835907,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 765
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2981.0,
+      "completions/mean_length": 915.9185791015625,
+      "completions/mean_terminated_length": 695.8174438476562,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 7.158600583090379,
+      "grad_norm": 0.15642905235290527,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 463710370.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.2059541493654251,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 766
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3409.0,
+      "completions/mean_length": 922.7366333007812,
+      "completions/mean_terminated_length": 607.3570556640625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.167930029154519,
+      "grad_norm": 0.13663925230503082,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 464291590.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1560867577791214,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 767
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3000.0,
+      "completions/mean_length": 1055.7388916015625,
+      "completions/mean_terminated_length": 652.1643676757812,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 7.1772594752186585,
+      "grad_norm": 0.15713904798030853,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 464894868.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14071568846702576,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 768
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3536.0,
+      "completions/mean_length": 1064.099365234375,
+      "completions/mean_terminated_length": 670.2963256835938,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 7.186588921282799,
+      "grad_norm": 0.15653076767921448,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 465512317.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.19013704359531403,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 769
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3706.0,
+      "completions/mean_length": 873.4989013671875,
+      "completions/mean_terminated_length": 646.3452758789062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.1959183673469385,
+      "grad_norm": 0.15411219000816345,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 466144420.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1641671359539032,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960144996643,
+      "step": 770
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 1104.9498291015625,
+      "completions/mean_terminated_length": 690.6873779296875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.205247813411079,
+      "grad_norm": 0.13861779868602753,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 466776959.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.14432887732982635,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 771
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3738.0,
+      "completions/mean_length": 1007.19873046875,
+      "completions/mean_terminated_length": 627.8721923828125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.214577259475218,
+      "grad_norm": 0.14062440395355225,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 467373529.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.13647310435771942,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 772
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2984.0,
+      "completions/mean_length": 1030.2288818359375,
+      "completions/mean_terminated_length": 614.4651489257812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.223906705539359,
+      "grad_norm": 0.1771906465291977,
+      "learning_rate": 1e-06,
+      "loss": -0.0616,
+      "num_tokens": 467943654.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.17900758981704712,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 773
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3313.0,
+      "completions/mean_length": 999.1250610351562,
+      "completions/mean_terminated_length": 623.158935546875,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 7.233236151603498,
+      "grad_norm": 0.1333370953798294,
+      "learning_rate": 1e-06,
+      "loss": -0.0484,
+      "num_tokens": 468531278.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.14489158987998962,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 774
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3495.0,
+      "completions/mean_length": 1019.3125610351562,
+      "completions/mean_terminated_length": 624.0704956054688,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.242565597667639,
+      "grad_norm": 0.1312686651945114,
+      "learning_rate": 1e-06,
+      "loss": -0.0356,
+      "num_tokens": 469117918.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.11144820600748062,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 775
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3048.0,
+      "completions/mean_length": 973.7522583007812,
+      "completions/mean_terminated_length": 646.512939453125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 7.251895043731778,
+      "grad_norm": 0.12949679791927338,
+      "learning_rate": 1e-06,
+      "loss": -0.0623,
+      "num_tokens": 469727560.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1241927519440651,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 776
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3634.0,
+      "completions/mean_length": 1050.515625,
+      "completions/mean_terminated_length": 650.603515625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.261224489795918,
+      "grad_norm": 0.1619434654712677,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 470328110.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.193997323513031,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 777
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3848.0,
+      "completions/mean_length": 1066.993408203125,
+      "completions/mean_terminated_length": 695.010009765625,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 7.270553935860058,
+      "grad_norm": 0.1315089762210846,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 470982376.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.16150076687335968,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 778
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2332.0,
+      "completions/mean_length": 967.7756958007812,
+      "completions/mean_terminated_length": 627.0779418945312,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 7.279883381924198,
+      "grad_norm": 0.15142987668514252,
+      "learning_rate": 1e-06,
+      "loss": -0.0379,
+      "num_tokens": 471580063.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16424313187599182,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 779
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3239.0,
+      "completions/mean_length": 931.7656860351562,
+      "completions/mean_terminated_length": 600.125732421875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.289212827988338,
+      "grad_norm": 0.1581142544746399,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 472152669.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1589067578315735,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 780
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 948.0156860351562,
+      "completions/mean_terminated_length": 622.362060546875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.298542274052478,
+      "grad_norm": 0.15665648877620697,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 472743491.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.17066533863544464,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 781
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3151.0,
+      "completions/mean_length": 952.6038208007812,
+      "completions/mean_terminated_length": 635.9471435546875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 7.307871720116618,
+      "grad_norm": 0.15677344799041748,
+      "learning_rate": 1e-06,
+      "loss": -0.0356,
+      "num_tokens": 473347912.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.15714125335216522,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 782
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3440.0,
+      "completions/mean_length": 993.1261596679688,
+      "completions/mean_terminated_length": 650.9256591796875,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 7.317201166180758,
+      "grad_norm": 0.1502755582332611,
+      "learning_rate": 1e-06,
+      "loss": -0.0216,
+      "num_tokens": 473965465.0,
+      "reward": 0.640625,
+      "reward_std": 0.1380895972251892,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 783
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3555.0,
+      "completions/mean_length": 934.021240234375,
+      "completions/mean_terminated_length": 636.7411499023438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 7.326530612244898,
+      "grad_norm": 0.13268038630485535,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 474571924.0,
+      "reward": 0.6328125,
+      "reward_std": 0.14053022861480713,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 784
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 907.6719360351562,
+      "completions/mean_terminated_length": 616.4117431640625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 7.335860058309038,
+      "grad_norm": 0.16889922320842743,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 475160222.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1765669286251068,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 785
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3191.0,
+      "completions/mean_length": 946.9006958007812,
+      "completions/mean_terminated_length": 603.929443359375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 7.345189504373177,
+      "grad_norm": 0.14676925539970398,
+      "learning_rate": 1e-06,
+      "loss": -0.0097,
+      "num_tokens": 475740885.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.13764451444149017,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 786
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3170.0,
+      "completions/mean_length": 899.8348388671875,
+      "completions/mean_terminated_length": 599.3406982421875,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 7.354518950437318,
+      "grad_norm": 0.1353752315044403,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 476326321.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1465073823928833,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 787
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2171.0,
+      "completions/mean_length": 823.1004638671875,
+      "completions/mean_terminated_length": 554.3115844726562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 7.363848396501457,
+      "grad_norm": 0.17552407085895538,
+      "learning_rate": 1e-06,
+      "loss": -0.036,
+      "num_tokens": 476875843.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.16724900901317596,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 788
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3850.0,
+      "completions/mean_length": 1052.532470703125,
+      "completions/mean_terminated_length": 670.1871948242188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.373177842565598,
+      "grad_norm": 0.12911708652973175,
+      "learning_rate": 1e-06,
+      "loss": -0.0386,
+      "num_tokens": 477501792.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1497408002614975,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 789
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3505.0,
+      "completions/mean_length": 1014.8281860351562,
+      "completions/mean_terminated_length": 619.0100708007812,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 7.382507288629737,
+      "grad_norm": 0.1339099258184433,
+      "learning_rate": 1e-06,
+      "loss": -0.0417,
+      "num_tokens": 478089830.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.12805598974227905,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 790
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3517.0,
+      "completions/mean_length": 967.5435791015625,
+      "completions/mean_terminated_length": 626.820556640625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 7.391836734693878,
+      "grad_norm": 0.11781653016805649,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 478682877.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1054396703839302,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 791
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3237.0,
+      "completions/mean_length": 988.2701416015625,
+      "completions/mean_terminated_length": 615.3424682617188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 7.401166180758017,
+      "grad_norm": 0.11937696486711502,
+      "learning_rate": 1e-06,
+      "loss": -0.0386,
+      "num_tokens": 479270775.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.10197984427213669,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 792
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 1157.8739013671875,
+      "completions/mean_terminated_length": 627.5401611328125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 7.410495626822158,
+      "grad_norm": 0.1595282107591629,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 479841118.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.1640053242444992,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 793
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3319.0,
+      "completions/mean_length": 955.9989013671875,
+      "completions/mean_terminated_length": 652.3757934570312,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 7.419825072886297,
+      "grad_norm": 0.14234353601932526,
+      "learning_rate": 1e-06,
+      "loss": -0.0148,
+      "num_tokens": 480459845.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15097682178020477,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 794
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3701.0,
+      "completions/mean_length": 878.4453735351562,
+      "completions/mean_terminated_length": 571.636962890625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.429154518950437,
+      "grad_norm": 0.1421203911304474,
+      "learning_rate": 1e-06,
+      "loss": -0.0547,
+      "num_tokens": 481013668.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.12639741599559784,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 795
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2733.0,
+      "completions/mean_length": 976.62841796875,
+      "completions/mean_terminated_length": 611.0162353515625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.438483965014577,
+      "grad_norm": 0.1589864194393158,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 481585231.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.18196998536586761,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 796
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2672.0,
+      "completions/mean_length": 912.03466796875,
+      "completions/mean_terminated_length": 604.1603393554688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.447813411078717,
+      "grad_norm": 0.1368117779493332,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 482161718.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.14304757118225098,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 797
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3448.0,
+      "completions/mean_length": 939.6920166015625,
+      "completions/mean_terminated_length": 604.5778198242188,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 7.457142857142857,
+      "grad_norm": 0.15140080451965332,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 482736066.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1773899644613266,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 798
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3427.0,
+      "completions/mean_length": 1114.0413818359375,
+      "completions/mean_terminated_length": 630.5849609375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.466472303206997,
+      "grad_norm": 0.13179807364940643,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 483319215.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.13891443610191345,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263834953308105,
+      "step": 799
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 946.8973388671875,
+      "completions/mean_terminated_length": 590.9118041992188,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 7.475801749271137,
+      "grad_norm": 0.17107652127742767,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 483882635.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.19941289722919464,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 800
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3279.0,
+      "completions/mean_length": 1010.6574096679688,
+      "completions/mean_terminated_length": 670.3903198242188,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 7.485131195335277,
+      "grad_norm": 0.16185325384140015,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 484522256.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17577597498893738,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 801
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3480.0,
+      "completions/mean_length": 1066.9140625,
+      "completions/mean_terminated_length": 647.3837280273438,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 7.494460641399417,
+      "grad_norm": 0.15170329809188843,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 485129419.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.14835071563720703,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 802
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2649.0,
+      "completions/mean_length": 894.8594360351562,
+      "completions/mean_terminated_length": 623.5762939453125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 7.503790087463557,
+      "grad_norm": 0.15010656416416168,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 485730149.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.16740237176418304,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 803
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2709.0,
+      "completions/mean_length": 890.7076416015625,
+      "completions/mean_terminated_length": 593.6317138671875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.513119533527696,
+      "grad_norm": 0.15986177325248718,
+      "learning_rate": 1e-06,
+      "loss": -0.0484,
+      "num_tokens": 486300647.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.16661594808101654,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 804
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3606.0,
+      "completions/mean_length": 1117.96435546875,
+      "completions/mean_terminated_length": 612.5535278320312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.522448979591837,
+      "grad_norm": 0.15698200464248657,
+      "learning_rate": 1e-06,
+      "loss": -0.0648,
+      "num_tokens": 486865943.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1582231968641281,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 805
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3951.0,
+      "completions/mean_length": 948.5022583007812,
+      "completions/mean_terminated_length": 618.6165161132812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 7.531778425655976,
+      "grad_norm": 0.14912272989749908,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 487468873.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.14699704945087433,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485536336898804,
+      "step": 806
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3478.0,
+      "completions/mean_length": 1049.2623291015625,
+      "completions/mean_terminated_length": 569.0271606445312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.541107871720117,
+      "grad_norm": 0.16505460441112518,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 488005620.0,
+      "reward": 0.6484375,
+      "reward_std": 0.15401659905910492,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 807
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3173.0,
+      "completions/mean_length": 1151.89404296875,
+      "completions/mean_terminated_length": 692.2335815429688,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.550437317784256,
+      "grad_norm": 0.13680331408977509,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 488626677.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16442997753620148,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 808
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2841.0,
+      "completions/mean_length": 1084.669677734375,
+      "completions/mean_terminated_length": 654.4795532226562,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 7.559766763848397,
+      "grad_norm": 0.14948244392871857,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 489246829.0,
+      "reward": 0.578125,
+      "reward_std": 0.15240715444087982,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 809
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3462.0,
+      "completions/mean_length": 1108.203125,
+      "completions/mean_terminated_length": 637.2584228515625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 7.569096209912536,
+      "grad_norm": 0.16127030551433563,
+      "learning_rate": 1e-06,
+      "loss": -0.076,
+      "num_tokens": 489815867.0,
+      "reward": 0.640625,
+      "reward_std": 0.18644899129867554,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 810
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2358.0,
+      "completions/mean_length": 928.7053833007812,
+      "completions/mean_terminated_length": 596.7447509765625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.578425655976677,
+      "grad_norm": 0.16200365126132965,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 490377411.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1679650843143463,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 811
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3646.0,
+      "completions/mean_length": 956.8906860351562,
+      "completions/mean_terminated_length": 649.1348266601562,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 7.587755102040816,
+      "grad_norm": 0.12454048544168472,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 490991617.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.14545612037181854,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 812
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3928.0,
+      "completions/mean_length": 1027.6195068359375,
+      "completions/mean_terminated_length": 624.7007446289062,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.597084548104956,
+      "grad_norm": 0.14836883544921875,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 491577972.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.18663373589515686,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 813
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2695.0,
+      "completions/mean_length": 1121.5546875,
+      "completions/mean_terminated_length": 621.2894287109375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 7.606413994169096,
+      "grad_norm": 0.18633154034614563,
+      "learning_rate": 1e-06,
+      "loss": -0.0179,
+      "num_tokens": 492141813.0,
+      "reward": 0.609375,
+      "reward_std": 0.17071063816547394,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 814
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 956.44873046875,
+      "completions/mean_terminated_length": 627.3958129882812,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 7.615743440233236,
+      "grad_norm": 0.16072827577590942,
+      "learning_rate": 1e-06,
+      "loss": -0.0588,
+      "num_tokens": 492739071.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.18648287653923035,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 815
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3915.0,
+      "completions/mean_length": 886.0926513671875,
+      "completions/mean_terminated_length": 614.0665893554688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.625072886297376,
+      "grad_norm": 0.15345019102096558,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 493325890.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.164046972990036,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 816
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3502.0,
+      "completions/mean_length": 981.4688110351562,
+      "completions/mean_terminated_length": 620.7571411132812,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 7.634402332361516,
+      "grad_norm": 0.1588490605354309,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 493919134.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.18077494204044342,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 817
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3265.0,
+      "completions/mean_length": 918.2210083007812,
+      "completions/mean_terminated_length": 648.917724609375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.643731778425656,
+      "grad_norm": 0.16136573255062103,
+      "learning_rate": 1e-06,
+      "loss": -0.0724,
+      "num_tokens": 494541580.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.19088450074195862,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 818
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3742.0,
+      "completions/mean_length": 996.8616333007812,
+      "completions/mean_terminated_length": 611.8995971679688,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.653061224489796,
+      "grad_norm": 0.15670543909072876,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 495118752.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17498251795768738,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 819
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3475.0,
+      "completions/mean_length": 1005.9107666015625,
+      "completions/mean_terminated_length": 595.7218627929688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 7.662390670553936,
+      "grad_norm": 0.17109698057174683,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 495677152.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.17333421111106873,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 820
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 954.2801513671875,
+      "completions/mean_terminated_length": 590.419677734375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 7.671720116618076,
+      "grad_norm": 0.14786724746227264,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 496238051.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14669284224510193,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 821
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 866.919677734375,
+      "completions/mean_terminated_length": 571.9367065429688,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 7.681049562682215,
+      "grad_norm": 0.14048032462596893,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 496801675.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1385781466960907,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 822
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3929.0,
+      "completions/mean_length": 1072.91748046875,
+      "completions/mean_terminated_length": 654.218505859375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 7.690379008746356,
+      "grad_norm": 0.15230326354503632,
+      "learning_rate": 1e-06,
+      "loss": -0.0728,
+      "num_tokens": 497405929.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.16943003237247467,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 823
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 959.2701416015625,
+      "completions/mean_terminated_length": 569.6386108398438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.699708454810495,
+      "grad_norm": 0.14827117323875427,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 497951419.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1420711725950241,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 824
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3848.0,
+      "completions/mean_length": 955.5826416015625,
+      "completions/mean_terminated_length": 617.861572265625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.709037900874636,
+      "grad_norm": 0.14377804100513458,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 498546669.0,
+      "reward": 0.6484375,
+      "reward_std": 0.17081871628761292,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 825
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3461.0,
+      "completions/mean_length": 1082.0413818359375,
+      "completions/mean_terminated_length": 633.8115844726562,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 7.718367346938775,
+      "grad_norm": 0.16568532586097717,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 499140690.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.18674391508102417,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 826
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3760.0,
+      "completions/mean_length": 1054.2801513671875,
+      "completions/mean_terminated_length": 592.9395751953125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.727696793002916,
+      "grad_norm": 0.13595949113368988,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 499691653.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.12351170182228088,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 827
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3704.0,
+      "completions/mean_length": 943.8839721679688,
+      "completions/mean_terminated_length": 604.90478515625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 7.737026239067055,
+      "grad_norm": 0.16388928890228271,
+      "learning_rate": 1e-06,
+      "loss": -0.0605,
+      "num_tokens": 500274757.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.15686701238155365,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 828
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2996.0,
+      "completions/mean_length": 952.0256958007812,
+      "completions/mean_terminated_length": 600.9615478515625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 7.746355685131196,
+      "grad_norm": 0.16453956067562103,
+      "learning_rate": 1e-06,
+      "loss": -0.0666,
+      "num_tokens": 500847628.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.180777445435524,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 829
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2568.0,
+      "completions/mean_length": 947.3672485351562,
+      "completions/mean_terminated_length": 600.1202392578125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 7.755685131195335,
+      "grad_norm": 0.13221710920333862,
+      "learning_rate": 1e-06,
+      "loss": -0.0525,
+      "num_tokens": 501424757.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1544366478919983,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 830
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2947.0,
+      "completions/mean_length": 926.2813110351562,
+      "completions/mean_terminated_length": 585.4091186523438,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 7.765014577259475,
+      "grad_norm": 0.15517419576644897,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 501984689.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15251775085926056,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 831
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3754.0,
+      "completions/mean_length": 1088.4866943359375,
+      "completions/mean_terminated_length": 650.0511474609375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.774344023323615,
+      "grad_norm": 0.14194026589393616,
+      "learning_rate": 1e-06,
+      "loss": -0.073,
+      "num_tokens": 502577317.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16360554099082947,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 832
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3930.0,
+      "completions/mean_length": 881.419677734375,
+      "completions/mean_terminated_length": 592.0291748046875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 7.783673469387755,
+      "grad_norm": 0.14261199533939362,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 503153469.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1510535031557083,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 833
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2533.0,
+      "completions/mean_length": 853.0892944335938,
+      "completions/mean_terminated_length": 582.5199584960938,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 7.793002915451895,
+      "grad_norm": 0.14982765913009644,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 503732093.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1487216204404831,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 834
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2622.0,
+      "completions/mean_length": 928.6406860351562,
+      "completions/mean_terminated_length": 605.2816772460938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 7.802332361516035,
+      "grad_norm": 0.14122828841209412,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 504311267.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13437014818191528,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 835
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3527.0,
+      "completions/mean_length": 897.83935546875,
+      "completions/mean_terminated_length": 639.3630981445312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.811661807580175,
+      "grad_norm": 0.14737960696220398,
+      "learning_rate": 1e-06,
+      "loss": -0.0332,
+      "num_tokens": 504925507.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.17051450908184052,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 836
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3887.0,
+      "completions/mean_length": 1123.3671875,
+      "completions/mean_terminated_length": 698.705322265625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.820991253644315,
+      "grad_norm": 0.16875937581062317,
+      "learning_rate": 1e-06,
+      "loss": -0.0858,
+      "num_tokens": 505573692.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1921621859073639,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 837
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4075.0,
+      "completions/mean_length": 1088.829345703125,
+      "completions/mean_terminated_length": 654.8441772460938,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.830320699708455,
+      "grad_norm": 0.14596500992774963,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 506188211.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1403786838054657,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 838
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3951.0,
+      "completions/mean_length": 911.4944458007812,
+      "completions/mean_terminated_length": 594.99755859375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.839650145772595,
+      "grad_norm": 0.16681191325187683,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 506752766.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.17607979476451874,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 839
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3154.0,
+      "completions/mean_length": 891.169677734375,
+      "completions/mean_terminated_length": 585.5745849609375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 7.848979591836734,
+      "grad_norm": 0.1402122974395752,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 507311742.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.13185353577136993,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 840
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2925.0,
+      "completions/mean_length": 894.12060546875,
+      "completions/mean_terminated_length": 601.6224365234375,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 7.858309037900875,
+      "grad_norm": 0.16580727696418762,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 507900634.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1437968611717224,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 841
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2631.0,
+      "completions/mean_length": 980.0725708007812,
+      "completions/mean_terminated_length": 614.8641357421875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.867638483965014,
+      "grad_norm": 0.16850878298282623,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 508474059.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1270802915096283,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 842
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3808.0,
+      "completions/mean_length": 956.6886596679688,
+      "completions/mean_terminated_length": 627.660888671875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.876967930029155,
+      "grad_norm": 0.15846849977970123,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 509081212.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1423000991344452,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 843
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2426.0,
+      "completions/mean_length": 929.9810791015625,
+      "completions/mean_terminated_length": 611.0454711914062,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 7.886297376093294,
+      "grad_norm": 0.1680334061384201,
+      "learning_rate": 1e-06,
+      "loss": -0.0267,
+      "num_tokens": 509670635.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.16912764310836792,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 844
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 939.5313110351562,
+      "completions/mean_terminated_length": 587.0719604492188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 7.895626822157435,
+      "grad_norm": 0.17341989278793335,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 510231503.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.16634997725486755,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 845
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 1057.036865234375,
+      "completions/mean_terminated_length": 675.2575073242188,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 7.904956268221574,
+      "grad_norm": 0.14785552024841309,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 510865960.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1853192150592804,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 846
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3074.0,
+      "completions/mean_length": 885.6998291015625,
+      "completions/mean_terminated_length": 609.4193725585938,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.914285714285715,
+      "grad_norm": 0.15614314377307892,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 511449739.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.17389945685863495,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 847
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2769.0,
+      "completions/mean_length": 889.2131958007812,
+      "completions/mean_terminated_length": 625.8538818359375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 7.923615160349854,
+      "grad_norm": 0.1569957733154297,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 512060186.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.18186120688915253,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 848
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3231.0,
+      "completions/mean_length": 1074.532470703125,
+      "completions/mean_terminated_length": 620.73046875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 7.932944606413994,
+      "grad_norm": 0.17628583312034607,
+      "learning_rate": 1e-06,
+      "loss": -0.0748,
+      "num_tokens": 512641135.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1797250658273697,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 849
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 1061.40625,
+      "completions/mean_terminated_length": 641.113037109375,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.942274052478134,
+      "grad_norm": 0.13701649010181427,
+      "learning_rate": 1e-06,
+      "loss": -0.0163,
+      "num_tokens": 513232811.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.13850146532058716,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 850
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2761.0,
+      "completions/mean_length": 1012.3660888671875,
+      "completions/mean_terminated_length": 624.974853515625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 7.9516034985422746,
+      "grad_norm": 0.13524264097213745,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 513826019.0,
+      "reward": 0.625,
+      "reward_std": 0.14522789418697357,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 851
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3675.0,
+      "completions/mean_length": 1089.794677734375,
+      "completions/mean_terminated_length": 695.0404052734375,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.960932944606414,
+      "grad_norm": 0.1434006541967392,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 514472227.0,
+      "reward": 0.625,
+      "reward_std": 0.14579172432422638,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 852
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3150.0,
+      "completions/mean_length": 914.6339721679688,
+      "completions/mean_terminated_length": 619.775634765625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 7.970262390670554,
+      "grad_norm": 0.15225620567798615,
+      "learning_rate": 1e-06,
+      "loss": -0.0328,
+      "num_tokens": 515071659.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16311517357826233,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 853
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3347.0,
+      "completions/mean_length": 840.1975708007812,
+      "completions/mean_terminated_length": 577.062744140625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.979591836734694,
+      "grad_norm": 0.14436179399490356,
+      "learning_rate": 1e-06,
+      "loss": -0.0283,
+      "num_tokens": 515630284.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.12388966977596283,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 854
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 1140.739990234375,
+      "completions/mean_terminated_length": 657.1519165039062,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 7.988921282798834,
+      "grad_norm": 0.15935580432415009,
+      "learning_rate": 1e-06,
+      "loss": -0.0915,
+      "num_tokens": 516236259.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.18130375444889069,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 855
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12215909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 1079.3494873046875,
+      "completions/mean_terminated_length": 659.556640625,
+      "completions/min_length": 197.0,
+      "completions/min_terminated_length": 197.0,
+      "epoch": 7.998250728862974,
+      "grad_norm": 0.13951878249645233,
+      "learning_rate": 1e-06,
+      "loss": -0.0402,
+      "num_tokens": 516816035.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12268754839897156,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 856
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3059.0,
+      "completions/mean_length": 1011.02685546875,
+      "completions/mean_terminated_length": 666.5508422851562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.00932944606414,
+      "grad_norm": 0.13932685554027557,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 517458219.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16044770181179047,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 857
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 890.1239013671875,
+      "completions/mean_terminated_length": 571.5030517578125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.018658892128279,
+      "grad_norm": 0.17174571752548218,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 518001610.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.1770561784505844,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3267.0,
+      "completions/mean_length": 1002.9766235351562,
+      "completions/mean_terminated_length": 631.813720703125,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 8.02798833819242,
+      "grad_norm": 0.1499703824520111,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 518598589.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.18280188739299774,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 859
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2968.0,
+      "completions/mean_length": 1118.2779541015625,
+      "completions/mean_terminated_length": 666.6439819335938,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 8.03731778425656,
+      "grad_norm": 0.14569251239299774,
+      "learning_rate": 1e-06,
+      "loss": -0.0815,
+      "num_tokens": 519218070.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.15518662333488464,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 860
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 1133.5101318359375,
+      "completions/mean_terminated_length": 731.7528686523438,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 8.0466472303207,
+      "grad_norm": 0.13986298441886902,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 519879759.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.16961227357387543,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3120.0,
+      "completions/mean_length": 964.02685546875,
+      "completions/mean_terminated_length": 618.6171264648438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.055976676384839,
+      "grad_norm": 0.17931996285915375,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 520466519.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16616523265838623,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 862
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3990.0,
+      "completions/mean_length": 1042.2757568359375,
+      "completions/mean_terminated_length": 662.954833984375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.06530612244898,
+      "grad_norm": 0.12542754411697388,
+      "learning_rate": 1e-06,
+      "loss": -0.0538,
+      "num_tokens": 521082614.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.13590925931930542,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 863
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 937.2422485351562,
+      "completions/mean_terminated_length": 597.548828125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 8.07463556851312,
+      "grad_norm": 0.13399145007133484,
+      "learning_rate": 1e-06,
+      "loss": -0.0628,
+      "num_tokens": 521657367.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15465529263019562,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 864
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2475.0,
+      "completions/mean_length": 808.9207763671875,
+      "completions/mean_terminated_length": 593.9512329101562,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.08396501457726,
+      "grad_norm": 0.1413942575454712,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 522247872.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.14496897161006927,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2676.0,
+      "completions/mean_length": 923.2199096679688,
+      "completions/mean_terminated_length": 607.8883666992188,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 8.093294460641399,
+      "grad_norm": 0.12779447436332703,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 522831477.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.12422778457403183,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 866
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3592.0,
+      "completions/mean_length": 1027.513427734375,
+      "completions/mean_terminated_length": 637.6804809570312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.102623906705539,
+      "grad_norm": 0.15007537603378296,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 523429225.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.15033742785453796,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 867
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 1025.3828125,
+      "completions/mean_terminated_length": 674.0186157226562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 8.11195335276968,
+      "grad_norm": 0.17137961089611053,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 524068352.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1593964546918869,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 868
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2846.0,
+      "completions/mean_length": 963.9844360351562,
+      "completions/mean_terminated_length": 605.5945434570312,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 8.12128279883382,
+      "grad_norm": 0.16211485862731934,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 524637394.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16142450273036957,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 869
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3241.0,
+      "completions/mean_length": 942.6730346679688,
+      "completions/mean_terminated_length": 581.8445434570312,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 8.130612244897959,
+      "grad_norm": 0.15985849499702454,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 525182429.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.18054740130901337,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 870
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2955.0,
+      "completions/mean_length": 986.5256958007812,
+      "completions/mean_terminated_length": 643.5972900390625,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 8.139941690962099,
+      "grad_norm": 0.14217232167720795,
+      "learning_rate": 1e-06,
+      "loss": -0.0844,
+      "num_tokens": 525786812.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.16668446362018585,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 871
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2696.0,
+      "completions/mean_length": 1080.0826416015625,
+      "completions/mean_terminated_length": 600.1889038085938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.14927113702624,
+      "grad_norm": 0.1697220504283905,
+      "learning_rate": 1e-06,
+      "loss": -0.0738,
+      "num_tokens": 526344566.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1651107668876648,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 872
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 856.2433471679688,
+      "completions/mean_terminated_length": 611.2196655273438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 8.15860058309038,
+      "grad_norm": 0.1487022340297699,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 526938784.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.14666074514389038,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 873
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3888.0,
+      "completions/mean_length": 1024.505615234375,
+      "completions/mean_terminated_length": 625.5598754882812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 8.167930029154519,
+      "grad_norm": 0.15943771600723267,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 527521397.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.1556737869977951,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 874
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3264.0,
+      "completions/mean_length": 1122.5279541015625,
+      "completions/mean_terminated_length": 689.0549926757812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 8.177259475218658,
+      "grad_norm": 0.15239205956459045,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 528162518.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.15913361310958862,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 875
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4073.0,
+      "completions/mean_length": 892.51123046875,
+      "completions/mean_terminated_length": 629.4226684570312,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.186588921282798,
+      "grad_norm": 0.13224801421165466,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 528766608.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.1366906315088272,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 876
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 976.4375610351562,
+      "completions/mean_terminated_length": 615.1431884765625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 8.19591836734694,
+      "grad_norm": 0.1724257469177246,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 529353984.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.19708172976970673,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 877
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3157.0,
+      "completions/mean_length": 933.1785888671875,
+      "completions/mean_terminated_length": 618.8367919921875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 8.205247813411079,
+      "grad_norm": 0.14418606460094452,
+      "learning_rate": 1e-06,
+      "loss": -0.032,
+      "num_tokens": 529939464.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14842739701271057,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 878
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 1099.208740234375,
+      "completions/mean_terminated_length": 701.4046020507812,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 8.214577259475218,
+      "grad_norm": 0.13870897889137268,
+      "learning_rate": 1e-06,
+      "loss": -0.0283,
+      "num_tokens": 530593155.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.14522859454154968,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 879
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1895.0,
+      "completions/mean_length": 900.935302734375,
+      "completions/mean_terminated_length": 561.7061767578125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.223906705539358,
+      "grad_norm": 0.1580512821674347,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 531126513.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.13650910556316376,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 880
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3835.0,
+      "completions/mean_length": 1087.5457763671875,
+      "completions/mean_terminated_length": 713.84814453125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 8.2332361516035,
+      "grad_norm": 0.13706760108470917,
+      "learning_rate": 1e-06,
+      "loss": -0.0669,
+      "num_tokens": 531777570.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16777077317237854,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 881
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3957.0,
+      "completions/mean_length": 1109.6171875,
+      "completions/mean_terminated_length": 700.3159790039062,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 8.242565597667639,
+      "grad_norm": 0.14511780440807343,
+      "learning_rate": 1e-06,
+      "loss": -0.0545,
+      "num_tokens": 532425203.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16134671866893768,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 882
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2641.0,
+      "completions/mean_length": 959.849365234375,
+      "completions/mean_terminated_length": 669.1817016601562,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 8.251895043731778,
+      "grad_norm": 0.14673292636871338,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 533065284.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1599598526954651,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 883
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3967.0,
+      "completions/mean_length": 970.5748291015625,
+      "completions/mean_terminated_length": 577.9334106445312,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 8.261224489795918,
+      "grad_norm": 0.15665669739246368,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 533615551.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.12633030116558075,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 1066.8382568359375,
+      "completions/mean_terminated_length": 602.9124755859375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.270553935860057,
+      "grad_norm": 0.15283460915088654,
+      "learning_rate": 1e-06,
+      "loss": -0.0633,
+      "num_tokens": 534173054.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.146736741065979,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 885
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3185.0,
+      "completions/mean_length": 1029.6429443359375,
+      "completions/mean_terminated_length": 653.0726928710938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.279883381924199,
+      "grad_norm": 0.1382666528224945,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 534788510.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14222271740436554,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 886
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2515.0,
+      "completions/mean_length": 974.20654296875,
+      "completions/mean_terminated_length": 621.3080444335938,
+      "completions/min_length": 195.0,
+      "completions/min_terminated_length": 195.0,
+      "epoch": 8.289212827988338,
+      "grad_norm": 0.14796394109725952,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 535388391.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15974049270153046,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 887
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2782.0,
+      "completions/mean_length": 965.3850708007812,
+      "completions/mean_terminated_length": 637.268798828125,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 8.298542274052478,
+      "grad_norm": 0.14198701083660126,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 535992056.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.14628097414970398,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.4642214775085449,
+      "step": 888
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3928.0,
+      "completions/mean_length": 1059.2265625,
+      "completions/mean_terminated_length": 651.7607421875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.307871720116617,
+      "grad_norm": 0.15404768288135529,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 536582691.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.17333492636680603,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 889
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3369.0,
+      "completions/mean_length": 1057.2890625,
+      "completions/mean_terminated_length": 662.6015014648438,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 8.317201166180759,
+      "grad_norm": 0.14827096462249756,
+      "learning_rate": 1e-06,
+      "loss": -0.0752,
+      "num_tokens": 537195238.0,
+      "reward": 0.65625,
+      "reward_std": 0.1644253432750702,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 890
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3633.0,
+      "completions/mean_length": 1000.193115234375,
+      "completions/mean_terminated_length": 628.6962280273438,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 8.326530612244898,
+      "grad_norm": 0.1479225754737854,
+      "learning_rate": 1e-06,
+      "loss": -0.0847,
+      "num_tokens": 537789555.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16781170666217804,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 891
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 980.4531860351562,
+      "completions/mean_terminated_length": 602.2202758789062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.335860058309038,
+      "grad_norm": 0.1485033631324768,
+      "learning_rate": 1e-06,
+      "loss": -0.0288,
+      "num_tokens": 538373777.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.13624738156795502,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 892
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2951.0,
+      "completions/mean_length": 966.2467041015625,
+      "completions/mean_terminated_length": 590.6762084960938,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 8.345189504373177,
+      "grad_norm": 0.16735050082206726,
+      "learning_rate": 1e-06,
+      "loss": -0.0834,
+      "num_tokens": 538934814.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.20016105473041534,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 893
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3791.0,
+      "completions/mean_length": 1043.130615234375,
+      "completions/mean_terminated_length": 650.9483642578125,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 8.354518950437317,
+      "grad_norm": 0.1467769593000412,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 539537531.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.17148950695991516,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 894
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3525.0,
+      "completions/mean_length": 1145.438720703125,
+      "completions/mean_terminated_length": 671.5142211914062,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.363848396501458,
+      "grad_norm": 0.14385691285133362,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 540146740.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.13940230011940002,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 895
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3657.0,
+      "completions/mean_length": 1022.89404296875,
+      "completions/mean_terminated_length": 662.7045288085938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.373177842565598,
+      "grad_norm": 0.16795089840888977,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 540773573.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.15405797958374023,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 896
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2947.0,
+      "completions/mean_length": 948.6451416015625,
+      "completions/mean_terminated_length": 623.056640625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.382507288629737,
+      "grad_norm": 0.18909591436386108,
+      "learning_rate": 1e-06,
+      "loss": -0.0576,
+      "num_tokens": 541372095.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1716078370809555,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 897
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4077.0,
+      "completions/mean_length": 1079.368408203125,
+      "completions/mean_terminated_length": 687.5485229492188,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 8.391836734693877,
+      "grad_norm": 0.1608656495809555,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 542007641.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.16751113533973694,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 898
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3159.0,
+      "completions/mean_length": 955.7835083007812,
+      "completions/mean_terminated_length": 565.7189331054688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.401166180758018,
+      "grad_norm": 0.15515096485614777,
+      "learning_rate": 1e-06,
+      "loss": -0.0765,
+      "num_tokens": 542550167.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.15199598670005798,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 899
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 1041.946533203125,
+      "completions/mean_terminated_length": 618.9580688476562,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.410495626822158,
+      "grad_norm": 0.15280771255493164,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 543124791.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15428578853607178,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 900
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2845.0,
+      "completions/mean_length": 1075.680908203125,
+      "completions/mean_terminated_length": 657.3646240234375,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 8.419825072886297,
+      "grad_norm": 0.13621953129768372,
+      "learning_rate": 1e-06,
+      "loss": -0.0749,
+      "num_tokens": 543726569.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1771642565727234,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 901
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 1058.76123046875,
+      "completions/mean_terminated_length": 659.9318237304688,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.429154518950437,
+      "grad_norm": 0.15349024534225464,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 544336787.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.15018658339977264,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 902
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 1085.1942138671875,
+      "completions/mean_terminated_length": 655.0790405273438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 8.438483965014576,
+      "grad_norm": 0.14632688462734222,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 544941233.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16833347082138062,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 903
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2572.0,
+      "completions/mean_length": 985.5234985351562,
+      "completions/mean_terminated_length": 620.953857421875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 8.447813411078718,
+      "grad_norm": 0.14520664513111115,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 545524070.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.14053022861480713,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 904
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2956.0,
+      "completions/mean_length": 1054.626220703125,
+      "completions/mean_terminated_length": 655.2537841796875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 8.457142857142857,
+      "grad_norm": 0.16137388348579407,
+      "learning_rate": 1e-06,
+      "loss": -0.0627,
+      "num_tokens": 546131503.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.173787459731102,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 905
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3783.0,
+      "completions/mean_length": 922.6082763671875,
+      "completions/mean_terminated_length": 620.0110473632812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.466472303206997,
+      "grad_norm": 0.13741783797740936,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 546728960.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.13437014818191528,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 906
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3915.0,
+      "completions/mean_length": 994.5513916015625,
+      "completions/mean_terminated_length": 613.6716918945312,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 8.475801749271136,
+      "grad_norm": 0.15759779512882233,
+      "learning_rate": 1e-06,
+      "loss": -0.0758,
+      "num_tokens": 547301062.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.1476346254348755,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 907
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4003.0,
+      "completions/mean_length": 989.3359985351562,
+      "completions/mean_terminated_length": 603.4391479492188,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 8.485131195335278,
+      "grad_norm": 0.1323668658733368,
+      "learning_rate": 1e-06,
+      "loss": -0.0483,
+      "num_tokens": 547873571.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.13962869346141815,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 908
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 1045.9788818359375,
+      "completions/mean_terminated_length": 623.5488891601562,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.494460641399417,
+      "grad_norm": 0.16331632435321808,
+      "learning_rate": 1e-06,
+      "loss": -0.087,
+      "num_tokens": 548451664.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1713361293077469,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 909
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3817.0,
+      "completions/mean_length": 1083.09716796875,
+      "completions/mean_terminated_length": 643.8759765625,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 8.503790087463557,
+      "grad_norm": 0.14266420900821686,
+      "learning_rate": 1e-06,
+      "loss": -0.042,
+      "num_tokens": 549048767.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1524856686592102,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 910
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3673.0,
+      "completions/mean_length": 1160.0,
+      "completions/mean_terminated_length": 634.6105346679688,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 8.513119533527696,
+      "grad_norm": 0.1584021896123886,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 549627743.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.172020822763443,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 911
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3202.0,
+      "completions/mean_length": 1042.6976318359375,
+      "completions/mean_terminated_length": 619.8131713867188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.522448979591836,
+      "grad_norm": 0.1526673585176468,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 550215288.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.152593731880188,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 912
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3151.0,
+      "completions/mean_length": 919.583740234375,
+      "completions/mean_terminated_length": 564.8970336914062,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 8.531778425655977,
+      "grad_norm": 0.15874874591827393,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 550760323.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.1521807461977005,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.4407196640968323,
+      "step": 913
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2391.0,
+      "completions/mean_length": 977.4375610351562,
+      "completions/mean_terminated_length": 576.8161010742188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 8.541107871720117,
+      "grad_norm": 0.1279672384262085,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 551298499.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.10761747509241104,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3814.0,
+      "completions/mean_length": 990.1819458007812,
+      "completions/mean_terminated_length": 639.0894165039062,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.550437317784256,
+      "grad_norm": 0.14278873801231384,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 551898102.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13508442044258118,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3437.0,
+      "completions/mean_length": 927.779052734375,
+      "completions/mean_terminated_length": 595.7213134765625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 8.559766763848396,
+      "grad_norm": 0.13501763343811035,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 552465536.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12290509790182114,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 916
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1618303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3809.0,
+      "completions/mean_length": 1239.4007568359375,
+      "completions/mean_terminated_length": 687.8601684570312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 8.569096209912537,
+      "grad_norm": 0.16332502663135529,
+      "learning_rate": 1e-06,
+      "loss": -0.0709,
+      "num_tokens": 553058463.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.1736719310283661,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 917
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3247.0,
+      "completions/mean_length": 901.2913208007812,
+      "completions/mean_terminated_length": 600.93408203125,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 8.578425655976677,
+      "grad_norm": 0.16154848039150238,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 553636180.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.1675432324409485,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 918
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 1032.0413818359375,
+      "completions/mean_terminated_length": 672.9239501953125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 8.587755102040816,
+      "grad_norm": 0.1495819091796875,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 554257025.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.17641358077526093,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 919
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3748.0,
+      "completions/mean_length": 1161.114990234375,
+      "completions/mean_terminated_length": 654.0405883789062,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 8.597084548104956,
+      "grad_norm": 0.13234129548072815,
+      "learning_rate": 1e-06,
+      "loss": -0.0768,
+      "num_tokens": 554849768.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1488724797964096,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 920
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2974.0,
+      "completions/mean_length": 886.1417846679688,
+      "completions/mean_terminated_length": 588.6427001953125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 8.606413994169095,
+      "grad_norm": 0.13144135475158691,
+      "learning_rate": 1e-06,
+      "loss": -0.0466,
+      "num_tokens": 555423847.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.12377272546291351,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 921
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 880.8147583007812,
+      "completions/mean_terminated_length": 591.3698120117188,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 8.615743440233237,
+      "grad_norm": 0.15162374079227448,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 556000081.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.17209568619728088,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 922
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3887.0,
+      "completions/mean_length": 1095.3616943359375,
+      "completions/mean_terminated_length": 631.3453369140625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.625072886297376,
+      "grad_norm": 0.17637977004051208,
+      "learning_rate": 1e-06,
+      "loss": -0.073,
+      "num_tokens": 556579301.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.18115399777889252,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3240.0,
+      "completions/mean_length": 1066.2232666015625,
+      "completions/mean_terminated_length": 606.694091796875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 8.634402332361516,
+      "grad_norm": 0.15288929641246796,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 557151101.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1478992998600006,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3440.0,
+      "completions/mean_length": 1001.25341796875,
+      "completions/mean_terminated_length": 634.2109985351562,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 8.643731778425655,
+      "grad_norm": 0.135414257645607,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 557742960.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.13286243379116058,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 925
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 1092.5357666015625,
+      "completions/mean_terminated_length": 601.0597534179688,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.653061224489797,
+      "grad_norm": 0.16886992752552032,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 558302144.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.14358071982860565,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 926
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3347.0,
+      "completions/mean_length": 993.3828735351562,
+      "completions/mean_terminated_length": 616.7196655273438,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 8.662390670553936,
+      "grad_norm": 0.1313415765762329,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 558885919.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.11460563540458679,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 927
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2960.0,
+      "completions/mean_length": 1058.7254638671875,
+      "completions/mean_terminated_length": 629.2509765625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 8.671720116618076,
+      "grad_norm": 0.1457333117723465,
+      "learning_rate": 1e-06,
+      "loss": -0.0664,
+      "num_tokens": 559478993.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.12892180681228638,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 928
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2272.0,
+      "completions/mean_length": 1036.3695068359375,
+      "completions/mean_terminated_length": 621.4385375976562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.681049562682215,
+      "grad_norm": 0.13202376663684845,
+      "learning_rate": 1e-06,
+      "loss": -0.0579,
+      "num_tokens": 560060044.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11727311462163925,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 929
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2738.0,
+      "completions/mean_length": 1036.28125,
+      "completions/mean_terminated_length": 643.2191162109375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.690379008746355,
+      "grad_norm": 0.15420278906822205,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 560661512.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.15390601754188538,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 930
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 1060.3326416015625,
+      "completions/mean_terminated_length": 683.2546997070312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.699708454810496,
+      "grad_norm": 0.1317526251077652,
+      "learning_rate": 1e-06,
+      "loss": -0.0689,
+      "num_tokens": 561295074.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.139630526304245,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 931
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2959.0,
+      "completions/mean_length": 990.0234985351562,
+      "completions/mean_terminated_length": 599.8253784179688,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 8.709037900874636,
+      "grad_norm": 0.15937726199626923,
+      "learning_rate": 1e-06,
+      "loss": -0.0523,
+      "num_tokens": 561856855.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.15830057859420776,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 932
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3629.0,
+      "completions/mean_length": 981.9230346679688,
+      "completions/mean_terminated_length": 616.9314575195312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 8.718367346938775,
+      "grad_norm": 0.1484292596578598,
+      "learning_rate": 1e-06,
+      "loss": -0.0648,
+      "num_tokens": 562450514.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.17348577082157135,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 933
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3364.0,
+      "completions/mean_length": 1076.6317138671875,
+      "completions/mean_terminated_length": 614.2059326171875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 8.727696793002915,
+      "grad_norm": 0.14339610934257507,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 563016672.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.14124813675880432,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3372.0,
+      "completions/mean_length": 1001.9810791015625,
+      "completions/mean_terminated_length": 604.5125732421875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.737026239067056,
+      "grad_norm": 0.13736626505851746,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 563577575.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.15360291302204132,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 935
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3566.0,
+      "completions/mean_length": 951.6707763671875,
+      "completions/mean_terminated_length": 574.3512573242188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 8.746355685131196,
+      "grad_norm": 0.16429510712623596,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 564139832.0,
+      "reward": 0.6640625,
+      "reward_std": 0.11840036511421204,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 936
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2883.0,
+      "completions/mean_length": 989.630615234375,
+      "completions/mean_terminated_length": 590.5755615234375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 8.755685131195335,
+      "grad_norm": 0.14231492578983307,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 564696685.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.11355367302894592,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 937
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3315.0,
+      "completions/mean_length": 839.708740234375,
+      "completions/mean_terminated_length": 593.4345703125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.765014577259475,
+      "grad_norm": 0.15080682933330536,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 565272048.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14496898651123047,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 938
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3488.0,
+      "completions/mean_length": 1076.8873291015625,
+      "completions/mean_terminated_length": 627.8910522460938,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 8.774344023323614,
+      "grad_norm": 0.16189219057559967,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 565847451.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.1530490666627884,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 939
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2843.0,
+      "completions/mean_length": 1000.9832763671875,
+      "completions/mean_terminated_length": 616.5332641601562,
+      "completions/min_length": 210.0,
+      "completions/min_terminated_length": 210.0,
+      "epoch": 8.783673469387756,
+      "grad_norm": 0.17406950891017914,
+      "learning_rate": 1e-06,
+      "loss": -0.0805,
+      "num_tokens": 566426276.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.15390713512897491,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 940
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3325.0,
+      "completions/mean_length": 1090.3070068359375,
+      "completions/mean_terminated_length": 660.9221801757812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 8.793002915451895,
+      "grad_norm": 0.1804381161928177,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 567034839.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.16622982919216156,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865824937820435,
+      "step": 941
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2670.0,
+      "completions/mean_length": 1041.782470703125,
+      "completions/mean_terminated_length": 623.1840209960938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.802332361516035,
+      "grad_norm": 0.1717265546321869,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 567609916.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15428438782691956,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 942
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2995.0,
+      "completions/mean_length": 1010.8906860351562,
+      "completions/mean_terminated_length": 627.6712646484375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 8.811661807580174,
+      "grad_norm": 0.14452873170375824,
+      "learning_rate": 1e-06,
+      "loss": -0.0447,
+      "num_tokens": 568191546.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1295548528432846,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 943
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 1058.891845703125,
+      "completions/mean_terminated_length": 611.686279296875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 8.820991253644316,
+      "grad_norm": 0.15940111875534058,
+      "learning_rate": 1e-06,
+      "loss": -0.0732,
+      "num_tokens": 568745809.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.15954771637916565,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 944
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 1088.5,
+      "completions/mean_terminated_length": 632.349609375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 8.830320699708455,
+      "grad_norm": 0.15225429832935333,
+      "learning_rate": 1e-06,
+      "loss": -0.0644,
+      "num_tokens": 569326577.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.13914015889167786,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 945
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3833.0,
+      "completions/mean_length": 1053.805908203125,
+      "completions/mean_terminated_length": 662.9949340820312,
+      "completions/min_length": 79.0,
+      "completions/min_terminated_length": 79.0,
+      "epoch": 8.839650145772595,
+      "grad_norm": 0.145501971244812,
+      "learning_rate": 1e-06,
+      "loss": -0.0939,
+      "num_tokens": 569943579.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16461333632469177,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 946
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4038.0,
+      "completions/mean_length": 940.4944458007812,
+      "completions/mean_terminated_length": 631.1311645507812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 8.848979591836734,
+      "grad_norm": 0.15688036382198334,
+      "learning_rate": 1e-06,
+      "loss": -0.0353,
+      "num_tokens": 570559670.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.16416826844215393,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 947
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2896.0,
+      "completions/mean_length": 973.0938110351562,
+      "completions/mean_terminated_length": 607.0673828125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 8.858309037900874,
+      "grad_norm": 0.12668636441230774,
+      "learning_rate": 1e-06,
+      "loss": -0.0318,
+      "num_tokens": 571135250.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.11265214532613754,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 948
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2580.0,
+      "completions/mean_length": 988.6160888671875,
+      "completions/mean_terminated_length": 602.6298828125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 8.867638483965015,
+      "grad_norm": 0.1370144933462143,
+      "learning_rate": 1e-06,
+      "loss": -0.0709,
+      "num_tokens": 571715330.0,
+      "reward": 0.6484375,
+      "reward_std": 0.12681996822357178,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 949
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3445.0,
+      "completions/mean_length": 957.7745971679688,
+      "completions/mean_terminated_length": 615.9876098632812,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 8.876967930029155,
+      "grad_norm": 0.14461150765419006,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 572313184.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.13978135585784912,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 950
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2239.0,
+      "completions/mean_length": 814.2767944335938,
+      "completions/mean_terminated_length": 587.1408081054688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 8.886297376093294,
+      "grad_norm": 0.13550324738025665,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 572904224.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.11930190026760101,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 951
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3672.0,
+      "completions/mean_length": 1096.6820068359375,
+      "completions/mean_terminated_length": 663.8301391601562,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 8.895626822157434,
+      "grad_norm": 0.1618662327528,
+      "learning_rate": 1e-06,
+      "loss": -0.038,
+      "num_tokens": 573518075.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.14755979180335999,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 952
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 941.6395263671875,
+      "completions/mean_terminated_length": 576.3150634765625,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 8.904956268221575,
+      "grad_norm": 0.14199386537075043,
+      "learning_rate": 1e-06,
+      "loss": -0.0484,
+      "num_tokens": 574062040.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14120285212993622,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 953
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3893.0,
+      "completions/mean_length": 1111.421875,
+      "completions/mean_terminated_length": 645.442626953125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.914285714285715,
+      "grad_norm": 0.1356530487537384,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 574656658.0,
+      "reward": 0.6015625,
+      "reward_std": 0.13365407288074493,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 954
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3961.0,
+      "completions/mean_length": 894.9063110351562,
+      "completions/mean_terminated_length": 563.7586059570312,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 8.923615160349854,
+      "grad_norm": 0.15970854461193085,
+      "learning_rate": 1e-06,
+      "loss": -0.0709,
+      "num_tokens": 575194918.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.17874614894390106,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 955
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 923.58154296875,
+      "completions/mean_terminated_length": 608.285888671875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 8.932944606413994,
+      "grad_norm": 0.14851707220077515,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 575775175.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1468462347984314,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 956
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2820.0,
+      "completions/mean_length": 842.3984985351562,
+      "completions/mean_terminated_length": 566.6694946289062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.942274052478133,
+      "grad_norm": 0.13951444625854492,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 576338212.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.10900939255952835,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 957
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2772.0,
+      "completions/mean_length": 1081.107177734375,
+      "completions/mean_terminated_length": 628.292724609375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 8.951603498542275,
+      "grad_norm": 0.14739088714122772,
+      "learning_rate": 1e-06,
+      "loss": -0.0955,
+      "num_tokens": 576913956.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.14612942934036255,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 958
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3608.0,
+      "completions/mean_length": 984.8538208007812,
+      "completions/mean_terminated_length": 633.1589965820312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.960932944606414,
+      "grad_norm": 0.15532374382019043,
+      "learning_rate": 1e-06,
+      "loss": -0.075,
+      "num_tokens": 577514209.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.16710561513900757,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 959
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3354.0,
+      "completions/mean_length": 916.591552734375,
+      "completions/mean_terminated_length": 600.6011962890625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 8.970262390670554,
+      "grad_norm": 0.15074577927589417,
+      "learning_rate": 1e-06,
+      "loss": -0.0322,
+      "num_tokens": 578094619.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.149967223405838,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 960
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3248.0,
+      "completions/mean_length": 953.0324096679688,
+      "completions/mean_terminated_length": 589.0274047851562,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 8.979591836734693,
+      "grad_norm": 0.15810492634773254,
+      "learning_rate": 1e-06,
+      "loss": -0.0268,
+      "num_tokens": 578654120.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1635284423828125,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 961
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3638.0,
+      "completions/mean_length": 946.5714721679688,
+      "completions/mean_terminated_length": 620.7684326171875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 8.988921282798835,
+      "grad_norm": 0.1356414407491684,
+      "learning_rate": 1e-06,
+      "loss": -0.0289,
+      "num_tokens": 579238560.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.12805598974227905,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 962
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.13920454545454541,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2054.0,
+      "completions/mean_length": 1050.5284423828125,
+      "completions/mean_terminated_length": 558.0264282226562,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.998250728862974,
+      "grad_norm": 0.18298207223415375,
+      "learning_rate": 1e-06,
+      "loss": -0.065,
+      "num_tokens": 579789177.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.16687063872814178,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 963
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2618.0,
+      "completions/mean_length": 972.9933471679688,
+      "completions/mean_terminated_length": 585.0664672851562,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.00932944606414,
+      "grad_norm": 0.15523745119571686,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 580351363.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14560768008232117,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 964
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4073.0,
+      "completions/mean_length": 887.1551513671875,
+      "completions/mean_terminated_length": 572.5625,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 9.018658892128279,
+      "grad_norm": 0.15685448050498962,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 580909758.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.14154870808124542,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 965
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3945.0,
+      "completions/mean_length": 972.3917846679688,
+      "completions/mean_terminated_length": 593.1802368164062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.02798833819242,
+      "grad_norm": 0.178028404712677,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 581468021.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.16153329610824585,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 966
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3448.0,
+      "completions/mean_length": 1097.497802734375,
+      "completions/mean_terminated_length": 647.1450805664062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 9.03731778425656,
+      "grad_norm": 0.15089108049869537,
+      "learning_rate": 1e-06,
+      "loss": -0.0612,
+      "num_tokens": 582057803.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1355287879705429,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3528.0,
+      "completions/mean_length": 998.1819458007812,
+      "completions/mean_terminated_length": 600.2254028320312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.0466472303207,
+      "grad_norm": 0.14580699801445007,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 582621286.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1343708485364914,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140389680862427,
+      "step": 968
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3477.0,
+      "completions/mean_length": 984.7433471679688,
+      "completions/mean_terminated_length": 628.7288208007812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.055976676384839,
+      "grad_norm": 0.13815997540950775,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 583227464.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.123772032558918,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 969
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3871.0,
+      "completions/mean_length": 997.9085083007812,
+      "completions/mean_terminated_length": 617.4411010742188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.06530612244898,
+      "grad_norm": 0.145284503698349,
+      "learning_rate": 1e-06,
+      "loss": -0.0444,
+      "num_tokens": 583809254.0,
+      "reward": 0.6640625,
+      "reward_std": 0.13031119108200073,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 970
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2427.0,
+      "completions/mean_length": 934.224365234375,
+      "completions/mean_terminated_length": 545.9360961914062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.07463556851312,
+      "grad_norm": 0.12844471633434296,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 584332151.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.123467817902565,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 971
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3587.0,
+      "completions/mean_length": 975.00341796875,
+      "completions/mean_terminated_length": 604.84765625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 9.08396501457726,
+      "grad_norm": 0.15664070844650269,
+      "learning_rate": 1e-06,
+      "loss": -0.077,
+      "num_tokens": 584904626.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.171934574842453,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 972
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 899.5781860351562,
+      "completions/mean_terminated_length": 586.2034301757812,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 9.093294460641399,
+      "grad_norm": 0.1798233985900879,
+      "learning_rate": 1e-06,
+      "loss": -0.0615,
+      "num_tokens": 585475168.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.18013733625411987,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 973
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3997.0,
+      "completions/mean_length": 990.6551513671875,
+      "completions/mean_terminated_length": 622.3557739257812,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 9.102623906705539,
+      "grad_norm": 0.13798296451568604,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 586065595.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.11802057921886444,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 974
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3365.0,
+      "completions/mean_length": 993.857177734375,
+      "completions/mean_terminated_length": 550.69384765625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.11195335276968,
+      "grad_norm": 0.16385027766227722,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 586580067.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.13061749935150146,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 975
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3586.0,
+      "completions/mean_length": 1059.05810546875,
+      "completions/mean_terminated_length": 647.2040405273438,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 9.12128279883382,
+      "grad_norm": 0.14419133961200714,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 587181055.0,
+      "reward": 0.640625,
+      "reward_std": 0.14789538085460663,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4039.0,
+      "completions/mean_length": 993.294677734375,
+      "completions/mean_terminated_length": 633.95263671875,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 9.130612244897959,
+      "grad_norm": 0.15172715485095978,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 587784871.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.17325752973556519,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 977
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3393.0,
+      "completions/mean_length": 911.1183471679688,
+      "completions/mean_terminated_length": 624.4014282226562,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 9.139941690962099,
+      "grad_norm": 0.1590283066034317,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 588378329.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.14920946955680847,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461273193359375,
+      "step": 978
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3390.0,
+      "completions/mean_length": 1045.560302734375,
+      "completions/mean_terminated_length": 640.6346435546875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.14927113702624,
+      "grad_norm": 0.15851905941963196,
+      "learning_rate": 1e-06,
+      "loss": -0.0494,
+      "num_tokens": 588984543.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.15067513287067413,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 979
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3693.0,
+      "completions/mean_length": 1075.0101318359375,
+      "completions/mean_terminated_length": 553.0588989257812,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 9.15860058309038,
+      "grad_norm": 0.15591056644916534,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 589490032.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.10780616104602814,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 980
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3340.0,
+      "completions/mean_length": 951.4553833007812,
+      "completions/mean_terminated_length": 617.5901489257812,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 9.167930029154519,
+      "grad_norm": 0.15840359032154083,
+      "learning_rate": 1e-06,
+      "loss": -0.0271,
+      "num_tokens": 590083664.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.15300628542900085,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 981
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4037.0,
+      "completions/mean_length": 880.911865234375,
+      "completions/mean_terminated_length": 591.4756469726562,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 9.177259475218658,
+      "grad_norm": 0.15357515215873718,
+      "learning_rate": 1e-06,
+      "loss": -0.0498,
+      "num_tokens": 590655937.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.16781355440616608,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 982
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 945.779052734375,
+      "completions/mean_terminated_length": 615.6078491210938,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 9.186588921282798,
+      "grad_norm": 0.13610170781612396,
+      "learning_rate": 1e-06,
+      "loss": -0.0827,
+      "num_tokens": 591243235.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.15773534774780273,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 983
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3086.0,
+      "completions/mean_length": 1023.2701416015625,
+      "completions/mean_terminated_length": 619.7802734375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 9.19591836734694,
+      "grad_norm": 0.16177140176296234,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 591826621.0,
+      "reward": 0.6484375,
+      "reward_std": 0.15044620633125305,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 984
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 1004.0803833007812,
+      "completions/mean_terminated_length": 645.987548828125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.205247813411079,
+      "grad_norm": 0.16494090855121613,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 592430781.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.15886442363262177,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 985
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3912.0,
+      "completions/mean_length": 1041.2054443359375,
+      "completions/mean_terminated_length": 600.3473510742188,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 9.214577259475218,
+      "grad_norm": 0.18257379531860352,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 592994245.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16529759764671326,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 986
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2958.0,
+      "completions/mean_length": 966.20654296875,
+      "completions/mean_terminated_length": 555.2235107421875,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 9.223906705539358,
+      "grad_norm": 0.1816340833902359,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 593528862.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.16638389229774475,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 987
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3838.0,
+      "completions/mean_length": 878.8092041015625,
+      "completions/mean_terminated_length": 589.1837158203125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 9.2332361516035,
+      "grad_norm": 0.16462019085884094,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 594104987.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.15113018453121185,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 988
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3998.0,
+      "completions/mean_length": 1006.1194458007812,
+      "completions/mean_terminated_length": 673.8331298828125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.242565597667639,
+      "grad_norm": 0.14079514145851135,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 594741406.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.1510860174894333,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 989
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3574.0,
+      "completions/mean_length": 1008.3270263671875,
+      "completions/mean_terminated_length": 633.4780883789062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.251895043731778,
+      "grad_norm": 0.15933242440223694,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 595333539.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16033892333507538,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 990
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3410.0,
+      "completions/mean_length": 902.9185791015625,
+      "completions/mean_terminated_length": 563.9000244140625,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 9.261224489795918,
+      "grad_norm": 0.14286759495735168,
+      "learning_rate": 1e-06,
+      "loss": -0.0744,
+      "num_tokens": 595872562.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.13868620991706848,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 991
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2865.0,
+      "completions/mean_length": 930.0324096679688,
+      "completions/mean_terminated_length": 632.3773193359375,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 9.270553935860057,
+      "grad_norm": 0.15137651562690735,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 596475951.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.16093626618385315,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957791805267334,
+      "step": 992
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2948.0,
+      "completions/mean_length": 1091.102783203125,
+      "completions/mean_terminated_length": 653.048583984375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 9.279883381924199,
+      "grad_norm": 0.1477823704481125,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 597079171.0,
+      "reward": 0.5859375,
+      "reward_std": 0.17743414640426636,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 993
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3348.0,
+      "completions/mean_length": 944.5167846679688,
+      "completions/mean_terminated_length": 605.6056518554688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 9.289212827988338,
+      "grad_norm": 0.15418857336044312,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 597657330.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1562725007534027,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 994
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3086.0,
+      "completions/mean_length": 887.7857666015625,
+      "completions/mean_terminated_length": 581.8679809570312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 9.298542274052478,
+      "grad_norm": 0.13969087600708008,
+      "learning_rate": 1e-06,
+      "loss": -0.0529,
+      "num_tokens": 598215602.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14139717817306519,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 995
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2832.0,
+      "completions/mean_length": 1043.700927734375,
+      "completions/mean_terminated_length": 629.7642822265625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.307871720116617,
+      "grad_norm": 0.17577214539051056,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 598805894.0,
+      "reward": 0.6171875,
+      "reward_std": 0.16912440955638885,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 996
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 968.3326416015625,
+      "completions/mean_terminated_length": 619.08935546875,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 9.317201166180759,
+      "grad_norm": 0.15717150270938873,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 599390224.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.14199700951576233,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3780.0,
+      "completions/mean_length": 914.9989013671875,
+      "completions/mean_terminated_length": 568.55322265625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.326530612244898,
+      "grad_norm": 0.155115008354187,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 599939559.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.13861344754695892,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 998
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2181.0,
+      "completions/mean_length": 875.2053833007812,
+      "completions/mean_terminated_length": 580.9793090820312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 9.335860058309038,
+      "grad_norm": 0.14764153957366943,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 600498183.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14815779030323029,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 999
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3025.0,
+      "completions/mean_length": 1081.6707763671875,
+      "completions/mean_terminated_length": 597.5038452148438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 9.345189504373177,
+      "grad_norm": 0.1988637000322342,
+      "learning_rate": 1e-06,
+      "loss": -0.045,
+      "num_tokens": 601049440.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1542869210243225,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 1000
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 1033.6529541015625,
+      "completions/mean_terminated_length": 605.0801391601562,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 9.354518950437317,
+      "grad_norm": 0.1638064831495285,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 601605289.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.14016184210777283,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 1007.7277221679688,
+      "completions/mean_terminated_length": 671.3811645507812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.363848396501458,
+      "grad_norm": 0.14289306104183197,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 602243333.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1544705480337143,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1002
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3500.0,
+      "completions/mean_length": 923.786865234375,
+      "completions/mean_terminated_length": 586.9839477539062,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.373177842565598,
+      "grad_norm": 0.1334981769323349,
+      "learning_rate": 1e-06,
+      "loss": -0.0433,
+      "num_tokens": 602804630.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.13324038684368134,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1003
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2325.0,
+      "completions/mean_length": 769.4553833007812,
+      "completions/mean_terminated_length": 556.114013671875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 9.382507288629737,
+      "grad_norm": 0.19102612137794495,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 603362878.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.17882463335990906,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1004
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2919.0,
+      "completions/mean_length": 863.1652221679688,
+      "completions/mean_terminated_length": 572.1314086914062,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 9.391836734693877,
+      "grad_norm": 0.14407780766487122,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 603923746.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.10870447009801865,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1005
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4073.0,
+      "completions/mean_length": 919.1920166015625,
+      "completions/mean_terminated_length": 546.847900390625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 9.401166180758018,
+      "grad_norm": 0.15340860188007355,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 604459990.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.11930259317159653,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1006
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 853.9074096679688,
+      "completions/mean_terminated_length": 566.3341674804688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 9.410495626822158,
+      "grad_norm": 0.13971778750419617,
+      "learning_rate": 1e-06,
+      "loss": -0.0244,
+      "num_tokens": 605015131.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.11362994462251663,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1007
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 930.2623291015625,
+      "completions/mean_terminated_length": 624.1505737304688,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 9.419825072886297,
+      "grad_norm": 0.164055734872818,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 605610910.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.14910070598125458,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1008
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 871.5938110351562,
+      "completions/mean_terminated_length": 533.6473388671875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.429154518950437,
+      "grad_norm": 0.16293291747570038,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 606123970.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.12050722539424896,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1009
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3698.0,
+      "completions/mean_length": 1076.46435546875,
+      "completions/mean_terminated_length": 692.8502807617188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 9.438483965014576,
+      "grad_norm": 0.17608752846717834,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 606774402.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.19599542021751404,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 1010
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3659.0,
+      "completions/mean_length": 1127.67529296875,
+      "completions/mean_terminated_length": 632.9544677734375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 9.447813411078718,
+      "grad_norm": 0.1741783320903778,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 607347447.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.18295523524284363,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1011
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2633.0,
+      "completions/mean_length": 992.4230346679688,
+      "completions/mean_terminated_length": 632.9800415039062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.457142857142857,
+      "grad_norm": 0.15500663220882416,
+      "learning_rate": 1e-06,
+      "loss": -0.0523,
+      "num_tokens": 607951898.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.15259191393852234,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1012
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 961.2779541015625,
+      "completions/mean_terminated_length": 624.1693115234375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 9.466472303206997,
+      "grad_norm": 0.14826615154743195,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 608548507.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.12895894050598145,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1013
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 914.1975708007812,
+      "completions/mean_terminated_length": 627.7578735351562,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 9.475801749271136,
+      "grad_norm": 0.12536974251270294,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 609155756.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.10498502850532532,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1014
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3230.0,
+      "completions/mean_length": 1088.0804443359375,
+      "completions/mean_terminated_length": 591.3237915039062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.485131195335278,
+      "grad_norm": 0.17755606770515442,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 609693284.0,
+      "reward": 0.65625,
+      "reward_std": 0.14744143187999725,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1015
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3253.0,
+      "completions/mean_length": 1079.6004638671875,
+      "completions/mean_terminated_length": 608.6529541015625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 9.494460641399417,
+      "grad_norm": 0.17347857356071472,
+      "learning_rate": 1e-06,
+      "loss": -0.0708,
+      "num_tokens": 610249870.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1585274040699005,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1016
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 1072.146240234375,
+      "completions/mean_terminated_length": 617.9859008789062,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.503790087463557,
+      "grad_norm": 0.15390904247760773,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 610825953.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1424848586320877,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1017
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2796.0,
+      "completions/mean_length": 980.2199096679688,
+      "completions/mean_terminated_length": 579.9558715820312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 9.513119533527696,
+      "grad_norm": 0.17296528816223145,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 611378278.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.16581936180591583,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1018
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2654.0,
+      "completions/mean_length": 939.2109985351562,
+      "completions/mean_terminated_length": 612.6465454101562,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 9.522448979591836,
+      "grad_norm": 0.16253484785556793,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 611960899.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.16288763284683228,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1019
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3488.0,
+      "completions/mean_length": 1053.6038818359375,
+      "completions/mean_terminated_length": 596.6585693359375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 9.531778425655977,
+      "grad_norm": 0.16379345953464508,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 612504984.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1202450841665268,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1020
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3004.0,
+      "completions/mean_length": 1090.860595703125,
+      "completions/mean_terminated_length": 608.169677734375,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 9.541107871720117,
+      "grad_norm": 0.15253886580467224,
+      "learning_rate": 1e-06,
+      "loss": -0.0678,
+      "num_tokens": 613062131.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.12952165305614471,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1021
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3964.0,
+      "completions/mean_length": 1005.841552734375,
+      "completions/mean_terminated_length": 647.95263671875,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 9.550437317784256,
+      "grad_norm": 0.16293002665042877,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 613661829.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.14966455101966858,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 1022
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3766.0,
+      "completions/mean_length": 957.3516235351562,
+      "completions/mean_terminated_length": 653.8592529296875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.559766763848396,
+      "grad_norm": 0.1554853916168213,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 614283856.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16288836300373077,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1023
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3267.0,
+      "completions/mean_length": 971.9397583007812,
+      "completions/mean_terminated_length": 570.612060546875,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 9.569096209912537,
+      "grad_norm": 0.16789597272872925,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 614838962.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.15890537202358246,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1024
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3255.0,
+      "completions/mean_length": 1086.685302734375,
+      "completions/mean_terminated_length": 639.1461791992188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.578425655976677,
+      "grad_norm": 0.1663643717765808,
+      "learning_rate": 1e-06,
+      "loss": -0.0723,
+      "num_tokens": 615423048.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.15417560935020447,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1025
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2953.0,
+      "completions/mean_length": 1089.6138916015625,
+      "completions/mean_terminated_length": 629.1763305664062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.587755102040816,
+      "grad_norm": 0.14654986560344696,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 616004894.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.12238264083862305,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1026
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2489.0,
+      "completions/mean_length": 1066.9609375,
+      "completions/mean_terminated_length": 566.7164916992188,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 9.597084548104956,
+      "grad_norm": 0.1519494354724884,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 616528155.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.12400025874376297,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1027
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3623.0,
+      "completions/mean_length": 854.0636596679688,
+      "completions/mean_terminated_length": 536.2267456054688,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 9.606413994169095,
+      "grad_norm": 0.16887415945529938,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 617054892.0,
+      "reward": 0.7522321939468384,
+      "reward_std": 0.130574032664299,
+      "rewards/verify_math_reward/mean": 0.7522321343421936,
+      "rewards/verify_math_reward/std": 0.4319573938846588,
+      "step": 1028
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2931.0,
+      "completions/mean_length": 1104.26123046875,
+      "completions/mean_terminated_length": 578.1548461914062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 9.615743440233237,
+      "grad_norm": 0.14007607102394104,
+      "learning_rate": 1e-06,
+      "loss": -0.0821,
+      "num_tokens": 617580982.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.11434461921453476,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1029
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 1028.2567138671875,
+      "completions/mean_terminated_length": 621.0341796875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 9.625072886297376,
+      "grad_norm": 0.15491919219493866,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 618158372.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.17040391266345978,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1030
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3393.0,
+      "completions/mean_length": 1032.325927734375,
+      "completions/mean_terminated_length": 590.1864624023438,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 9.634402332361516,
+      "grad_norm": 0.13611069321632385,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 618706120.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.09232490509748459,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1031
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2673.0,
+      "completions/mean_length": 1077.8046875,
+      "completions/mean_terminated_length": 597.5485229492188,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 9.643731778425655,
+      "grad_norm": 0.17063143849372864,
+      "learning_rate": 1e-06,
+      "loss": -0.0969,
+      "num_tokens": 619259441.0,
+      "reward": 0.6484375,
+      "reward_std": 0.14011837542057037,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1032
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2556.0,
+      "completions/mean_length": 971.0324096679688,
+      "completions/mean_terminated_length": 630.6893310546875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 9.653061224489797,
+      "grad_norm": 0.1838199645280838,
+      "learning_rate": 1e-06,
+      "loss": -0.0804,
+      "num_tokens": 619866606.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.20425845682621002,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1033
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 887.2522583007812,
+      "completions/mean_terminated_length": 585.5751342773438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.662390670553936,
+      "grad_norm": 0.16632024943828583,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 620428760.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.1262579709291458,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1034
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3400.0,
+      "completions/mean_length": 983.7969360351562,
+      "completions/mean_terminated_length": 661.8447875976562,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.671720116618076,
+      "grad_norm": 0.1719866842031479,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 621045266.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1623249351978302,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1035
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3319.0,
+      "completions/mean_length": 984.2667846679688,
+      "completions/mean_terminated_length": 628.19775390625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.681049562682215,
+      "grad_norm": 0.1803593635559082,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 621646633.0,
+      "reward": 0.65625,
+      "reward_std": 0.1555236428976059,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1036
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3900.0,
+      "completions/mean_length": 912.6172485351562,
+      "completions/mean_terminated_length": 570.275634765625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.690379008746355,
+      "grad_norm": 0.18360450863838196,
+      "learning_rate": 1e-06,
+      "loss": -0.0242,
+      "num_tokens": 622194098.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1615767478942871,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1037
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1629464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2721.0,
+      "completions/mean_length": 1131.9320068359375,
+      "completions/mean_terminated_length": 554.9266357421875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 9.699708454810496,
+      "grad_norm": 0.17833773791790009,
+      "learning_rate": 1e-06,
+      "loss": -0.047,
+      "num_tokens": 622697237.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.13429346680641174,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1038
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 959.6663208007812,
+      "completions/mean_terminated_length": 613.7756958007812,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.709037900874636,
+      "grad_norm": 0.15967030823230743,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 623287602.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15867894887924194,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1039
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3141.0,
+      "completions/mean_length": 990.7511596679688,
+      "completions/mean_terminated_length": 591.8400268554688,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 9.718367346938775,
+      "grad_norm": 0.16621524095535278,
+      "learning_rate": 1e-06,
+      "loss": -0.036,
+      "num_tokens": 623851635.0,
+      "reward": 0.65625,
+      "reward_std": 0.14853617548942566,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1040
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 972.9609985351562,
+      "completions/mean_terminated_length": 598.1962280273438,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 9.727696793002915,
+      "grad_norm": 0.16122128069400787,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 624425792.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1457592099905014,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1041
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3645.0,
+      "completions/mean_length": 1064.47998046875,
+      "completions/mean_terminated_length": 653.3612060546875,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 9.737026239067056,
+      "grad_norm": 0.14171285927295685,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 625034038.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.13752757012844086,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 1042
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 1004.466552734375,
+      "completions/mean_terminated_length": 589.6531982421875,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 9.746355685131196,
+      "grad_norm": 0.19457073509693146,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 625590008.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1418447494506836,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1043
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2513.0,
+      "completions/mean_length": 1002.94091796875,
+      "completions/mean_terminated_length": 601.1942138671875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.755685131195335,
+      "grad_norm": 0.17160455882549286,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 626159571.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1532338410615921,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1044
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2469.0,
+      "completions/mean_length": 1099.8382568359375,
+      "completions/mean_terminated_length": 618.58935546875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 9.765014577259475,
+      "grad_norm": 0.15683704614639282,
+      "learning_rate": 1e-06,
+      "loss": -0.085,
+      "num_tokens": 626723858.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14135439693927765,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1045
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 1113.2388916015625,
+      "completions/mean_terminated_length": 643.087890625,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 9.774344023323614,
+      "grad_norm": 0.1665021777153015,
+      "learning_rate": 1e-06,
+      "loss": -0.0315,
+      "num_tokens": 627303152.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.14150774478912354,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 1046
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3625.0,
+      "completions/mean_length": 946.2835083007812,
+      "completions/mean_terminated_length": 568.3175048828125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 9.783673469387756,
+      "grad_norm": 0.16322743892669678,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 627845998.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1272720992565155,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1047
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2702.0,
+      "completions/mean_length": 862.5301513671875,
+      "completions/mean_terminated_length": 541.1668701171875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.793002915451895,
+      "grad_norm": 0.1671653389930725,
+      "learning_rate": 1e-06,
+      "loss": -0.0401,
+      "num_tokens": 628384145.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.14361140131950378,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1048
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3800.0,
+      "completions/mean_length": 1083.396240234375,
+      "completions/mean_terminated_length": 617.5296020507812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 9.802332361516035,
+      "grad_norm": 0.161100834608078,
+      "learning_rate": 1e-06,
+      "loss": -0.0192,
+      "num_tokens": 628955988.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.11336751282215118,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3315.0,
+      "completions/mean_length": 1001.599365234375,
+      "completions/mean_terminated_length": 586.4012451171875,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 9.811661807580174,
+      "grad_norm": 0.14529836177825928,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 629519917.0,
+      "reward": 0.6484375,
+      "reward_std": 0.12816546857357025,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1050
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 1090.8114013671875,
+      "completions/mean_terminated_length": 608.1126708984375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.820991253644316,
+      "grad_norm": 0.14906223118305206,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 630075284.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.12651507556438446,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1051
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 1045.35498046875,
+      "completions/mean_terminated_length": 569.0606689453125,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.830320699708455,
+      "grad_norm": 0.14279192686080933,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 630603450.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.10138323158025742,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1052
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2816.0,
+      "completions/mean_length": 995.1350708007812,
+      "completions/mean_terminated_length": 561.1717529296875,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 9.839650145772595,
+      "grad_norm": 0.17934824526309967,
+      "learning_rate": 1e-06,
+      "loss": -0.0875,
+      "num_tokens": 631139811.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1666516810655594,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 1053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3284.0,
+      "completions/mean_length": 970.7835083007812,
+      "completions/mean_terminated_length": 586.9849853515625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.848979591836734,
+      "grad_norm": 0.1426946371793747,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 631693105.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11381329596042633,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3501.0,
+      "completions/mean_length": 851.888427734375,
+      "completions/mean_terminated_length": 555.5322875976562,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.858309037900874,
+      "grad_norm": 0.1521221250295639,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 632246597.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.13410983979701996,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1055
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4045.0,
+      "completions/mean_length": 1026.2935791015625,
+      "completions/mean_terminated_length": 631.9483642578125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.867638483965015,
+      "grad_norm": 0.1641969233751297,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 632832932.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.15454724431037903,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 1056
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2137.0,
+      "completions/mean_length": 876.4989013671875,
+      "completions/mean_terminated_length": 543.447021484375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 9.876967930029155,
+      "grad_norm": 0.15613830089569092,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 633363379.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1460181325674057,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2311.0,
+      "completions/mean_length": 924.87841796875,
+      "completions/mean_terminated_length": 508.46844482421875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 9.886297376093294,
+      "grad_norm": 0.1545645147562027,
+      "learning_rate": 1e-06,
+      "loss": -0.0777,
+      "num_tokens": 633849238.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.12625475227832794,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1058
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3749.0,
+      "completions/mean_length": 891.880615234375,
+      "completions/mean_terminated_length": 599.1778564453125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.895626822157434,
+      "grad_norm": 0.14035220444202423,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 634438515.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13804751634597778,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1059
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3062.0,
+      "completions/mean_length": 948.6629638671875,
+      "completions/mean_terminated_length": 575.3832397460938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.904956268221575,
+      "grad_norm": 0.15624937415122986,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 634996061.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1060
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3317.0,
+      "completions/mean_length": 941.3660888671875,
+      "completions/mean_terminated_length": 623.577392578125,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 9.914285714285715,
+      "grad_norm": 0.15813840925693512,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 635604485.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.16416893899440765,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1061
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3316.0,
+      "completions/mean_length": 1057.9453125,
+      "completions/mean_terminated_length": 565.394287109375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 9.923615160349854,
+      "grad_norm": 0.1818017214536667,
+      "learning_rate": 1e-06,
+      "loss": -0.0858,
+      "num_tokens": 636131932.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15293143689632416,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1062
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2635.0,
+      "completions/mean_length": 1010.4676513671875,
+      "completions/mean_terminated_length": 578.650146484375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 9.932944606413994,
+      "grad_norm": 0.16857455670833588,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 636677983.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14661657810211182,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1063
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 1129.599365234375,
+      "completions/mean_terminated_length": 621.62744140625,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 9.942274052478133,
+      "grad_norm": 0.18123479187488556,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 637248304.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15180166065692902,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3926.0,
+      "completions/mean_length": 983.0045166015625,
+      "completions/mean_terminated_length": 618.1396484375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 9.951603498542275,
+      "grad_norm": 0.15925569832324982,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 637830204.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1494358777999878,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1065
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3720.0,
+      "completions/mean_length": 1131.5413818359375,
+      "completions/mean_terminated_length": 623.9019775390625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 9.960932944606414,
+      "grad_norm": 0.18021221458911896,
+      "learning_rate": 1e-06,
+      "loss": -0.0442,
+      "num_tokens": 638396305.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.1694614291191101,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3845.0,
+      "completions/mean_length": 915.1730346679688,
+      "completions/mean_terminated_length": 594.7456665039062,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.970262390670554,
+      "grad_norm": 0.15773488581180573,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 638961300.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.14902400970458984,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2367.0,
+      "completions/mean_length": 1010.0223388671875,
+      "completions/mean_terminated_length": 560.1483154296875,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 9.979591836734693,
+      "grad_norm": 0.13540399074554443,
+      "learning_rate": 1e-06,
+      "loss": -0.0744,
+      "num_tokens": 639484784.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.10528742522001266,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763102173805237,
+      "step": 1068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3573.0,
+      "completions/mean_length": 1036.1429443359375,
+      "completions/mean_terminated_length": 599.0203857421875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 9.988921282798835,
+      "grad_norm": 0.16124646365642548,
+      "learning_rate": 1e-06,
+      "loss": -0.0744,
+      "num_tokens": 640055528.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1471058428287506,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1069
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12784090909090906,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2963.0,
+      "completions/mean_length": 1138.1279296875,
+      "completions/mean_terminated_length": 704.5634765625,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 9.998250728862974,
+      "grad_norm": 0.20521681010723114,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 640587899.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.15367960929870605,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1070
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 1087.6585693359375,
+      "completions/mean_terminated_length": 649.102294921875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.00932944606414,
+      "grad_norm": 0.1542617231607437,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 641189913.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1329379826784134,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1071
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3401.0,
+      "completions/mean_length": 1000.9420166015625,
+      "completions/mean_terminated_length": 598.9356689453125,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 10.018658892128279,
+      "grad_norm": 0.14231081306934357,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 641760725.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.15634846687316895,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1072
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1674107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3491.0,
+      "completions/mean_length": 1176.2254638671875,
+      "completions/mean_terminated_length": 589.139404296875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 10.02798833819242,
+      "grad_norm": 0.17777127027511597,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 642284815.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.1293700933456421,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 1045.1015625,
+      "completions/mean_terminated_length": 661.8228759765625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 10.03731778425656,
+      "grad_norm": 0.14099112153053284,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 642892194.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.14173486828804016,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1074
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3407.0,
+      "completions/mean_length": 960.7154541015625,
+      "completions/mean_terminated_length": 593.2381591796875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.0466472303207,
+      "grad_norm": 0.15719178318977356,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 643453019.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13711319863796234,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3348.0,
+      "completions/mean_length": 1066.216552734375,
+      "completions/mean_terminated_length": 593.1793823242188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.055976676384839,
+      "grad_norm": 0.15955573320388794,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 643994165.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.15431898832321167,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3873.0,
+      "completions/mean_length": 1052.8671875,
+      "completions/mean_terminated_length": 618.1339111328125,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.06530612244898,
+      "grad_norm": 0.135609969496727,
+      "learning_rate": 1e-06,
+      "loss": -0.0417,
+      "num_tokens": 644583118.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.10968156903982162,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 1077
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3183.0,
+      "completions/mean_length": 1035.337158203125,
+      "completions/mean_terminated_length": 620.2661743164062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 10.07463556851312,
+      "grad_norm": 0.14457030594348907,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 645158396.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.13436973094940186,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1078
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2183.0,
+      "completions/mean_length": 1063.07373046875,
+      "completions/mean_terminated_length": 552.9725952148438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.08396501457726,
+      "grad_norm": 0.17858922481536865,
+      "learning_rate": 1e-06,
+      "loss": -0.0763,
+      "num_tokens": 645679950.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15067623555660248,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1079
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3655.0,
+      "completions/mean_length": 916.6406860351562,
+      "completions/mean_terminated_length": 570.373779296875,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 10.093294460641399,
+      "grad_norm": 0.17197096347808838,
+      "learning_rate": 1e-06,
+      "loss": -0.06,
+      "num_tokens": 646226452.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.16727899014949799,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1080
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3485.0,
+      "completions/mean_length": 1130.05810546875,
+      "completions/mean_terminated_length": 622.1647338867188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.102623906705539,
+      "grad_norm": 0.15414667129516602,
+      "learning_rate": 1e-06,
+      "loss": -0.0796,
+      "num_tokens": 646783112.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.15766116976737976,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 1081
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3344.0,
+      "completions/mean_length": 1002.7589721679688,
+      "completions/mean_terminated_length": 618.5294799804688,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.11195335276968,
+      "grad_norm": 0.1677163541316986,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 647373880.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1473347693681717,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1082
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3704.0,
+      "completions/mean_length": 1027.419677734375,
+      "completions/mean_terminated_length": 593.5184936523438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.12128279883382,
+      "grad_norm": 0.15662840008735657,
+      "learning_rate": 1e-06,
+      "loss": -0.0431,
+      "num_tokens": 647921952.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1445143222808838,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 1083
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 1005.4844360351562,
+      "completions/mean_terminated_length": 608.4659423828125,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 10.130612244897959,
+      "grad_norm": 0.1450105905532837,
+      "learning_rate": 1e-06,
+      "loss": -0.0865,
+      "num_tokens": 648490458.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.13745200634002686,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1084
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2900.0,
+      "completions/mean_length": 1062.3460693359375,
+      "completions/mean_terminated_length": 575.0751342773438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 10.139941690962099,
+      "grad_norm": 0.16196465492248535,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 649029728.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.10694669187068939,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1085
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 950.396240234375,
+      "completions/mean_terminated_length": 612.117431640625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 10.14927113702624,
+      "grad_norm": 0.15659761428833008,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 649621331.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.15413284301757812,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1086
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2389.0,
+      "completions/mean_length": 931.1886596679688,
+      "completions/mean_terminated_length": 590.84423828125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 10.15860058309038,
+      "grad_norm": 0.15611431002616882,
+      "learning_rate": 1e-06,
+      "loss": -0.0759,
+      "num_tokens": 650192036.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.1438724249601364,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1087
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 1146.32373046875,
+      "completions/mean_terminated_length": 676.9702758789062,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 10.167930029154519,
+      "grad_norm": 0.16885007917881012,
+      "learning_rate": 1e-06,
+      "loss": -0.0899,
+      "num_tokens": 650807894.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.17878074944019318,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1088
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3530.0,
+      "completions/mean_length": 1063.1707763671875,
+      "completions/mean_terminated_length": 580.5860595703125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 10.177259475218658,
+      "grad_norm": 0.17859436571598053,
+      "learning_rate": 1e-06,
+      "loss": -0.0735,
+      "num_tokens": 651337183.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.15713873505592346,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1089
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2721.0,
+      "completions/mean_length": 950.9676513671875,
+      "completions/mean_terminated_length": 537.9835815429688,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 10.186588921282798,
+      "grad_norm": 0.14909125864505768,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 651855794.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1301603466272354,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1090
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2778.0,
+      "completions/mean_length": 991.0067138671875,
+      "completions/mean_terminated_length": 596.5358276367188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.19591836734694,
+      "grad_norm": 0.1429533213376999,
+      "learning_rate": 1e-06,
+      "loss": -0.0525,
+      "num_tokens": 652429760.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.14165818691253662,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1091
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3358.0,
+      "completions/mean_length": 1049.046875,
+      "completions/mean_terminated_length": 586.91259765625,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 10.205247813411079,
+      "grad_norm": 0.13117572665214539,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 652979698.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.0988972932100296,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1092
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3779.0,
+      "completions/mean_length": 953.2433471679688,
+      "completions/mean_terminated_length": 632.3960571289062,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.214577259475218,
+      "grad_norm": 0.12957538664340973,
+      "learning_rate": 1e-06,
+      "loss": -0.0197,
+      "num_tokens": 653586212.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.12693016231060028,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.4693825840950012,
+      "step": 1093
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 1091.7890625,
+      "completions/mean_terminated_length": 675.7039184570312,
+      "completions/min_length": 195.0,
+      "completions/min_terminated_length": 195.0,
+      "epoch": 10.223906705539358,
+      "grad_norm": 0.14532352983951569,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 654207143.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.14244982600212097,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3427.0,
+      "completions/mean_length": 950.9263916015625,
+      "completions/mean_terminated_length": 604.0718994140625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 10.2332361516035,
+      "grad_norm": 0.161069855093956,
+      "learning_rate": 1e-06,
+      "loss": -0.0356,
+      "num_tokens": 654790053.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15225742757320404,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1095
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3768.0,
+      "completions/mean_length": 1132.7388916015625,
+      "completions/mean_terminated_length": 602.4710693359375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.242565597667639,
+      "grad_norm": 0.2017541378736496,
+      "learning_rate": 1e-06,
+      "loss": -0.0943,
+      "num_tokens": 655351443.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.19918353855609894,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 1096
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3878.0,
+      "completions/mean_length": 1035.774658203125,
+      "completions/mean_terminated_length": 594.1328125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 10.251895043731778,
+      "grad_norm": 0.13807076215744019,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 655906361.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1182820275425911,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1097
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 1041.732177734375,
+      "completions/mean_terminated_length": 623.1268920898438,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 10.261224489795918,
+      "grad_norm": 0.15223170816898346,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 656480185.0,
+      "reward": 0.65625,
+      "reward_std": 0.1367020159959793,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1098
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 1003.11279296875,
+      "completions/mean_terminated_length": 596.9760131835938,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.270553935860057,
+      "grad_norm": 0.170912966132164,
+      "learning_rate": 1e-06,
+      "loss": -0.0807,
+      "num_tokens": 657050430.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.155858114361763,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1099
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3088.0,
+      "completions/mean_length": 1038.03466796875,
+      "completions/mean_terminated_length": 601.182373046875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.279883381924199,
+      "grad_norm": 0.14294150471687317,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 657612541.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12828493118286133,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2602.0,
+      "completions/mean_length": 913.2188110351562,
+      "completions/mean_terminated_length": 613.98291015625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 10.289212827988338,
+      "grad_norm": 0.1634213775396347,
+      "learning_rate": 1e-06,
+      "loss": -0.0526,
+      "num_tokens": 658199929.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.16521771252155304,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2329.0,
+      "completions/mean_length": 1010.7522583007812,
+      "completions/mean_terminated_length": 605.6187133789062,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 10.298542274052478,
+      "grad_norm": 0.14884184300899506,
+      "learning_rate": 1e-06,
+      "loss": -0.0753,
+      "num_tokens": 658769579.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.12005008012056351,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3329.0,
+      "completions/mean_length": 1022.1763916015625,
+      "completions/mean_terminated_length": 609.7392578125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 10.307871720116617,
+      "grad_norm": 0.17236760258674622,
+      "learning_rate": 1e-06,
+      "loss": -0.1071,
+      "num_tokens": 659337761.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.18039767444133759,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 1079.430908203125,
+      "completions/mean_terminated_length": 608.456787109375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 10.317201166180759,
+      "grad_norm": 0.16065767407417297,
+      "learning_rate": 1e-06,
+      "loss": -0.0648,
+      "num_tokens": 659902907.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.14176876842975616,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3165.0,
+      "completions/mean_length": 1116.1976318359375,
+      "completions/mean_terminated_length": 624.0845336914062,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.326530612244898,
+      "grad_norm": 0.16376863420009613,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 660478772.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1612725555896759,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3569.0,
+      "completions/mean_length": 992.3873291015625,
+      "completions/mean_terminated_length": 558.0394287109375,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 10.335860058309038,
+      "grad_norm": 0.15680444240570068,
+      "learning_rate": 1e-06,
+      "loss": -0.0845,
+      "num_tokens": 661005375.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.1473347544670105,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 938.7277221679688,
+      "completions/mean_terminated_length": 624.9374389648438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.345189504373177,
+      "grad_norm": 0.16408175230026245,
+      "learning_rate": 1e-06,
+      "loss": -0.029,
+      "num_tokens": 661595835.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.1510867178440094,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3986.0,
+      "completions/mean_length": 1047.3817138671875,
+      "completions/mean_terminated_length": 584.994873046875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 10.354518950437317,
+      "grad_norm": 0.1591675579547882,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 662144457.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12456367164850235,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 1095.6842041015625,
+      "completions/mean_terminated_length": 658.2979736328125,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 10.363848396501458,
+      "grad_norm": 0.1713409572839737,
+      "learning_rate": 1e-06,
+      "loss": -0.0721,
+      "num_tokens": 662742718.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1583433598279953,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3252.0,
+      "completions/mean_length": 1098.9788818359375,
+      "completions/mean_terminated_length": 648.8485717773438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 10.373177842565598,
+      "grad_norm": 0.1908992975950241,
+      "learning_rate": 1e-06,
+      "loss": -0.0856,
+      "num_tokens": 663331555.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.14473934471607208,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2726.0,
+      "completions/mean_length": 937.3605346679688,
+      "completions/mean_terminated_length": 549.4573974609375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 10.382507288629737,
+      "grad_norm": 0.18250666558742523,
+      "learning_rate": 1e-06,
+      "loss": -0.082,
+      "num_tokens": 663870742.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16360512375831604,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3887.0,
+      "completions/mean_length": 970.544677734375,
+      "completions/mean_terminated_length": 608.56787109375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.391836734693877,
+      "grad_norm": 0.15100763738155365,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 664436438.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.11881405115127563,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2507.0,
+      "completions/mean_length": 907.5725708007812,
+      "completions/mean_terminated_length": 569.0481567382812,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 10.401166180758018,
+      "grad_norm": 0.1526399403810501,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 664989471.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.11930260062217712,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4039.0,
+      "completions/mean_length": 913.7489013671875,
+      "completions/mean_terminated_length": 588.86962890625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.410495626822158,
+      "grad_norm": 0.19045433402061462,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 665548622.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.16442787647247314,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2890.0,
+      "completions/mean_length": 996.4788208007812,
+      "completions/mean_terminated_length": 633.1932983398438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 10.419825072886297,
+      "grad_norm": 0.17184984683990479,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 666139563.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.17735858261585236,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2909.0,
+      "completions/mean_length": 845.7522583007812,
+      "completions/mean_terminated_length": 566.033935546875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 10.429154518950437,
+      "grad_norm": 0.16167055070400238,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 666687669.0,
+      "reward": 0.7589285969734192,
+      "reward_std": 0.12343572080135345,
+      "rewards/verify_math_reward/mean": 0.7589285969734192,
+      "rewards/verify_math_reward/std": 0.4279724657535553,
+      "step": 1116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 995.31591796875,
+      "completions/mean_terminated_length": 592.5787963867188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 10.438483965014576,
+      "grad_norm": 0.16173385083675385,
+      "learning_rate": 1e-06,
+      "loss": -0.0659,
+      "num_tokens": 667245016.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.13665924966335297,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3224.0,
+      "completions/mean_length": 1032.4320068359375,
+      "completions/mean_terminated_length": 630.1452026367188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.447813411078718,
+      "grad_norm": 0.15724092721939087,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 667840891.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.11817464977502823,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 968.7824096679688,
+      "completions/mean_terminated_length": 580.33251953125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.457142857142857,
+      "grad_norm": 0.1605788618326187,
+      "learning_rate": 1e-06,
+      "loss": -0.0746,
+      "num_tokens": 668399280.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1488724648952484,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3397.0,
+      "completions/mean_length": 971.958740234375,
+      "completions/mean_terminated_length": 583.9033813476562,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.466472303206997,
+      "grad_norm": 0.16461539268493652,
+      "learning_rate": 1e-06,
+      "loss": -0.0483,
+      "num_tokens": 668950571.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.12910795211791992,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3703.0,
+      "completions/mean_length": 1040.4554443359375,
+      "completions/mean_terminated_length": 630.4708862304688,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.475801749271136,
+      "grad_norm": 0.15067552030086517,
+      "learning_rate": 1e-06,
+      "loss": -0.0433,
+      "num_tokens": 669534091.0,
+      "reward": 0.6484375,
+      "reward_std": 0.13850216567516327,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1110.50341796875,
+      "completions/mean_terminated_length": 653.26513671875,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 10.485131195335278,
+      "grad_norm": 0.15959958732128143,
+      "learning_rate": 1e-06,
+      "loss": -0.0743,
+      "num_tokens": 670124910.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1651000678539276,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3825.0,
+      "completions/mean_length": 913.5547485351562,
+      "completions/mean_terminated_length": 592.96435546875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.494460641399417,
+      "grad_norm": 0.16357047855854034,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 670693639.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.13369613885879517,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3675.0,
+      "completions/mean_length": 1019.4185791015625,
+      "completions/mean_terminated_length": 632.913330078125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 10.503790087463557,
+      "grad_norm": 0.12714940309524536,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 671297502.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.10983241349458694,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 797.7957763671875,
+      "completions/mean_terminated_length": 582.0986938476562,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 10.513119533527696,
+      "grad_norm": 0.13335968554019928,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 671875903.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.10926789045333862,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3414.0,
+      "completions/mean_length": 1176.50341796875,
+      "completions/mean_terminated_length": 667.6002807617188,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 10.522448979591836,
+      "grad_norm": 0.1646053045988083,
+      "learning_rate": 1e-06,
+      "loss": -0.0695,
+      "num_tokens": 672479482.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.15683633089065552,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 1126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3404.0,
+      "completions/mean_length": 1037.4810791015625,
+      "completions/mean_terminated_length": 657.5646362304688,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 10.531778425655977,
+      "grad_norm": 0.16377611458301544,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 673088849.0,
+      "reward": 0.65625,
+      "reward_std": 0.16367970407009125,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2473.0,
+      "completions/mean_length": 1054.341552734375,
+      "completions/mean_terminated_length": 542.7718505859375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 10.541107871720117,
+      "grad_norm": 0.18253152072429657,
+      "learning_rate": 1e-06,
+      "loss": -0.0806,
+      "num_tokens": 673599419.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.14075706899166107,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2459.0,
+      "completions/mean_length": 881.62841796875,
+      "completions/mean_terminated_length": 570.81396484375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 10.550437317784256,
+      "grad_norm": 0.16114667057991028,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 674154350.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1346297711133957,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3397.0,
+      "completions/mean_length": 1132.216552734375,
+      "completions/mean_terminated_length": 730.2838745117188,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 10.559766763848396,
+      "grad_norm": 0.1421719491481781,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 674829560.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.14838463068008423,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 1130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2863.0,
+      "completions/mean_length": 1135.680908203125,
+      "completions/mean_terminated_length": 619.661865234375,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.569096209912537,
+      "grad_norm": 0.1621275693178177,
+      "learning_rate": 1e-06,
+      "loss": -0.0549,
+      "num_tokens": 675390770.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.15462210774421692,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 1131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3329.0,
+      "completions/mean_length": 1011.8404541015625,
+      "completions/mean_terminated_length": 593.5830078125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.578425655976677,
+      "grad_norm": 0.14411039650440216,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 675953083.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.12613528966903687,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3040.0,
+      "completions/mean_length": 856.5413208007812,
+      "completions/mean_terminated_length": 556.2987670898438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.587755102040816,
+      "grad_norm": 0.1527402102947235,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 676504768.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.13662534952163696,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3657.0,
+      "completions/mean_length": 1003.4319458007812,
+      "completions/mean_terminated_length": 675.085205078125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 10.597084548104956,
+      "grad_norm": 0.2829720377922058,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 677134315.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.133991077542305,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3831.0,
+      "completions/mean_length": 1006.8136596679688,
+      "completions/mean_terminated_length": 605.5700073242188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 10.606413994169095,
+      "grad_norm": 0.1647486388683319,
+      "learning_rate": 1e-06,
+      "loss": -0.0625,
+      "num_tokens": 677697212.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1359538733959198,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 981.1629638671875,
+      "completions/mean_terminated_length": 654.7003784179688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.615743440233237,
+      "grad_norm": 0.1767268031835556,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 678312286.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17979854345321655,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 1021.74560546875,
+      "completions/mean_terminated_length": 618.0555419921875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.625072886297376,
+      "grad_norm": 0.15197418630123138,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 678897970.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1529296189546585,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 908.6797485351562,
+      "completions/mean_terminated_length": 583.2828979492188,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 10.634402332361516,
+      "grad_norm": 0.1528334617614746,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 679464499.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15582603216171265,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 983.0670166015625,
+      "completions/mean_terminated_length": 626.8606567382812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.643731778425655,
+      "grad_norm": 0.1498451828956604,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 680060471.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.13936908543109894,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3787.0,
+      "completions/mean_length": 1030.6763916015625,
+      "completions/mean_terminated_length": 597.2356567382812,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.653061224489797,
+      "grad_norm": 0.17636732757091522,
+      "learning_rate": 1e-06,
+      "loss": -0.0846,
+      "num_tokens": 680617181.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.17829473316669464,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3332.0,
+      "completions/mean_length": 917.3582763671875,
+      "completions/mean_terminated_length": 549.2216796875,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 10.662390670553936,
+      "grad_norm": 0.15136787295341492,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 681149422.0,
+      "reward": 0.65625,
+      "reward_std": 0.1269715279340744,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 1116.4207763671875,
+      "completions/mean_terminated_length": 633.3502197265625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 10.671720116618076,
+      "grad_norm": 0.16474510729312897,
+      "learning_rate": 1e-06,
+      "loss": -0.0819,
+      "num_tokens": 681726839.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15233299136161804,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 1035.0201416015625,
+      "completions/mean_terminated_length": 633.0732421875,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 10.681049562682215,
+      "grad_norm": 0.16252972185611725,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 682316929.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13820087909698486,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3644.0,
+      "completions/mean_length": 1051.094970703125,
+      "completions/mean_terminated_length": 593.7728271484375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.690379008746355,
+      "grad_norm": 0.17688776552677155,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 682865790.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1557493507862091,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3560.0,
+      "completions/mean_length": 1163.4710693359375,
+      "completions/mean_terminated_length": 674.7161865234375,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 10.699708454810496,
+      "grad_norm": 0.1655026227235794,
+      "learning_rate": 1e-06,
+      "loss": -0.0697,
+      "num_tokens": 683477412.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.17649024724960327,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2952.0,
+      "completions/mean_length": 1000.8303833007812,
+      "completions/mean_terminated_length": 633.73779296875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.709037900874636,
+      "grad_norm": 0.13796032965183258,
+      "learning_rate": 1e-06,
+      "loss": -0.0616,
+      "num_tokens": 684078644.0,
+      "reward": 0.625,
+      "reward_std": 0.15285363793373108,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3456.0,
+      "completions/mean_length": 1069.7210693359375,
+      "completions/mean_terminated_length": 668.0025634765625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.718367346938775,
+      "grad_norm": 0.13414829969406128,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 684695722.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.11821813136339188,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2998.0,
+      "completions/mean_length": 1174.7445068359375,
+      "completions/mean_terminated_length": 647.4558715820312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.727696793002915,
+      "grad_norm": 0.1551147997379303,
+      "learning_rate": 1e-06,
+      "loss": -0.0657,
+      "num_tokens": 685273309.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.14977401494979858,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 1148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 1058.0223388671875,
+      "completions/mean_terminated_length": 579.16796875,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 10.737026239067056,
+      "grad_norm": 0.187620609998703,
+      "learning_rate": 1e-06,
+      "loss": -0.092,
+      "num_tokens": 685801049.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1698412001132965,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3799.0,
+      "completions/mean_length": 967.864990234375,
+      "completions/mean_terminated_length": 601.2257080078125,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 10.746355685131196,
+      "grad_norm": 0.16204749047756195,
+      "learning_rate": 1e-06,
+      "loss": -0.066,
+      "num_tokens": 686371344.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.1654042750597,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2468.0,
+      "completions/mean_length": 1024.2857666015625,
+      "completions/mean_terminated_length": 594.4020385742188,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 10.755685131195335,
+      "grad_norm": 0.15140943229198456,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 686931760.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1396651417016983,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4051.0,
+      "completions/mean_length": 1098.919677734375,
+      "completions/mean_terminated_length": 630.9884033203125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 10.765014577259475,
+      "grad_norm": 0.15443748235702515,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 687507448.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1479395478963852,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2606.0,
+      "completions/mean_length": 784.9754638671875,
+      "completions/mean_terminated_length": 525.9903564453125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 10.774344023323614,
+      "grad_norm": 0.15131253004074097,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 688028522.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.12467285990715027,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1685267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3310.0,
+      "completions/mean_length": 1201.69873046875,
+      "completions/mean_terminated_length": 615.0684814453125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 10.783673469387756,
+      "grad_norm": 0.15732906758785248,
+      "learning_rate": 1e-06,
+      "loss": -0.0934,
+      "num_tokens": 688580428.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1321566104888916,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 1154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3608.0,
+      "completions/mean_length": 864.677490234375,
+      "completions/mean_terminated_length": 603.5211181640625,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.793002915451895,
+      "grad_norm": 0.12360245734453201,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 689159811.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.12482328712940216,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3683.0,
+      "completions/mean_length": 1050.9832763671875,
+      "completions/mean_terminated_length": 589.1427001953125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.802332361516035,
+      "grad_norm": 0.16396304965019226,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 689703260.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1173504963517189,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3320.0,
+      "completions/mean_length": 966.6964721679688,
+      "completions/mean_terminated_length": 595.5555419921875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 10.811661807580174,
+      "grad_norm": 0.18031202256679535,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 690270436.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.15048938989639282,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 975.5803833007812,
+      "completions/mean_terminated_length": 631.4448852539062,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 10.820991253644316,
+      "grad_norm": 0.15054838359355927,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 690865604.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.15831056237220764,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056781768799,
+      "step": 1158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2717.0,
+      "completions/mean_length": 1046.4710693359375,
+      "completions/mean_terminated_length": 619.692138671875,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 10.830320699708455,
+      "grad_norm": 0.16395598649978638,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 691436554.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.15398269891738892,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3587.0,
+      "completions/mean_length": 905.161865234375,
+      "completions/mean_terminated_length": 562.0185546875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.839650145772595,
+      "grad_norm": 0.16268029808998108,
+      "learning_rate": 1e-06,
+      "loss": -0.0783,
+      "num_tokens": 691974971.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14823377132415771,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 991.0256958007812,
+      "completions/mean_terminated_length": 596.5572509765625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.848979591836734,
+      "grad_norm": 0.17570465803146362,
+      "learning_rate": 1e-06,
+      "loss": -0.0314,
+      "num_tokens": 692531754.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.154469832777977,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 1057.5145263671875,
+      "completions/mean_terminated_length": 684.3671875,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 10.858309037900874,
+      "grad_norm": 0.16581018269062042,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 693167999.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16856282949447632,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3331.0,
+      "completions/mean_length": 935.6864013671875,
+      "completions/mean_terminated_length": 600.1469116210938,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.867638483965015,
+      "grad_norm": 0.15151207149028778,
+      "learning_rate": 1e-06,
+      "loss": -0.0481,
+      "num_tokens": 693740886.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13639962673187256,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 1088.7310791015625,
+      "completions/mean_terminated_length": 596.6324462890625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.876967930029155,
+      "grad_norm": 0.1692202389240265,
+      "learning_rate": 1e-06,
+      "loss": -0.0681,
+      "num_tokens": 694290349.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.14905934035778046,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3327.0,
+      "completions/mean_length": 1087.6942138671875,
+      "completions/mean_terminated_length": 618.0103759765625,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 10.886297376093294,
+      "grad_norm": 0.17742066085338593,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 694863347.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.1226440817117691,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3511.0,
+      "completions/mean_length": 969.6451416015625,
+      "completions/mean_terminated_length": 624.8550415039062,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.895626822157434,
+      "grad_norm": 0.16102254390716553,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 695457653.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.1586022824048996,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3738.0,
+      "completions/mean_length": 889.5491333007812,
+      "completions/mean_terminated_length": 583.799560546875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.904956268221575,
+      "grad_norm": 0.16921687126159668,
+      "learning_rate": 1e-06,
+      "loss": -0.0681,
+      "num_tokens": 696026377.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.15319104492664337,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 936.7053833007812,
+      "completions/mean_terminated_length": 601.2741088867188,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 10.914285714285715,
+      "grad_norm": 0.18251405656337738,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 696604641.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.16506798565387726,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 973.3136596679688,
+      "completions/mean_terminated_length": 602.95751953125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.923615160349854,
+      "grad_norm": 0.14678320288658142,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 697171330.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.1447407603263855,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3230.0,
+      "completions/mean_length": 1044.9554443359375,
+      "completions/mean_terminated_length": 626.7918701171875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.932944606413994,
+      "grad_norm": 0.1669425070285797,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 697755474.0,
+      "reward": 0.6484375,
+      "reward_std": 0.12039776146411896,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2720.0,
+      "completions/mean_length": 1140.5457763671875,
+      "completions/mean_terminated_length": 607.0843505859375,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 10.942274052478133,
+      "grad_norm": 0.15743738412857056,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 698307931.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.14053094387054443,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263834953308105,
+      "step": 1171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3536.0,
+      "completions/mean_length": 982.122802734375,
+      "completions/mean_terminated_length": 647.255859375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 10.951603498542275,
+      "grad_norm": 0.1489836871623993,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 698926809.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.13298118114471436,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2894.0,
+      "completions/mean_length": 1051.3973388671875,
+      "completions/mean_terminated_length": 580.5824584960938,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 10.960932944606414,
+      "grad_norm": 0.1498366743326187,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 699468549.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1379726529121399,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 1150.0703125,
+      "completions/mean_terminated_length": 636.5596313476562,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 10.970262390670554,
+      "grad_norm": 0.15563355386257172,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 700050964.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.14838533103466034,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3368.0,
+      "completions/mean_length": 889.6395263671875,
+      "completions/mean_terminated_length": 596.7320556640625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 10.979591836734693,
+      "grad_norm": 0.16050517559051514,
+      "learning_rate": 1e-06,
+      "loss": -0.0535,
+      "num_tokens": 700629441.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.14725808799266815,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 1048.3070068359375,
+      "completions/mean_terminated_length": 617.3592529296875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 10.988921282798835,
+      "grad_norm": 0.16893556714057922,
+      "learning_rate": 1e-06,
+      "loss": -0.092,
+      "num_tokens": 701211340.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.17867198586463928,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.11647727272727271,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1694.0,
+      "completions/mean_length": 1036.84375,
+      "completions/mean_terminated_length": 633.546630859375,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 10.998250728862974,
+      "grad_norm": 0.15162187814712524,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 701804960.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1310618817806244,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4046.0,
+      "completions/mean_length": 1020.2020263671875,
+      "completions/mean_terminated_length": 680.9876098632812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 11.00932944606414,
+      "grad_norm": 0.17165175080299377,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 702446725.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.17525240778923035,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 921.9933471679688,
+      "completions/mean_terminated_length": 532.2030029296875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 11.018658892128279,
+      "grad_norm": 0.20352905988693237,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 702957407.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.1432783305644989,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 913.435302734375,
+      "completions/mean_terminated_length": 592.8328857421875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.02798833819242,
+      "grad_norm": 0.21608437597751617,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 703536645.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16552191972732544,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2931.0,
+      "completions/mean_length": 1015.05810546875,
+      "completions/mean_terminated_length": 632.3563232421875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.03731778425656,
+      "grad_norm": 0.17518115043640137,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 704131033.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.1881735622882843,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3830.0,
+      "completions/mean_length": 1024.4520263671875,
+      "completions/mean_terminated_length": 655.8662109375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 11.0466472303207,
+      "grad_norm": 0.17708617448806763,
+      "learning_rate": 1e-06,
+      "loss": -0.0651,
+      "num_tokens": 704761574.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.15559709072113037,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 1182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3168.0,
+      "completions/mean_length": 938.4598388671875,
+      "completions/mean_terminated_length": 585.880859375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.055976676384839,
+      "grad_norm": 0.17927464842796326,
+      "learning_rate": 1e-06,
+      "loss": -0.0987,
+      "num_tokens": 705318434.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1446644812822342,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 876.9944458007812,
+      "completions/mean_terminated_length": 539.614013671875,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 11.06530612244898,
+      "grad_norm": 0.1659204363822937,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 705840589.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.1288815587759018,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3338.0,
+      "completions/mean_length": 1027.6741943359375,
+      "completions/mean_terminated_length": 611.5640258789062,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.07463556851312,
+      "grad_norm": 0.14054636657238007,
+      "learning_rate": 1e-06,
+      "loss": -0.0496,
+      "num_tokens": 706415521.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1422245353460312,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2627.0,
+      "completions/mean_length": 848.0647583007812,
+      "completions/mean_terminated_length": 581.3260498046875,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 11.08396501457726,
+      "grad_norm": 0.15509085357189178,
+      "learning_rate": 1e-06,
+      "loss": -0.0426,
+      "num_tokens": 706979779.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.1411721557378769,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3046.0,
+      "completions/mean_length": 892.4051513671875,
+      "completions/mean_terminated_length": 616.7018432617188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.093294460641399,
+      "grad_norm": 0.1560228317975998,
+      "learning_rate": 1e-06,
+      "loss": -0.0498,
+      "num_tokens": 707576582.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.15808051824569702,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957791805267334,
+      "step": 1187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3597.0,
+      "completions/mean_length": 1105.786865234375,
+      "completions/mean_terminated_length": 656.6790771484375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 11.102623906705539,
+      "grad_norm": 0.1628333032131195,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 708168247.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1441766321659088,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2452.0,
+      "completions/mean_length": 1100.5023193359375,
+      "completions/mean_terminated_length": 605.797119140625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.11195335276968,
+      "grad_norm": 0.18043670058250427,
+      "learning_rate": 1e-06,
+      "loss": -0.0642,
+      "num_tokens": 708739617.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.14564089477062225,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 1189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3841.0,
+      "completions/mean_length": 1123.8817138671875,
+      "completions/mean_terminated_length": 568.8238525390625,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 11.12128279883382,
+      "grad_norm": 0.16629146039485931,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 709261255.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.12009535729885101,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 1060.3148193359375,
+      "completions/mean_terminated_length": 687.5112915039062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.130612244897959,
+      "grad_norm": 0.15539808571338654,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 709902841.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16848503053188324,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2600.0,
+      "completions/mean_length": 1105.2176513671875,
+      "completions/mean_terminated_length": 602.2047119140625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.139941690962099,
+      "grad_norm": 0.15172308683395386,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 710453500.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.1259191483259201,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2918.0,
+      "completions/mean_length": 1015.0982666015625,
+      "completions/mean_terminated_length": 588.391357421875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 11.14927113702624,
+      "grad_norm": 0.17290890216827393,
+      "learning_rate": 1e-06,
+      "loss": -0.0856,
+      "num_tokens": 711011356.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.1471807062625885,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3223.0,
+      "completions/mean_length": 1098.9320068359375,
+      "completions/mean_terminated_length": 613.0259399414062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.15860058309038,
+      "grad_norm": 0.169038787484169,
+      "learning_rate": 1e-06,
+      "loss": -0.0839,
+      "num_tokens": 711575199.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.18825092911720276,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 950.8326416015625,
+      "completions/mean_terminated_length": 586.5728149414062,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 11.167930029154519,
+      "grad_norm": 0.16237430274486542,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 712143641.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.14312425255775452,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3027.0,
+      "completions/mean_length": 888.3984985351562,
+      "completions/mean_terminated_length": 595.3776245117188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.177259475218658,
+      "grad_norm": 0.13331414759159088,
+      "learning_rate": 1e-06,
+      "loss": -0.0562,
+      "num_tokens": 712711902.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.12726575136184692,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3703.0,
+      "completions/mean_length": 842.044677734375,
+      "completions/mean_terminated_length": 608.5071411132812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.186588921282798,
+      "grad_norm": 0.1372644603252411,
+      "learning_rate": 1e-06,
+      "loss": -0.0371,
+      "num_tokens": 713305966.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.12418459355831146,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 1070.2445068359375,
+      "completions/mean_terminated_length": 646.7926025390625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.19591836734694,
+      "grad_norm": 0.1399068981409073,
+      "learning_rate": 1e-06,
+      "loss": -0.0411,
+      "num_tokens": 713904097.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.131517231464386,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3031.0,
+      "completions/mean_length": 820.0089721679688,
+      "completions/mean_terminated_length": 568.0096435546875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 11.205247813411079,
+      "grad_norm": 0.15427544713020325,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 714448353.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.11242572218179703,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 823.9688110351562,
+      "completions/mean_terminated_length": 584.9341430664062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.214577259475218,
+      "grad_norm": 0.153758704662323,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 715022357.0,
+      "reward": 0.7611607313156128,
+      "reward_std": 0.1414310783147812,
+      "rewards/verify_math_reward/mean": 0.7611607313156128,
+      "rewards/verify_math_reward/std": 0.4266124963760376,
+      "step": 1200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3870.0,
+      "completions/mean_length": 1096.4921875,
+      "completions/mean_terminated_length": 681.0584106445312,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.223906705539358,
+      "grad_norm": 0.14793723821640015,
+      "learning_rate": 1e-06,
+      "loss": -0.0695,
+      "num_tokens": 715657806.0,
+      "reward": 0.625,
+      "reward_std": 0.14150916039943695,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3950.0,
+      "completions/mean_length": 1082.2489013671875,
+      "completions/mean_terminated_length": 703.6369018554688,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 11.2332361516035,
+      "grad_norm": 0.16762900352478027,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 716317781.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1716410517692566,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 1202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3839.0,
+      "completions/mean_length": 961.7176513671875,
+      "completions/mean_terminated_length": 585.603759765625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.242565597667639,
+      "grad_norm": 0.1698824018239975,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 716869896.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.12944495677947998,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 980.1663208007812,
+      "completions/mean_terminated_length": 597.52001953125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.251895043731778,
+      "grad_norm": 0.17149057984352112,
+      "learning_rate": 1e-06,
+      "loss": -0.0981,
+      "num_tokens": 717444101.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.19099396467208862,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3745.0,
+      "completions/mean_length": 942.8426513671875,
+      "completions/mean_terminated_length": 603.7515258789062,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 11.261224489795918,
+      "grad_norm": 0.14584524929523468,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 718034664.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.11468162387609482,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3418.0,
+      "completions/mean_length": 1093.130615234375,
+      "completions/mean_terminated_length": 619.8101196289062,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 11.270553935860057,
+      "grad_norm": 0.1828000545501709,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 718600733.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.14474186301231384,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2929.0,
+      "completions/mean_length": 1004.2935791015625,
+      "completions/mean_terminated_length": 646.2254028320312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.279883381924199,
+      "grad_norm": 0.147318035364151,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 719218860.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14237496256828308,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3344.0,
+      "completions/mean_length": 988.6428833007812,
+      "completions/mean_terminated_length": 628.7621459960938,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.289212827988338,
+      "grad_norm": 0.15306153893470764,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 719806932.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13493287563323975,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3811.0,
+      "completions/mean_length": 955.2332763671875,
+      "completions/mean_terminated_length": 626.052978515625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 11.298542274052478,
+      "grad_norm": 0.17227299511432648,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 720407205.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.15962284803390503,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3394.0,
+      "completions/mean_length": 952.4944458007812,
+      "completions/mean_terminated_length": 588.4271240234375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 11.307871720116617,
+      "grad_norm": 0.14727525413036346,
+      "learning_rate": 1e-06,
+      "loss": -0.0436,
+      "num_tokens": 720972152.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.10844233632087708,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 962.927490234375,
+      "completions/mean_terminated_length": 600.0684814453125,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 11.317201166180759,
+      "grad_norm": 0.1725059300661087,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 721541335.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.1760779768228531,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 898.7589721679688,
+      "completions/mean_terminated_length": 615.1640625,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 11.326530612244898,
+      "grad_norm": 0.16215938329696655,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 722125327.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.14846271276474,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2771.0,
+      "completions/mean_length": 813.8627319335938,
+      "completions/mean_terminated_length": 540.0205688476562,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 11.335860058309038,
+      "grad_norm": 0.16653843224048615,
+      "learning_rate": 1e-06,
+      "loss": -0.0206,
+      "num_tokens": 722663300.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13278645277023315,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3393.0,
+      "completions/mean_length": 957.818115234375,
+      "completions/mean_terminated_length": 607.4007568359375,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 11.345189504373177,
+      "grad_norm": 0.18848681449890137,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 723247585.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13139817118644714,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 1083.7098388671875,
+      "completions/mean_terminated_length": 604.3932495117188,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 11.354518950437317,
+      "grad_norm": 0.16831067204475403,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 723808629.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.13534656167030334,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2446.0,
+      "completions/mean_length": 1016.0201416015625,
+      "completions/mean_terminated_length": 557.9718017578125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.363848396501458,
+      "grad_norm": 0.15949741005897522,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 724326551.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.11205482482910156,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2720.0,
+      "completions/mean_length": 1077.0023193359375,
+      "completions/mean_terminated_length": 619.1079711914062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 11.373177842565598,
+      "grad_norm": 0.1645112782716751,
+      "learning_rate": 1e-06,
+      "loss": -0.0548,
+      "num_tokens": 724895905.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.12520237267017365,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 1217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3039.0,
+      "completions/mean_length": 971.6707763671875,
+      "completions/mean_terminated_length": 614.1604614257812,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 11.382507288629737,
+      "grad_norm": 0.1719530075788498,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 725481146.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15383115410804749,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3835.0,
+      "completions/mean_length": 1056.41748046875,
+      "completions/mean_terminated_length": 626.6165771484375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 11.391836734693877,
+      "grad_norm": 0.13213633000850677,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 726058072.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.10457134991884232,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3626.0,
+      "completions/mean_length": 1138.9320068359375,
+      "completions/mean_terminated_length": 672.8307495117188,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.401166180758018,
+      "grad_norm": 0.16146205365657806,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 726667451.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1444358229637146,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3948.0,
+      "completions/mean_length": 959.8214721679688,
+      "completions/mean_terminated_length": 579.0838623046875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 11.410495626822158,
+      "grad_norm": 0.15617051720619202,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 727218587.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.10585196316242218,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 1110.2723388671875,
+      "completions/mean_terminated_length": 635.1824340820312,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 11.419825072886297,
+      "grad_norm": 0.18704861402511597,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 727798167.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.1656332015991211,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 1222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2473.0,
+      "completions/mean_length": 927.2879638671875,
+      "completions/mean_terminated_length": 646.2235717773438,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 11.429154518950437,
+      "grad_norm": 0.1620962917804718,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 728417841.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1571405529975891,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4095.0,
+      "completions/mean_length": 1023.1975708007812,
+      "completions/mean_terminated_length": 606.4803466796875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 11.438483965014576,
+      "grad_norm": 0.17840290069580078,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 728993634.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13508442044258118,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3755.0,
+      "completions/mean_length": 973.536865234375,
+      "completions/mean_terminated_length": 611.9065551757812,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.447813411078718,
+      "grad_norm": 0.15685313940048218,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 729575483.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.13598524034023285,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2823.0,
+      "completions/mean_length": 933.3292846679688,
+      "completions/mean_terminated_length": 571.4315795898438,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 11.457142857142857,
+      "grad_norm": 0.15781155228614807,
+      "learning_rate": 1e-06,
+      "loss": -0.0636,
+      "num_tokens": 730124650.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.14928363263607025,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 1037.5926513671875,
+      "completions/mean_terminated_length": 622.82763671875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.466472303206997,
+      "grad_norm": 0.18427269160747528,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 730722901.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16558972001075745,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3253.0,
+      "completions/mean_length": 1113.4263916015625,
+      "completions/mean_terminated_length": 691.6866455078125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 11.475801749271136,
+      "grad_norm": 0.1259167641401291,
+      "learning_rate": 1e-06,
+      "loss": -0.0737,
+      "num_tokens": 731349355.0,
+      "reward": 0.6484375,
+      "reward_std": 0.11366245150566101,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3910.0,
+      "completions/mean_length": 1209.51904296875,
+      "completions/mean_terminated_length": 701.9225463867188,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 11.485131195335278,
+      "grad_norm": 0.15576831996440887,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 731974308.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.17667387425899506,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 1229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3979.0,
+      "completions/mean_length": 902.7723388671875,
+      "completions/mean_terminated_length": 598.2836303710938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.494460641399417,
+      "grad_norm": 0.15066871047019958,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 732543776.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.13109326362609863,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 955.4085083007812,
+      "completions/mean_terminated_length": 604.7221069335938,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 11.503790087463557,
+      "grad_norm": 0.15418845415115356,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 733113494.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.1364317238330841,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3604.0,
+      "completions/mean_length": 902.3035888671875,
+      "completions/mean_terminated_length": 635.8403930664062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.513119533527696,
+      "grad_norm": 0.17068997025489807,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 733732726.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.1443609744310379,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3653.0,
+      "completions/mean_length": 999.3951416015625,
+      "completions/mean_terminated_length": 627.802490234375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 11.522448979591836,
+      "grad_norm": 0.16228055953979492,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 734316168.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.15954798460006714,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2866.0,
+      "completions/mean_length": 1087.43310546875,
+      "completions/mean_terminated_length": 640.005126953125,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 11.531778425655977,
+      "grad_norm": 0.15073533356189728,
+      "learning_rate": 1e-06,
+      "loss": -0.0913,
+      "num_tokens": 734900220.0,
+      "reward": 0.65625,
+      "reward_std": 0.1583433598279953,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3666.0,
+      "completions/mean_length": 1051.71875,
+      "completions/mean_terminated_length": 603.4570922851562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.541107871720117,
+      "grad_norm": 0.18844175338745117,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 735459312.0,
+      "reward": 0.6640625,
+      "reward_std": 0.17720521986484528,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3674.0,
+      "completions/mean_length": 1063.9676513671875,
+      "completions/mean_terminated_length": 657.1380004882812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.550437317784256,
+      "grad_norm": 0.1428215205669403,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 736066603.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.12433585524559021,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 1219.5982666015625,
+      "completions/mean_terminated_length": 722.6282958984375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.559766763848396,
+      "grad_norm": 0.13630394637584686,
+      "learning_rate": 1e-06,
+      "loss": -0.0764,
+      "num_tokens": 736719835.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.12573368847370148,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 1237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4049.0,
+      "completions/mean_length": 921.8538208007812,
+      "completions/mean_terminated_length": 627.6646118164062,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 11.569096209912537,
+      "grad_norm": 0.15348593890666962,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 737333888.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.138881653547287,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3959.0,
+      "completions/mean_length": 1063.9296875,
+      "completions/mean_terminated_length": 639.5941772460938,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.578425655976677,
+      "grad_norm": 0.16186900436878204,
+      "learning_rate": 1e-06,
+      "loss": -0.072,
+      "num_tokens": 737919713.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.11753343045711517,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3553.0,
+      "completions/mean_length": 1004.6942138671875,
+      "completions/mean_terminated_length": 585.4676513671875,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 11.587755102040816,
+      "grad_norm": 0.1367913782596588,
+      "learning_rate": 1e-06,
+      "loss": -0.0478,
+      "num_tokens": 738478927.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11930260062217712,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 1005.34716796875,
+      "completions/mean_terminated_length": 608.31103515625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.597084548104956,
+      "grad_norm": 0.13521602749824524,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 739047910.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.08575044572353363,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 1109.2857666015625,
+      "completions/mean_terminated_length": 708.5367431640625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.606413994169095,
+      "grad_norm": 0.14619646966457367,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 739702086.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.13252612948417664,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 1242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3213.0,
+      "completions/mean_length": 951.0413208007812,
+      "completions/mean_terminated_length": 604.1995239257812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.615743440233237,
+      "grad_norm": 0.1499680131673813,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 740284443.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.13290660083293915,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3033.0,
+      "completions/mean_length": 925.661865234375,
+      "completions/mean_terminated_length": 580.37744140625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.625072886297376,
+      "grad_norm": 0.14974988996982574,
+      "learning_rate": 1e-06,
+      "loss": -0.0445,
+      "num_tokens": 740838740.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.13568103313446045,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3986.0,
+      "completions/mean_length": 1023.2188110351562,
+      "completions/mean_terminated_length": 632.8402709960938,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 11.634402332361516,
+      "grad_norm": 0.15908028185367584,
+      "learning_rate": 1e-06,
+      "loss": -0.0714,
+      "num_tokens": 741431512.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.12941217422485352,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 1098.4866943359375,
+      "completions/mean_terminated_length": 652.7025756835938,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 11.643731778425655,
+      "grad_norm": 0.17007242143154144,
+      "learning_rate": 1e-06,
+      "loss": -0.0752,
+      "num_tokens": 742034860.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17299722135066986,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 1011.1016235351562,
+      "completions/mean_terminated_length": 623.551513671875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 11.653061224489797,
+      "grad_norm": 0.13325351476669312,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 742615151.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12102647125720978,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3799.0,
+      "completions/mean_length": 1029.3795166015625,
+      "completions/mean_terminated_length": 648.4567260742188,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 11.662390670553936,
+      "grad_norm": 0.1285713016986847,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 743221595.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.11388886719942093,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4001.0,
+      "completions/mean_length": 957.1484985351562,
+      "completions/mean_terminated_length": 636.6998901367188,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.671720116618076,
+      "grad_norm": 0.1597519963979721,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 743824344.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.16134601831436157,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 970.7567138671875,
+      "completions/mean_terminated_length": 621.7841186523438,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 11.681049562682215,
+      "grad_norm": 0.14935170114040375,
+      "learning_rate": 1e-06,
+      "loss": -0.1032,
+      "num_tokens": 744414494.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1605985462665558,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3850.0,
+      "completions/mean_length": 1144.048095703125,
+      "completions/mean_terminated_length": 634.02490234375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 11.690379008746355,
+      "grad_norm": 0.13916262984275818,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 744978161.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11719895154237747,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2912.0,
+      "completions/mean_length": 1064.610595703125,
+      "completions/mean_terminated_length": 670.8739013671875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 11.699708454810496,
+      "grad_norm": 0.15602712333202362,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 745593828.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.18121929466724396,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2870.0,
+      "completions/mean_length": 983.0770263671875,
+      "completions/mean_terminated_length": 626.8718872070312,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.709037900874636,
+      "grad_norm": 0.16188177466392517,
+      "learning_rate": 1e-06,
+      "loss": -0.0762,
+      "num_tokens": 746187145.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16807454824447632,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3322.0,
+      "completions/mean_length": 1079.6920166015625,
+      "completions/mean_terminated_length": 674.97216796875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.718367346938775,
+      "grad_norm": 0.14454908668994904,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 746805533.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.15901413559913635,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3152.0,
+      "completions/mean_length": 902.1585083007812,
+      "completions/mean_terminated_length": 558.6921997070312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.727696793002915,
+      "grad_norm": 0.1539558470249176,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 747348075.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.11483247578144073,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3290.0,
+      "completions/mean_length": 918.3370971679688,
+      "completions/mean_terminated_length": 632.2700805664062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 11.737026239067056,
+      "grad_norm": 0.1389485001564026,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 747950185.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.14898376166820526,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3386.0,
+      "completions/mean_length": 1034.2254638671875,
+      "completions/mean_terminated_length": 623.4050903320312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.746355685131196,
+      "grad_norm": 0.15202346444129944,
+      "learning_rate": 1e-06,
+      "loss": -0.0663,
+      "num_tokens": 748529603.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1341412365436554,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3335.0,
+      "completions/mean_length": 1097.1138916015625,
+      "completions/mean_terminated_length": 655.5364990234375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 11.755685131195335,
+      "grad_norm": 0.17325426638126373,
+      "learning_rate": 1e-06,
+      "loss": -0.0816,
+      "num_tokens": 749127305.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1627788543701172,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4073.0,
+      "completions/mean_length": 886.3761596679688,
+      "completions/mean_terminated_length": 614.3741455078125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.765014577259475,
+      "grad_norm": 0.14746074378490448,
+      "learning_rate": 1e-06,
+      "loss": -0.0267,
+      "num_tokens": 749709746.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.12343572080135345,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4023.0,
+      "completions/mean_length": 1078.524658203125,
+      "completions/mean_terminated_length": 729.0535278320312,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.774344023323614,
+      "grad_norm": 0.1544639617204666,
+      "learning_rate": 1e-06,
+      "loss": -0.0672,
+      "num_tokens": 750389472.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.17761889100074768,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1607142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2627.0,
+      "completions/mean_length": 1214.0770263671875,
+      "completions/mean_terminated_length": 662.2194213867188,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 11.783673469387756,
+      "grad_norm": 0.1464691162109375,
+      "learning_rate": 1e-06,
+      "loss": -0.0756,
+      "num_tokens": 750984869.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.15375375747680664,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3653.0,
+      "completions/mean_length": 1033.49560546875,
+      "completions/mean_terminated_length": 653.0840454101562,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.793002915451895,
+      "grad_norm": 0.14695730805397034,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 751598801.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.12723183631896973,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 1031.7645263671875,
+      "completions/mean_terminated_length": 646.810302734375,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 11.802332361516035,
+      "grad_norm": 0.17821983993053436,
+      "learning_rate": 1e-06,
+      "loss": -0.0627,
+      "num_tokens": 752201502.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.17998537421226501,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 1263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3092.0,
+      "completions/mean_length": 929.9297485351562,
+      "completions/mean_terminated_length": 619.5306396484375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 11.811661807580174,
+      "grad_norm": 0.17771141231060028,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 752794879.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.15402477979660034,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2688.0,
+      "completions/mean_length": 1074.3270263671875,
+      "completions/mean_terminated_length": 620.4942626953125,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 11.820991253644316,
+      "grad_norm": 0.1463192105293274,
+      "learning_rate": 1e-06,
+      "loss": -0.1116,
+      "num_tokens": 753358812.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1529296189546585,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 1236.8951416015625,
+      "completions/mean_terminated_length": 693.9309692382812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.830320699708455,
+      "grad_norm": 0.15511496365070343,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 753975590.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14263640344142914,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 1266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3498.0,
+      "completions/mean_length": 1056.6685791015625,
+      "completions/mean_terminated_length": 622.4783325195312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 11.839650145772595,
+      "grad_norm": 0.17394381761550903,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 754546453.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.162291020154953,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 1039.255615234375,
+      "completions/mean_terminated_length": 620.3109130859375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.848979591836734,
+      "grad_norm": 0.16789045929908752,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 755125314.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.1317012757062912,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 1268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3631.0,
+      "completions/mean_length": 990.1842041015625,
+      "completions/mean_terminated_length": 634.7922973632812,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.858309037900874,
+      "grad_norm": 0.13596922159194946,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 755737839.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1086730808019638,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3026.0,
+      "completions/mean_length": 1142.2601318359375,
+      "completions/mean_terminated_length": 694.2634887695312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 11.867638483965015,
+      "grad_norm": 0.16801749169826508,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 756372184.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.16063174605369568,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3482.0,
+      "completions/mean_length": 1080.5848388671875,
+      "completions/mean_terminated_length": 614.2835083007812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 11.876967930029155,
+      "grad_norm": 0.15226885676383972,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 756935972.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1476692408323288,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3660.0,
+      "completions/mean_length": 1040.4765625,
+      "completions/mean_terminated_length": 639.2462158203125,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 11.886297376093294,
+      "grad_norm": 0.1780855357646942,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 757536103.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.17389805614948273,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 1103.6328125,
+      "completions/mean_terminated_length": 658.6141357421875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 11.895626822157434,
+      "grad_norm": 0.15448881685733795,
+      "learning_rate": 1e-06,
+      "loss": -0.0719,
+      "num_tokens": 758136334.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.15225812792778015,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 1273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3571.0,
+      "completions/mean_length": 941.8638916015625,
+      "completions/mean_terminated_length": 594.0099487304688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.904956268221575,
+      "grad_norm": 0.13812041282653809,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 758701884.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.12715445458889008,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3987.0,
+      "completions/mean_length": 771.6975708007812,
+      "completions/mean_terminated_length": 562.6963500976562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.914285714285715,
+      "grad_norm": 0.15619826316833496,
+      "learning_rate": 1e-06,
+      "loss": -0.0335,
+      "num_tokens": 759256861.0,
+      "reward": 0.7600446939468384,
+      "reward_std": 0.11445268988609314,
+      "rewards/verify_math_reward/mean": 0.7600446343421936,
+      "rewards/verify_math_reward/std": 0.42729446291923523,
+      "step": 1275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 1004.7723388671875,
+      "completions/mean_terminated_length": 607.6624145507812,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 11.923615160349854,
+      "grad_norm": 0.16423825919628143,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 759828201.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.15000112354755402,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3125.0,
+      "completions/mean_length": 952.0870971679688,
+      "completions/mean_terminated_length": 557.1231079101562,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 11.932944606413994,
+      "grad_norm": 0.15073250234127045,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 760367271.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1238475888967514,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 1097.114990234375,
+      "completions/mean_terminated_length": 703.3219604492188,
+      "completions/min_length": 204.0,
+      "completions/min_terminated_length": 204.0,
+      "epoch": 11.942274052478133,
+      "grad_norm": 0.14329920709133148,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 761004142.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.12669983506202698,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3652.0,
+      "completions/mean_length": 1045.125,
+      "completions/mean_terminated_length": 653.198974609375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 11.951603498542275,
+      "grad_norm": 0.1631573885679245,
+      "learning_rate": 1e-06,
+      "loss": -0.0393,
+      "num_tokens": 761614686.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.14489272236824036,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 938.0859985351562,
+      "completions/mean_terminated_length": 611.4051513671875,
+      "completions/min_length": 79.0,
+      "completions/min_terminated_length": 79.0,
+      "epoch": 11.960932944606414,
+      "grad_norm": 0.1288825422525406,
+      "learning_rate": 1e-06,
+      "loss": -0.0243,
+      "num_tokens": 762202323.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.11095966398715973,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2668.0,
+      "completions/mean_length": 960.0156860351562,
+      "completions/mean_terminated_length": 652.5662231445312,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.970262390670554,
+      "grad_norm": 0.17056560516357422,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 762827601.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.204411119222641,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3916.0,
+      "completions/mean_length": 923.2288208007812,
+      "completions/mean_terminated_length": 620.6907348632812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 11.979591836734693,
+      "grad_norm": 0.13725991547107697,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 763414270.0,
+      "reward": 0.7511160969734192,
+      "reward_std": 0.1294453889131546,
+      "rewards/verify_math_reward/mean": 0.7511160969734192,
+      "rewards/verify_math_reward/std": 0.43260788917541504,
+      "step": 1282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3685.0,
+      "completions/mean_length": 1124.609375,
+      "completions/mean_terminated_length": 673.9357299804688,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 11.988921282798835,
+      "grad_norm": 0.14854204654693604,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 764042680.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.14458850026130676,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 1283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.16761363636363635,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 1268.0455322265625,
+      "completions/mean_terminated_length": 698.5938110351562,
+      "completions/min_length": 215.0,
+      "completions/min_terminated_length": 215.0,
+      "epoch": 11.998250728862974,
+      "grad_norm": 0.1653452068567276,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 764643965.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.15011171996593475,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 1057.899658203125,
+      "completions/mean_terminated_length": 667.6145629882812,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 12.00932944606414,
+      "grad_norm": 0.14917266368865967,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 765266555.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1424509435892105,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 1019.388427734375,
+      "completions/mean_terminated_length": 650.1950073242188,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 12.018658892128279,
+      "grad_norm": 0.16054093837738037,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 765880119.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.14373156428337097,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3362.0,
+      "completions/mean_length": 1008.6719360351562,
+      "completions/mean_terminated_length": 638.1925048828125,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.02798833819242,
+      "grad_norm": 0.16151976585388184,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 766481601.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1589481383562088,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3978.0,
+      "completions/mean_length": 1003.4308471679688,
+      "completions/mean_terminated_length": 649.5546875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.03731778425656,
+      "grad_norm": 0.13827915489673615,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 767089795.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.11681988090276718,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2951.0,
+      "completions/mean_length": 953.0234985351562,
+      "completions/mean_terminated_length": 674.2418212890625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 12.0466472303207,
+      "grad_norm": 0.15015266835689545,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 767740128.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.16915972530841827,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4022.0,
+      "completions/mean_length": 903.6652221679688,
+      "completions/mean_terminated_length": 607.7902221679688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.055976676384839,
+      "grad_norm": 0.1472347229719162,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 768315092.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.1295951008796692,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3620.0,
+      "completions/mean_length": 988.9866333007812,
+      "completions/mean_terminated_length": 663.343994140625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 12.06530612244898,
+      "grad_norm": 0.15924403071403503,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 768945408.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13493216037750244,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3074.0,
+      "completions/mean_length": 1049.0357666015625,
+      "completions/mean_terminated_length": 666.251220703125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 12.07463556851312,
+      "grad_norm": 0.16694320738315582,
+      "learning_rate": 1e-06,
+      "loss": -0.0621,
+      "num_tokens": 769563224.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16735847294330597,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 1038.19873046875,
+      "completions/mean_terminated_length": 645.3828735351562,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 12.08396501457726,
+      "grad_norm": 0.18636220693588257,
+      "learning_rate": 1e-06,
+      "loss": -0.0208,
+      "num_tokens": 770178442.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16724829375743866,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3792.0,
+      "completions/mean_length": 1080.849365234375,
+      "completions/mean_terminated_length": 658.8816528320312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.093294460641399,
+      "grad_norm": 0.15357685089111328,
+      "learning_rate": 1e-06,
+      "loss": -0.0893,
+      "num_tokens": 770798195.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15657459199428558,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3169.0,
+      "completions/mean_length": 1008.982177734375,
+      "completions/mean_terminated_length": 621.1658325195312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 12.102623906705539,
+      "grad_norm": 0.16940230131149292,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 771385307.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.14838533103466034,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 949.8850708007812,
+      "completions/mean_terminated_length": 641.4424438476562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.11195335276968,
+      "grad_norm": 0.12281103432178497,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 772003996.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.11178591102361679,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3357.0,
+      "completions/mean_length": 982.138427734375,
+      "completions/mean_terminated_length": 643.0049438476562,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 12.12128279883382,
+      "grad_norm": 0.14556923508644104,
+      "learning_rate": 1e-06,
+      "loss": -0.0758,
+      "num_tokens": 772623560.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.13891513645648956,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3314.0,
+      "completions/mean_length": 1049.982177734375,
+      "completions/mean_terminated_length": 680.1902465820312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.130612244897959,
+      "grad_norm": 0.1514204889535904,
+      "learning_rate": 1e-06,
+      "loss": -0.0588,
+      "num_tokens": 773261472.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.15672755241394043,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3660.0,
+      "completions/mean_length": 1008.6574096679688,
+      "completions/mean_terminated_length": 680.865478515625,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 12.139941690962099,
+      "grad_norm": 0.13329489529132843,
+      "learning_rate": 1e-06,
+      "loss": -0.0535,
+      "num_tokens": 773896621.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1205839142203331,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 838.1908569335938,
+      "completions/mean_terminated_length": 557.8218383789062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 12.14927113702624,
+      "grad_norm": 0.15283958613872528,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 774440376.0,
+      "reward": 0.7979910969734192,
+      "reward_std": 0.09514645487070084,
+      "rewards/verify_math_reward/mean": 0.7979910969734192,
+      "rewards/verify_math_reward/std": 0.40172311663627625,
+      "step": 1300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3495.0,
+      "completions/mean_length": 966.9375610351562,
+      "completions/mean_terminated_length": 617.5384521484375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 12.15860058309038,
+      "grad_norm": 0.12828518450260162,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 775033200.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.10761747509241104,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599096059799194,
+      "step": 1301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3349.0,
+      "completions/mean_length": 1072.46875,
+      "completions/mean_terminated_length": 675.4393920898438,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.167930029154519,
+      "grad_norm": 0.15174058079719543,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 775653172.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.17795519530773163,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 1168.921875,
+      "completions/mean_terminated_length": 689.9454345703125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 12.177259475218658,
+      "grad_norm": 0.15555673837661743,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 776275990.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1197904497385025,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3272.0,
+      "completions/mean_length": 918.6295166015625,
+      "completions/mean_terminated_length": 598.5503540039062,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.186588921282798,
+      "grad_norm": 0.1464909166097641,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 776848634.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.09397321194410324,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3310.0,
+      "completions/mean_length": 851.2767944335938,
+      "completions/mean_terminated_length": 559.1727294921875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 12.19591836734694,
+      "grad_norm": 0.1588182896375656,
+      "learning_rate": 1e-06,
+      "loss": -0.0302,
+      "num_tokens": 777392426.0,
+      "reward": 0.754464328289032,
+      "reward_std": 0.12805600464344025,
+      "rewards/verify_math_reward/mean": 0.7544642686843872,
+      "rewards/verify_math_reward/std": 0.43064478039741516,
+      "step": 1305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 1188.5648193359375,
+      "completions/mean_terminated_length": 668.286865234375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.205247813411079,
+      "grad_norm": 0.15582671761512756,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 777992220.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.13267767429351807,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 1306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3874.0,
+      "completions/mean_length": 985.22216796875,
+      "completions/mean_terminated_length": 637.86474609375,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 12.214577259475218,
+      "grad_norm": 0.16907796263694763,
+      "learning_rate": 1e-06,
+      "loss": -0.0447,
+      "num_tokens": 778589531.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.15744182467460632,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3609.0,
+      "completions/mean_length": 1081.1116943359375,
+      "completions/mean_terminated_length": 672.2484130859375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 12.223906705539358,
+      "grad_norm": 0.17167146503925323,
+      "learning_rate": 1e-06,
+      "loss": -0.0851,
+      "num_tokens": 779216519.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1906241774559021,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 1308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 987.9230346679688,
+      "completions/mean_terminated_length": 632.2723999023438,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.2332361516035,
+      "grad_norm": 0.15194860100746155,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 779808842.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1300847828388214,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 1139.3795166015625,
+      "completions/mean_terminated_length": 655.56884765625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.242565597667639,
+      "grad_norm": 0.1756047159433365,
+      "learning_rate": 1e-06,
+      "loss": -0.0842,
+      "num_tokens": 780404390.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16976381838321686,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2885.0,
+      "completions/mean_length": 914.2332763671875,
+      "completions/mean_terminated_length": 610.8374633789062,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 12.251895043731778,
+      "grad_norm": 0.12352645397186279,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 780990535.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.10652484744787216,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3014.0,
+      "completions/mean_length": 1047.0045166015625,
+      "completions/mean_terminated_length": 646.6312866210938,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 12.261224489795918,
+      "grad_norm": 0.15764611959457397,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 781588835.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.15015266835689545,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2969.0,
+      "completions/mean_length": 1011.0123291015625,
+      "completions/mean_terminated_length": 592.642578125,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.270553935860057,
+      "grad_norm": 0.1534235179424286,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 782149750.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13616958260536194,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3865.0,
+      "completions/mean_length": 1072.6585693359375,
+      "completions/mean_terminated_length": 658.2918701171875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 12.279883381924199,
+      "grad_norm": 0.15974879264831543,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 782769940.0,
+      "reward": 0.625,
+      "reward_std": 0.15417702496051788,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3825.0,
+      "completions/mean_length": 935.22998046875,
+      "completions/mean_terminated_length": 595.3201293945312,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.289212827988338,
+      "grad_norm": 0.16423502564430237,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 783341490.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14661657810211182,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3647.0,
+      "completions/mean_length": 974.294677734375,
+      "completions/mean_terminated_length": 680.801025390625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.298542274052478,
+      "grad_norm": 0.15298013389110565,
+      "learning_rate": 1e-06,
+      "loss": -0.0478,
+      "num_tokens": 783991714.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1390673965215683,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1073.90625,
+      "completions/mean_terminated_length": 646.578369140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.307871720116617,
+      "grad_norm": 0.19653767347335815,
+      "learning_rate": 1e-06,
+      "loss": -0.0918,
+      "num_tokens": 784592294.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1755894273519516,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3439.0,
+      "completions/mean_length": 1049.2054443359375,
+      "completions/mean_terminated_length": 687.8501586914062,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.317201166180759,
+      "grad_norm": 0.1472688913345337,
+      "learning_rate": 1e-06,
+      "loss": -0.0452,
+      "num_tokens": 785227606.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.13238415122032166,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3811.0,
+      "completions/mean_length": 979.72998046875,
+      "completions/mean_terminated_length": 648.86669921875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 12.326530612244898,
+      "grad_norm": 0.14581452310085297,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 785837876.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1526353806257248,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2732.0,
+      "completions/mean_length": 1018.1183471679688,
+      "completions/mean_terminated_length": 661.6513061523438,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 12.335860058309038,
+      "grad_norm": 0.16291938722133636,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 786453958.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.14617221057415009,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3888.0,
+      "completions/mean_length": 845.0904541015625,
+      "completions/mean_terminated_length": 548.11328125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.345189504373177,
+      "grad_norm": 0.15102356672286987,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 786990543.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.11542978882789612,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3656.0,
+      "completions/mean_length": 973.28466796875,
+      "completions/mean_terminated_length": 611.6251220703125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 12.354518950437317,
+      "grad_norm": 0.1624811887741089,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 787565590.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.14692038297653198,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3564.0,
+      "completions/mean_length": 865.8861694335938,
+      "completions/mean_terminated_length": 600.611083984375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.363848396501458,
+      "grad_norm": 0.13667301833629608,
+      "learning_rate": 1e-06,
+      "loss": -0.0248,
+      "num_tokens": 788150288.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.11983321607112885,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 993.4933471679688,
+      "completions/mean_terminated_length": 664.0913696289062,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.373177842565598,
+      "grad_norm": 0.14774277806282043,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 788773298.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.13591109216213226,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3933.0,
+      "completions/mean_length": 1012.3281860351562,
+      "completions/mean_terminated_length": 646.5992431640625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 12.382507288629737,
+      "grad_norm": 0.14986541867256165,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 789364976.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1265917420387268,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3267.0,
+      "completions/mean_length": 937.2098388671875,
+      "completions/mean_terminated_length": 623.2687377929688,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 12.391836734693877,
+      "grad_norm": 0.11901839077472687,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 789958460.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.10791100561618805,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3697.0,
+      "completions/mean_length": 1145.1585693359375,
+      "completions/mean_terminated_length": 693.227783203125,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 12.401166180758018,
+      "grad_norm": 0.12237332761287689,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 790596850.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.11471301317214966,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3038.0,
+      "completions/mean_length": 887.46435546875,
+      "completions/mean_terminated_length": 623.9613647460938,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.410495626822158,
+      "grad_norm": 0.1623559445142746,
+      "learning_rate": 1e-06,
+      "loss": -0.0597,
+      "num_tokens": 791207858.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.15706203877925873,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3717.0,
+      "completions/mean_length": 989.3906860351562,
+      "completions/mean_terminated_length": 646.7781982421875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 12.419825072886297,
+      "grad_norm": 0.19060024619102478,
+      "learning_rate": 1e-06,
+      "loss": -0.0733,
+      "num_tokens": 791809104.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.13760174810886383,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 1093.9420166015625,
+      "completions/mean_terminated_length": 643.0552368164062,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 12.429154518950437,
+      "grad_norm": 0.14512689411640167,
+      "learning_rate": 1e-06,
+      "loss": -0.0644,
+      "num_tokens": 792402300.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.13809029757976532,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 1330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 964.4219360351562,
+      "completions/mean_terminated_length": 644.7158813476562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 12.438483965014576,
+      "grad_norm": 0.15456648170948029,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 793006342.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.13470715284347534,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 1029.1317138671875,
+      "completions/mean_terminated_length": 652.4987182617188,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 12.447813411078718,
+      "grad_norm": 0.16465410590171814,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 793618308.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.16773684322834015,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 1079.8359375,
+      "completions/mean_terminated_length": 696.6503295898438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 12.457142857142857,
+      "grad_norm": 0.16468089818954468,
+      "learning_rate": 1e-06,
+      "loss": -0.0452,
+      "num_tokens": 794265297.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1518009752035141,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 1333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 1030.423095703125,
+      "completions/mean_terminated_length": 619.0924072265625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 12.466472303206997,
+      "grad_norm": 0.14571166038513184,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 794845756.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1477861851453781,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 1032.193115234375,
+      "completions/mean_terminated_length": 655.9360961914062,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.475801749271136,
+      "grad_norm": 0.14784695208072662,
+      "learning_rate": 1e-06,
+      "loss": -0.0775,
+      "num_tokens": 795460169.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.14507704973220825,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3144.0,
+      "completions/mean_length": 942.9944458007812,
+      "completions/mean_terminated_length": 595.2651977539062,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 12.485131195335278,
+      "grad_norm": 0.15652582049369812,
+      "learning_rate": 1e-06,
+      "loss": -0.0714,
+      "num_tokens": 796021180.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.1357916295528412,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3973.0,
+      "completions/mean_length": 999.1004638671875,
+      "completions/mean_terminated_length": 644.7288208007812,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 12.494460641399417,
+      "grad_norm": 0.14160537719726562,
+      "learning_rate": 1e-06,
+      "loss": -0.0615,
+      "num_tokens": 796623638.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1447739452123642,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 1010.1551513671875,
+      "completions/mean_terminated_length": 639.853759765625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.503790087463557,
+      "grad_norm": 0.15588660538196564,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 797221425.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.13722378015518188,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2740.0,
+      "completions/mean_length": 889.58935546875,
+      "completions/mean_terminated_length": 592.4097290039062,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.513119533527696,
+      "grad_norm": 0.14510086178779602,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 797787425.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.16209529340267181,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3453.0,
+      "completions/mean_length": 947.3426513671875,
+      "completions/mean_terminated_length": 591.407470703125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.522448979591836,
+      "grad_norm": 0.15744498372077942,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 798369292.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.11704740673303604,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 861.200927734375,
+      "completions/mean_terminated_length": 578.5485229492188,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 12.531778425655977,
+      "grad_norm": 0.1440727561712265,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 798937856.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.13342584669589996,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3445.0,
+      "completions/mean_length": 983.8381958007812,
+      "completions/mean_terminated_length": 584.0390014648438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.541107871720117,
+      "grad_norm": 0.16874141991138458,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 799503071.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.15202990174293518,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3402.0,
+      "completions/mean_length": 970.9442138671875,
+      "completions/mean_terminated_length": 617.677001953125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 12.550437317784256,
+      "grad_norm": 0.14087730646133423,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 800089085.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1222303956747055,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3863.0,
+      "completions/mean_length": 992.7500610351562,
+      "completions/mean_terminated_length": 646.2332153320312,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 12.559766763848396,
+      "grad_norm": 0.15147152543067932,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 800696861.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.14034590125083923,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 893.81591796875,
+      "completions/mean_terminated_length": 622.4443359375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 12.569096209912537,
+      "grad_norm": 0.14602839946746826,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 801291464.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.12174323946237564,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3396.0,
+      "completions/mean_length": 1119.8951416015625,
+      "completions/mean_terminated_length": 681.6722412109375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 12.578425655976677,
+      "grad_norm": 0.16214600205421448,
+      "learning_rate": 1e-06,
+      "loss": -0.0688,
+      "num_tokens": 801917698.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15228882431983948,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3782.0,
+      "completions/mean_length": 943.4576416015625,
+      "completions/mean_terminated_length": 634.3848266601562,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 12.587755102040816,
+      "grad_norm": 0.13340987265110016,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 802534276.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.1303892731666565,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 1031.860595703125,
+      "completions/mean_terminated_length": 664.1637573242188,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.597084548104956,
+      "grad_norm": 0.15837465226650238,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 803155439.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1432330161333084,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 999.0234985351562,
+      "completions/mean_terminated_length": 614.3299560546875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.606413994169095,
+      "grad_norm": 0.16334226727485657,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 803730268.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.1442175954580307,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3904.0,
+      "completions/mean_length": 1002.771240234375,
+      "completions/mean_terminated_length": 601.0025024414062,
+      "completions/min_length": 82.0,
+      "completions/min_terminated_length": 82.0,
+      "epoch": 12.615743440233237,
+      "grad_norm": 0.16276484727859497,
+      "learning_rate": 1e-06,
+      "loss": -0.0883,
+      "num_tokens": 804294591.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.14312425255775452,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 1086.8851318359375,
+      "completions/mean_terminated_length": 608.07373046875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 12.625072886297376,
+      "grad_norm": 0.17980749905109406,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 804861432.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12550798058509827,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3732.0,
+      "completions/mean_length": 991.7500610351562,
+      "completions/mean_terminated_length": 606.153076171875,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 12.634402332361516,
+      "grad_norm": 0.3175767660140991,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 805436472.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.13508622348308563,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3016.0,
+      "completions/mean_length": 848.1194458007812,
+      "completions/mean_terminated_length": 648.0130615234375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 12.643731778425655,
+      "grad_norm": 0.16018827259540558,
+      "learning_rate": 1e-06,
+      "loss": -0.0169,
+      "num_tokens": 806060531.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.13395969569683075,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3601.0,
+      "completions/mean_length": 1118.18310546875,
+      "completions/mean_terminated_length": 675.3282470703125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.653061224489797,
+      "grad_norm": 0.1592092365026474,
+      "learning_rate": 1e-06,
+      "loss": -0.0804,
+      "num_tokens": 806685863.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1529735028743744,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3878.0,
+      "completions/mean_length": 1150.318115234375,
+      "completions/mean_terminated_length": 677.1774291992188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.662390670553936,
+      "grad_norm": 0.15997087955474854,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 807292580.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14477324485778809,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3767.0,
+      "completions/mean_length": 1049.462158203125,
+      "completions/mean_terminated_length": 640.6860961914062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 12.671720116618076,
+      "grad_norm": 0.1335633099079132,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 807893314.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.10761930048465729,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 1031.857177734375,
+      "completions/mean_terminated_length": 603.0330810546875,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 12.681049562682215,
+      "grad_norm": 0.16285446286201477,
+      "learning_rate": 1e-06,
+      "loss": -0.0788,
+      "num_tokens": 808466170.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.12982586026191711,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3775.0,
+      "completions/mean_length": 1027.227783203125,
+      "completions/mean_terminated_length": 624.257568359375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.690379008746355,
+      "grad_norm": 0.18423277139663696,
+      "learning_rate": 1e-06,
+      "loss": -0.0748,
+      "num_tokens": 809050238.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15706273913383484,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 1007.6607666015625,
+      "completions/mean_terminated_length": 649.9825439453125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.699708454810496,
+      "grad_norm": 0.1600826382637024,
+      "learning_rate": 1e-06,
+      "loss": -0.0632,
+      "num_tokens": 809661230.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.15033671259880066,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 924.7332763671875,
+      "completions/mean_terminated_length": 622.3386840820312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.709037900874636,
+      "grad_norm": 0.144283264875412,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 810251999.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13342836499214172,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1360
+    },
+    {
+      "clip_ratio/high_max": 0.044763242709450424,
+      "clip_ratio/high_mean": 0.02001080778427422,
+      "clip_ratio/low_mean": 0.0020710817734652665,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.022081889619585127,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3147.0,
+      "completions/mean_length": 1087.747802734375,
+      "completions/mean_terminated_length": 586.3724365234375,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 12.718367346938775,
+      "grad_norm": 0.19869470596313477,
+      "learning_rate": 1e-06,
+      "loss": -0.0822,
+      "num_tokens": 810793957.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1593957394361496,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3465.0,
+      "completions/mean_length": 1020.489990234375,
+      "completions/mean_terminated_length": 616.6350708007812,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.727696793002915,
+      "grad_norm": 0.14233970642089844,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 811368244.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.13192838430404663,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3954.0,
+      "completions/mean_length": 899.7277221679688,
+      "completions/mean_terminated_length": 611.9854125976562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.737026239067056,
+      "grad_norm": 0.1616661548614502,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 811960384.0,
+      "reward": 0.754464328289032,
+      "reward_std": 0.14045536518096924,
+      "rewards/verify_math_reward/mean": 0.7544642686843872,
+      "rewards/verify_math_reward/std": 0.4306447505950928,
+      "step": 1363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3245.0,
+      "completions/mean_length": 836.7545166015625,
+      "completions/mean_terminated_length": 573.3413696289062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 12.746355685131196,
+      "grad_norm": 0.1772317737340927,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 812525732.0,
+      "reward": 0.7767857313156128,
+      "reward_std": 0.13016103208065033,
+      "rewards/verify_math_reward/mean": 0.7767857313156128,
+      "rewards/verify_math_reward/std": 0.41663339734077454,
+      "step": 1364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3460.0,
+      "completions/mean_length": 1024.688720703125,
+      "completions/mean_terminated_length": 660.4257202148438,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 12.755685131195335,
+      "grad_norm": 0.15694238245487213,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 813150549.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14286211133003235,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3661.0,
+      "completions/mean_length": 1028.212158203125,
+      "completions/mean_terminated_length": 672.9140625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.765014577259475,
+      "grad_norm": 0.14862021803855896,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 813785067.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14207187294960022,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2939.0,
+      "completions/mean_length": 877.7656860351562,
+      "completions/mean_terminated_length": 605.033935546875,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 12.774344023323614,
+      "grad_norm": 0.12555168569087982,
+      "learning_rate": 1e-06,
+      "loss": -0.029,
+      "num_tokens": 814370041.0,
+      "reward": 0.7689732313156128,
+      "reward_std": 0.10634120553731918,
+      "rewards/verify_math_reward/mean": 0.7689732313156128,
+      "rewards/verify_math_reward/std": 0.42172491550445557,
+      "step": 1367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3003.0,
+      "completions/mean_length": 1074.454345703125,
+      "completions/mean_terminated_length": 655.9682006835938,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 12.783673469387756,
+      "grad_norm": 0.17224238812923431,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 814981904.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.149361714720726,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3102.0,
+      "completions/mean_length": 1024.899658203125,
+      "completions/mean_terminated_length": 608.4131469726562,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.793002915451895,
+      "grad_norm": 0.15515033900737762,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 815551670.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14150916039943695,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4066.0,
+      "completions/mean_length": 933.6652221679688,
+      "completions/mean_terminated_length": 640.5707397460938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 12.802332361516035,
+      "grad_norm": 0.14375588297843933,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 816163802.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.13760173320770264,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2610.0,
+      "completions/mean_length": 873.7745971679688,
+      "completions/mean_terminated_length": 566.5208129882812,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.811661807580174,
+      "grad_norm": 0.13700838387012482,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 816707880.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.11840105801820755,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 931.5391235351562,
+      "completions/mean_terminated_length": 599.8754272460938,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 12.820991253644316,
+      "grad_norm": 0.13432341814041138,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 817274451.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.10626382380723953,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2784.0,
+      "completions/mean_length": 952.02685546875,
+      "completions/mean_terminated_length": 626.7881469726562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.830320699708455,
+      "grad_norm": 0.16752497851848602,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 817885251.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.12151430547237396,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 948.10498046875,
+      "completions/mean_terminated_length": 600.9392700195312,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.839650145772595,
+      "grad_norm": 0.13814741373062134,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 818457761.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.107620008289814,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 933.9576416015625,
+      "completions/mean_terminated_length": 580.8759155273438,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 12.848979591836734,
+      "grad_norm": 0.16600094735622406,
+      "learning_rate": 1e-06,
+      "loss": -0.0817,
+      "num_tokens": 819013907.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1651446521282196,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 813.4620971679688,
+      "completions/mean_terminated_length": 631.7432250976562,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 12.858309037900874,
+      "grad_norm": 0.14070355892181396,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 819637337.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.09653403609991074,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3696.0,
+      "completions/mean_length": 874.4107666015625,
+      "completions/mean_terminated_length": 592.91259765625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.867638483965015,
+      "grad_norm": 0.15715956687927246,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 820223433.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.13632294535636902,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3231.0,
+      "completions/mean_length": 962.0949096679688,
+      "completions/mean_terminated_length": 607.8273315429688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 12.876967930029155,
+      "grad_norm": 0.149428591132164,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 820789486.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.12043054401874542,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4047.0,
+      "completions/mean_length": 976.0078735351562,
+      "completions/mean_terminated_length": 640.4832763671875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.886297376093294,
+      "grad_norm": 0.13740494847297668,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 821395133.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1324155330657959,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.46896928548812866,
+      "step": 1379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3382.0,
+      "completions/mean_length": 960.3538208007812,
+      "completions/mean_terminated_length": 631.710205078125,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 12.895626822157434,
+      "grad_norm": 0.15093958377838135,
+      "learning_rate": 1e-06,
+      "loss": -0.031,
+      "num_tokens": 821990906.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.13177794218063354,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3692.0,
+      "completions/mean_length": 1004.1551513671875,
+      "completions/mean_terminated_length": 633.1337280273438,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 12.904956268221575,
+      "grad_norm": 0.1666753888130188,
+      "learning_rate": 1e-06,
+      "loss": -0.063,
+      "num_tokens": 822588709.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16803108155727386,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4061.0,
+      "completions/mean_length": 1121.8873291015625,
+      "completions/mean_terminated_length": 692.6730346679688,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 12.914285714285715,
+      "grad_norm": 0.1525610238313675,
+      "learning_rate": 1e-06,
+      "loss": -0.0679,
+      "num_tokens": 823217000.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16311518847942352,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 1127.591552734375,
+      "completions/mean_terminated_length": 655.2574462890625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 12.923615160349854,
+      "grad_norm": 0.13580629229545593,
+      "learning_rate": 1e-06,
+      "loss": -0.0732,
+      "num_tokens": 823822730.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.13113926351070404,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 1093.421875,
+      "completions/mean_terminated_length": 606.62255859375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 12.932944606413994,
+      "grad_norm": 0.146683469414711,
+      "learning_rate": 1e-06,
+      "loss": -0.0332,
+      "num_tokens": 824380700.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11175382882356644,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3434.0,
+      "completions/mean_length": 991.0748291015625,
+      "completions/mean_terminated_length": 596.612548828125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.942274052478133,
+      "grad_norm": 0.14774489402770996,
+      "learning_rate": 1e-06,
+      "loss": -0.0709,
+      "num_tokens": 824940527.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.12989819049835205,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2578.0,
+      "completions/mean_length": 1005.1160888671875,
+      "completions/mean_terminated_length": 629.8773803710938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 12.951603498542275,
+      "grad_norm": 0.16044920682907104,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 825543711.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1305733323097229,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3962.0,
+      "completions/mean_length": 1091.2388916015625,
+      "completions/mean_terminated_length": 718.0,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.960932944606414,
+      "grad_norm": 0.14671629667282104,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 826203421.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.14440304040908813,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3843.0,
+      "completions/mean_length": 939.0703735351562,
+      "completions/mean_terminated_length": 625.3140869140625,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 12.970262390670554,
+      "grad_norm": 0.17984363436698914,
+      "learning_rate": 1e-06,
+      "loss": -0.0746,
+      "num_tokens": 826805996.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.1908092051744461,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3645.0,
+      "completions/mean_length": 910.4442138671875,
+      "completions/mean_terminated_length": 585.2275390625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 12.979591836734693,
+      "grad_norm": 0.17228901386260986,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 827369682.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12490109354257584,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3901.0,
+      "completions/mean_length": 1046.32373046875,
+      "completions/mean_terminated_length": 610.6555786132812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 12.988921282798835,
+      "grad_norm": 0.15714819729328156,
+      "learning_rate": 1e-06,
+      "loss": -0.085,
+      "num_tokens": 827930628.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.13688497245311737,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3909.0,
+      "completions/mean_length": 929.755615234375,
+      "completions/mean_terminated_length": 593.58642578125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.998250728862974,
+      "grad_norm": 0.1533220112323761,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 828507937.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.12233986705541611,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3688.0,
+      "completions/mean_length": 826.6495971679688,
+      "completions/mean_terminated_length": 616.9762573242188,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 13.00932944606414,
+      "grad_norm": 0.1632736474275589,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 829117855.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.15762796998023987,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3512.0,
+      "completions/mean_length": 879.5558471679688,
+      "completions/mean_terminated_length": 577.1550903320312,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 13.018658892128279,
+      "grad_norm": 0.14047789573669434,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 829686993.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.12752537429332733,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3976.0,
+      "completions/mean_length": 1028.6842041015625,
+      "completions/mean_terminated_length": 621.5183715820312,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 13.02798833819242,
+      "grad_norm": 0.14009352028369904,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 830271614.0,
+      "reward": 0.65625,
+      "reward_std": 0.13211244344711304,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 991.107177734375,
+      "completions/mean_terminated_length": 596.6490478515625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.03731778425656,
+      "grad_norm": 0.16221703588962555,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 830850326.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.13403315842151642,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2624.0,
+      "completions/mean_length": 858.443115234375,
+      "completions/mean_terminated_length": 554.0574340820312,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 13.0466472303207,
+      "grad_norm": 0.1568409651517868,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 831398675.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.1302698254585266,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3687.0,
+      "completions/mean_length": 961.7969360351562,
+      "completions/mean_terminated_length": 607.4956665039062,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 13.055976676384839,
+      "grad_norm": 0.14957326650619507,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 831978341.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.1219707801938057,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 1021.6160888671875,
+      "completions/mean_terminated_length": 617.9091186523438,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 13.06530612244898,
+      "grad_norm": 0.1544959843158722,
+      "learning_rate": 1e-06,
+      "loss": -0.0731,
+      "num_tokens": 832579173.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.1418864130973816,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 1398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3442.0,
+      "completions/mean_length": 899.35498046875,
+      "completions/mean_terminated_length": 603.0805053710938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.07463556851312,
+      "grad_norm": 0.16523684561252594,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 833161611.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.14864817261695862,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 859.0748291015625,
+      "completions/mean_terminated_length": 639.1644897460938,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 13.08396501457726,
+      "grad_norm": 0.11886455863714218,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 833785710.0,
+      "reward": 0.7756696939468384,
+      "reward_std": 0.1016007736325264,
+      "rewards/verify_math_reward/mean": 0.7756696343421936,
+      "rewards/verify_math_reward/std": 0.41737356781959534,
+      "step": 1400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2811.0,
+      "completions/mean_length": 887.872802734375,
+      "completions/mean_terminated_length": 611.7794189453125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.093294460641399,
+      "grad_norm": 0.15652163326740265,
+      "learning_rate": 1e-06,
+      "loss": -0.034,
+      "num_tokens": 834375548.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.13816627860069275,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3886.0,
+      "completions/mean_length": 838.021240234375,
+      "completions/mean_terminated_length": 595.8213500976562,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.102623906705539,
+      "grad_norm": 0.13710899651050568,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 834946815.0,
+      "reward": 0.7566964626312256,
+      "reward_std": 0.11678708344697952,
+      "rewards/verify_math_reward/mean": 0.7566964030265808,
+      "rewards/verify_math_reward/std": 0.4293164908885956,
+      "step": 1402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3294.0,
+      "completions/mean_length": 825.3438110351562,
+      "completions/mean_terminated_length": 573.7548217773438,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.11195335276968,
+      "grad_norm": 0.15589973330497742,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 835497803.0,
+      "reward": 0.754464328289032,
+      "reward_std": 0.11866319924592972,
+      "rewards/verify_math_reward/mean": 0.7544642686843872,
+      "rewards/verify_math_reward/std": 0.4306447505950928,
+      "step": 1403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 998.5870971679688,
+      "completions/mean_terminated_length": 626.8974609375,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 13.12128279883382,
+      "grad_norm": 0.23238998651504517,
+      "learning_rate": 1e-06,
+      "loss": -0.064,
+      "num_tokens": 836095961.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.13485801219940186,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3213.0,
+      "completions/mean_length": 1045.578125,
+      "completions/mean_terminated_length": 605.3511962890625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 13.130612244897959,
+      "grad_norm": 0.17254333198070526,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 836667151.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.12982404232025146,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 1405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2894.0,
+      "completions/mean_length": 872.3125610351562,
+      "completions/mean_terminated_length": 577.8222045898438,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 13.139941690962099,
+      "grad_norm": 0.18169696629047394,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 837220111.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.07289712876081467,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3636.0,
+      "completions/mean_length": 928.2645263671875,
+      "completions/mean_terminated_length": 651.4721069335938,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 13.14927113702624,
+      "grad_norm": 0.13723637163639069,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 837847012.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.14045538008213043,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3401.0,
+      "completions/mean_length": 917.5223388671875,
+      "completions/mean_terminated_length": 601.62451171875,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 13.15860058309038,
+      "grad_norm": 0.14928336441516876,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 838426848.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1219707801938057,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3822.0,
+      "completions/mean_length": 1123.40625,
+      "completions/mean_terminated_length": 632.4837646484375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.167930029154519,
+      "grad_norm": 0.1406225562095642,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 839003572.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.11787225306034088,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 1409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3461.0,
+      "completions/mean_length": 898.3672485351562,
+      "completions/mean_terminated_length": 635.7596435546875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.177259475218658,
+      "grad_norm": 0.1319359987974167,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 839618461.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.11475647985935211,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2531.0,
+      "completions/mean_length": 922.4910888671875,
+      "completions/mean_terminated_length": 576.8613891601562,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 13.186588921282798,
+      "grad_norm": 0.23846296966075897,
+      "learning_rate": 1e-06,
+      "loss": -0.056,
+      "num_tokens": 840167165.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.12181880325078964,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2675.0,
+      "completions/mean_length": 930.5123291015625,
+      "completions/mean_terminated_length": 607.3444213867188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.19591836734694,
+      "grad_norm": 0.14456422626972198,
+      "learning_rate": 1e-06,
+      "loss": -0.0463,
+      "num_tokens": 840752856.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.1512710452079773,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 930.2042846679688,
+      "completions/mean_terminated_length": 624.0869140625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 13.205247813411079,
+      "grad_norm": 0.19330009818077087,
+      "learning_rate": 1e-06,
+      "loss": -0.0678,
+      "num_tokens": 841355823.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.18272772431373596,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960144996643,
+      "step": 1413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 1008.7332763671875,
+      "completions/mean_terminated_length": 676.72802734375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 13.214577259475218,
+      "grad_norm": 0.1682826429605484,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 841996440.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.16822652518749237,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3950.0,
+      "completions/mean_length": 791.9163208007812,
+      "completions/mean_terminated_length": 575.834716796875,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.223906705539358,
+      "grad_norm": 0.13416460156440735,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 842565869.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.12125540524721146,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3180.0,
+      "completions/mean_length": 858.8438110351562,
+      "completions/mean_terminated_length": 588.7545776367188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 13.2332361516035,
+      "grad_norm": 0.14242775738239288,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 843138265.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.12171115726232529,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 927.5725708007812,
+      "completions/mean_terminated_length": 573.7778930664062,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 13.242565597667639,
+      "grad_norm": 0.14249292016029358,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 843691602.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.11152419447898865,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2532.0,
+      "completions/mean_length": 949.638427734375,
+      "completions/mean_terminated_length": 589.60693359375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.251895043731778,
+      "grad_norm": 0.16333496570587158,
+      "learning_rate": 1e-06,
+      "loss": -0.0805,
+      "num_tokens": 844246910.0,
+      "reward": 0.7511160969734192,
+      "reward_std": 0.13842660188674927,
+      "rewards/verify_math_reward/mean": 0.7511160969734192,
+      "rewards/verify_math_reward/std": 0.43260788917541504,
+      "step": 1418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 925.0324096679688,
+      "completions/mean_terminated_length": 570.9541015625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 13.261224489795918,
+      "grad_norm": 0.17214609682559967,
+      "learning_rate": 1e-06,
+      "loss": -0.0888,
+      "num_tokens": 844791115.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.15195433795452118,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3317.0,
+      "completions/mean_length": 858.2935791015625,
+      "completions/mean_terminated_length": 596.6212158203125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 13.270553935860057,
+      "grad_norm": 0.16037645936012268,
+      "learning_rate": 1e-06,
+      "loss": -0.0496,
+      "num_tokens": 845377314.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.13793805241584778,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 1420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3612.0,
+      "completions/mean_length": 987.9788208007812,
+      "completions/mean_terminated_length": 623.697021484375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.279883381924199,
+      "grad_norm": 0.14235125482082367,
+      "learning_rate": 1e-06,
+      "loss": -0.036,
+      "num_tokens": 845963743.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.11039625108242035,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3372.0,
+      "completions/mean_length": 1091.1942138671875,
+      "completions/mean_terminated_length": 613.0685424804688,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.289212827988338,
+      "grad_norm": 0.1667003035545349,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 846529957.0,
+      "reward": 0.6484375,
+      "reward_std": 0.13816697895526886,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2764.0,
+      "completions/mean_length": 1032.35498046875,
+      "completions/mean_terminated_length": 625.6763916015625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 13.298542274052478,
+      "grad_norm": 0.1497279405593872,
+      "learning_rate": 1e-06,
+      "loss": -0.0767,
+      "num_tokens": 847120651.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1537569761276245,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3786.0,
+      "completions/mean_length": 1071.6529541015625,
+      "completions/mean_terminated_length": 678.8309936523438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.307871720116617,
+      "grad_norm": 0.14686422049999237,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 847752020.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.155793234705925,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3958.0,
+      "completions/mean_length": 1132.51123046875,
+      "completions/mean_terminated_length": 652.04931640625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.317201166180759,
+      "grad_norm": 0.16825416684150696,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 848348678.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1474096179008484,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4048.0,
+      "completions/mean_length": 1094.0692138671875,
+      "completions/mean_terminated_length": 656.4475708007812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.326530612244898,
+      "grad_norm": 0.14060723781585693,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 848955428.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12580150365829468,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3664.0,
+      "completions/mean_length": 993.2578735351562,
+      "completions/mean_terminated_length": 633.9115600585938,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 13.335860058309038,
+      "grad_norm": 0.16338886320590973,
+      "learning_rate": 1e-06,
+      "loss": -0.052,
+      "num_tokens": 849556027.0,
+      "reward": 0.6484375,
+      "reward_std": 0.14583592116832733,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3247.0,
+      "completions/mean_length": 1054.42529296875,
+      "completions/mean_terminated_length": 718.9851684570312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.345189504373177,
+      "grad_norm": 0.14065629243850708,
+      "learning_rate": 1e-06,
+      "loss": -0.0241,
+      "num_tokens": 850232464.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1428193300962448,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 1020.7991333007812,
+      "completions/mean_terminated_length": 594.8817749023438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.354518950437317,
+      "grad_norm": 0.1557115614414215,
+      "learning_rate": 1e-06,
+      "loss": -0.065,
+      "num_tokens": 850787292.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.13812169432640076,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3524.0,
+      "completions/mean_length": 1084.28125,
+      "completions/mean_terminated_length": 667.15625,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 13.363848396501458,
+      "grad_norm": 0.1528123915195465,
+      "learning_rate": 1e-06,
+      "loss": -0.0784,
+      "num_tokens": 851415728.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.15936000645160675,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3202.0,
+      "completions/mean_length": 1054.029052734375,
+      "completions/mean_terminated_length": 637.109130859375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 13.373177842565598,
+      "grad_norm": 0.14892137050628662,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 852005378.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.11997338384389877,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485536336898804,
+      "step": 1431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4039.0,
+      "completions/mean_length": 1063.009033203125,
+      "completions/mean_terminated_length": 677.685546875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 13.382507288629737,
+      "grad_norm": 0.1488819569349289,
+      "learning_rate": 1e-06,
+      "loss": -0.0715,
+      "num_tokens": 852627586.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1514671891927719,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3492.0,
+      "completions/mean_length": 894.239990234375,
+      "completions/mean_terminated_length": 584.6450805664062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 13.391836734693877,
+      "grad_norm": 0.15225546061992645,
+      "learning_rate": 1e-06,
+      "loss": -0.0445,
+      "num_tokens": 853189865.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14011767506599426,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2406.0,
+      "completions/mean_length": 1085.810302734375,
+      "completions/mean_terminated_length": 602.3082885742188,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.401166180758018,
+      "grad_norm": 0.1438121348619461,
+      "learning_rate": 1e-06,
+      "loss": -0.0748,
+      "num_tokens": 853751103.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.09840943664312363,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 1068.7645263671875,
+      "completions/mean_terminated_length": 631.8837890625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.410495626822158,
+      "grad_norm": 0.1605885773897171,
+      "learning_rate": 1e-06,
+      "loss": -0.0836,
+      "num_tokens": 854343068.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.15026073157787323,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 1435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3708.0,
+      "completions/mean_length": 910.2188110351562,
+      "completions/mean_terminated_length": 610.7008666992188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 13.419825072886297,
+      "grad_norm": 0.1605662703514099,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 854927712.0,
+      "reward": 0.7879464626312256,
+      "reward_std": 0.15296350419521332,
+      "rewards/verify_math_reward/mean": 0.7879464030265808,
+      "rewards/verify_math_reward/std": 0.40899088978767395,
+      "step": 1436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3265.0,
+      "completions/mean_length": 973.99560546875,
+      "completions/mean_terminated_length": 603.7203369140625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.429154518950437,
+      "grad_norm": 0.163425475358963,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 855500516.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14478282630443573,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2800.0,
+      "completions/mean_length": 929.0402221679688,
+      "completions/mean_terminated_length": 601.4236450195312,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.438483965014576,
+      "grad_norm": 0.12399692088365555,
+      "learning_rate": 1e-06,
+      "loss": -0.0664,
+      "num_tokens": 856071400.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.10457022488117218,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3001.0,
+      "completions/mean_length": 845.7232666015625,
+      "completions/mean_terminated_length": 561.7184448242188,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 13.447813411078718,
+      "grad_norm": 0.17261086404323578,
+      "learning_rate": 1e-06,
+      "loss": -0.0083,
+      "num_tokens": 856618584.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.11922702938318253,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3761.0,
+      "completions/mean_length": 864.271240234375,
+      "completions/mean_terminated_length": 594.6348266601562,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 13.457142857142857,
+      "grad_norm": 0.15159589052200317,
+      "learning_rate": 1e-06,
+      "loss": -0.0296,
+      "num_tokens": 857199651.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13005226850509644,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 1053.7734375,
+      "completions/mean_terminated_length": 667.2767333984375,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 13.466472303206997,
+      "grad_norm": 0.186456099152565,
+      "learning_rate": 1e-06,
+      "loss": -0.0721,
+      "num_tokens": 857821640.0,
+      "reward": 0.65625,
+      "reward_std": 0.1810370534658432,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3691.0,
+      "completions/mean_length": 1015.8035888671875,
+      "completions/mean_terminated_length": 628.84423828125,
+      "completions/min_length": 200.0,
+      "completions/min_terminated_length": 200.0,
+      "epoch": 13.475801749271136,
+      "grad_norm": 0.17106060683727264,
+      "learning_rate": 1e-06,
+      "loss": -0.0215,
+      "num_tokens": 858413056.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12843577563762665,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 892.716552734375,
+      "completions/mean_terminated_length": 650.4513549804688,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 13.485131195335278,
+      "grad_norm": 0.12468821555376053,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 859033426.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.12238264828920364,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3419.0,
+      "completions/mean_length": 966.1685791015625,
+      "completions/mean_terminated_length": 620.9950561523438,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 13.494460641399417,
+      "grad_norm": 0.16026073694229126,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 859624673.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.1411721557378769,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 915.6350708007812,
+      "completions/mean_terminated_length": 670.9916381835938,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 13.503790087463557,
+      "grad_norm": 0.15779909491539001,
+      "learning_rate": 1e-06,
+      "loss": -0.0256,
+      "num_tokens": 860265330.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.12437821924686432,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 985.2734985351562,
+      "completions/mean_terminated_length": 667.6961669921875,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 13.513119533527696,
+      "grad_norm": 0.1605423092842102,
+      "learning_rate": 1e-06,
+      "loss": -0.0334,
+      "num_tokens": 860903607.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1523348093032837,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3397.0,
+      "completions/mean_length": 1098.388427734375,
+      "completions/mean_terminated_length": 656.9987182617188,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 13.522448979591836,
+      "grad_norm": 0.17029817402362823,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 861518339.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16506797075271606,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3551.0,
+      "completions/mean_length": 1054.7623291015625,
+      "completions/mean_terminated_length": 588.9871215820312,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.531778425655977,
+      "grad_norm": 0.15654556453227997,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 862069470.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.12410903722047806,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3611.0,
+      "completions/mean_length": 1044.3092041015625,
+      "completions/mean_terminated_length": 673.8285522460938,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 13.541107871720117,
+      "grad_norm": 0.1570572406053543,
+      "learning_rate": 1e-06,
+      "loss": -0.07,
+      "num_tokens": 862699747.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15608815848827362,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 908.3281860351562,
+      "completions/mean_terminated_length": 604.3692016601562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 13.550437317784256,
+      "grad_norm": 0.15788523852825165,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 863287681.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.10303223878145218,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2636.0,
+      "completions/mean_length": 912.950927734375,
+      "completions/mean_terminated_length": 617.9365844726562,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.559766763848396,
+      "grad_norm": 0.16280454397201538,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 863877293.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.16915832459926605,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 1136.6898193359375,
+      "completions/mean_terminated_length": 670.2351684570312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.569096209912537,
+      "grad_norm": 0.1474280208349228,
+      "learning_rate": 1e-06,
+      "loss": -0.0678,
+      "num_tokens": 864480399.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.11678457260131836,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 1452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3226.0,
+      "completions/mean_length": 1057.013427734375,
+      "completions/mean_terminated_length": 640.5025024414062,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.578425655976677,
+      "grad_norm": 0.1564379334449768,
+      "learning_rate": 1e-06,
+      "loss": -0.0835,
+      "num_tokens": 865072915.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.14920946955680847,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 977.0748291015625,
+      "completions/mean_terminated_length": 662.88330078125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 13.587755102040816,
+      "grad_norm": 0.15317924320697784,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 865701670.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1304224729537964,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 996.0045166015625,
+      "completions/mean_terminated_length": 645.5701904296875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 13.597084548104956,
+      "grad_norm": 0.1633215993642807,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 866312442.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15796427428722382,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3427.0,
+      "completions/mean_length": 1022.060302734375,
+      "completions/mean_terminated_length": 678.8163452148438,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 13.606413994169095,
+      "grad_norm": 0.14086061716079712,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 866951320.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.14676952362060547,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3705.0,
+      "completions/mean_length": 1011.2623291015625,
+      "completions/mean_terminated_length": 614.9861450195312,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 13.615743440233237,
+      "grad_norm": 0.1431649923324585,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 867520067.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.10867238789796829,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3228.0,
+      "completions/mean_length": 917.7723388671875,
+      "completions/mean_terminated_length": 601.8994140625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.625072886297376,
+      "grad_norm": 0.1757386475801468,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 868100927.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.17415978014469147,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2742.0,
+      "completions/mean_length": 972.0457763671875,
+      "completions/mean_terminated_length": 648.8780517578125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.634402332361516,
+      "grad_norm": 0.1653522402048111,
+      "learning_rate": 1e-06,
+      "loss": -0.013,
+      "num_tokens": 868736184.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11475831270217896,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 1012.4241333007812,
+      "completions/mean_terminated_length": 655.297607421875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.643731778425655,
+      "grad_norm": 0.16010451316833496,
+      "learning_rate": 1e-06,
+      "loss": -0.0746,
+      "num_tokens": 869352692.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.16356277465820312,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3336.0,
+      "completions/mean_length": 1074.751220703125,
+      "completions/mean_terminated_length": 643.1441040039062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 13.653061224489797,
+      "grad_norm": 0.16032300889492035,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 869947533.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.13872897624969482,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3307.0,
+      "completions/mean_length": 945.7076416015625,
+      "completions/mean_terminated_length": 602.6064453125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 13.662390670553936,
+      "grad_norm": 0.14728675782680511,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 870517895.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.12482398748397827,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3459.0,
+      "completions/mean_length": 902.8013916015625,
+      "completions/mean_terminated_length": 585.4404907226562,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 13.671720116618076,
+      "grad_norm": 0.14219607412815094,
+      "learning_rate": 1e-06,
+      "loss": -0.0514,
+      "num_tokens": 871077213.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1251595914363861,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3482.0,
+      "completions/mean_length": 976.5480346679688,
+      "completions/mean_terminated_length": 602.2137451171875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.681049562682215,
+      "grad_norm": 0.18661396205425262,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 871645888.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.16724969446659088,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763102173805237,
+      "step": 1464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 978.65185546875,
+      "completions/mean_terminated_length": 604.5700073242188,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 13.690379008746355,
+      "grad_norm": 0.1835251897573471,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 872212392.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.12903308868408203,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3338.0,
+      "completions/mean_length": 1081.33154296875,
+      "completions/mean_terminated_length": 702.604248046875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.699708454810496,
+      "grad_norm": 0.15788906812667847,
+      "learning_rate": 1e-06,
+      "loss": -0.0742,
+      "num_tokens": 872876169.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1579628735780716,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3220.0,
+      "completions/mean_length": 798.4631958007812,
+      "completions/mean_terminated_length": 570.2327270507812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 13.709037900874636,
+      "grad_norm": 0.16740481555461884,
+      "learning_rate": 1e-06,
+      "loss": -0.0313,
+      "num_tokens": 873449800.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.1370365023612976,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 1040.068115234375,
+      "completions/mean_terminated_length": 664.7781982421875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 13.718367346938775,
+      "grad_norm": 0.1412292867898941,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 874073141.0,
+      "reward": 0.6484375,
+      "reward_std": 0.12384689599275589,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3963.0,
+      "completions/mean_length": 983.60498046875,
+      "completions/mean_terminated_length": 644.6311645507812,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.727696793002915,
+      "grad_norm": 0.1517496556043625,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 874679787.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.13794013857841492,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3746.0,
+      "completions/mean_length": 948.3605346679688,
+      "completions/mean_terminated_length": 627.0147705078125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 13.737026239067056,
+      "grad_norm": 0.15627431869506836,
+      "learning_rate": 1e-06,
+      "loss": -0.0391,
+      "num_tokens": 875281398.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1344454288482666,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2342.0,
+      "completions/mean_length": 819.0000610351562,
+      "completions/mean_terminated_length": 566.923095703125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.746355685131196,
+      "grad_norm": 0.15194284915924072,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 875840822.0,
+      "reward": 0.7678571939468384,
+      "reward_std": 0.12189479172229767,
+      "rewards/verify_math_reward/mean": 0.7678571343421936,
+      "rewards/verify_math_reward/std": 0.422435462474823,
+      "step": 1471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3322.0,
+      "completions/mean_length": 1038.6138916015625,
+      "completions/mean_terminated_length": 632.76611328125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.755685131195335,
+      "grad_norm": 0.16416384279727936,
+      "learning_rate": 1e-06,
+      "loss": -0.0865,
+      "num_tokens": 876432356.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.15308116376399994,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565433502197,
+      "step": 1472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4079.0,
+      "completions/mean_length": 985.5100708007812,
+      "completions/mean_terminated_length": 655.260498046875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.765014577259475,
+      "grad_norm": 0.16349850594997406,
+      "learning_rate": 1e-06,
+      "loss": -0.0664,
+      "num_tokens": 877059805.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1497408002614975,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2843.0,
+      "completions/mean_length": 976.6998291015625,
+      "completions/mean_terminated_length": 666.6834106445312,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 13.774344023323614,
+      "grad_norm": 0.161646768450737,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 877687936.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.15744292736053467,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 881.3717041015625,
+      "completions/mean_terminated_length": 591.9768676757812,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 13.783673469387756,
+      "grad_norm": 0.1437355875968933,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 878264893.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.11329153925180435,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3344.0,
+      "completions/mean_length": 946.1663208007812,
+      "completions/mean_terminated_length": 624.5965576171875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.793002915451895,
+      "grad_norm": 0.14176473021507263,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 878856338.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13808958232402802,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3973.0,
+      "completions/mean_length": 1051.5457763671875,
+      "completions/mean_terminated_length": 703.1753540039062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.802332361516035,
+      "grad_norm": 0.13618813455104828,
+      "learning_rate": 1e-06,
+      "loss": -0.0426,
+      "num_tokens": 879514187.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1220463290810585,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 1477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3613.0,
+      "completions/mean_length": 898.9375610351562,
+      "completions/mean_terminated_length": 594.0831298828125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 13.811661807580174,
+      "grad_norm": 0.14762429893016815,
+      "learning_rate": 1e-06,
+      "loss": -0.0355,
+      "num_tokens": 880085603.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12110203504562378,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 927.2422485351562,
+      "completions/mean_terminated_length": 612.3104248046875,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 13.820991253644316,
+      "grad_norm": 0.15905015170574188,
+      "learning_rate": 1e-06,
+      "loss": -0.0393,
+      "num_tokens": 880669020.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.13395646214485168,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3506.0,
+      "completions/mean_length": 874.7344360351562,
+      "completions/mean_terminated_length": 605.9710083007812,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 13.830320699708455,
+      "grad_norm": 0.13879813253879547,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 881253030.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.10660082846879959,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3411.0,
+      "completions/mean_length": 1185.94091796875,
+      "completions/mean_terminated_length": 727.2493896484375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 13.839650145772595,
+      "grad_norm": 0.16253475844860077,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 881916729.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.1605992615222931,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263834953308105,
+      "step": 1481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3404.0,
+      "completions/mean_length": 1024.84716796875,
+      "completions/mean_terminated_length": 612.7683715820312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 13.848979591836734,
+      "grad_norm": 0.15938550233840942,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 882496352.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.14042216539382935,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 1482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3874.0,
+      "completions/mean_length": 874.0469360351562,
+      "completions/mean_terminated_length": 579.7150268554688,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.858309037900874,
+      "grad_norm": 0.14581868052482605,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 883052866.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.09743304550647736,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 1041.9007568359375,
+      "completions/mean_terminated_length": 614.482177734375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 13.867638483965015,
+      "grad_norm": 0.13536785542964935,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 883627241.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.11291245371103287,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3783.0,
+      "completions/mean_length": 867.2098388671875,
+      "completions/mean_terminated_length": 602.04345703125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.876967930029155,
+      "grad_norm": 0.17088043689727783,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 884206349.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.1381234973669052,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3833.0,
+      "completions/mean_length": 930.98779296875,
+      "completions/mean_terminated_length": 662.766357421875,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.886297376093294,
+      "grad_norm": 0.12953662872314453,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 884833874.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.10821662098169327,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 1033.15966796875,
+      "completions/mean_terminated_length": 626.587890625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 13.895626822157434,
+      "grad_norm": 0.14354275166988373,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 885421297.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14222201704978943,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3465.0,
+      "completions/mean_length": 901.1842041015625,
+      "completions/mean_terminated_length": 667.7904052734375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.904956268221575,
+      "grad_norm": 0.15612778067588806,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 886075854.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.14905792474746704,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3168.0,
+      "completions/mean_length": 985.55029296875,
+      "completions/mean_terminated_length": 633.9341430664062,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 13.914285714285715,
+      "grad_norm": 0.15508072078227997,
+      "learning_rate": 1e-06,
+      "loss": -0.073,
+      "num_tokens": 886671987.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.15044689178466797,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3904.0,
+      "completions/mean_length": 1040.9029541015625,
+      "completions/mean_terminated_length": 712.3572387695312,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 13.923615160349854,
+      "grad_norm": 0.16549524664878845,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 887327908.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.17097096145153046,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 1490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3733.0,
+      "completions/mean_length": 965.0402221679688,
+      "completions/mean_terminated_length": 641.1477661132812,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 13.932944606413994,
+      "grad_norm": 0.1526726633310318,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 887941968.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.13098520040512085,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3309.0,
+      "completions/mean_length": 993.091552734375,
+      "completions/mean_terminated_length": 684.7042846679688,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 13.942274052478133,
+      "grad_norm": 0.15932045876979828,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 888590994.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.18603669106960297,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 761.107177734375,
+      "completions/mean_terminated_length": 555.6398315429688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.951603498542275,
+      "grad_norm": 0.14150334894657135,
+      "learning_rate": 1e-06,
+      "loss": -0.0466,
+      "num_tokens": 889145178.0,
+      "reward": 0.7823660969734192,
+      "reward_std": 0.10716605931520462,
+      "rewards/verify_math_reward/mean": 0.7823660969734192,
+      "rewards/verify_math_reward/std": 0.41286757588386536,
+      "step": 1493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3533.0,
+      "completions/mean_length": 915.6094360351562,
+      "completions/mean_terminated_length": 612.3447875976562,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 13.960932944606414,
+      "grad_norm": 0.14166150987148285,
+      "learning_rate": 1e-06,
+      "loss": -0.0347,
+      "num_tokens": 889728700.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.11370522528886795,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2884.0,
+      "completions/mean_length": 991.9386596679688,
+      "completions/mean_terminated_length": 628.1209716796875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.970262390670554,
+      "grad_norm": 0.1634577065706253,
+      "learning_rate": 1e-06,
+      "loss": -0.0994,
+      "num_tokens": 890322373.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.15680170059204102,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3959.0,
+      "completions/mean_length": 888.6842041015625,
+      "completions/mean_terminated_length": 569.9202270507812,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 13.979591836734693,
+      "grad_norm": 0.1585603803396225,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 890871394.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.12414928525686264,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2570.0,
+      "completions/mean_length": 920.7355346679688,
+      "completions/mean_terminated_length": 574.9146118164062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.988921282798835,
+      "grad_norm": 0.15268854796886444,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 891428677.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.11873877793550491,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.08522727272727271,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 864.4375,
+      "completions/mean_terminated_length": 563.3602294921875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 13.998250728862974,
+      "grad_norm": 0.1742684543132782,
+      "learning_rate": 1e-06,
+      "loss": -0.0314,
+      "num_tokens": 892004860.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.11655956506729126,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3092.0,
+      "completions/mean_length": 878.5324096679688,
+      "completions/mean_terminated_length": 605.8656616210938,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 14.00932944606414,
+      "grad_norm": 0.15107493102550507,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 892593793.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.12028081715106964,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3161.0,
+      "completions/mean_length": 983.1942138671875,
+      "completions/mean_terminated_length": 614.0099487304688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 14.018658892128279,
+      "grad_norm": 0.16565755009651184,
+      "learning_rate": 1e-06,
+      "loss": -0.015,
+      "num_tokens": 893175295.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.12253600358963013,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4047.0,
+      "completions/mean_length": 936.474365234375,
+      "completions/mean_terminated_length": 622.4601440429688,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 14.02798833819242,
+      "grad_norm": 0.1617438644170761,
+      "learning_rate": 1e-06,
+      "loss": -0.0738,
+      "num_tokens": 893776296.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.1515413373708725,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 1010.55029296875,
+      "completions/mean_terminated_length": 670.2713623046875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.03731778425656,
+      "grad_norm": 0.17312908172607422,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 894408517.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16104431450366974,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2873.0,
+      "completions/mean_length": 878.97998046875,
+      "completions/mean_terminated_length": 537.4197998046875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.0466472303207,
+      "grad_norm": 0.1437922865152359,
+      "learning_rate": 1e-06,
+      "loss": -0.057,
+      "num_tokens": 894931171.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.11632992327213287,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2687.0,
+      "completions/mean_length": 1066.296875,
+      "completions/mean_terminated_length": 651.058349609375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 14.055976676384839,
+      "grad_norm": 0.17059540748596191,
+      "learning_rate": 1e-06,
+      "loss": -0.0974,
+      "num_tokens": 895538741.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.15361109375953674,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3915.0,
+      "completions/mean_length": 985.9498291015625,
+      "completions/mean_terminated_length": 621.43017578125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 14.06530612244898,
+      "grad_norm": 0.1539929062128067,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 896125040.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.10660012811422348,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3431.0,
+      "completions/mean_length": 919.38623046875,
+      "completions/mean_terminated_length": 637.6209106445312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.07463556851312,
+      "grad_norm": 0.16501371562480927,
+      "learning_rate": 1e-06,
+      "loss": -0.0455,
+      "num_tokens": 896741450.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1525944322347641,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 852.9520263671875,
+      "completions/mean_terminated_length": 603.48681640625,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 14.08396501457726,
+      "grad_norm": 0.1404428780078888,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 897344671.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.1261366903781891,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.4476594924926758,
+      "step": 1507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 927.0826416015625,
+      "completions/mean_terminated_length": 641.8029174804688,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.093294460641399,
+      "grad_norm": 0.13648349046707153,
+      "learning_rate": 1e-06,
+      "loss": -0.0588,
+      "num_tokens": 897957937.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.12343642115592957,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425028860569,
+      "step": 1508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3263.0,
+      "completions/mean_length": 1075.1976318359375,
+      "completions/mean_terminated_length": 652.4389038085938,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 14.102623906705539,
+      "grad_norm": 0.16810107231140137,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 898569162.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.14027173817157745,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4009.0,
+      "completions/mean_length": 993.7589721679688,
+      "completions/mean_terminated_length": 677.0479736328125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.11195335276968,
+      "grad_norm": 0.14482687413692474,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 899211450.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.15293073654174805,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3888.0,
+      "completions/mean_length": 888.90185546875,
+      "completions/mean_terminated_length": 608.669921875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.12128279883382,
+      "grad_norm": 0.16684040427207947,
+      "learning_rate": 1e-06,
+      "loss": -0.0371,
+      "num_tokens": 899795746.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.12707847356796265,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3289.0,
+      "completions/mean_length": 931.7098388671875,
+      "completions/mean_terminated_length": 629.98046875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.130612244897959,
+      "grad_norm": 0.13450437784194946,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 900399478.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.12654967606067657,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 1068.579345703125,
+      "completions/mean_terminated_length": 705.2887573242188,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 14.139941690962099,
+      "grad_norm": 0.13896602392196655,
+      "learning_rate": 1e-06,
+      "loss": -0.0353,
+      "num_tokens": 901058645.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1284339427947998,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 1513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3493.0,
+      "completions/mean_length": 863.1908569335938,
+      "completions/mean_terminated_length": 584.9733276367188,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 14.14927113702624,
+      "grad_norm": 0.16177017986774445,
+      "learning_rate": 1e-06,
+      "loss": -0.0907,
+      "num_tokens": 901626840.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.15352804958820343,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3423.0,
+      "completions/mean_length": 878.9230346679688,
+      "completions/mean_terminated_length": 606.2893676757812,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 14.15860058309038,
+      "grad_norm": 0.1621823012828827,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 902217371.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1337614506483078,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4061.0,
+      "completions/mean_length": 1045.094970703125,
+      "completions/mean_terminated_length": 661.8153076171875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.167930029154519,
+      "grad_norm": 0.26154232025146484,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 902834552.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15315966308116913,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3901.0,
+      "completions/mean_length": 1004.8203735351562,
+      "completions/mean_terminated_length": 659.6513671875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 14.177259475218658,
+      "grad_norm": 0.1650465428829193,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 903457495.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1546206921339035,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3266.0,
+      "completions/mean_length": 880.9766235351562,
+      "completions/mean_terminated_length": 604.2896728515625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 14.186588921282798,
+      "grad_norm": 0.15514257550239563,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 904063298.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13203756511211395,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3987.0,
+      "completions/mean_length": 799.2232666015625,
+      "completions/mean_terminated_length": 566.8339233398438,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 14.19591836734694,
+      "grad_norm": 0.16251403093338013,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 904625034.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.14597928524017334,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3805.0,
+      "completions/mean_length": 896.6585083007812,
+      "completions/mean_terminated_length": 582.99755859375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 14.205247813411079,
+      "grad_norm": 0.14653554558753967,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 905190192.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.11809796839952469,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2729.0,
+      "completions/mean_length": 1002.7813110351562,
+      "completions/mean_terminated_length": 618.5545654296875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 14.214577259475218,
+      "grad_norm": 0.16323019564151764,
+      "learning_rate": 1e-06,
+      "loss": -0.057,
+      "num_tokens": 905766588.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1577032506465912,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 884.9308471679688,
+      "completions/mean_terminated_length": 629.5927734375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 14.223906705539358,
+      "grad_norm": 0.15244054794311523,
+      "learning_rate": 1e-06,
+      "loss": -0.0223,
+      "num_tokens": 906370886.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1209939569234848,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2828.0,
+      "completions/mean_length": 989.4475708007812,
+      "completions/mean_terminated_length": 541.1200561523438,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 14.2332361516035,
+      "grad_norm": 0.16388195753097534,
+      "learning_rate": 1e-06,
+      "loss": -0.0729,
+      "num_tokens": 906885775.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.13455379009246826,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3409.0,
+      "completions/mean_length": 863.3772583007812,
+      "completions/mean_terminated_length": 576.6439819335938,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 14.242565597667639,
+      "grad_norm": 0.13973724842071533,
+      "learning_rate": 1e-06,
+      "loss": -0.027,
+      "num_tokens": 907435497.0,
+      "reward": 0.7689732313156128,
+      "reward_std": 0.11324945837259293,
+      "rewards/verify_math_reward/mean": 0.7689732313156128,
+      "rewards/verify_math_reward/std": 0.42172491550445557,
+      "step": 1524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 990.982177734375,
+      "completions/mean_terminated_length": 583.2525024414062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 14.251895043731778,
+      "grad_norm": 0.14989370107650757,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 907985913.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.10228294879198074,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2809.0,
+      "completions/mean_length": 862.4297485351562,
+      "completions/mean_terminated_length": 588.3983154296875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 14.261224489795918,
+      "grad_norm": 0.1450241059064865,
+      "learning_rate": 1e-06,
+      "loss": -0.0803,
+      "num_tokens": 908551898.0,
+      "reward": 0.7633928656578064,
+      "reward_std": 0.11276272684335709,
+      "rewards/verify_math_reward/mean": 0.7633928656578064,
+      "rewards/verify_math_reward/std": 0.42523646354675293,
+      "step": 1526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2447.0,
+      "completions/mean_length": 856.466552734375,
+      "completions/mean_terminated_length": 590.4178466796875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.270553935860057,
+      "grad_norm": 0.14993762969970703,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 909126420.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1602187603712082,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 899.7355346679688,
+      "completions/mean_terminated_length": 551.62744140625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 14.279883381924199,
+      "grad_norm": 0.1586182564496994,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 909649199.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.11205439269542694,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512405037879944,
+      "step": 1528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3979.0,
+      "completions/mean_length": 956.6395263671875,
+      "completions/mean_terminated_length": 614.7289428710938,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 14.289212827988338,
+      "grad_norm": 0.15270592272281647,
+      "learning_rate": 1e-06,
+      "loss": -0.0362,
+      "num_tokens": 910229156.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12779638171195984,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2980.0,
+      "completions/mean_length": 948.02685546875,
+      "completions/mean_terminated_length": 635.1607055664062,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 14.298542274052478,
+      "grad_norm": 0.16676433384418488,
+      "learning_rate": 1e-06,
+      "loss": -0.0444,
+      "num_tokens": 910839804.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.16675932705402374,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3263.0,
+      "completions/mean_length": 941.036865234375,
+      "completions/mean_terminated_length": 618.9434204101562,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.307871720116617,
+      "grad_norm": 0.18637950718402863,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 911438693.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.14958783984184265,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599096059799194,
+      "step": 1531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3303.0,
+      "completions/mean_length": 890.6629638671875,
+      "completions/mean_terminated_length": 576.4142456054688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.317201166180759,
+      "grad_norm": 0.15555548667907715,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 912000047.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.13380561769008636,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3966.0,
+      "completions/mean_length": 1022.4922485351562,
+      "completions/mean_terminated_length": 627.65869140625,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 14.326530612244898,
+      "grad_norm": 0.16348303854465485,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 912589064.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13688749074935913,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3849.0,
+      "completions/mean_length": 843.2980346679688,
+      "completions/mean_terminated_length": 622.3158569335938,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 14.335860058309038,
+      "grad_norm": 0.14868338406085968,
+      "learning_rate": 1e-06,
+      "loss": -0.0204,
+      "num_tokens": 913194251.0,
+      "reward": 0.7633928656578064,
+      "reward_std": 0.10002705454826355,
+      "rewards/verify_math_reward/mean": 0.7633928656578064,
+      "rewards/verify_math_reward/std": 0.42523646354675293,
+      "step": 1534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2953.0,
+      "completions/mean_length": 910.29248046875,
+      "completions/mean_terminated_length": 576.4019775390625,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 14.345189504373177,
+      "grad_norm": 0.15315856039524078,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 913753553.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.11832619458436966,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2811.0,
+      "completions/mean_length": 1024.7723388671875,
+      "completions/mean_terminated_length": 586.0255126953125,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 14.354518950437317,
+      "grad_norm": 0.1642405390739441,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 914298325.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.13921935856342316,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 880.12841796875,
+      "completions/mean_terminated_length": 641.0587768554688,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 14.363848396501458,
+      "grad_norm": 0.15526075661182404,
+      "learning_rate": 1e-06,
+      "loss": -0.029,
+      "num_tokens": 914918104.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13665924966335297,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3880.0,
+      "completions/mean_length": 991.5402221679688,
+      "completions/mean_terminated_length": 666.1652221679688,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.373177842565598,
+      "grad_norm": 0.1703079640865326,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 915540820.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15094473958015442,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3570.0,
+      "completions/mean_length": 920.513427734375,
+      "completions/mean_terminated_length": 583.3629760742188,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 14.382507288629737,
+      "grad_norm": 0.15420016646385193,
+      "learning_rate": 1e-06,
+      "loss": -0.057,
+      "num_tokens": 916098376.0,
+      "reward": 0.7578125596046448,
+      "reward_std": 0.11532101780176163,
+      "rewards/verify_math_reward/mean": 0.7578125,
+      "rewards/verify_math_reward/std": 0.428646445274353,
+      "step": 1539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3660.0,
+      "completions/mean_length": 1028.390625,
+      "completions/mean_terminated_length": 647.3450317382812,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 14.391836734693877,
+      "grad_norm": 0.12327955663204193,
+      "learning_rate": 1e-06,
+      "loss": -0.0565,
+      "num_tokens": 916708006.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.10453673452138901,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3658.0,
+      "completions/mean_length": 986.4006958007812,
+      "completions/mean_terminated_length": 630.5758666992188,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 14.401166180758018,
+      "grad_norm": 0.16874539852142334,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 917303501.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.13482661545276642,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 828.1027221679688,
+      "completions/mean_terminated_length": 576.7260131835938,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 14.410495626822158,
+      "grad_norm": 0.16123774647712708,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 917868241.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.14913278818130493,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3425.0,
+      "completions/mean_length": 880.1719360351562,
+      "completions/mean_terminated_length": 603.415771484375,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 14.419825072886297,
+      "grad_norm": 0.13473300635814667,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 918457595.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.10359494388103485,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3970.0,
+      "completions/mean_length": 1020.9855346679688,
+      "completions/mean_terminated_length": 621.5825805664062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 14.429154518950437,
+      "grad_norm": 0.1620435267686844,
+      "learning_rate": 1e-06,
+      "loss": -0.057,
+      "num_tokens": 919042142.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1463569700717926,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2642.0,
+      "completions/mean_length": 949.4464721679688,
+      "completions/mean_terminated_length": 576.2596435546875,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 14.438483965014576,
+      "grad_norm": 0.16333381831645966,
+      "learning_rate": 1e-06,
+      "loss": -0.0658,
+      "num_tokens": 919599006.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.12369714677333832,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2451.0,
+      "completions/mean_length": 957.68310546875,
+      "completions/mean_terminated_length": 558.9786376953125,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 14.447813411078718,
+      "grad_norm": 0.17028574645519257,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 920132234.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.13290520012378693,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3790.0,
+      "completions/mean_length": 923.9475708007812,
+      "completions/mean_terminated_length": 582.824462890625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 14.457142857142857,
+      "grad_norm": 0.1495293527841568,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 920688547.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.13336236774921417,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3666.0,
+      "completions/mean_length": 1012.6864013671875,
+      "completions/mean_terminated_length": 563.2007446289062,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 14.466472303206997,
+      "grad_norm": 0.18091271817684174,
+      "learning_rate": 1e-06,
+      "loss": -0.0732,
+      "num_tokens": 921223202.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.14774522185325623,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3586.0,
+      "completions/mean_length": 916.755615234375,
+      "completions/mean_terminated_length": 605.0650024414062,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.475801749271136,
+      "grad_norm": 0.15860570967197418,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 921805679.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.11952830851078033,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3645.0,
+      "completions/mean_length": 868.1361694335938,
+      "completions/mean_terminated_length": 564.6618041992188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 14.485131195335278,
+      "grad_norm": 0.17823606729507446,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 922351481.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.14612692594528198,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3290.0,
+      "completions/mean_length": 911.8203735351562,
+      "completions/mean_terminated_length": 603.9253540039062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.494460641399417,
+      "grad_norm": 0.14829711616039276,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 922931096.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.10893340408802032,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 1130.977783203125,
+      "completions/mean_terminated_length": 672.4690551757812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 14.503790087463557,
+      "grad_norm": 0.11391159892082214,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 923551908.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12546519935131073,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 943.6652221679688,
+      "completions/mean_terminated_length": 626.1080932617188,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 14.513119533527696,
+      "grad_norm": 0.13433076441287994,
+      "learning_rate": 1e-06,
+      "loss": -0.0649,
+      "num_tokens": 924146400.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.1283177137374878,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3327.0,
+      "completions/mean_length": 995.4453735351562,
+      "completions/mean_terminated_length": 614.6754150390625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 14.522448979591836,
+      "grad_norm": 0.159366175532341,
+      "learning_rate": 1e-06,
+      "loss": -0.0679,
+      "num_tokens": 924730687.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.13144053518772125,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2786.0,
+      "completions/mean_length": 1072.859375,
+      "completions/mean_terminated_length": 658.520263671875,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 14.531778425655977,
+      "grad_norm": 0.14054180681705475,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 925360601.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.11681987345218658,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3188.0,
+      "completions/mean_length": 932.3248291015625,
+      "completions/mean_terminated_length": 574.69189453125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 14.541107871720117,
+      "grad_norm": 0.15395845472812653,
+      "learning_rate": 1e-06,
+      "loss": -0.0539,
+      "num_tokens": 925918316.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1454133540391922,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4034.0,
+      "completions/mean_length": 963.0301513671875,
+      "completions/mean_terminated_length": 613.1947631835938,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.550437317784256,
+      "grad_norm": 0.16525380313396454,
+      "learning_rate": 1e-06,
+      "loss": -0.0838,
+      "num_tokens": 926494687.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.17115388810634613,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 1136.3426513671875,
+      "completions/mean_terminated_length": 704.8836059570312,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 14.559766763848396,
+      "grad_norm": 0.15317338705062866,
+      "learning_rate": 1e-06,
+      "loss": -0.0702,
+      "num_tokens": 927130714.0,
+      "reward": 0.625,
+      "reward_std": 0.14391589164733887,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2434.0,
+      "completions/mean_length": 1044.2410888671875,
+      "completions/mean_terminated_length": 603.8211669921875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.569096209912537,
+      "grad_norm": 0.1727406084537506,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 927690586.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1457182765007019,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3752.0,
+      "completions/mean_length": 975.5145263671875,
+      "completions/mean_terminated_length": 627.0731811523438,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 14.578425655976677,
+      "grad_norm": 0.15712745487689972,
+      "learning_rate": 1e-06,
+      "loss": 0.0016,
+      "num_tokens": 928293279.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.09153327345848083,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4012.0,
+      "completions/mean_length": 983.9464721679688,
+      "completions/mean_terminated_length": 566.3797607421875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.587755102040816,
+      "grad_norm": 0.15441763401031494,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 928827655.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.11960500478744507,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3651.0,
+      "completions/mean_length": 964.6183471679688,
+      "completions/mean_terminated_length": 653.4012451171875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 14.597084548104956,
+      "grad_norm": 0.14298835396766663,
+      "learning_rate": 1e-06,
+      "loss": -0.0721,
+      "num_tokens": 929452769.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.12839369475841522,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3297.0,
+      "completions/mean_length": 958.4922485351562,
+      "completions/mean_terminated_length": 568.7640991210938,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 14.606413994169095,
+      "grad_norm": 0.14158286154270172,
+      "learning_rate": 1e-06,
+      "loss": -0.0688,
+      "num_tokens": 929993098.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.12084353715181351,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 967.6797485351562,
+      "completions/mean_terminated_length": 601.0187377929688,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 14.615743440233237,
+      "grad_norm": 0.15492652356624603,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 930559499.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12636421620845795,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3361.0,
+      "completions/mean_length": 812.2678833007812,
+      "completions/mean_terminated_length": 559.673095703125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.625072886297376,
+      "grad_norm": 0.16751259565353394,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 931106067.0,
+      "reward": 0.7555803656578064,
+      "reward_std": 0.12174436450004578,
+      "rewards/verify_math_reward/mean": 0.7555803656578064,
+      "rewards/verify_math_reward/std": 0.42998260259628296,
+      "step": 1565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 891.0803833007812,
+      "completions/mean_terminated_length": 615.2630615234375,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 14.634402332361516,
+      "grad_norm": 0.1823289841413498,
+      "learning_rate": 1e-06,
+      "loss": -0.0411,
+      "num_tokens": 931698323.0,
+      "reward": 0.7611607313156128,
+      "reward_std": 0.14661797881126404,
+      "rewards/verify_math_reward/mean": 0.7611607313156128,
+      "rewards/verify_math_reward/std": 0.4266124963760376,
+      "step": 1566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 844.0636596679688,
+      "completions/mean_terminated_length": 572.7412719726562,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 14.643731778425655,
+      "grad_norm": 0.15263529121875763,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 932252492.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.12941035628318787,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3480.0,
+      "completions/mean_length": 807.8147583007812,
+      "completions/mean_terminated_length": 563.3693237304688,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.653061224489797,
+      "grad_norm": 0.15244770050048828,
+      "learning_rate": 1e-06,
+      "loss": -0.0623,
+      "num_tokens": 932817598.0,
+      "reward": 0.7611607313156128,
+      "reward_std": 0.1267005205154419,
+      "rewards/verify_math_reward/mean": 0.7611607313156128,
+      "rewards/verify_math_reward/std": 0.4266124963760376,
+      "step": 1568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3796.0,
+      "completions/mean_length": 1008.8192138671875,
+      "completions/mean_terminated_length": 616.611328125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 14.662390670553936,
+      "grad_norm": 0.18300633132457733,
+      "learning_rate": 1e-06,
+      "loss": -0.0805,
+      "num_tokens": 933397372.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.14027062058448792,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3764.0,
+      "completions/mean_length": 1153.9732666015625,
+      "completions/mean_terminated_length": 690.242919921875,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 14.671720116618076,
+      "grad_norm": 0.2032817304134369,
+      "learning_rate": 1e-06,
+      "loss": -0.0661,
+      "num_tokens": 934020580.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.15718290209770203,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 1006.7623291015625,
+      "completions/mean_terminated_length": 640.373291015625,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 14.681049562682215,
+      "grad_norm": 0.14900560677051544,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 934628135.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.14548751711845398,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 964.37060546875,
+      "completions/mean_terminated_length": 640.4088745117188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 14.690379008746355,
+      "grad_norm": 0.17270837724208832,
+      "learning_rate": 1e-06,
+      "loss": -0.0658,
+      "num_tokens": 935232995.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.13654978573322296,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2589.0,
+      "completions/mean_length": 1109.3148193359375,
+      "completions/mean_terminated_length": 606.9908447265625,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 14.699708454810496,
+      "grad_norm": 0.16209962964057922,
+      "learning_rate": 1e-06,
+      "loss": -0.0831,
+      "num_tokens": 935782845.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1443595588207245,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3669.0,
+      "completions/mean_length": 918.2701416015625,
+      "completions/mean_terminated_length": 606.7279663085938,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 14.709037900874636,
+      "grad_norm": 0.17579883337020874,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 936365383.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.15071649849414825,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 895.583740234375,
+      "completions/mean_terminated_length": 653.535400390625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 14.718367346938775,
+      "grad_norm": 0.16020067036151886,
+      "learning_rate": 1e-06,
+      "loss": -0.0233,
+      "num_tokens": 937000074.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.12858732044696808,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3978.0,
+      "completions/mean_length": 1088.4320068359375,
+      "completions/mean_terminated_length": 645.576171875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 14.727696793002915,
+      "grad_norm": 0.16138674318790436,
+      "learning_rate": 1e-06,
+      "loss": -0.0401,
+      "num_tokens": 937606637.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14556418359279633,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3525.0,
+      "completions/mean_length": 1069.888427734375,
+      "completions/mean_terminated_length": 646.3867797851562,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 14.737026239067056,
+      "grad_norm": 0.17441169917583466,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 938205657.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.16288946568965912,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4054.0,
+      "completions/mean_length": 1019.6953735351562,
+      "completions/mean_terminated_length": 602.503173828125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 14.746355685131196,
+      "grad_norm": 0.18642739951610565,
+      "learning_rate": 1e-06,
+      "loss": -0.0742,
+      "num_tokens": 938781864.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.12459757179021835,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 1578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3948.0,
+      "completions/mean_length": 880.4319458007812,
+      "completions/mean_terminated_length": 616.3514404296875,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 14.755685131195335,
+      "grad_norm": 0.17653703689575195,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 939378123.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.13978207111358643,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3172.0,
+      "completions/mean_length": 967.8281860351562,
+      "completions/mean_terminated_length": 639.9678955078125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 14.765014577259475,
+      "grad_norm": 0.17044095695018768,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 939985801.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.15417702496051788,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4022.0,
+      "completions/mean_length": 954.9453735351562,
+      "completions/mean_terminated_length": 630.0086059570312,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 14.774344023323614,
+      "grad_norm": 0.15684381127357483,
+      "learning_rate": 1e-06,
+      "loss": -0.0391,
+      "num_tokens": 940585656.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13680967688560486,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3810.0,
+      "completions/mean_length": 1020.5156860351562,
+      "completions/mean_terminated_length": 612.2655029296875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 14.783673469387756,
+      "grad_norm": 0.1657339632511139,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 941162230.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.13447892665863037,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3643.0,
+      "completions/mean_length": 960.8504638671875,
+      "completions/mean_terminated_length": 623.6959228515625,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 14.793002915451895,
+      "grad_norm": 0.17091085016727448,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 941754632.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.15282154083251953,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3244.0,
+      "completions/mean_length": 990.8359985351562,
+      "completions/mean_terminated_length": 648.3829345703125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 14.802332361516035,
+      "grad_norm": 0.1544399857521057,
+      "learning_rate": 1e-06,
+      "loss": -0.0359,
+      "num_tokens": 942361837.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.1324501484632492,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3253.0,
+      "completions/mean_length": 931.27685546875,
+      "completions/mean_terminated_length": 595.2691650390625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.811661807580174,
+      "grad_norm": 0.1635824590921402,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 942924653.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14218950271606445,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2439.0,
+      "completions/mean_length": 1017.0279541015625,
+      "completions/mean_terminated_length": 617.1109619140625,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 14.820991253644316,
+      "grad_norm": 0.16883839666843414,
+      "learning_rate": 1e-06,
+      "loss": -0.0444,
+      "num_tokens": 943497710.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.13782110810279846,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3935.0,
+      "completions/mean_length": 1086.2801513671875,
+      "completions/mean_terminated_length": 682.4443359375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 14.830320699708455,
+      "grad_norm": 0.15634258091449738,
+      "learning_rate": 1e-06,
+      "loss": -0.0634,
+      "num_tokens": 944126705.0,
+      "reward": 0.65625,
+      "reward_std": 0.13962799310684204,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3366.0,
+      "completions/mean_length": 926.1864013671875,
+      "completions/mean_terminated_length": 576.6034545898438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 14.839650145772595,
+      "grad_norm": 0.1745196133852005,
+      "learning_rate": 1e-06,
+      "loss": -0.0461,
+      "num_tokens": 944683048.0,
+      "reward": 0.7611607313156128,
+      "reward_std": 0.10893270373344421,
+      "rewards/verify_math_reward/mean": 0.7611607313156128,
+      "rewards/verify_math_reward/std": 0.4266124963760376,
+      "step": 1588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3000.0,
+      "completions/mean_length": 1021.1652221679688,
+      "completions/mean_terminated_length": 599.7410888671875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 14.848979591836734,
+      "grad_norm": 0.15581004321575165,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 945254908.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.12215371429920197,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663806796073914,
+      "step": 1589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3458.0,
+      "completions/mean_length": 985.8504638671875,
+      "completions/mean_terminated_length": 590.7245483398438,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 14.858309037900874,
+      "grad_norm": 0.2129804491996765,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 945807670.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.1686376929283142,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2799.0,
+      "completions/mean_length": 1041.5279541015625,
+      "completions/mean_terminated_length": 605.1747436523438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 14.867638483965015,
+      "grad_norm": 0.1739165186882019,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 946365687.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.13519318401813507,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2802.0,
+      "completions/mean_length": 926.7288208007812,
+      "completions/mean_terminated_length": 598.8731689453125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 14.876967930029155,
+      "grad_norm": 0.13142170011997223,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 946938780.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.09953668713569641,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3870.0,
+      "completions/mean_length": 949.661865234375,
+      "completions/mean_terminated_length": 602.6679077148438,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 14.886297376093294,
+      "grad_norm": 0.15690341591835022,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 947512269.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13583257794380188,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3780.0,
+      "completions/mean_length": 1029.04248046875,
+      "completions/mean_terminated_length": 686.5781860351562,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 14.895626822157434,
+      "grad_norm": 0.15457525849342346,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 948150987.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.16153216361999512,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3388.0,
+      "completions/mean_length": 892.72998046875,
+      "completions/mean_terminated_length": 570.041748046875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 14.904956268221575,
+      "grad_norm": 0.14987978339195251,
+      "learning_rate": 1e-06,
+      "loss": -0.0538,
+      "num_tokens": 948714185.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.11986782401800156,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 1003.3013916015625,
+      "completions/mean_terminated_length": 597.1893920898438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.914285714285715,
+      "grad_norm": 0.15120556950569153,
+      "learning_rate": 1e-06,
+      "loss": -0.0721,
+      "num_tokens": 949277503.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.12658992409706116,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3591.0,
+      "completions/mean_length": 1145.8359375,
+      "completions/mean_terminated_length": 640.6444702148438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 14.923615160349854,
+      "grad_norm": 0.20244941115379333,
+      "learning_rate": 1e-06,
+      "loss": -0.1195,
+      "num_tokens": 949861252.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16281278431415558,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3281.0,
+      "completions/mean_length": 1179.7701416015625,
+      "completions/mean_terminated_length": 639.7274780273438,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 14.932944606413994,
+      "grad_norm": 0.20390333235263824,
+      "learning_rate": 1e-06,
+      "loss": -0.1134,
+      "num_tokens": 950434358.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.15980760753154755,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 990.8192138671875,
+      "completions/mean_terminated_length": 609.481201171875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.942274052478133,
+      "grad_norm": 0.17664200067520142,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 951015436.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14109547436237335,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3008.0,
+      "completions/mean_length": 864.458740234375,
+      "completions/mean_terminated_length": 590.5993041992188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.951603498542275,
+      "grad_norm": 0.1586715281009674,
+      "learning_rate": 1e-06,
+      "loss": -0.0236,
+      "num_tokens": 951598343.0,
+      "reward": 0.7555803656578064,
+      "reward_std": 0.11809726804494858,
+      "rewards/verify_math_reward/mean": 0.7555803656578064,
+      "rewards/verify_math_reward/std": 0.42998257279396057,
+      "step": 1600
+    },
+    {
+      "epoch": 14.951603498542275,
+      "step": 1600,
+      "total_flos": 0.0,
+      "train_loss": -0.007817977162558236,
+      "train_runtime": 31764.4075,
+      "train_samples_per_second": 45.132,
+      "train_steps_per_second": 0.05
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 951598343,
+  "num_train_epochs": 15,
+  "save_steps": 80,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}