diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,14043 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2238638907544213,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.00044772778150884264,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "num_tokens": 100884.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 1
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 981.0,
+      "completions/mean_length": 1023.328125,
+      "completions/mean_terminated_length": 981.0,
+      "completions/min_length": 981.0,
+      "completions/min_terminated_length": 981.0,
+      "epoch": 0.0008954555630176853,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.0,
+      "num_tokens": 206061.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 2
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 820.0,
+      "completions/mean_length": 1010.65625,
+      "completions/mean_terminated_length": 739.3333740234375,
+      "completions/min_length": 599.0,
+      "completions/min_terminated_length": 599.0,
+      "epoch": 0.001343183344526528,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.0,
+      "num_tokens": 307747.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 3
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0017909111260353706,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0,
+      "num_tokens": 415135.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0022386389075442132,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 522827.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 855.0,
+      "completions/mean_length": 1018.6875,
+      "completions/mean_terminated_length": 854.0,
+      "completions/min_length": 853.0,
+      "completions/min_terminated_length": 853.0,
+      "epoch": 0.002686366689053056,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 624607.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 877.0,
+      "completions/mean_length": 1021.703125,
+      "completions/mean_terminated_length": 877.0,
+      "completions/min_length": 877.0,
+      "completions/min_terminated_length": 877.0,
+      "epoch": 0.0031340944705618985,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0,
+      "num_tokens": 732704.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 7
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1000.0,
+      "completions/mean_length": 1023.625,
+      "completions/mean_terminated_length": 1000.0,
+      "completions/min_length": 1000.0,
+      "completions/min_terminated_length": 1000.0,
+      "epoch": 0.003581822252070741,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.0,
+      "num_tokens": 833560.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 931.0,
+      "completions/mean_length": 991.734375,
+      "completions/mean_terminated_length": 679.8333740234375,
+      "completions/min_length": 489.0,
+      "completions/min_terminated_length": 489.0,
+      "epoch": 0.004029550033579583,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 930871.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 9
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 940.0,
+      "completions/mean_length": 1017.6875,
+      "completions/mean_terminated_length": 822.0,
+      "completions/min_length": 704.0,
+      "completions/min_terminated_length": 704.0,
+      "epoch": 0.0044772778150884264,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3e-06,
+      "loss": 0.0,
+      "num_tokens": 1032675.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 10
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.004925005596597269,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0,
+      "num_tokens": 1136951.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 11
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.005372733378106112,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.0,
+      "num_tokens": 1241799.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.005820461159614954,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 1353899.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 13
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 943.0,
+      "completions/mean_length": 1010.6875,
+      "completions/mean_terminated_length": 853.6000366210938,
+      "completions/min_length": 775.0,
+      "completions/min_terminated_length": 775.0,
+      "epoch": 0.006268188941123797,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 1461359.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.006715916722632639,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 1563783.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 15
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 983.0,
+      "completions/mean_length": 1014.640625,
+      "completions/mean_terminated_length": 824.3333740234375,
+      "completions/min_length": 634.0,
+      "completions/min_terminated_length": 634.0,
+      "epoch": 0.007163644504141482,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5e-06,
+      "loss": 0.0,
+      "num_tokens": 1667364.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 937.0,
+      "completions/mean_length": 1022.640625,
+      "completions/mean_terminated_length": 937.0,
+      "completions/min_length": 937.0,
+      "completions/min_terminated_length": 937.0,
+      "epoch": 0.0076113722856503245,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.999952797253148e-06,
+      "loss": 0.0,
+      "num_tokens": 1767621.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 17
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 695.0,
+      "completions/mean_length": 1018.859375,
+      "completions/mean_terminated_length": 695.0,
+      "completions/min_length": 695.0,
+      "completions/min_terminated_length": 695.0,
+      "epoch": 0.008059100067159167,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9998111909931225e-06,
+      "loss": 0.0,
+      "num_tokens": 1871276.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.00850682784866801,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.999575187161439e-06,
+      "loss": 0.0,
+      "num_tokens": 1969532.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 19
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1012.0,
+      "completions/mean_length": 1014.828125,
+      "completions/mean_terminated_length": 877.25,
+      "completions/min_length": 787.0,
+      "completions/min_terminated_length": 787.0,
+      "epoch": 0.008954555630176853,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9992447956603455e-06,
+      "loss": 0.0,
+      "num_tokens": 2073053.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 20
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.009402283411685695,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.998820030352409e-06,
+      "loss": 0.0,
+      "num_tokens": 2183973.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 21
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 696.0,
+      "completions/mean_length": 1018.875,
+      "completions/mean_terminated_length": 696.0,
+      "completions/min_length": 696.0,
+      "completions/min_terminated_length": 696.0,
+      "epoch": 0.009850011193194537,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.998300909059929e-06,
+      "loss": 0.0,
+      "num_tokens": 2283321.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 22
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 861.0,
+      "completions/mean_length": 968.453125,
+      "completions/mean_terminated_length": 579.625,
+      "completions/min_length": 369.0,
+      "completions/min_terminated_length": 369.0,
+      "epoch": 0.01029773897470338,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.997687453564198e-06,
+      "loss": 0.0,
+      "num_tokens": 2379834.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 23
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.010745466756212223,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9969796896045775e-06,
+      "loss": 0.0,
+      "num_tokens": 2482694.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 24
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 935.0,
+      "completions/mean_length": 1011.6875,
+      "completions/mean_terminated_length": 761.3333740234375,
+      "completions/min_length": 636.0,
+      "completions/min_terminated_length": 636.0,
+      "epoch": 0.011193194537721066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.996177646877426e-06,
+      "loss": 0.0,
+      "num_tokens": 2588050.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 25
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.011640922319229908,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.995281359034851e-06,
+      "loss": 0.0,
+      "num_tokens": 2688946.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 26
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.01208865010073875,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.994290863683296e-06,
+      "loss": 0.0,
+      "num_tokens": 2799774.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 27
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.012536377882247594,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.99320620238196e-06,
+      "loss": 0.0,
+      "num_tokens": 2905150.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 28
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 872.0,
+      "completions/mean_length": 996.84375,
+      "completions/mean_terminated_length": 676.4000244140625,
+      "completions/min_length": 453.0,
+      "completions/min_terminated_length": 453.0,
+      "epoch": 0.012984105663756436,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.99202742064106e-06,
+      "loss": 0.0,
+      "num_tokens": 3009420.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 29
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 750.0,
+      "completions/mean_length": 1019.71875,
+      "completions/mean_terminated_length": 750.0,
+      "completions/min_length": 750.0,
+      "completions/min_terminated_length": 750.0,
+      "epoch": 0.013431833445265278,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.990754567919917e-06,
+      "loss": 0.0,
+      "num_tokens": 3111838.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 30
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 890.0,
+      "completions/mean_length": 1021.90625,
+      "completions/mean_terminated_length": 890.0,
+      "completions/min_length": 890.0,
+      "completions/min_terminated_length": 890.0,
+      "epoch": 0.01387956122677412,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.989387697624881e-06,
+      "loss": 0.0,
+      "num_tokens": 3219228.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 31
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.014327289008282965,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.987926867107095e-06,
+      "loss": 0.0,
+      "num_tokens": 3321704.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 32
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 458.0,
+      "completions/mean_length": 984.84375,
+      "completions/mean_terminated_length": 397.5,
+      "completions/min_length": 286.0,
+      "completions/min_terminated_length": 286.0,
+      "epoch": 0.014775016789791807,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.986372137660078e-06,
+      "loss": 0.0,
+      "num_tokens": 3416070.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 33
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 951.0,
+      "completions/mean_length": 1008.75,
+      "completions/mean_terminated_length": 780.0,
+      "completions/min_length": 690.0,
+      "completions/min_terminated_length": 690.0,
+      "epoch": 0.015222744571300649,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.984723574517165e-06,
+      "loss": 0.0,
+      "num_tokens": 3520162.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 34
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.01567047235280949,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9829812468487655e-06,
+      "loss": 0.0,
+      "num_tokens": 3626034.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 35
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.016118200134318333,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.981145227759457e-06,
+      "loss": 0.0,
+      "num_tokens": 3735634.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 36
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.016565927915827176,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.979215594284924e-06,
+      "loss": 0.0,
+      "num_tokens": 3835030.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 37
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 920.0,
+      "completions/mean_length": 1020.25,
+      "completions/mean_terminated_length": 904.0,
+      "completions/min_length": 888.0,
+      "completions/min_terminated_length": 888.0,
+      "epoch": 0.01701365569733602,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.977192427388722e-06,
+      "loss": 0.0,
+      "num_tokens": 3938066.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 38
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.017461383478844864,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9750758119588824e-06,
+      "loss": 0.0,
+      "num_tokens": 4042074.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 39
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.017909111260353706,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.972865836804349e-06,
+      "loss": 0.0,
+      "num_tokens": 4142166.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 969.0,
+      "completions/mean_length": 998.796875,
+      "completions/mean_terminated_length": 755.1666870117188,
+      "completions/min_length": 489.0,
+      "completions/min_terminated_length": 489.0,
+      "epoch": 0.018356839041862548,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.970562594651254e-06,
+      "loss": 0.0,
+      "num_tokens": 4243141.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 41
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 993.0,
+      "completions/mean_length": 1007.5,
+      "completions/mean_terminated_length": 760.0,
+      "completions/min_length": 380.0,
+      "completions/min_terminated_length": 380.0,
+      "epoch": 0.01880456682337139,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.968166182139026e-06,
+      "loss": 0.0,
+      "num_tokens": 4339925.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 42
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.019252294604880232,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9656766998163306e-06,
+      "loss": 0.0,
+      "num_tokens": 4440849.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 43
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 833.0,
+      "completions/mean_length": 1009.859375,
+      "completions/mean_terminated_length": 722.3333740234375,
+      "completions/min_length": 554.0,
+      "completions/min_terminated_length": 554.0,
+      "epoch": 0.019700022386389075,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.963094252136865e-06,
+      "loss": 0.0,
+      "num_tokens": 4542032.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 44
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1006.0,
+      "completions/mean_length": 1000.21875,
+      "completions/mean_terminated_length": 806.5714721679688,
+      "completions/min_length": 569.0,
+      "completions/min_terminated_length": 569.0,
+      "epoch": 0.020147750167897917,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.960418947454958e-06,
+      "loss": 0.0,
+      "num_tokens": 4641134.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 45
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.02059547794940676,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.957650898021038e-06,
+      "loss": 0.0,
+      "num_tokens": 4738942.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 46
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.021043205730915605,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.954790219976915e-06,
+      "loss": 0.0,
+      "num_tokens": 4843394.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 47
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 601.0,
+      "completions/mean_length": 987.03125,
+      "completions/mean_terminated_length": 432.5,
+      "completions/min_length": 328.0,
+      "completions/min_terminated_length": 328.0,
+      "epoch": 0.021490933512424447,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.95183703335091e-06,
+      "loss": 0.0,
+      "num_tokens": 4953276.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 48
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 691.0,
+      "completions/mean_length": 1018.796875,
+      "completions/mean_terminated_length": 691.0,
+      "completions/min_length": 691.0,
+      "completions/min_terminated_length": 691.0,
+      "epoch": 0.02193866129393329,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.948791462052819e-06,
+      "loss": 0.0,
+      "num_tokens": 5052115.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 49
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.02238638907544213,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.945653633868716e-06,
+      "loss": 0.0,
+      "num_tokens": 5150371.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 50
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 920.0,
+      "completions/mean_length": 1008.15625,
+      "completions/mean_terminated_length": 770.5,
+      "completions/min_length": 646.0,
+      "completions/min_terminated_length": 646.0,
+      "epoch": 0.022834116856950974,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.942423680455584e-06,
+      "loss": 0.0,
+      "num_tokens": 5253669.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 51
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.023281844638459816,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.939101737335802e-06,
+      "loss": 0.0,
+      "num_tokens": 5355089.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 52
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 866.0,
+      "completions/mean_length": 1007.34375,
+      "completions/mean_terminated_length": 810.7999877929688,
+      "completions/min_length": 758.0,
+      "completions/min_terminated_length": 758.0,
+      "epoch": 0.023729572419968658,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.935687943891447e-06,
+      "loss": 0.0,
+      "num_tokens": 5451299.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 53
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 925.0,
+      "completions/mean_length": 984.453125,
+      "completions/mean_terminated_length": 517.7999877929688,
+      "completions/min_length": 343.0,
+      "completions/min_terminated_length": 343.0,
+      "epoch": 0.0241773002014775,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.932182443358458e-06,
+      "loss": 0.0,
+      "num_tokens": 5549856.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 54
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 666.0,
+      "completions/mean_length": 995.84375,
+      "completions/mean_terminated_length": 573.5,
+      "completions/min_length": 447.0,
+      "completions/min_terminated_length": 447.0,
+      "epoch": 0.024625027982986346,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.928585382820616e-06,
+      "loss": 0.0,
+      "num_tokens": 5647106.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 55
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.025072755764495188,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.924896913203376e-06,
+      "loss": 0.0,
+      "num_tokens": 5749690.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 56
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1013.0,
+      "completions/mean_length": 1023.828125,
+      "completions/mean_terminated_length": 1013.0,
+      "completions/min_length": 1013.0,
+      "completions/min_terminated_length": 1013.0,
+      "epoch": 0.02552048354600403,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.921117189267535e-06,
+      "loss": 0.0,
+      "num_tokens": 5858495.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 57
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 934.0,
+      "completions/mean_length": 998.125,
+      "completions/mean_terminated_length": 787.4285888671875,
+      "completions/min_length": 651.0,
+      "completions/min_terminated_length": 651.0,
+      "epoch": 0.025968211327512872,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.917246369602742e-06,
+      "loss": 0.0,
+      "num_tokens": 5964883.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 58
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 881.0,
+      "completions/mean_length": 993.46875,
+      "completions/mean_terminated_length": 535.5,
+      "completions/min_length": 364.0,
+      "completions/min_terminated_length": 364.0,
+      "epoch": 0.026415939109021715,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9132846166208355e-06,
+      "loss": 0.0,
+      "num_tokens": 6070717.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 59
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.026863666890530557,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.9092320965490365e-06,
+      "loss": 0.0,
+      "num_tokens": 6167285.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 60
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1010.0,
+      "completions/mean_length": 1007.875,
+      "completions/mean_terminated_length": 817.6000366210938,
+      "completions/min_length": 630.0,
+      "completions/min_terminated_length": 630.0,
+      "epoch": 0.0273113946720394,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.905088979422971e-06,
+      "loss": 0.0,
+      "num_tokens": 6269273.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 61
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.02775912245354824,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.900855439079536e-06,
+      "loss": 0.0,
+      "num_tokens": 6369913.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 62
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 796.0,
+      "completions/mean_length": 1000.015625,
+      "completions/mean_terminated_length": 640.25,
+      "completions/min_length": 387.0,
+      "completions/min_terminated_length": 387.0,
+      "epoch": 0.028206850235057087,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.8965316531496055e-06,
+      "loss": 0.0,
+      "num_tokens": 6472778.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 63
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1000.0,
+      "completions/mean_length": 1023.625,
+      "completions/mean_terminated_length": 1000.0,
+      "completions/min_length": 1000.0,
+      "completions/min_terminated_length": 1000.0,
+      "epoch": 0.02865457801656593,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.892117803050578e-06,
+      "loss": 0.0,
+      "num_tokens": 6582038.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 64
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.02910230579807477,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.887614073978761e-06,
+      "loss": 0.0,
+      "num_tokens": 6687850.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 65
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.029550033579583614,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.883020654901609e-06,
+      "loss": 0.0,
+      "num_tokens": 6790154.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 66
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 888.0,
+      "completions/mean_length": 1019.171875,
+      "completions/mean_terminated_length": 869.5,
+      "completions/min_length": 851.0,
+      "completions/min_terminated_length": 851.0,
+      "epoch": 0.029997761361092456,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.878337738549785e-06,
+      "loss": 0.0,
+      "num_tokens": 6885773.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 67
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.030445489142601298,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.873565521409082e-06,
+      "loss": 0.0,
+      "num_tokens": 6990045.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 68
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03089321692411014,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.868704203712173e-06,
+      "loss": 0.0,
+      "num_tokens": 7095261.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 69
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 947.0,
+      "completions/mean_length": 986.59375,
+      "completions/mean_terminated_length": 724.75,
+      "completions/min_length": 609.0,
+      "completions/min_terminated_length": 609.0,
+      "epoch": 0.03134094470561898,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.86375398943021e-06,
+      "loss": 0.0,
+      "num_tokens": 7197803.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 70
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03178867248712783,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.858715086264274e-06,
+      "loss": 0.0,
+      "num_tokens": 7300623.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 71
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 993.0,
+      "completions/mean_length": 1022.25,
+      "completions/mean_terminated_length": 968.0,
+      "completions/min_length": 943.0,
+      "completions/min_terminated_length": 943.0,
+      "epoch": 0.03223640026863667,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.853587705636646e-06,
+      "loss": 0.0,
+      "num_tokens": 7404155.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 642.0,
+      "completions/mean_length": 994.90625,
+      "completions/mean_terminated_length": 558.5,
+      "completions/min_length": 495.0,
+      "completions/min_terminated_length": 495.0,
+      "epoch": 0.03268412805014551,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.84837206268195e-06,
+      "loss": 0.0,
+      "num_tokens": 7507393.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 73
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03313185583165435,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.8430683762381195e-06,
+      "loss": 0.0,
+      "num_tokens": 7607517.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 74
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0335795836131632,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.837676868837213e-06,
+      "loss": 0.0,
+      "num_tokens": 7712433.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 75
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03402731139467204,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.832197766696085e-06,
+      "loss": 0.0,
+      "num_tokens": 7815861.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 76
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03447503917618088,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.826631299706887e-06,
+      "loss": 0.0,
+      "num_tokens": 7920797.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 77
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 980.0,
+      "completions/mean_length": 1016.96875,
+      "completions/mean_terminated_length": 874.0,
+      "completions/min_length": 757.0,
+      "completions/min_terminated_length": 757.0,
+      "epoch": 0.03492276695768973,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.820977701427424e-06,
+      "loss": 0.0,
+      "num_tokens": 8021783.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 78
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 866.0,
+      "completions/mean_length": 1021.53125,
+      "completions/mean_terminated_length": 866.0,
+      "completions/min_length": 866.0,
+      "completions/min_terminated_length": 866.0,
+      "epoch": 0.035370494739198566,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.81523720907136e-06,
+      "loss": 0.0,
+      "num_tokens": 8120937.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 79
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03581822252070741,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.809410063498254e-06,
+      "loss": 0.0,
+      "num_tokens": 8225273.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 80
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1018.0,
+      "completions/mean_length": 1021.46875,
+      "completions/mean_terminated_length": 970.0,
+      "completions/min_length": 915.0,
+      "completions/min_terminated_length": 915.0,
+      "epoch": 0.03626595030221625,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.8034965092034656e-06,
+      "loss": 0.0,
+      "num_tokens": 8328119.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 81
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.036713678083725096,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.797496794307889e-06,
+      "loss": 0.0,
+      "num_tokens": 8423835.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 82
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 911.0,
+      "completions/mean_length": 1017.0,
+      "completions/mean_terminated_length": 874.6666870117188,
+      "completions/min_length": 836.0,
+      "completions/min_terminated_length": 836.0,
+      "epoch": 0.037161405865233935,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.791411170547545e-06,
+      "loss": 0.0,
+      "num_tokens": 8523827.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 83
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.03760913364674278,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.785239893263017e-06,
+      "loss": 0.0,
+      "num_tokens": 8632007.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 84
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 985.0,
+      "completions/mean_length": 1020.0,
+      "completions/mean_terminated_length": 960.0,
+      "completions/min_length": 944.0,
+      "completions/min_terminated_length": 944.0,
+      "epoch": 0.038056861428251626,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.778983221388742e-06,
+      "loss": 0.0,
+      "num_tokens": 8729159.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 85
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.038504589209760465,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.77264141744214e-06,
+      "loss": 0.0,
+      "num_tokens": 8828767.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 86
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1008.0,
+      "completions/mean_length": 1020.9375,
+      "completions/mean_terminated_length": 926.0,
+      "completions/min_length": 844.0,
+      "completions/min_terminated_length": 844.0,
+      "epoch": 0.03895231699126931,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.766214747512603e-06,
+      "loss": 0.0,
+      "num_tokens": 8928211.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 87
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 939.0,
+      "completions/mean_length": 1022.671875,
+      "completions/mean_terminated_length": 939.0,
+      "completions/min_length": 939.0,
+      "completions/min_terminated_length": 939.0,
+      "epoch": 0.03940004477277815,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.759703481250331e-06,
+      "loss": 0.0,
+      "num_tokens": 9030762.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 88
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 966.0,
+      "completions/mean_length": 1013.359375,
+      "completions/mean_terminated_length": 797.0,
+      "completions/min_length": 598.0,
+      "completions/min_terminated_length": 598.0,
+      "epoch": 0.039847772554286995,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.753107891855015e-06,
+      "loss": 0.0,
+      "num_tokens": 9137589.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 89
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.040295500335795834,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.746428256064375e-06,
+      "loss": 0.0,
+      "num_tokens": 9241461.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 90
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 867.0,
+      "completions/mean_length": 975.953125,
+      "completions/mean_terminated_length": 639.625,
+      "completions/min_length": 419.0,
+      "completions/min_terminated_length": 419.0,
+      "epoch": 0.04074322811730468,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.7396648541425534e-06,
+      "loss": 0.0,
+      "num_tokens": 9338218.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 91
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04119095589881352,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.732817969868348e-06,
+      "loss": 0.0,
+      "num_tokens": 9443666.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 92
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 836.0,
+      "completions/mean_length": 1021.0625,
+      "completions/mean_terminated_length": 836.0,
+      "completions/min_length": 836.0,
+      "completions/min_terminated_length": 836.0,
+      "epoch": 0.041638683680322364,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.7258878905233095e-06,
+      "loss": 0.0,
+      "num_tokens": 9545246.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 93
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04208641146183121,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.718874906879688e-06,
+      "loss": 0.0,
+      "num_tokens": 9650522.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 94
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04253413924334005,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.711779313188231e-06,
+      "loss": 0.0,
+      "num_tokens": 9756938.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 95
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 986.0,
+      "completions/mean_length": 1023.40625,
+      "completions/mean_terminated_length": 986.0,
+      "completions/min_length": 986.0,
+      "completions/min_terminated_length": 986.0,
+      "epoch": 0.042981867024848894,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.70460140716584e-06,
+      "loss": 0.0,
+      "num_tokens": 9865392.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 96
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04342959480635773,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.697341489983076e-06,
+      "loss": 0.0,
+      "num_tokens": 9965916.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 97
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04387732258786658,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.6899998662515215e-06,
+      "loss": 0.0,
+      "num_tokens": 10066196.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 98
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 922.0,
+      "completions/mean_length": 1012.953125,
+      "completions/mean_terminated_length": 670.5,
+      "completions/min_length": 419.0,
+      "completions/min_terminated_length": 419.0,
+      "epoch": 0.04432505036937542,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.682576844011007e-06,
+      "loss": 0.0,
+      "num_tokens": 10168765.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 99
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.04477277815088426,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.675072734716678e-06,
+      "loss": 0.0,
+      "num_tokens": 10273713.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 932.0,
+      "completions/mean_length": 1022.5625,
+      "completions/mean_terminated_length": 932.0,
+      "completions/min_length": 932.0,
+      "completions/min_terminated_length": 932.0,
+      "epoch": 0.04522050593239311,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.667487853225931e-06,
+      "loss": 0.0,
+      "num_tokens": 10378013.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 503.0,
+      "completions/mean_length": 1015.859375,
+      "completions/mean_terminated_length": 503.0,
+      "completions/min_length": 503.0,
+      "completions/min_terminated_length": 503.0,
+      "epoch": 0.04566823371390195,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.659822517785203e-06,
+      "loss": 0.0,
+      "num_tokens": 10478420.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 648.0,
+      "completions/mean_length": 995.65625,
+      "completions/mean_terminated_length": 570.5,
+      "completions/min_length": 492.0,
+      "completions/min_terminated_length": 492.0,
+      "epoch": 0.04611596149541079,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.6520770500166165e-06,
+      "loss": 0.0,
+      "num_tokens": 10575242.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 913.0,
+      "completions/mean_length": 1019.953125,
+      "completions/mean_terminated_length": 894.5,
+      "completions/min_length": 876.0,
+      "completions/min_terminated_length": 876.0,
+      "epoch": 0.04656368927691963,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.644251774904487e-06,
+      "loss": 0.0,
+      "num_tokens": 10679227.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 870.0,
+      "completions/mean_length": 983.453125,
+      "completions/mean_terminated_length": 505.0,
+      "completions/min_length": 327.0,
+      "completions/min_terminated_length": 327.0,
+      "epoch": 0.04701141705842848,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.636347020781684e-06,
+      "loss": 0.0,
+      "num_tokens": 10775676.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 969.0,
+      "completions/mean_length": 1017.046875,
+      "completions/mean_terminated_length": 801.5,
+      "completions/min_length": 634.0,
+      "completions/min_terminated_length": 634.0,
+      "epoch": 0.047459144839937316,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.6283631193158605e-06,
+      "loss": 0.0,
+      "num_tokens": 10880815.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 688.0,
+      "completions/mean_length": 1012.09375,
+      "completions/mean_terminated_length": 643.0,
+      "completions/min_length": 598.0,
+      "completions/min_terminated_length": 598.0,
+      "epoch": 0.04790687262144616,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.620300405495532e-06,
+      "loss": 0.0,
+      "num_tokens": 10986009.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.048354600402955,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.612159217616022e-06,
+      "loss": 0.0,
+      "num_tokens": 11090309.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 681.0,
+      "completions/mean_length": 997.25,
+      "completions/mean_terminated_length": 596.0,
+      "completions/min_length": 494.0,
+      "completions/min_terminated_length": 494.0,
+      "epoch": 0.048802328184463846,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.603939897265268e-06,
+      "loss": 0.0,
+      "num_tokens": 11186605.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 723.0,
+      "completions/mean_length": 997.046875,
+      "completions/mean_terminated_length": 592.75,
+      "completions/min_length": 507.0,
+      "completions/min_terminated_length": 507.0,
+      "epoch": 0.04925005596597269,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.595642789309492e-06,
+      "loss": 0.0,
+      "num_tokens": 11282088.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 992.0,
+      "completions/mean_length": 1023.5,
+      "completions/mean_terminated_length": 992.0,
+      "completions/min_length": 992.0,
+      "completions/min_terminated_length": 992.0,
+      "epoch": 0.04969778374748153,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.587268241878724e-06,
+      "loss": 0.0,
+      "num_tokens": 11385668.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.050145511528990376,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.578816606352205e-06,
+      "loss": 0.0,
+      "num_tokens": 11490012.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.050593239310499215,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.570288237343632e-06,
+      "loss": 0.0,
+      "num_tokens": 11594964.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 857.0,
+      "completions/mean_length": 1005.765625,
+      "completions/mean_terminated_length": 732.25,
+      "completions/min_length": 644.0,
+      "completions/min_terminated_length": 644.0,
+      "epoch": 0.05104096709200806,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.561683492686289e-06,
+      "loss": 0.0,
+      "num_tokens": 11696097.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0514886948735169,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.5530027334180285e-06,
+      "loss": 0.0,
+      "num_tokens": 11803213.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 930.0,
+      "completions/mean_length": 1011.75,
+      "completions/mean_terminated_length": 762.6666870117188,
+      "completions/min_length": 659.0,
+      "completions/min_terminated_length": 659.0,
+      "epoch": 0.051936422655025745,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.544246323766122e-06,
+      "loss": 0.0,
+      "num_tokens": 11904105.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1004.0,
+      "completions/mean_length": 1014.3125,
+      "completions/mean_terminated_length": 869.0,
+      "completions/min_length": 687.0,
+      "completions/min_terminated_length": 687.0,
+      "epoch": 0.052384150436534584,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.535414631131983e-06,
+      "loss": 0.0,
+      "num_tokens": 12010265.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1021.0,
+      "completions/mean_length": 1004.75,
+      "completions/mean_terminated_length": 887.1111450195312,
+      "completions/min_length": 824.0,
+      "completions/min_terminated_length": 824.0,
+      "epoch": 0.05283187821804343,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.526508026075746e-06,
+      "loss": 0.0,
+      "num_tokens": 12109857.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.053279605999552275,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.517526882300721e-06,
+      "loss": 0.0,
+      "num_tokens": 12212909.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 579.0,
+      "completions/mean_length": 1017.046875,
+      "completions/mean_terminated_length": 579.0,
+      "completions/min_length": 579.0,
+      "completions/min_terminated_length": 579.0,
+      "epoch": 0.053727333781061114,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.508471576637713e-06,
+      "loss": 0.0,
+      "num_tokens": 12318084.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.05417506156256996,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.499342489029211e-06,
+      "loss": 0.0,
+      "num_tokens": 12422824.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1016.0,
+      "completions/mean_length": 997.21875,
+      "completions/mean_terminated_length": 681.2000122070312,
+      "completions/min_length": 502.0,
+      "completions/min_terminated_length": 502.0,
+      "epoch": 0.0546227893440788,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.490140002513449e-06,
+      "loss": 0.0,
+      "num_tokens": 12527674.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 707.0,
+      "completions/mean_length": 1006.28125,
+      "completions/mean_terminated_length": 646.0,
+      "completions/min_length": 580.0,
+      "completions/min_terminated_length": 580.0,
+      "epoch": 0.055070517125587644,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.48086450320833e-06,
+      "loss": 0.0,
+      "num_tokens": 12627868.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 894.0,
+      "completions/mean_length": 1018.59375,
+      "completions/mean_terminated_length": 851.0,
+      "completions/min_length": 808.0,
+      "completions/min_terminated_length": 808.0,
+      "epoch": 0.05551824490709648,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.4715163802952266e-06,
+      "loss": 0.0,
+      "num_tokens": 12730554.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.05596597268860533,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.462096026002655e-06,
+      "loss": 0.0,
+      "num_tokens": 12833422.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1005.0,
+      "completions/mean_length": 1018.03125,
+      "completions/mean_terminated_length": 896.6666870117188,
+      "completions/min_length": 811.0,
+      "completions/min_terminated_length": 811.0,
+      "epoch": 0.056413700470114174,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.4526038355898144e-06,
+      "loss": 0.0,
+      "num_tokens": 12937280.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.05686142825162301,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.4430402073300035e-06,
+      "loss": 0.0,
+      "num_tokens": 13041688.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1003.0,
+      "completions/mean_length": 1003.296875,
+      "completions/mean_terminated_length": 834.7142944335938,
+      "completions/min_length": 671.0,
+      "completions/min_terminated_length": 671.0,
+      "epoch": 0.05730915603313186,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.433405542493909e-06,
+      "loss": 0.0,
+      "num_tokens": 13137275.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 595.0,
+      "completions/mean_length": 990.3125,
+      "completions/mean_terminated_length": 485.0,
+      "completions/min_length": 407.0,
+      "completions/min_terminated_length": 407.0,
+      "epoch": 0.0577568838146407,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.4237002453327734e-06,
+      "loss": 0.0,
+      "num_tokens": 13238395.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 944.0,
+      "completions/mean_length": 1012.59375,
+      "completions/mean_terminated_length": 780.6666870117188,
+      "completions/min_length": 644.0,
+      "completions/min_terminated_length": 644.0,
+      "epoch": 0.05820461159614954,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.4139247230614245e-06,
+      "loss": 0.0,
+      "num_tokens": 13340133.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.05865233937765838,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.404079385841201e-06,
+      "loss": 0.0,
+      "num_tokens": 13446217.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 750.0,
+      "completions/mean_length": 993.484375,
+      "completions/mean_terminated_length": 535.75,
+      "completions/min_length": 407.0,
+      "completions/min_terminated_length": 407.0,
+      "epoch": 0.05910006715916723,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.394164646762734e-06,
+      "loss": 0.0,
+      "num_tokens": 13549708.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.059547794940676066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.384180921828618e-06,
+      "loss": 0.0,
+      "num_tokens": 13651832.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 746.0,
+      "completions/mean_length": 1019.65625,
+      "completions/mean_terminated_length": 746.0,
+      "completions/min_length": 746.0,
+      "completions/min_terminated_length": 746.0,
+      "epoch": 0.05999552272218491,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.374128629935955e-06,
+      "loss": 0.0,
+      "num_tokens": 13756070.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06044325050369376,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.364008192858781e-06,
+      "loss": 0.0,
+      "num_tokens": 13857318.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.060890978285202596,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.353820035230366e-06,
+      "loss": 0.0,
+      "num_tokens": 13965146.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 904.0,
+      "completions/mean_length": 1004.984375,
+      "completions/mean_terminated_length": 719.75,
+      "completions/min_length": 548.0,
+      "completions/min_terminated_length": 548.0,
+      "epoch": 0.06133870606671144,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.3435645845254e-06,
+      "loss": 0.0,
+      "num_tokens": 14065581.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06178643384822028,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.333242271042054e-06,
+      "loss": 0.0,
+      "num_tokens": 14166301.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.062234161629729126,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.32285352788393e-06,
+      "loss": 0.0,
+      "num_tokens": 14270261.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 919.0,
+      "completions/mean_length": 1013.96875,
+      "completions/mean_terminated_length": 863.5,
+      "completions/min_length": 797.0,
+      "completions/min_terminated_length": 797.0,
+      "epoch": 0.06268188941123796,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.312398790941882e-06,
+      "loss": 0.0,
+      "num_tokens": 14371047.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0631296171927468,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.301878498875735e-06,
+      "loss": 0.0,
+      "num_tokens": 14476499.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06357734497425566,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.291293093095873e-06,
+      "loss": 0.0,
+      "num_tokens": 14579207.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 839.0,
+      "completions/mean_length": 1021.109375,
+      "completions/mean_terminated_length": 839.0,
+      "completions/min_length": 839.0,
+      "completions/min_terminated_length": 839.0,
+      "epoch": 0.0640250727557645,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.280643017744723e-06,
+      "loss": 0.0,
+      "num_tokens": 14686978.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06447280053727333,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.269928719678117e-06,
+      "loss": 0.0,
+      "num_tokens": 14792318.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 977.0,
+      "completions/mean_length": 1021.03125,
+      "completions/mean_terminated_length": 929.0,
+      "completions/min_length": 881.0,
+      "completions/min_terminated_length": 881.0,
+      "epoch": 0.06492052831878219,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.2591506484465426e-06,
+      "loss": 0.0,
+      "num_tokens": 14892548.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 932.0,
+      "completions/mean_length": 995.125,
+      "completions/mean_terminated_length": 818.6666870117188,
+      "completions/min_length": 643.0,
+      "completions/min_terminated_length": 643.0,
+      "epoch": 0.06536825610029103,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.248309256276283e-06,
+      "loss": 0.0,
+      "num_tokens": 14988564.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1018.0,
+      "completions/mean_length": 1005.8125,
+      "completions/mean_terminated_length": 878.5,
+      "completions/min_length": 715.0,
+      "completions/min_terminated_length": 715.0,
+      "epoch": 0.06581598388179986,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.23740499805044e-06,
+      "loss": 0.0,
+      "num_tokens": 15086448.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 507.0,
+      "completions/mean_length": 987.0625,
+      "completions/mean_terminated_length": 433.0,
+      "completions/min_length": 355.0,
+      "completions/min_terminated_length": 355.0,
+      "epoch": 0.0662637116633087,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.22643833128985e-06,
+      "loss": 0.0,
+      "num_tokens": 15185412.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1021.0,
+      "completions/mean_length": 1023.953125,
+      "completions/mean_terminated_length": 1021.0,
+      "completions/min_length": 1021.0,
+      "completions/min_terminated_length": 1021.0,
+      "epoch": 0.06671143944481756,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.215409716133885e-06,
+      "loss": 0.0,
+      "num_tokens": 15283373.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0671591672263264,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.204319615321151e-06,
+      "loss": 0.0,
+      "num_tokens": 15391997.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 991.0,
+      "completions/mean_length": 965.359375,
+      "completions/mean_terminated_length": 607.0,
+      "completions/min_length": 276.0,
+      "completions/min_terminated_length": 276.0,
+      "epoch": 0.06760689500783523,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.193168494170065e-06,
+      "loss": 0.0,
+      "num_tokens": 15488724.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1008.0,
+      "completions/mean_length": 1019.40625,
+      "completions/mean_terminated_length": 877.0,
+      "completions/min_length": 746.0,
+      "completions/min_terminated_length": 746.0,
+      "epoch": 0.06805462278934409,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.181956820559339e-06,
+      "loss": 0.0,
+      "num_tokens": 15587878.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06850235057085292,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.170685064908342e-06,
+      "loss": 0.0,
+      "num_tokens": 15695850.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06895007835236176,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.159353700157365e-06,
+      "loss": 0.0,
+      "num_tokens": 15795302.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0693978061338706,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.14796320174778e-06,
+      "loss": 0.0,
+      "num_tokens": 15898322.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.06984553391537945,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.136514047602087e-06,
+      "loss": 0.0,
+      "num_tokens": 15995538.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1022.0,
+      "completions/mean_length": 1012.625,
+      "completions/mean_terminated_length": 781.3333740234375,
+      "completions/min_length": 584.0,
+      "completions/min_terminated_length": 584.0,
+      "epoch": 0.07029326169688829,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.1250067181038635e-06,
+      "loss": 0.0,
+      "num_tokens": 16096670.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 745.0,
+      "completions/mean_length": 1019.640625,
+      "completions/mean_terminated_length": 745.0,
+      "completions/min_length": 745.0,
+      "completions/min_terminated_length": 745.0,
+      "epoch": 0.07074098947839713,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.113441696077608e-06,
+      "loss": 0.0,
+      "num_tokens": 16204591.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07118871725990597,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.101819466768484e-06,
+      "loss": 0.0,
+      "num_tokens": 16308059.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07163644504141482,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.0901405178219535e-06,
+      "loss": 0.0,
+      "num_tokens": 16413043.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 995.0,
+      "completions/mean_length": 1011.875,
+      "completions/mean_terminated_length": 830.0,
+      "completions/min_length": 598.0,
+      "completions/min_terminated_length": 598.0,
+      "epoch": 0.07208417282292366,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.078405339263326e-06,
+      "loss": 0.0,
+      "num_tokens": 16518911.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0725319006044325,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.06661442347719e-06,
+      "loss": 0.0,
+      "num_tokens": 16623503.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07297962838594135,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.054768265186758e-06,
+      "loss": 0.0,
+      "num_tokens": 16728267.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07342735616745019,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.0428673614331036e-06,
+      "loss": 0.0,
+      "num_tokens": 16830239.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07387508394895903,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.030912211554316e-06,
+      "loss": 0.0,
+      "num_tokens": 16933787.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 905.0,
+      "completions/mean_length": 986.140625,
+      "completions/mean_terminated_length": 677.857177734375,
+      "completions/min_length": 487.0,
+      "completions/min_terminated_length": 487.0,
+      "epoch": 0.07432281173046787,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.018903317164539e-06,
+      "loss": 0.0,
+      "num_tokens": 17037996.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07477053951197672,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.006841182132932e-06,
+      "loss": 0.0,
+      "num_tokens": 17145620.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 931.0,
+      "completions/mean_length": 1020.421875,
+      "completions/mean_terminated_length": 909.5,
+      "completions/min_length": 888.0,
+      "completions/min_terminated_length": 888.0,
+      "epoch": 0.07521826729348556,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.9947263125625195e-06,
+      "loss": 0.0,
+      "num_tokens": 17249783.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 798.0,
+      "completions/mean_length": 993.34375,
+      "completions/mean_terminated_length": 533.5,
+      "completions/min_length": 396.0,
+      "completions/min_terminated_length": 396.0,
+      "epoch": 0.0756659950749944,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.982559216768967e-06,
+      "loss": 0.0,
+      "num_tokens": 17348369.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07611372285650325,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.970340405259245e-06,
+      "loss": 0.0,
+      "num_tokens": 17452465.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07656145063801209,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.958070390710214e-06,
+      "loss": 0.0,
+      "num_tokens": 17556909.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07700917841952093,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.945749687947109e-06,
+      "loss": 0.0,
+      "num_tokens": 17661857.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07745690620102977,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.933378813921942e-06,
+      "loss": 0.0,
+      "num_tokens": 17763561.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07790463398253862,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.920958287691811e-06,
+      "loss": 0.0,
+      "num_tokens": 17868733.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 869.0,
+      "completions/mean_length": 1021.578125,
+      "completions/mean_terminated_length": 869.0,
+      "completions/min_length": 869.0,
+      "completions/min_terminated_length": 869.0,
+      "epoch": 0.07835236176404746,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.908488630397121e-06,
+      "loss": 0.0,
+      "num_tokens": 17968722.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 981.0,
+      "completions/mean_length": 1023.328125,
+      "completions/mean_terminated_length": 981.0,
+      "completions/min_length": 981.0,
+      "completions/min_terminated_length": 981.0,
+      "epoch": 0.0788000895455563,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.8959703652397175e-06,
+      "loss": 0.0,
+      "num_tokens": 18077271.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07924781732706515,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.883404017460935e-06,
+      "loss": 0.0,
+      "num_tokens": 18186387.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.07969554510857399,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.870790114319559e-06,
+      "loss": 0.0,
+      "num_tokens": 18291707.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 624.0,
+      "completions/mean_length": 999.5625,
+      "completions/mean_terminated_length": 502.66668701171875,
+      "completions/min_length": 433.0,
+      "completions/min_terminated_length": 433.0,
+      "epoch": 0.08014327289008283,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.858129185069701e-06,
+      "loss": 0.0,
+      "num_tokens": 18392119.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 992.0,
+      "completions/mean_length": 1004.328125,
+      "completions/mean_terminated_length": 772.2000122070312,
+      "completions/min_length": 652.0,
+      "completions/min_terminated_length": 652.0,
+      "epoch": 0.08059100067159167,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.845421760938597e-06,
+      "loss": 0.0,
+      "num_tokens": 18495344.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 951.0,
+      "completions/mean_length": 970.53125,
+      "completions/mean_terminated_length": 681.7999877929688,
+      "completions/min_length": 520.0,
+      "completions/min_terminated_length": 520.0,
+      "epoch": 0.08103872845310052,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.832668375104312e-06,
+      "loss": 0.0,
+      "num_tokens": 18595910.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08148645623460936,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.8198695626733725e-06,
+      "loss": 0.0,
+      "num_tokens": 18697342.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.0819341840161182,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.8070258606583156e-06,
+      "loss": 0.0,
+      "num_tokens": 18802114.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 959.0,
+      "completions/mean_length": 1002.5625,
+      "completions/mean_terminated_length": 795.3333740234375,
+      "completions/min_length": 605.0,
+      "completions/min_terminated_length": 605.0,
+      "epoch": 0.08238191179762704,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7941378079551544e-06,
+      "loss": 0.0,
+      "num_tokens": 18905054.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08282963957913589,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7812059453207677e-06,
+      "loss": 0.0,
+      "num_tokens": 19010542.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08327736736064473,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.768230815350213e-06,
+      "loss": 0.0,
+      "num_tokens": 19115434.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08372509514215357,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7552129624539557e-06,
+      "loss": 0.0,
+      "num_tokens": 19217818.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08417282292366242,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7421529328350316e-06,
+      "loss": 0.0,
+      "num_tokens": 19319702.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 982.0,
+      "completions/mean_length": 994.25,
+      "completions/mean_terminated_length": 786.0,
+      "completions/min_length": 575.0,
+      "completions/min_terminated_length": 575.0,
+      "epoch": 0.08462055070517126,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7290512744661274e-06,
+      "loss": 0.0,
+      "num_tokens": 19413710.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 889.0,
+      "completions/mean_length": 1015.21875,
+      "completions/mean_terminated_length": 836.6666870117188,
+      "completions/min_length": 762.0,
+      "completions/min_terminated_length": 762.0,
+      "epoch": 0.0850682784866801,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.715908537066589e-06,
+      "loss": 0.0,
+      "num_tokens": 19514196.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 606.0,
+      "completions/mean_length": 992.703125,
+      "completions/mean_terminated_length": 523.25,
+      "completions/min_length": 424.0,
+      "completions/min_terminated_length": 424.0,
+      "epoch": 0.08551600626818893,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.7027252720793538e-06,
+      "loss": 0.0,
+      "num_tokens": 19613753.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08596373404969779,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.689502032647817e-06,
+      "loss": 0.0,
+      "num_tokens": 19720729.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 972.0,
+      "completions/mean_length": 1023.1875,
+      "completions/mean_terminated_length": 972.0,
+      "completions/min_length": 972.0,
+      "completions/min_terminated_length": 972.0,
+      "epoch": 0.08641146183120663,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.6762393735926245e-06,
+      "loss": 0.0,
+      "num_tokens": 19821269.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 745.0,
+      "completions/mean_length": 1019.640625,
+      "completions/mean_terminated_length": 745.0,
+      "completions/min_length": 745.0,
+      "completions/min_terminated_length": 745.0,
+      "epoch": 0.08685918961271547,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.6629378513883852e-06,
+      "loss": 0.0,
+      "num_tokens": 19921210.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 663.0,
+      "completions/mean_length": 1018.359375,
+      "completions/mean_terminated_length": 663.0,
+      "completions/min_length": 663.0,
+      "completions/min_terminated_length": 663.0,
+      "epoch": 0.08730691739422432,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.6495980241403307e-06,
+      "loss": 0.0,
+      "num_tokens": 20024277.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08775464517573316,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.636220451560896e-06,
+      "loss": 0.0,
+      "num_tokens": 20130741.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.088202372957242,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.622805694946235e-06,
+      "loss": 0.0,
+      "num_tokens": 20231521.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1006.0,
+      "completions/mean_length": 1019.0625,
+      "completions/mean_terminated_length": 945.0,
+      "completions/min_length": 838.0,
+      "completions/min_terminated_length": 838.0,
+      "epoch": 0.08865010073875083,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.609354317152667e-06,
+      "loss": 0.0,
+      "num_tokens": 20334933.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08909782852025969,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.595866882573063e-06,
+      "loss": 0.0,
+      "num_tokens": 20431537.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08954555630176853,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.5823439571131675e-06,
+      "loss": 0.0,
+      "num_tokens": 20535769.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.08999328408327736,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.5687861081678477e-06,
+      "loss": 0.0,
+      "num_tokens": 20640141.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09044101186478622,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.555193904597291e-06,
+      "loss": 0.0,
+      "num_tokens": 20748021.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 970.0,
+      "completions/mean_length": 984.84375,
+      "completions/mean_terminated_length": 710.75,
+      "completions/min_length": 439.0,
+      "completions/min_terminated_length": 439.0,
+      "epoch": 0.09088873964629506,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.541567916703138e-06,
+      "loss": 0.0,
+      "num_tokens": 20850671.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 949.0,
+      "completions/mean_length": 1015.828125,
+      "completions/mean_terminated_length": 849.6666870117188,
+      "completions/min_length": 735.0,
+      "completions/min_terminated_length": 735.0,
+      "epoch": 0.0913364674278039,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.5279087162045517e-06,
+      "loss": 0.0,
+      "num_tokens": 20946692.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09178419520931273,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.5142168762142265e-06,
+      "loss": 0.0,
+      "num_tokens": 21048832.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09223192299082159,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.500492971214347e-06,
+      "loss": 0.0,
+      "num_tokens": 21154204.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09267965077233042,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.48673757703248e-06,
+      "loss": 0.0,
+      "num_tokens": 21263912.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09312737855383926,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.472951270817418e-06,
+      "loss": 0.0,
+      "num_tokens": 21369804.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1014.0,
+      "completions/mean_length": 1017.53125,
+      "completions/mean_terminated_length": 817.0,
+      "completions/min_length": 620.0,
+      "completions/min_terminated_length": 620.0,
+      "epoch": 0.0935751063353481,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.4591346310149578e-06,
+      "loss": 0.0,
+      "num_tokens": 21470438.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 676.0,
+      "completions/mean_length": 999.359375,
+      "completions/mean_terminated_length": 629.75,
+      "completions/min_length": 516.0,
+      "completions/min_terminated_length": 516.0,
+      "epoch": 0.09402283411685695,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.445288237343632e-06,
+      "loss": 0.0,
+      "num_tokens": 21570277.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 868.0,
+      "completions/mean_length": 1004.15625,
+      "completions/mean_terminated_length": 770.0,
+      "completions/min_length": 542.0,
+      "completions/min_terminated_length": 542.0,
+      "epoch": 0.09447056189836579,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.4314126707703895e-06,
+      "loss": 0.0,
+      "num_tokens": 21669423.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 803.0,
+      "completions/mean_length": 1006.96875,
+      "completions/mean_terminated_length": 751.5,
+      "completions/min_length": 689.0,
+      "completions/min_terminated_length": 689.0,
+      "epoch": 0.09491828967987463,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.4175085134862128e-06,
+      "loss": 0.0,
+      "num_tokens": 21767317.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09536601746138348,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.4035763488816953e-06,
+      "loss": 0.0,
+      "num_tokens": 21867173.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09581374524289232,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.3896167615225594e-06,
+      "loss": 0.0,
+      "num_tokens": 21966625.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09626147302440116,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.375630337125133e-06,
+      "loss": 0.0,
+      "num_tokens": 22073941.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09670920080591,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.361617662531772e-06,
+      "loss": 0.0,
+      "num_tokens": 22178133.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09715692858741885,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.347579325686237e-06,
+      "loss": 0.0,
+      "num_tokens": 22278497.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.09760465636892769,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.333515915609027e-06,
+      "loss": 0.0,
+      "num_tokens": 22381605.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 848.0,
+      "completions/mean_length": 1021.25,
+      "completions/mean_terminated_length": 848.0,
+      "completions/min_length": 848.0,
+      "completions/min_terminated_length": 848.0,
+      "epoch": 0.09805238415043653,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.3194280223726616e-06,
+      "loss": 0.0,
+      "num_tokens": 22483869.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 974.0,
+      "completions/mean_length": 1006.90625,
+      "completions/mean_terminated_length": 750.5,
+      "completions/min_length": 641.0,
+      "completions/min_terminated_length": 641.0,
+      "epoch": 0.09850011193194538,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.305316237076927e-06,
+      "loss": 0.0,
+      "num_tokens": 22583423.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1010.0,
+      "completions/mean_length": 1022.140625,
+      "completions/mean_terminated_length": 984.3333740234375,
+      "completions/min_length": 947.0,
+      "completions/min_terminated_length": 947.0,
+      "epoch": 0.09894783971345422,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.291181151824071e-06,
+      "loss": 0.0,
+      "num_tokens": 22682332.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 957.0,
+      "completions/mean_length": 960.375,
+      "completions/mean_terminated_length": 571.5555419921875,
+      "completions/min_length": 253.0,
+      "completions/min_terminated_length": 253.0,
+      "epoch": 0.09939556749496306,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.27702335969396e-06,
+      "loss": 0.0,
+      "num_tokens": 22777036.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 814.0,
+      "completions/mean_length": 1004.890625,
+      "completions/mean_terminated_length": 718.25,
+      "completions/min_length": 605.0,
+      "completions/min_terminated_length": 605.0,
+      "epoch": 0.0998432952764719,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.2628434547191985e-06,
+      "loss": 0.0,
+      "num_tokens": 22875313.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10029102305798075,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.2486420318601973e-06,
+      "loss": 0.0,
+      "num_tokens": 22983061.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10073875083948959,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.2344196869802187e-06,
+      "loss": 0.0,
+      "num_tokens": 23083065.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10118647862099843,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.2201770168203694e-06,
+      "loss": 0.0,
+      "num_tokens": 23188249.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 994.0,
+      "completions/mean_length": 1002.671875,
+      "completions/mean_terminated_length": 829.0000610351562,
+      "completions/min_length": 663.0,
+      "completions/min_terminated_length": 663.0,
+      "epoch": 0.10163420640250728,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.205914618974563e-06,
+      "loss": 0.0,
+      "num_tokens": 23289060.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 974.0,
+      "completions/mean_length": 1023.21875,
+      "completions/mean_terminated_length": 974.0,
+      "completions/min_length": 974.0,
+      "completions/min_terminated_length": 974.0,
+      "epoch": 0.10208193418401612,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.1916330918644496e-06,
+      "loss": 0.0,
+      "num_tokens": 23393490.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1012.0,
+      "completions/mean_length": 1018.34375,
+      "completions/mean_terminated_length": 933.5,
+      "completions/min_length": 866.0,
+      "completions/min_terminated_length": 866.0,
+      "epoch": 0.10252966196552496,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.177333034714303e-06,
+      "loss": 0.0,
+      "num_tokens": 23494888.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1029773897470338,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.1630150475258813e-06,
+      "loss": 0.0,
+      "num_tokens": 23596568.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 891.0,
+      "completions/mean_length": 1012.34375,
+      "completions/mean_terminated_length": 775.3333740234375,
+      "completions/min_length": 699.0,
+      "completions/min_terminated_length": 699.0,
+      "epoch": 0.10342511752854265,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.148679731053252e-06,
+      "loss": 0.0,
+      "num_tokens": 23696510.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 981.0,
+      "completions/mean_length": 1021.640625,
+      "completions/mean_terminated_length": 948.5,
+      "completions/min_length": 916.0,
+      "completions/min_terminated_length": 916.0,
+      "epoch": 0.10387284531005149,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.1343276867775805e-06,
+      "loss": 0.0,
+      "num_tokens": 23801939.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 657.0,
+      "completions/mean_length": 1018.265625,
+      "completions/mean_terminated_length": 657.0,
+      "completions/min_length": 657.0,
+      "completions/min_terminated_length": 657.0,
+      "epoch": 0.10432057309156033,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.1199595168819043e-06,
+      "loss": 0.0,
+      "num_tokens": 23901532.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10476830087306917,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.105575824225852e-06,
+      "loss": 0.0,
+      "num_tokens": 24004644.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 963.0,
+      "completions/mean_length": 1017.703125,
+      "completions/mean_terminated_length": 822.5,
+      "completions/min_length": 682.0,
+      "completions/min_terminated_length": 682.0,
+      "epoch": 0.10521602865457802,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.091177212320363e-06,
+      "loss": 0.0,
+      "num_tokens": 24108497.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 822.0,
+      "completions/mean_length": 1017.5625,
+      "completions/mean_terminated_length": 818.0,
+      "completions/min_length": 814.0,
+      "completions/min_terminated_length": 814.0,
+      "epoch": 0.10566375643608686,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.0767642853023538e-06,
+      "loss": 0.0,
+      "num_tokens": 24210321.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1011.0,
+      "completions/mean_length": 1007.625,
+      "completions/mean_terminated_length": 874.2857666015625,
+      "completions/min_length": 660.0,
+      "completions/min_terminated_length": 660.0,
+      "epoch": 0.1061114842175957,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.062337647909376e-06,
+      "loss": 0.0,
+      "num_tokens": 24313089.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 935.0,
+      "completions/mean_length": 1022.609375,
+      "completions/mean_terminated_length": 935.0,
+      "completions/min_length": 935.0,
+      "completions/min_terminated_length": 935.0,
+      "epoch": 0.10655921199910455,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.04789790545424e-06,
+      "loss": 0.0,
+      "num_tokens": 24415908.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1024.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 1024.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 1024.0,
+      "epoch": 0.10700693978061339,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.033445663799621e-06,
+      "loss": 0.0,
+      "num_tokens": 24520580.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10745466756212223,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.018981529332633e-06,
+      "loss": 0.0,
+      "num_tokens": 24625368.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10790239534363107,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.00450610893939e-06,
+      "loss": 0.0,
+      "num_tokens": 24723052.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10835012312513992,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.9900200099795396e-06,
+      "loss": 0.0,
+      "num_tokens": 24829812.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.10879785090664876,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.9755238402607826e-06,
+      "loss": 0.0,
+      "num_tokens": 24933372.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 1006.78125,
+      "completions/mean_terminated_length": 748.5,
+      "completions/min_length": 491.0,
+      "completions/min_terminated_length": 491.0,
+      "epoch": 0.1092455786881576,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.961018208013367e-06,
+      "loss": 0.0,
+      "num_tokens": 25035482.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1022.0,
+      "completions/mean_length": 1019.8125,
+      "completions/mean_terminated_length": 934.6666870117188,
+      "completions/min_length": 820.0,
+      "completions/min_terminated_length": 820.0,
+      "epoch": 0.10969330646966645,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.9465037218645694e-06,
+      "loss": 0.0,
+      "num_tokens": 25136250.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 898.0,
+      "completions/mean_length": 1022.03125,
+      "completions/mean_terminated_length": 898.0,
+      "completions/min_length": 898.0,
+      "completions/min_terminated_length": 898.0,
+      "epoch": 0.11014103425117529,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.9319809908131604e-06,
+      "loss": 0.0,
+      "num_tokens": 25239468.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 767.0,
+      "completions/mean_length": 989.734375,
+      "completions/mean_terminated_length": 585.4000244140625,
+      "completions/min_length": 494.0,
+      "completions/min_terminated_length": 494.0,
+      "epoch": 0.11058876203268413,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.917450624203847e-06,
+      "loss": 0.0,
+      "num_tokens": 25346935.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 870.0,
+      "completions/mean_length": 1015.203125,
+      "completions/mean_terminated_length": 836.3333740234375,
+      "completions/min_length": 803.0,
+      "completions/min_terminated_length": 803.0,
+      "epoch": 0.11103648981419297,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.9029132317017118e-06,
+      "loss": 0.0,
+      "num_tokens": 25443492.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11148421759570182,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.888369423266629e-06,
+      "loss": 0.0,
+      "num_tokens": 25544716.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11193194537721066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.8738198091276712e-06,
+      "loss": 0.0,
+      "num_tokens": 25646572.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1123796731587195,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.859264999757509e-06,
+      "loss": 0.0,
+      "num_tokens": 25750156.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11282740094022835,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.8447056058467928e-06,
+      "loss": 0.0,
+      "num_tokens": 25853932.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 998.0,
+      "completions/mean_length": 1008.46875,
+      "completions/mean_terminated_length": 899.75,
+      "completions/min_length": 783.0,
+      "completions/min_terminated_length": 783.0,
+      "epoch": 0.11327512872173719,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.830142238278531e-06,
+      "loss": 0.0,
+      "num_tokens": 25952230.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11372285650324603,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.81557550810246e-06,
+      "loss": 0.0,
+      "num_tokens": 26061818.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11417058428475486,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.8010060265094026e-06,
+      "loss": 0.0,
+      "num_tokens": 26165614.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11461831206626372,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.786434404805629e-06,
+      "loss": 0.0,
+      "num_tokens": 26266538.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11506603984777256,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.771861254387199e-06,
+      "loss": 0.0,
+      "num_tokens": 26368514.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1155137676292814,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.7572871867143204e-06,
+      "loss": 0.0,
+      "num_tokens": 26472162.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11596149541079023,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.742712813285681e-06,
+      "loss": 0.0,
+      "num_tokens": 26576558.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 626.0,
+      "completions/mean_length": 994.25,
+      "completions/mean_terminated_length": 548.0,
+      "completions/min_length": 463.0,
+      "completions/min_terminated_length": 463.0,
+      "epoch": 0.11640922319229909,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.7281387456128017e-06,
+      "loss": 0.0,
+      "num_tokens": 26677778.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11685695097380792,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.7135655951943716e-06,
+      "loss": 0.0,
+      "num_tokens": 26777050.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 877.0,
+      "completions/mean_length": 1012.671875,
+      "completions/mean_terminated_length": 782.3333740234375,
+      "completions/min_length": 732.0,
+      "completions/min_terminated_length": 732.0,
+      "epoch": 0.11730467875531676,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.698993973490598e-06,
+      "loss": 0.0,
+      "num_tokens": 26880037.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1014.0,
+      "completions/mean_length": 1012.859375,
+      "completions/mean_terminated_length": 845.75,
+      "completions/min_length": 479.0,
+      "completions/min_terminated_length": 479.0,
+      "epoch": 0.11775240653682562,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.6844244918975416e-06,
+      "loss": 0.0,
+      "num_tokens": 26979824.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 909.0,
+      "completions/mean_length": 1013.328125,
+      "completions/mean_terminated_length": 796.3333740234375,
+      "completions/min_length": 732.0,
+      "completions/min_terminated_length": 732.0,
+      "epoch": 0.11820013431833445,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.66985776172147e-06,
+      "loss": 0.0,
+      "num_tokens": 27083061.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 692.0,
+      "completions/mean_length": 1018.8125,
+      "completions/mean_terminated_length": 692.0,
+      "completions/min_length": 692.0,
+      "completions/min_terminated_length": 692.0,
+      "epoch": 0.1186478620998433,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.6552943941532088e-06,
+      "loss": 0.0,
+      "num_tokens": 27191749.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11909558988135213,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.6407350002424927e-06,
+      "loss": 0.0,
+      "num_tokens": 27295561.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 851.0,
+      "completions/mean_length": 1014.59375,
+      "completions/mean_terminated_length": 723.0,
+      "completions/min_length": 595.0,
+      "completions/min_terminated_length": 595.0,
+      "epoch": 0.11954331766286098,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.626180190872329e-06,
+      "loss": 0.0,
+      "num_tokens": 27396955.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.11999104544436982,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.611630576733372e-06,
+      "loss": 0.0,
+      "num_tokens": 27501115.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 954.0,
+      "completions/mean_length": 1017.734375,
+      "completions/mean_terminated_length": 890.3333740234375,
+      "completions/min_length": 796.0,
+      "completions/min_terminated_length": 796.0,
+      "epoch": 0.12043877322587866,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.5970867682982885e-06,
+      "loss": 0.0,
+      "num_tokens": 27601478.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 749.0,
+      "completions/mean_length": 1003.703125,
+      "completions/mean_terminated_length": 699.25,
+      "completions/min_length": 590.0,
+      "completions/min_terminated_length": 590.0,
+      "epoch": 0.12088650100738751,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.582549375796154e-06,
+      "loss": 0.0,
+      "num_tokens": 27708527.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1013.0,
+      "completions/mean_length": 1021.25,
+      "completions/mean_terminated_length": 936.0,
+      "completions/min_length": 859.0,
+      "completions/min_terminated_length": 859.0,
+      "epoch": 0.12133422878889635,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.568019009186841e-06,
+      "loss": 0.0,
+      "num_tokens": 27803367.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12178195657040519,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.5534962781354317e-06,
+      "loss": 0.0,
+      "num_tokens": 27908035.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1000.0,
+      "completions/mean_length": 977.375,
+      "completions/mean_terminated_length": 651.0,
+      "completions/min_length": 312.0,
+      "completions/min_terminated_length": 312.0,
+      "epoch": 0.12222968435191403,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.538981791986634e-06,
+      "loss": 0.0,
+      "num_tokens": 28005363.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 973.0,
+      "completions/mean_length": 1020.84375,
+      "completions/mean_terminated_length": 956.6666870117188,
+      "completions/min_length": 936.0,
+      "completions/min_terminated_length": 936.0,
+      "epoch": 0.12267741213342288,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.524476159739218e-06,
+      "loss": 0.0,
+      "num_tokens": 28110405.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12312513991493172,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.5099799900204607e-06,
+      "loss": 0.0,
+      "num_tokens": 28217205.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12357286769644056,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.4954938910606108e-06,
+      "loss": 0.0,
+      "num_tokens": 28327329.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12402059547794941,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.481018470667368e-06,
+      "loss": 0.0,
+      "num_tokens": 28433893.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1021.0,
+      "completions/mean_length": 1021.328125,
+      "completions/mean_terminated_length": 967.0,
+      "completions/min_length": 874.0,
+      "completions/min_terminated_length": 874.0,
+      "epoch": 0.12446832325945825,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.4665543362003802e-06,
+      "loss": 0.0,
+      "num_tokens": 28537958.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12491605104096709,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.4521020945457615e-06,
+      "loss": 0.0,
+      "num_tokens": 28644242.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 861.0,
+      "completions/mean_length": 1014.234375,
+      "completions/mean_terminated_length": 815.6666870117188,
+      "completions/min_length": 762.0,
+      "completions/min_terminated_length": 762.0,
+      "epoch": 0.12536377882247593,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.4376623520906255e-06,
+      "loss": 0.0,
+      "num_tokens": 28747173.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 978.0,
+      "completions/mean_length": 1023.28125,
+      "completions/mean_terminated_length": 978.0,
+      "completions/min_length": 978.0,
+      "completions/min_terminated_length": 978.0,
+      "epoch": 0.12581150660398477,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.4232357146976478e-06,
+      "loss": 0.0,
+      "num_tokens": 28846335.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 981.0,
+      "completions/mean_length": 984.140625,
+      "completions/mean_terminated_length": 705.125,
+      "completions/min_length": 397.0,
+      "completions/min_terminated_length": 397.0,
+      "epoch": 0.1262592343854936,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.408822787679637e-06,
+      "loss": 0.0,
+      "num_tokens": 28944584.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12670696216700247,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.3944241757741475e-06,
+      "loss": 0.0,
+      "num_tokens": 29048592.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 996.0,
+      "completions/mean_length": 1022.234375,
+      "completions/mean_terminated_length": 986.3333740234375,
+      "completions/min_length": 980.0,
+      "completions/min_terminated_length": 980.0,
+      "epoch": 0.1271546899485113,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.380040483118097e-06,
+      "loss": 0.0,
+      "num_tokens": 29146015.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12760241773002015,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.365672313222419e-06,
+      "loss": 0.0,
+      "num_tokens": 29254239.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 945.0,
+      "completions/mean_length": 995.203125,
+      "completions/mean_terminated_length": 793.625,
+      "completions/min_length": 618.0,
+      "completions/min_terminated_length": 618.0,
+      "epoch": 0.128050145511529,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.351320268946749e-06,
+      "loss": 0.0,
+      "num_tokens": 29356836.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.12849787329303783,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.336984952474119e-06,
+      "loss": 0.0,
+      "num_tokens": 29459356.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 993.0,
+      "completions/mean_length": 1023.515625,
+      "completions/mean_terminated_length": 993.0,
+      "completions/min_length": 993.0,
+      "completions/min_terminated_length": 993.0,
+      "epoch": 0.12894560107454667,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.322666965285697e-06,
+      "loss": 0.0,
+      "num_tokens": 29563537.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1293933288560555,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.3083669081355507e-06,
+      "loss": 0.0,
+      "num_tokens": 29665269.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 933.0,
+      "completions/mean_length": 1019.5,
+      "completions/mean_terminated_length": 880.0,
+      "completions/min_length": 827.0,
+      "completions/min_terminated_length": 827.0,
+      "epoch": 0.12984105663756437,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2940853810254377e-06,
+      "loss": 0.0,
+      "num_tokens": 29767637.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 926.0,
+      "completions/mean_length": 1022.46875,
+      "completions/mean_terminated_length": 926.0,
+      "completions/min_length": 926.0,
+      "completions/min_terminated_length": 926.0,
+      "epoch": 0.1302887844190732,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2798229831796313e-06,
+      "loss": 0.0,
+      "num_tokens": 29874343.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13073651220058205,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2655803130197816e-06,
+      "loss": 0.0,
+      "num_tokens": 29972583.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 723.0,
+      "completions/mean_length": 1019.296875,
+      "completions/mean_terminated_length": 723.0,
+      "completions/min_length": 723.0,
+      "completions/min_terminated_length": 723.0,
+      "epoch": 0.1311842399820909,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2513579681398034e-06,
+      "loss": 0.0,
+      "num_tokens": 30071058.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13163196776359973,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.237156545280803e-06,
+      "loss": 0.0,
+      "num_tokens": 30169818.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13207969554510857,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2229766403060403e-06,
+      "loss": 0.0,
+      "num_tokens": 30276070.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 967.0,
+      "completions/mean_length": 979.875,
+      "completions/mean_terminated_length": 671.0,
+      "completions/min_length": 405.0,
+      "completions/min_terminated_length": 405.0,
+      "epoch": 0.1325274233266174,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.2088188481759305e-06,
+      "loss": 0.0,
+      "num_tokens": 30372462.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 947.0,
+      "completions/mean_length": 1019.484375,
+      "completions/mean_terminated_length": 879.5,
+      "completions/min_length": 812.0,
+      "completions/min_terminated_length": 812.0,
+      "epoch": 0.13297515110812627,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.194683762923073e-06,
+      "loss": 0.0,
+      "num_tokens": 30474953.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1334228788896351,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.1805719776273387e-06,
+      "loss": 0.0,
+      "num_tokens": 30577777.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 959.0,
+      "completions/mean_length": 1022.984375,
+      "completions/mean_terminated_length": 959.0,
+      "completions/min_length": 959.0,
+      "completions/min_terminated_length": 959.0,
+      "epoch": 0.13387060667114395,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.166484084390974e-06,
+      "loss": 0.0,
+      "num_tokens": 30678732.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 612.0,
+      "completions/mean_length": 986.109375,
+      "completions/mean_terminated_length": 539.0,
+      "completions/min_length": 484.0,
+      "completions/min_terminated_length": 484.0,
+      "epoch": 0.1343183344526528,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.1524206743137636e-06,
+      "loss": 0.0,
+      "num_tokens": 30784915.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13476606223416163,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.1383823374682287e-06,
+      "loss": 0.0,
+      "num_tokens": 30886183.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13521379001567047,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.124369662874868e-06,
+      "loss": 0.0,
+      "num_tokens": 30992427.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1356615177971793,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.110383238477441e-06,
+      "loss": 0.0,
+      "num_tokens": 31093823.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13610924557868817,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.096423651118305e-06,
+      "loss": 0.0,
+      "num_tokens": 31195579.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 794.0,
+      "completions/mean_length": 1014.78125,
+      "completions/mean_terminated_length": 729.0,
+      "completions/min_length": 664.0,
+      "completions/min_terminated_length": 664.0,
+      "epoch": 0.136556973360197,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.082491486513788e-06,
+      "loss": 0.0,
+      "num_tokens": 31297953.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 757.0,
+      "completions/mean_length": 1019.828125,
+      "completions/mean_terminated_length": 757.0,
+      "completions/min_length": 757.0,
+      "completions/min_terminated_length": 757.0,
+      "epoch": 0.13700470114170585,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.0685873292296116e-06,
+      "loss": 0.0,
+      "num_tokens": 31398390.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1374524289232147,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.054711762656369e-06,
+      "loss": 0.0,
+      "num_tokens": 31496858.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.13790015670472353,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.040865368985044e-06,
+      "loss": 0.0,
+      "num_tokens": 31601962.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 844.0,
+      "completions/mean_length": 1021.1875,
+      "completions/mean_terminated_length": 844.0,
+      "completions/min_length": 844.0,
+      "completions/min_terminated_length": 844.0,
+      "epoch": 0.13834788448623236,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.027048729182583e-06,
+      "loss": 0.0,
+      "num_tokens": 31701906.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 940.0,
+      "completions/mean_length": 1015.03125,
+      "completions/mean_terminated_length": 880.5,
+      "completions/min_length": 841.0,
+      "completions/min_terminated_length": 841.0,
+      "epoch": 0.1387956122677412,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.0132624229675205e-06,
+      "loss": 0.0,
+      "num_tokens": 31804000.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 568.0,
+      "completions/mean_length": 1009.078125,
+      "completions/mean_terminated_length": 546.5,
+      "completions/min_length": 525.0,
+      "completions/min_terminated_length": 525.0,
+      "epoch": 0.13924334004925007,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.9995070287856546e-06,
+      "loss": 0.0,
+      "num_tokens": 31907121.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1396910678307589,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.985783123785774e-06,
+      "loss": 0.0,
+      "num_tokens": 32010077.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14013879561226775,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.9720912837954486e-06,
+      "loss": 0.0,
+      "num_tokens": 32113957.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14058652339377659,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.958432083296862e-06,
+      "loss": 0.0,
+      "num_tokens": 32217953.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 896.0,
+      "completions/mean_length": 1008.53125,
+      "completions/mean_terminated_length": 776.5,
+      "completions/min_length": 674.0,
+      "completions/min_terminated_length": 674.0,
+      "epoch": 0.14103425117528542,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.9448060954027093e-06,
+      "loss": 0.0,
+      "num_tokens": 32320719.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 870.0,
+      "completions/mean_length": 1008.828125,
+      "completions/mean_terminated_length": 700.3333740234375,
+      "completions/min_length": 497.0,
+      "completions/min_terminated_length": 497.0,
+      "epoch": 0.14148197895679426,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.931213891832153e-06,
+      "loss": 0.0,
+      "num_tokens": 32429972.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 918.0,
+      "completions/mean_length": 1008.6875,
+      "completions/mean_terminated_length": 779.0,
+      "completions/min_length": 612.0,
+      "completions/min_terminated_length": 612.0,
+      "epoch": 0.1419297067383031,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.9176560428868336e-06,
+      "loss": 0.0,
+      "num_tokens": 32528964.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14237743451981194,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.9041331174269373e-06,
+      "loss": 0.0,
+      "num_tokens": 32634952.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 988.0,
+      "completions/mean_length": 988.28125,
+      "completions/mean_terminated_length": 697.4285888671875,
+      "completions/min_length": 434.0,
+      "completions/min_terminated_length": 434.0,
+      "epoch": 0.1428251623013208,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8906456828473341e-06,
+      "loss": 0.0,
+      "num_tokens": 32731842.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1008.0,
+      "completions/mean_length": 1008.109375,
+      "completions/mean_terminated_length": 854.5,
+      "completions/min_length": 600.0,
+      "completions/min_terminated_length": 600.0,
+      "epoch": 0.14327289008282965,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8771943050537656e-06,
+      "loss": 0.0,
+      "num_tokens": 32835205.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 968.0,
+      "completions/mean_length": 1004.28125,
+      "completions/mean_terminated_length": 771.6000366210938,
+      "completions/min_length": 657.0,
+      "completions/min_terminated_length": 657.0,
+      "epoch": 0.14372061786433848,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8637795484391046e-06,
+      "loss": 0.0,
+      "num_tokens": 32934083.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 688.0,
+      "completions/mean_length": 1013.015625,
+      "completions/mean_terminated_length": 672.5,
+      "completions/min_length": 657.0,
+      "completions/min_terminated_length": 657.0,
+      "epoch": 0.14416834564584732,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8504019758596698e-06,
+      "loss": 0.0,
+      "num_tokens": 33035336.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14461607342735616,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8370621486116163e-06,
+      "loss": 0.0,
+      "num_tokens": 33141652.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.145063801208865,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.823760626407377e-06,
+      "loss": 0.0,
+      "num_tokens": 33248740.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14551152899037384,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.8104979673521838e-06,
+      "loss": 0.0,
+      "num_tokens": 33349932.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1024.0,
+      "completions/mean_length": 1023.890625,
+      "completions/mean_terminated_length": 1020.5,
+      "completions/min_length": 1017.0,
+      "completions/min_terminated_length": 1017.0,
+      "epoch": 0.1459592567718827,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7972747279206482e-06,
+      "loss": 0.0,
+      "num_tokens": 33455625.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14640698455339154,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7840914629334122e-06,
+      "loss": 0.0,
+      "num_tokens": 33560957.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 942.0,
+      "completions/mean_length": 1001.1875,
+      "completions/mean_terminated_length": 780.6666870117188,
+      "completions/min_length": 589.0,
+      "completions/min_terminated_length": 589.0,
+      "epoch": 0.14685471233490038,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7709487255338731e-06,
+      "loss": 0.0,
+      "num_tokens": 33657329.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14730244011640922,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7578470671649684e-06,
+      "loss": 0.0,
+      "num_tokens": 33762765.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14775016789791806,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.744787037546045e-06,
+      "loss": 0.0,
+      "num_tokens": 33870397.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 720.0,
+      "completions/mean_length": 996.984375,
+      "completions/mean_terminated_length": 591.75,
+      "completions/min_length": 414.0,
+      "completions/min_terminated_length": 414.0,
+      "epoch": 0.1481978956794269,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.731769184649788e-06,
+      "loss": 0.0,
+      "num_tokens": 33970628.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14864562346093574,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7187940546792325e-06,
+      "loss": 0.0,
+      "num_tokens": 34073492.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1490933512424446,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.7058621920448465e-06,
+      "loss": 0.0,
+      "num_tokens": 34176724.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14954107902395344,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6929741393416855e-06,
+      "loss": 0.0,
+      "num_tokens": 34283612.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.14998880680546228,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6801304373266286e-06,
+      "loss": 0.0,
+      "num_tokens": 34383576.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15043653458697112,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.667331624895689e-06,
+      "loss": 0.0,
+      "num_tokens": 34484808.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15088426236847996,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6545782390614037e-06,
+      "loss": 0.0,
+      "num_tokens": 34588276.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1513319901499888,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6418708149302992e-06,
+      "loss": 0.0,
+      "num_tokens": 34695028.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 974.0,
+      "completions/mean_length": 1023.21875,
+      "completions/mean_terminated_length": 974.0,
+      "completions/min_length": 974.0,
+      "completions/min_terminated_length": 974.0,
+      "epoch": 0.15177971793149764,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6292098856804423e-06,
+      "loss": 0.0,
+      "num_tokens": 34793438.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1000.0,
+      "completions/mean_length": 1020.125,
+      "completions/mean_terminated_length": 900.0,
+      "completions/min_length": 800.0,
+      "completions/min_terminated_length": 800.0,
+      "epoch": 0.1522274457130065,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.6165959825390661e-06,
+      "loss": 0.0,
+      "num_tokens": 34898970.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 919.0,
+      "completions/mean_length": 1020.578125,
+      "completions/mean_terminated_length": 914.5,
+      "completions/min_length": 910.0,
+      "completions/min_terminated_length": 910.0,
+      "epoch": 0.15267517349451534,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.604029634760284e-06,
+      "loss": 0.0,
+      "num_tokens": 35003843.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 890.0,
+      "completions/mean_length": 996.171875,
+      "completions/mean_terminated_length": 727.1666870117188,
+      "completions/min_length": 643.0,
+      "completions/min_terminated_length": 643.0,
+      "epoch": 0.15312290127602418,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.59151136960288e-06,
+      "loss": 0.0,
+      "num_tokens": 35098370.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15357062905753302,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5790417123081903e-06,
+      "loss": 0.0,
+      "num_tokens": 35200326.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15401835683904186,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5666211860780583e-06,
+      "loss": 0.0,
+      "num_tokens": 35303494.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 897.0,
+      "completions/mean_length": 1015.765625,
+      "completions/mean_terminated_length": 848.3333740234375,
+      "completions/min_length": 788.0,
+      "completions/min_terminated_length": 788.0,
+      "epoch": 0.1544660846205507,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5542503120528918e-06,
+      "loss": 0.0,
+      "num_tokens": 35399051.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15491381240205954,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5419296092897866e-06,
+      "loss": 0.0,
+      "num_tokens": 35501039.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1553615401835684,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.529659594740755e-06,
+      "loss": 0.0,
+      "num_tokens": 35602571.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 463.0,
+      "completions/mean_length": 983.828125,
+      "completions/mean_terminated_length": 381.25,
+      "completions/min_length": 316.0,
+      "completions/min_terminated_length": 316.0,
+      "epoch": 0.15580926796507724,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5174407832310338e-06,
+      "loss": 0.0,
+      "num_tokens": 35704368.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 829.0,
+      "completions/mean_length": 1020.953125,
+      "completions/mean_terminated_length": 829.0,
+      "completions/min_length": 829.0,
+      "completions/min_terminated_length": 829.0,
+      "epoch": 0.15625699574658608,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5052736874374815e-06,
+      "loss": 0.0,
+      "num_tokens": 35810209.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 690.0,
+      "completions/mean_length": 1000.671875,
+      "completions/mean_terminated_length": 650.75,
+      "completions/min_length": 614.0,
+      "completions/min_terminated_length": 614.0,
+      "epoch": 0.15670472352809492,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4931588178670695e-06,
+      "loss": 0.0,
+      "num_tokens": 35909008.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1006.0,
+      "completions/mean_length": 1012.375,
+      "completions/mean_terminated_length": 776.0,
+      "completions/min_length": 572.0,
+      "completions/min_terminated_length": 572.0,
+      "epoch": 0.15715245130960376,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4810966828354605e-06,
+      "loss": 0.0,
+      "num_tokens": 36009144.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1576001790911126,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.469087788445684e-06,
+      "loss": 0.0,
+      "num_tokens": 36113352.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 819.0,
+      "completions/mean_length": 995.609375,
+      "completions/mean_terminated_length": 569.75,
+      "completions/min_length": 376.0,
+      "completions/min_terminated_length": 376.0,
+      "epoch": 0.15804790687262144,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4571326385668965e-06,
+      "loss": 0.0,
+      "num_tokens": 36213891.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 992.0,
+      "completions/mean_length": 1020.28125,
+      "completions/mean_terminated_length": 944.6666870117188,
+      "completions/min_length": 912.0,
+      "completions/min_terminated_length": 912.0,
+      "epoch": 0.1584956346541303,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4452317348132434e-06,
+      "loss": 0.0,
+      "num_tokens": 36316329.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.15894336243563914,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4333855765228104e-06,
+      "loss": 0.0,
+      "num_tokens": 36421637.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1017.0,
+      "completions/mean_length": 1023.890625,
+      "completions/mean_terminated_length": 1017.0,
+      "completions/min_length": 1017.0,
+      "completions/min_terminated_length": 1017.0,
+      "epoch": 0.15939109021714798,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.421594660736675e-06,
+      "loss": 0.0,
+      "num_tokens": 36519866.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 794.0,
+      "completions/mean_length": 988.203125,
+      "completions/mean_terminated_length": 565.7999877929688,
+      "completions/min_length": 433.0,
+      "completions/min_terminated_length": 433.0,
+      "epoch": 0.15983881799865682,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.4098594821780476e-06,
+      "loss": 0.0,
+      "num_tokens": 36618291.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16028654578016566,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3981805332315174e-06,
+      "loss": 0.0,
+      "num_tokens": 36717631.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1607342735616745,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3865583039223929e-06,
+      "loss": 0.0,
+      "num_tokens": 36823451.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 990.0,
+      "completions/mean_length": 1021.671875,
+      "completions/mean_terminated_length": 949.5,
+      "completions/min_length": 909.0,
+      "completions/min_terminated_length": 909.0,
+      "epoch": 0.16118200134318333,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.374993281896137e-06,
+      "loss": 0.0,
+      "num_tokens": 36928134.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1616297291246922,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3634859523979134e-06,
+      "loss": 0.0,
+      "num_tokens": 37031606.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 993.0,
+      "completions/mean_length": 1021.4375,
+      "completions/mean_terminated_length": 969.3333740234375,
+      "completions/min_length": 948.0,
+      "completions/min_terminated_length": 948.0,
+      "epoch": 0.16207745690620104,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3520367982522208e-06,
+      "loss": 0.0,
+      "num_tokens": 37132406.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16252518468770988,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3406462998426358e-06,
+      "loss": 0.0,
+      "num_tokens": 37239258.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16297291246921872,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3293149350916595e-06,
+      "loss": 0.0,
+      "num_tokens": 37341606.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16342064025072756,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3180431794406623e-06,
+      "loss": 0.0,
+      "num_tokens": 37444194.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 1019.765625,
+      "completions/mean_terminated_length": 888.5,
+      "completions/min_length": 757.0,
+      "completions/min_terminated_length": 757.0,
+      "epoch": 0.1638683680322364,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.3068315058299358e-06,
+      "loss": 0.0,
+      "num_tokens": 37546959.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 775.0,
+      "completions/mean_length": 1013.40625,
+      "completions/mean_terminated_length": 685.0,
+      "completions/min_length": 595.0,
+      "completions/min_terminated_length": 595.0,
+      "epoch": 0.16431609581374523,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2956803846788503e-06,
+      "loss": 0.0,
+      "num_tokens": 37650985.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16476382359525407,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.284590283866116e-06,
+      "loss": 0.0,
+      "num_tokens": 37755533.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 737.0,
+      "completions/mean_length": 1019.515625,
+      "completions/mean_terminated_length": 737.0,
+      "completions/min_length": 737.0,
+      "completions/min_terminated_length": 737.0,
+      "epoch": 0.16521155137676294,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2735616687101518e-06,
+      "loss": 0.0,
+      "num_tokens": 37858578.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.16565927915827178,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2625950019495614e-06,
+      "loss": 0.0,
+      "num_tokens": 37963654.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 974.0,
+      "completions/mean_length": 1004.90625,
+      "completions/mean_terminated_length": 718.5,
+      "completions/min_length": 524.0,
+      "completions/min_terminated_length": 524.0,
+      "epoch": 0.16610700693978062,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.251690743723718e-06,
+      "loss": 0.0,
+      "num_tokens": 38066624.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1019.0,
+      "completions/mean_length": 1007.796875,
+      "completions/mean_terminated_length": 875.857177734375,
+      "completions/min_length": 719.0,
+      "completions/min_terminated_length": 719.0,
+      "epoch": 0.16655473472128945,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2408493515534581e-06,
+      "loss": 0.0,
+      "num_tokens": 38166811.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1670024625027983,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2300712803218834e-06,
+      "loss": 0.0,
+      "num_tokens": 38264455.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 569.0,
+      "completions/mean_length": 952.8125,
+      "completions/mean_terminated_length": 454.5,
+      "completions/min_length": 383.0,
+      "completions/min_terminated_length": 383.0,
+      "epoch": 0.16745019028430713,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2193569822552772e-06,
+      "loss": 0.0,
+      "num_tokens": 38365935.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1004.0,
+      "completions/mean_length": 1018.84375,
+      "completions/mean_terminated_length": 914.0,
+      "completions/min_length": 842.0,
+      "completions/min_terminated_length": 842.0,
+      "epoch": 0.16789791806581597,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.2087069069041268e-06,
+      "loss": 0.0,
+      "num_tokens": 38468541.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 780.0,
+      "completions/mean_length": 1020.1875,
+      "completions/mean_terminated_length": 780.0,
+      "completions/min_length": 780.0,
+      "completions/min_terminated_length": 780.0,
+      "epoch": 0.16834564584732484,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1981215011242654e-06,
+      "loss": 0.0,
+      "num_tokens": 38571893.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 925.0,
+      "completions/mean_length": 989.0625,
+      "completions/mean_terminated_length": 651.3333740234375,
+      "completions/min_length": 483.0,
+      "completions/min_terminated_length": 483.0,
+      "epoch": 0.16879337362883368,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1876012090581184e-06,
+      "loss": 0.0,
+      "num_tokens": 38674301.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 849.0,
+      "completions/mean_length": 1007.328125,
+      "completions/mean_terminated_length": 757.25,
+      "completions/min_length": 644.0,
+      "completions/min_terminated_length": 644.0,
+      "epoch": 0.16924110141034251,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.177146472116071e-06,
+      "loss": 0.0,
+      "num_tokens": 38778514.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 917.0,
+      "completions/mean_length": 1022.328125,
+      "completions/mean_terminated_length": 917.0,
+      "completions/min_length": 917.0,
+      "completions/min_terminated_length": 917.0,
+      "epoch": 0.16968882919185135,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1667577289579462e-06,
+      "loss": 0.0,
+      "num_tokens": 38881743.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1701365569733602,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1564354154746007e-06,
+      "loss": 0.0,
+      "num_tokens": 38983243.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17058428475486903,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.146179964769635e-06,
+      "loss": 0.0,
+      "num_tokens": 39088119.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17103201253637787,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1359918071412195e-06,
+      "loss": 0.0,
+      "num_tokens": 39189363.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 980.0,
+      "completions/mean_length": 1007.5625,
+      "completions/mean_terminated_length": 761.0,
+      "completions/min_length": 475.0,
+      "completions/min_terminated_length": 475.0,
+      "epoch": 0.17147974031788674,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1258713700640456e-06,
+      "loss": 0.0,
+      "num_tokens": 39290403.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 703.0,
+      "completions/mean_length": 1006.03125,
+      "completions/mean_terminated_length": 640.6666870117188,
+      "completions/min_length": 575.0,
+      "completions/min_terminated_length": 575.0,
+      "epoch": 0.17192746809939558,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.115819078171383e-06,
+      "loss": 0.0,
+      "num_tokens": 39393673.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 632.0,
+      "completions/mean_length": 953.75,
+      "completions/mean_terminated_length": 462.0,
+      "completions/min_length": 401.0,
+      "completions/min_terminated_length": 401.0,
+      "epoch": 0.1723751958809044,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.1058353532372667e-06,
+      "loss": 0.0,
+      "num_tokens": 39487265.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17282292366241325,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0959206141587998e-06,
+      "loss": 0.0,
+      "num_tokens": 39590277.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 808.0,
+      "completions/mean_length": 1020.625,
+      "completions/mean_terminated_length": 808.0,
+      "completions/min_length": 808.0,
+      "completions/min_terminated_length": 808.0,
+      "epoch": 0.1732706514439221,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0860752769385766e-06,
+      "loss": 0.0,
+      "num_tokens": 39691493.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 935.0,
+      "completions/mean_length": 1022.609375,
+      "completions/mean_terminated_length": 935.0,
+      "completions/min_length": 935.0,
+      "completions/min_terminated_length": 935.0,
+      "epoch": 0.17371837922543093,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0762997546672279e-06,
+      "loss": 0.0,
+      "num_tokens": 39794420.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 645.0,
+      "completions/mean_length": 996.765625,
+      "completions/mean_terminated_length": 588.25,
+      "completions/min_length": 451.0,
+      "completions/min_terminated_length": 451.0,
+      "epoch": 0.17416610700693977,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0665944575060914e-06,
+      "loss": 0.0,
+      "num_tokens": 39891217.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 880.0,
+      "completions/mean_length": 1021.75,
+      "completions/mean_terminated_length": 880.0,
+      "completions/min_length": 880.0,
+      "completions/min_terminated_length": 880.0,
+      "epoch": 0.17461383478844864,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.056959792669997e-06,
+      "loss": 0.0,
+      "num_tokens": 39993145.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17506156256995747,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0473961644101856e-06,
+      "loss": 0.0,
+      "num_tokens": 40097029.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 885.0,
+      "completions/mean_length": 1018.765625,
+      "completions/mean_terminated_length": 856.5,
+      "completions/min_length": 828.0,
+      "completions/min_terminated_length": 828.0,
+      "epoch": 0.1755092903514663,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.037903973997345e-06,
+      "loss": 0.0,
+      "num_tokens": 40197714.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 982.0,
+      "completions/mean_length": 1023.34375,
+      "completions/mean_terminated_length": 982.0,
+      "completions/min_length": 982.0,
+      "completions/min_terminated_length": 982.0,
+      "epoch": 0.17595701813297515,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0284836197047737e-06,
+      "loss": 0.0,
+      "num_tokens": 40304304.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.176404745914484,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0191354967916712e-06,
+      "loss": 0.0,
+      "num_tokens": 40406180.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 961.0,
+      "completions/mean_length": 1019.171875,
+      "completions/mean_terminated_length": 921.0,
+      "completions/min_length": 844.0,
+      "completions/min_terminated_length": 844.0,
+      "epoch": 0.17685247369599283,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0098599974865515e-06,
+      "loss": 0.0,
+      "num_tokens": 40507759.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17730020147750167,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.0006575109707898e-06,
+      "loss": 0.0,
+      "num_tokens": 40611735.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17774792925901053,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.915284233622877e-07,
+      "loss": 0.0,
+      "num_tokens": 40718755.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 846.0,
+      "completions/mean_length": 1014.90625,
+      "completions/mean_terminated_length": 733.0,
+      "completions/min_length": 620.0,
+      "completions/min_terminated_length": 620.0,
+      "epoch": 0.17819565704051937,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.824731176992796e-07,
+      "loss": 0.0,
+      "num_tokens": 40815885.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 790.0,
+      "completions/mean_length": 981.421875,
+      "completions/mean_terminated_length": 569.8333740234375,
+      "completions/min_length": 392.0,
+      "completions/min_terminated_length": 392.0,
+      "epoch": 0.1786433848220282,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.734919739242543e-07,
+      "loss": 0.0,
+      "num_tokens": 40910204.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 530.0,
+      "completions/mean_length": 984.65625,
+      "completions/mean_terminated_length": 394.5,
+      "completions/min_length": 263.0,
+      "completions/min_terminated_length": 263.0,
+      "epoch": 0.17909111260353705,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.645853688680177e-07,
+      "loss": 0.0,
+      "num_tokens": 41016782.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1795388403850459,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.557536762338786e-07,
+      "loss": 0.0,
+      "num_tokens": 41114610.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.17998656816655473,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.46997266581973e-07,
+      "loss": 0.0,
+      "num_tokens": 41221318.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 987.0,
+      "completions/mean_length": 987.71875,
+      "completions/mean_terminated_length": 766.0,
+      "completions/min_length": 628.0,
+      "completions/min_terminated_length": 628.0,
+      "epoch": 0.18043429594806357,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.383165073137115e-07,
+      "loss": 0.0,
+      "num_tokens": 41317648.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18088202372957243,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.297117626563687e-07,
+      "loss": 0.0,
+      "num_tokens": 41425452.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 961.0,
+      "completions/mean_length": 991.46875,
+      "completions/mean_terminated_length": 726.5714721679688,
+      "completions/min_length": 500.0,
+      "completions/min_terminated_length": 500.0,
+      "epoch": 0.18132975151108127,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.211833936477957e-07,
+      "loss": 0.0,
+      "num_tokens": 41526374.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 580.0,
+      "completions/mean_length": 988.609375,
+      "completions/mean_terminated_length": 457.75,
+      "completions/min_length": 328.0,
+      "completions/min_terminated_length": 328.0,
+      "epoch": 0.1817774792925901,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.127317581212753e-07,
+      "loss": 0.0,
+      "num_tokens": 41622185.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 944.0,
+      "completions/mean_length": 1014.171875,
+      "completions/mean_terminated_length": 814.3333740234375,
+      "completions/min_length": 616.0,
+      "completions/min_terminated_length": 616.0,
+      "epoch": 0.18222520707409895,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.043572106905084e-07,
+      "loss": 0.0,
+      "num_tokens": 41727552.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 997.0,
+      "completions/mean_length": 1012.796875,
+      "completions/mean_terminated_length": 785.0,
+      "completions/min_length": 544.0,
+      "completions/min_terminated_length": 544.0,
+      "epoch": 0.1826729348556078,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.960601027347321e-07,
+      "loss": 0.0,
+      "num_tokens": 41830279.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18312066263711663,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.878407823839788e-07,
+      "loss": 0.0,
+      "num_tokens": 41940283.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18356839041862547,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.796995945044689e-07,
+      "loss": 0.0,
+      "num_tokens": 42044591.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18401611820013433,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.716368806841405e-07,
+      "loss": 0.0,
+      "num_tokens": 42149263.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18446384598164317,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.636529792183171e-07,
+      "loss": 0.0,
+      "num_tokens": 42251307.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 903.0,
+      "completions/mean_length": 1011.21875,
+      "completions/mean_terminated_length": 819.5,
+      "completions/min_length": 724.0,
+      "completions/min_terminated_length": 724.0,
+      "epoch": 0.184911573763152,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.557482250955144e-07,
+      "loss": 0.0,
+      "num_tokens": 42352825.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18535930154466085,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.479229499833844e-07,
+      "loss": 0.0,
+      "num_tokens": 42453869.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1015.0,
+      "completions/mean_length": 1022.125,
+      "completions/mean_terminated_length": 984.0,
+      "completions/min_length": 931.0,
+      "completions/min_terminated_length": 931.0,
+      "epoch": 0.1858070293261697,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.401774822147976e-07,
+      "loss": 0.0,
+      "num_tokens": 42553773.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18625475710767853,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.325121467740695e-07,
+      "loss": 0.0,
+      "num_tokens": 42660077.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18670248488918736,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.249272652833226e-07,
+      "loss": 0.0,
+      "num_tokens": 42765177.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 945.0,
+      "completions/mean_length": 988.828125,
+      "completions/mean_terminated_length": 573.7999877929688,
+      "completions/min_length": 369.0,
+      "completions/min_terminated_length": 369.0,
+      "epoch": 0.1871502126706962,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.174231559889931e-07,
+      "loss": 0.0,
+      "num_tokens": 42861954.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 931.0,
+      "completions/mean_length": 1009.609375,
+      "completions/mean_terminated_length": 793.75,
+      "completions/min_length": 560.0,
+      "completions/min_terminated_length": 560.0,
+      "epoch": 0.18759794045220507,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.100001337484787e-07,
+      "loss": 0.0,
+      "num_tokens": 42968361.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 1009.8125,
+      "completions/mean_terminated_length": 894.2857666015625,
+      "completions/min_length": 777.0,
+      "completions/min_terminated_length": 777.0,
+      "epoch": 0.1880456682337139,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.026585100169251e-07,
+      "loss": 0.0,
+      "num_tokens": 43070081.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 925.0,
+      "completions/mean_length": 1014.78125,
+      "completions/mean_terminated_length": 876.5,
+      "completions/min_length": 830.0,
+      "completions/min_terminated_length": 830.0,
+      "epoch": 0.18849339601522275,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.953985928341601e-07,
+      "loss": 0.0,
+      "num_tokens": 43177323.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18894112379673159,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.882206868117693e-07,
+      "loss": 0.0,
+      "num_tokens": 43279723.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 984.0,
+      "completions/mean_length": 994.53125,
+      "completions/mean_terminated_length": 754.5714721679688,
+      "completions/min_length": 537.0,
+      "completions/min_terminated_length": 537.0,
+      "epoch": 0.18938885157824042,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.81125093120313e-07,
+      "loss": 0.0,
+      "num_tokens": 43383901.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.18983657935974926,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.741121094766916e-07,
+      "loss": 0.0,
+      "num_tokens": 43486565.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1016.0,
+      "completions/mean_length": 1013.09375,
+      "completions/mean_terminated_length": 849.5,
+      "completions/min_length": 684.0,
+      "completions/min_terminated_length": 684.0,
+      "epoch": 0.1902843071412581,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.671820301316532e-07,
+      "loss": 0.0,
+      "num_tokens": 43589287.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 947.0,
+      "completions/mean_length": 1018.59375,
+      "completions/mean_terminated_length": 851.0,
+      "completions/min_length": 755.0,
+      "completions/min_terminated_length": 755.0,
+      "epoch": 0.19073203492276697,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.603351458574474e-07,
+      "loss": 0.0,
+      "num_tokens": 43696573.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1911797627042758,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.535717439356255e-07,
+      "loss": 0.0,
+      "num_tokens": 43802765.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 947.0,
+      "completions/mean_length": 991.453125,
+      "completions/mean_terminated_length": 763.625,
+      "completions/min_length": 601.0,
+      "completions/min_terminated_length": 601.0,
+      "epoch": 0.19162749048578465,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.46892108144986e-07,
+      "loss": 0.0,
+      "num_tokens": 43905242.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 573.0,
+      "completions/mean_length": 994.59375,
+      "completions/mean_terminated_length": 553.5,
+      "completions/min_length": 525.0,
+      "completions/min_terminated_length": 525.0,
+      "epoch": 0.19207521826729348,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.402965187496697e-07,
+      "loss": 0.0,
+      "num_tokens": 44003540.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 889.0,
+      "completions/mean_length": 1001.203125,
+      "completions/mean_terminated_length": 732.2000122070312,
+      "completions/min_length": 581.0,
+      "completions/min_terminated_length": 581.0,
+      "epoch": 0.19252294604880232,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.337852524873974e-07,
+      "loss": 0.0,
+      "num_tokens": 44101749.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 594.0,
+      "completions/mean_length": 1017.28125,
+      "completions/mean_terminated_length": 594.0,
+      "completions/min_length": 594.0,
+      "completions/min_terminated_length": 594.0,
+      "epoch": 0.19297067383031116,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.273585825578608e-07,
+      "loss": 0.0,
+      "num_tokens": 44198963.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 943.0,
+      "completions/mean_length": 1014.296875,
+      "completions/mean_terminated_length": 817.0,
+      "completions/min_length": 576.0,
+      "completions/min_terminated_length": 576.0,
+      "epoch": 0.19341840161182,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.21016778611259e-07,
+      "loss": 0.0,
+      "num_tokens": 44301398.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.19386612939332887,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.147601067369835e-07,
+      "loss": 0.0,
+      "num_tokens": 44408170.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1943138571748377,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.085888294524561e-07,
+      "loss": 0.0,
+      "num_tokens": 44507138.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 774.0,
+      "completions/mean_length": 1013.984375,
+      "completions/mean_terminated_length": 703.5,
+      "completions/min_length": 633.0,
+      "completions/min_terminated_length": 633.0,
+      "epoch": 0.19476158495634655,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.025032056921117e-07,
+      "loss": 0.0,
+      "num_tokens": 44606301.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 991.0,
+      "completions/mean_length": 1023.484375,
+      "completions/mean_terminated_length": 991.0,
+      "completions/min_length": 991.0,
+      "completions/min_terminated_length": 991.0,
+      "epoch": 0.19520931273785538,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.965034907965349e-07,
+      "loss": 0.0,
+      "num_tokens": 44709500.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 993.0,
+      "completions/mean_length": 1016.859375,
+      "completions/mean_terminated_length": 871.6666870117188,
+      "completions/min_length": 660.0,
+      "completions/min_terminated_length": 660.0,
+      "epoch": 0.19565704051936422,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.905899365017462e-07,
+      "loss": 0.0,
+      "num_tokens": 44816479.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1017.0,
+      "completions/mean_length": 1002.140625,
+      "completions/mean_terminated_length": 674.25,
+      "completions/min_length": 541.0,
+      "completions/min_terminated_length": 541.0,
+      "epoch": 0.19610476830087306,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.847627909286409e-07,
+      "loss": 0.0,
+      "num_tokens": 44920648.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.1965524960823819,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.790222985725761e-07,
+      "loss": 0.0,
+      "num_tokens": 45027828.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 578.0,
+      "completions/mean_length": 993.578125,
+      "completions/mean_terminated_length": 537.25,
+      "completions/min_length": 461.0,
+      "completions/min_terminated_length": 461.0,
+      "epoch": 0.19700022386389077,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.733687002931141e-07,
+      "loss": 0.0,
+      "num_tokens": 45132461.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1013.0,
+      "completions/mean_length": 998.71875,
+      "completions/mean_terminated_length": 821.75,
+      "completions/min_length": 603.0,
+      "completions/min_terminated_length": 603.0,
+      "epoch": 0.1974479516453996,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.678022333039158e-07,
+      "loss": 0.0,
+      "num_tokens": 45230299.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 944.0,
+      "completions/mean_length": 1019.65625,
+      "completions/mean_terminated_length": 885.0,
+      "completions/min_length": 826.0,
+      "completions/min_terminated_length": 826.0,
+      "epoch": 0.19789567942690844,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.623231311627876e-07,
+      "loss": 0.0,
+      "num_tokens": 45329905.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.19834340720841728,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.569316237618811e-07,
+      "loss": 0.0,
+      "num_tokens": 45435929.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.19879113498992612,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.516279373180499e-07,
+      "loss": 0.0,
+      "num_tokens": 45531893.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 861.0,
+      "completions/mean_length": 994.984375,
+      "completions/mean_terminated_length": 714.5,
+      "completions/min_length": 649.0,
+      "completions/min_terminated_length": 649.0,
+      "epoch": 0.19923886277143496,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.464122943633543e-07,
+      "loss": 0.0,
+      "num_tokens": 45629596.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 971.0,
+      "completions/mean_length": 1009.28125,
+      "completions/mean_terminated_length": 788.5,
+      "completions/min_length": 546.0,
+      "completions/min_terminated_length": 546.0,
+      "epoch": 0.1996865905529438,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.412849137357271e-07,
+      "loss": 0.0,
+      "num_tokens": 45734158.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20013431833445267,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.3624601056979e-07,
+      "loss": 0.0,
+      "num_tokens": 45836842.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 805.0,
+      "completions/mean_length": 1016.484375,
+      "completions/mean_terminated_length": 783.5,
+      "completions/min_length": 762.0,
+      "completions/min_terminated_length": 762.0,
+      "epoch": 0.2005820461159615,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.312957962878278e-07,
+      "loss": 0.0,
+      "num_tokens": 45936309.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20102977389747034,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.264344785909181e-07,
+      "loss": 0.0,
+      "num_tokens": 46039937.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 877.0,
+      "completions/mean_length": 1021.703125,
+      "completions/mean_terminated_length": 877.0,
+      "completions/min_length": 877.0,
+      "completions/min_terminated_length": 877.0,
+      "epoch": 0.20147750167897918,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.216622614502149e-07,
+      "loss": 0.0,
+      "num_tokens": 46147386.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20192522946048802,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.169793450983916e-07,
+      "loss": 0.0,
+      "num_tokens": 46242934.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 957.0,
+      "completions/mean_length": 1012.578125,
+      "completions/mean_terminated_length": 841.25,
+      "completions/min_length": 761.0,
+      "completions/min_terminated_length": 761.0,
+      "epoch": 0.20237295724199686,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.123859260212393e-07,
+      "loss": 0.0,
+      "num_tokens": 46344107.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2028206850235057,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.07882196949423e-07,
+      "loss": 0.0,
+      "num_tokens": 46448747.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20326841280501456,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.034683468503948e-07,
+      "loss": 0.0,
+      "num_tokens": 46554159.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2037161405865234,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.991445609204641e-07,
+      "loss": 0.0,
+      "num_tokens": 46658675.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20416386836803224,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.949110205770292e-07,
+      "loss": 0.0,
+      "num_tokens": 46758643.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 916.0,
+      "completions/mean_length": 1003.21875,
+      "completions/mean_terminated_length": 758.0,
+      "completions/min_length": 626.0,
+      "completions/min_terminated_length": 626.0,
+      "epoch": 0.20461159614954108,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.90767903450964e-07,
+      "loss": 0.0,
+      "num_tokens": 46859981.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20505932393104992,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.867153833791652e-07,
+      "loss": 0.0,
+      "num_tokens": 46961473.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20550705171255876,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.827536303972587e-07,
+      "loss": 0.0,
+      "num_tokens": 47069341.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2059547794940676,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.78882810732465e-07,
+      "loss": 0.0,
+      "num_tokens": 47168449.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20640250727557646,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.75103086796625e-07,
+      "loss": 0.0,
+      "num_tokens": 47267273.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 900.0,
+      "completions/mean_length": 1002.921875,
+      "completions/mean_terminated_length": 754.2000122070312,
+      "completions/min_length": 570.0,
+      "completions/min_terminated_length": 570.0,
+      "epoch": 0.2068502350570853,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.714146171793846e-07,
+      "loss": 0.0,
+      "num_tokens": 47364484.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20729796283859414,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.678175566415422e-07,
+      "loss": 0.0,
+      "num_tokens": 47465120.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 958.0,
+      "completions/mean_length": 1016.765625,
+      "completions/mean_terminated_length": 869.6666870117188,
+      "completions/min_length": 771.0,
+      "completions/min_terminated_length": 771.0,
+      "epoch": 0.20774569062010298,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.643120561085528e-07,
+      "loss": 0.0,
+      "num_tokens": 47567089.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 879.0,
+      "completions/mean_length": 1013.796875,
+      "completions/mean_terminated_length": 860.75,
+      "completions/min_length": 818.0,
+      "completions/min_terminated_length": 818.0,
+      "epoch": 0.20819341840161182,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.608982626641991e-07,
+      "loss": 0.0,
+      "num_tokens": 47668184.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20864114618312066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.575763195444166e-07,
+      "loss": 0.0,
+      "num_tokens": 47776116.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 938.0,
+      "completions/mean_length": 1019.859375,
+      "completions/mean_terminated_length": 891.5,
+      "completions/min_length": 845.0,
+      "completions/min_terminated_length": 845.0,
+      "epoch": 0.2090888739646295,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.543463661312847e-07,
+      "loss": 0.0,
+      "num_tokens": 47874795.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.20953660174613833,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.512085379471808e-07,
+      "loss": 0.0,
+      "num_tokens": 47983267.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2099843295276472,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.481629666490903e-07,
+      "loss": 0.0,
+      "num_tokens": 48086875.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21043205730915604,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.452097800230853e-07,
+      "loss": 0.0,
+      "num_tokens": 48193671.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21087978509066488,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.423491019789623e-07,
+      "loss": 0.0,
+      "num_tokens": 48294211.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 992.0,
+      "completions/mean_length": 971.6875,
+      "completions/mean_terminated_length": 745.0,
+      "completions/min_length": 474.0,
+      "completions/min_terminated_length": 474.0,
+      "epoch": 0.21132751287217372,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.395810525450425e-07,
+      "loss": 0.0,
+      "num_tokens": 48388415.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 607.0,
+      "completions/mean_length": 1017.484375,
+      "completions/mean_terminated_length": 607.0,
+      "completions/min_length": 607.0,
+      "completions/min_terminated_length": 607.0,
+      "epoch": 0.21177524065368256,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.369057478631359e-07,
+      "loss": 0.0,
+      "num_tokens": 48490070.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 482.0,
+      "completions/mean_length": 984.96875,
+      "completions/mean_terminated_length": 399.5,
+      "completions/min_length": 332.0,
+      "completions/min_terminated_length": 332.0,
+      "epoch": 0.2122229684351914,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.343233001836694e-07,
+      "loss": 0.0,
+      "num_tokens": 48587284.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 1023.9375,
+      "completions/mean_terminated_length": 1020.0,
+      "completions/min_length": 1020.0,
+      "completions/min_terminated_length": 1020.0,
+      "epoch": 0.21267069621670023,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.318338178609754e-07,
+      "loss": 0.0,
+      "num_tokens": 48689696.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 1013.0,
+      "completions/mean_length": 1023.515625,
+      "completions/mean_terminated_length": 1008.5,
+      "completions/min_length": 1004.0,
+      "completions/min_terminated_length": 1004.0,
+      "epoch": 0.2131184239982091,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.294374053487459e-07,
+      "loss": 0.0,
+      "num_tokens": 48789601.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 846.0,
+      "completions/mean_length": 1000.734375,
+      "completions/mean_terminated_length": 726.2000122070312,
+      "completions/min_length": 573.0,
+      "completions/min_terminated_length": 573.0,
+      "epoch": 0.21356615177971794,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.271341631956511e-07,
+      "loss": 0.0,
+      "num_tokens": 48890292.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21401387956122678,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.249241880411181e-07,
+      "loss": 0.0,
+      "num_tokens": 48994144.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.75,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 953.0,
+      "completions/mean_length": 1020.71875,
+      "completions/mean_terminated_length": 919.0,
+      "completions/min_length": 885.0,
+      "completions/min_terminated_length": 885.0,
+      "epoch": 0.21446160734273562,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.228075726112785e-07,
+      "loss": 0.0,
+      "num_tokens": 49092138.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21490933512424445,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.207844057150768e-07,
+      "loss": 0.0,
+      "num_tokens": 49196678.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2153570629057533,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.188547722405437e-07,
+      "loss": 0.0,
+      "num_tokens": 49301646.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 833.0,
+      "completions/mean_length": 1006.015625,
+      "completions/mean_terminated_length": 640.3333740234375,
+      "completions/min_length": 435.0,
+      "completions/min_terminated_length": 435.0,
+      "epoch": 0.21580479068726213,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.170187531512351e-07,
+      "loss": 0.0,
+      "num_tokens": 49403619.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 909.0,
+      "completions/mean_length": 1003.28125,
+      "completions/mean_terminated_length": 692.5,
+      "completions/min_length": 589.0,
+      "completions/min_terminated_length": 589.0,
+      "epoch": 0.216252518468771,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.152764254828348e-07,
+      "loss": 0.0,
+      "num_tokens": 49502757.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21670024625027984,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.136278623399225e-07,
+      "loss": 0.0,
+      "num_tokens": 49609485.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 949.0,
+      "completions/mean_length": 1013.921875,
+      "completions/mean_terminated_length": 809.0,
+      "completions/min_length": 608.0,
+      "completions/min_terminated_length": 608.0,
+      "epoch": 0.21714797403178868,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.120731328929058e-07,
+      "loss": 0.0,
+      "num_tokens": 49710368.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 947.0,
+      "completions/mean_length": 1007.3125,
+      "completions/mean_terminated_length": 810.4000244140625,
+      "completions/min_length": 681.0,
+      "completions/min_terminated_length": 681.0,
+      "epoch": 0.21759570181329752,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.106123023751187e-07,
+      "loss": 0.0,
+      "num_tokens": 49814492.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21804342959480635,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.092454320800833e-07,
+      "loss": 0.0,
+      "num_tokens": 49915068.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 861.0,
+      "completions/mean_length": 1005.4375,
+      "completions/mean_terminated_length": 727.0,
+      "completions/min_length": 476.0,
+      "completions/min_terminated_length": 476.0,
+      "epoch": 0.2184911573763152,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.079725793589405e-07,
+      "loss": 0.0,
+      "num_tokens": 50028228.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.21893888515782403,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.067937976180407e-07,
+      "loss": 0.0,
+      "num_tokens": 50137732.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 968.0,
+      "completions/mean_length": 1017.6875,
+      "completions/mean_terminated_length": 889.3333740234375,
+      "completions/min_length": 843.0,
+      "completions/min_terminated_length": 843.0,
+      "epoch": 0.2193866129393329,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.057091363167046e-07,
+      "loss": 0.0,
+      "num_tokens": 50243552.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.625,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 887.0,
+      "completions/mean_length": 1012.0,
+      "completions/mean_terminated_length": 768.0,
+      "completions/min_length": 638.0,
+      "completions/min_terminated_length": 638.0,
+      "epoch": 0.21983434072084174,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.047186409651489e-07,
+      "loss": 0.0,
+      "num_tokens": 50345332.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.22028206850235058,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.038223531225742e-07,
+      "loss": 0.0,
+      "num_tokens": 50446008.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.22072979628385941,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.030203103954232e-07,
+      "loss": 0.0,
+      "num_tokens": 50542328.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.22117752406536825,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.023125464358026e-07,
+      "loss": 0.0,
+      "num_tokens": 50649272.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2216252518468771,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.016990909400709e-07,
+      "loss": 0.0,
+      "num_tokens": 50756244.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 931.0,
+      "completions/mean_length": 1002.515625,
+      "completions/mean_terminated_length": 749.0,
+      "completions/min_length": 597.0,
+      "completions/min_terminated_length": 597.0,
+      "epoch": 0.22207297962838593,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.011799696475915e-07,
+      "loss": 0.0,
+      "num_tokens": 50855153.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 971.0,
+      "completions/mean_length": 1023.171875,
+      "completions/mean_terminated_length": 971.0,
+      "completions/min_length": 971.0,
+      "completions/min_terminated_length": 971.0,
+      "epoch": 0.2225207074098948,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.007552043396547e-07,
+      "loss": 0.0,
+      "num_tokens": 50956480.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.875,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 975.0,
+      "completions/mean_length": 1023.234375,
+      "completions/mean_terminated_length": 975.0,
+      "completions/min_length": 975.0,
+      "completions/min_terminated_length": 975.0,
+      "epoch": 0.22296843519140364,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.004248128385618e-07,
+      "loss": 0.0,
+      "num_tokens": 51056271.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 915.0,
+      "completions/mean_length": 1015.015625,
+      "completions/mean_terminated_length": 880.25,
+      "completions/min_length": 800.0,
+      "completions/min_terminated_length": 800.0,
+      "epoch": 0.22341616297291247,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.001888090068784e-07,
+      "loss": 0.0,
+      "num_tokens": 51156260.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 1024.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 1024.0,
+      "completions/min_terminated_length": 0.0,
+      "epoch": 0.2238638907544213,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.000472027468528e-07,
+      "loss": 0.0,
+      "num_tokens": 51260808.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/code_reward/mean": 0.0,
+      "rewards/code_reward/std": 0.0,
+      "rewards/format_reward/mean": 0.0,
+      "rewards/format_reward/std": 0.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.2238638907544213,
+      "step": 500,
+      "total_flos": 0.0,
+      "train_loss": 0.0,
+      "train_runtime": 19152.9917,
+      "train_samples_per_second": 1.671,
+      "train_steps_per_second": 0.026
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 500,
+  "num_input_tokens_seen": 51260808,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}