{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 225.1875,
      "epoch": 0.5714285714285714,
      "grad_norm": 33.62171173095703,
      "kl": 25.442447824403644,
      "learning_rate": 5e-07,
      "loss": 0.0254,
      "reward": 11.819308042526245,
      "reward_std": 7.8163459450006485,
      "rewards/concensus_correctness_reward_func": 7.919874966144562,
      "rewards/consensus_reward_func": 1.1875,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.0,
      "rewards/question_recreation_reward_func": 0.4061205663019791,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.3125,
      "rewards/xmlcount_reward_func": 0.9933125078678131,
      "step": 2
    },
    {
      "completion_length": 186.08333333333334,
      "epoch": 1.0,
      "grad_norm": 2.086843252182007,
      "kl": 149.64802904923758,
      "learning_rate": 4.864543104251586e-07,
      "loss": 0.1122,
      "reward": 16.362600485483807,
      "reward_std": 10.020825982093811,
      "rewards/concensus_correctness_reward_func": 12.089583237965902,
      "rewards/consensus_reward_func": 1.1666666666666667,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.0833333333333333,
      "rewards/question_recreation_reward_func": 0.41380878537893295,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.375,
      "rewards/xmlcount_reward_func": 1.234208345413208,
      "step": 4
    },
    {
      "completion_length": 223.875,
      "epoch": 1.5714285714285714,
      "grad_norm": 15.00961685180664,
      "kl": 10.652487497776747,
      "learning_rate": 4.472851273490984e-07,
      "loss": 0.0107,
      "reward": 11.977589547634125,
      "reward_std": 9.7134428024292,
      "rewards/concensus_correctness_reward_func": 8.302687510848045,
      "rewards/consensus_reward_func": 0.8125,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.1875,
      "rewards/question_recreation_reward_func": 0.4150586773175746,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.28125,
      "rewards/xmlcount_reward_func": 0.9785937592387199,
      "step": 6
    },
    {
      "completion_length": 190.66666666666666,
      "epoch": 2.0,
      "grad_norm": 3.084395170211792,
      "kl": 8.499988809227943,
      "learning_rate": 3.867370395306068e-07,
      "loss": 0.0064,
      "reward": 12.579971234003702,
      "reward_std": 9.292297124862671,
      "rewards/concensus_correctness_reward_func": 8.473833322525024,
      "rewards/consensus_reward_func": 1.0,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.0833333333333333,
      "rewards/question_recreation_reward_func": 0.5643875350554785,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.375,
      "rewards/xmlcount_reward_func": 1.0834166655937831,
      "step": 8
    },
    {
      "completion_length": 204.625,
      "epoch": 2.571428571428571,
      "grad_norm": 3.603095531463623,
      "kl": 10.048298962414265,
      "learning_rate": 3.1137137178519977e-07,
      "loss": 0.01,
      "reward": 11.427231937646866,
      "reward_std": 9.820873081684113,
      "rewards/concensus_correctness_reward_func": 7.5802499651908875,
      "rewards/consensus_reward_func": 0.6875,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.125,
      "rewards/question_recreation_reward_func": 0.6134823244065046,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.3125,
      "rewards/xmlcount_reward_func": 1.1085000187158585,
      "step": 10
    },
    {
      "completion_length": 230.875,
      "epoch": 3.0,
      "grad_norm": 0.9437107443809509,
      "kl": 3.204149762789408,
      "learning_rate": 2.2935516363191693e-07,
      "loss": 0.0024,
      "reward": 11.380619525909424,
      "reward_std": 9.859798153241476,
      "rewards/concensus_correctness_reward_func": 7.63866662979126,
      "rewards/consensus_reward_func": 1.0,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 0.9166666666666666,
      "rewards/question_recreation_reward_func": 0.43953612198432285,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.3333333333333333,
      "rewards/xmlcount_reward_func": 1.0524166872104008,
      "step": 12
    },
    {
      "completion_length": 188.59375,
      "epoch": 3.571428571428571,
      "grad_norm": 3.3269197940826416,
      "kl": 5.837411057204008,
      "learning_rate": 1.4957614383675767e-07,
      "loss": 0.0058,
      "reward": 13.581074088811874,
      "reward_std": 10.406405463814735,
      "rewards/concensus_correctness_reward_func": 9.679124936461449,
      "rewards/consensus_reward_func": 0.9375,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.125,
      "rewards/question_recreation_reward_func": 0.5399178890511394,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.296875,
      "rewards/xmlcount_reward_func": 1.0026562586426735,
      "step": 14
    },
    {
      "completion_length": 192.70833333333334,
      "epoch": 4.0,
      "grad_norm": 13.988443374633789,
      "kl": 28.149050116539,
      "learning_rate": 8.067960709356478e-08,
      "loss": 0.0211,
      "reward": 8.281070192654928,
      "reward_std": 6.314558376868566,
      "rewards/concensus_correctness_reward_func": 5.255166669686635,
      "rewards/consensus_reward_func": 0.75,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 0.6666666666666666,
      "rewards/question_recreation_reward_func": 0.32019493356347084,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.2916666666666667,
      "rewards/xmlcount_reward_func": 0.9973750015099844,
      "step": 16
    },
    {
      "completion_length": 207.6875,
      "epoch": 4.571428571428571,
      "grad_norm": 24.289113998413086,
      "kl": 15.703696236014366,
      "learning_rate": 3.013156219837776e-08,
      "loss": 0.0157,
      "reward": 11.741625517606735,
      "reward_std": 7.822965390980244,
      "rewards/concensus_correctness_reward_func": 7.921312498860061,
      "rewards/consensus_reward_func": 0.8125,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.1875,
      "rewards/question_recreation_reward_func": 0.5347819235175848,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.28125,
      "rewards/xmlcount_reward_func": 1.0042812675237656,
      "step": 18
    },
    {
      "completion_length": 176.45833333333334,
      "epoch": 5.0,
      "grad_norm": 2.619213342666626,
      "kl": 11.959910169243813,
      "learning_rate": 3.4096741493194193e-09,
      "loss": 0.009,
      "reward": 10.37229565779368,
      "reward_std": 5.601295222838719,
      "rewards/concensus_correctness_reward_func": 6.579250007867813,
      "rewards/consensus_reward_func": 0.6666666666666666,
      "rewards/cumulative_reward_2": 0.0,
      "rewards/final_correctness_reward_func": 1.1666666666666667,
      "rewards/question_recreation_reward_func": 0.432171031832695,
      "rewards/soft_format_reward_func": 0.0,
      "rewards/strict_format_reward_func": 0.3958333333333333,
      "rewards/xmlcount_reward_func": 1.1317083239555359,
      "step": 20
    },
    {
      "epoch": 5.0,
      "step": 20,
      "total_flos": 0.0,
      "train_loss": 0.021877992525696756,
      "train_runtime": 185.4123,
      "train_samples_per_second": 1.726,
      "train_steps_per_second": 0.108
    }
  ],
  "logging_steps": 2,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 7,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}