{
  "best_metric": 0.4650000059604645,
  "best_model_checkpoint": "/mnt/data/user/zhao_jun/tangjixin/output/model/llava_ov-grpo_new_v20_5k/v8-20250330-101445/checkpoint-2475",
  "epoch": 1.0,
  "eval_steps": 250,
  "global_step": 2475,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 12.833333730697632,
      "epoch": 0.00040404040404040404,
      "grad_norm": 4.95974063873291,
      "kl": 0.0007257461547851562,
      "learning_rate": 1.6129032258064515e-09,
      "loss": 0.1313462257385254,
      "memory(GiB)": 103.91,
      "response_clip_ratio": 0.0,
      "reward": 0.125,
      "reward_std": 0.22613351047039032,
      "rewards/MultiModalAccuracyORM": 0.125,
      "step": 1,
      "train_speed(iter/s)": 0.011139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.927083522081375,
      "epoch": 0.00202020202020202,
      "grad_norm": 0.026089413091540337,
      "kl": 0.00024419277906417847,
      "learning_rate": 8.064516129032257e-09,
      "loss": -0.0017255048733204603,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.09731236100196838,
      "rewards/MultiModalAccuracyORM": 0.0416666679084301,
      "step": 5,
      "train_speed(iter/s)": 0.028079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.066667795181274,
      "epoch": 0.00404040404040404,
      "grad_norm": 4.474486827850342,
      "kl": 4.897117614746094e-05,
      "learning_rate": 1.6129032258064514e-08,
      "loss": 0.005788012593984604,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1250000014901161,
      "reward_std": 0.2712650209665298,
      "rewards/MultiModalAccuracyORM": 0.1250000014901161,
      "step": 10,
      "train_speed(iter/s)": 0.034795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.85000114440918,
      "epoch": 0.006060606060606061,
      "grad_norm": 2.904900074005127,
      "kl": 0.00015695095062255858,
      "learning_rate": 2.4193548387096773e-08,
      "loss": 0.036757296323776244,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666716337204,
      "reward_std": 0.29389037787914274,
      "rewards/MultiModalAccuracyORM": 0.2416666716337204,
      "step": 15,
      "train_speed(iter/s)": 0.0376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.10000429153442,
      "epoch": 0.00808080808080808,
      "grad_norm": 1.9090512990951538,
      "kl": 0.00022979974746704102,
      "learning_rate": 3.225806451612903e-08,
      "loss": 0.00942036360502243,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.16666667088866233,
      "reward_std": 0.31846399009227755,
      "rewards/MultiModalAccuracyORM": 0.16666667088866233,
      "step": 20,
      "train_speed(iter/s)": 0.03857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.64166686534882,
      "epoch": 0.010101010101010102,
      "grad_norm": 23.398836135864258,
      "kl": 0.00027928352355957033,
      "learning_rate": 4.032258064516129e-08,
      "loss": -0.005109664052724838,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333410322666,
      "reward_std": 0.31046820282936094,
      "rewards/MultiModalAccuracyORM": 0.2083333410322666,
      "step": 25,
      "train_speed(iter/s)": 0.039527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.183334088325502,
      "epoch": 0.012121212121212121,
      "grad_norm": 0.027309712022542953,
      "kl": 0.0002372264862060547,
      "learning_rate": 4.8387096774193546e-08,
      "loss": -0.016541659832000732,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.05833333432674408,
      "reward_std": 0.14188667237758637,
      "rewards/MultiModalAccuracyORM": 0.05833333432674408,
      "step": 30,
      "train_speed(iter/s)": 0.040173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.750002241134645,
      "epoch": 0.014141414141414142,
      "grad_norm": 2.6486644744873047,
      "kl": 0.00022208690643310547,
      "learning_rate": 5.645161290322581e-08,
      "loss": 0.03488517701625824,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1416666716337204,
      "reward_std": 0.19962169826030732,
      "rewards/MultiModalAccuracyORM": 0.1416666716337204,
      "step": 35,
      "train_speed(iter/s)": 0.040888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.7666668176651,
      "epoch": 0.01616161616161616,
      "grad_norm": 13.41940689086914,
      "kl": 0.00021257400512695313,
      "learning_rate": 6.451612903225806e-08,
      "loss": -0.0012449542991816998,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000223517418,
      "reward_std": 0.2652174890041351,
      "rewards/MultiModalAccuracyORM": 0.12500000223517418,
      "step": 40,
      "train_speed(iter/s)": 0.041651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25000057220458,
      "epoch": 0.01818181818181818,
      "grad_norm": 11.40164852142334,
      "kl": 5.4210424423217773e-05,
      "learning_rate": 7.258064516129032e-08,
      "loss": 0.03769001364707947,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667386889457,
      "reward_std": 0.325963220000267,
      "rewards/MultiModalAccuracyORM": 0.21666667386889457,
      "step": 45,
      "train_speed(iter/s)": 0.041539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.84166791439056,
      "epoch": 0.020202020202020204,
      "grad_norm": 0.03606203943490982,
      "kl": 0.00031108856201171874,
      "learning_rate": 8.064516129032257e-08,
      "loss": 1.2442469596862793e-05,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.07500000074505805,
      "reward_std": 0.15824586153030396,
      "rewards/MultiModalAccuracyORM": 0.07500000074505805,
      "step": 50,
      "train_speed(iter/s)": 0.041821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 20.025000762939452,
      "epoch": 0.022222222222222223,
      "grad_norm": 3.2404561042785645,
      "kl": 0.0004961967468261718,
      "learning_rate": 8.870967741935484e-08,
      "loss": 0.016841122508049013,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166666865348815,
      "reward_std": 0.3241831511259079,
      "rewards/MultiModalAccuracyORM": 0.24166666865348815,
      "step": 55,
      "train_speed(iter/s)": 0.042244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.516666769981384,
      "epoch": 0.024242424242424242,
      "grad_norm": 3.8046255111694336,
      "kl": 6.520748138427735e-06,
      "learning_rate": 9.677419354838709e-08,
      "loss": -0.001297527551651001,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.36666668206453323,
      "reward_std": 0.330777695775032,
      "rewards/MultiModalAccuracyORM": 0.36666668206453323,
      "step": 60,
      "train_speed(iter/s)": 0.042408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.5333336353302,
      "epoch": 0.026262626262626262,
      "grad_norm": 0.015074208378791809,
      "kl": 0.00015583038330078126,
      "learning_rate": 1.0483870967741934e-07,
      "loss": -0.018772208690643312,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333395421505,
      "reward_std": 0.3019101768732071,
      "rewards/MultiModalAccuracyORM": 0.2083333395421505,
      "step": 65,
      "train_speed(iter/s)": 0.04265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.125000405311585,
      "epoch": 0.028282828282828285,
      "grad_norm": 1.4802911281585693,
      "kl": 0.0001938343048095703,
      "learning_rate": 1.1290322580645162e-07,
      "loss": 0.04349477887153626,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333805203437,
      "reward_std": 0.26123160123825073,
      "rewards/MultiModalAccuracyORM": 0.15833333805203437,
      "step": 70,
      "train_speed(iter/s)": 0.042774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.00833351612091,
      "epoch": 0.030303030303030304,
      "grad_norm": 17.15009880065918,
      "kl": 0.0005457401275634766,
      "learning_rate": 1.2096774193548387e-07,
      "loss": -0.03085809648036957,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000298023224,
      "reward_std": 0.2855865776538849,
      "rewards/MultiModalAccuracyORM": 0.20000000298023224,
      "step": 75,
      "train_speed(iter/s)": 0.043032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.941667556762695,
      "epoch": 0.03232323232323232,
      "grad_norm": 0.15290312469005585,
      "kl": 0.0005632162094116211,
      "learning_rate": 1.2903225806451611e-07,
      "loss": -0.019948795437812805,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.15000000447034836,
      "reward_std": 0.2066778928041458,
      "rewards/MultiModalAccuracyORM": 0.15000000447034836,
      "step": 80,
      "train_speed(iter/s)": 0.042552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.350000309944154,
      "epoch": 0.03434343434343434,
      "grad_norm": 10.242753028869629,
      "kl": 0.0002181917428970337,
      "learning_rate": 1.3709677419354838e-07,
      "loss": -0.0021827301010489465,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333805203438,
      "reward_std": 0.36318225264549253,
      "rewards/MultiModalAccuracyORM": 0.20833333805203438,
      "step": 85,
      "train_speed(iter/s)": 0.042776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.70833353996277,
      "epoch": 0.03636363636363636,
      "grad_norm": 18.3216552734375,
      "kl": 0.00013442039489746093,
      "learning_rate": 1.4516129032258064e-07,
      "loss": -0.014865413308143616,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000521540643,
      "reward_std": 0.19786564111709595,
      "rewards/MultiModalAccuracyORM": 0.17500000521540643,
      "step": 90,
      "train_speed(iter/s)": 0.042668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.166666793823243,
      "epoch": 0.03838383838383838,
      "grad_norm": 2.986149311065674,
      "kl": 0.00017652511596679687,
      "learning_rate": 1.5322580645161288e-07,
      "loss": -0.004295501857995987,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.0833333358168602,
      "reward_std": 0.18482151627540588,
      "rewards/MultiModalAccuracyORM": 0.0833333358168602,
      "step": 95,
      "train_speed(iter/s)": 0.042663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.32500224113464,
      "epoch": 0.04040404040404041,
      "grad_norm": 9.087557792663574,
      "kl": 0.00025534629821777344,
      "learning_rate": 1.6129032258064515e-07,
      "loss": -0.042690178751945494,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.3192540168762207,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 100,
      "train_speed(iter/s)": 0.042723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.64166672229767,
      "epoch": 0.04242424242424243,
      "grad_norm": 1.299012303352356,
      "kl": 0.000713956356048584,
      "learning_rate": 1.6935483870967741e-07,
      "loss": -0.01074601411819458,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000014901161,
      "reward_std": 0.2782616138458252,
      "rewards/MultiModalAccuracyORM": 0.1500000014901161,
      "step": 105,
      "train_speed(iter/s)": 0.042694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.308334159851075,
      "epoch": 0.044444444444444446,
      "grad_norm": 20.200790405273438,
      "kl": -2.079010009765625e-05,
      "learning_rate": 1.7741935483870968e-07,
      "loss": -0.0049890361726284025,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000447034836,
      "reward_std": 0.34557787179946897,
      "rewards/MultiModalAccuracyORM": 0.17500000447034836,
      "step": 110,
      "train_speed(iter/s)": 0.042795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.325000619888307,
      "epoch": 0.046464646464646465,
      "grad_norm": 2.473445177078247,
      "kl": 0.0003504753112792969,
      "learning_rate": 1.8548387096774192e-07,
      "loss": 0.009455542266368865,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333805203437,
      "reward_std": 0.2629852324724197,
      "rewards/MultiModalAccuracyORM": 0.15833333805203437,
      "step": 115,
      "train_speed(iter/s)": 0.042806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.07500042915344,
      "epoch": 0.048484848484848485,
      "grad_norm": 18.782503128051758,
      "kl": 0.00040736198425292967,
      "learning_rate": 1.9354838709677418e-07,
      "loss": -0.00938464030623436,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.17861495018005372,
      "rewards/MultiModalAccuracyORM": 0.10000000149011612,
      "step": 120,
      "train_speed(iter/s)": 0.042915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.666668796539305,
      "epoch": 0.050505050505050504,
      "grad_norm": 10.809483528137207,
      "kl": 0.00013909339904785156,
      "learning_rate": 2e-07,
      "loss": 0.015682700276374816,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333417773247,
      "reward_std": 0.2325587123632431,
      "rewards/MultiModalAccuracyORM": 0.3083333417773247,
      "step": 125,
      "train_speed(iter/s)": 0.042982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.79166784286499,
      "epoch": 0.052525252525252523,
      "grad_norm": 0.059968430548906326,
      "kl": 0.0003565549850463867,
      "learning_rate": 2e-07,
      "loss": -0.012978824973106384,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833334028720857,
      "reward_std": 0.2775311887264252,
      "rewards/MultiModalAccuracyORM": 0.20833334028720857,
      "step": 130,
      "train_speed(iter/s)": 0.043138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.358333635330201,
      "epoch": 0.05454545454545454,
      "grad_norm": 16.368749618530273,
      "kl": 0.0005423665046691894,
      "learning_rate": 2e-07,
      "loss": -0.018562111258506774,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333432674408,
      "reward_std": 0.3227223068475723,
      "rewards/MultiModalAccuracyORM": 0.2083333432674408,
      "step": 135,
      "train_speed(iter/s)": 0.043281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.30833601951599,
      "epoch": 0.05656565656565657,
      "grad_norm": 8.052789688110352,
      "kl": 0.0008988380432128906,
      "learning_rate": 2e-07,
      "loss": 0.05945103764533997,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333879709243,
      "reward_std": 0.32900004684925077,
      "rewards/MultiModalAccuracyORM": 0.20833333879709243,
      "step": 140,
      "train_speed(iter/s)": 0.043225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 4.983333492279053,
      "epoch": 0.05858585858585859,
      "grad_norm": 5.5169525146484375,
      "kl": 0.0008536338806152344,
      "learning_rate": 2e-07,
      "loss": -0.03663218915462494,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2000000074505806,
      "reward_std": 0.29079394936561587,
      "rewards/MultiModalAccuracyORM": 0.2000000074505806,
      "step": 145,
      "train_speed(iter/s)": 0.043361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.125000166893005,
      "epoch": 0.06060606060606061,
      "grad_norm": 0.07958526909351349,
      "kl": 0.001511383056640625,
      "learning_rate": 2e-07,
      "loss": 0.05411055088043213,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2333333373069763,
      "reward_std": 0.27122943103313446,
      "rewards/MultiModalAccuracyORM": 0.2333333373069763,
      "step": 150,
      "train_speed(iter/s)": 0.043443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.666666889190674,
      "epoch": 0.06262626262626263,
      "grad_norm": 0.0961478129029274,
      "kl": 0.0021147727966308594,
      "learning_rate": 2e-07,
      "loss": 0.0017779668793082236,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000447034835,
      "reward_std": 0.22052658796310426,
      "rewards/MultiModalAccuracyORM": 0.20000000447034835,
      "step": 155,
      "train_speed(iter/s)": 0.043434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.125001430511475,
      "epoch": 0.06464646464646465,
      "grad_norm": 3.5018489360809326,
      "kl": 0.0011393070220947266,
      "learning_rate": 2e-07,
      "loss": 0.003215038776397705,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333395421505,
      "reward_std": 0.2687189429998398,
      "rewards/MultiModalAccuracyORM": 0.1833333395421505,
      "step": 160,
      "train_speed(iter/s)": 0.043475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.183334255218504,
      "epoch": 0.06666666666666667,
      "grad_norm": 1.7839807271957397,
      "kl": 0.001880502700805664,
      "learning_rate": 2e-07,
      "loss": 0.037510618567466736,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1250000037252903,
      "reward_std": 0.2629256367683411,
      "rewards/MultiModalAccuracyORM": 0.1250000037252903,
      "step": 165,
      "train_speed(iter/s)": 0.04338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.583333587646484,
      "epoch": 0.06868686868686869,
      "grad_norm": 2.9806480407714844,
      "kl": 0.001198887825012207,
      "learning_rate": 2e-07,
      "loss": 0.007929786294698715,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667461395265,
      "reward_std": 0.21750431060791015,
      "rewards/MultiModalAccuracyORM": 0.19166667461395265,
      "step": 170,
      "train_speed(iter/s)": 0.043348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.308333587646484,
      "epoch": 0.0707070707070707,
      "grad_norm": 0.006374528165906668,
      "kl": 0.008016198873519897,
      "learning_rate": 2e-07,
      "loss": 0.0161195233464241,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667014360428,
      "reward_std": 0.2822715133428574,
      "rewards/MultiModalAccuracyORM": 0.19166667014360428,
      "step": 175,
      "train_speed(iter/s)": 0.043522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.283334064483643,
      "epoch": 0.07272727272727272,
      "grad_norm": 13.373006820678711,
      "kl": 0.005344104766845703,
      "learning_rate": 2e-07,
      "loss": 0.005642924830317498,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1250000037252903,
      "reward_std": 0.2629256367683411,
      "rewards/MultiModalAccuracyORM": 0.1250000037252903,
      "step": 180,
      "train_speed(iter/s)": 0.043562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.858333396911621,
      "epoch": 0.07474747474747474,
      "grad_norm": 20.940757751464844,
      "kl": 0.004119682312011719,
      "learning_rate": 2e-07,
      "loss": -0.014204351603984833,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667312383653,
      "reward_std": 0.24560283720493317,
      "rewards/MultiModalAccuracyORM": 0.21666667312383653,
      "step": 185,
      "train_speed(iter/s)": 0.043604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.808333730697631,
      "epoch": 0.07676767676767676,
      "grad_norm": 1.9175783395767212,
      "kl": 0.0015784263610839843,
      "learning_rate": 2e-07,
      "loss": 0.036653178930282596,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.27774982452392577,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 190,
      "train_speed(iter/s)": 0.043708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.058333468437194,
      "epoch": 0.07878787878787878,
      "grad_norm": 20.731929779052734,
      "kl": 0.002748870849609375,
      "learning_rate": 2e-07,
      "loss": -0.007462918758392334,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667461395264,
      "reward_std": 0.26047474443912505,
      "rewards/MultiModalAccuracyORM": 0.24166667461395264,
      "step": 195,
      "train_speed(iter/s)": 0.043797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.766668224334715,
      "epoch": 0.08080808080808081,
      "grad_norm": 32.81786346435547,
      "kl": 0.012819027900695801,
      "learning_rate": 2e-07,
      "loss": -0.012741921842098236,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666731238365,
      "reward_std": 0.3634008765220642,
      "rewards/MultiModalAccuracyORM": 0.1916666731238365,
      "step": 200,
      "train_speed(iter/s)": 0.043791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.191666889190674,
      "epoch": 0.08282828282828283,
      "grad_norm": 10.631654739379883,
      "kl": 0.007097434997558594,
      "learning_rate": 2e-07,
      "loss": -0.059709519147872925,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000223517418,
      "reward_std": 0.26302082240581515,
      "rewards/MultiModalAccuracyORM": 0.15000000223517418,
      "step": 205,
      "train_speed(iter/s)": 0.043862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.100000143051147,
      "epoch": 0.08484848484848485,
      "grad_norm": 15.135857582092285,
      "kl": 0.016997623443603515,
      "learning_rate": 2e-07,
      "loss": 0.036284705996513365,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333730697632,
      "reward_std": 0.24481281042098998,
      "rewards/MultiModalAccuracyORM": 0.10833333730697632,
      "step": 210,
      "train_speed(iter/s)": 0.043845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.075000190734864,
      "epoch": 0.08686868686868687,
      "grad_norm": 15.046256065368652,
      "kl": 0.013745307922363281,
      "learning_rate": 2e-07,
      "loss": -0.01842743158340454,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.3001325339078903,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 215,
      "train_speed(iter/s)": 0.043911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.94166750907898,
      "epoch": 0.08888888888888889,
      "grad_norm": 14.397719383239746,
      "kl": 0.01525421142578125,
      "learning_rate": 2e-07,
      "loss": -0.016506943106651305,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000894069672,
      "reward_std": 0.24662604331970214,
      "rewards/MultiModalAccuracyORM": 0.22500000894069672,
      "step": 220,
      "train_speed(iter/s)": 0.043992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.44166669845581,
      "epoch": 0.09090909090909091,
      "grad_norm": 12.164202690124512,
      "kl": 0.025649261474609376,
      "learning_rate": 2e-07,
      "loss": 0.017044636607170104,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000074505806,
      "reward_std": 0.28160068988800047,
      "rewards/MultiModalAccuracyORM": 0.3000000074505806,
      "step": 225,
      "train_speed(iter/s)": 0.044113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.383334040641785,
      "epoch": 0.09292929292929293,
      "grad_norm": 21.127038955688477,
      "kl": 0.024017763137817384,
      "learning_rate": 2e-07,
      "loss": 0.02930714190006256,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666693985462,
      "reward_std": 0.26196202635765076,
      "rewards/MultiModalAccuracyORM": 0.1666666693985462,
      "step": 230,
      "train_speed(iter/s)": 0.044142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.891666889190674,
      "epoch": 0.09494949494949495,
      "grad_norm": 6.2940568923950195,
      "kl": 0.027823114395141603,
      "learning_rate": 2e-07,
      "loss": -0.009951599687337876,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000521540643,
      "reward_std": 0.3036638140678406,
      "rewards/MultiModalAccuracyORM": 0.17500000521540643,
      "step": 235,
      "train_speed(iter/s)": 0.044213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.750000047683716,
      "epoch": 0.09696969696969697,
      "grad_norm": 3.980544090270996,
      "kl": 0.018259000778198243,
      "learning_rate": 2e-07,
      "loss": -0.020673815906047822,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.16666667014360428,
      "reward_std": 0.21823472976684571,
      "rewards/MultiModalAccuracyORM": 0.16666667014360428,
      "step": 240,
      "train_speed(iter/s)": 0.044233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.80000023841858,
      "epoch": 0.09898989898989899,
      "grad_norm": 1.3881502151489258,
      "kl": 0.000605630874633789,
      "learning_rate": 2e-07,
      "loss": -0.01487920731306076,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334177732467,
      "reward_std": 0.30661733746528624,
      "rewards/MultiModalAccuracyORM": 0.28333334177732467,
      "step": 245,
      "train_speed(iter/s)": 0.044235
    },
    {
      "epoch": 0.10101010101010101,
      "grad_norm": 11.512455940246582,
      "learning_rate": 2e-07,
      "loss": 0.033054867386817934,
      "memory(GiB)": 104.49,
      "step": 250,
      "train_speed(iter/s)": 0.044081
    },
    {
      "epoch": 0.10101010101010101,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 24.26333417892456,
      "eval_kl": 0.022986836433410644,
      "eval_loss": 0.027694934979081154,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.2150000040233135,
      "eval_reward_std": 0.2852368396520615,
      "eval_rewards/MultiModalAccuracyORM": 0.2150000040233135,
      "eval_runtime": 262.2909,
      "eval_samples_per_second": 0.191,
      "eval_steps_per_second": 0.019,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.133334922790525,
      "epoch": 0.10303030303030303,
      "grad_norm": 4.130315780639648,
      "kl": 0.018082523345947267,
      "learning_rate": 2e-07,
      "loss": 0.024475347995758057,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166666977107526,
      "reward_std": 0.2766233593225479,
      "rewards/MultiModalAccuracyORM": 0.24166666977107526,
      "step": 255,
      "train_speed(iter/s)": 0.041648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.6,
      "epoch": 0.10505050505050505,
      "grad_norm": 10.52556324005127,
      "kl": 0.020127105712890624,
      "learning_rate": 2e-07,
      "loss": -0.008974193781614303,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000037252903,
      "reward_std": 0.2567190647125244,
      "rewards/MultiModalAccuracyORM": 0.2750000037252903,
      "step": 260,
      "train_speed(iter/s)": 0.041738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.45,
      "epoch": 0.10707070707070707,
      "grad_norm": 11.179485321044922,
      "kl": 0.03880462646484375,
      "learning_rate": 2e-07,
      "loss": 0.0015405803918838502,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666716337204,
      "reward_std": 0.2918527454137802,
      "rewards/MultiModalAccuracyORM": 0.1666666716337204,
      "step": 265,
      "train_speed(iter/s)": 0.041756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.75,
      "epoch": 0.10909090909090909,
      "grad_norm": 4.639992713928223,
      "kl": 0.018306541442871093,
      "learning_rate": 2e-07,
      "loss": -0.012826296687126159,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333656191826,
      "reward_std": 0.174764084815979,
      "rewards/MultiModalAccuracyORM": 0.10833333656191826,
      "step": 270,
      "train_speed(iter/s)": 0.041759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.6,
      "epoch": 0.1111111111111111,
      "grad_norm": 14.52376651763916,
      "kl": 0.02277069091796875,
      "learning_rate": 2e-07,
      "loss": -0.03760814070701599,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.05,
      "reward": 0.30833334028720855,
      "reward_std": 0.3679845929145813,
      "rewards/MultiModalAccuracyORM": 0.30833334028720855,
      "step": 275,
      "train_speed(iter/s)": 0.041762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 0.11313131313131314,
      "grad_norm": 7.044532775878906,
      "kl": 0.04247570037841797,
      "learning_rate": 2e-07,
      "loss": 0.05246252417564392,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000670552253,
      "reward_std": 0.30385262966156007,
      "rewards/MultiModalAccuracyORM": 0.22500000670552253,
      "step": 280,
      "train_speed(iter/s)": 0.041745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.9,
      "epoch": 0.11515151515151516,
      "grad_norm": 3.5612969398498535,
      "kl": 0.04666891098022461,
      "learning_rate": 2e-07,
      "loss": -0.03580006957054138,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.14166667312383652,
      "reward_std": 0.20594746768474578,
      "rewards/MultiModalAccuracyORM": 0.14166667312383652,
      "step": 285,
      "train_speed(iter/s)": 0.041805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 0.11717171717171718,
      "grad_norm": 22.66056251525879,
      "kl": 0.0072917938232421875,
      "learning_rate": 2e-07,
      "loss": 0.030799278616905214,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667386889457,
      "reward_std": 0.3523798406124115,
      "rewards/MultiModalAccuracyORM": 0.24166667386889457,
      "step": 290,
      "train_speed(iter/s)": 0.041794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1,
      "epoch": 0.1191919191919192,
      "grad_norm": 16.353897094726562,
      "kl": 0.02278270721435547,
      "learning_rate": 2e-07,
      "loss": 0.0040659308433532715,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.07500000149011612,
      "reward_std": 0.16200153529644012,
      "rewards/MultiModalAccuracyORM": 0.07500000149011612,
      "step": 295,
      "train_speed(iter/s)": 0.041713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 0.12121212121212122,
      "grad_norm": 3.0584208965301514,
      "kl": 0.021613693237304686,
      "learning_rate": 2e-07,
      "loss": 0.015577539801597595,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000447034837,
      "reward_std": 0.2175043046474457,
      "rewards/MultiModalAccuracyORM": 0.12500000447034837,
      "step": 300,
      "train_speed(iter/s)": 0.041708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.4,
      "epoch": 0.12323232323232323,
      "grad_norm": 2.683347225189209,
      "kl": 0.05754499435424805,
      "learning_rate": 2e-07,
      "loss": 0.0014399250969290734,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333805203437,
      "reward_std": 0.24637182354927062,
      "rewards/MultiModalAccuracyORM": 0.13333333805203437,
      "step": 305,
      "train_speed(iter/s)": 0.041731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.0,
      "epoch": 0.12525252525252525,
      "grad_norm": 4.011137008666992,
      "kl": 0.003471851348876953,
      "learning_rate": 2e-07,
      "loss": -0.012657842040061951,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000223517418,
      "reward_std": 0.17781037986278533,
      "rewards/MultiModalAccuracyORM": 0.12500000223517418,
      "step": 310,
      "train_speed(iter/s)": 0.041745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.4,
      "epoch": 0.12727272727272726,
      "grad_norm": 2.4296364784240723,
      "kl": 0.01938905715942383,
      "learning_rate": 2e-07,
      "loss": 0.023499640822410583,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000149011613,
      "reward_std": 0.1808116167783737,
      "rewards/MultiModalAccuracyORM": 0.17500000149011613,
      "step": 315,
      "train_speed(iter/s)": 0.041811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.35,
      "epoch": 0.1292929292929293,
      "grad_norm": 1.5319490432739258,
      "kl": 0.023272895812988283,
      "learning_rate": 2e-07,
      "loss": -0.0005661348812282085,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000298023223,
      "reward_std": 0.23860624432563782,
      "rewards/MultiModalAccuracyORM": 0.22500000298023223,
      "step": 320,
      "train_speed(iter/s)": 0.041846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.8,
      "epoch": 0.13131313131313133,
      "grad_norm": 28.09259605407715,
      "kl": 0.055776214599609374,
      "learning_rate": 2e-07,
      "loss": -0.00978400707244873,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333507180214,
      "reward_std": 0.2785158395767212,
      "rewards/MultiModalAccuracyORM": 0.15833333507180214,
      "step": 325,
      "train_speed(iter/s)": 0.041894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.8,
      "epoch": 0.13333333333333333,
      "grad_norm": 5.655847072601318,
      "kl": 0.01194305419921875,
      "learning_rate": 2e-07,
      "loss": -0.023021923005580903,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000037252903,
      "reward_std": 0.242361918091774,
      "rewards/MultiModalAccuracyORM": 0.2250000037252903,
      "step": 330,
      "train_speed(iter/s)": 0.041922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.0,
      "epoch": 0.13535353535353536,
      "grad_norm": 16.269479751586914,
      "kl": 0.012023067474365235,
      "learning_rate": 2e-07,
      "loss": 0.009542696177959442,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333380520344,
      "reward_std": 0.4074155628681183,
      "rewards/MultiModalAccuracyORM": 0.2583333380520344,
      "step": 335,
      "train_speed(iter/s)": 0.041926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.1,
      "epoch": 0.13737373737373737,
      "grad_norm": 19.7489013671875,
      "kl": 0.041985511779785156,
      "learning_rate": 2e-07,
      "loss": -0.009631294012069701,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000111758709,
      "reward_std": 0.38227055966854095,
      "rewards/MultiModalAccuracyORM": 0.3250000111758709,
      "step": 340,
      "train_speed(iter/s)": 0.042003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.25,
      "epoch": 0.1393939393939394,
      "grad_norm": 25.704818725585938,
      "kl": 0.02933082580566406,
      "learning_rate": 2e-07,
      "loss": 0.005663518235087395,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000596046447,
      "reward_std": 0.287842845916748,
      "rewards/MultiModalAccuracyORM": 0.17500000596046447,
      "step": 345,
      "train_speed(iter/s)": 0.042012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 0.1414141414141414,
      "grad_norm": 30.1114559173584,
      "kl": 0.010479164123535157,
      "learning_rate": 2e-07,
      "loss": 0.018732863664627075,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000447034837,
      "reward_std": 0.2077010989189148,
      "rewards/MultiModalAccuracyORM": 0.12500000447034837,
      "step": 350,
      "train_speed(iter/s)": 0.041986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.65,
      "epoch": 0.14343434343434344,
      "grad_norm": 4.131731033325195,
      "kl": 0.03218498229980469,
      "learning_rate": 2e-07,
      "loss": 0.05048830509185791,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333380520344,
      "reward_std": 0.22854881286621093,
      "rewards/MultiModalAccuracyORM": 0.1833333380520344,
      "step": 355,
      "train_speed(iter/s)": 0.041992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.9,
      "epoch": 0.14545454545454545,
      "grad_norm": 2.5443966388702393,
      "kl": 0.028252887725830077,
      "learning_rate": 2e-07,
      "loss": 0.011212460696697235,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666813194752,
      "reward_std": 0.3104326128959656,
      "rewards/MultiModalAccuracyORM": 0.3166666813194752,
      "step": 360,
      "train_speed(iter/s)": 0.042049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.05,
      "epoch": 0.14747474747474748,
      "grad_norm": 4.374809265136719,
      "kl": 0.024268913269042968,
      "learning_rate": 2e-07,
      "loss": -0.0001811852096579969,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000447034836,
      "reward_std": 0.20544483065605162,
      "rewards/MultiModalAccuracyORM": 0.15000000447034836,
      "step": 365,
      "train_speed(iter/s)": 0.042035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.75,
      "epoch": 0.1494949494949495,
      "grad_norm": 16.779956817626953,
      "kl": 0.015867042541503906,
      "learning_rate": 2e-07,
      "loss": 0.022855284810066222,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000447034836,
      "reward_std": 0.17529989182949066,
      "rewards/MultiModalAccuracyORM": 0.17500000447034836,
      "step": 370,
      "train_speed(iter/s)": 0.042043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.05,
      "epoch": 0.15151515151515152,
      "grad_norm": 1.799055576324463,
      "kl": 0.02576103210449219,
      "learning_rate": 2e-07,
      "loss": 0.03886341452598572,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000670552255,
      "reward_std": 0.23481498062610626,
      "rewards/MultiModalAccuracyORM": 0.15000000670552255,
      "step": 375,
      "train_speed(iter/s)": 0.041993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.3,
      "epoch": 0.15353535353535352,
      "grad_norm": 14.809004783630371,
      "kl": 0.06607561111450196,
      "learning_rate": 2e-07,
      "loss": 0.02258915901184082,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.27759079039096834,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 380,
      "train_speed(iter/s)": 0.042034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.6,
      "epoch": 0.15555555555555556,
      "grad_norm": 4.855790138244629,
      "kl": 0.044758033752441403,
      "learning_rate": 2e-07,
      "loss": 0.006666116416454315,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666731238365,
      "reward_std": 0.2877832442522049,
      "rewards/MultiModalAccuracyORM": 0.1916666731238365,
      "step": 385,
      "train_speed(iter/s)": 0.042053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.45,
      "epoch": 0.15757575757575756,
      "grad_norm": 3.650961399078369,
      "kl": 0.09126663208007812,
      "learning_rate": 2e-07,
      "loss": -0.006338779628276825,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000014901161,
      "reward_std": 0.22384165227413177,
      "rewards/MultiModalAccuracyORM": 0.2750000014901161,
      "step": 390,
      "train_speed(iter/s)": 0.04209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.7,
      "epoch": 0.1595959595959596,
      "grad_norm": 22.398860931396484,
      "kl": 0.05564393997192383,
      "learning_rate": 2e-07,
      "loss": 0.011527793109416961,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.3385071337223053,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 395,
      "train_speed(iter/s)": 0.04213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.45,
      "epoch": 0.16161616161616163,
      "grad_norm": 3.777151346206665,
      "kl": 0.08077354431152343,
      "learning_rate": 2e-07,
      "loss": 0.02410067617893219,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.11666666939854622,
      "reward_std": 0.2687189429998398,
      "rewards/MultiModalAccuracyORM": 0.11666666939854622,
      "step": 400,
      "train_speed(iter/s)": 0.04213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.7,
      "epoch": 0.16363636363636364,
      "grad_norm": 6.114872455596924,
      "kl": 0.09431419372558594,
      "learning_rate": 2e-07,
      "loss": 0.02062232345342636,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333410322666,
      "reward_std": 0.384308198094368,
      "rewards/MultiModalAccuracyORM": 0.2833333410322666,
      "step": 405,
      "train_speed(iter/s)": 0.042217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.1,
      "epoch": 0.16565656565656567,
      "grad_norm": 2.8733115196228027,
      "kl": 0.07746734619140624,
      "learning_rate": 2e-07,
      "loss": 0.014683787524700165,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000074505806,
      "reward_std": 0.28160068988800047,
      "rewards/MultiModalAccuracyORM": 0.3500000074505806,
      "step": 410,
      "train_speed(iter/s)": 0.042237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55,
      "epoch": 0.16767676767676767,
      "grad_norm": 1.103491187095642,
      "kl": 0.013630294799804687,
      "learning_rate": 2e-07,
      "loss": 0.031570857763290404,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333805203438,
      "reward_std": 0.3222051203250885,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 415,
      "train_speed(iter/s)": 0.042253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.65,
      "epoch": 0.1696969696969697,
      "grad_norm": 19.609107971191406,
      "kl": 0.006585693359375,
      "learning_rate": 2e-07,
      "loss": 0.029933744668960573,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166666865348817,
      "reward_std": 0.2815766781568527,
      "rewards/MultiModalAccuracyORM": 0.29166666865348817,
      "step": 420,
      "train_speed(iter/s)": 0.042267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.85,
      "epoch": 0.1717171717171717,
      "grad_norm": 3.5567312240600586,
      "kl": 0.027184486389160156,
      "learning_rate": 2e-07,
      "loss": -0.008297288417816162,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000067055225,
      "reward_std": 0.3423224091529846,
      "rewards/MultiModalAccuracyORM": 0.3000000067055225,
      "step": 425,
      "train_speed(iter/s)": 0.042268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.6,
      "epoch": 0.17373737373737375,
      "grad_norm": 4.005617141723633,
      "kl": 0.037563323974609375,
      "learning_rate": 2e-07,
      "loss": -0.008759691566228866,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000298023223,
      "reward_std": 0.2403598755598068,
      "rewards/MultiModalAccuracyORM": 0.22500000298023223,
      "step": 430,
      "train_speed(iter/s)": 0.042273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.65,
      "epoch": 0.17575757575757575,
      "grad_norm": 1.1876083612442017,
      "kl": 0.04276580810546875,
      "learning_rate": 2e-07,
      "loss": 0.009293363988399505,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333805203438,
      "reward_std": 0.25639069378376006,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 435,
      "train_speed(iter/s)": 0.042306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.1,
      "epoch": 0.17777777777777778,
      "grad_norm": 1.259384274482727,
      "kl": 0.09014434814453125,
      "learning_rate": 2e-07,
      "loss": 0.07308403849601745,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333373069763,
      "reward_std": 0.2925831705331802,
      "rewards/MultiModalAccuracyORM": 0.2083333373069763,
      "step": 440,
      "train_speed(iter/s)": 0.042352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.1,
      "epoch": 0.1797979797979798,
      "grad_norm": 1.2361171245574951,
      "kl": 0.0314971923828125,
      "learning_rate": 2e-07,
      "loss": -0.04375269114971161,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30833333656191825,
      "reward_std": 0.29863070249557494,
      "rewards/MultiModalAccuracyORM": 0.30833333656191825,
      "step": 445,
      "train_speed(iter/s)": 0.042392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.65,
      "epoch": 0.18181818181818182,
      "grad_norm": 2.4363491535186768,
      "kl": 0.07178993225097656,
      "learning_rate": 2e-07,
      "loss": 0.0028454601764678956,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000596046447,
      "reward_std": 0.41791602969169617,
      "rewards/MultiModalAccuracyORM": 0.32500000596046447,
      "step": 450,
      "train_speed(iter/s)": 0.042441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.6,
      "epoch": 0.18383838383838383,
      "grad_norm": 12.971217155456543,
      "kl": 0.05601959228515625,
      "learning_rate": 2e-07,
      "loss": 0.012572245299816131,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.22704698145389557,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 455,
      "train_speed(iter/s)": 0.042477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.85,
      "epoch": 0.18585858585858586,
      "grad_norm": 11.262785911560059,
      "kl": 0.014653778076171875,
      "learning_rate": 2e-07,
      "loss": 0.005643188953399658,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000022351742,
      "reward_std": 0.26040059328079224,
      "rewards/MultiModalAccuracyORM": 0.2750000022351742,
      "step": 460,
      "train_speed(iter/s)": 0.042456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.2,
      "epoch": 0.18787878787878787,
      "grad_norm": 9.14407730102539,
      "kl": 0.03995361328125,
      "learning_rate": 2e-07,
      "loss": 0.0012056897394359112,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000521540642,
      "reward_std": 0.3923635810613632,
      "rewards/MultiModalAccuracyORM": 0.22500000521540642,
      "step": 465,
      "train_speed(iter/s)": 0.042452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.2,
      "epoch": 0.1898989898989899,
      "grad_norm": 2.3540585041046143,
      "kl": 0.041180419921875,
      "learning_rate": 2e-07,
      "loss": 0.018683533370494842,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.20722824335098267,
      "rewards/MultiModalAccuracyORM": 0.10000000149011612,
      "step": 470,
      "train_speed(iter/s)": 0.042503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 0.1919191919191919,
      "grad_norm": 6.397303581237793,
      "kl": 0.02938995361328125,
      "learning_rate": 2e-07,
      "loss": 0.005294787883758545,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.308333333581686,
      "reward_std": 0.31422091126441953,
      "rewards/MultiModalAccuracyORM": 0.308333333581686,
      "step": 475,
      "train_speed(iter/s)": 0.042517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.45,
      "epoch": 0.19393939393939394,
      "grad_norm": 15.569790840148926,
      "kl": 0.07780342102050782,
      "learning_rate": 2e-07,
      "loss": 0.012630045413970947,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.36667739152908324,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 480,
      "train_speed(iter/s)": 0.042512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.95,
      "epoch": 0.19595959595959597,
      "grad_norm": 12.205713272094727,
      "kl": 0.02214508056640625,
      "learning_rate": 2e-07,
      "loss": 0.012730973958969116,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333656191824,
      "reward_std": 0.25566026866436004,
      "rewards/MultiModalAccuracyORM": 0.35833333656191824,
      "step": 485,
      "train_speed(iter/s)": 0.042552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.55,
      "epoch": 0.19797979797979798,
      "grad_norm": 0.97981858253479,
      "kl": 0.05444526672363281,
      "learning_rate": 2e-07,
      "loss": 0.006719142198562622,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10000000074505806,
      "reward_std": 0.203472563624382,
      "rewards/MultiModalAccuracyORM": 0.10000000074505806,
      "step": 490,
      "train_speed(iter/s)": 0.04257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.85,
      "epoch": 0.2,
      "grad_norm": 2.1149213314056396,
      "kl": 0.06137847900390625,
      "learning_rate": 2e-07,
      "loss": 0.04113571047782898,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334401249886,
      "reward_std": 0.3259632259607315,
      "rewards/MultiModalAccuracyORM": 0.38333334401249886,
      "step": 495,
      "train_speed(iter/s)": 0.042559
    },
    {
      "epoch": 0.20202020202020202,
      "grad_norm": 18.28374671936035,
      "learning_rate": 2e-07,
      "loss": 0.0038329623639583588,
      "memory(GiB)": 104.49,
      "step": 500,
      "train_speed(iter/s)": 0.042571
    },
    {
      "epoch": 0.20202020202020202,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 26.648334164619445,
      "eval_kl": 0.08782589912414551,
      "eval_loss": 7.593631835334236e-06,
      "eval_response_clip_ratio": 0.001666666716337204,
      "eval_reward": 0.2816666740179062,
      "eval_reward_std": 0.3331107318401337,
      "eval_rewards/MultiModalAccuracyORM": 0.2816666740179062,
      "eval_runtime": 274.2098,
      "eval_samples_per_second": 0.182,
      "eval_steps_per_second": 0.018,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.25,
      "epoch": 0.20404040404040405,
      "grad_norm": 6.910037517547607,
      "kl": 0.07545309066772461,
      "learning_rate": 2e-07,
      "loss": 0.02395549863576889,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30416667498648164,
      "reward_std": 0.2502841353416443,
      "rewards/MultiModalAccuracyORM": 0.30416667498648164,
      "step": 505,
      "train_speed(iter/s)": 0.041389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.3,
      "epoch": 0.20606060606060606,
      "grad_norm": 7.303215503692627,
      "kl": 0.03816680908203125,
      "learning_rate": 2e-07,
      "loss": 0.012394474446773529,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.20363159775733947,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 510,
      "train_speed(iter/s)": 0.041415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.0,
      "epoch": 0.2080808080808081,
      "grad_norm": 2.0224409103393555,
      "kl": 0.038478851318359375,
      "learning_rate": 2e-07,
      "loss": -0.017507487535476686,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333387970924,
      "reward_std": 0.37155145704746245,
      "rewards/MultiModalAccuracyORM": 0.2583333387970924,
      "step": 515,
      "train_speed(iter/s)": 0.041435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.9,
      "epoch": 0.2101010101010101,
      "grad_norm": 9.651928901672363,
      "kl": 0.00984039306640625,
      "learning_rate": 2e-07,
      "loss": -0.002422221563756466,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000014901161,
      "reward_std": 0.30187162160873415,
      "rewards/MultiModalAccuracyORM": 0.3500000014901161,
      "step": 520,
      "train_speed(iter/s)": 0.041478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.75,
      "epoch": 0.21212121212121213,
      "grad_norm": 5.6520562171936035,
      "kl": 0.031005859375,
      "learning_rate": 2e-07,
      "loss": 0.00025533935986459254,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.2338038921356201,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 525,
      "train_speed(iter/s)": 0.041505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.5,
      "epoch": 0.21414141414141413,
      "grad_norm": 20.748729705810547,
      "kl": 0.0915985107421875,
      "learning_rate": 2e-07,
      "loss": -0.01767445057630539,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000096857548,
      "reward_std": 0.38835368156433103,
      "rewards/MultiModalAccuracyORM": 0.3000000096857548,
      "step": 530,
      "train_speed(iter/s)": 0.041524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.45,
      "epoch": 0.21616161616161617,
      "grad_norm": 0.023180894553661346,
      "kl": 0.07088775634765625,
      "learning_rate": 2e-07,
      "loss": 0.029787826538085937,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000521540644,
      "reward_std": 0.2526735752820969,
      "rewards/MultiModalAccuracyORM": 0.37500000521540644,
      "step": 535,
      "train_speed(iter/s)": 0.041552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.2,
      "epoch": 0.21818181818181817,
      "grad_norm": 16.621583938598633,
      "kl": 0.05093994140625,
      "learning_rate": 2e-07,
      "loss": -0.009274721145629883,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667312383654,
      "reward_std": 0.28561058938503264,
      "rewards/MultiModalAccuracyORM": 0.29166667312383654,
      "step": 540,
      "train_speed(iter/s)": 0.041581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.45,
      "epoch": 0.2202020202020202,
      "grad_norm": 17.103206634521484,
      "kl": 0.0737823486328125,
      "learning_rate": 2e-07,
      "loss": 0.021037888526916505,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333432674408,
      "reward_std": 0.28561058938503264,
      "rewards/MultiModalAccuracyORM": 0.3583333432674408,
      "step": 545,
      "train_speed(iter/s)": 0.041645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.85,
      "epoch": 0.2222222222222222,
      "grad_norm": 1.5227787494659424,
      "kl": 0.07874641418457032,
      "learning_rate": 2e-07,
      "loss": 0.00487855076789856,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000223517417,
      "reward_std": 0.21779412031173706,
      "rewards/MultiModalAccuracyORM": 0.17500000223517417,
      "step": 550,
      "train_speed(iter/s)": 0.041506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.6,
      "epoch": 0.22424242424242424,
      "grad_norm": 13.277663230895996,
      "kl": 0.039247894287109376,
      "learning_rate": 2e-07,
      "loss": 0.008411864936351775,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333656191826,
      "reward_std": 0.29784068167209626,
      "rewards/MultiModalAccuracyORM": 0.13333333656191826,
      "step": 555,
      "train_speed(iter/s)": 0.041504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.2,
      "epoch": 0.22626262626262628,
      "grad_norm": 0.10883937031030655,
      "kl": 0.06273307800292968,
      "learning_rate": 2e-07,
      "loss": 0.012170317023992539,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666679084301,
      "reward_std": 0.12333081662654877,
      "rewards/MultiModalAccuracyORM": 0.2666666679084301,
      "step": 560,
      "train_speed(iter/s)": 0.041519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.5,
      "epoch": 0.22828282828282828,
      "grad_norm": 12.209307670593262,
      "kl": 0.04704780578613281,
      "learning_rate": 2e-07,
      "loss": 0.032337296009063723,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000074505806,
      "reward_std": 0.2626924514770508,
      "rewards/MultiModalAccuracyORM": 0.17500000074505806,
      "step": 565,
      "train_speed(iter/s)": 0.04155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.85,
      "epoch": 0.23030303030303031,
      "grad_norm": 4.45810079574585,
      "kl": 0.05213623046875,
      "learning_rate": 2e-07,
      "loss": 0.001686885952949524,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000447034836,
      "reward_std": 0.25891573131084444,
      "rewards/MultiModalAccuracyORM": 0.30000000447034836,
      "step": 570,
      "train_speed(iter/s)": 0.041578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55,
      "epoch": 0.23232323232323232,
      "grad_norm": 0.6504287719726562,
      "kl": 0.08351707458496094,
      "learning_rate": 2e-07,
      "loss": 0.016631042957305907,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000014901161,
      "reward_std": 0.26906835436820986,
      "rewards/MultiModalAccuracyORM": 0.1500000014901161,
      "step": 575,
      "train_speed(iter/s)": 0.041538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.85,
      "epoch": 0.23434343434343435,
      "grad_norm": 27.585575103759766,
      "kl": 0.1207763671875,
      "learning_rate": 2e-07,
      "loss": -0.036790531873703,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000067055225,
      "reward_std": 0.3860618233680725,
      "rewards/MultiModalAccuracyORM": 0.3000000067055225,
      "step": 580,
      "train_speed(iter/s)": 0.041563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.3,
      "epoch": 0.23636363636363636,
      "grad_norm": 10.094830513000488,
      "kl": 0.04735574722290039,
      "learning_rate": 2e-07,
      "loss": 0.008206900209188461,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667461395265,
      "reward_std": 0.23631438612937927,
      "rewards/MultiModalAccuracyORM": 0.19166667461395265,
      "step": 585,
      "train_speed(iter/s)": 0.041593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.6,
      "epoch": 0.2383838383838384,
      "grad_norm": 3.5195720195770264,
      "kl": 0.03963155746459961,
      "learning_rate": 2e-07,
      "loss": 0.027892309427261352,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.05,
      "reward": 0.22500000521540642,
      "reward_std": 0.22224706113338472,
      "rewards/MultiModalAccuracyORM": 0.22500000521540642,
      "step": 590,
      "train_speed(iter/s)": 0.041543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.75,
      "epoch": 0.2404040404040404,
      "grad_norm": 12.612972259521484,
      "kl": 0.0610992431640625,
      "learning_rate": 2e-07,
      "loss": -0.022297632694244385,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000089406967,
      "reward_std": 0.33376438319683077,
      "rewards/MultiModalAccuracyORM": 0.4000000089406967,
      "step": 595,
      "train_speed(iter/s)": 0.041563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.75,
      "epoch": 0.24242424242424243,
      "grad_norm": 1.1488845348358154,
      "kl": 0.06821136474609375,
      "learning_rate": 2e-07,
      "loss": 0.03176195621490478,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000074505805,
      "reward_std": 0.3149157464504242,
      "rewards/MultiModalAccuracyORM": 0.22500000074505805,
      "step": 600,
      "train_speed(iter/s)": 0.041549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.5,
      "epoch": 0.24444444444444444,
      "grad_norm": 4.132078170776367,
      "kl": 0.07441596984863282,
      "learning_rate": 2e-07,
      "loss": 0.004773074015974999,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333879709244,
      "reward_std": 0.2323044866323471,
      "rewards/MultiModalAccuracyORM": 0.13333333879709244,
      "step": 605,
      "train_speed(iter/s)": 0.041583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.85,
      "epoch": 0.24646464646464647,
      "grad_norm": 3.0928878784179688,
      "kl": 0.050506591796875,
      "learning_rate": 2e-07,
      "loss": 0.0011304418556392192,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000670552255,
      "reward_std": 0.31520852744579314,
      "rewards/MultiModalAccuracyORM": 0.27500000670552255,
      "step": 610,
      "train_speed(iter/s)": 0.041586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.45,
      "epoch": 0.24848484848484848,
      "grad_norm": 13.133064270019531,
      "kl": 0.05210723876953125,
      "learning_rate": 2e-07,
      "loss": -0.009364684671163559,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833334028720857,
      "reward_std": 0.28003925681114195,
      "rewards/MultiModalAccuracyORM": 0.20833334028720857,
      "step": 615,
      "train_speed(iter/s)": 0.041615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.05,
      "epoch": 0.2505050505050505,
      "grad_norm": 21.168598175048828,
      "kl": 0.06778411865234375,
      "learning_rate": 2e-07,
      "loss": -0.006833799928426742,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000096857548,
      "reward_std": 0.330559054017067,
      "rewards/MultiModalAccuracyORM": 0.3000000096857548,
      "step": 620,
      "train_speed(iter/s)": 0.041639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.35,
      "epoch": 0.25252525252525254,
      "grad_norm": 16.575620651245117,
      "kl": 0.05116090774536133,
      "learning_rate": 2e-07,
      "loss": -0.016651205718517303,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000074505806,
      "reward_std": 0.28859728276729585,
      "rewards/MultiModalAccuracyORM": 0.2250000074505806,
      "step": 625,
      "train_speed(iter/s)": 0.041672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.7,
      "epoch": 0.2545454545454545,
      "grad_norm": 3.503321886062622,
      "kl": 0.0628082275390625,
      "learning_rate": 2e-07,
      "loss": -0.008116110414266586,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.2330589234828949,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 630,
      "train_speed(iter/s)": 0.041685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.0,
      "epoch": 0.25656565656565655,
      "grad_norm": 15.203675270080566,
      "kl": 0.06846466064453124,
      "learning_rate": 2e-07,
      "loss": 0.011408740282058715,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334028720856,
      "reward_std": 0.3008869707584381,
      "rewards/MultiModalAccuracyORM": 0.38333334028720856,
      "step": 635,
      "train_speed(iter/s)": 0.04173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.05,
      "epoch": 0.2585858585858586,
      "grad_norm": 32.77607727050781,
      "kl": 0.12814788818359374,
      "learning_rate": 2e-07,
      "loss": -0.0371063232421875,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000081956387,
      "reward_std": 0.36673698723316195,
      "rewards/MultiModalAccuracyORM": 0.3250000081956387,
      "step": 640,
      "train_speed(iter/s)": 0.041758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.0,
      "epoch": 0.2606060606060606,
      "grad_norm": 15.344500541687012,
      "kl": 0.105792236328125,
      "learning_rate": 2e-07,
      "loss": -0.006553761661052704,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333507180213,
      "reward_std": 0.2597057640552521,
      "rewards/MultiModalAccuracyORM": 0.20833333507180213,
      "step": 645,
      "train_speed(iter/s)": 0.041814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.8,
      "epoch": 0.26262626262626265,
      "grad_norm": 16.03054428100586,
      "kl": 0.04459686279296875,
      "learning_rate": 2e-07,
      "loss": 0.036105594038963316,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000298023223,
      "reward_std": 0.2403598755598068,
      "rewards/MultiModalAccuracyORM": 0.22500000298023223,
      "step": 650,
      "train_speed(iter/s)": 0.041793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.05,
      "epoch": 0.26464646464646463,
      "grad_norm": 17.309656143188477,
      "kl": 0.11004905700683594,
      "learning_rate": 2e-07,
      "loss": 0.017519061267375947,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333395421505,
      "reward_std": 0.3682032287120819,
      "rewards/MultiModalAccuracyORM": 0.2083333395421505,
      "step": 655,
      "train_speed(iter/s)": 0.04181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.3,
      "epoch": 0.26666666666666666,
      "grad_norm": 4.0642170906066895,
      "kl": 0.054970169067382814,
      "learning_rate": 2e-07,
      "loss": -0.008081305027008056,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333879709244,
      "reward_std": 0.23230449259281158,
      "rewards/MultiModalAccuracyORM": 0.28333333879709244,
      "step": 660,
      "train_speed(iter/s)": 0.041838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.25,
      "epoch": 0.2686868686868687,
      "grad_norm": 7.022747993469238,
      "kl": 0.10093574523925782,
      "learning_rate": 2e-07,
      "loss": 0.027714025974273682,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.14166666865348815,
      "reward_std": 0.2531497746706009,
      "rewards/MultiModalAccuracyORM": 0.14166666865348815,
      "step": 665,
      "train_speed(iter/s)": 0.041812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.75,
      "epoch": 0.27070707070707073,
      "grad_norm": 9.984959602355957,
      "kl": 0.023084259033203124,
      "learning_rate": 2e-07,
      "loss": 0.026220232248306274,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.20661829113960267,
      "rewards/MultiModalAccuracyORM": 0.10000000149011612,
      "step": 670,
      "train_speed(iter/s)": 0.041806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.05,
      "epoch": 0.2727272727272727,
      "grad_norm": 7.702730178833008,
      "kl": 0.16024627685546874,
      "learning_rate": 2e-07,
      "loss": -0.049201831221580505,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000670552254,
      "reward_std": 0.20817729830741882,
      "rewards/MultiModalAccuracyORM": 0.32500000670552254,
      "step": 675,
      "train_speed(iter/s)": 0.041821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.9,
      "epoch": 0.27474747474747474,
      "grad_norm": 0.16480083763599396,
      "kl": 0.03549041748046875,
      "learning_rate": 2e-07,
      "loss": 0.006150122731924057,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333432674409,
      "reward_std": 0.2323400765657425,
      "rewards/MultiModalAccuracyORM": 0.20833333432674409,
      "step": 680,
      "train_speed(iter/s)": 0.041846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.8,
      "epoch": 0.2767676767676768,
      "grad_norm": 0.027387158945202827,
      "kl": 0.10235595703125,
      "learning_rate": 2e-07,
      "loss": 0.02902156114578247,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333507180214,
      "reward_std": 0.13583914041519166,
      "rewards/MultiModalAccuracyORM": 0.15833333507180214,
      "step": 685,
      "train_speed(iter/s)": 0.041856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.5,
      "epoch": 0.2787878787878788,
      "grad_norm": 6.602695465087891,
      "kl": 0.0608123779296875,
      "learning_rate": 2e-07,
      "loss": 0.012946502864360809,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667312383653,
      "reward_std": 0.33300994634628295,
      "rewards/MultiModalAccuracyORM": 0.21666667312383653,
      "step": 690,
      "train_speed(iter/s)": 0.04186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.4,
      "epoch": 0.2808080808080808,
      "grad_norm": 3.4819886684417725,
      "kl": 0.12022647857666016,
      "learning_rate": 2e-07,
      "loss": 0.02661624550819397,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000298023224,
      "reward_std": 0.1981794685125351,
      "rewards/MultiModalAccuracyORM": 0.20000000298023224,
      "step": 695,
      "train_speed(iter/s)": 0.041875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.45,
      "epoch": 0.2828282828282828,
      "grad_norm": 9.789923667907715,
      "kl": 0.06219940185546875,
      "learning_rate": 2e-07,
      "loss": -0.0169070765376091,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.31451369225978854,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 700,
      "train_speed(iter/s)": 0.041904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.7,
      "epoch": 0.28484848484848485,
      "grad_norm": 4.8883514404296875,
      "kl": 0.0865386962890625,
      "learning_rate": 2e-07,
      "loss": -0.01697884649038315,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667312383654,
      "reward_std": 0.37380772531032563,
      "rewards/MultiModalAccuracyORM": 0.41666667312383654,
      "step": 705,
      "train_speed(iter/s)": 0.041918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.65,
      "epoch": 0.2868686868686869,
      "grad_norm": 0.24715355038642883,
      "kl": 0.1329193115234375,
      "learning_rate": 2e-07,
      "loss": 0.030154657363891602,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666746139526,
      "reward_std": 0.1888910174369812,
      "rewards/MultiModalAccuracyORM": 0.2916666746139526,
      "step": 710,
      "train_speed(iter/s)": 0.041945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.05,
      "epoch": 0.28888888888888886,
      "grad_norm": 20.6412296295166,
      "kl": 0.0775299072265625,
      "learning_rate": 2e-07,
      "loss": 0.010814273357391357,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666731238365,
      "reward_std": 0.23236408829689026,
      "rewards/MultiModalAccuracyORM": 0.3666666731238365,
      "step": 715,
      "train_speed(iter/s)": 0.041844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.7,
      "epoch": 0.2909090909090909,
      "grad_norm": 19.74690055847168,
      "kl": 0.0287322998046875,
      "learning_rate": 2e-07,
      "loss": 0.011786083877086639,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666753590107,
      "reward_std": 0.3597048044204712,
      "rewards/MultiModalAccuracyORM": 0.3916666753590107,
      "step": 720,
      "train_speed(iter/s)": 0.041856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.95,
      "epoch": 0.29292929292929293,
      "grad_norm": 12.01062297821045,
      "kl": 0.0283416748046875,
      "learning_rate": 2e-07,
      "loss": 0.030677640438079835,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333447575569,
      "reward_std": 0.37494559586048126,
      "rewards/MultiModalAccuracyORM": 0.3083333447575569,
      "step": 725,
      "train_speed(iter/s)": 0.041837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.1,
      "epoch": 0.29494949494949496,
      "grad_norm": 18.26583480834961,
      "kl": 0.048813819885253906,
      "learning_rate": 2e-07,
      "loss": 0.00018847386818379163,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000298023225,
      "reward_std": 0.2855865776538849,
      "rewards/MultiModalAccuracyORM": 0.15000000298023225,
      "step": 730,
      "train_speed(iter/s)": 0.041864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.2,
      "epoch": 0.296969696969697,
      "grad_norm": 23.585920333862305,
      "kl": 0.10856704711914063,
      "learning_rate": 2e-07,
      "loss": -0.010623668134212495,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333402872086,
      "reward_std": 0.2486636757850647,
      "rewards/MultiModalAccuracyORM": 0.2833333402872086,
      "step": 735,
      "train_speed(iter/s)": 0.041867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.85,
      "epoch": 0.298989898989899,
      "grad_norm": 13.779229164123535,
      "kl": 0.16164474487304686,
      "learning_rate": 2e-07,
      "loss": 0.09003554582595825,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000096857548,
      "reward_std": 0.3144781023263931,
      "rewards/MultiModalAccuracyORM": 0.3500000096857548,
      "step": 740,
      "train_speed(iter/s)": 0.041866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.1,
      "epoch": 0.301010101010101,
      "grad_norm": 5.112743377685547,
      "kl": 0.06104888916015625,
      "learning_rate": 2e-07,
      "loss": 0.006612183898687363,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333730697633,
      "reward_std": 0.24261614382267,
      "rewards/MultiModalAccuracyORM": 0.13333333730697633,
      "step": 745,
      "train_speed(iter/s)": 0.041874
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 3.3870651721954346,
      "learning_rate": 2e-07,
      "loss": 0.007025846093893051,
      "memory(GiB)": 104.49,
      "step": 750,
      "train_speed(iter/s)": 0.041879
    },
    {
      "epoch": 0.30303030303030304,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 26.371667375564574,
      "eval_kl": 0.08423469543457031,
      "eval_loss": 0.020288411527872086,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.3050000049173832,
      "eval_reward_std": 0.28924588978290555,
      "eval_rewards/MultiModalAccuracyORM": 0.3050000049173832,
      "eval_runtime": 257.2173,
      "eval_samples_per_second": 0.194,
      "eval_steps_per_second": 0.019,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.575,
      "epoch": 0.30505050505050507,
      "grad_norm": 3.0410096645355225,
      "kl": 0.09359779357910156,
      "learning_rate": 2e-07,
      "loss": 0.01778276413679123,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20416667126119137,
      "reward_std": 0.21572377979755403,
      "rewards/MultiModalAccuracyORM": 0.20416667126119137,
      "step": 755,
      "train_speed(iter/s)": 0.041122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.25,
      "epoch": 0.30707070707070705,
      "grad_norm": 13.25398063659668,
      "kl": 0.0601959228515625,
      "learning_rate": 2e-07,
      "loss": -0.023943953216075897,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.11666666939854622,
      "reward_std": 0.24010565578937532,
      "rewards/MultiModalAccuracyORM": 0.11666666939854622,
      "step": 760,
      "train_speed(iter/s)": 0.041142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.05,
      "epoch": 0.3090909090909091,
      "grad_norm": 0.06504862755537033,
      "kl": 0.0304901123046875,
      "learning_rate": 2e-07,
      "loss": -0.007498346269130707,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333387970924,
      "reward_std": 0.3021644026041031,
      "rewards/MultiModalAccuracyORM": 0.3833333387970924,
      "step": 765,
      "train_speed(iter/s)": 0.041185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.95,
      "epoch": 0.3111111111111111,
      "grad_norm": 18.189159393310547,
      "kl": 0.0461090087890625,
      "learning_rate": 2e-07,
      "loss": -0.0027750393375754355,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.29709570705890653,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 770,
      "train_speed(iter/s)": 0.041169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.85,
      "epoch": 0.31313131313131315,
      "grad_norm": 0.3038291931152344,
      "kl": 0.03930206298828125,
      "learning_rate": 2e-07,
      "loss": -0.0053185861557722095,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666731238365,
      "reward_std": 0.2386302560567856,
      "rewards/MultiModalAccuracyORM": 0.1666666731238365,
      "step": 775,
      "train_speed(iter/s)": 0.041176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.35,
      "epoch": 0.3151515151515151,
      "grad_norm": 10.563432693481445,
      "kl": 0.02420806884765625,
      "learning_rate": 2e-07,
      "loss": -0.005909685418009758,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333432674408,
      "reward_std": 0.2135300010442734,
      "rewards/MultiModalAccuracyORM": 0.10833333432674408,
      "step": 780,
      "train_speed(iter/s)": 0.041208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.1,
      "epoch": 0.31717171717171716,
      "grad_norm": 5.078320503234863,
      "kl": 0.026453018188476562,
      "learning_rate": 2e-07,
      "loss": 0.0009352466091513634,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666738688946,
      "reward_std": 0.256683474779129,
      "rewards/MultiModalAccuracyORM": 0.2666666738688946,
      "step": 785,
      "train_speed(iter/s)": 0.041229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.35,
      "epoch": 0.3191919191919192,
      "grad_norm": 10.143798828125,
      "kl": 0.03321533203125,
      "learning_rate": 2e-07,
      "loss": 0.012424397468566894,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000037252903,
      "reward_std": 0.26597192585468293,
      "rewards/MultiModalAccuracyORM": 0.2750000037252903,
      "step": 790,
      "train_speed(iter/s)": 0.041249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.15,
      "epoch": 0.3212121212121212,
      "grad_norm": 0.5449197888374329,
      "kl": 0.019189453125,
      "learning_rate": 2e-07,
      "loss": 0.030487871170043944,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333447575569,
      "reward_std": 0.39207376539707184,
      "rewards/MultiModalAccuracyORM": 0.2583333447575569,
      "step": 795,
      "train_speed(iter/s)": 0.041183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.25,
      "epoch": 0.32323232323232326,
      "grad_norm": 1.004371166229248,
      "kl": 0.037581253051757815,
      "learning_rate": 2e-07,
      "loss": 0.0017656445503234862,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666693985462,
      "reward_std": 0.25270916521549225,
      "rewards/MultiModalAccuracyORM": 0.2666666693985462,
      "step": 800,
      "train_speed(iter/s)": 0.041199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.95,
      "epoch": 0.32525252525252524,
      "grad_norm": 19.628896713256836,
      "kl": 0.053558349609375,
      "learning_rate": 2e-07,
      "loss": -0.021615955233573913,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666693985462,
      "reward_std": 0.32094223201274874,
      "rewards/MultiModalAccuracyORM": 0.1666666693985462,
      "step": 805,
      "train_speed(iter/s)": 0.041213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.7,
      "epoch": 0.32727272727272727,
      "grad_norm": 6.42383337020874,
      "kl": 0.18563766479492189,
      "learning_rate": 2e-07,
      "loss": 0.033368897438049314,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.2744703501462936,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 810,
      "train_speed(iter/s)": 0.041234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.8,
      "epoch": 0.3292929292929293,
      "grad_norm": 3.2321925163269043,
      "kl": 0.08846683502197265,
      "learning_rate": 2e-07,
      "loss": 0.003480428457260132,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000298023225,
      "reward_std": 0.2953897833824158,
      "rewards/MultiModalAccuracyORM": 0.15000000298023225,
      "step": 815,
      "train_speed(iter/s)": 0.041242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.85,
      "epoch": 0.33131313131313134,
      "grad_norm": 5.854945659637451,
      "kl": 0.011492156982421875,
      "learning_rate": 2e-07,
      "loss": -0.008568185567855834,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.3172461599111557,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 820,
      "train_speed(iter/s)": 0.041263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.25,
      "epoch": 0.3333333333333333,
      "grad_norm": 17.020723342895508,
      "kl": 0.029691314697265624,
      "learning_rate": 2e-07,
      "loss": -0.010567378997802735,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.34933354556560514,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 825,
      "train_speed(iter/s)": 0.041286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.2,
      "epoch": 0.33535353535353535,
      "grad_norm": 12.575139999389648,
      "kl": 0.0603668212890625,
      "learning_rate": 2e-07,
      "loss": -0.0004529397003352642,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333432674408,
      "reward_std": 0.30291883945465087,
      "rewards/MultiModalAccuracyORM": 0.3833333432674408,
      "step": 830,
      "train_speed(iter/s)": 0.041299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.7,
      "epoch": 0.3373737373737374,
      "grad_norm": 2.0305564403533936,
      "kl": 0.08530197143554688,
      "learning_rate": 2e-07,
      "loss": -0.0174559086561203,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333380520344,
      "reward_std": 0.36567819118499756,
      "rewards/MultiModalAccuracyORM": 0.3083333380520344,
      "step": 835,
      "train_speed(iter/s)": 0.041331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.2,
      "epoch": 0.3393939393939394,
      "grad_norm": 6.523157119750977,
      "kl": 0.098590087890625,
      "learning_rate": 2e-07,
      "loss": -0.014323845505714417,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.31820976436138154,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 840,
      "train_speed(iter/s)": 0.04132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.2,
      "epoch": 0.3414141414141414,
      "grad_norm": 4.560072422027588,
      "kl": 0.010162353515625,
      "learning_rate": 2e-07,
      "loss": 0.02465280294418335,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000447034835,
      "reward_std": 0.25512446761131286,
      "rewards/MultiModalAccuracyORM": 0.22500000447034835,
      "step": 845,
      "train_speed(iter/s)": 0.041291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.65,
      "epoch": 0.3434343434343434,
      "grad_norm": 0.2115914523601532,
      "kl": 0.1222564697265625,
      "learning_rate": 2e-07,
      "loss": 0.01849503219127655,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1416666679084301,
      "reward_std": 0.18255070447921753,
      "rewards/MultiModalAccuracyORM": 0.1416666679084301,
      "step": 850,
      "train_speed(iter/s)": 0.041263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.6,
      "epoch": 0.34545454545454546,
      "grad_norm": 8.007162094116211,
      "kl": 0.06471099853515624,
      "learning_rate": 2e-07,
      "loss": -0.027201026678085327,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667386889455,
      "reward_std": 0.27853985130786896,
      "rewards/MultiModalAccuracyORM": 0.41666667386889455,
      "step": 855,
      "train_speed(iter/s)": 0.041287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.55,
      "epoch": 0.3474747474747475,
      "grad_norm": 14.470208168029785,
      "kl": 0.07525177001953125,
      "learning_rate": 2e-07,
      "loss": -0.01188465803861618,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334028720857,
      "reward_std": 0.3921093553304672,
      "rewards/MultiModalAccuracyORM": 0.33333334028720857,
      "step": 860,
      "train_speed(iter/s)": 0.041297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.45,
      "epoch": 0.34949494949494947,
      "grad_norm": 11.233606338500977,
      "kl": 0.10040740966796875,
      "learning_rate": 2e-07,
      "loss": 0.02309779226779938,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000037252903,
      "reward_std": 0.23634997606277466,
      "rewards/MultiModalAccuracyORM": 0.3000000037252903,
      "step": 865,
      "train_speed(iter/s)": 0.041313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.9,
      "epoch": 0.3515151515151515,
      "grad_norm": 22.588499069213867,
      "kl": 0.11612701416015625,
      "learning_rate": 2e-07,
      "loss": 0.020076577365398408,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000298023225,
      "reward_std": 0.26677650213241577,
      "rewards/MultiModalAccuracyORM": 0.15000000298023225,
      "step": 870,
      "train_speed(iter/s)": 0.041279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.75,
      "epoch": 0.35353535353535354,
      "grad_norm": 8.226666450500488,
      "kl": 0.05343475341796875,
      "learning_rate": 2e-07,
      "loss": -0.014575448632240296,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333395421505,
      "reward_std": 0.37199449837207793,
      "rewards/MultiModalAccuracyORM": 0.3333333395421505,
      "step": 875,
      "train_speed(iter/s)": 0.041283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.1,
      "epoch": 0.35555555555555557,
      "grad_norm": 0.5393237471580505,
      "kl": 0.0892120361328125,
      "learning_rate": 2e-07,
      "loss": 0.006313225626945496,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333365619183,
      "reward_std": 0.20661829113960267,
      "rewards/MultiModalAccuracyORM": 0.2833333365619183,
      "step": 880,
      "train_speed(iter/s)": 0.041271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.1,
      "epoch": 0.3575757575757576,
      "grad_norm": 0.05410289764404297,
      "kl": 0.015875244140625,
      "learning_rate": 2e-07,
      "loss": 0.0006564079783856868,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333432674407,
      "reward_std": 0.14888326525688172,
      "rewards/MultiModalAccuracyORM": 0.28333333432674407,
      "step": 885,
      "train_speed(iter/s)": 0.04124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.8,
      "epoch": 0.3595959595959596,
      "grad_norm": 16.54722785949707,
      "kl": 0.0899993896484375,
      "learning_rate": 2e-07,
      "loss": 0.010663460195064544,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333410322666,
      "reward_std": 0.2636228919029236,
      "rewards/MultiModalAccuracyORM": 0.3083333410322666,
      "step": 890,
      "train_speed(iter/s)": 0.041246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.9,
      "epoch": 0.3616161616161616,
      "grad_norm": 10.844444274902344,
      "kl": 0.194525146484375,
      "learning_rate": 2e-07,
      "loss": -0.04198589324951172,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4833333432674408,
      "reward_std": 0.36594696044921876,
      "rewards/MultiModalAccuracyORM": 0.4833333432674408,
      "step": 895,
      "train_speed(iter/s)": 0.04126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.25,
      "epoch": 0.36363636363636365,
      "grad_norm": 5.428062915802002,
      "kl": 0.0639495849609375,
      "learning_rate": 2e-07,
      "loss": -0.029673090577125548,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667237877846,
      "reward_std": 0.2916341096162796,
      "rewards/MultiModalAccuracyORM": 0.21666667237877846,
      "step": 900,
      "train_speed(iter/s)": 0.041259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.9,
      "epoch": 0.3656565656565657,
      "grad_norm": 0.12221446633338928,
      "kl": 0.07857627868652343,
      "learning_rate": 2e-07,
      "loss": -0.016133570671081544,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000447034837,
      "reward_std": 0.2135299950838089,
      "rewards/MultiModalAccuracyORM": 0.37500000447034837,
      "step": 905,
      "train_speed(iter/s)": 0.041282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 4.65,
      "epoch": 0.36767676767676766,
      "grad_norm": 28.893342971801758,
      "kl": 0.09071540832519531,
      "learning_rate": 2e-07,
      "loss": 0.006183768063783646,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333358168602,
      "reward_std": 0.23309451341629028,
      "rewards/MultiModalAccuracyORM": 0.3583333358168602,
      "step": 910,
      "train_speed(iter/s)": 0.041302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.4,
      "epoch": 0.3696969696969697,
      "grad_norm": 0.04850845783948898,
      "kl": 0.03702239990234375,
      "learning_rate": 2e-07,
      "loss": 0.031198829412460327,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333380520344,
      "reward_std": 0.2325587123632431,
      "rewards/MultiModalAccuracyORM": 0.3083333380520344,
      "step": 915,
      "train_speed(iter/s)": 0.041316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.5,
      "epoch": 0.3717171717171717,
      "grad_norm": 6.006438732147217,
      "kl": 0.09772415161132812,
      "learning_rate": 2e-07,
      "loss": 0.02726798951625824,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333417773247,
      "reward_std": 0.3043610692024231,
      "rewards/MultiModalAccuracyORM": 0.3083333417773247,
      "step": 920,
      "train_speed(iter/s)": 0.041277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.3,
      "epoch": 0.37373737373737376,
      "grad_norm": 1.342499852180481,
      "kl": 0.011273193359375,
      "learning_rate": 2e-07,
      "loss": 0.00134199857711792,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000074505807,
      "reward_std": 0.13182924091815948,
      "rewards/MultiModalAccuracyORM": 0.15000000074505807,
      "step": 925,
      "train_speed(iter/s)": 0.041269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.45,
      "epoch": 0.37575757575757573,
      "grad_norm": 3.2022011280059814,
      "kl": 0.165765380859375,
      "learning_rate": 2e-07,
      "loss": -0.004855489730834961,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333879709245,
      "reward_std": 0.33156771659851075,
      "rewards/MultiModalAccuracyORM": 0.35833333879709245,
      "step": 930,
      "train_speed(iter/s)": 0.041287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.05,
      "epoch": 0.37777777777777777,
      "grad_norm": 0.07847103476524353,
      "kl": 0.05077667236328125,
      "learning_rate": 2e-07,
      "loss": -0.023166632652282713,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666716337204,
      "reward_std": 0.32526595890522003,
      "rewards/MultiModalAccuracyORM": 0.4166666716337204,
      "step": 935,
      "train_speed(iter/s)": 0.041275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.15,
      "epoch": 0.3797979797979798,
      "grad_norm": 18.610437393188477,
      "kl": 0.03169517517089844,
      "learning_rate": 2e-07,
      "loss": 0.024595724046230318,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.18333334028720855,
      "reward_std": 0.3267322063446045,
      "rewards/MultiModalAccuracyORM": 0.18333334028720855,
      "step": 940,
      "train_speed(iter/s)": 0.041277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.45,
      "epoch": 0.38181818181818183,
      "grad_norm": 5.941343784332275,
      "kl": 0.0661346435546875,
      "learning_rate": 2e-07,
      "loss": 0.024455997347831725,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333387970924,
      "reward_std": 0.21973656117916107,
      "rewards/MultiModalAccuracyORM": 0.2583333387970924,
      "step": 945,
      "train_speed(iter/s)": 0.04129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.05,
      "epoch": 0.3838383838383838,
      "grad_norm": 24.896520614624023,
      "kl": 0.150213623046875,
      "learning_rate": 2e-07,
      "loss": 0.017214223742485046,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667312383654,
      "reward_std": 0.33557761609554293,
      "rewards/MultiModalAccuracyORM": 0.41666667312383654,
      "step": 950,
      "train_speed(iter/s)": 0.041288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.5,
      "epoch": 0.38585858585858585,
      "grad_norm": 8.904081344604492,
      "kl": 0.12316970825195313,
      "learning_rate": 2e-07,
      "loss": -0.0002661585807800293,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000022351742,
      "reward_std": 0.21999078691005708,
      "rewards/MultiModalAccuracyORM": 0.3000000022351742,
      "step": 955,
      "train_speed(iter/s)": 0.041304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.05,
      "epoch": 0.3878787878787879,
      "grad_norm": 0.30000391602516174,
      "kl": 0.193408203125,
      "learning_rate": 2e-07,
      "loss": -0.016391244530677796,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5916666716337204,
      "reward_std": 0.15219832956790924,
      "rewards/MultiModalAccuracyORM": 0.5916666716337204,
      "step": 960,
      "train_speed(iter/s)": 0.041312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.6,
      "epoch": 0.3898989898989899,
      "grad_norm": 1.9883811473846436,
      "kl": 0.046465301513671876,
      "learning_rate": 2e-07,
      "loss": -0.0011612892150878907,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.23930107951164245,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 965,
      "train_speed(iter/s)": 0.041313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.4,
      "epoch": 0.39191919191919194,
      "grad_norm": 17.314956665039062,
      "kl": 0.10909576416015625,
      "learning_rate": 2e-07,
      "loss": 0.003603992611169815,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.26666666865348815,
      "reward_std": 0.26976318955421447,
      "rewards/MultiModalAccuracyORM": 0.26666666865348815,
      "step": 970,
      "train_speed(iter/s)": 0.04131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.45,
      "epoch": 0.3939393939393939,
      "grad_norm": 2.700242042541504,
      "kl": 0.0446197509765625,
      "learning_rate": 2e-07,
      "loss": -0.024584516882896423,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.09166666865348816,
      "reward_std": 0.23854664266109465,
      "rewards/MultiModalAccuracyORM": 0.09166666865348816,
      "step": 975,
      "train_speed(iter/s)": 0.041305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.85,
      "epoch": 0.39595959595959596,
      "grad_norm": 1.759245753288269,
      "kl": 0.0932861328125,
      "learning_rate": 2e-07,
      "loss": 0.03299914002418518,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334028720856,
      "reward_std": 0.22785155177116395,
      "rewards/MultiModalAccuracyORM": 0.23333334028720856,
      "step": 980,
      "train_speed(iter/s)": 0.041315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.7,
      "epoch": 0.397979797979798,
      "grad_norm": 12.485607147216797,
      "kl": 0.061135292053222656,
      "learning_rate": 2e-07,
      "loss": 0.022333118319511413,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667088866236,
      "reward_std": 0.27903059422969817,
      "rewards/MultiModalAccuracyORM": 0.26666667088866236,
      "step": 985,
      "train_speed(iter/s)": 0.041318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.65,
      "epoch": 0.4,
      "grad_norm": 4.170945644378662,
      "kl": 0.0902923583984375,
      "learning_rate": 2e-07,
      "loss": -0.00014310678234323858,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.2511145681142807,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 990,
      "train_speed(iter/s)": 0.041309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.25,
      "epoch": 0.402020202020202,
      "grad_norm": 2.5125696659088135,
      "kl": 0.12824859619140624,
      "learning_rate": 2e-07,
      "loss": 0.0361581027507782,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5250000052154065,
      "reward_std": 0.2526735752820969,
      "rewards/MultiModalAccuracyORM": 0.5250000052154065,
      "step": 995,
      "train_speed(iter/s)": 0.041331
    },
    {
      "epoch": 0.40404040404040403,
      "grad_norm": 24.84500503540039,
      "learning_rate": 2e-07,
      "loss": -0.03532302379608154,
      "memory(GiB)": 104.49,
      "step": 1000,
      "train_speed(iter/s)": 0.041234
    },
    {
      "epoch": 0.40404040404040403,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 40.71333456993103,
      "eval_kl": 0.09849456787109374,
      "eval_loss": 0.019675862044095993,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.36166667461395263,
      "eval_reward_std": 0.2775319296121597,
      "eval_rewards/MultiModalAccuracyORM": 0.36166667461395263,
      "eval_runtime": 294.4392,
      "eval_samples_per_second": 0.17,
      "eval_steps_per_second": 0.017,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.525,
      "epoch": 0.40606060606060607,
      "grad_norm": 2.5043818950653076,
      "kl": 0.041501617431640624,
      "learning_rate": 2e-07,
      "loss": -0.008308599889278411,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.21963488459587097,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 1005,
      "train_speed(iter/s)": 0.040624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.05,
      "epoch": 0.4080808080808081,
      "grad_norm": 19.067171096801758,
      "kl": 0.07535552978515625,
      "learning_rate": 2e-07,
      "loss": 0.017892301082611084,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334028720857,
      "reward_std": 0.22005038857460021,
      "rewards/MultiModalAccuracyORM": 0.33333334028720857,
      "step": 1010,
      "train_speed(iter/s)": 0.040645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.6,
      "epoch": 0.4101010101010101,
      "grad_norm": 2.5989065170288086,
      "kl": 0.0229217529296875,
      "learning_rate": 2e-07,
      "loss": 0.040188026428222653,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.25591449439525604,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 1015,
      "train_speed(iter/s)": 0.040633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.65,
      "epoch": 0.4121212121212121,
      "grad_norm": 11.748002052307129,
      "kl": 0.06688776016235351,
      "learning_rate": 2e-07,
      "loss": -0.0008021335117518902,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.11666666939854622,
      "reward_std": 0.17150862216949464,
      "rewards/MultiModalAccuracyORM": 0.11666666939854622,
      "step": 1020,
      "train_speed(iter/s)": 0.040631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.15,
      "epoch": 0.41414141414141414,
      "grad_norm": 0.12045960873365402,
      "kl": 0.03296966552734375,
      "learning_rate": 2e-07,
      "loss": -0.010370378196239472,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.11666667088866234,
      "reward_std": 0.17081378698348998,
      "rewards/MultiModalAccuracyORM": 0.11666667088866234,
      "step": 1025,
      "train_speed(iter/s)": 0.040649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.85,
      "epoch": 0.4161616161616162,
      "grad_norm": 1.6403871774673462,
      "kl": 0.06666259765625,
      "learning_rate": 2e-07,
      "loss": 0.00585133358836174,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000074505806,
      "reward_std": 0.17705594301223754,
      "rewards/MultiModalAccuracyORM": 0.17500000074505806,
      "step": 1030,
      "train_speed(iter/s)": 0.040624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.3,
      "epoch": 0.41818181818181815,
      "grad_norm": 0.014441369101405144,
      "kl": 0.07417640686035157,
      "learning_rate": 2e-07,
      "loss": -0.010604190826416015,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000298023223,
      "reward_std": 0.2003761351108551,
      "rewards/MultiModalAccuracyORM": 0.22500000298023223,
      "step": 1035,
      "train_speed(iter/s)": 0.040636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.6,
      "epoch": 0.4202020202020202,
      "grad_norm": 6.607668399810791,
      "kl": 0.1425227165222168,
      "learning_rate": 2e-07,
      "loss": 0.02794753313064575,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333395421505,
      "reward_std": 0.2567190647125244,
      "rewards/MultiModalAccuracyORM": 0.3583333395421505,
      "step": 1040,
      "train_speed(iter/s)": 0.040638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.6,
      "epoch": 0.4222222222222222,
      "grad_norm": 0.8122760057449341,
      "kl": 0.1528533935546875,
      "learning_rate": 2e-07,
      "loss": 0.019382116198539735,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000670552254,
      "reward_std": 0.2034369796514511,
      "rewards/MultiModalAccuracyORM": 0.17500000670552254,
      "step": 1045,
      "train_speed(iter/s)": 0.040661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.85,
      "epoch": 0.42424242424242425,
      "grad_norm": 0.18659576773643494,
      "kl": 0.010857391357421874,
      "learning_rate": 2e-07,
      "loss": 0.015965181589126586,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.1660114347934723,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 1050,
      "train_speed(iter/s)": 0.040661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.25,
      "epoch": 0.4262626262626263,
      "grad_norm": 0.4390380382537842,
      "kl": 0.07591552734375,
      "learning_rate": 2e-07,
      "loss": 0.011004485189914703,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4250000111758709,
      "reward_std": 0.24862808585166932,
      "rewards/MultiModalAccuracyORM": 0.4250000111758709,
      "step": 1055,
      "train_speed(iter/s)": 0.040671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.95,
      "epoch": 0.42828282828282827,
      "grad_norm": 0.3618135452270508,
      "kl": 0.109490966796875,
      "learning_rate": 2e-07,
      "loss": 0.011407237499952316,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333387970924,
      "reward_std": 0.14589657187461852,
      "rewards/MultiModalAccuracyORM": 0.3333333387970924,
      "step": 1060,
      "train_speed(iter/s)": 0.04069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.1,
      "epoch": 0.4303030303030303,
      "grad_norm": 13.074536323547363,
      "kl": 0.18959503173828124,
      "learning_rate": 2e-07,
      "loss": 0.04986717700958252,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000029802322,
      "reward_std": 0.14589657187461852,
      "rewards/MultiModalAccuracyORM": 0.3000000029802322,
      "step": 1065,
      "train_speed(iter/s)": 0.040694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.9,
      "epoch": 0.43232323232323233,
      "grad_norm": 6.16197395324707,
      "kl": 0.15793075561523437,
      "learning_rate": 2e-07,
      "loss": 0.06019207835197449,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334177732467,
      "reward_std": 0.2669951319694519,
      "rewards/MultiModalAccuracyORM": 0.28333334177732467,
      "step": 1070,
      "train_speed(iter/s)": 0.040701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05,
      "epoch": 0.43434343434343436,
      "grad_norm": 25.265649795532227,
      "kl": 0.08460769653320313,
      "learning_rate": 2e-07,
      "loss": -0.04109536409378052,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3750000037252903,
      "reward_std": 0.2325587123632431,
      "rewards/MultiModalAccuracyORM": 0.3750000037252903,
      "step": 1075,
      "train_speed(iter/s)": 0.040703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.0,
      "epoch": 0.43636363636363634,
      "grad_norm": 2.5213825702667236,
      "kl": 0.089501953125,
      "learning_rate": 2e-07,
      "loss": 0.011518492549657821,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333387970924,
      "reward_std": 0.35792474150657655,
      "rewards/MultiModalAccuracyORM": 0.3333333387970924,
      "step": 1080,
      "train_speed(iter/s)": 0.040705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.85,
      "epoch": 0.4383838383838384,
      "grad_norm": 2.2053442001342773,
      "kl": 0.014685440063476562,
      "learning_rate": 2e-07,
      "loss": -0.03693766593933105,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666701436043,
      "reward_std": 0.2370448112487793,
      "rewards/MultiModalAccuracyORM": 0.2666666701436043,
      "step": 1085,
      "train_speed(iter/s)": 0.040693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.2,
      "epoch": 0.4404040404040404,
      "grad_norm": 12.156472206115723,
      "kl": 0.17877197265625,
      "learning_rate": 2e-07,
      "loss": 0.032665693759918214,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666746139526,
      "reward_std": 0.27148365676403047,
      "rewards/MultiModalAccuracyORM": 0.3416666746139526,
      "step": 1090,
      "train_speed(iter/s)": 0.040713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.85,
      "epoch": 0.44242424242424244,
      "grad_norm": 1.4023343324661255,
      "kl": 0.098193359375,
      "learning_rate": 2e-07,
      "loss": -0.007838453352451324,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000022351742,
      "reward_std": 0.172567418217659,
      "rewards/MultiModalAccuracyORM": 0.4000000022351742,
      "step": 1095,
      "train_speed(iter/s)": 0.040737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.6,
      "epoch": 0.4444444444444444,
      "grad_norm": 10.351971626281738,
      "kl": 0.02147979736328125,
      "learning_rate": 2e-07,
      "loss": 0.03331095576286316,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666775941849,
      "reward_std": 0.3504018098115921,
      "rewards/MultiModalAccuracyORM": 0.3166666775941849,
      "step": 1100,
      "train_speed(iter/s)": 0.04073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.95,
      "epoch": 0.44646464646464645,
      "grad_norm": 13.833907127380371,
      "kl": 0.019232177734375,
      "learning_rate": 2e-07,
      "loss": -0.005460131168365479,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000089406967,
      "reward_std": 0.2667409062385559,
      "rewards/MultiModalAccuracyORM": 0.3250000089406967,
      "step": 1105,
      "train_speed(iter/s)": 0.040741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.65,
      "epoch": 0.4484848484848485,
      "grad_norm": 2.0316038131713867,
      "kl": 0.018201828002929688,
      "learning_rate": 2e-07,
      "loss": -0.0024514278396964074,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333879709245,
      "reward_std": 0.2793444275856018,
      "rewards/MultiModalAccuracyORM": 0.35833333879709245,
      "step": 1110,
      "train_speed(iter/s)": 0.04076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.0,
      "epoch": 0.4505050505050505,
      "grad_norm": 15.886459350585938,
      "kl": 0.21325912475585937,
      "learning_rate": 2e-07,
      "loss": 0.0038191914558410645,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166666865348815,
      "reward_std": 0.2245364874601364,
      "rewards/MultiModalAccuracyORM": 0.24166666865348815,
      "step": 1115,
      "train_speed(iter/s)": 0.040791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.4,
      "epoch": 0.45252525252525255,
      "grad_norm": 0.03295298293232918,
      "kl": 0.1110443115234375,
      "learning_rate": 2e-07,
      "loss": 0.013870391249656677,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667088866234,
      "reward_std": 0.27402731478214265,
      "rewards/MultiModalAccuracyORM": 0.21666667088866234,
      "step": 1120,
      "train_speed(iter/s)": 0.040796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.9,
      "epoch": 0.45454545454545453,
      "grad_norm": 2.8173696994781494,
      "kl": 0.0269622802734375,
      "learning_rate": 2e-07,
      "loss": 0.03692147135734558,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333387970924,
      "reward_std": 0.2159452974796295,
      "rewards/MultiModalAccuracyORM": 0.3833333387970924,
      "step": 1125,
      "train_speed(iter/s)": 0.04082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.45,
      "epoch": 0.45656565656565656,
      "grad_norm": 0.10465247184038162,
      "kl": 0.04431991577148438,
      "learning_rate": 2e-07,
      "loss": 0.003530232235789299,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666701436043,
      "reward_std": 0.2323044866323471,
      "rewards/MultiModalAccuracyORM": 0.3166666701436043,
      "step": 1130,
      "train_speed(iter/s)": 0.040817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.6,
      "epoch": 0.4585858585858586,
      "grad_norm": 0.32010194659233093,
      "kl": 0.094537353515625,
      "learning_rate": 2e-07,
      "loss": 0.012909208238124848,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.0916666716337204,
      "reward_std": 0.1293427586555481,
      "rewards/MultiModalAccuracyORM": 0.0916666716337204,
      "step": 1135,
      "train_speed(iter/s)": 0.040832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.8,
      "epoch": 0.46060606060606063,
      "grad_norm": 15.148902893066406,
      "kl": 0.07255020141601562,
      "learning_rate": 2e-07,
      "loss": 0.016760605573654174,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000149011612,
      "reward_std": 0.2260383188724518,
      "rewards/MultiModalAccuracyORM": 0.20000000149011612,
      "step": 1140,
      "train_speed(iter/s)": 0.040831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 0.4626262626262626,
      "grad_norm": 4.259115219116211,
      "kl": 0.012025833129882812,
      "learning_rate": 2e-07,
      "loss": -0.004991362616419792,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000298023223,
      "reward_std": 0.2003761351108551,
      "rewards/MultiModalAccuracyORM": 0.12500000298023223,
      "step": 1145,
      "train_speed(iter/s)": 0.040832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.7,
      "epoch": 0.46464646464646464,
      "grad_norm": 4.517999649047852,
      "kl": 0.0364471435546875,
      "learning_rate": 2e-07,
      "loss": 0.0014625540003180503,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000149011614,
      "reward_std": 0.18561154305934907,
      "rewards/MultiModalAccuracyORM": 0.37500000149011614,
      "step": 1150,
      "train_speed(iter/s)": 0.040853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.1,
      "epoch": 0.4666666666666667,
      "grad_norm": 9.037857055664062,
      "kl": 0.066754150390625,
      "learning_rate": 2e-07,
      "loss": 0.023162148892879486,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000029802322,
      "reward_std": 0.14589657187461852,
      "rewards/MultiModalAccuracyORM": 0.3000000029802322,
      "step": 1155,
      "train_speed(iter/s)": 0.040895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.7,
      "epoch": 0.4686868686868687,
      "grad_norm": 0.35684671998023987,
      "kl": 0.1403411865234375,
      "learning_rate": 2e-07,
      "loss": 0.011607617139816284,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.47500001043081286,
      "reward_std": 0.19340355396270753,
      "rewards/MultiModalAccuracyORM": 0.47500001043081286,
      "step": 1160,
      "train_speed(iter/s)": 0.040919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.4,
      "epoch": 0.4707070707070707,
      "grad_norm": 0.18109376728534698,
      "kl": 0.0370758056640625,
      "learning_rate": 2e-07,
      "loss": -0.0030417680740356446,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.1848811239004135,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 1165,
      "train_speed(iter/s)": 0.040938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.8,
      "epoch": 0.4727272727272727,
      "grad_norm": 17.05179786682129,
      "kl": 0.027799224853515624,
      "learning_rate": 2e-07,
      "loss": -0.01608174741268158,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333656191824,
      "reward_std": 0.25566026866436004,
      "rewards/MultiModalAccuracyORM": 0.35833333656191824,
      "step": 1170,
      "train_speed(iter/s)": 0.040961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.55,
      "epoch": 0.47474747474747475,
      "grad_norm": 2.053295850753784,
      "kl": 0.0653228759765625,
      "learning_rate": 2e-07,
      "loss": 0.0025410931557416916,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000149011613,
      "reward_std": 0.18780820965766906,
      "rewards/MultiModalAccuracyORM": 0.30000000149011613,
      "step": 1175,
      "train_speed(iter/s)": 0.040966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 3.65,
      "epoch": 0.4767676767676768,
      "grad_norm": 12.327520370483398,
      "kl": 0.1503997802734375,
      "learning_rate": 2e-07,
      "loss": 0.00606456995010376,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.47500000298023226,
      "reward_std": 0.16696292161941528,
      "rewards/MultiModalAccuracyORM": 0.47500000298023226,
      "step": 1180,
      "train_speed(iter/s)": 0.040998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.1,
      "epoch": 0.47878787878787876,
      "grad_norm": 0.1990954726934433,
      "kl": 0.26718597412109374,
      "learning_rate": 2e-07,
      "loss": 0.011653450131416321,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.38333333656191826,
      "reward_std": 0.27402731478214265,
      "rewards/MultiModalAccuracyORM": 0.38333333656191826,
      "step": 1185,
      "train_speed(iter/s)": 0.041009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.5,
      "epoch": 0.4808080808080808,
      "grad_norm": 5.806619644165039,
      "kl": 0.059732818603515626,
      "learning_rate": 2e-07,
      "loss": -0.013705405592918395,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.09166667088866234,
      "reward_std": 0.12558708488941192,
      "rewards/MultiModalAccuracyORM": 0.09166667088866234,
      "step": 1190,
      "train_speed(iter/s)": 0.041032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.2,
      "epoch": 0.48282828282828283,
      "grad_norm": 12.781750679016113,
      "kl": 0.04134521484375,
      "learning_rate": 2e-07,
      "loss": -0.008668276667594909,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666693985462,
      "reward_std": 0.2597057580947876,
      "rewards/MultiModalAccuracyORM": 0.4416666693985462,
      "step": 1195,
      "train_speed(iter/s)": 0.041043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.45,
      "epoch": 0.48484848484848486,
      "grad_norm": 3.4121592044830322,
      "kl": 0.073028564453125,
      "learning_rate": 2e-07,
      "loss": -0.0033960781991481783,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333447575569,
      "reward_std": 0.38452682793140414,
      "rewards/MultiModalAccuracyORM": 0.2833333447575569,
      "step": 1200,
      "train_speed(iter/s)": 0.041068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.65,
      "epoch": 0.4868686868686869,
      "grad_norm": 2.179175615310669,
      "kl": 0.1186309814453125,
      "learning_rate": 2e-07,
      "loss": 0.0020799320191144943,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5500000081956387,
      "reward_std": 0.383985635638237,
      "rewards/MultiModalAccuracyORM": 0.5500000081956387,
      "step": 1205,
      "train_speed(iter/s)": 0.041076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.0,
      "epoch": 0.4888888888888889,
      "grad_norm": 16.699316024780273,
      "kl": 0.19964828491210937,
      "learning_rate": 2e-07,
      "loss": 0.07210339307785034,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667014360426,
      "reward_std": 0.27151924669742583,
      "rewards/MultiModalAccuracyORM": 0.41666667014360426,
      "step": 1210,
      "train_speed(iter/s)": 0.041084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.2,
      "epoch": 0.4909090909090909,
      "grad_norm": 11.2245512008667,
      "kl": 0.02044839859008789,
      "learning_rate": 2e-07,
      "loss": 0.0006846427917480469,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666738688946,
      "reward_std": 0.22074522376060485,
      "rewards/MultiModalAccuracyORM": 0.3166666738688946,
      "step": 1215,
      "train_speed(iter/s)": 0.041094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.95,
      "epoch": 0.49292929292929294,
      "grad_norm": 23.733837127685547,
      "kl": 0.0533355712890625,
      "learning_rate": 2e-07,
      "loss": -0.03312296569347382,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666666939854623,
      "reward_std": 0.3827823489904404,
      "rewards/MultiModalAccuracyORM": 0.21666666939854623,
      "step": 1220,
      "train_speed(iter/s)": 0.041103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.4,
      "epoch": 0.494949494949495,
      "grad_norm": 5.569579124450684,
      "kl": 0.12704048156738282,
      "learning_rate": 2e-07,
      "loss": -0.030297344923019408,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667386889455,
      "reward_std": 0.3534030467271805,
      "rewards/MultiModalAccuracyORM": 0.41666667386889455,
      "step": 1225,
      "train_speed(iter/s)": 0.041105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.15,
      "epoch": 0.49696969696969695,
      "grad_norm": 13.687773704528809,
      "kl": 0.054621124267578126,
      "learning_rate": 2e-07,
      "loss": 0.020814248919487,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667312383654,
      "reward_std": 0.2981545031070709,
      "rewards/MultiModalAccuracyORM": 0.29166667312383654,
      "step": 1230,
      "train_speed(iter/s)": 0.041117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.45,
      "epoch": 0.498989898989899,
      "grad_norm": 4.014401912689209,
      "kl": 0.11805038452148438,
      "learning_rate": 2e-07,
      "loss": -0.014261078834533692,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.31666666865348814,
      "reward_std": 0.24615318179130555,
      "rewards/MultiModalAccuracyORM": 0.31666666865348814,
      "step": 1235,
      "train_speed(iter/s)": 0.041139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.15,
      "epoch": 0.501010101010101,
      "grad_norm": 7.063708782196045,
      "kl": 0.04602813720703125,
      "learning_rate": 2e-07,
      "loss": -0.0014480194076895714,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000052154064,
      "reward_std": 0.2486636757850647,
      "rewards/MultiModalAccuracyORM": 0.3500000052154064,
      "step": 1240,
      "train_speed(iter/s)": 0.041135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.65,
      "epoch": 0.503030303030303,
      "grad_norm": 0.07285178452730179,
      "kl": 0.06838836669921874,
      "learning_rate": 2e-07,
      "loss": 0.007464568316936493,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.26703072190284727,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 1245,
      "train_speed(iter/s)": 0.04113
    },
    {
      "epoch": 0.5050505050505051,
      "grad_norm": 16.691085815429688,
      "learning_rate": 2e-07,
      "loss": 0.027106884121894836,
      "memory(GiB)": 104.49,
      "step": 1250,
      "train_speed(iter/s)": 0.041132
    },
    {
      "epoch": 0.5050505050505051,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 24.193333625793457,
      "eval_kl": 0.0990032958984375,
      "eval_loss": 0.013061273843050003,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.3783333380520344,
      "eval_reward_std": 0.21932941377162934,
      "eval_rewards/MultiModalAccuracyORM": 0.3783333380520344,
      "eval_runtime": 254.2733,
      "eval_samples_per_second": 0.197,
      "eval_steps_per_second": 0.02,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.45,
      "epoch": 0.5070707070707071,
      "grad_norm": 1.7288111448287964,
      "kl": 0.14322261810302733,
      "learning_rate": 2e-07,
      "loss": -0.0040175896137952805,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32916667200624944,
      "reward_std": 0.21599168032407762,
      "rewards/MultiModalAccuracyORM": 0.32916667200624944,
      "step": 1255,
      "train_speed(iter/s)": 0.040698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.8,
      "epoch": 0.509090909090909,
      "grad_norm": 30.862096786499023,
      "kl": 0.065618896484375,
      "learning_rate": 2e-07,
      "loss": 0.03462098240852356,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.3471368789672852,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 1260,
      "train_speed(iter/s)": 0.040722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.65,
      "epoch": 0.5111111111111111,
      "grad_norm": 18.206647872924805,
      "kl": 0.050946044921875,
      "learning_rate": 2e-07,
      "loss": -0.018359455466270446,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500001192092897,
      "reward_std": 0.285042542219162,
      "rewards/MultiModalAccuracyORM": 0.37500001192092897,
      "step": 1265,
      "train_speed(iter/s)": 0.040714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.8,
      "epoch": 0.5131313131313131,
      "grad_norm": 21.11511993408203,
      "kl": 0.08178558349609374,
      "learning_rate": 2e-07,
      "loss": 0.019801269471645355,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5000000059604645,
      "reward_std": 0.24666163325309753,
      "rewards/MultiModalAccuracyORM": 0.5000000059604645,
      "step": 1270,
      "train_speed(iter/s)": 0.040716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.7,
      "epoch": 0.5151515151515151,
      "grad_norm": 2.3435275554656982,
      "kl": 0.037060546875,
      "learning_rate": 2e-07,
      "loss": -0.044399937987327574,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000149011613,
      "reward_std": 0.18780821561813354,
      "rewards/MultiModalAccuracyORM": 0.30000000149011613,
      "step": 1275,
      "train_speed(iter/s)": 0.040729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.3,
      "epoch": 0.5171717171717172,
      "grad_norm": 6.154475688934326,
      "kl": 0.06382598876953124,
      "learning_rate": 2e-07,
      "loss": 0.024791686236858367,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334103226663,
      "reward_std": 0.3026406019926071,
      "rewards/MultiModalAccuracyORM": 0.38333334103226663,
      "step": 1280,
      "train_speed(iter/s)": 0.040736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.85,
      "epoch": 0.5191919191919192,
      "grad_norm": 0.17857688665390015,
      "kl": 0.05196533203125,
      "learning_rate": 2e-07,
      "loss": -0.01656932532787323,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666716337204,
      "reward_std": 0.32905964851379393,
      "rewards/MultiModalAccuracyORM": 0.1916666716337204,
      "step": 1285,
      "train_speed(iter/s)": 0.040739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.1,
      "epoch": 0.5212121212121212,
      "grad_norm": 5.7444353103637695,
      "kl": 0.032296371459960935,
      "learning_rate": 2e-07,
      "loss": -0.04405757784843445,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667237877846,
      "reward_std": 0.3292782843112946,
      "rewards/MultiModalAccuracyORM": 0.19166667237877846,
      "step": 1290,
      "train_speed(iter/s)": 0.04075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.45,
      "epoch": 0.5232323232323233,
      "grad_norm": 1.938860297203064,
      "kl": 0.04727783203125,
      "learning_rate": 2e-07,
      "loss": 0.001994212530553341,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4666666701436043,
      "reward_std": 0.2953156381845474,
      "rewards/MultiModalAccuracyORM": 0.4666666701436043,
      "step": 1295,
      "train_speed(iter/s)": 0.040768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.9,
      "epoch": 0.5252525252525253,
      "grad_norm": 23.327890396118164,
      "kl": 0.118865966796875,
      "learning_rate": 2e-07,
      "loss": 0.020175328850746153,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333492279053,
      "reward_std": 0.3596546709537506,
      "rewards/MultiModalAccuracyORM": 0.3833333492279053,
      "step": 1300,
      "train_speed(iter/s)": 0.04078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.4,
      "epoch": 0.5272727272727272,
      "grad_norm": 1.2604830265045166,
      "kl": 0.082135009765625,
      "learning_rate": 2e-07,
      "loss": -0.006745982170104981,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000089406967,
      "reward_std": 0.23631438612937927,
      "rewards/MultiModalAccuracyORM": 0.3250000089406967,
      "step": 1305,
      "train_speed(iter/s)": 0.040788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.1,
      "epoch": 0.5292929292929293,
      "grad_norm": 19.63453483581543,
      "kl": 0.093505859375,
      "learning_rate": 2e-07,
      "loss": -0.01361556351184845,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334177732465,
      "reward_std": 0.24337058067321776,
      "rewards/MultiModalAccuracyORM": 0.33333334177732465,
      "step": 1310,
      "train_speed(iter/s)": 0.0408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 0.5313131313131313,
      "grad_norm": 5.953737735748291,
      "kl": 0.115643310546875,
      "learning_rate": 2e-07,
      "loss": 0.004205666109919548,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30833334028720855,
      "reward_std": 0.21123813688755036,
      "rewards/MultiModalAccuracyORM": 0.30833334028720855,
      "step": 1315,
      "train_speed(iter/s)": 0.040801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.55,
      "epoch": 0.5333333333333333,
      "grad_norm": 24.937227249145508,
      "kl": 0.1268402099609375,
      "learning_rate": 2e-07,
      "loss": 0.0015925129875540734,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667237877845,
      "reward_std": 0.31119862794876096,
      "rewards/MultiModalAccuracyORM": 0.26666667237877845,
      "step": 1320,
      "train_speed(iter/s)": 0.040816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.35,
      "epoch": 0.5353535353535354,
      "grad_norm": 0.8153337240219116,
      "kl": 0.150848388671875,
      "learning_rate": 2e-07,
      "loss": -0.021095672249794008,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667088866234,
      "reward_std": 0.27402731478214265,
      "rewards/MultiModalAccuracyORM": 0.21666667088866234,
      "step": 1325,
      "train_speed(iter/s)": 0.040834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.35,
      "epoch": 0.5373737373737374,
      "grad_norm": 18.53838539123535,
      "kl": 0.046075439453125,
      "learning_rate": 2e-07,
      "loss": 0.017172405123710634,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000089406967,
      "reward_std": 0.2159452974796295,
      "rewards/MultiModalAccuracyORM": 0.4500000089406967,
      "step": 1330,
      "train_speed(iter/s)": 0.040851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.05,
      "epoch": 0.5393939393939394,
      "grad_norm": 7.678282737731934,
      "kl": 0.0884857177734375,
      "learning_rate": 2e-07,
      "loss": 0.0011547883972525597,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5750000141561031,
      "reward_std": 0.3044206708669662,
      "rewards/MultiModalAccuracyORM": 0.5750000141561031,
      "step": 1335,
      "train_speed(iter/s)": 0.04087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.7,
      "epoch": 0.5414141414141415,
      "grad_norm": 10.90495777130127,
      "kl": 0.0806304931640625,
      "learning_rate": 2e-07,
      "loss": -0.017473408579826356,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000022351742,
      "reward_std": 0.15518502295017242,
      "rewards/MultiModalAccuracyORM": 0.2750000022351742,
      "step": 1340,
      "train_speed(iter/s)": 0.040877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.55,
      "epoch": 0.5434343434343434,
      "grad_norm": 0.10261930525302887,
      "kl": 0.060321044921875,
      "learning_rate": 2e-07,
      "loss": 0.0017479043453931808,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334028720857,
      "reward_std": 0.152222341299057,
      "rewards/MultiModalAccuracyORM": 0.33333334028720857,
      "step": 1345,
      "train_speed(iter/s)": 0.040892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.75,
      "epoch": 0.5454545454545454,
      "grad_norm": 2.2841360569000244,
      "kl": 0.024788665771484374,
      "learning_rate": 2e-07,
      "loss": -0.02739916443824768,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333656191827,
      "reward_std": 0.2652174890041351,
      "rewards/MultiModalAccuracyORM": 0.20833333656191827,
      "step": 1350,
      "train_speed(iter/s)": 0.040901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.85,
      "epoch": 0.5474747474747474,
      "grad_norm": 13.731690406799316,
      "kl": 0.0828125,
      "learning_rate": 2e-07,
      "loss": -0.0664910078048706,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333417773247,
      "reward_std": 0.3362748771905899,
      "rewards/MultiModalAccuracyORM": 0.4333333417773247,
      "step": 1355,
      "train_speed(iter/s)": 0.04092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.95,
      "epoch": 0.5494949494949495,
      "grad_norm": 25.35189437866211,
      "kl": 0.100750732421875,
      "learning_rate": 2e-07,
      "loss": -0.00892333835363388,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333432674408,
      "reward_std": 0.2915389180183411,
      "rewards/MultiModalAccuracyORM": 0.3083333432674408,
      "step": 1360,
      "train_speed(iter/s)": 0.04093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.1,
      "epoch": 0.5515151515151515,
      "grad_norm": 9.685708999633789,
      "kl": 0.061480712890625,
      "learning_rate": 2e-07,
      "loss": 0.012898986041545869,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.21447905600070954,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 1365,
      "train_speed(iter/s)": 0.040933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.45,
      "epoch": 0.5535353535353535,
      "grad_norm": 0.28964653611183167,
      "kl": 0.1938751220703125,
      "learning_rate": 2e-07,
      "loss": 0.01745934933423996,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666701436043,
      "reward_std": 0.2489179015159607,
      "rewards/MultiModalAccuracyORM": 0.3416666701436043,
      "step": 1370,
      "train_speed(iter/s)": 0.040944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.25,
      "epoch": 0.5555555555555556,
      "grad_norm": 8.731843948364258,
      "kl": 0.06651153564453124,
      "learning_rate": 2e-07,
      "loss": 0.03409457206726074,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333656191824,
      "reward_std": 0.25566026866436004,
      "rewards/MultiModalAccuracyORM": 0.35833333656191824,
      "step": 1375,
      "train_speed(iter/s)": 0.040953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.2,
      "epoch": 0.5575757575757576,
      "grad_norm": 35.31602096557617,
      "kl": 0.100604248046875,
      "learning_rate": 2e-07,
      "loss": -0.010587018728256226,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000111758709,
      "reward_std": 0.25487024188041685,
      "rewards/MultiModalAccuracyORM": 0.2500000111758709,
      "step": 1380,
      "train_speed(iter/s)": 0.040972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.55,
      "epoch": 0.5595959595959596,
      "grad_norm": 1.9312275648117065,
      "kl": 0.09021759033203125,
      "learning_rate": 2e-07,
      "loss": -0.012255148589611053,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667610406875,
      "reward_std": 0.255184069275856,
      "rewards/MultiModalAccuracyORM": 0.24166667610406875,
      "step": 1385,
      "train_speed(iter/s)": 0.040973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.25,
      "epoch": 0.5616161616161616,
      "grad_norm": 30.091777801513672,
      "kl": 0.08451480865478515,
      "learning_rate": 2e-07,
      "loss": -0.004190707206726074,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000074505806,
      "reward_std": 0.2875886201858521,
      "rewards/MultiModalAccuracyORM": 0.2500000074505806,
      "step": 1390,
      "train_speed(iter/s)": 0.040981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.25,
      "epoch": 0.5636363636363636,
      "grad_norm": 5.909719467163086,
      "kl": 0.16330108642578126,
      "learning_rate": 2e-07,
      "loss": -0.01449722945690155,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35000000670552256,
      "reward_std": 0.15821027159690856,
      "rewards/MultiModalAccuracyORM": 0.35000000670552256,
      "step": 1395,
      "train_speed(iter/s)": 0.040992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.9,
      "epoch": 0.5656565656565656,
      "grad_norm": 4.40855598449707,
      "kl": 0.0266082763671875,
      "learning_rate": 2e-07,
      "loss": 0.026001608371734618,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.3048968702554703,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 1400,
      "train_speed(iter/s)": 0.041006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.85,
      "epoch": 0.5676767676767677,
      "grad_norm": 0.061144277453422546,
      "kl": 0.07353515625,
      "learning_rate": 2e-07,
      "loss": -0.010889561474323272,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667312383652,
      "reward_std": 0.14815284609794616,
      "rewards/MultiModalAccuracyORM": 0.24166667312383652,
      "step": 1405,
      "train_speed(iter/s)": 0.041018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.6,
      "epoch": 0.5696969696969697,
      "grad_norm": 0.037721507251262665,
      "kl": 0.087078857421875,
      "learning_rate": 2e-07,
      "loss": 0.004135938733816147,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45833333358168604,
      "reward_std": 0.08109080791473389,
      "rewards/MultiModalAccuracyORM": 0.45833333358168604,
      "step": 1410,
      "train_speed(iter/s)": 0.041023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.2,
      "epoch": 0.5717171717171717,
      "grad_norm": 4.825331211090088,
      "kl": 0.18311767578125,
      "learning_rate": 2e-07,
      "loss": 0.02725890576839447,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667684912682,
      "reward_std": 0.2338038921356201,
      "rewards/MultiModalAccuracyORM": 0.24166667684912682,
      "step": 1415,
      "train_speed(iter/s)": 0.04103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.65,
      "epoch": 0.5737373737373738,
      "grad_norm": 1.8680031299591064,
      "kl": 0.0274566650390625,
      "learning_rate": 2e-07,
      "loss": 0.0017455607652664185,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000074505806,
      "reward_std": 0.12001575231552124,
      "rewards/MultiModalAccuracyORM": 0.17500000074505806,
      "step": 1420,
      "train_speed(iter/s)": 0.041024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.9,
      "epoch": 0.5757575757575758,
      "grad_norm": 3.193700075149536,
      "kl": 0.305999755859375,
      "learning_rate": 2e-07,
      "loss": 0.046308600902557374,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000074505806,
      "reward_std": 0.29177860021591184,
      "rewards/MultiModalAccuracyORM": 0.4000000074505806,
      "step": 1425,
      "train_speed(iter/s)": 0.041037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.95,
      "epoch": 0.5777777777777777,
      "grad_norm": 2.843719244003296,
      "kl": 0.0330230712890625,
      "learning_rate": 2e-07,
      "loss": -0.04594253897666931,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.3008869707584381,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 1430,
      "train_speed(iter/s)": 0.041054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 20.0,
      "epoch": 0.5797979797979798,
      "grad_norm": 23.12917137145996,
      "kl": 0.0993408203125,
      "learning_rate": 2e-07,
      "loss": 0.021137547492980958,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2166666716337204,
      "reward_std": 0.2790306001901627,
      "rewards/MultiModalAccuracyORM": 0.2166666716337204,
      "step": 1435,
      "train_speed(iter/s)": 0.041061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.25,
      "epoch": 0.5818181818181818,
      "grad_norm": 17.79547882080078,
      "kl": 0.1023834228515625,
      "learning_rate": 2e-07,
      "loss": 0.00415017232298851,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.20369119942188263,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 1440,
      "train_speed(iter/s)": 0.041072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.2,
      "epoch": 0.5838383838383838,
      "grad_norm": 15.119973182678223,
      "kl": 0.11974754333496093,
      "learning_rate": 2e-07,
      "loss": -0.008057641983032226,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000089406967,
      "reward_std": 0.2770525634288788,
      "rewards/MultiModalAccuracyORM": 0.3250000089406967,
      "step": 1445,
      "train_speed(iter/s)": 0.041081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.6,
      "epoch": 0.5858585858585859,
      "grad_norm": 0.13666389882564545,
      "kl": 0.0672607421875,
      "learning_rate": 2e-07,
      "loss": -0.0010352015495300293,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333373069763,
      "reward_std": 0.14996607303619386,
      "rewards/MultiModalAccuracyORM": 0.2083333373069763,
      "step": 1450,
      "train_speed(iter/s)": 0.041098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.3,
      "epoch": 0.5878787878787879,
      "grad_norm": 11.365659713745117,
      "kl": 0.0847259521484375,
      "learning_rate": 2e-07,
      "loss": 0.014445498585700989,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000037252903,
      "reward_std": 0.23955530524253846,
      "rewards/MultiModalAccuracyORM": 0.1500000037252903,
      "step": 1455,
      "train_speed(iter/s)": 0.041108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.5,
      "epoch": 0.5898989898989899,
      "grad_norm": 25.425418853759766,
      "kl": 0.070880126953125,
      "learning_rate": 2e-07,
      "loss": 0.00023016731720417737,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666753590107,
      "reward_std": 0.3265491545200348,
      "rewards/MultiModalAccuracyORM": 0.3916666753590107,
      "step": 1460,
      "train_speed(iter/s)": 0.041127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.35,
      "epoch": 0.591919191919192,
      "grad_norm": 11.779102325439453,
      "kl": 0.07333221435546874,
      "learning_rate": 2e-07,
      "loss": 0.0254564106464386,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.16626566052436828,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 1465,
      "train_speed(iter/s)": 0.041143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.55,
      "epoch": 0.593939393939394,
      "grad_norm": 1.78038489818573,
      "kl": 0.1328155517578125,
      "learning_rate": 2e-07,
      "loss": 0.008091837167739868,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000298023225,
      "reward_std": 0.1293427586555481,
      "rewards/MultiModalAccuracyORM": 0.27500000298023225,
      "step": 1470,
      "train_speed(iter/s)": 0.041154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.25,
      "epoch": 0.5959595959595959,
      "grad_norm": 2.518378734588623,
      "kl": 0.1015869140625,
      "learning_rate": 2e-07,
      "loss": -0.03122214078903198,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333358168602,
      "reward_std": 0.3322981417179108,
      "rewards/MultiModalAccuracyORM": 0.4333333358168602,
      "step": 1475,
      "train_speed(iter/s)": 0.041146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.5,
      "epoch": 0.597979797979798,
      "grad_norm": 20.898664474487305,
      "kl": 0.1433135986328125,
      "learning_rate": 2e-07,
      "loss": -0.02608821392059326,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000059604645,
      "reward_std": 0.287842845916748,
      "rewards/MultiModalAccuracyORM": 0.2250000059604645,
      "step": 1480,
      "train_speed(iter/s)": 0.041162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.8,
      "epoch": 0.6,
      "grad_norm": 0.11180847883224487,
      "kl": 0.13046875,
      "learning_rate": 2e-07,
      "loss": 0.003093409538269043,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666666716337205,
      "reward_std": 0.12937834858894348,
      "rewards/MultiModalAccuracyORM": 0.21666666716337205,
      "step": 1485,
      "train_speed(iter/s)": 0.041171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.85,
      "epoch": 0.602020202020202,
      "grad_norm": 12.01523494720459,
      "kl": 0.187371826171875,
      "learning_rate": 2e-07,
      "loss": -0.008616887032985687,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667237877847,
      "reward_std": 0.21550226211547852,
      "rewards/MultiModalAccuracyORM": 0.29166667237877847,
      "step": 1490,
      "train_speed(iter/s)": 0.041188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.75,
      "epoch": 0.604040404040404,
      "grad_norm": 14.021830558776855,
      "kl": 0.16456298828125,
      "learning_rate": 2e-07,
      "loss": 0.010373742878437042,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5166666701436042,
      "reward_std": 0.21447905600070954,
      "rewards/MultiModalAccuracyORM": 0.5166666701436042,
      "step": 1495,
      "train_speed(iter/s)": 0.041207
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 1.3669841289520264,
      "learning_rate": 2e-07,
      "loss": -0.011987817287445069,
      "memory(GiB)": 104.49,
      "step": 1500,
      "train_speed(iter/s)": 0.041216
    },
    {
      "epoch": 0.6060606060606061,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 23.09000030040741,
      "eval_kl": 0.12807769775390626,
      "eval_loss": 0.0023684909101575613,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.42833334028720854,
      "eval_reward_std": 0.21841024577617646,
      "eval_rewards/MultiModalAccuracyORM": 0.42833334028720854,
      "eval_runtime": 243.0786,
      "eval_samples_per_second": 0.206,
      "eval_steps_per_second": 0.021,
      "step": 1500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.275,
      "epoch": 0.6080808080808081,
      "grad_norm": 10.859317779541016,
      "kl": 0.1035552978515625,
      "learning_rate": 2e-07,
      "loss": -0.011110000312328339,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35000000447034835,
      "reward_std": 0.2066851645708084,
      "rewards/MultiModalAccuracyORM": 0.35000000447034835,
      "step": 1505,
      "train_speed(iter/s)": 0.040874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.45,
      "epoch": 0.6101010101010101,
      "grad_norm": 0.055811017751693726,
      "kl": 0.03581314086914063,
      "learning_rate": 2e-07,
      "loss": 0.04541417956352234,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666731238365,
      "reward_std": 0.33700530230998993,
      "rewards/MultiModalAccuracyORM": 0.3916666731238365,
      "step": 1510,
      "train_speed(iter/s)": 0.040868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.1,
      "epoch": 0.6121212121212121,
      "grad_norm": 2.9291131496429443,
      "kl": 0.076611328125,
      "learning_rate": 2e-07,
      "loss": 0.0033688426017761232,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000298023225,
      "reward_std": 0.22297748029232026,
      "rewards/MultiModalAccuracyORM": 0.40000000298023225,
      "step": 1515,
      "train_speed(iter/s)": 0.040893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.8,
      "epoch": 0.6141414141414141,
      "grad_norm": 10.698760032653809,
      "kl": 0.024103546142578126,
      "learning_rate": 2e-07,
      "loss": 0.033906325697898865,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1416666716337204,
      "reward_std": 0.24487241208553315,
      "rewards/MultiModalAccuracyORM": 0.1416666716337204,
      "step": 1520,
      "train_speed(iter/s)": 0.040902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.95,
      "epoch": 0.6161616161616161,
      "grad_norm": 5.847660541534424,
      "kl": 0.141815185546875,
      "learning_rate": 2e-07,
      "loss": -0.014752772450447083,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000447034834,
      "reward_std": 0.27756677865982055,
      "rewards/MultiModalAccuracyORM": 0.40000000447034834,
      "step": 1525,
      "train_speed(iter/s)": 0.04091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.85,
      "epoch": 0.6181818181818182,
      "grad_norm": 2.933770179748535,
      "kl": 0.1540740966796875,
      "learning_rate": 2e-07,
      "loss": 0.021346482634544372,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500001043081284,
      "reward_std": 0.3767612546682358,
      "rewards/MultiModalAccuracyORM": 0.32500001043081284,
      "step": 1530,
      "train_speed(iter/s)": 0.040919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 20.35,
      "epoch": 0.6202020202020202,
      "grad_norm": 6.487882614135742,
      "kl": 0.08126373291015625,
      "learning_rate": 2e-07,
      "loss": -0.02819029986858368,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000037252903,
      "reward_std": 0.2875886201858521,
      "rewards/MultiModalAccuracyORM": 0.4000000037252903,
      "step": 1535,
      "train_speed(iter/s)": 0.040926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.7,
      "epoch": 0.6222222222222222,
      "grad_norm": 0.1822008639574051,
      "kl": 0.244976806640625,
      "learning_rate": 2e-07,
      "loss": 0.02670127749443054,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.43333333879709246,
      "reward_std": 0.14589657187461852,
      "rewards/MultiModalAccuracyORM": 0.43333333879709246,
      "step": 1540,
      "train_speed(iter/s)": 0.040936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.35,
      "epoch": 0.6242424242424243,
      "grad_norm": 5.22224235534668,
      "kl": 0.087286376953125,
      "learning_rate": 2e-07,
      "loss": 0.011146068572998047,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667237877845,
      "reward_std": 0.39465543925762175,
      "rewards/MultiModalAccuracyORM": 0.39166667237877845,
      "step": 1545,
      "train_speed(iter/s)": 0.040941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.65,
      "epoch": 0.6262626262626263,
      "grad_norm": 12.465606689453125,
      "kl": 0.11739501953125,
      "learning_rate": 2e-07,
      "loss": 0.01348254531621933,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000447034837,
      "reward_std": 0.18332211077213287,
      "rewards/MultiModalAccuracyORM": 0.37500000447034837,
      "step": 1550,
      "train_speed(iter/s)": 0.040941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.05,
      "epoch": 0.6282828282828283,
      "grad_norm": 0.03528100252151489,
      "kl": 0.059906005859375,
      "learning_rate": 2e-07,
      "loss": 0.002536106109619141,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000223517417,
      "reward_std": 0.12558708488941192,
      "rewards/MultiModalAccuracyORM": 0.32500000223517417,
      "step": 1555,
      "train_speed(iter/s)": 0.040957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.5,
      "epoch": 0.6303030303030303,
      "grad_norm": 15.021883010864258,
      "kl": 0.11079330444335937,
      "learning_rate": 2e-07,
      "loss": 0.0029231052845716476,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333380520344,
      "reward_std": 0.20973873138427734,
      "rewards/MultiModalAccuracyORM": 0.4333333380520344,
      "step": 1560,
      "train_speed(iter/s)": 0.040974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.1,
      "epoch": 0.6323232323232323,
      "grad_norm": 2.5578255653381348,
      "kl": 0.04172821044921875,
      "learning_rate": 2e-07,
      "loss": 0.004573901742696762,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000447034837,
      "reward_std": 0.18087121844291687,
      "rewards/MultiModalAccuracyORM": 0.12500000447034837,
      "step": 1565,
      "train_speed(iter/s)": 0.040988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.8,
      "epoch": 0.6343434343434343,
      "grad_norm": 22.243240356445312,
      "kl": 0.158673095703125,
      "learning_rate": 2e-07,
      "loss": -0.008480211347341537,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667759418485,
      "reward_std": 0.28480601906776426,
      "rewards/MultiModalAccuracyORM": 0.41666667759418485,
      "step": 1570,
      "train_speed(iter/s)": 0.040998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.0,
      "epoch": 0.6363636363636364,
      "grad_norm": 25.038570404052734,
      "kl": 0.1517974853515625,
      "learning_rate": 2e-07,
      "loss": 0.04977948367595673,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.22625695466995238,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 1575,
      "train_speed(iter/s)": 0.041005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.15,
      "epoch": 0.6383838383838384,
      "grad_norm": 0.11025875806808472,
      "kl": 0.0567169189453125,
      "learning_rate": 2e-07,
      "loss": 0.004630526155233383,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666679084301,
      "reward_std": 0.13032740950584412,
      "rewards/MultiModalAccuracyORM": 0.3916666679084301,
      "step": 1580,
      "train_speed(iter/s)": 0.041022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.9,
      "epoch": 0.6404040404040404,
      "grad_norm": 8.77802562713623,
      "kl": 0.06422119140625,
      "learning_rate": 2e-07,
      "loss": -0.002487625740468502,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666708886623,
      "reward_std": 0.2822715133428574,
      "rewards/MultiModalAccuracyORM": 0.2916666708886623,
      "step": 1585,
      "train_speed(iter/s)": 0.041027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.1,
      "epoch": 0.6424242424242425,
      "grad_norm": 0.061026524752378464,
      "kl": 0.181072998046875,
      "learning_rate": 2e-07,
      "loss": 0.012957209348678589,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333805203437,
      "reward_std": 0.11928532719612121,
      "rewards/MultiModalAccuracyORM": 0.28333333805203437,
      "step": 1590,
      "train_speed(iter/s)": 0.041041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.6,
      "epoch": 0.6444444444444445,
      "grad_norm": 5.596570014953613,
      "kl": 0.17645263671875,
      "learning_rate": 2e-07,
      "loss": -0.0008578440174460411,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666753590107,
      "reward_std": 0.3071531385183334,
      "rewards/MultiModalAccuracyORM": 0.2666666753590107,
      "step": 1595,
      "train_speed(iter/s)": 0.041048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.7,
      "epoch": 0.6464646464646465,
      "grad_norm": 26.054533004760742,
      "kl": 0.11879425048828125,
      "learning_rate": 2e-07,
      "loss": 0.007277928292751312,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000894069674,
      "reward_std": 0.2732968896627426,
      "rewards/MultiModalAccuracyORM": 0.37500000894069674,
      "step": 1600,
      "train_speed(iter/s)": 0.041045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.45,
      "epoch": 0.6484848484848484,
      "grad_norm": 0.11397194862365723,
      "kl": 0.0313624382019043,
      "learning_rate": 2e-07,
      "loss": 0.0012240668758749962,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334028720857,
      "reward_std": 0.152222341299057,
      "rewards/MultiModalAccuracyORM": 0.33333334028720857,
      "step": 1605,
      "train_speed(iter/s)": 0.041049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.7,
      "epoch": 0.6505050505050505,
      "grad_norm": 0.8132848739624023,
      "kl": 0.099078369140625,
      "learning_rate": 2e-07,
      "loss": 0.008613920211791993,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333432674407,
      "reward_std": 0.20110656023025514,
      "rewards/MultiModalAccuracyORM": 0.13333333432674407,
      "step": 1610,
      "train_speed(iter/s)": 0.041055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.2,
      "epoch": 0.6525252525252525,
      "grad_norm": 2.1414718627929688,
      "kl": 0.05146484375,
      "learning_rate": 2e-07,
      "loss": 0.0011494815349578857,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333333507180213,
      "reward_std": 0.25270916521549225,
      "rewards/MultiModalAccuracyORM": 0.33333333507180213,
      "step": 1615,
      "train_speed(iter/s)": 0.041049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.7,
      "epoch": 0.6545454545454545,
      "grad_norm": 2.636408567428589,
      "kl": 0.05029296875,
      "learning_rate": 2e-07,
      "loss": -0.02351543605327606,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5083333447575569,
      "reward_std": 0.2792848199605942,
      "rewards/MultiModalAccuracyORM": 0.5083333447575569,
      "step": 1620,
      "train_speed(iter/s)": 0.041065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.3,
      "epoch": 0.6565656565656566,
      "grad_norm": 3.0985336303710938,
      "kl": 0.065228271484375,
      "learning_rate": 2e-07,
      "loss": -0.014748664200305938,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4833333395421505,
      "reward_std": 0.16225576102733613,
      "rewards/MultiModalAccuracyORM": 0.4833333395421505,
      "step": 1625,
      "train_speed(iter/s)": 0.041069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.65,
      "epoch": 0.6585858585858586,
      "grad_norm": 9.992680549621582,
      "kl": 0.16975555419921876,
      "learning_rate": 2e-07,
      "loss": 0.008018460124731064,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.21368903517723084,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 1630,
      "train_speed(iter/s)": 0.041077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.95,
      "epoch": 0.6606060606060606,
      "grad_norm": 47.361576080322266,
      "kl": 0.125982666015625,
      "learning_rate": 2e-07,
      "loss": 0.015030686557292939,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4666666753590107,
      "reward_std": 0.2340581238269806,
      "rewards/MultiModalAccuracyORM": 0.4666666753590107,
      "step": 1635,
      "train_speed(iter/s)": 0.041091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.05,
      "epoch": 0.6626262626262627,
      "grad_norm": 6.931950569152832,
      "kl": 0.16407470703125,
      "learning_rate": 2e-07,
      "loss": -0.012672655284404755,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666746139526,
      "reward_std": 0.215248042345047,
      "rewards/MultiModalAccuracyORM": 0.4166666746139526,
      "step": 1640,
      "train_speed(iter/s)": 0.041096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.3,
      "epoch": 0.6646464646464646,
      "grad_norm": 0.08681845664978027,
      "kl": 0.1269195556640625,
      "learning_rate": 2e-07,
      "loss": -0.0032407425343990324,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5083333358168602,
      "reward_std": 0.13338824808597566,
      "rewards/MultiModalAccuracyORM": 0.5083333358168602,
      "step": 1645,
      "train_speed(iter/s)": 0.041111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.7,
      "epoch": 0.6666666666666666,
      "grad_norm": 3.8581395149230957,
      "kl": 0.121484375,
      "learning_rate": 2e-07,
      "loss": 0.008351793140172958,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333432674407,
      "reward_std": 0.2581467509269714,
      "rewards/MultiModalAccuracyORM": 0.28333333432674407,
      "step": 1650,
      "train_speed(iter/s)": 0.041103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.15,
      "epoch": 0.6686868686868687,
      "grad_norm": 17.391639709472656,
      "kl": 0.13189697265625,
      "learning_rate": 2e-07,
      "loss": 0.056326770782470705,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333410322666,
      "reward_std": 0.3480859398841858,
      "rewards/MultiModalAccuracyORM": 0.4083333410322666,
      "step": 1655,
      "train_speed(iter/s)": 0.041102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.25,
      "epoch": 0.6707070707070707,
      "grad_norm": 7.648516654968262,
      "kl": 0.2052001953125,
      "learning_rate": 2e-07,
      "loss": -0.00421803817152977,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000037252903,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.3500000037252903,
      "step": 1660,
      "train_speed(iter/s)": 0.041107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.35,
      "epoch": 0.6727272727272727,
      "grad_norm": 1.1766724586486816,
      "kl": 0.0945709228515625,
      "learning_rate": 2e-07,
      "loss": 0.013910901546478272,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667684912684,
      "reward_std": 0.24487241804599763,
      "rewards/MultiModalAccuracyORM": 0.29166667684912684,
      "step": 1665,
      "train_speed(iter/s)": 0.041117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.35,
      "epoch": 0.6747474747474748,
      "grad_norm": 4.918646335601807,
      "kl": 0.023187255859375,
      "learning_rate": 2e-07,
      "loss": -0.009105654805898667,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333507180213,
      "reward_std": 0.2074824631214142,
      "rewards/MultiModalAccuracyORM": 0.20833333507180213,
      "step": 1670,
      "train_speed(iter/s)": 0.041129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 0.6767676767676768,
      "grad_norm": 10.536828994750977,
      "kl": 0.0798187255859375,
      "learning_rate": 2e-07,
      "loss": 0.02544976770877838,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333380520344,
      "reward_std": 0.16451202929019929,
      "rewards/MultiModalAccuracyORM": 0.2583333380520344,
      "step": 1675,
      "train_speed(iter/s)": 0.041135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.3,
      "epoch": 0.6787878787878788,
      "grad_norm": 5.117887020111084,
      "kl": 0.02090301513671875,
      "learning_rate": 2e-07,
      "loss": 0.04579094052314758,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000447034836,
      "reward_std": 0.31495430171489713,
      "rewards/MultiModalAccuracyORM": 0.30000000447034836,
      "step": 1680,
      "train_speed(iter/s)": 0.041133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.7,
      "epoch": 0.6808080808080809,
      "grad_norm": 8.01219367980957,
      "kl": 0.1265289306640625,
      "learning_rate": 2e-07,
      "loss": 0.019950807094573975,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333380520344,
      "reward_std": 0.16852192878723143,
      "rewards/MultiModalAccuracyORM": 0.4333333380520344,
      "step": 1685,
      "train_speed(iter/s)": 0.041146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.9,
      "epoch": 0.6828282828282828,
      "grad_norm": 7.546853065490723,
      "kl": 0.0402618408203125,
      "learning_rate": 2e-07,
      "loss": 0.030116382241249084,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.42500000447034836,
      "reward_std": 0.22629254460334777,
      "rewards/MultiModalAccuracyORM": 0.42500000447034836,
      "step": 1690,
      "train_speed(iter/s)": 0.041159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.2,
      "epoch": 0.6848484848484848,
      "grad_norm": 8.680946350097656,
      "kl": 0.1186279296875,
      "learning_rate": 2e-07,
      "loss": -0.014576731622219086,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45833333507180213,
      "reward_std": 0.2074824631214142,
      "rewards/MultiModalAccuracyORM": 0.45833333507180213,
      "step": 1695,
      "train_speed(iter/s)": 0.041143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.65,
      "epoch": 0.6868686868686869,
      "grad_norm": 33.545352935791016,
      "kl": 0.11261825561523438,
      "learning_rate": 2e-07,
      "loss": 0.004046386480331421,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000014901161,
      "reward_std": 0.18561154305934907,
      "rewards/MultiModalAccuracyORM": 0.3250000014901161,
      "step": 1700,
      "train_speed(iter/s)": 0.041159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.85,
      "epoch": 0.6888888888888889,
      "grad_norm": 13.335136413574219,
      "kl": 0.11529541015625,
      "learning_rate": 2e-07,
      "loss": 0.0011761213652789592,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666701436043,
      "reward_std": 0.18482151627540588,
      "rewards/MultiModalAccuracyORM": 0.3166666701436043,
      "step": 1705,
      "train_speed(iter/s)": 0.041157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.45,
      "epoch": 0.6909090909090909,
      "grad_norm": 14.620392799377441,
      "kl": 0.07541313171386718,
      "learning_rate": 2e-07,
      "loss": 0.01065676361322403,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666716337204,
      "reward_std": 0.24961273670196532,
      "rewards/MultiModalAccuracyORM": 0.1916666716337204,
      "step": 1710,
      "train_speed(iter/s)": 0.041164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.2,
      "epoch": 0.692929292929293,
      "grad_norm": 1.2891874313354492,
      "kl": 0.13163909912109376,
      "learning_rate": 2e-07,
      "loss": 0.02046767473220825,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4916666731238365,
      "reward_std": 0.21374863088130952,
      "rewards/MultiModalAccuracyORM": 0.4916666731238365,
      "step": 1715,
      "train_speed(iter/s)": 0.041157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.4,
      "epoch": 0.694949494949495,
      "grad_norm": 3.101806879043579,
      "kl": 0.22337646484375,
      "learning_rate": 2e-07,
      "loss": 0.008609502017498017,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500001341104505,
      "reward_std": 0.3003751873970032,
      "rewards/MultiModalAccuracyORM": 0.37500001341104505,
      "step": 1720,
      "train_speed(iter/s)": 0.041168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.2,
      "epoch": 0.696969696969697,
      "grad_norm": 17.069448471069336,
      "kl": 0.10420684814453125,
      "learning_rate": 2e-07,
      "loss": -0.020038720965385438,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000298023224,
      "reward_std": 0.14433756470680237,
      "rewards/MultiModalAccuracyORM": 0.32500000298023224,
      "step": 1725,
      "train_speed(iter/s)": 0.041178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 0.6989898989898989,
      "grad_norm": 2.795525074005127,
      "kl": 0.0689239501953125,
      "learning_rate": 2e-07,
      "loss": 0.022227957844734192,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000074505805,
      "reward_std": 0.15824586153030396,
      "rewards/MultiModalAccuracyORM": 0.22500000074505805,
      "step": 1730,
      "train_speed(iter/s)": 0.041179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.75,
      "epoch": 0.701010101010101,
      "grad_norm": 2.3581957817077637,
      "kl": 0.04788818359375,
      "learning_rate": 2e-07,
      "loss": 0.033317530155181886,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35000000298023226,
      "reward_std": 0.2837563753128052,
      "rewards/MultiModalAccuracyORM": 0.35000000298023226,
      "step": 1735,
      "train_speed(iter/s)": 0.04118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.5,
      "epoch": 0.703030303030303,
      "grad_norm": 2.782379627227783,
      "kl": 0.080255126953125,
      "learning_rate": 2e-07,
      "loss": -0.012095755338668824,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333879709243,
      "reward_std": 0.28154108822345736,
      "rewards/MultiModalAccuracyORM": 0.18333333879709243,
      "step": 1740,
      "train_speed(iter/s)": 0.041192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.2,
      "epoch": 0.705050505050505,
      "grad_norm": 3.129946708679199,
      "kl": 0.04556884765625,
      "learning_rate": 2e-07,
      "loss": 0.037814974784851074,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45000000223517417,
      "reward_std": 0.21378422081470488,
      "rewards/MultiModalAccuracyORM": 0.45000000223517417,
      "step": 1745,
      "train_speed(iter/s)": 0.041197
    },
    {
      "epoch": 0.7070707070707071,
      "grad_norm": 2.4902050495147705,
      "learning_rate": 2e-07,
      "loss": 0.0172103151679039,
      "memory(GiB)": 104.49,
      "step": 1750,
      "train_speed(iter/s)": 0.041202
    },
    {
      "epoch": 0.7070707070707071,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 34.29833379745483,
      "eval_kl": 0.10184234619140625,
      "eval_loss": 0.012326983734965324,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.4183333376049995,
      "eval_reward_std": 0.1789151507616043,
      "eval_rewards/MultiModalAccuracyORM": 0.4183333376049995,
      "eval_runtime": 267.6806,
      "eval_samples_per_second": 0.187,
      "eval_steps_per_second": 0.019,
      "step": 1750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.0,
      "epoch": 0.7090909090909091,
      "grad_norm": 14.173089981079102,
      "kl": 0.10649490356445312,
      "learning_rate": 2e-07,
      "loss": 0.007458774745464325,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28750000670552256,
      "reward_std": 0.23671061247587205,
      "rewards/MultiModalAccuracyORM": 0.28750000670552256,
      "step": 1755,
      "train_speed(iter/s)": 0.040873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.6,
      "epoch": 0.7111111111111111,
      "grad_norm": 2.1408114433288574,
      "kl": 0.066253662109375,
      "learning_rate": 2e-07,
      "loss": 0.027722400426864625,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.16666667237877847,
      "reward_std": 0.2669951319694519,
      "rewards/MultiModalAccuracyORM": 0.16666667237877847,
      "step": 1760,
      "train_speed(iter/s)": 0.040871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.25,
      "epoch": 0.7131313131313132,
      "grad_norm": 24.069496154785156,
      "kl": 0.0887176513671875,
      "learning_rate": 2e-07,
      "loss": 0.00502915009856224,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.18407654762268066,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 1765,
      "train_speed(iter/s)": 0.040877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.2,
      "epoch": 0.7151515151515152,
      "grad_norm": 2.3050827980041504,
      "kl": 0.2020782470703125,
      "learning_rate": 2e-07,
      "loss": 0.016819214820861815,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000022351742,
      "reward_std": 0.174764084815979,
      "rewards/MultiModalAccuracyORM": 0.2750000022351742,
      "step": 1770,
      "train_speed(iter/s)": 0.040888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.25,
      "epoch": 0.7171717171717171,
      "grad_norm": 8.913907051086426,
      "kl": 0.137213134765625,
      "learning_rate": 2e-07,
      "loss": -0.006190218776464462,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5250000029802322,
      "reward_std": 0.22078081369400024,
      "rewards/MultiModalAccuracyORM": 0.5250000029802322,
      "step": 1775,
      "train_speed(iter/s)": 0.040903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.05,
      "epoch": 0.7191919191919192,
      "grad_norm": 2.8246963024139404,
      "kl": 0.11649169921875,
      "learning_rate": 2e-07,
      "loss": -0.06523974537849427,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333507180215,
      "reward_std": 0.22629254460334777,
      "rewards/MultiModalAccuracyORM": 0.35833333507180215,
      "step": 1780,
      "train_speed(iter/s)": 0.040913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.3,
      "epoch": 0.7212121212121212,
      "grad_norm": 7.319549083709717,
      "kl": 0.100701904296875,
      "learning_rate": 2e-07,
      "loss": 0.03789505362510681,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000149011612,
      "reward_std": 0.2712534427642822,
      "rewards/MultiModalAccuracyORM": 0.2750000149011612,
      "step": 1785,
      "train_speed(iter/s)": 0.040921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.75,
      "epoch": 0.7232323232323232,
      "grad_norm": 8.2145357131958,
      "kl": 0.13018798828125,
      "learning_rate": 2e-07,
      "loss": -0.021410945057868957,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666738688946,
      "reward_std": 0.2325587123632431,
      "rewards/MultiModalAccuracyORM": 0.3916666738688946,
      "step": 1790,
      "train_speed(iter/s)": 0.040929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.7,
      "epoch": 0.7252525252525253,
      "grad_norm": 8.516419410705566,
      "kl": 0.1542633056640625,
      "learning_rate": 2e-07,
      "loss": 0.02146460711956024,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000059604645,
      "reward_std": 0.21823472976684571,
      "rewards/MultiModalAccuracyORM": 0.3000000059604645,
      "step": 1795,
      "train_speed(iter/s)": 0.040941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.8,
      "epoch": 0.7272727272727273,
      "grad_norm": 10.487430572509766,
      "kl": 0.2330535888671875,
      "learning_rate": 2e-07,
      "loss": 0.03371854722499847,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000521540644,
      "reward_std": 0.16925235390663146,
      "rewards/MultiModalAccuracyORM": 0.37500000521540644,
      "step": 1800,
      "train_speed(iter/s)": 0.040952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.9,
      "epoch": 0.7292929292929293,
      "grad_norm": 2.5021793842315674,
      "kl": 0.053016281127929686,
      "learning_rate": 2e-07,
      "loss": -0.005027930065989494,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.358333333581686,
      "reward_std": 0.1193209171295166,
      "rewards/MultiModalAccuracyORM": 0.358333333581686,
      "step": 1805,
      "train_speed(iter/s)": 0.040965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.3,
      "epoch": 0.7313131313131314,
      "grad_norm": 9.409316062927246,
      "kl": 0.077154541015625,
      "learning_rate": 2e-07,
      "loss": 0.00013190507888793945,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333343267441,
      "reward_std": 0.14188667237758637,
      "rewards/MultiModalAccuracyORM": 0.3083333343267441,
      "step": 1810,
      "train_speed(iter/s)": 0.040974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.2,
      "epoch": 0.7333333333333333,
      "grad_norm": 8.413249015808105,
      "kl": 0.06329345703125,
      "learning_rate": 2e-07,
      "loss": 0.0067844375967979435,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333417773247,
      "reward_std": 0.2878072619438171,
      "rewards/MultiModalAccuracyORM": 0.3833333417773247,
      "step": 1815,
      "train_speed(iter/s)": 0.040988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.4,
      "epoch": 0.7353535353535353,
      "grad_norm": 3.3386476039886475,
      "kl": 0.0814666748046875,
      "learning_rate": 2e-07,
      "loss": 0.020126067101955414,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000596046446,
      "reward_std": 0.18087121844291687,
      "rewards/MultiModalAccuracyORM": 0.37500000596046446,
      "step": 1820,
      "train_speed(iter/s)": 0.041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.6,
      "epoch": 0.7373737373737373,
      "grad_norm": 11.123106956481934,
      "kl": 0.13977203369140626,
      "learning_rate": 2e-07,
      "loss": 0.0059658966958522795,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.15821027159690856,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 1825,
      "train_speed(iter/s)": 0.041002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 0.7393939393939394,
      "grad_norm": 4.5245361328125,
      "kl": 0.098736572265625,
      "learning_rate": 2e-07,
      "loss": -0.024525515735149384,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666731238365,
      "reward_std": 0.20995736718177796,
      "rewards/MultiModalAccuracyORM": 0.2666666731238365,
      "step": 1830,
      "train_speed(iter/s)": 0.040989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.1,
      "epoch": 0.7414141414141414,
      "grad_norm": 0.7691475749015808,
      "kl": 0.0991119384765625,
      "learning_rate": 2e-07,
      "loss": 0.039085444808006284,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4250000029802322,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.4250000029802322,
      "step": 1835,
      "train_speed(iter/s)": 0.040998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.0,
      "epoch": 0.7434343434343434,
      "grad_norm": 0.2410029023885727,
      "kl": 0.17838897705078124,
      "learning_rate": 2e-07,
      "loss": 0.04514871537685394,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.6166666708886623,
      "reward_std": 0.13258367776870728,
      "rewards/MultiModalAccuracyORM": 0.6166666708886623,
      "step": 1840,
      "train_speed(iter/s)": 0.040995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.9,
      "epoch": 0.7454545454545455,
      "grad_norm": 12.146939277648926,
      "kl": 0.097296142578125,
      "learning_rate": 2e-07,
      "loss": 0.02126455307006836,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333656191827,
      "reward_std": 0.17657731771469115,
      "rewards/MultiModalAccuracyORM": 0.20833333656191827,
      "step": 1845,
      "train_speed(iter/s)": 0.041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.0,
      "epoch": 0.7474747474747475,
      "grad_norm": 10.014187812805176,
      "kl": 0.12047119140625,
      "learning_rate": 2e-07,
      "loss": 0.0045259218662977215,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.46666667237877846,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.46666667237877846,
      "step": 1850,
      "train_speed(iter/s)": 0.041019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.3,
      "epoch": 0.7494949494949495,
      "grad_norm": 0.34578633308410645,
      "kl": 0.13382987976074218,
      "learning_rate": 2e-07,
      "loss": 0.003971926495432853,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333358168602,
      "reward_std": 0.1356445223093033,
      "rewards/MultiModalAccuracyORM": 0.1833333358168602,
      "step": 1855,
      "train_speed(iter/s)": 0.041027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.05,
      "epoch": 0.7515151515151515,
      "grad_norm": 17.808372497558594,
      "kl": 0.025757217407226564,
      "learning_rate": 2e-07,
      "loss": 0.035965240001678465,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334252238274,
      "reward_std": 0.19713521599769593,
      "rewards/MultiModalAccuracyORM": 0.28333334252238274,
      "step": 1860,
      "train_speed(iter/s)": 0.041022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.8,
      "epoch": 0.7535353535353535,
      "grad_norm": 24.15494155883789,
      "kl": 0.0437255859375,
      "learning_rate": 2e-07,
      "loss": -0.06361854076385498,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000096857548,
      "reward_std": 0.36670139729976653,
      "rewards/MultiModalAccuracyORM": 0.4000000096857548,
      "step": 1865,
      "train_speed(iter/s)": 0.041031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.85,
      "epoch": 0.7555555555555555,
      "grad_norm": 80.81800079345703,
      "kl": 0.08274688720703124,
      "learning_rate": 2e-07,
      "loss": 0.003989287465810776,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333395421505,
      "reward_std": 0.15846449732780457,
      "rewards/MultiModalAccuracyORM": 0.3083333395421505,
      "step": 1870,
      "train_speed(iter/s)": 0.041038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.5,
      "epoch": 0.7575757575757576,
      "grad_norm": 14.617817878723145,
      "kl": 0.090728759765625,
      "learning_rate": 2e-07,
      "loss": -0.0045210480690002445,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666731238365,
      "reward_std": 0.19337954819202424,
      "rewards/MultiModalAccuracyORM": 0.2666666731238365,
      "step": 1875,
      "train_speed(iter/s)": 0.041048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.65,
      "epoch": 0.7595959595959596,
      "grad_norm": 13.89445972442627,
      "kl": 0.13492431640625,
      "learning_rate": 2e-07,
      "loss": 0.012078547477722168,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333805203438,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.20833333805203438,
      "step": 1880,
      "train_speed(iter/s)": 0.041062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05,
      "epoch": 0.7616161616161616,
      "grad_norm": 11.715389251708984,
      "kl": 0.1376861572265625,
      "learning_rate": 2e-07,
      "loss": -0.014951804280281067,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000298023225,
      "reward_std": 0.19337954223155976,
      "rewards/MultiModalAccuracyORM": 0.40000000298023225,
      "step": 1885,
      "train_speed(iter/s)": 0.041063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.4,
      "epoch": 0.7636363636363637,
      "grad_norm": 0.07281157374382019,
      "kl": 0.095611572265625,
      "learning_rate": 2e-07,
      "loss": 0.012891271710395813,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.483333333581686,
      "reward_std": 0.12631751000881195,
      "rewards/MultiModalAccuracyORM": 0.483333333581686,
      "step": 1890,
      "train_speed(iter/s)": 0.041073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.6,
      "epoch": 0.7656565656565657,
      "grad_norm": 1.9145233631134033,
      "kl": 0.19044036865234376,
      "learning_rate": 2e-07,
      "loss": -0.03062499463558197,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.35000000447034835,
      "reward_std": 0.24490800201892854,
      "rewards/MultiModalAccuracyORM": 0.35000000447034835,
      "step": 1895,
      "train_speed(iter/s)": 0.041073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.8,
      "epoch": 0.7676767676767676,
      "grad_norm": 22.877309799194336,
      "kl": 0.161077880859375,
      "learning_rate": 2e-07,
      "loss": 0.008297159522771835,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.09041781425476074,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 1900,
      "train_speed(iter/s)": 0.041078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.0,
      "epoch": 0.7696969696969697,
      "grad_norm": 21.666425704956055,
      "kl": 0.1980316162109375,
      "learning_rate": 2e-07,
      "loss": 0.020768019556999206,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.46666666865348816,
      "reward_std": 0.24114990234375,
      "rewards/MultiModalAccuracyORM": 0.46666666865348816,
      "step": 1905,
      "train_speed(iter/s)": 0.041093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.25,
      "epoch": 0.7717171717171717,
      "grad_norm": 22.925674438476562,
      "kl": 0.0932861328125,
      "learning_rate": 2e-07,
      "loss": 0.009479768574237823,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30833334028720855,
      "reward_std": 0.2466856449842453,
      "rewards/MultiModalAccuracyORM": 0.30833334028720855,
      "step": 1910,
      "train_speed(iter/s)": 0.0411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.65,
      "epoch": 0.7737373737373737,
      "grad_norm": 0.14844609797000885,
      "kl": 0.232122802734375,
      "learning_rate": 2e-07,
      "loss": 0.010550656914710998,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.6166666686534882,
      "reward_std": 0.16454761922359468,
      "rewards/MultiModalAccuracyORM": 0.6166666686534882,
      "step": 1915,
      "train_speed(iter/s)": 0.041111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.85,
      "epoch": 0.7757575757575758,
      "grad_norm": 13.482421875,
      "kl": 0.120068359375,
      "learning_rate": 2e-07,
      "loss": 0.022914706170558928,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000044703484,
      "reward_std": 0.25292780101299284,
      "rewards/MultiModalAccuracyORM": 0.4500000044703484,
      "step": 1920,
      "train_speed(iter/s)": 0.041122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.7,
      "epoch": 0.7777777777777778,
      "grad_norm": 0.19085177779197693,
      "kl": 0.14432373046875,
      "learning_rate": 2e-07,
      "loss": 0.020079278945922853,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5416666671633721,
      "reward_std": 0.18859823644161225,
      "rewards/MultiModalAccuracyORM": 0.5416666671633721,
      "step": 1925,
      "train_speed(iter/s)": 0.04113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.35,
      "epoch": 0.7797979797979798,
      "grad_norm": 0.04123455658555031,
      "kl": 0.10629119873046874,
      "learning_rate": 2e-07,
      "loss": 0.02534767985343933,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4833333358168602,
      "reward_std": 0.1652424544095993,
      "rewards/MultiModalAccuracyORM": 0.4833333358168602,
      "step": 1930,
      "train_speed(iter/s)": 0.041128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.9,
      "epoch": 0.7818181818181819,
      "grad_norm": 7.716069221496582,
      "kl": 0.03204345703125,
      "learning_rate": 2e-07,
      "loss": 0.018103978037834166,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000596046447,
      "reward_std": 0.3275222271680832,
      "rewards/MultiModalAccuracyORM": 0.32500000596046447,
      "step": 1935,
      "train_speed(iter/s)": 0.041139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.0,
      "epoch": 0.7838383838383839,
      "grad_norm": 1.998159408569336,
      "kl": 0.2424346923828125,
      "learning_rate": 2e-07,
      "loss": -0.0022819479927420616,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666738688946,
      "reward_std": 0.2526735752820969,
      "rewards/MultiModalAccuracyORM": 0.3416666738688946,
      "step": 1940,
      "train_speed(iter/s)": 0.041144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.25,
      "epoch": 0.7858585858585858,
      "grad_norm": 0.11755078285932541,
      "kl": 0.1235809326171875,
      "learning_rate": 2e-07,
      "loss": 0.01756092607975006,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333358168602,
      "reward_std": 0.16145119071006775,
      "rewards/MultiModalAccuracyORM": 0.4083333358168602,
      "step": 1945,
      "train_speed(iter/s)": 0.041156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.45,
      "epoch": 0.7878787878787878,
      "grad_norm": 11.287028312683105,
      "kl": 0.05250396728515625,
      "learning_rate": 2e-07,
      "loss": -0.009032456576824189,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.30639870166778566,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 1950,
      "train_speed(iter/s)": 0.041159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.6,
      "epoch": 0.7898989898989899,
      "grad_norm": 0.1284160166978836,
      "kl": 0.046563720703125,
      "learning_rate": 2e-07,
      "loss": 0.0006015380378812552,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.6250000067055226,
      "reward_std": 0.1973894417285919,
      "rewards/MultiModalAccuracyORM": 0.6250000067055226,
      "step": 1955,
      "train_speed(iter/s)": 0.041172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 20.05,
      "epoch": 0.7919191919191919,
      "grad_norm": 0.5048889517784119,
      "kl": 0.0877197265625,
      "learning_rate": 2e-07,
      "loss": 0.0017469068989157677,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.125,
      "reward_std": 0.045226702094078065,
      "rewards/MultiModalAccuracyORM": 0.125,
      "step": 1960,
      "train_speed(iter/s)": 0.041177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.7,
      "epoch": 0.793939393939394,
      "grad_norm": 10.217628479003906,
      "kl": 0.1369842529296875,
      "learning_rate": 2e-07,
      "loss": -0.007052314281463623,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333395421505,
      "reward_std": 0.19968129992485045,
      "rewards/MultiModalAccuracyORM": 0.4083333395421505,
      "step": 1965,
      "train_speed(iter/s)": 0.041181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.1,
      "epoch": 0.795959595959596,
      "grad_norm": 15.147607803344727,
      "kl": 0.139697265625,
      "learning_rate": 2e-07,
      "loss": -0.0005793333053588867,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.26928699016571045,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 1970,
      "train_speed(iter/s)": 0.041179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.05,
      "epoch": 0.797979797979798,
      "grad_norm": 14.508552551269531,
      "kl": 0.1334228515625,
      "learning_rate": 2e-07,
      "loss": 0.014681649208068848,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000447034836,
      "reward_std": 0.31593895256519317,
      "rewards/MultiModalAccuracyORM": 0.30000000447034836,
      "step": 1975,
      "train_speed(iter/s)": 0.041186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.4,
      "epoch": 0.8,
      "grad_norm": 14.245569229125977,
      "kl": 0.07449951171875,
      "learning_rate": 2e-07,
      "loss": 0.019247731566429137,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334252238275,
      "reward_std": 0.256683474779129,
      "rewards/MultiModalAccuracyORM": 0.23333334252238275,
      "step": 1980,
      "train_speed(iter/s)": 0.041204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.0,
      "epoch": 0.802020202020202,
      "grad_norm": 0.06112133339047432,
      "kl": 0.09664306640625,
      "learning_rate": 2e-07,
      "loss": -0.010070499032735825,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45000000223517417,
      "reward_std": 0.17555411159992218,
      "rewards/MultiModalAccuracyORM": 0.45000000223517417,
      "step": 1985,
      "train_speed(iter/s)": 0.04121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.2,
      "epoch": 0.804040404040404,
      "grad_norm": 0.20859137177467346,
      "kl": 0.2631103515625,
      "learning_rate": 2e-07,
      "loss": -0.03446192741394043,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666679084301,
      "reward_std": 0.15194410383701323,
      "rewards/MultiModalAccuracyORM": 0.2666666679084301,
      "step": 1990,
      "train_speed(iter/s)": 0.041215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.6,
      "epoch": 0.806060606060606,
      "grad_norm": 2.347874879837036,
      "kl": 0.09171142578125,
      "learning_rate": 2e-07,
      "loss": 0.003209712356328964,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4833333395421505,
      "reward_std": 0.1770799547433853,
      "rewards/MultiModalAccuracyORM": 0.4833333395421505,
      "step": 1995,
      "train_speed(iter/s)": 0.041215
    },
    {
      "epoch": 0.8080808080808081,
      "grad_norm": 12.103494644165039,
      "learning_rate": 2e-07,
      "loss": 0.051232755184173584,
      "memory(GiB)": 104.49,
      "step": 2000,
      "train_speed(iter/s)": 0.041214
    },
    {
      "epoch": 0.8080808080808081,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 32.68000123023987,
      "eval_kl": 0.1109576416015625,
      "eval_loss": 0.001846806495450437,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.4066666714847088,
      "eval_reward_std": 0.1827806031703949,
      "eval_rewards/MultiModalAccuracyORM": 0.4066666714847088,
      "eval_runtime": 274.3294,
      "eval_samples_per_second": 0.182,
      "eval_steps_per_second": 0.018,
      "step": 2000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.275,
      "epoch": 0.8101010101010101,
      "grad_norm": 20.72494888305664,
      "kl": 0.09075469970703125,
      "learning_rate": 2e-07,
      "loss": 0.01332613080739975,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667200624942,
      "reward_std": 0.22227564305067063,
      "rewards/MultiModalAccuracyORM": 0.21666667200624942,
      "step": 2005,
      "train_speed(iter/s)": 0.04093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.2,
      "epoch": 0.8121212121212121,
      "grad_norm": 10.545307159423828,
      "kl": 0.157220458984375,
      "learning_rate": 2e-07,
      "loss": 0.02192305028438568,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.21999078691005708,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 2010,
      "train_speed(iter/s)": 0.040938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.65,
      "epoch": 0.8141414141414142,
      "grad_norm": 0.1491260975599289,
      "kl": 0.1144989013671875,
      "learning_rate": 2e-07,
      "loss": 0.021004287898540495,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000298023225,
      "reward_std": 0.17456946671009063,
      "rewards/MultiModalAccuracyORM": 0.40000000298023225,
      "step": 2015,
      "train_speed(iter/s)": 0.040944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.6,
      "epoch": 0.8161616161616162,
      "grad_norm": 19.212770462036133,
      "kl": 0.0832275390625,
      "learning_rate": 2e-07,
      "loss": 0.004856839030981064,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500001043081285,
      "reward_std": 0.2800416827201843,
      "rewards/MultiModalAccuracyORM": 0.27500001043081285,
      "step": 2020,
      "train_speed(iter/s)": 0.040949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 20.2,
      "epoch": 0.8181818181818182,
      "grad_norm": 0.25410985946655273,
      "kl": 0.129962158203125,
      "learning_rate": 2e-07,
      "loss": 0.016422802209854127,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5250000059604645,
      "reward_std": 0.09041781425476074,
      "rewards/MultiModalAccuracyORM": 0.5250000059604645,
      "step": 2025,
      "train_speed(iter/s)": 0.040961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.25,
      "epoch": 0.8202020202020202,
      "grad_norm": 6.931528568267822,
      "kl": 0.260528564453125,
      "learning_rate": 2e-07,
      "loss": -0.02277086079120636,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5583333410322666,
      "reward_std": 0.2526735752820969,
      "rewards/MultiModalAccuracyORM": 0.5583333410322666,
      "step": 2030,
      "train_speed(iter/s)": 0.040965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.7,
      "epoch": 0.8222222222222222,
      "grad_norm": 27.311315536499023,
      "kl": 0.07995872497558594,
      "learning_rate": 2e-07,
      "loss": 0.024982047080993653,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666753590107,
      "reward_std": 0.3019101768732071,
      "rewards/MultiModalAccuracyORM": 0.3416666753590107,
      "step": 2035,
      "train_speed(iter/s)": 0.040969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 0.8242424242424242,
      "grad_norm": 0.08455629646778107,
      "kl": 0.1283721923828125,
      "learning_rate": 2e-07,
      "loss": 0.007968991994857788,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333395421505,
      "reward_std": 0.2167353242635727,
      "rewards/MultiModalAccuracyORM": 0.2083333395421505,
      "step": 2040,
      "train_speed(iter/s)": 0.040978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.7,
      "epoch": 0.8262626262626263,
      "grad_norm": 0.012692108750343323,
      "kl": 0.06329593658447266,
      "learning_rate": 2e-07,
      "loss": 0.019880211353302,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4750000022351742,
      "reward_std": 0.1559540092945099,
      "rewards/MultiModalAccuracyORM": 0.4750000022351742,
      "step": 2045,
      "train_speed(iter/s)": 0.040984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.25,
      "epoch": 0.8282828282828283,
      "grad_norm": 0.49161991477012634,
      "kl": 0.041827392578125,
      "learning_rate": 2e-07,
      "loss": 0.023220118880271912,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333358168602,
      "reward_std": 0.13882583379745483,
      "rewards/MultiModalAccuracyORM": 0.2583333358168602,
      "step": 2050,
      "train_speed(iter/s)": 0.040982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.25,
      "epoch": 0.8303030303030303,
      "grad_norm": 3.920830249786377,
      "kl": 0.130963134765625,
      "learning_rate": 2e-07,
      "loss": 0.012984590232372284,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666753590107,
      "reward_std": 0.3127244710922241,
      "rewards/MultiModalAccuracyORM": 0.3666666753590107,
      "step": 2055,
      "train_speed(iter/s)": 0.040988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.95,
      "epoch": 0.8323232323232324,
      "grad_norm": 2.618926763534546,
      "kl": 0.0820068359375,
      "learning_rate": 2e-07,
      "loss": -0.0011547774076461792,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666738688946,
      "reward_std": 0.174509859085083,
      "rewards/MultiModalAccuracyORM": 0.3166666738688946,
      "step": 2060,
      "train_speed(iter/s)": 0.040997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 4.05,
      "epoch": 0.8343434343434344,
      "grad_norm": 21.554759979248047,
      "kl": 0.2670654296875,
      "learning_rate": 2e-07,
      "loss": 0.008714067935943603,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000059604645,
      "reward_std": 0.22781596183776856,
      "rewards/MultiModalAccuracyORM": 0.2750000059604645,
      "step": 2065,
      "train_speed(iter/s)": 0.041007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.4,
      "epoch": 0.8363636363636363,
      "grad_norm": 0.038795698434114456,
      "kl": 0.09162445068359375,
      "learning_rate": 2e-07,
      "loss": 0.01877760738134384,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666679084301,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.2416666679084301,
      "step": 2070,
      "train_speed(iter/s)": 0.041016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.65,
      "epoch": 0.8383838383838383,
      "grad_norm": 0.5922779440879822,
      "kl": 0.17679443359375,
      "learning_rate": 2e-07,
      "loss": 0.007905527949333191,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5,
      "reward_std": 0.0,
      "rewards/MultiModalAccuracyORM": 0.5,
      "step": 2075,
      "train_speed(iter/s)": 0.041029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.05,
      "epoch": 0.8404040404040404,
      "grad_norm": 0.48757824301719666,
      "kl": 0.1322998046875,
      "learning_rate": 2e-07,
      "loss": 0.006768345832824707,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5333333358168602,
      "reward_std": 0.1356445163488388,
      "rewards/MultiModalAccuracyORM": 0.5333333358168602,
      "step": 2080,
      "train_speed(iter/s)": 0.04104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 8.2,
      "epoch": 0.8424242424242424,
      "grad_norm": 7.100019931793213,
      "kl": 0.09602890014648438,
      "learning_rate": 2e-07,
      "loss": -0.010533835738897324,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833334103226663,
      "reward_std": 0.22001479864120482,
      "rewards/MultiModalAccuracyORM": 0.25833334103226663,
      "step": 2085,
      "train_speed(iter/s)": 0.041047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.15,
      "epoch": 0.8444444444444444,
      "grad_norm": 10.953103065490723,
      "kl": 0.205523681640625,
      "learning_rate": 2e-07,
      "loss": 0.07547287940979004,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333805203438,
      "reward_std": 0.16852193474769592,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 2090,
      "train_speed(iter/s)": 0.041052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.75,
      "epoch": 0.8464646464646465,
      "grad_norm": 4.194830894470215,
      "kl": 0.0806396484375,
      "learning_rate": 2e-07,
      "loss": -0.017879560589790344,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666693985462,
      "reward_std": 0.11702905893325806,
      "rewards/MultiModalAccuracyORM": 0.3916666693985462,
      "step": 2095,
      "train_speed(iter/s)": 0.041059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 0.8484848484848485,
      "grad_norm": 0.12948361039161682,
      "kl": 0.13734283447265624,
      "learning_rate": 2e-07,
      "loss": -0.01447494924068451,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4750000111758709,
      "reward_std": 0.2338038980960846,
      "rewards/MultiModalAccuracyORM": 0.4750000111758709,
      "step": 2100,
      "train_speed(iter/s)": 0.041064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.05,
      "epoch": 0.8505050505050505,
      "grad_norm": 31.3735294342041,
      "kl": 0.177423095703125,
      "learning_rate": 2e-07,
      "loss": -0.0017697295174002648,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000521540644,
      "reward_std": 0.243092343211174,
      "rewards/MultiModalAccuracyORM": 0.25000000521540644,
      "step": 2105,
      "train_speed(iter/s)": 0.041067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 4.65,
      "epoch": 0.8525252525252526,
      "grad_norm": 2.228029251098633,
      "kl": 0.14156494140625,
      "learning_rate": 2e-07,
      "loss": -0.010953420400619506,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5166666679084301,
      "reward_std": 0.22297748625278474,
      "rewards/MultiModalAccuracyORM": 0.5166666679084301,
      "step": 2110,
      "train_speed(iter/s)": 0.041074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.35,
      "epoch": 0.8545454545454545,
      "grad_norm": 0.3235064446926117,
      "kl": 0.19440174102783203,
      "learning_rate": 2e-07,
      "loss": -0.010122859477996826,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000074505806,
      "reward_std": 0.1888910174369812,
      "rewards/MultiModalAccuracyORM": 0.2750000074505806,
      "step": 2115,
      "train_speed(iter/s)": 0.041074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.1,
      "epoch": 0.8565656565656565,
      "grad_norm": 9.72260856628418,
      "kl": 0.18918914794921876,
      "learning_rate": 2e-07,
      "loss": 0.0024737130850553514,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45833334028720857,
      "reward_std": 0.16925235390663146,
      "rewards/MultiModalAccuracyORM": 0.45833334028720857,
      "step": 2120,
      "train_speed(iter/s)": 0.041072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.2,
      "epoch": 0.8585858585858586,
      "grad_norm": 9.817282676696777,
      "kl": 0.299951171875,
      "learning_rate": 2e-07,
      "loss": 0.00935778021812439,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000074505806,
      "reward_std": 0.15824586153030396,
      "rewards/MultiModalAccuracyORM": 0.17500000074505806,
      "step": 2125,
      "train_speed(iter/s)": 0.041077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.6,
      "epoch": 0.8606060606060606,
      "grad_norm": 0.3442615568637848,
      "kl": 0.17735595703125,
      "learning_rate": 2e-07,
      "loss": 0.006759631633758545,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.48333334028720853,
      "reward_std": 0.2730426698923111,
      "rewards/MultiModalAccuracyORM": 0.48333334028720853,
      "step": 2130,
      "train_speed(iter/s)": 0.041087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.15,
      "epoch": 0.8626262626262626,
      "grad_norm": 0.520937979221344,
      "kl": 0.07093505859375,
      "learning_rate": 2e-07,
      "loss": -0.012908129394054413,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000001043081284,
      "reward_std": 0.1996457099914551,
      "rewards/MultiModalAccuracyORM": 0.20000001043081284,
      "step": 2135,
      "train_speed(iter/s)": 0.041077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.9,
      "epoch": 0.8646464646464647,
      "grad_norm": 1.4221155643463135,
      "kl": 0.132373046875,
      "learning_rate": 2e-07,
      "loss": -0.07007729411125183,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.21422483026981354,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 2140,
      "train_speed(iter/s)": 0.041076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.4,
      "epoch": 0.8666666666666667,
      "grad_norm": 19.47251319885254,
      "kl": 0.0463134765625,
      "learning_rate": 2e-07,
      "loss": 0.02097744941711426,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666723787785,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.3666666723787785,
      "step": 2145,
      "train_speed(iter/s)": 0.041079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.05,
      "epoch": 0.8686868686868687,
      "grad_norm": 0.0365481972694397,
      "kl": 0.07025909423828125,
      "learning_rate": 2e-07,
      "loss": -0.00900230035185814,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5666666716337204,
      "reward_std": 0.1295969843864441,
      "rewards/MultiModalAccuracyORM": 0.5666666716337204,
      "step": 2150,
      "train_speed(iter/s)": 0.041076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.55,
      "epoch": 0.8707070707070707,
      "grad_norm": 3.220684051513672,
      "kl": 0.11529541015625,
      "learning_rate": 2e-07,
      "loss": 0.05271543264389038,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334177732468,
      "reward_std": 0.3222196638584137,
      "rewards/MultiModalAccuracyORM": 0.23333334177732468,
      "step": 2155,
      "train_speed(iter/s)": 0.041085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.5,
      "epoch": 0.8727272727272727,
      "grad_norm": 21.94721031188965,
      "kl": 0.1160491943359375,
      "learning_rate": 2e-07,
      "loss": 0.0024079522117972374,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000447034835,
      "reward_std": 0.24009110629558564,
      "rewards/MultiModalAccuracyORM": 0.20000000447034835,
      "step": 2160,
      "train_speed(iter/s)": 0.04109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.7,
      "epoch": 0.8747474747474747,
      "grad_norm": 20.038494110107422,
      "kl": 0.1658905029296875,
      "learning_rate": 2e-07,
      "loss": 0.04994232654571533,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.533333345502615,
      "reward_std": 0.325963220000267,
      "rewards/MultiModalAccuracyORM": 0.533333345502615,
      "step": 2165,
      "train_speed(iter/s)": 0.041101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.45,
      "epoch": 0.8767676767676768,
      "grad_norm": 2.1534128189086914,
      "kl": 0.0698028564453125,
      "learning_rate": 2e-07,
      "loss": -0.025438961386680604,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.21524804830551147,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 2170,
      "train_speed(iter/s)": 0.041105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.25,
      "epoch": 0.8787878787878788,
      "grad_norm": 6.415175437927246,
      "kl": 0.0926239013671875,
      "learning_rate": 2e-07,
      "loss": -0.007227879762649536,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.44166667610406873,
      "reward_std": 0.32300969064235685,
      "rewards/MultiModalAccuracyORM": 0.44166667610406873,
      "step": 2175,
      "train_speed(iter/s)": 0.041115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.3,
      "epoch": 0.8808080808080808,
      "grad_norm": 0.38973256945610046,
      "kl": 0.13404541015625,
      "learning_rate": 2e-07,
      "loss": 0.023914989829063416,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000059604645,
      "reward_std": 0.1896214485168457,
      "rewards/MultiModalAccuracyORM": 0.4000000059604645,
      "step": 2180,
      "train_speed(iter/s)": 0.041124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.9,
      "epoch": 0.8828282828282829,
      "grad_norm": 0.12656661868095398,
      "kl": 0.15858612060546876,
      "learning_rate": 2e-07,
      "loss": 0.008176784217357635,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666679084301,
      "reward_std": 0.07810411453247071,
      "rewards/MultiModalAccuracyORM": 0.3416666679084301,
      "step": 2185,
      "train_speed(iter/s)": 0.041129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4,
      "epoch": 0.8848484848484849,
      "grad_norm": 2.246829032897949,
      "kl": 0.05509033203125,
      "learning_rate": 2e-07,
      "loss": 0.0310079425573349,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666708886623,
      "reward_std": 0.22704698145389557,
      "rewards/MultiModalAccuracyORM": 0.3416666708886623,
      "step": 2190,
      "train_speed(iter/s)": 0.041118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.15,
      "epoch": 0.8868686868686869,
      "grad_norm": 0.3648838996887207,
      "kl": 0.1862060546875,
      "learning_rate": 2e-07,
      "loss": -0.014291207492351531,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666813194752,
      "reward_std": 0.29006352424621584,
      "rewards/MultiModalAccuracyORM": 0.4416666813194752,
      "step": 2195,
      "train_speed(iter/s)": 0.041124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.0,
      "epoch": 0.8888888888888888,
      "grad_norm": 5.710547924041748,
      "kl": 0.1601806640625,
      "learning_rate": 2e-07,
      "loss": 0.0010113120079040527,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666708886623,
      "reward_std": 0.15824586153030396,
      "rewards/MultiModalAccuracyORM": 0.3416666708886623,
      "step": 2200,
      "train_speed(iter/s)": 0.041137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.85,
      "epoch": 0.8909090909090909,
      "grad_norm": 0.11420593410730362,
      "kl": 0.1681976318359375,
      "learning_rate": 2e-07,
      "loss": 0.0913887619972229,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1083333358168602,
      "reward_std": 0.18262484967708587,
      "rewards/MultiModalAccuracyORM": 0.1083333358168602,
      "step": 2205,
      "train_speed(iter/s)": 0.041132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 0.8929292929292929,
      "grad_norm": 21.853090286254883,
      "kl": 0.10088920593261719,
      "learning_rate": 2e-07,
      "loss": 0.0005557646509259939,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.47500000819563865,
      "reward_std": 0.16451202929019929,
      "rewards/MultiModalAccuracyORM": 0.47500000819563865,
      "step": 2210,
      "train_speed(iter/s)": 0.041127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.95,
      "epoch": 0.8949494949494949,
      "grad_norm": 0.11827383190393448,
      "kl": 0.1541900634765625,
      "learning_rate": 2e-07,
      "loss": 0.0488810658454895,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000059604645,
      "reward_std": 0.22625695466995238,
      "rewards/MultiModalAccuracyORM": 0.3000000059604645,
      "step": 2215,
      "train_speed(iter/s)": 0.041123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.2,
      "epoch": 0.896969696969697,
      "grad_norm": 10.474591255187988,
      "kl": 0.10148773193359376,
      "learning_rate": 2e-07,
      "loss": -0.004365795105695724,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000521540644,
      "reward_std": 0.25591449439525604,
      "rewards/MultiModalAccuracyORM": 0.25000000521540644,
      "step": 2220,
      "train_speed(iter/s)": 0.041126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.2,
      "epoch": 0.898989898989899,
      "grad_norm": 0.02211969904601574,
      "kl": 0.0304107666015625,
      "learning_rate": 2e-07,
      "loss": 0.0038854777812957764,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.233333333581686,
      "reward_std": 0.07409421503543853,
      "rewards/MultiModalAccuracyORM": 0.233333333581686,
      "step": 2225,
      "train_speed(iter/s)": 0.041135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.35,
      "epoch": 0.901010101010101,
      "grad_norm": 11.09273910522461,
      "kl": 0.1110137939453125,
      "learning_rate": 2e-07,
      "loss": 0.0425330251455307,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.1000000037252903,
      "reward_std": 0.16852192878723143,
      "rewards/MultiModalAccuracyORM": 0.1000000037252903,
      "step": 2230,
      "train_speed(iter/s)": 0.041144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 14.8,
      "epoch": 0.9030303030303031,
      "grad_norm": 17.634380340576172,
      "kl": 0.215167236328125,
      "learning_rate": 2e-07,
      "loss": 0.03751255869865418,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333358168602,
      "reward_std": 0.10697162747383118,
      "rewards/MultiModalAccuracyORM": 0.3833333358168602,
      "step": 2235,
      "train_speed(iter/s)": 0.041143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.8,
      "epoch": 0.9050505050505051,
      "grad_norm": 0.31089159846305847,
      "kl": 0.1969482421875,
      "learning_rate": 2e-07,
      "loss": 0.011410205066204071,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666738688946,
      "reward_std": 0.18108985424041749,
      "rewards/MultiModalAccuracyORM": 0.3416666738688946,
      "step": 2240,
      "train_speed(iter/s)": 0.041157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.1,
      "epoch": 0.907070707070707,
      "grad_norm": 0.033987369388341904,
      "kl": 0.1924041748046875,
      "learning_rate": 2e-07,
      "loss": 0.0015319785103201865,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000298023223,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.22500000298023223,
      "step": 2245,
      "train_speed(iter/s)": 0.041165
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 0.06531964987516403,
      "learning_rate": 2e-07,
      "loss": -0.01111970990896225,
      "memory(GiB)": 104.49,
      "step": 2250,
      "train_speed(iter/s)": 0.041175
    },
    {
      "epoch": 0.9090909090909091,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 33.406667890548704,
      "eval_kl": 0.133411865234375,
      "eval_loss": -0.00466223806142807,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.441666671782732,
      "eval_reward_std": 0.1628412437438965,
      "eval_rewards/MultiModalAccuracyORM": 0.441666671782732,
      "eval_runtime": 272.4154,
      "eval_samples_per_second": 0.184,
      "eval_steps_per_second": 0.018,
      "step": 2250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.525,
      "epoch": 0.9111111111111111,
      "grad_norm": 0.03232080861926079,
      "kl": 0.22264862060546875,
      "learning_rate": 2e-07,
      "loss": 0.028143799304962157,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666720062494,
      "reward_std": 0.12746492475271226,
      "rewards/MultiModalAccuracyORM": 0.4166666720062494,
      "step": 2255,
      "train_speed(iter/s)": 0.040921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.4,
      "epoch": 0.9131313131313131,
      "grad_norm": 0.06567571312189102,
      "kl": 0.08049087524414063,
      "learning_rate": 2e-07,
      "loss": 0.031807747483253476,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.45833333507180213,
      "reward_std": 0.14564234614372254,
      "rewards/MultiModalAccuracyORM": 0.45833333507180213,
      "step": 2260,
      "train_speed(iter/s)": 0.040927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 21.6,
      "epoch": 0.9151515151515152,
      "grad_norm": 0.668204665184021,
      "kl": 0.1173919677734375,
      "learning_rate": 2e-07,
      "loss": -0.03886902332305908,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333432674407,
      "reward_std": 0.16830329298973085,
      "rewards/MultiModalAccuracyORM": 0.28333333432674407,
      "step": 2265,
      "train_speed(iter/s)": 0.040936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.0,
      "epoch": 0.9171717171717172,
      "grad_norm": 0.16663120687007904,
      "kl": 0.1005615234375,
      "learning_rate": 2e-07,
      "loss": 0.011882781982421875,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333380520344,
      "reward_std": 0.2659719318151474,
      "rewards/MultiModalAccuracyORM": 0.3083333380520344,
      "step": 2270,
      "train_speed(iter/s)": 0.040942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.5,
      "epoch": 0.9191919191919192,
      "grad_norm": 18.440631866455078,
      "kl": 0.121307373046875,
      "learning_rate": 2e-07,
      "loss": 0.01434231996536255,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.33333333805203436,
      "reward_std": 0.17075418531894684,
      "rewards/MultiModalAccuracyORM": 0.33333333805203436,
      "step": 2275,
      "train_speed(iter/s)": 0.040956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.25,
      "epoch": 0.9212121212121213,
      "grad_norm": 30.9835147857666,
      "kl": 0.118048095703125,
      "learning_rate": 2e-07,
      "loss": 0.012100108712911607,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333373069763,
      "reward_std": 0.17781037986278533,
      "rewards/MultiModalAccuracyORM": 0.3583333373069763,
      "step": 2280,
      "train_speed(iter/s)": 0.040966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.3,
      "epoch": 0.9232323232323232,
      "grad_norm": 6.152209758758545,
      "kl": 0.3557861328125,
      "learning_rate": 2e-07,
      "loss": -0.025510752201080324,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000074505806,
      "reward_std": 0.1652424544095993,
      "rewards/MultiModalAccuracyORM": 0.30000000074505806,
      "step": 2285,
      "train_speed(iter/s)": 0.040978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.3,
      "epoch": 0.9252525252525252,
      "grad_norm": 22.69240951538086,
      "kl": 0.155462646484375,
      "learning_rate": 2e-07,
      "loss": -0.0011336962692439557,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.21422483026981354,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 2290,
      "train_speed(iter/s)": 0.040975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.15,
      "epoch": 0.9272727272727272,
      "grad_norm": 0.06437839567661285,
      "kl": 0.16920166015625,
      "learning_rate": 2e-07,
      "loss": 0.0063018262386322025,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333730697633,
      "reward_std": 0.07810411453247071,
      "rewards/MultiModalAccuracyORM": 0.25833333730697633,
      "step": 2295,
      "train_speed(iter/s)": 0.040991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.8,
      "epoch": 0.9292929292929293,
      "grad_norm": 0.896676778793335,
      "kl": 0.12425537109375,
      "learning_rate": 2e-07,
      "loss": 0.01196231171488762,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666716337204,
      "reward_std": 0.29564401507377625,
      "rewards/MultiModalAccuracyORM": 0.2916666716337204,
      "step": 2300,
      "train_speed(iter/s)": 0.040994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 16.8,
      "epoch": 0.9313131313131313,
      "grad_norm": 1.9378466606140137,
      "kl": 0.067706298828125,
      "learning_rate": 2e-07,
      "loss": -0.021140041947364806,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333410322666,
      "reward_std": 0.2504173070192337,
      "rewards/MultiModalAccuracyORM": 0.4333333410322666,
      "step": 2305,
      "train_speed(iter/s)": 0.041006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.95,
      "epoch": 0.9333333333333333,
      "grad_norm": 0.4809723496437073,
      "kl": 0.1289764404296875,
      "learning_rate": 2e-07,
      "loss": 0.003021649643778801,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333730697632,
      "reward_std": 0.2071926474571228,
      "rewards/MultiModalAccuracyORM": 0.10833333730697632,
      "step": 2310,
      "train_speed(iter/s)": 0.041021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.75,
      "epoch": 0.9353535353535354,
      "grad_norm": 0.06879542768001556,
      "kl": 0.09110107421875,
      "learning_rate": 2e-07,
      "loss": -0.004359513521194458,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.47500000298023226,
      "reward_std": 0.2159808874130249,
      "rewards/MultiModalAccuracyORM": 0.47500000298023226,
      "step": 2315,
      "train_speed(iter/s)": 0.041036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 13.2,
      "epoch": 0.9373737373737374,
      "grad_norm": 0.226049542427063,
      "kl": 0.09764404296875,
      "learning_rate": 2e-07,
      "loss": 0.0010025198571383953,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333805203438,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.20833333805203438,
      "step": 2320,
      "train_speed(iter/s)": 0.04105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.95,
      "epoch": 0.9393939393939394,
      "grad_norm": 7.9168314933776855,
      "kl": 0.0877655029296875,
      "learning_rate": 2e-07,
      "loss": 0.06811027526855469,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5333333387970924,
      "reward_std": 0.21149236261844634,
      "rewards/MultiModalAccuracyORM": 0.5333333387970924,
      "step": 2325,
      "train_speed(iter/s)": 0.041062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 10.2,
      "epoch": 0.9414141414141414,
      "grad_norm": 0.2699204385280609,
      "kl": 0.180908203125,
      "learning_rate": 2e-07,
      "loss": 0.0060350816696882244,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.09041781425476074,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 2330,
      "train_speed(iter/s)": 0.041071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.55,
      "epoch": 0.9434343434343434,
      "grad_norm": 27.749364852905273,
      "kl": 0.22237548828125,
      "learning_rate": 2e-07,
      "loss": 0.08456591367721558,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667312383654,
      "reward_std": 0.1888910174369812,
      "rewards/MultiModalAccuracyORM": 0.29166667312383654,
      "step": 2335,
      "train_speed(iter/s)": 0.041075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 0.9454545454545454,
      "grad_norm": 5.552628517150879,
      "kl": 0.0543975830078125,
      "learning_rate": 2e-07,
      "loss": -0.05388938784599304,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.07500000149011612,
      "reward_std": 0.19962169826030732,
      "rewards/MultiModalAccuracyORM": 0.07500000149011612,
      "step": 2340,
      "train_speed(iter/s)": 0.041078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.7,
      "epoch": 0.9474747474747475,
      "grad_norm": 9.49284839630127,
      "kl": 0.11671142578125,
      "learning_rate": 2e-07,
      "loss": -0.00172628965228796,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667014360428,
      "reward_std": 0.22629254460334777,
      "rewards/MultiModalAccuracyORM": 0.19166667014360428,
      "step": 2345,
      "train_speed(iter/s)": 0.04109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05,
      "epoch": 0.9494949494949495,
      "grad_norm": 3.0689406394958496,
      "kl": 0.09317855834960938,
      "learning_rate": 2e-07,
      "loss": 0.013809925317764283,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667088866235,
      "reward_std": 0.3167103588581085,
      "rewards/MultiModalAccuracyORM": 0.31666667088866235,
      "step": 2350,
      "train_speed(iter/s)": 0.041098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.8,
      "epoch": 0.9515151515151515,
      "grad_norm": 0.1557140052318573,
      "kl": 0.280633544921875,
      "learning_rate": 2e-07,
      "loss": -0.00421304777264595,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666666865348817,
      "reward_std": 0.07409421503543853,
      "rewards/MultiModalAccuracyORM": 0.41666666865348817,
      "step": 2355,
      "train_speed(iter/s)": 0.041108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.65,
      "epoch": 0.9535353535353536,
      "grad_norm": 7.580443382263184,
      "kl": 0.096343994140625,
      "learning_rate": 2e-07,
      "loss": -0.022874367237091065,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.6333333358168602,
      "reward_std": 0.17861495018005372,
      "rewards/MultiModalAccuracyORM": 0.6333333358168602,
      "step": 2360,
      "train_speed(iter/s)": 0.041118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 12.8,
      "epoch": 0.9555555555555556,
      "grad_norm": 0.11349290609359741,
      "kl": 0.21148681640625,
      "learning_rate": 2e-07,
      "loss": -6.924470653757453e-05,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5166666708886624,
      "reward_std": 0.1840525358915329,
      "rewards/MultiModalAccuracyORM": 0.5166666708886624,
      "step": 2365,
      "train_speed(iter/s)": 0.041134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.8,
      "epoch": 0.9575757575757575,
      "grad_norm": 16.9438419342041,
      "kl": 0.20333251953125,
      "learning_rate": 2e-07,
      "loss": 0.008581924438476562,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.41666666939854624,
      "reward_std": 0.16225576102733613,
      "rewards/MultiModalAccuracyORM": 0.41666666939854624,
      "step": 2370,
      "train_speed(iter/s)": 0.041147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.7,
      "epoch": 0.9595959595959596,
      "grad_norm": 26.406293869018555,
      "kl": 0.1427520751953125,
      "learning_rate": 2e-07,
      "loss": 0.011251689493656158,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000596046447,
      "reward_std": 0.23866584599018098,
      "rewards/MultiModalAccuracyORM": 0.32500000596046447,
      "step": 2375,
      "train_speed(iter/s)": 0.041156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.35,
      "epoch": 0.9616161616161616,
      "grad_norm": 0.03468816727399826,
      "kl": 0.09806137084960938,
      "learning_rate": 2e-07,
      "loss": 0.008510185778141022,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5083333373069763,
      "reward_std": 0.1037161648273468,
      "rewards/MultiModalAccuracyORM": 0.5083333373069763,
      "step": 2380,
      "train_speed(iter/s)": 0.041159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.5,
      "epoch": 0.9636363636363636,
      "grad_norm": 12.14474105834961,
      "kl": 0.127783203125,
      "learning_rate": 2e-07,
      "loss": 0.031885528564453126,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.25566026866436004,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 2385,
      "train_speed(iter/s)": 0.041174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 19.1,
      "epoch": 0.9656565656565657,
      "grad_norm": 0.8151546716690063,
      "kl": 0.13538818359375,
      "learning_rate": 2e-07,
      "loss": 0.012065254151821136,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.233333333581686,
      "reward_std": 0.07409421503543853,
      "rewards/MultiModalAccuracyORM": 0.233333333581686,
      "step": 2390,
      "train_speed(iter/s)": 0.041185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.45,
      "epoch": 0.9676767676767677,
      "grad_norm": 22.97179412841797,
      "kl": 0.0504150390625,
      "learning_rate": 2e-07,
      "loss": 0.00892886370420456,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.32500001043081284,
      "reward_std": 0.386316055059433,
      "rewards/MultiModalAccuracyORM": 0.32500001043081284,
      "step": 2395,
      "train_speed(iter/s)": 0.041191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 15.7,
      "epoch": 0.9696969696969697,
      "grad_norm": 0.13443566858768463,
      "kl": 0.0746551513671875,
      "learning_rate": 2e-07,
      "loss": -0.008957084268331528,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.05833333507180214,
      "reward_std": 0.11702905893325806,
      "rewards/MultiModalAccuracyORM": 0.05833333507180214,
      "step": 2400,
      "train_speed(iter/s)": 0.041198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 5.3,
      "epoch": 0.9717171717171718,
      "grad_norm": 13.01309871673584,
      "kl": 0.1608978271484375,
      "learning_rate": 2e-07,
      "loss": -0.005169375985860825,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333395421505,
      "reward_std": 0.2074468731880188,
      "rewards/MultiModalAccuracyORM": 0.4333333395421505,
      "step": 2405,
      "train_speed(iter/s)": 0.041211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.4,
      "epoch": 0.9737373737373738,
      "grad_norm": 20.76219367980957,
      "kl": 0.10498046875,
      "learning_rate": 2e-07,
      "loss": -0.026147454977035522,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666693985462,
      "reward_std": 0.23933667540550232,
      "rewards/MultiModalAccuracyORM": 0.3166666693985462,
      "step": 2410,
      "train_speed(iter/s)": 0.041217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 17.3,
      "epoch": 0.9757575757575757,
      "grad_norm": 5.97620964050293,
      "kl": 0.098968505859375,
      "learning_rate": 2e-07,
      "loss": 0.04436638355255127,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5916666783392429,
      "reward_std": 0.26292563080787656,
      "rewards/MultiModalAccuracyORM": 0.5916666783392429,
      "step": 2415,
      "train_speed(iter/s)": 0.041224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.9,
      "epoch": 0.9777777777777777,
      "grad_norm": 0.16142967343330383,
      "kl": 0.2656707763671875,
      "learning_rate": 2e-07,
      "loss": 0.010275793075561524,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4750000022351742,
      "reward_std": 0.12558708488941192,
      "rewards/MultiModalAccuracyORM": 0.4750000022351742,
      "step": 2420,
      "train_speed(iter/s)": 0.041233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 0.9797979797979798,
      "grad_norm": 5.270585060119629,
      "kl": 0.1023193359375,
      "learning_rate": 2e-07,
      "loss": 0.013689932227134705,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333417773247,
      "reward_std": 0.2817953139543533,
      "rewards/MultiModalAccuracyORM": 0.2583333417773247,
      "step": 2425,
      "train_speed(iter/s)": 0.041241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 0.9818181818181818,
      "grad_norm": 2.2413382530212402,
      "kl": 0.09530487060546874,
      "learning_rate": 2e-07,
      "loss": -0.009250025451183318,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5166666693985462,
      "reward_std": 0.17150862216949464,
      "rewards/MultiModalAccuracyORM": 0.5166666693985462,
      "step": 2430,
      "train_speed(iter/s)": 0.041258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 7.1,
      "epoch": 0.9838383838383838,
      "grad_norm": 0.14606672525405884,
      "kl": 0.098297119140625,
      "learning_rate": 2e-07,
      "loss": -0.021257255971431733,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334252238274,
      "reward_std": 0.19713521599769593,
      "rewards/MultiModalAccuracyORM": 0.28333334252238274,
      "step": 2435,
      "train_speed(iter/s)": 0.041266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 11.3,
      "epoch": 0.9858585858585859,
      "grad_norm": 2.6238768100738525,
      "kl": 0.10804595947265624,
      "learning_rate": 2e-07,
      "loss": 0.007257813215255737,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000149011613,
      "reward_std": 0.1974250316619873,
      "rewards/MultiModalAccuracyORM": 0.30000000149011613,
      "step": 2440,
      "train_speed(iter/s)": 0.041271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 18.15,
      "epoch": 0.9878787878787879,
      "grad_norm": 0.03827716410160065,
      "kl": 0.101373291015625,
      "learning_rate": 2e-07,
      "loss": 0.011828117072582245,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.4916666731238365,
      "reward_std": 0.181566059589386,
      "rewards/MultiModalAccuracyORM": 0.4916666731238365,
      "step": 2445,
      "train_speed(iter/s)": 0.041278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.4,
      "epoch": 0.98989898989899,
      "grad_norm": 6.416419982910156,
      "kl": 0.2295166015625,
      "learning_rate": 2e-07,
      "loss": 0.009897831082344054,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3750000029802322,
      "reward_std": 0.10072947144508362,
      "rewards/MultiModalAccuracyORM": 0.3750000029802322,
      "step": 2450,
      "train_speed(iter/s)": 0.041283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 9.6,
      "epoch": 0.9919191919191919,
      "grad_norm": 3.0410783290863037,
      "kl": 0.14271240234375,
      "learning_rate": 2e-07,
      "loss": -0.015740707516670227,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5083333380520344,
      "reward_std": 0.27522478699684144,
      "rewards/MultiModalAccuracyORM": 0.5083333380520344,
      "step": 2455,
      "train_speed(iter/s)": 0.041292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.15,
      "epoch": 0.9939393939393939,
      "grad_norm": 0.742748498916626,
      "kl": 0.2917930603027344,
      "learning_rate": 2e-07,
      "loss": 0.06221296787261963,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333402872086,
      "reward_std": 0.17702035307884217,
      "rewards/MultiModalAccuracyORM": 0.2833333402872086,
      "step": 2460,
      "train_speed(iter/s)": 0.041301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.7,
      "epoch": 0.9959595959595959,
      "grad_norm": 0.5455455780029297,
      "kl": 0.1237335205078125,
      "learning_rate": 2e-07,
      "loss": 0.04647340774536133,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.5750000044703484,
      "reward_std": 0.09041781425476074,
      "rewards/MultiModalAccuracyORM": 0.5750000044703484,
      "step": 2465,
      "train_speed(iter/s)": 0.041305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 6.6,
      "epoch": 0.997979797979798,
      "grad_norm": 3.567203998565674,
      "kl": 0.128204345703125,
      "learning_rate": 2e-07,
      "loss": -0.006601794809103012,
      "memory(GiB)": 104.49,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666753590107,
      "reward_std": 0.3019101768732071,
      "rewards/MultiModalAccuracyORM": 0.3416666753590107,
      "step": 2470,
      "train_speed(iter/s)": 0.04132
    },
    {
      "epoch": 1.0,
      "grad_norm": 24.7083740234375,
      "learning_rate": 2e-07,
      "loss": 0.018315188586711884,
      "memory(GiB)": 104.49,
      "step": 2475,
      "train_speed(iter/s)": 0.041332
    },
    {
      "epoch": 1.0,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 28.336667232513427,
      "eval_kl": 0.152705078125,
      "eval_loss": 0.011019712314009666,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.4650000059604645,
      "eval_reward_std": 0.1907379400730133,
      "eval_rewards/MultiModalAccuracyORM": 0.4650000059604645,
      "eval_runtime": 238.5041,
      "eval_samples_per_second": 0.21,
      "eval_steps_per_second": 0.021,
      "step": 2475
    }
  ],
  "logging_steps": 5,
  "max_steps": 2475,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}