{
  "best_global_step": 2475,
  "best_metric": 0.3483333396911621,
  "best_model_checkpoint": "/mnt/data/user/zhao_jun/tangjixin/output/model/intern3vl-8b-grpo_v2/v19-20250430-174625/checkpoint-2475",
  "epoch": 1.0,
  "eval_steps": 250,
  "global_step": 2475,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 432.5,
      "completions/mean_length": 292.2916717529297,
      "completions/min_length": 175.5,
      "epoch": 0.00040404040404040404,
      "grad_norm": 2.6534149601732357,
      "kl": 0.00283050537109375,
      "learning_rate": 1.6129032258064515e-09,
      "loss": 0.04529620707035065,
      "memory(GiB)": 92.98,
      "reward": 0.2083333395421505,
      "reward_std": 0.3905205577611923,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3905205577611923,
      "step": 1,
      "train_speed(iter/s)": 0.011973
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 446.25,
      "completions/mean_length": 238.60417366027832,
      "completions/min_length": 109.75,
      "epoch": 0.00202020202020202,
      "grad_norm": 1.7382476360832968,
      "kl": 0.004979610443115234,
      "learning_rate": 8.064516129032257e-09,
      "loss": 0.005735308863222599,
      "memory(GiB)": 104.19,
      "reward": 0.18750000558793545,
      "reward_std": 0.1695556379854679,
      "rewards/MultiModalAccuracyORM/mean": 0.18750000558793545,
      "rewards/MultiModalAccuracyORM/std": 0.1695556379854679,
      "step": 5,
      "train_speed(iter/s)": 0.026061
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 931.8,
      "completions/mean_length": 493.87501831054686,
      "completions/min_length": 266.1,
      "epoch": 0.00404040404040404,
      "grad_norm": 1.6461868811442486,
      "kl": 0.0029445648193359374,
      "learning_rate": 1.6129032258064514e-08,
      "loss": 0.02294178307056427,
      "memory(GiB)": 104.37,
      "reward": 0.22500000819563865,
      "reward_std": 0.308176326751709,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000819563865,
      "rewards/MultiModalAccuracyORM/std": 0.308176326751709,
      "step": 10,
      "train_speed(iter/s)": 0.027382
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.8,
      "completions/mean_length": 231.4250061035156,
      "completions/min_length": 144.3,
      "epoch": 0.006060606060606061,
      "grad_norm": 3.6175414067372516,
      "kl": 0.0058765411376953125,
      "learning_rate": 2.4193548387096773e-08,
      "loss": -0.020487520098686218,
      "memory(GiB)": 107.13,
      "reward": 0.4250000178813934,
      "reward_std": 0.37195889055728915,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000178813934,
      "rewards/MultiModalAccuracyORM/std": 0.37195889055728915,
      "step": 15,
      "train_speed(iter/s)": 0.031173
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 592.0,
      "completions/mean_length": 374.85834045410155,
      "completions/min_length": 234.0,
      "epoch": 0.00808080808080808,
      "grad_norm": 2.0453002988188924,
      "kl": 0.0025386810302734375,
      "learning_rate": 3.225806451612903e-08,
      "loss": 0.018081194162368773,
      "memory(GiB)": 110.66,
      "reward": 0.2833333373069763,
      "reward_std": 0.2855865716934204,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.2855865716934204,
      "step": 20,
      "train_speed(iter/s)": 0.032111
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 675.3,
      "completions/mean_length": 343.33334197998045,
      "completions/min_length": 163.6,
      "epoch": 0.010101010101010102,
      "grad_norm": 2.0297666321727066,
      "kl": 0.005942535400390625,
      "learning_rate": 4.032258064516129e-08,
      "loss": -0.003527432680130005,
      "memory(GiB)": 110.66,
      "reward": 0.26666667982935904,
      "reward_std": 0.3784792721271515,
      "rewards/MultiModalAccuracyORM/mean": 0.26666667982935904,
      "rewards/MultiModalAccuracyORM/std": 0.3784792721271515,
      "step": 25,
      "train_speed(iter/s)": 0.03346
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 434.7,
      "completions/mean_length": 279.9750091552734,
      "completions/min_length": 170.9,
      "epoch": 0.012121212121212121,
      "grad_norm": 1.580858331896628,
      "kl": 0.0038494110107421876,
      "learning_rate": 4.8387096774193546e-08,
      "loss": -0.00242428183555603,
      "memory(GiB)": 110.68,
      "reward": 0.10000000298023223,
      "reward_std": 0.2711698323488235,
      "rewards/MultiModalAccuracyORM/mean": 0.10000000298023223,
      "rewards/MultiModalAccuracyORM/std": 0.2711698323488235,
      "step": 30,
      "train_speed(iter/s)": 0.034153
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 522.8,
      "completions/mean_length": 286.36667404174807,
      "completions/min_length": 165.1,
      "epoch": 0.014141414141414142,
      "grad_norm": 1.8379975346697042,
      "kl": 0.02647857666015625,
      "learning_rate": 5.645161290322581e-08,
      "loss": 0.00997340977191925,
      "memory(GiB)": 110.68,
      "reward": 0.25000000521540644,
      "reward_std": 0.2200503796339035,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000521540644,
      "rewards/MultiModalAccuracyORM/std": 0.2200503796339035,
      "step": 35,
      "train_speed(iter/s)": 0.034524
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 792.7,
      "completions/mean_length": 407.9500198364258,
      "completions/min_length": 231.7,
      "epoch": 0.01616161616161616,
      "grad_norm": 1.879368475551475,
      "kl": 0.00126495361328125,
      "learning_rate": 6.451612903225806e-08,
      "loss": 0.005544811487197876,
      "memory(GiB)": 111.72,
      "reward": 0.16666667014360428,
      "reward_std": 0.32451151907444,
      "rewards/MultiModalAccuracyORM/mean": 0.16666667014360428,
      "rewards/MultiModalAccuracyORM/std": 0.32451151907444,
      "step": 40,
      "train_speed(iter/s)": 0.034576
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 502.7,
      "completions/mean_length": 326.12501068115233,
      "completions/min_length": 189.6,
      "epoch": 0.01818181818181818,
      "grad_norm": 0.7460899635365059,
      "kl": 0.0039581298828125,
      "learning_rate": 7.258064516129032e-08,
      "loss": 0.006708705425262451,
      "memory(GiB)": 111.74,
      "reward": 0.2083333395421505,
      "reward_std": 0.22406027615070342,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.22406027615070342,
      "step": 45,
      "train_speed(iter/s)": 0.034933
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 455.3,
      "completions/mean_length": 274.28333892822263,
      "completions/min_length": 131.9,
      "epoch": 0.020202020202020204,
      "grad_norm": 2.4079312295812714,
      "kl": 0.00251922607421875,
      "learning_rate": 8.064516129032257e-08,
      "loss": 0.015183356404304505,
      "memory(GiB)": 111.74,
      "reward": 0.21666667386889457,
      "reward_std": 0.25738072395324707,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667386889457,
      "rewards/MultiModalAccuracyORM/std": 0.25738072395324707,
      "step": 50,
      "train_speed(iter/s)": 0.035232
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 643.5,
      "completions/mean_length": 365.0666778564453,
      "completions/min_length": 191.6,
      "epoch": 0.022222222222222223,
      "grad_norm": 0.014705836185752576,
      "kl": 0.004721450805664063,
      "learning_rate": 8.870967741935484e-08,
      "loss": 0.01203818917274475,
      "memory(GiB)": 111.74,
      "reward": 0.32500001043081284,
      "reward_std": 0.3044206529855728,
      "rewards/MultiModalAccuracyORM/mean": 0.32500001043081284,
      "rewards/MultiModalAccuracyORM/std": 0.3044206529855728,
      "step": 55,
      "train_speed(iter/s)": 0.035135
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 527.3,
      "completions/mean_length": 338.5833435058594,
      "completions/min_length": 199.7,
      "epoch": 0.024242424242424242,
      "grad_norm": 2.6954085340696765,
      "kl": 0.0020017623901367188,
      "learning_rate": 9.677419354838709e-08,
      "loss": -0.005992072820663452,
      "memory(GiB)": 111.74,
      "reward": 0.18333333507180213,
      "reward_std": 0.33354574739933013,
      "rewards/MultiModalAccuracyORM/mean": 0.18333333507180213,
      "rewards/MultiModalAccuracyORM/std": 0.33354574739933013,
      "step": 60,
      "train_speed(iter/s)": 0.035177
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.8,
      "completions/mean_length": 363.6166793823242,
      "completions/min_length": 208.5,
      "epoch": 0.026262626262626262,
      "grad_norm": 3.0115754925592952,
      "kl": 0.0037433624267578123,
      "learning_rate": 1.0483870967741934e-07,
      "loss": -0.03836339712142944,
      "memory(GiB)": 111.74,
      "reward": 0.2666666738688946,
      "reward_std": 0.4085534304380417,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.4085534304380417,
      "step": 65,
      "train_speed(iter/s)": 0.035437
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 590.2,
      "completions/mean_length": 377.9750099182129,
      "completions/min_length": 204.0,
      "epoch": 0.028282828282828285,
      "grad_norm": 1.7279437509176054,
      "kl": 0.001779937744140625,
      "learning_rate": 1.1290322580645162e-07,
      "loss": -0.05415753722190857,
      "memory(GiB)": 111.74,
      "reward": 0.3000000074505806,
      "reward_std": 0.30035116374492643,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.30035116374492643,
      "step": 70,
      "train_speed(iter/s)": 0.035665
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 362.6,
      "completions/mean_length": 242.45834197998047,
      "completions/min_length": 116.8,
      "epoch": 0.030303030303030304,
      "grad_norm": 3.0031072335906597,
      "kl": 0.002858734130859375,
      "learning_rate": 1.2096774193548387e-07,
      "loss": 0.03029954433441162,
      "memory(GiB)": 111.74,
      "reward": 0.26666667237877845,
      "reward_std": 0.36043521761894226,
      "rewards/MultiModalAccuracyORM/mean": 0.26666667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.36043521761894226,
      "step": 75,
      "train_speed(iter/s)": 0.036005
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 776.6,
      "completions/mean_length": 435.741682434082,
      "completions/min_length": 231.3,
      "epoch": 0.03232323232323232,
      "grad_norm": 0.42303978897841893,
      "kl": 0.0016681671142578125,
      "learning_rate": 1.2903225806451611e-07,
      "loss": 0.049380439519882205,
      "memory(GiB)": 111.74,
      "reward": 0.325000012665987,
      "reward_std": 0.3008513689041138,
      "rewards/MultiModalAccuracyORM/mean": 0.325000012665987,
      "rewards/MultiModalAccuracyORM/std": 0.3008513689041138,
      "step": 80,
      "train_speed(iter/s)": 0.035635
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 511.1,
      "completions/mean_length": 302.8333435058594,
      "completions/min_length": 166.0,
      "epoch": 0.03434343434343434,
      "grad_norm": 2.6438328703498097,
      "kl": 0.00451507568359375,
      "learning_rate": 1.3709677419354838e-07,
      "loss": -0.0442815363407135,
      "memory(GiB)": 111.74,
      "reward": 0.2833333402872086,
      "reward_std": 0.3933126300573349,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333402872086,
      "rewards/MultiModalAccuracyORM/std": 0.3933126300573349,
      "step": 85,
      "train_speed(iter/s)": 0.035979
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 620.0,
      "completions/mean_length": 381.02501525878904,
      "completions/min_length": 183.3,
      "epoch": 0.03636363636363636,
      "grad_norm": 1.74840980915549,
      "kl": 0.0013660430908203126,
      "learning_rate": 1.4516129032258064e-07,
      "loss": 0.07182409167289734,
      "memory(GiB)": 111.74,
      "reward": 0.30000000521540643,
      "reward_std": 0.35937642157077787,
      "rewards/MultiModalAccuracyORM/mean": 0.30000000521540643,
      "rewards/MultiModalAccuracyORM/std": 0.35937642157077787,
      "step": 90,
      "train_speed(iter/s)": 0.035659
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 641.2,
      "completions/mean_length": 325.55834197998047,
      "completions/min_length": 170.8,
      "epoch": 0.03838383838383838,
      "grad_norm": 0.04177816415582162,
      "kl": 0.014581298828125,
      "learning_rate": 1.5322580645161288e-07,
      "loss": 0.029976147413253783,
      "memory(GiB)": 111.74,
      "reward": 0.18333333879709243,
      "reward_std": 0.2358713388442993,
      "rewards/MultiModalAccuracyORM/mean": 0.18333333879709243,
      "rewards/MultiModalAccuracyORM/std": 0.2358713388442993,
      "step": 95,
      "train_speed(iter/s)": 0.035533
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 535.2,
      "completions/mean_length": 339.98334045410155,
      "completions/min_length": 187.8,
      "epoch": 0.04040404040404041,
      "grad_norm": 3.190540630566101,
      "kl": 0.004257583618164062,
      "learning_rate": 1.6129032258064515e-07,
      "loss": 0.0416176974773407,
      "memory(GiB)": 111.74,
      "reward": 0.28333334252238274,
      "reward_std": 0.3247897386550903,
      "rewards/MultiModalAccuracyORM/mean": 0.28333334252238274,
      "rewards/MultiModalAccuracyORM/std": 0.3247897386550903,
      "step": 100,
      "train_speed(iter/s)": 0.035677
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 589.7,
      "completions/mean_length": 345.52500610351564,
      "completions/min_length": 173.9,
      "epoch": 0.04242424242424243,
      "grad_norm": 3.073635935584006,
      "kl": 0.00194549560546875,
      "learning_rate": 1.6935483870967741e-07,
      "loss": 0.042548298835754395,
      "memory(GiB)": 111.74,
      "reward": 0.2000000111758709,
      "reward_std": 0.2611959934234619,
      "rewards/MultiModalAccuracyORM/mean": 0.2000000111758709,
      "rewards/MultiModalAccuracyORM/std": 0.2611959934234619,
      "step": 105,
      "train_speed(iter/s)": 0.035468
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 745.5,
      "completions/mean_length": 380.5166748046875,
      "completions/min_length": 225.9,
      "epoch": 0.044444444444444446,
      "grad_norm": 0.9626100429708261,
      "kl": 0.0016246795654296874,
      "learning_rate": 1.7741935483870968e-07,
      "loss": -0.02766646146774292,
      "memory(GiB)": 111.74,
      "reward": 0.1916666731238365,
      "reward_std": 0.3073477536439896,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.3073477536439896,
      "step": 110,
      "train_speed(iter/s)": 0.035455
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.0,
      "completions/mean_length": 311.90000915527344,
      "completions/min_length": 154.2,
      "epoch": 0.046464646464646465,
      "grad_norm": 1.342836390340581,
      "kl": 0.008540725708007813,
      "learning_rate": 1.8548387096774192e-07,
      "loss": -0.010879068076610566,
      "memory(GiB)": 111.74,
      "reward": 0.10000000074505806,
      "reward_std": 0.22228264510631562,
      "rewards/MultiModalAccuracyORM/mean": 0.10000000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.22228264510631562,
      "step": 115,
      "train_speed(iter/s)": 0.035535
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 481.0,
      "completions/mean_length": 288.9583435058594,
      "completions/min_length": 165.6,
      "epoch": 0.048484848484848485,
      "grad_norm": 2.6619939115206135,
      "kl": 0.00256195068359375,
      "learning_rate": 1.9354838709677418e-07,
      "loss": 0.033258992433547976,
      "memory(GiB)": 111.74,
      "reward": 0.4083333469927311,
      "reward_std": 0.40963622033596037,
      "rewards/MultiModalAccuracyORM/mean": 0.4083333469927311,
      "rewards/MultiModalAccuracyORM/std": 0.40963622033596037,
      "step": 120,
      "train_speed(iter/s)": 0.035724
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 640.0,
      "completions/mean_length": 379.45001220703125,
      "completions/min_length": 187.1,
      "epoch": 0.050505050505050504,
      "grad_norm": 1.321049130692736,
      "kl": 0.0020069122314453126,
      "learning_rate": 2e-07,
      "loss": -0.019822967052459717,
      "memory(GiB)": 111.74,
      "reward": 0.2916666708886623,
      "reward_std": 0.32370694279670714,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666708886623,
      "rewards/MultiModalAccuracyORM/std": 0.32370694279670714,
      "step": 125,
      "train_speed(iter/s)": 0.035602
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 535.7,
      "completions/mean_length": 316.5916748046875,
      "completions/min_length": 171.4,
      "epoch": 0.052525252525252523,
      "grad_norm": 2.460967418512405,
      "kl": 0.0105987548828125,
      "learning_rate": 2e-07,
      "loss": 0.0003096837550401688,
      "memory(GiB)": 111.74,
      "reward": 0.20833333656191827,
      "reward_std": 0.29007510244846346,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333656191827,
      "rewards/MultiModalAccuracyORM/std": 0.29007510244846346,
      "step": 130,
      "train_speed(iter/s)": 0.035448
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 666.4,
      "completions/mean_length": 387.5166763305664,
      "completions/min_length": 184.3,
      "epoch": 0.05454545454545454,
      "grad_norm": 0.059862028341158974,
      "kl": 0.011987686157226562,
      "learning_rate": 2e-07,
      "loss": -0.011434757709503173,
      "memory(GiB)": 111.74,
      "reward": 0.1083333358168602,
      "reward_std": 0.25866150557994844,
      "rewards/MultiModalAccuracyORM/mean": 0.1083333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.25866150557994844,
      "step": 135,
      "train_speed(iter/s)": 0.035278
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 629.3,
      "completions/mean_length": 382.4166778564453,
      "completions/min_length": 206.3,
      "epoch": 0.05656565656565657,
      "grad_norm": 0.8204164270444702,
      "kl": 0.002767181396484375,
      "learning_rate": 2e-07,
      "loss": 0.004211039841175079,
      "memory(GiB)": 111.74,
      "reward": 0.27500001192092893,
      "reward_std": 0.2777498096227646,
      "rewards/MultiModalAccuracyORM/mean": 0.27500001192092893,
      "rewards/MultiModalAccuracyORM/std": 0.2777498096227646,
      "step": 140,
      "train_speed(iter/s)": 0.035472
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 532.4,
      "completions/mean_length": 358.13333892822266,
      "completions/min_length": 230.0,
      "epoch": 0.05858585858585859,
      "grad_norm": 2.288187560312466,
      "kl": 0.006110763549804688,
      "learning_rate": 2e-07,
      "loss": -6.483197212219239e-05,
      "memory(GiB)": 111.74,
      "reward": 0.13333334028720856,
      "reward_std": 0.19964569807052612,
      "rewards/MultiModalAccuracyORM/mean": 0.13333334028720856,
      "rewards/MultiModalAccuracyORM/std": 0.19964569807052612,
      "step": 145,
      "train_speed(iter/s)": 0.035406
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.8,
      "completions/mean_length": 361.4166763305664,
      "completions/min_length": 210.5,
      "epoch": 0.06060606060606061,
      "grad_norm": 0.015594201645230225,
      "kl": 0.015087890625,
      "learning_rate": 2e-07,
      "loss": 0.015390211343765258,
      "memory(GiB)": 111.74,
      "reward": 0.14166667237877845,
      "reward_std": 0.21374862194061278,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.21374862194061278,
      "step": 150,
      "train_speed(iter/s)": 0.035348
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 469.4,
      "completions/mean_length": 268.90834045410156,
      "completions/min_length": 145.7,
      "epoch": 0.06262626262626263,
      "grad_norm": 1.9984607447420715,
      "kl": 0.009865570068359374,
      "learning_rate": 2e-07,
      "loss": 0.041778740286827085,
      "memory(GiB)": 111.74,
      "reward": 0.15000000596046448,
      "reward_std": 0.2238060563802719,
      "rewards/MultiModalAccuracyORM/mean": 0.15000000596046448,
      "rewards/MultiModalAccuracyORM/std": 0.2238060563802719,
      "step": 155,
      "train_speed(iter/s)": 0.035429
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.6,
      "completions/mean_length": 307.5416748046875,
      "completions/min_length": 163.1,
      "epoch": 0.06464646464646465,
      "grad_norm": 1.9710039404778148,
      "kl": 0.0016231536865234375,
      "learning_rate": 2e-07,
      "loss": 0.06229003667831421,
      "memory(GiB)": 111.74,
      "reward": 0.2583333395421505,
      "reward_std": 0.35413345992565154,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.35413345992565154,
      "step": 160,
      "train_speed(iter/s)": 0.035424
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 702.8,
      "completions/mean_length": 392.75000915527346,
      "completions/min_length": 207.7,
      "epoch": 0.06666666666666667,
      "grad_norm": 1.4786377917798241,
      "kl": 0.009944915771484375,
      "learning_rate": 2e-07,
      "loss": 0.01215519905090332,
      "memory(GiB)": 111.74,
      "reward": 0.24166667237877845,
      "reward_std": 0.28784283697605134,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.28784283697605134,
      "step": 165,
      "train_speed(iter/s)": 0.035279
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 482.7,
      "completions/mean_length": 280.4750061035156,
      "completions/min_length": 144.3,
      "epoch": 0.06868686868686869,
      "grad_norm": 3.7940420455147077,
      "kl": 0.019321441650390625,
      "learning_rate": 2e-07,
      "loss": -0.022571200132369997,
      "memory(GiB)": 111.74,
      "reward": 0.30833334028720855,
      "reward_std": 0.365692725777626,
      "rewards/MultiModalAccuracyORM/mean": 0.30833334028720855,
      "rewards/MultiModalAccuracyORM/std": 0.365692725777626,
      "step": 170,
      "train_speed(iter/s)": 0.035381
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.2,
      "completions/mean_length": 346.808341217041,
      "completions/min_length": 159.3,
      "epoch": 0.0707070707070707,
      "grad_norm": 1.6037297839480729,
      "kl": 0.0017574310302734375,
      "learning_rate": 2e-07,
      "loss": 0.05014150142669678,
      "memory(GiB)": 111.74,
      "reward": 0.35000001415610316,
      "reward_std": 0.3534030318260193,
      "rewards/MultiModalAccuracyORM/mean": 0.35000001415610316,
      "rewards/MultiModalAccuracyORM/std": 0.3534030318260193,
      "step": 175,
      "train_speed(iter/s)": 0.035382
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 487.0,
      "completions/mean_length": 324.31666870117186,
      "completions/min_length": 202.0,
      "epoch": 0.07272727272727272,
      "grad_norm": 2.7315358529507865,
      "kl": 0.0067108154296875,
      "learning_rate": 2e-07,
      "loss": 0.017354550957679748,
      "memory(GiB)": 111.74,
      "reward": 0.10833333730697632,
      "reward_std": 0.2448128044605255,
      "rewards/MultiModalAccuracyORM/mean": 0.10833333730697632,
      "rewards/MultiModalAccuracyORM/std": 0.2448128044605255,
      "step": 180,
      "train_speed(iter/s)": 0.035416
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 532.3,
      "completions/mean_length": 270.41667861938475,
      "completions/min_length": 138.9,
      "epoch": 0.07474747474747474,
      "grad_norm": 2.314028672730481,
      "kl": 0.002983856201171875,
      "learning_rate": 2e-07,
      "loss": 0.033014419674873355,
      "memory(GiB)": 111.74,
      "reward": 0.3333333425223827,
      "reward_std": 0.2566834628582001,
      "rewards/MultiModalAccuracyORM/mean": 0.3333333425223827,
      "rewards/MultiModalAccuracyORM/std": 0.2566834628582001,
      "step": 185,
      "train_speed(iter/s)": 0.035387
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 561.6,
      "completions/mean_length": 341.2416763305664,
      "completions/min_length": 181.1,
      "epoch": 0.07676767676767676,
      "grad_norm": 2.3931438253006387,
      "kl": 0.00200347900390625,
      "learning_rate": 2e-07,
      "loss": 0.038839906454086304,
      "memory(GiB)": 111.74,
      "reward": 0.17500000596046447,
      "reward_std": 0.2684228092432022,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000596046447,
      "rewards/MultiModalAccuracyORM/std": 0.2684228092432022,
      "step": 190,
      "train_speed(iter/s)": 0.03545
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.3,
      "completions/mean_length": 375.1000045776367,
      "completions/min_length": 215.9,
      "epoch": 0.07878787878787878,
      "grad_norm": 1.8630040945251685,
      "kl": 0.002384376525878906,
      "learning_rate": 2e-07,
      "loss": -0.015469104051589966,
      "memory(GiB)": 111.74,
      "reward": 0.1583333395421505,
      "reward_std": 0.27148365080356596,
      "rewards/MultiModalAccuracyORM/mean": 0.1583333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.27148365080356596,
      "step": 195,
      "train_speed(iter/s)": 0.035415
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 638.2,
      "completions/mean_length": 379.8833435058594,
      "completions/min_length": 200.8,
      "epoch": 0.08080808080808081,
      "grad_norm": 2.200570213421646,
      "kl": 0.0036174774169921873,
      "learning_rate": 2e-07,
      "loss": 0.006271684169769287,
      "memory(GiB)": 111.74,
      "reward": 0.25000000447034837,
      "reward_std": 0.42421777844429015,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000447034837,
      "rewards/MultiModalAccuracyORM/std": 0.42421777844429015,
      "step": 200,
      "train_speed(iter/s)": 0.035369
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.3,
      "completions/mean_length": 345.00001220703126,
      "completions/min_length": 174.6,
      "epoch": 0.08282828282828283,
      "grad_norm": 1.1008615802288388,
      "kl": 0.0024932861328125,
      "learning_rate": 2e-07,
      "loss": 0.006234277784824371,
      "memory(GiB)": 111.74,
      "reward": 0.16666667237877847,
      "reward_std": 0.2938547760248184,
      "rewards/MultiModalAccuracyORM/mean": 0.16666667237877847,
      "rewards/MultiModalAccuracyORM/std": 0.2938547760248184,
      "step": 205,
      "train_speed(iter/s)": 0.035338
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 425.3,
      "completions/mean_length": 269.37500762939453,
      "completions/min_length": 147.6,
      "epoch": 0.08484848484848485,
      "grad_norm": 3.476093319706285,
      "kl": 0.0026340484619140625,
      "learning_rate": 2e-07,
      "loss": -0.0015334427356719972,
      "memory(GiB)": 111.74,
      "reward": 0.25000000447034837,
      "reward_std": 0.300192129611969,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000447034837,
      "rewards/MultiModalAccuracyORM/std": 0.300192129611969,
      "step": 210,
      "train_speed(iter/s)": 0.035464
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 537.8,
      "completions/mean_length": 285.75000762939453,
      "completions/min_length": 148.7,
      "epoch": 0.08686868686868687,
      "grad_norm": 2.1593026278667984,
      "kl": 0.006510162353515625,
      "learning_rate": 2e-07,
      "loss": -0.015721744298934935,
      "memory(GiB)": 111.74,
      "reward": 0.21666667088866234,
      "reward_std": 0.3470772713422775,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667088866234,
      "rewards/MultiModalAccuracyORM/std": 0.3470772713422775,
      "step": 215,
      "train_speed(iter/s)": 0.035439
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.7,
      "completions/mean_length": 354.20001220703125,
      "completions/min_length": 199.6,
      "epoch": 0.08888888888888889,
      "grad_norm": 3.7456181210533077,
      "kl": 0.004998016357421875,
      "learning_rate": 2e-07,
      "loss": -0.02768584489822388,
      "memory(GiB)": 111.74,
      "reward": 0.28333333879709244,
      "reward_std": 0.28452777564525605,
      "rewards/MultiModalAccuracyORM/mean": 0.28333333879709244,
      "rewards/MultiModalAccuracyORM/std": 0.28452777564525605,
      "step": 220,
      "train_speed(iter/s)": 0.035428
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 533.5,
      "completions/mean_length": 311.5416778564453,
      "completions/min_length": 177.8,
      "epoch": 0.09090909090909091,
      "grad_norm": 2.0378307788473684,
      "kl": 0.002862548828125,
      "learning_rate": 2e-07,
      "loss": 0.003831219673156738,
      "memory(GiB)": 111.74,
      "reward": 0.4000000111758709,
      "reward_std": 0.3752594023942947,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000111758709,
      "rewards/MultiModalAccuracyORM/std": 0.3752594023942947,
      "step": 225,
      "train_speed(iter/s)": 0.035407
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 671.5,
      "completions/mean_length": 371.4583435058594,
      "completions/min_length": 190.4,
      "epoch": 0.09292929292929293,
      "grad_norm": 2.1323681326918855,
      "kl": 0.0035661697387695313,
      "learning_rate": 2e-07,
      "loss": 0.0016314834356307983,
      "memory(GiB)": 111.74,
      "reward": 0.2083333432674408,
      "reward_std": 0.3477985322475433,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.3477985322475433,
      "step": 230,
      "train_speed(iter/s)": 0.035371
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.0,
      "completions/mean_length": 287.6916778564453,
      "completions/min_length": 168.0,
      "epoch": 0.09494949494949495,
      "grad_norm": 3.249083513364966,
      "kl": 0.00834503173828125,
      "learning_rate": 2e-07,
      "loss": -0.004596877098083496,
      "memory(GiB)": 111.74,
      "reward": 0.13333333730697633,
      "reward_std": 0.19513316750526427,
      "rewards/MultiModalAccuracyORM/mean": 0.13333333730697633,
      "rewards/MultiModalAccuracyORM/std": 0.19513316750526427,
      "step": 235,
      "train_speed(iter/s)": 0.03535
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 492.4,
      "completions/mean_length": 316.3583450317383,
      "completions/min_length": 173.8,
      "epoch": 0.09696969696969697,
      "grad_norm": 2.412571205764537,
      "kl": 0.005106735229492188,
      "learning_rate": 2e-07,
      "loss": 0.004295679926872254,
      "memory(GiB)": 111.74,
      "reward": 0.23333333879709245,
      "reward_std": 0.3171865612268448,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333879709245,
      "rewards/MultiModalAccuracyORM/std": 0.3171865612268448,
      "step": 240,
      "train_speed(iter/s)": 0.035314
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 468.3,
      "completions/mean_length": 298.17500457763674,
      "completions/min_length": 166.5,
      "epoch": 0.09898989898989899,
      "grad_norm": 1.9493555044308044,
      "kl": 0.003982925415039062,
      "learning_rate": 2e-07,
      "loss": -0.04734513759613037,
      "memory(GiB)": 111.74,
      "reward": 0.2333333395421505,
      "reward_std": 0.3471368670463562,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3471368670463562,
      "step": 245,
      "train_speed(iter/s)": 0.035338
    },
    {
      "epoch": 0.10101010101010101,
      "grad_norm": 1.3381064401700158,
      "learning_rate": 2e-07,
      "loss": -0.013491255044937134,
      "memory(GiB)": 111.78,
      "step": 250,
      "train_speed(iter/s)": 0.035321
    },
    {
      "epoch": 0.10101010101010101,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0016666666666666666,
      "eval_completions/max_length": 567.88,
      "eval_completions/mean_length": 340.8433419799805,
      "eval_completions/min_length": 176.68,
      "eval_kl": 0.0008290672302246094,
      "eval_loss": 0.011471391655504704,
      "eval_reward": 0.25833333894610405,
      "eval_reward_std": 0.3269642275571823,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.25833333894610405,
      "eval_rewards/MultiModalAccuracyORM/std": 0.3269642275571823,
      "eval_runtime": 589.5277,
      "eval_samples_per_second": 0.085,
      "eval_steps_per_second": 0.008,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.2,
      "completions/mean_length": 405.27917556762696,
      "completions/min_length": 229.2,
      "epoch": 0.10303030303030303,
      "grad_norm": 1.3096626974864818,
      "kl": 0.002015495300292969,
      "learning_rate": 2e-07,
      "loss": 0.022876815497875215,
      "memory(GiB)": 113.5,
      "reward": 0.21250000447034836,
      "reward_std": 0.2526913657784462,
      "rewards/MultiModalAccuracyORM/mean": 0.21250000447034836,
      "rewards/MultiModalAccuracyORM/std": 0.2526913657784462,
      "step": 255,
      "train_speed(iter/s)": 0.031791
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 448.6,
      "completions/mean_length": 291.32500915527345,
      "completions/min_length": 161.1,
      "epoch": 0.10505050505050505,
      "grad_norm": 2.7968135195637585,
      "kl": 0.0034709930419921874,
      "learning_rate": 2e-07,
      "loss": 0.02938370406627655,
      "memory(GiB)": 113.5,
      "reward": 0.2333333410322666,
      "reward_std": 0.30821192264556885,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.30821192264556885,
      "step": 260,
      "train_speed(iter/s)": 0.031882
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 635.9,
      "completions/mean_length": 381.02501220703124,
      "completions/min_length": 193.9,
      "epoch": 0.10707070707070707,
      "grad_norm": 2.2674884321553908,
      "kl": 0.0033966064453125,
      "learning_rate": 2e-07,
      "loss": 0.03137490749359131,
      "memory(GiB)": 113.5,
      "reward": 0.20000000149011612,
      "reward_std": 0.3492949903011322,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000149011612,
      "rewards/MultiModalAccuracyORM/std": 0.3492949903011322,
      "step": 265,
      "train_speed(iter/s)": 0.031856
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 622.5,
      "completions/mean_length": 384.0666763305664,
      "completions/min_length": 238.4,
      "epoch": 0.10909090909090909,
      "grad_norm": 1.4757764767450905,
      "kl": 0.006084823608398437,
      "learning_rate": 2e-07,
      "loss": 0.012543919682502746,
      "memory(GiB)": 113.5,
      "reward": 0.3000000141561031,
      "reward_std": 0.42771587073802947,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000141561031,
      "rewards/MultiModalAccuracyORM/std": 0.42771587073802947,
      "step": 270,
      "train_speed(iter/s)": 0.031865
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 569.9,
      "completions/mean_length": 362.15000610351564,
      "completions/min_length": 202.6,
      "epoch": 0.1111111111111111,
      "grad_norm": 2.133208686622741,
      "kl": 0.004328155517578125,
      "learning_rate": 2e-07,
      "loss": 0.014178204536437988,
      "memory(GiB)": 113.5,
      "reward": 0.3083333447575569,
      "reward_std": 0.35184402465820314,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333447575569,
      "rewards/MultiModalAccuracyORM/std": 0.35184402465820314,
      "step": 275,
      "train_speed(iter/s)": 0.031998
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 468.6,
      "completions/mean_length": 274.9250061035156,
      "completions/min_length": 153.3,
      "epoch": 0.11313131313131314,
      "grad_norm": 2.320837755784546,
      "kl": 0.002793121337890625,
      "learning_rate": 2e-07,
      "loss": -0.002980351448059082,
      "memory(GiB)": 113.5,
      "reward": 0.2666666738688946,
      "reward_std": 0.30639869570732114,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.30639869570732114,
      "step": 280,
      "train_speed(iter/s)": 0.032128
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.03333333333333333,
      "completions/max_length": 807.9,
      "completions/mean_length": 470.2083465576172,
      "completions/min_length": 219.6,
      "epoch": 0.11515151515151516,
      "grad_norm": 1.5979399011587243,
      "kl": 0.006278228759765625,
      "learning_rate": 2e-07,
      "loss": 0.01850479543209076,
      "memory(GiB)": 113.5,
      "reward": 0.39166667088866236,
      "reward_std": 0.4097074121236801,
      "rewards/MultiModalAccuracyORM/mean": 0.39166667088866236,
      "rewards/MultiModalAccuracyORM/std": 0.4097074121236801,
      "step": 285,
      "train_speed(iter/s)": 0.032047
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 617.6,
      "completions/mean_length": 375.62501373291013,
      "completions/min_length": 199.8,
      "epoch": 0.11717171717171718,
      "grad_norm": 1.6711790369238562,
      "kl": 0.002816009521484375,
      "learning_rate": 2e-07,
      "loss": 0.05777819156646728,
      "memory(GiB)": 113.5,
      "reward": 0.34166667237877846,
      "reward_std": 0.34181976318359375,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667237877846,
      "rewards/MultiModalAccuracyORM/std": 0.34181976318359375,
      "step": 290,
      "train_speed(iter/s)": 0.032072
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 593.7,
      "completions/mean_length": 373.40001068115237,
      "completions/min_length": 222.1,
      "epoch": 0.1191919191919192,
      "grad_norm": 1.2952752164962844,
      "kl": 0.006529617309570313,
      "learning_rate": 2e-07,
      "loss": 0.02864307165145874,
      "memory(GiB)": 113.5,
      "reward": 0.21666667386889457,
      "reward_std": 0.22631654143333435,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667386889457,
      "rewards/MultiModalAccuracyORM/std": 0.22631654143333435,
      "step": 295,
      "train_speed(iter/s)": 0.032146
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 571.7,
      "completions/mean_length": 389.9750091552734,
      "completions/min_length": 260.7,
      "epoch": 0.12121212121212122,
      "grad_norm": 2.5199865002602895,
      "kl": 0.00448150634765625,
      "learning_rate": 2e-07,
      "loss": 0.0044337153434753414,
      "memory(GiB)": 113.5,
      "reward": 0.3583333417773247,
      "reward_std": 0.3886078953742981,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.3886078953742981,
      "step": 300,
      "train_speed(iter/s)": 0.03218
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 463.3,
      "completions/mean_length": 298.0666748046875,
      "completions/min_length": 161.4,
      "epoch": 0.12323232323232323,
      "grad_norm": 0.04178305906141455,
      "kl": 0.00428619384765625,
      "learning_rate": 2e-07,
      "loss": -0.04246575832366943,
      "memory(GiB)": 113.5,
      "reward": 0.10000000223517418,
      "reward_std": 0.20118070244789124,
      "rewards/MultiModalAccuracyORM/mean": 0.10000000223517418,
      "rewards/MultiModalAccuracyORM/std": 0.20118070244789124,
      "step": 305,
      "train_speed(iter/s)": 0.032256
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.8,
      "completions/mean_length": 311.39167404174805,
      "completions/min_length": 131.0,
      "epoch": 0.12525252525252525,
      "grad_norm": 0.041069103688074135,
      "kl": 0.004656982421875,
      "learning_rate": 2e-07,
      "loss": 0.024589771032333375,
      "memory(GiB)": 113.5,
      "reward": 0.23333334401249886,
      "reward_std": 0.274494343996048,
      "rewards/MultiModalAccuracyORM/mean": 0.23333334401249886,
      "rewards/MultiModalAccuracyORM/std": 0.274494343996048,
      "step": 310,
      "train_speed(iter/s)": 0.032348
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 585.4,
      "completions/mean_length": 349.1750030517578,
      "completions/min_length": 191.6,
      "epoch": 0.12727272727272726,
      "grad_norm": 1.4578057904181938,
      "kl": 0.008466339111328125,
      "learning_rate": 2e-07,
      "loss": 0.019071149826049804,
      "memory(GiB)": 113.5,
      "reward": 0.18333334103226662,
      "reward_std": 0.24637180864810942,
      "rewards/MultiModalAccuracyORM/mean": 0.18333334103226662,
      "rewards/MultiModalAccuracyORM/std": 0.24637180864810942,
      "step": 315,
      "train_speed(iter/s)": 0.032385
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.1,
      "completions/mean_length": 305.83334426879884,
      "completions/min_length": 177.6,
      "epoch": 0.1292929292929293,
      "grad_norm": 2.0332697577512895,
      "kl": 0.003513336181640625,
      "learning_rate": 2e-07,
      "loss": 0.012425613403320313,
      "memory(GiB)": 113.5,
      "reward": 0.2583333395421505,
      "reward_std": 0.3207202464342117,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3207202464342117,
      "step": 320,
      "train_speed(iter/s)": 0.032468
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 528.6,
      "completions/mean_length": 350.608341217041,
      "completions/min_length": 207.5,
      "epoch": 0.13131313131313133,
      "grad_norm": 2.9017059326660206,
      "kl": 0.008218002319335938,
      "learning_rate": 2e-07,
      "loss": -0.007495748996734619,
      "memory(GiB)": 113.5,
      "reward": 0.24166667237877845,
      "reward_std": 0.2847819983959198,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.2847819983959198,
      "step": 325,
      "train_speed(iter/s)": 0.032489
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 506.7,
      "completions/mean_length": 348.37501220703126,
      "completions/min_length": 230.4,
      "epoch": 0.13333333333333333,
      "grad_norm": 2.0452895180997612,
      "kl": 0.00405426025390625,
      "learning_rate": 2e-07,
      "loss": 0.012925130128860474,
      "memory(GiB)": 113.5,
      "reward": 0.2250000059604645,
      "reward_std": 0.34633229672908783,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000059604645,
      "rewards/MultiModalAccuracyORM/std": 0.34633229672908783,
      "step": 330,
      "train_speed(iter/s)": 0.032601
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 618.4,
      "completions/mean_length": 391.80001068115234,
      "completions/min_length": 205.6,
      "epoch": 0.13535353535353536,
      "grad_norm": 2.3689531245965014,
      "kl": 0.0037220001220703127,
      "learning_rate": 2e-07,
      "loss": -0.02884441614151001,
      "memory(GiB)": 113.5,
      "reward": 0.34166667610406876,
      "reward_std": 0.3244759202003479,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667610406876,
      "rewards/MultiModalAccuracyORM/std": 0.3244759202003479,
      "step": 335,
      "train_speed(iter/s)": 0.032628
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 711.7,
      "completions/mean_length": 393.9500137329102,
      "completions/min_length": 210.7,
      "epoch": 0.13737373737373737,
      "grad_norm": 3.1268062962961447,
      "kl": 0.00513458251953125,
      "learning_rate": 2e-07,
      "loss": -0.007295359671115875,
      "memory(GiB)": 113.5,
      "reward": 0.12500000447034837,
      "reward_std": 0.2837377518415451,
      "rewards/MultiModalAccuracyORM/mean": 0.12500000447034837,
      "rewards/MultiModalAccuracyORM/std": 0.2837377518415451,
      "step": 340,
      "train_speed(iter/s)": 0.032638
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 510.2,
      "completions/mean_length": 325.42500457763674,
      "completions/min_length": 202.4,
      "epoch": 0.1393939393939394,
      "grad_norm": 2.570539853128275,
      "kl": 0.010897064208984375,
      "learning_rate": 2e-07,
      "loss": -0.03583614826202393,
      "memory(GiB)": 113.5,
      "reward": 0.23333333879709245,
      "reward_std": 0.28154108226299285,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333879709245,
      "rewards/MultiModalAccuracyORM/std": 0.28154108226299285,
      "step": 345,
      "train_speed(iter/s)": 0.032636
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.3,
      "completions/mean_length": 348.71667327880857,
      "completions/min_length": 202.0,
      "epoch": 0.1414141414141414,
      "grad_norm": 1.4744760782673672,
      "kl": 0.005255126953125,
      "learning_rate": 2e-07,
      "loss": 0.06839704513549805,
      "memory(GiB)": 113.5,
      "reward": 0.3416666738688946,
      "reward_std": 0.3267677813768387,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.3267677813768387,
      "step": 350,
      "train_speed(iter/s)": 0.032723
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 685.7,
      "completions/mean_length": 395.8666763305664,
      "completions/min_length": 217.6,
      "epoch": 0.14343434343434344,
      "grad_norm": 0.032365545804024926,
      "kl": 0.00413818359375,
      "learning_rate": 2e-07,
      "loss": -0.008323472738265992,
      "memory(GiB)": 113.5,
      "reward": 0.24166667610406875,
      "reward_std": 0.29187673330307007,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667610406875,
      "rewards/MultiModalAccuracyORM/std": 0.29187673330307007,
      "step": 355,
      "train_speed(iter/s)": 0.032744
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 521.9,
      "completions/mean_length": 327.34167633056643,
      "completions/min_length": 184.3,
      "epoch": 0.14545454545454545,
      "grad_norm": 1.1619770767978876,
      "kl": 0.01970672607421875,
      "learning_rate": 2e-07,
      "loss": 0.014476829767227173,
      "memory(GiB)": 113.5,
      "reward": 0.3916666731238365,
      "reward_std": 0.35942656397819517,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.35942656397819517,
      "step": 360,
      "train_speed(iter/s)": 0.032848
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 477.8,
      "completions/mean_length": 331.90001220703124,
      "completions/min_length": 222.0,
      "epoch": 0.14747474747474748,
      "grad_norm": 1.4073504269814208,
      "kl": 0.006307220458984375,
      "learning_rate": 2e-07,
      "loss": 0.03325994312763214,
      "memory(GiB)": 113.5,
      "reward": 0.05833333432674408,
      "reward_std": 0.16069675385951995,
      "rewards/MultiModalAccuracyORM/mean": 0.05833333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.16069675385951995,
      "step": 365,
      "train_speed(iter/s)": 0.032856
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 698.0,
      "completions/mean_length": 423.8916839599609,
      "completions/min_length": 252.2,
      "epoch": 0.1494949494949495,
      "grad_norm": 1.4976657581094635,
      "kl": 0.006170654296875,
      "learning_rate": 2e-07,
      "loss": -0.01670956760644913,
      "memory(GiB)": 113.5,
      "reward": 0.20000000223517417,
      "reward_std": 0.21999078392982482,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000223517417,
      "rewards/MultiModalAccuracyORM/std": 0.21999078392982482,
      "step": 370,
      "train_speed(iter/s)": 0.032832
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.2,
      "completions/mean_length": 363.00001068115233,
      "completions/min_length": 182.0,
      "epoch": 0.15151515151515152,
      "grad_norm": 2.481807345956626,
      "kl": 0.0046051025390625,
      "learning_rate": 2e-07,
      "loss": 0.04444247186183929,
      "memory(GiB)": 113.5,
      "reward": 0.400000012665987,
      "reward_std": 0.3985941380262375,
      "rewards/MultiModalAccuracyORM/mean": 0.400000012665987,
      "rewards/MultiModalAccuracyORM/std": 0.3985941380262375,
      "step": 375,
      "train_speed(iter/s)": 0.032805
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 597.2,
      "completions/mean_length": 362.1333435058594,
      "completions/min_length": 207.8,
      "epoch": 0.15353535353535352,
      "grad_norm": 1.225556055703092,
      "kl": 0.01065216064453125,
      "learning_rate": 2e-07,
      "loss": 0.0010599255561828612,
      "memory(GiB)": 113.5,
      "reward": 0.2250000022351742,
      "reward_std": 0.22698737680912018,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000022351742,
      "rewards/MultiModalAccuracyORM/std": 0.22698737680912018,
      "step": 380,
      "train_speed(iter/s)": 0.032797
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 450.5,
      "completions/mean_length": 259.9750068664551,
      "completions/min_length": 151.0,
      "epoch": 0.15555555555555556,
      "grad_norm": 3.170333391476991,
      "kl": 0.010870361328125,
      "learning_rate": 2e-07,
      "loss": 0.04853119254112244,
      "memory(GiB)": 113.5,
      "reward": 0.4500000074505806,
      "reward_std": 0.32345272302627565,
      "rewards/MultiModalAccuracyORM/mean": 0.4500000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.32345272302627565,
      "step": 385,
      "train_speed(iter/s)": 0.032869
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 724.9,
      "completions/mean_length": 359.0833465576172,
      "completions/min_length": 170.4,
      "epoch": 0.15757575757575756,
      "grad_norm": 1.6322015536148482,
      "kl": 0.00597076416015625,
      "learning_rate": 2e-07,
      "loss": -0.003878127783536911,
      "memory(GiB)": 113.5,
      "reward": 0.19166667237877846,
      "reward_std": 0.3196614503860474,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667237877846,
      "rewards/MultiModalAccuracyORM/std": 0.3196614503860474,
      "step": 390,
      "train_speed(iter/s)": 0.032905
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 692.1,
      "completions/mean_length": 429.06668014526366,
      "completions/min_length": 281.5,
      "epoch": 0.1595959595959596,
      "grad_norm": 2.750918910992668,
      "kl": 0.059673309326171875,
      "learning_rate": 2e-07,
      "loss": 0.016079676151275635,
      "memory(GiB)": 113.5,
      "reward": 0.14166666865348815,
      "reward_std": 0.23854664266109465,
      "rewards/MultiModalAccuracyORM/mean": 0.14166666865348815,
      "rewards/MultiModalAccuracyORM/std": 0.23854664266109465,
      "step": 395,
      "train_speed(iter/s)": 0.032918
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 722.7,
      "completions/mean_length": 381.7416793823242,
      "completions/min_length": 187.8,
      "epoch": 0.16161616161616163,
      "grad_norm": 1.276714724002977,
      "kl": 0.004840087890625,
      "learning_rate": 2e-07,
      "loss": 0.030894118547439575,
      "memory(GiB)": 113.5,
      "reward": 0.2750000074505806,
      "reward_std": 0.21374862194061278,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.21374862194061278,
      "step": 400,
      "train_speed(iter/s)": 0.032861
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 454.0,
      "completions/mean_length": 292.2416748046875,
      "completions/min_length": 188.5,
      "epoch": 0.16363636363636364,
      "grad_norm": 1.285497466986634,
      "kl": 0.00401611328125,
      "learning_rate": 2e-07,
      "loss": -0.00028939247131347655,
      "memory(GiB)": 113.5,
      "reward": 0.25833333656191826,
      "reward_std": 0.2986306995153427,
      "rewards/MultiModalAccuracyORM/mean": 0.25833333656191826,
      "rewards/MultiModalAccuracyORM/std": 0.2986306995153427,
      "step": 405,
      "train_speed(iter/s)": 0.032956
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 574.5,
      "completions/mean_length": 332.90001373291017,
      "completions/min_length": 195.8,
      "epoch": 0.16565656565656567,
      "grad_norm": 2.4986293478171695,
      "kl": 0.0099639892578125,
      "learning_rate": 2e-07,
      "loss": 0.01775420904159546,
      "memory(GiB)": 113.5,
      "reward": 0.14166666939854622,
      "reward_std": 0.2355453997850418,
      "rewards/MultiModalAccuracyORM/mean": 0.14166666939854622,
      "rewards/MultiModalAccuracyORM/std": 0.2355453997850418,
      "step": 410,
      "train_speed(iter/s)": 0.032979
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 590.6,
      "completions/mean_length": 352.77500915527344,
      "completions/min_length": 189.9,
      "epoch": 0.16767676767676767,
      "grad_norm": 1.8788296454969475,
      "kl": 0.00422210693359375,
      "learning_rate": 2e-07,
      "loss": -0.005545926094055176,
      "memory(GiB)": 113.5,
      "reward": 0.32500001043081284,
      "reward_std": 0.3388330668210983,
      "rewards/MultiModalAccuracyORM/mean": 0.32500001043081284,
      "rewards/MultiModalAccuracyORM/std": 0.3388330668210983,
      "step": 415,
      "train_speed(iter/s)": 0.033025
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 690.9,
      "completions/mean_length": 414.40001068115237,
      "completions/min_length": 239.5,
      "epoch": 0.1696969696969697,
      "grad_norm": 0.07032446522446908,
      "kl": 0.005554962158203125,
      "learning_rate": 2e-07,
      "loss": -0.002293400466442108,
      "memory(GiB)": 113.5,
      "reward": 0.20833333879709243,
      "reward_std": 0.21973656117916107,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333879709243,
      "rewards/MultiModalAccuracyORM/std": 0.21973656117916107,
      "step": 420,
      "train_speed(iter/s)": 0.032985
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.6,
      "completions/mean_length": 308.7250091552734,
      "completions/min_length": 175.5,
      "epoch": 0.1717171717171717,
      "grad_norm": 1.4798323094999317,
      "kl": 0.00482025146484375,
      "learning_rate": 2e-07,
      "loss": 0.01790083050727844,
      "memory(GiB)": 113.5,
      "reward": 0.25000000521540644,
      "reward_std": 0.2104335606098175,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000521540644,
      "rewards/MultiModalAccuracyORM/std": 0.2104335606098175,
      "step": 425,
      "train_speed(iter/s)": 0.033033
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 557.9,
      "completions/mean_length": 350.28334655761716,
      "completions/min_length": 202.6,
      "epoch": 0.17373737373737375,
      "grad_norm": 1.9633281758859618,
      "kl": 0.004430389404296875,
      "learning_rate": 2e-07,
      "loss": 0.0008227840065956116,
      "memory(GiB)": 113.5,
      "reward": 0.37500001713633535,
      "reward_std": 0.3780064254999161,
      "rewards/MultiModalAccuracyORM/mean": 0.37500001713633535,
      "rewards/MultiModalAccuracyORM/std": 0.3780064254999161,
      "step": 430,
      "train_speed(iter/s)": 0.033105
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 430.3,
      "completions/mean_length": 264.40834045410156,
      "completions/min_length": 139.7,
      "epoch": 0.17575757575757575,
      "grad_norm": 1.9529808864934317,
      "kl": 0.00596923828125,
      "learning_rate": 2e-07,
      "loss": -0.06038873791694641,
      "memory(GiB)": 113.5,
      "reward": 0.3333333387970924,
      "reward_std": 0.29837648272514344,
      "rewards/MultiModalAccuracyORM/mean": 0.3333333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.29837648272514344,
      "step": 435,
      "train_speed(iter/s)": 0.033193
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 461.5,
      "completions/mean_length": 296.8333374023438,
      "completions/min_length": 171.6,
      "epoch": 0.17777777777777778,
      "grad_norm": 0.03169449948005974,
      "kl": 0.00481719970703125,
      "learning_rate": 2e-07,
      "loss": 0.018176303803920747,
      "memory(GiB)": 113.5,
      "reward": 0.25000000968575475,
      "reward_std": 0.2596701592206955,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000968575475,
      "rewards/MultiModalAccuracyORM/std": 0.2596701592206955,
      "step": 440,
      "train_speed(iter/s)": 0.03327
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 462.5,
      "completions/mean_length": 268.50834197998046,
      "completions/min_length": 126.3,
      "epoch": 0.1797979797979798,
      "grad_norm": 2.4262437209194774,
      "kl": 0.0057281494140625,
      "learning_rate": 2e-07,
      "loss": -0.034365218877792356,
      "memory(GiB)": 113.5,
      "reward": 0.2500000074505806,
      "reward_std": 0.38001427948474886,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.38001427948474886,
      "step": 445,
      "train_speed(iter/s)": 0.033325
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 519.4,
      "completions/mean_length": 337.42501373291014,
      "completions/min_length": 194.1,
      "epoch": 0.18181818181818182,
      "grad_norm": 2.3770604401183997,
      "kl": 0.00361785888671875,
      "learning_rate": 2e-07,
      "loss": -0.010681581497192384,
      "memory(GiB)": 113.5,
      "reward": 0.2833333358168602,
      "reward_std": 0.24490799605846406,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.24490799605846406,
      "step": 450,
      "train_speed(iter/s)": 0.033355
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 645.6,
      "completions/mean_length": 383.0333450317383,
      "completions/min_length": 228.9,
      "epoch": 0.18383838383838383,
      "grad_norm": 1.5212583244692293,
      "kl": 0.0044342041015625,
      "learning_rate": 2e-07,
      "loss": 0.010468679666519164,
      "memory(GiB)": 113.5,
      "reward": 0.22500000447034835,
      "reward_std": 0.29815449118614196,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000447034835,
      "rewards/MultiModalAccuracyORM/std": 0.29815449118614196,
      "step": 455,
      "train_speed(iter/s)": 0.033387
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 682.1,
      "completions/mean_length": 331.59167556762696,
      "completions/min_length": 148.5,
      "epoch": 0.18585858585858586,
      "grad_norm": 2.3101338751804605,
      "kl": 0.005951690673828125,
      "learning_rate": 2e-07,
      "loss": 0.013955891132354736,
      "memory(GiB)": 113.5,
      "reward": 0.2083333395421505,
      "reward_std": 0.3207202464342117,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3207202464342117,
      "step": 460,
      "train_speed(iter/s)": 0.033356
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 529.1,
      "completions/mean_length": 324.4416748046875,
      "completions/min_length": 189.3,
      "epoch": 0.18787878787878787,
      "grad_norm": 1.9306296492930712,
      "kl": 0.00476531982421875,
      "learning_rate": 2e-07,
      "loss": 0.0007774412631988525,
      "memory(GiB)": 113.5,
      "reward": 0.20833333805203438,
      "reward_std": 0.18332210481166838,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333805203438,
      "rewards/MultiModalAccuracyORM/std": 0.18332210481166838,
      "step": 465,
      "train_speed(iter/s)": 0.03337
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 696.5,
      "completions/mean_length": 451.75001220703126,
      "completions/min_length": 242.0,
      "epoch": 0.1898989898989899,
      "grad_norm": 2.9489928820712117,
      "kl": 0.003478240966796875,
      "learning_rate": 2e-07,
      "loss": 0.0002551078796386719,
      "memory(GiB)": 113.5,
      "reward": 0.14166666865348815,
      "reward_std": 0.22453648447990418,
      "rewards/MultiModalAccuracyORM/mean": 0.14166666865348815,
      "rewards/MultiModalAccuracyORM/std": 0.22453648447990418,
      "step": 470,
      "train_speed(iter/s)": 0.033353
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 655.2,
      "completions/mean_length": 419.60001983642576,
      "completions/min_length": 252.7,
      "epoch": 0.1919191919191919,
      "grad_norm": 1.657148402320105,
      "kl": 0.00272979736328125,
      "learning_rate": 2e-07,
      "loss": -0.02806915044784546,
      "memory(GiB)": 113.5,
      "reward": 0.25000000894069674,
      "reward_std": 0.3011055916547775,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000894069674,
      "rewards/MultiModalAccuracyORM/std": 0.3011055916547775,
      "step": 475,
      "train_speed(iter/s)": 0.033331
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 545.1,
      "completions/mean_length": 373.71667633056643,
      "completions/min_length": 256.2,
      "epoch": 0.19393939393939394,
      "grad_norm": 2.869711221257181,
      "kl": 0.0064971923828125,
      "learning_rate": 2e-07,
      "loss": -0.002555108070373535,
      "memory(GiB)": 113.5,
      "reward": 0.3916666768491268,
      "reward_std": 0.2636824816465378,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.2636824816465378,
      "step": 480,
      "train_speed(iter/s)": 0.033361
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 613.2,
      "completions/mean_length": 391.5833404541016,
      "completions/min_length": 218.1,
      "epoch": 0.19595959595959597,
      "grad_norm": 1.9631879540052586,
      "kl": 0.005725860595703125,
      "learning_rate": 2e-07,
      "loss": 0.0018699795007705688,
      "memory(GiB)": 113.5,
      "reward": 0.14166667237877845,
      "reward_std": 0.15595400035381318,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.15595400035381318,
      "step": 485,
      "train_speed(iter/s)": 0.033379
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 594.0,
      "completions/mean_length": 295.8583442687988,
      "completions/min_length": 156.6,
      "epoch": 0.19797979797979798,
      "grad_norm": 0.037793670384228664,
      "kl": 0.0073211669921875,
      "learning_rate": 2e-07,
      "loss": 0.020484793186187743,
      "memory(GiB)": 113.5,
      "reward": 0.20000000149011612,
      "reward_std": 0.24483142793178558,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000149011612,
      "rewards/MultiModalAccuracyORM/std": 0.24483142793178558,
      "step": 490,
      "train_speed(iter/s)": 0.033414
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 592.9,
      "completions/mean_length": 380.616682434082,
      "completions/min_length": 220.0,
      "epoch": 0.2,
      "grad_norm": 2.1512862837965163,
      "kl": 0.003929901123046875,
      "learning_rate": 2e-07,
      "loss": 0.0034599393606185914,
      "memory(GiB)": 113.5,
      "reward": 0.30000000521540643,
      "reward_std": 0.30715312659740446,
      "rewards/MultiModalAccuracyORM/mean": 0.30000000521540643,
      "rewards/MultiModalAccuracyORM/std": 0.30715312659740446,
      "step": 495,
      "train_speed(iter/s)": 0.033449
    },
    {
      "epoch": 0.20202020202020202,
      "grad_norm": 2.239910097717952,
      "learning_rate": 2e-07,
      "loss": 0.014047640562057494,
      "memory(GiB)": 113.5,
      "step": 500,
      "train_speed(iter/s)": 0.033495
    },
    {
      "epoch": 0.20202020202020202,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0016666666666666666,
      "eval_completions/max_length": 591.26,
      "eval_completions/mean_length": 358.19000946044923,
      "eval_completions/min_length": 202.24,
      "eval_kl": 0.002655487060546875,
      "eval_loss": 0.00915438961237669,
      "eval_reward": 0.22833333894610405,
      "eval_reward_std": 0.28466624081134795,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.22833333894610405,
      "eval_rewards/MultiModalAccuracyORM/std": 0.28466624081134795,
      "eval_runtime": 608.1673,
      "eval_samples_per_second": 0.082,
      "eval_steps_per_second": 0.008,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 521.35,
      "completions/mean_length": 332.39167404174805,
      "completions/min_length": 199.1,
      "epoch": 0.20404040404040405,
      "grad_norm": 2.3622087713081186,
      "kl": 0.004245758056640625,
      "learning_rate": 2e-07,
      "loss": -0.00013803243637084962,
      "memory(GiB)": 113.5,
      "reward": 0.3125000067055225,
      "reward_std": 0.3219920754432678,
      "rewards/MultiModalAccuracyORM/mean": 0.3125000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.3219920754432678,
      "step": 505,
      "train_speed(iter/s)": 0.031802
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 605.3,
      "completions/mean_length": 374.4833450317383,
      "completions/min_length": 209.5,
      "epoch": 0.20606060606060606,
      "grad_norm": 1.7757575475794216,
      "kl": 0.006531524658203125,
      "learning_rate": 2e-07,
      "loss": 0.03503022789955139,
      "memory(GiB)": 113.5,
      "reward": 0.29166667312383654,
      "reward_std": 0.28778324127197263,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667312383654,
      "rewards/MultiModalAccuracyORM/std": 0.28778324127197263,
      "step": 510,
      "train_speed(iter/s)": 0.031819
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 507.2,
      "completions/mean_length": 300.96667633056643,
      "completions/min_length": 179.3,
      "epoch": 0.2080808080808081,
      "grad_norm": 2.2727530064482235,
      "kl": 0.01416778564453125,
      "learning_rate": 2e-07,
      "loss": 0.022283512353897094,
      "memory(GiB)": 113.5,
      "reward": 0.24166667610406875,
      "reward_std": 0.3347875773906708,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667610406875,
      "rewards/MultiModalAccuracyORM/std": 0.3347875773906708,
      "step": 515,
      "train_speed(iter/s)": 0.03184
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 598.9,
      "completions/mean_length": 341.6000099182129,
      "completions/min_length": 175.8,
      "epoch": 0.2101010101010101,
      "grad_norm": 1.1487867895660082,
      "kl": 0.00421295166015625,
      "learning_rate": 2e-07,
      "loss": 0.04290072023868561,
      "memory(GiB)": 113.5,
      "reward": 0.3666666761040688,
      "reward_std": 0.28399197161197665,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666761040688,
      "rewards/MultiModalAccuracyORM/std": 0.28399197161197665,
      "step": 520,
      "train_speed(iter/s)": 0.03186
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 598.5,
      "completions/mean_length": 344.0500091552734,
      "completions/min_length": 175.8,
      "epoch": 0.21212121212121213,
      "grad_norm": 2.2941717609617767,
      "kl": 0.0046539306640625,
      "learning_rate": 2e-07,
      "loss": 0.004269888997077942,
      "memory(GiB)": 113.5,
      "reward": 0.30833333879709246,
      "reward_std": 0.3267677813768387,
      "rewards/MultiModalAccuracyORM/mean": 0.30833333879709246,
      "rewards/MultiModalAccuracyORM/std": 0.3267677813768387,
      "step": 525,
      "train_speed(iter/s)": 0.031902
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 531.2,
      "completions/mean_length": 345.83334197998045,
      "completions/min_length": 172.9,
      "epoch": 0.21414141414141413,
      "grad_norm": 1.2948745647020719,
      "kl": 0.004862213134765625,
      "learning_rate": 2e-07,
      "loss": -0.007743622362613678,
      "memory(GiB)": 113.5,
      "reward": 0.33333333805203436,
      "reward_std": 0.25897532403469087,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333805203436,
      "rewards/MultiModalAccuracyORM/std": 0.25897532403469087,
      "step": 530,
      "train_speed(iter/s)": 0.031973
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.0,
      "completions/mean_length": 277.8500061035156,
      "completions/min_length": 127.7,
      "epoch": 0.21616161616161617,
      "grad_norm": 2.820652916445064,
      "kl": 0.004701995849609375,
      "learning_rate": 2e-07,
      "loss": 0.019122210144996644,
      "memory(GiB)": 113.5,
      "reward": 0.25833334028720856,
      "reward_std": 0.38930273354053496,
      "rewards/MultiModalAccuracyORM/mean": 0.25833334028720856,
      "rewards/MultiModalAccuracyORM/std": 0.38930273354053496,
      "step": 535,
      "train_speed(iter/s)": 0.032051
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 503.3,
      "completions/mean_length": 311.0666732788086,
      "completions/min_length": 155.9,
      "epoch": 0.21818181818181817,
      "grad_norm": 0.02000320571323216,
      "kl": 0.006194305419921875,
      "learning_rate": 2e-07,
      "loss": 0.023233750462532045,
      "memory(GiB)": 113.5,
      "reward": 0.29166667237877847,
      "reward_std": 0.26298522055149076,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667237877847,
      "rewards/MultiModalAccuracyORM/std": 0.26298522055149076,
      "step": 540,
      "train_speed(iter/s)": 0.032099
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 495.1,
      "completions/mean_length": 298.1750099182129,
      "completions/min_length": 159.8,
      "epoch": 0.2202020202020202,
      "grad_norm": 1.7992434949177767,
      "kl": 0.00469207763671875,
      "learning_rate": 2e-07,
      "loss": 0.015616017580032348,
      "memory(GiB)": 113.5,
      "reward": 0.32500000596046447,
      "reward_std": 0.22704697251319886,
      "rewards/MultiModalAccuracyORM/mean": 0.32500000596046447,
      "rewards/MultiModalAccuracyORM/std": 0.22704697251319886,
      "step": 545,
      "train_speed(iter/s)": 0.032156
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.6,
      "completions/mean_length": 273.84167633056643,
      "completions/min_length": 145.6,
      "epoch": 0.2222222222222222,
      "grad_norm": 2.8559923799679794,
      "kl": 0.00508270263671875,
      "learning_rate": 2e-07,
      "loss": 0.050173360109329226,
      "memory(GiB)": 113.5,
      "reward": 0.37500001341104505,
      "reward_std": 0.33303394317626955,
      "rewards/MultiModalAccuracyORM/mean": 0.37500001341104505,
      "rewards/MultiModalAccuracyORM/std": 0.33303394317626955,
      "step": 550,
      "train_speed(iter/s)": 0.032216
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 652.5,
      "completions/mean_length": 421.71667633056643,
      "completions/min_length": 240.9,
      "epoch": 0.22424242424242424,
      "grad_norm": 2.3260782482625366,
      "kl": 0.005718994140625,
      "learning_rate": 2e-07,
      "loss": 0.02654660940170288,
      "memory(GiB)": 113.5,
      "reward": 0.36666667759418486,
      "reward_std": 0.46648178398609164,
      "rewards/MultiModalAccuracyORM/mean": 0.36666667759418486,
      "rewards/MultiModalAccuracyORM/std": 0.46648178398609164,
      "step": 555,
      "train_speed(iter/s)": 0.032254
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 695.9,
      "completions/mean_length": 376.9666717529297,
      "completions/min_length": 211.5,
      "epoch": 0.22626262626262628,
      "grad_norm": 1.9191123297699473,
      "kl": 0.0039215087890625,
      "learning_rate": 2e-07,
      "loss": 0.013482053577899934,
      "memory(GiB)": 113.5,
      "reward": 0.1750000037252903,
      "reward_std": 0.3042020261287689,
      "rewards/MultiModalAccuracyORM/mean": 0.1750000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.3042020261287689,
      "step": 560,
      "train_speed(iter/s)": 0.032243
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 564.5,
      "completions/mean_length": 348.8333450317383,
      "completions/min_length": 184.5,
      "epoch": 0.22828282828282828,
      "grad_norm": 2.0009650914845873,
      "kl": 0.01170501708984375,
      "learning_rate": 2e-07,
      "loss": 0.035267585515975954,
      "memory(GiB)": 113.5,
      "reward": 0.3583333410322666,
      "reward_std": 0.38205191493034363,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.38205191493034363,
      "step": 565,
      "train_speed(iter/s)": 0.032295
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 518.6,
      "completions/mean_length": 319.6166748046875,
      "completions/min_length": 181.1,
      "epoch": 0.23030303030303031,
      "grad_norm": 0.1996246857202343,
      "kl": 0.005075836181640625,
      "learning_rate": 2e-07,
      "loss": -0.02471494972705841,
      "memory(GiB)": 113.5,
      "reward": 0.24166666939854622,
      "reward_std": 0.2549654275178909,
      "rewards/MultiModalAccuracyORM/mean": 0.24166666939854622,
      "rewards/MultiModalAccuracyORM/std": 0.2549654275178909,
      "step": 570,
      "train_speed(iter/s)": 0.032297
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 596.0,
      "completions/mean_length": 338.40833892822263,
      "completions/min_length": 187.7,
      "epoch": 0.23232323232323232,
      "grad_norm": 2.3362669602060033,
      "kl": 0.00451202392578125,
      "learning_rate": 2e-07,
      "loss": 0.03307419717311859,
      "memory(GiB)": 113.5,
      "reward": 0.2000000037252903,
      "reward_std": 0.3081523299217224,
      "rewards/MultiModalAccuracyORM/mean": 0.2000000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.3081523299217224,
      "step": 575,
      "train_speed(iter/s)": 0.03234
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.9,
      "completions/mean_length": 292.68334197998047,
      "completions/min_length": 158.3,
      "epoch": 0.23434343434343435,
      "grad_norm": 2.8417938649503394,
      "kl": 0.014810943603515625,
      "learning_rate": 2e-07,
      "loss": -0.03590070009231568,
      "memory(GiB)": 113.5,
      "reward": 0.3500000089406967,
      "reward_std": 0.39629932343959806,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.39629932343959806,
      "step": 580,
      "train_speed(iter/s)": 0.032381
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 587.8,
      "completions/mean_length": 396.57501831054685,
      "completions/min_length": 239.6,
      "epoch": 0.23636363636363636,
      "grad_norm": 0.03715745404820811,
      "kl": 0.00491180419921875,
      "learning_rate": 2e-07,
      "loss": -0.0016106054186820983,
      "memory(GiB)": 113.5,
      "reward": 0.25000000596046446,
      "reward_std": 0.27749558687210085,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000596046446,
      "rewards/MultiModalAccuracyORM/std": 0.27749558687210085,
      "step": 585,
      "train_speed(iter/s)": 0.032385
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.1,
      "completions/mean_length": 371.41667861938475,
      "completions/min_length": 206.0,
      "epoch": 0.2383838383838384,
      "grad_norm": 2.5904505607936237,
      "kl": 0.0038330078125,
      "learning_rate": 2e-07,
      "loss": -0.0013609230518341064,
      "memory(GiB)": 113.5,
      "reward": 0.4416666768491268,
      "reward_std": 0.3044206529855728,
      "rewards/MultiModalAccuracyORM/mean": 0.4416666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.3044206529855728,
      "step": 590,
      "train_speed(iter/s)": 0.032404
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 550.8,
      "completions/mean_length": 332.2250091552734,
      "completions/min_length": 175.5,
      "epoch": 0.2404040404040404,
      "grad_norm": 3.252161568752739,
      "kl": 0.00532073974609375,
      "learning_rate": 2e-07,
      "loss": 0.022338399291038515,
      "memory(GiB)": 113.5,
      "reward": 0.316666679084301,
      "reward_std": 0.35766714811325073,
      "rewards/MultiModalAccuracyORM/mean": 0.316666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.35766714811325073,
      "step": 595,
      "train_speed(iter/s)": 0.032438
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 631.6,
      "completions/mean_length": 366.18334045410154,
      "completions/min_length": 210.1,
      "epoch": 0.24242424242424243,
      "grad_norm": 1.7160058152461715,
      "kl": 0.0050140380859375,
      "learning_rate": 2e-07,
      "loss": -0.0045736730098724365,
      "memory(GiB)": 113.5,
      "reward": 0.3250000074505806,
      "reward_std": 0.32682737708091736,
      "rewards/MultiModalAccuracyORM/mean": 0.3250000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.32682737708091736,
      "step": 600,
      "train_speed(iter/s)": 0.032452
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 968.4,
      "completions/mean_length": 407.6500114440918,
      "completions/min_length": 221.4,
      "epoch": 0.24444444444444444,
      "grad_norm": 1.5763528784256282,
      "kl": 0.0037322998046875,
      "learning_rate": 2e-07,
      "loss": 0.003979828953742981,
      "memory(GiB)": 113.5,
      "reward": 0.30000000819563866,
      "reward_std": 0.4196960777044296,
      "rewards/MultiModalAccuracyORM/mean": 0.30000000819563866,
      "rewards/MultiModalAccuracyORM/std": 0.4196960777044296,
      "step": 605,
      "train_speed(iter/s)": 0.0324
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.6,
      "completions/mean_length": 293.57500610351565,
      "completions/min_length": 166.8,
      "epoch": 0.24646464646464647,
      "grad_norm": 3.2425538671850047,
      "kl": 0.009912109375,
      "learning_rate": 2e-07,
      "loss": 0.024757757782936096,
      "memory(GiB)": 113.5,
      "reward": 0.20000000670552254,
      "reward_std": 0.2184557795524597,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000670552254,
      "rewards/MultiModalAccuracyORM/std": 0.2184557795524597,
      "step": 610,
      "train_speed(iter/s)": 0.032454
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 468.6,
      "completions/mean_length": 272.27501068115237,
      "completions/min_length": 161.5,
      "epoch": 0.24848484848484848,
      "grad_norm": 2.9002217301843682,
      "kl": 0.006238555908203125,
      "learning_rate": 2e-07,
      "loss": 0.006809020042419433,
      "memory(GiB)": 113.5,
      "reward": 0.2083333373069763,
      "reward_std": 0.28784283697605134,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.28784283697605134,
      "step": 615,
      "train_speed(iter/s)": 0.032521
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 537.6,
      "completions/mean_length": 323.6333435058594,
      "completions/min_length": 178.6,
      "epoch": 0.2505050505050505,
      "grad_norm": 1.6543202512317519,
      "kl": 0.005059814453125,
      "learning_rate": 2e-07,
      "loss": -0.013031059503555298,
      "memory(GiB)": 113.5,
      "reward": 0.21666667088866234,
      "reward_std": 0.22625694572925567,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667088866234,
      "rewards/MultiModalAccuracyORM/std": 0.22625694572925567,
      "step": 620,
      "train_speed(iter/s)": 0.032557
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 582.9,
      "completions/mean_length": 368.2416793823242,
      "completions/min_length": 204.2,
      "epoch": 0.25252525252525254,
      "grad_norm": 1.9398904097162017,
      "kl": 0.00662689208984375,
      "learning_rate": 2e-07,
      "loss": 0.020694077014923096,
      "memory(GiB)": 113.5,
      "reward": 0.20833333805203438,
      "reward_std": 0.2567190587520599,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333805203438,
      "rewards/MultiModalAccuracyORM/std": 0.2567190587520599,
      "step": 625,
      "train_speed(iter/s)": 0.032596
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 505.2,
      "completions/mean_length": 298.1750030517578,
      "completions/min_length": 161.6,
      "epoch": 0.2545454545454545,
      "grad_norm": 3.9909953401900657,
      "kl": 0.00722808837890625,
      "learning_rate": 2e-07,
      "loss": 0.012149769067764282,
      "memory(GiB)": 113.5,
      "reward": 0.3500000089406967,
      "reward_std": 0.21594529151916503,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.21594529151916503,
      "step": 630,
      "train_speed(iter/s)": 0.03264
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 516.6,
      "completions/mean_length": 335.81667404174806,
      "completions/min_length": 203.4,
      "epoch": 0.25656565656565655,
      "grad_norm": 3.223504719612698,
      "kl": 0.00595703125,
      "learning_rate": 2e-07,
      "loss": 0.0355703592300415,
      "memory(GiB)": 113.5,
      "reward": 0.39166667833924296,
      "reward_std": 0.3838055461645126,
      "rewards/MultiModalAccuracyORM/mean": 0.39166667833924296,
      "rewards/MultiModalAccuracyORM/std": 0.3838055461645126,
      "step": 635,
      "train_speed(iter/s)": 0.032663
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 661.0,
      "completions/mean_length": 399.683349609375,
      "completions/min_length": 215.3,
      "epoch": 0.2585858585858586,
      "grad_norm": 0.031047629899617252,
      "kl": 0.00643310546875,
      "learning_rate": 2e-07,
      "loss": -0.002796703577041626,
      "memory(GiB)": 113.5,
      "reward": 0.20000000670552254,
      "reward_std": 0.24866367280483245,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000670552254,
      "rewards/MultiModalAccuracyORM/std": 0.24866367280483245,
      "step": 640,
      "train_speed(iter/s)": 0.032678
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.7,
      "completions/mean_length": 308.32500915527345,
      "completions/min_length": 162.9,
      "epoch": 0.2606060606060606,
      "grad_norm": 2.661462961010607,
      "kl": 0.0068939208984375,
      "learning_rate": 2e-07,
      "loss": 0.006179103255271911,
      "memory(GiB)": 113.5,
      "reward": 0.25833333656191826,
      "reward_std": 0.2652174860239029,
      "rewards/MultiModalAccuracyORM/mean": 0.25833333656191826,
      "rewards/MultiModalAccuracyORM/std": 0.2652174860239029,
      "step": 645,
      "train_speed(iter/s)": 0.032733
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 407.6,
      "completions/mean_length": 246.7083396911621,
      "completions/min_length": 116.2,
      "epoch": 0.26262626262626265,
      "grad_norm": 2.282962166826479,
      "kl": 0.00615692138671875,
      "learning_rate": 2e-07,
      "loss": -0.022863130271434783,
      "memory(GiB)": 113.5,
      "reward": 0.22500000149011612,
      "reward_std": 0.25664491653442384,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000149011612,
      "rewards/MultiModalAccuracyORM/std": 0.25664491653442384,
      "step": 650,
      "train_speed(iter/s)": 0.032795
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 594.1,
      "completions/mean_length": 367.6666763305664,
      "completions/min_length": 205.7,
      "epoch": 0.26464646464646463,
      "grad_norm": 2.380599579002688,
      "kl": 0.0057464599609375,
      "learning_rate": 2e-07,
      "loss": -0.013085761666297912,
      "memory(GiB)": 113.5,
      "reward": 0.2583333395421505,
      "reward_std": 0.2993255376815796,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.2993255376815796,
      "step": 655,
      "train_speed(iter/s)": 0.032829
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 611.3,
      "completions/mean_length": 398.7916854858398,
      "completions/min_length": 212.0,
      "epoch": 0.26666666666666666,
      "grad_norm": 2.1060964762409085,
      "kl": 0.0065460205078125,
      "learning_rate": 2e-07,
      "loss": 0.001984366774559021,
      "memory(GiB)": 113.5,
      "reward": 0.2583333417773247,
      "reward_std": 0.35184402465820314,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.35184402465820314,
      "step": 660,
      "train_speed(iter/s)": 0.032832
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 577.5,
      "completions/mean_length": 379.8500099182129,
      "completions/min_length": 222.5,
      "epoch": 0.2686868686868687,
      "grad_norm": 3.0979902221373083,
      "kl": 0.00526275634765625,
      "learning_rate": 2e-07,
      "loss": -0.00811660885810852,
      "memory(GiB)": 113.5,
      "reward": 0.2583333358168602,
      "reward_std": 0.22446234226226808,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.22446234226226808,
      "step": 665,
      "train_speed(iter/s)": 0.03283
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 442.4,
      "completions/mean_length": 274.05001068115234,
      "completions/min_length": 143.8,
      "epoch": 0.27070707070707073,
      "grad_norm": 2.886266049614615,
      "kl": 0.00730133056640625,
      "learning_rate": 2e-07,
      "loss": 0.008006072044372559,
      "memory(GiB)": 113.5,
      "reward": 0.2500000037252903,
      "reward_std": 0.3111986219882965,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.3111986219882965,
      "step": 670,
      "train_speed(iter/s)": 0.032864
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 490.8,
      "completions/mean_length": 304.02500915527344,
      "completions/min_length": 156.8,
      "epoch": 0.2727272727272727,
      "grad_norm": 0.3952238447884339,
      "kl": 0.0077239990234375,
      "learning_rate": 2e-07,
      "loss": 0.036022895574569704,
      "memory(GiB)": 113.5,
      "reward": 0.37500001192092897,
      "reward_std": 0.32858100831508635,
      "rewards/MultiModalAccuracyORM/mean": 0.37500001192092897,
      "rewards/MultiModalAccuracyORM/std": 0.32858100831508635,
      "step": 675,
      "train_speed(iter/s)": 0.032929
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 632.8,
      "completions/mean_length": 364.55834197998047,
      "completions/min_length": 203.6,
      "epoch": 0.27474747474747474,
      "grad_norm": 0.0686693440428557,
      "kl": 0.00585784912109375,
      "learning_rate": 2e-07,
      "loss": 0.006394723057746887,
      "memory(GiB)": 113.5,
      "reward": 0.18333334103226662,
      "reward_std": 0.24637180864810942,
      "rewards/MultiModalAccuracyORM/mean": 0.18333334103226662,
      "rewards/MultiModalAccuracyORM/std": 0.24637180864810942,
      "step": 680,
      "train_speed(iter/s)": 0.032965
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 380.4,
      "completions/mean_length": 235.7500099182129,
      "completions/min_length": 118.5,
      "epoch": 0.2767676767676768,
      "grad_norm": 2.1797104035382873,
      "kl": 0.01773681640625,
      "learning_rate": 2e-07,
      "loss": 0.008138242363929748,
      "memory(GiB)": 113.5,
      "reward": 0.26666667610406875,
      "reward_std": 0.3862804383039474,
      "rewards/MultiModalAccuracyORM/mean": 0.26666667610406875,
      "rewards/MultiModalAccuracyORM/std": 0.3862804383039474,
      "step": 685,
      "train_speed(iter/s)": 0.032993
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.3,
      "completions/mean_length": 420.05834503173827,
      "completions/min_length": 225.0,
      "epoch": 0.2787878787878788,
      "grad_norm": 1.2422518482071012,
      "kl": 0.005517578125,
      "learning_rate": 2e-07,
      "loss": -0.025521010160446167,
      "memory(GiB)": 113.5,
      "reward": 0.07500000223517418,
      "reward_std": 0.22218745648860933,
      "rewards/MultiModalAccuracyORM/mean": 0.07500000223517418,
      "rewards/MultiModalAccuracyORM/std": 0.22218745648860933,
      "step": 690,
      "train_speed(iter/s)": 0.032968
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.4,
      "completions/mean_length": 335.8666763305664,
      "completions/min_length": 201.2,
      "epoch": 0.2808080808080808,
      "grad_norm": 0.8721711597058662,
      "kl": 0.007273101806640625,
      "learning_rate": 2e-07,
      "loss": -0.005113717913627624,
      "memory(GiB)": 113.5,
      "reward": 0.2083333395421505,
      "reward_std": 0.32370694279670714,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.32370694279670714,
      "step": 695,
      "train_speed(iter/s)": 0.032988
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 995.9,
      "completions/mean_length": 439.34168548583983,
      "completions/min_length": 226.8,
      "epoch": 0.2828282828282828,
      "grad_norm": 2.6514991151372906,
      "kl": 0.00522308349609375,
      "learning_rate": 2e-07,
      "loss": 0.03241249620914459,
      "memory(GiB)": 113.5,
      "reward": 0.12500000298023223,
      "reward_std": 0.25916995108127594,
      "rewards/MultiModalAccuracyORM/mean": 0.12500000298023223,
      "rewards/MultiModalAccuracyORM/std": 0.25916995108127594,
      "step": 700,
      "train_speed(iter/s)": 0.032951
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.0,
      "completions/mean_length": 208.48334121704102,
      "completions/min_length": 125.4,
      "epoch": 0.28484848484848485,
      "grad_norm": 2.9111051216276933,
      "kl": 0.00951080322265625,
      "learning_rate": 2e-07,
      "loss": 0.011016063392162323,
      "memory(GiB)": 113.5,
      "reward": 0.49166668131947516,
      "reward_std": 0.3610968828201294,
      "rewards/MultiModalAccuracyORM/mean": 0.49166668131947516,
      "rewards/MultiModalAccuracyORM/std": 0.3610968828201294,
      "step": 705,
      "train_speed(iter/s)": 0.033011
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 684.6,
      "completions/mean_length": 394.20833587646484,
      "completions/min_length": 217.3,
      "epoch": 0.2868686868686869,
      "grad_norm": 0.9791505372375504,
      "kl": 0.0062164306640625,
      "learning_rate": 2e-07,
      "loss": 0.009031829237937928,
      "memory(GiB)": 113.5,
      "reward": 0.4000000037252903,
      "reward_std": 0.2825257331132889,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.2825257331132889,
      "step": 710,
      "train_speed(iter/s)": 0.032996
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 534.9,
      "completions/mean_length": 316.80834197998047,
      "completions/min_length": 187.2,
      "epoch": 0.28888888888888886,
      "grad_norm": 2.748998227170115,
      "kl": 0.0071197509765625,
      "learning_rate": 2e-07,
      "loss": -0.04136030673980713,
      "memory(GiB)": 113.5,
      "reward": 0.17500000745058059,
      "reward_std": 0.2551840543746948,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000745058059,
      "rewards/MultiModalAccuracyORM/std": 0.2551840543746948,
      "step": 715,
      "train_speed(iter/s)": 0.033011
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 622.0,
      "completions/mean_length": 334.85834884643555,
      "completions/min_length": 158.8,
      "epoch": 0.2909090909090909,
      "grad_norm": 2.5712788721497355,
      "kl": 0.005682373046875,
      "learning_rate": 2e-07,
      "loss": 0.014300698041915893,
      "memory(GiB)": 113.5,
      "reward": 0.4000000089406967,
      "reward_std": 0.26816858947277067,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.26816858947277067,
      "step": 720,
      "train_speed(iter/s)": 0.033012
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 613.2,
      "completions/mean_length": 331.2666763305664,
      "completions/min_length": 199.3,
      "epoch": 0.29292929292929293,
      "grad_norm": 1.8581663152703145,
      "kl": 0.00664215087890625,
      "learning_rate": 2e-07,
      "loss": -0.010144461691379548,
      "memory(GiB)": 113.5,
      "reward": 0.21666667386889457,
      "reward_std": 0.31676994562149047,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667386889457,
      "rewards/MultiModalAccuracyORM/std": 0.31676994562149047,
      "step": 725,
      "train_speed(iter/s)": 0.033019
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 542.9,
      "completions/mean_length": 326.3500129699707,
      "completions/min_length": 181.5,
      "epoch": 0.29494949494949496,
      "grad_norm": 0.775697379774875,
      "kl": 0.00522918701171875,
      "learning_rate": 2e-07,
      "loss": 0.0003711044788360596,
      "memory(GiB)": 113.5,
      "reward": 0.2333333373069763,
      "reward_std": 0.3189997851848602,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.3189997851848602,
      "step": 730,
      "train_speed(iter/s)": 0.033016
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 574.2,
      "completions/mean_length": 330.55001068115234,
      "completions/min_length": 198.5,
      "epoch": 0.296969696969697,
      "grad_norm": 1.5273483945564796,
      "kl": 0.006597900390625,
      "learning_rate": 2e-07,
      "loss": 0.012019181251525879,
      "memory(GiB)": 113.5,
      "reward": 0.34166667312383653,
      "reward_std": 0.4374805331230164,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667312383653,
      "rewards/MultiModalAccuracyORM/std": 0.4374805331230164,
      "step": 735,
      "train_speed(iter/s)": 0.033045
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 575.7,
      "completions/mean_length": 381.558349609375,
      "completions/min_length": 230.5,
      "epoch": 0.298989898989899,
      "grad_norm": 2.3594893660788374,
      "kl": 0.0050323486328125,
      "learning_rate": 2e-07,
      "loss": 0.01788020133972168,
      "memory(GiB)": 113.5,
      "reward": 0.20000000596046447,
      "reward_std": 0.3330695390701294,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000596046447,
      "rewards/MultiModalAccuracyORM/std": 0.3330695390701294,
      "step": 740,
      "train_speed(iter/s)": 0.033058
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 562.7,
      "completions/mean_length": 324.033349609375,
      "completions/min_length": 184.4,
      "epoch": 0.301010101010101,
      "grad_norm": 2.29708410353418,
      "kl": 0.00646209716796875,
      "learning_rate": 2e-07,
      "loss": -0.009415292739868164,
      "memory(GiB)": 113.5,
      "reward": 0.41666667386889455,
      "reward_std": 0.2529277890920639,
      "rewards/MultiModalAccuracyORM/mean": 0.41666667386889455,
      "rewards/MultiModalAccuracyORM/std": 0.2529277890920639,
      "step": 745,
      "train_speed(iter/s)": 0.033072
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 2.3159606947695557,
      "learning_rate": 2e-07,
      "loss": 0.006078800559043885,
      "memory(GiB)": 113.5,
      "step": 750,
      "train_speed(iter/s)": 0.033129
    },
    {
      "epoch": 0.30303030303030304,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 539.88,
      "eval_completions/mean_length": 336.97334396362305,
      "eval_completions/min_length": 192.2,
      "eval_kl": 0.00380157470703125,
      "eval_loss": 0.01653137058019638,
      "eval_reward": 0.2800000062584877,
      "eval_reward_std": 0.28693030297756195,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.2800000062584877,
      "eval_rewards/MultiModalAccuracyORM/std": 0.28693030297756195,
      "eval_runtime": 588.5073,
      "eval_samples_per_second": 0.085,
      "eval_steps_per_second": 0.008,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.004166666666666667,
      "completions/max_length": 541.6,
      "completions/mean_length": 313.96250953674314,
      "completions/min_length": 176.25,
      "epoch": 0.30505050505050507,
      "grad_norm": 1.6419689379277844,
      "kl": 0.008066558837890625,
      "learning_rate": 2e-07,
      "loss": -0.004991033673286438,
      "memory(GiB)": 113.5,
      "reward": 0.31250000894069674,
      "reward_std": 0.35801745802164076,
      "rewards/MultiModalAccuracyORM/mean": 0.31250000894069674,
      "rewards/MultiModalAccuracyORM/std": 0.35801745802164076,
      "step": 755,
      "train_speed(iter/s)": 0.031887
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.9,
      "completions/mean_length": 292.9916732788086,
      "completions/min_length": 150.9,
      "epoch": 0.30707070707070705,
      "grad_norm": 2.0844707046825723,
      "kl": 0.00627288818359375,
      "learning_rate": 2e-07,
      "loss": 0.0167288139462471,
      "memory(GiB)": 113.5,
      "reward": 0.21666666865348816,
      "reward_std": 0.3554166704416275,
      "rewards/MultiModalAccuracyORM/mean": 0.21666666865348816,
      "rewards/MultiModalAccuracyORM/std": 0.3554166704416275,
      "step": 760,
      "train_speed(iter/s)": 0.031901
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 457.4,
      "completions/mean_length": 296.4166778564453,
      "completions/min_length": 161.6,
      "epoch": 0.3090909090909091,
      "grad_norm": 1.7792521459456232,
      "kl": 0.01121368408203125,
      "learning_rate": 2e-07,
      "loss": 0.017529194056987763,
      "memory(GiB)": 113.5,
      "reward": 0.4000000134110451,
      "reward_std": 0.3734437495470047,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000134110451,
      "rewards/MultiModalAccuracyORM/std": 0.3734437495470047,
      "step": 765,
      "train_speed(iter/s)": 0.031933
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 414.8,
      "completions/mean_length": 228.51667175292968,
      "completions/min_length": 120.5,
      "epoch": 0.3111111111111111,
      "grad_norm": 2.1702261558412697,
      "kl": 0.0090240478515625,
      "learning_rate": 2e-07,
      "loss": -0.05565891861915588,
      "memory(GiB)": 113.5,
      "reward": 0.15000000596046448,
      "reward_std": 0.24261613488197326,
      "rewards/MultiModalAccuracyORM/mean": 0.15000000596046448,
      "rewards/MultiModalAccuracyORM/std": 0.24261613488197326,
      "step": 770,
      "train_speed(iter/s)": 0.031968
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 531.4,
      "completions/mean_length": 306.7916748046875,
      "completions/min_length": 165.3,
      "epoch": 0.31313131313131315,
      "grad_norm": 1.2794183651984758,
      "kl": 0.00740814208984375,
      "learning_rate": 2e-07,
      "loss": 0.04246864318847656,
      "memory(GiB)": 113.5,
      "reward": 0.46666667982935905,
      "reward_std": 0.4767192959785461,
      "rewards/MultiModalAccuracyORM/mean": 0.46666667982935905,
      "rewards/MultiModalAccuracyORM/std": 0.4767192959785461,
      "step": 775,
      "train_speed(iter/s)": 0.032
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 634.4,
      "completions/mean_length": 415.7916763305664,
      "completions/min_length": 231.3,
      "epoch": 0.3151515151515151,
      "grad_norm": 1.1135361589863462,
      "kl": 0.00513763427734375,
      "learning_rate": 2e-07,
      "loss": 0.028287124633789063,
      "memory(GiB)": 113.5,
      "reward": 0.15000000596046448,
      "reward_std": 0.18482151329517366,
      "rewards/MultiModalAccuracyORM/mean": 0.15000000596046448,
      "rewards/MultiModalAccuracyORM/std": 0.18482151329517366,
      "step": 780,
      "train_speed(iter/s)": 0.031996
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 629.5,
      "completions/mean_length": 379.56668243408205,
      "completions/min_length": 220.9,
      "epoch": 0.31717171717171716,
      "grad_norm": 2.365467793016899,
      "kl": 0.0066986083984375,
      "learning_rate": 2e-07,
      "loss": -0.014639610052108764,
      "memory(GiB)": 113.5,
      "reward": 0.1833333358168602,
      "reward_std": 0.20363159477710724,
      "rewards/MultiModalAccuracyORM/mean": 0.1833333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.20363159477710724,
      "step": 785,
      "train_speed(iter/s)": 0.032005
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 409.3,
      "completions/mean_length": 267.75834503173826,
      "completions/min_length": 155.6,
      "epoch": 0.3191919191919192,
      "grad_norm": 1.7124152646997672,
      "kl": 0.00589141845703125,
      "learning_rate": 2e-07,
      "loss": 0.001770263910293579,
      "memory(GiB)": 113.5,
      "reward": 0.33333333730697634,
      "reward_std": 0.29483942985534667,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333730697634,
      "rewards/MultiModalAccuracyORM/std": 0.29483942985534667,
      "step": 790,
      "train_speed(iter/s)": 0.032028
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.7,
      "completions/mean_length": 331.6916763305664,
      "completions/min_length": 190.2,
      "epoch": 0.3212121212121212,
      "grad_norm": 2.1658449229692316,
      "kl": 0.0065338134765625,
      "learning_rate": 2e-07,
      "loss": 0.018888431787490844,
      "memory(GiB)": 113.5,
      "reward": 0.22500001192092894,
      "reward_std": 0.3477985322475433,
      "rewards/MultiModalAccuracyORM/mean": 0.22500001192092894,
      "rewards/MultiModalAccuracyORM/std": 0.3477985322475433,
      "step": 795,
      "train_speed(iter/s)": 0.032028
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.9,
      "completions/mean_length": 319.0250076293945,
      "completions/min_length": 159.2,
      "epoch": 0.32323232323232326,
      "grad_norm": 0.10193444456144864,
      "kl": 0.0068878173828125,
      "learning_rate": 2e-07,
      "loss": 0.008858251571655273,
      "memory(GiB)": 113.5,
      "reward": 0.1916666693985462,
      "reward_std": 0.2567190587520599,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.2567190587520599,
      "step": 800,
      "train_speed(iter/s)": 0.032045
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 522.7,
      "completions/mean_length": 316.66667556762695,
      "completions/min_length": 179.2,
      "epoch": 0.32525252525252524,
      "grad_norm": 2.315498401390807,
      "kl": 0.00754852294921875,
      "learning_rate": 2e-07,
      "loss": -0.002603813260793686,
      "memory(GiB)": 113.5,
      "reward": 0.33333333656191827,
      "reward_std": 0.2722736746072769,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333656191827,
      "rewards/MultiModalAccuracyORM/std": 0.2722736746072769,
      "step": 805,
      "train_speed(iter/s)": 0.03204
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 675.0,
      "completions/mean_length": 342.4083450317383,
      "completions/min_length": 170.8,
      "epoch": 0.32727272727272727,
      "grad_norm": 3.1462959818853165,
      "kl": 0.006378173828125,
      "learning_rate": 2e-07,
      "loss": -0.010855591297149659,
      "memory(GiB)": 113.5,
      "reward": 0.1916666693985462,
      "reward_std": 0.3259988039731979,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.3259988039731979,
      "step": 810,
      "train_speed(iter/s)": 0.032048
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 674.7,
      "completions/mean_length": 386.7166778564453,
      "completions/min_length": 189.5,
      "epoch": 0.3292929292929293,
      "grad_norm": 2.441646562638453,
      "kl": 0.008112335205078125,
      "learning_rate": 2e-07,
      "loss": 0.022695478796958924,
      "memory(GiB)": 113.5,
      "reward": 0.30833333507180216,
      "reward_std": 0.29793586432933805,
      "rewards/MultiModalAccuracyORM/mean": 0.30833333507180216,
      "rewards/MultiModalAccuracyORM/std": 0.29793586432933805,
      "step": 815,
      "train_speed(iter/s)": 0.032056
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 549.7,
      "completions/mean_length": 339.0166732788086,
      "completions/min_length": 194.4,
      "epoch": 0.33131313131313134,
      "grad_norm": 1.020422275315147,
      "kl": 0.0112762451171875,
      "learning_rate": 2e-07,
      "loss": 0.05103216171264648,
      "memory(GiB)": 113.5,
      "reward": 0.22500000670552253,
      "reward_std": 0.2956440031528473,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000670552253,
      "rewards/MultiModalAccuracyORM/std": 0.2956440031528473,
      "step": 820,
      "train_speed(iter/s)": 0.032046
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 543.8,
      "completions/mean_length": 313.6000061035156,
      "completions/min_length": 160.3,
      "epoch": 0.3333333333333333,
      "grad_norm": 3.530685574433075,
      "kl": 0.00774993896484375,
      "learning_rate": 2e-07,
      "loss": 0.0580863893032074,
      "memory(GiB)": 113.5,
      "reward": 0.21666667535901069,
      "reward_std": 0.31899061501026155,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667535901069,
      "rewards/MultiModalAccuracyORM/std": 0.31899061501026155,
      "step": 825,
      "train_speed(iter/s)": 0.03206
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 425.5,
      "completions/mean_length": 246.05833740234374,
      "completions/min_length": 134.2,
      "epoch": 0.33535353535353535,
      "grad_norm": 0.05179156879937817,
      "kl": 0.007355499267578125,
      "learning_rate": 2e-07,
      "loss": 0.0357688844203949,
      "memory(GiB)": 113.5,
      "reward": 0.2750000074505806,
      "reward_std": 0.20817729830741882,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.20817729830741882,
      "step": 830,
      "train_speed(iter/s)": 0.03208
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 650.0,
      "completions/mean_length": 445.533349609375,
      "completions/min_length": 285.9,
      "epoch": 0.3373737373737374,
      "grad_norm": 2.4237696716807413,
      "kl": 0.005771636962890625,
      "learning_rate": 2e-07,
      "loss": 0.0007819652557373047,
      "memory(GiB)": 113.5,
      "reward": 0.31666666865348814,
      "reward_std": 0.3596066445112228,
      "rewards/MultiModalAccuracyORM/mean": 0.31666666865348814,
      "rewards/MultiModalAccuracyORM/std": 0.3596066445112228,
      "step": 835,
      "train_speed(iter/s)": 0.032078
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 492.1,
      "completions/mean_length": 283.40834350585936,
      "completions/min_length": 164.0,
      "epoch": 0.3393939393939394,
      "grad_norm": 2.6192745381364615,
      "kl": 0.00804901123046875,
      "learning_rate": 2e-07,
      "loss": 0.04405608177185059,
      "memory(GiB)": 113.5,
      "reward": 0.43333334401249884,
      "reward_std": 0.2840515673160553,
      "rewards/MultiModalAccuracyORM/mean": 0.43333334401249884,
      "rewards/MultiModalAccuracyORM/std": 0.2840515673160553,
      "step": 840,
      "train_speed(iter/s)": 0.032104
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 560.4,
      "completions/mean_length": 347.0500091552734,
      "completions/min_length": 163.6,
      "epoch": 0.3414141414141414,
      "grad_norm": 2.7151298756229827,
      "kl": 0.00639801025390625,
      "learning_rate": 2e-07,
      "loss": -0.004790738224983215,
      "memory(GiB)": 113.5,
      "reward": 0.4333333484828472,
      "reward_std": 0.39859413504600527,
      "rewards/MultiModalAccuracyORM/mean": 0.4333333484828472,
      "rewards/MultiModalAccuracyORM/std": 0.39859413504600527,
      "step": 845,
      "train_speed(iter/s)": 0.032112
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 445.8,
      "completions/mean_length": 273.2666717529297,
      "completions/min_length": 157.8,
      "epoch": 0.3434343434343434,
      "grad_norm": 1.030614252722568,
      "kl": 0.0097747802734375,
      "learning_rate": 2e-07,
      "loss": 0.0008672773838043213,
      "memory(GiB)": 113.5,
      "reward": 0.14166667237877845,
      "reward_std": 0.28624823689460754,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.28624823689460754,
      "step": 850,
      "train_speed(iter/s)": 0.032141
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.9,
      "completions/mean_length": 196.70833892822264,
      "completions/min_length": 103.7,
      "epoch": 0.34545454545454546,
      "grad_norm": 4.600894892489762,
      "kl": 0.00904083251953125,
      "learning_rate": 2e-07,
      "loss": -0.002990037202835083,
      "memory(GiB)": 113.5,
      "reward": 0.35000001043081286,
      "reward_std": 0.2511145621538162,
      "rewards/MultiModalAccuracyORM/mean": 0.35000001043081286,
      "rewards/MultiModalAccuracyORM/std": 0.2511145621538162,
      "step": 855,
      "train_speed(iter/s)": 0.0322
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 424.7,
      "completions/mean_length": 280.9416793823242,
      "completions/min_length": 175.6,
      "epoch": 0.3474747474747475,
      "grad_norm": 2.236927092635949,
      "kl": 0.0068603515625,
      "learning_rate": 2e-07,
      "loss": 0.034914878010749814,
      "memory(GiB)": 113.5,
      "reward": 0.27500000670552255,
      "reward_std": 0.28004167079925535,
      "rewards/MultiModalAccuracyORM/mean": 0.27500000670552255,
      "rewards/MultiModalAccuracyORM/std": 0.28004167079925535,
      "step": 860,
      "train_speed(iter/s)": 0.032218
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 553.4,
      "completions/mean_length": 340.1083419799805,
      "completions/min_length": 183.8,
      "epoch": 0.34949494949494947,
      "grad_norm": 3.1857406542737943,
      "kl": 0.00835723876953125,
      "learning_rate": 2e-07,
      "loss": 0.019358628988265993,
      "memory(GiB)": 113.5,
      "reward": 0.21666667088866234,
      "reward_std": 0.25585488975048065,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667088866234,
      "rewards/MultiModalAccuracyORM/std": 0.25585488975048065,
      "step": 865,
      "train_speed(iter/s)": 0.032254
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 570.8,
      "completions/mean_length": 342.0833381652832,
      "completions/min_length": 181.3,
      "epoch": 0.3515151515151515,
      "grad_norm": 2.5743781015760714,
      "kl": 0.00620880126953125,
      "learning_rate": 2e-07,
      "loss": -0.019692707061767577,
      "memory(GiB)": 113.5,
      "reward": 0.2083333358168602,
      "reward_std": 0.23004821836948394,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.23004821836948394,
      "step": 870,
      "train_speed(iter/s)": 0.032261
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 527.4,
      "completions/mean_length": 339.12501220703126,
      "completions/min_length": 174.0,
      "epoch": 0.35353535353535354,
      "grad_norm": 3.184656199614579,
      "kl": 0.00756072998046875,
      "learning_rate": 2e-07,
      "loss": 0.016688653826713563,
      "memory(GiB)": 113.5,
      "reward": 0.39166667610406875,
      "reward_std": 0.37845527231693266,
      "rewards/MultiModalAccuracyORM/mean": 0.39166667610406875,
      "rewards/MultiModalAccuracyORM/std": 0.37845527231693266,
      "step": 875,
      "train_speed(iter/s)": 0.032289
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.3,
      "completions/mean_length": 336.61668090820314,
      "completions/min_length": 199.1,
      "epoch": 0.35555555555555557,
      "grad_norm": 1.8292091239029376,
      "kl": 0.006783294677734375,
      "learning_rate": 2e-07,
      "loss": -0.0035984992980957033,
      "memory(GiB)": 113.5,
      "reward": 0.25000000521540644,
      "reward_std": 0.353110259771347,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000521540644,
      "rewards/MultiModalAccuracyORM/std": 0.353110259771347,
      "step": 880,
      "train_speed(iter/s)": 0.032303
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 644.7,
      "completions/mean_length": 367.0833480834961,
      "completions/min_length": 201.2,
      "epoch": 0.3575757575757576,
      "grad_norm": 2.157154554024042,
      "kl": 0.0074066162109375,
      "learning_rate": 2e-07,
      "loss": -0.012543225288391113,
      "memory(GiB)": 113.5,
      "reward": 0.2666666693985462,
      "reward_std": 0.292328941822052,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.292328941822052,
      "step": 885,
      "train_speed(iter/s)": 0.032311
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 677.1,
      "completions/mean_length": 368.5666778564453,
      "completions/min_length": 197.0,
      "epoch": 0.3595959595959596,
      "grad_norm": 1.8591339481325562,
      "kl": 0.01016082763671875,
      "learning_rate": 2e-07,
      "loss": -0.015211772918701173,
      "memory(GiB)": 113.5,
      "reward": 0.22500000670552253,
      "reward_std": 0.3802089035511017,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000670552253,
      "rewards/MultiModalAccuracyORM/std": 0.3802089035511017,
      "step": 890,
      "train_speed(iter/s)": 0.032317
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 713.9,
      "completions/mean_length": 334.3000091552734,
      "completions/min_length": 169.7,
      "epoch": 0.3616161616161616,
      "grad_norm": 1.891661158050905,
      "kl": 0.00751495361328125,
      "learning_rate": 2e-07,
      "loss": 0.057868242263793945,
      "memory(GiB)": 113.5,
      "reward": 0.2833333373069763,
      "reward_std": 0.36168283224105835,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.36168283224105835,
      "step": 895,
      "train_speed(iter/s)": 0.03232
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 572.6,
      "completions/mean_length": 367.8083435058594,
      "completions/min_length": 193.6,
      "epoch": 0.36363636363636365,
      "grad_norm": 2.944909454157867,
      "kl": 0.0079620361328125,
      "learning_rate": 2e-07,
      "loss": 0.003379705175757408,
      "memory(GiB)": 113.5,
      "reward": 0.17500000670552254,
      "reward_std": 0.22300148010253906,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000670552254,
      "rewards/MultiModalAccuracyORM/std": 0.22300148010253906,
      "step": 900,
      "train_speed(iter/s)": 0.032324
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 724.4,
      "completions/mean_length": 414.4750144958496,
      "completions/min_length": 241.5,
      "epoch": 0.3656565656565657,
      "grad_norm": 1.0572142583091821,
      "kl": 0.00611724853515625,
      "learning_rate": 2e-07,
      "loss": 0.02717306911945343,
      "memory(GiB)": 113.5,
      "reward": 0.3083333417773247,
      "reward_std": 0.27447034418582916,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.27447034418582916,
      "step": 905,
      "train_speed(iter/s)": 0.03233
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 549.5,
      "completions/mean_length": 329.6416717529297,
      "completions/min_length": 166.2,
      "epoch": 0.36767676767676766,
      "grad_norm": 1.806687314036588,
      "kl": 0.0089080810546875,
      "learning_rate": 2e-07,
      "loss": 0.010141277313232422,
      "memory(GiB)": 113.5,
      "reward": 0.391666679084301,
      "reward_std": 0.40894138514995576,
      "rewards/MultiModalAccuracyORM/mean": 0.391666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.40894138514995576,
      "step": 910,
      "train_speed(iter/s)": 0.032344
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 548.1,
      "completions/mean_length": 302.3416748046875,
      "completions/min_length": 159.3,
      "epoch": 0.3696969696969697,
      "grad_norm": 2.825820952489286,
      "kl": 0.0180572509765625,
      "learning_rate": 2e-07,
      "loss": 0.011392435431480408,
      "memory(GiB)": 113.5,
      "reward": 0.1916666731238365,
      "reward_std": 0.33297434747219085,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.33297434747219085,
      "step": 915,
      "train_speed(iter/s)": 0.032356
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.4,
      "completions/mean_length": 327.7416717529297,
      "completions/min_length": 178.4,
      "epoch": 0.3717171717171717,
      "grad_norm": 2.438516683028765,
      "kl": 0.00719757080078125,
      "learning_rate": 2e-07,
      "loss": 0.037606388330459595,
      "memory(GiB)": 113.5,
      "reward": 0.23333333879709245,
      "reward_std": 0.3543280869722366,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333879709245,
      "rewards/MultiModalAccuracyORM/std": 0.3543280869722366,
      "step": 920,
      "train_speed(iter/s)": 0.032355
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 520.9,
      "completions/mean_length": 351.9500076293945,
      "completions/min_length": 190.7,
      "epoch": 0.37373737373737376,
      "grad_norm": 2.1782598398370943,
      "kl": 0.006235504150390625,
      "learning_rate": 2e-07,
      "loss": -0.007940790057182312,
      "memory(GiB)": 113.5,
      "reward": 0.2250000096857548,
      "reward_std": 0.3659113526344299,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.3659113526344299,
      "step": 925,
      "train_speed(iter/s)": 0.032383
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.8,
      "completions/mean_length": 379.47501373291016,
      "completions/min_length": 206.3,
      "epoch": 0.37575757575757573,
      "grad_norm": 2.304852196233359,
      "kl": 0.0072235107421875,
      "learning_rate": 2e-07,
      "loss": 0.03286640048027038,
      "memory(GiB)": 113.5,
      "reward": 0.34166667312383653,
      "reward_std": 0.44222086369991304,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667312383653,
      "rewards/MultiModalAccuracyORM/std": 0.44222086369991304,
      "step": 930,
      "train_speed(iter/s)": 0.032396
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.6,
      "completions/mean_length": 323.35000762939455,
      "completions/min_length": 192.7,
      "epoch": 0.37777777777777777,
      "grad_norm": 2.9791049041845494,
      "kl": 0.01037445068359375,
      "learning_rate": 2e-07,
      "loss": -0.007777485251426697,
      "memory(GiB)": 113.5,
      "reward": 0.25000000447034837,
      "reward_std": 0.35737437903881075,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000447034837,
      "rewards/MultiModalAccuracyORM/std": 0.35737437903881075,
      "step": 935,
      "train_speed(iter/s)": 0.032395
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 543.9,
      "completions/mean_length": 280.97500762939455,
      "completions/min_length": 138.2,
      "epoch": 0.3797979797979798,
      "grad_norm": 1.881006300919645,
      "kl": 0.013104248046875,
      "learning_rate": 2e-07,
      "loss": 0.02690579891204834,
      "memory(GiB)": 113.5,
      "reward": 0.29166667759418485,
      "reward_std": 0.337774270772934,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667759418485,
      "rewards/MultiModalAccuracyORM/std": 0.337774270772934,
      "step": 940,
      "train_speed(iter/s)": 0.032434
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 505.1,
      "completions/mean_length": 295.9500076293945,
      "completions/min_length": 174.9,
      "epoch": 0.38181818181818183,
      "grad_norm": 3.313912407777126,
      "kl": 0.00870513916015625,
      "learning_rate": 2e-07,
      "loss": -0.032750940322875975,
      "memory(GiB)": 113.5,
      "reward": 0.40000000819563863,
      "reward_std": 0.45158345997333527,
      "rewards/MultiModalAccuracyORM/mean": 0.40000000819563863,
      "rewards/MultiModalAccuracyORM/std": 0.45158345997333527,
      "step": 945,
      "train_speed(iter/s)": 0.032469
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 443.3,
      "completions/mean_length": 262.3000038146973,
      "completions/min_length": 133.7,
      "epoch": 0.3838383838383838,
      "grad_norm": 2.7566340852478053,
      "kl": 0.00853729248046875,
      "learning_rate": 2e-07,
      "loss": 0.018448495864868165,
      "memory(GiB)": 113.5,
      "reward": 0.4083333440124989,
      "reward_std": 0.2674977511167526,
      "rewards/MultiModalAccuracyORM/mean": 0.4083333440124989,
      "rewards/MultiModalAccuracyORM/std": 0.2674977511167526,
      "step": 950,
      "train_speed(iter/s)": 0.032489
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 658.0,
      "completions/mean_length": 363.36668090820314,
      "completions/min_length": 190.9,
      "epoch": 0.38585858585858585,
      "grad_norm": 1.6957648809966595,
      "kl": 0.0067291259765625,
      "learning_rate": 2e-07,
      "loss": -0.02898831069469452,
      "memory(GiB)": 113.5,
      "reward": 0.2000000074505806,
      "reward_std": 0.32902404963970183,
      "rewards/MultiModalAccuracyORM/mean": 0.2000000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.32902404963970183,
      "step": 955,
      "train_speed(iter/s)": 0.032506
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 480.1,
      "completions/mean_length": 307.16667022705076,
      "completions/min_length": 173.2,
      "epoch": 0.3878787878787879,
      "grad_norm": 2.6324617057971755,
      "kl": 0.0082183837890625,
      "learning_rate": 2e-07,
      "loss": 0.010876613110303879,
      "memory(GiB)": 113.5,
      "reward": 0.2916666708886623,
      "reward_std": 0.3953502655029297,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666708886623,
      "rewards/MultiModalAccuracyORM/std": 0.3953502655029297,
      "step": 960,
      "train_speed(iter/s)": 0.032526
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 523.3,
      "completions/mean_length": 310.78333892822263,
      "completions/min_length": 176.0,
      "epoch": 0.3898989898989899,
      "grad_norm": 0.25204548209314886,
      "kl": 0.01051025390625,
      "learning_rate": 2e-07,
      "loss": 0.05701416730880737,
      "memory(GiB)": 113.5,
      "reward": 0.2500000029802322,
      "reward_std": 0.2885732680559158,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000029802322,
      "rewards/MultiModalAccuracyORM/std": 0.2885732680559158,
      "step": 965,
      "train_speed(iter/s)": 0.032526
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 592.1,
      "completions/mean_length": 354.4916687011719,
      "completions/min_length": 207.3,
      "epoch": 0.39191919191919194,
      "grad_norm": 1.8105174117337208,
      "kl": 0.00800018310546875,
      "learning_rate": 2e-07,
      "loss": 0.008932539820671081,
      "memory(GiB)": 113.5,
      "reward": 0.18333333730697632,
      "reward_std": 0.3538196414709091,
      "rewards/MultiModalAccuracyORM/mean": 0.18333333730697632,
      "rewards/MultiModalAccuracyORM/std": 0.3538196414709091,
      "step": 970,
      "train_speed(iter/s)": 0.032536
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 615.5,
      "completions/mean_length": 375.68334503173827,
      "completions/min_length": 236.0,
      "epoch": 0.3939393939393939,
      "grad_norm": 1.4251930411180411,
      "kl": 0.00720672607421875,
      "learning_rate": 2e-07,
      "loss": -0.04558621346950531,
      "memory(GiB)": 113.5,
      "reward": 0.10833333507180214,
      "reward_std": 0.2549058347940445,
      "rewards/MultiModalAccuracyORM/mean": 0.10833333507180214,
      "rewards/MultiModalAccuracyORM/std": 0.2549058347940445,
      "step": 975,
      "train_speed(iter/s)": 0.032554
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 703.2,
      "completions/mean_length": 440.5833435058594,
      "completions/min_length": 218.4,
      "epoch": 0.39595959595959596,
      "grad_norm": 1.8329415728640532,
      "kl": 0.0074310302734375,
      "learning_rate": 2e-07,
      "loss": -0.004531031847000122,
      "memory(GiB)": 113.5,
      "reward": 0.2666666738688946,
      "reward_std": 0.351182359457016,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.351182359457016,
      "step": 980,
      "train_speed(iter/s)": 0.032558
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 425.7,
      "completions/mean_length": 267.5916748046875,
      "completions/min_length": 165.0,
      "epoch": 0.397979797979798,
      "grad_norm": 2.742069878873229,
      "kl": 0.05179443359375,
      "learning_rate": 2e-07,
      "loss": 0.019256360828876495,
      "memory(GiB)": 113.5,
      "reward": 0.33333334028720857,
      "reward_std": 0.3274982154369354,
      "rewards/MultiModalAccuracyORM/mean": 0.33333334028720857,
      "rewards/MultiModalAccuracyORM/std": 0.3274982154369354,
      "step": 985,
      "train_speed(iter/s)": 0.032587
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 638.6,
      "completions/mean_length": 360.90001068115237,
      "completions/min_length": 205.4,
      "epoch": 0.4,
      "grad_norm": 3.049274715544681,
      "kl": 0.00958404541015625,
      "learning_rate": 2e-07,
      "loss": -0.033705079555511476,
      "memory(GiB)": 113.5,
      "reward": 0.31666667610406873,
      "reward_std": 0.27122942507267,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667610406873,
      "rewards/MultiModalAccuracyORM/std": 0.27122942507267,
      "step": 990,
      "train_speed(iter/s)": 0.032615
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 526.2,
      "completions/mean_length": 330.02501220703124,
      "completions/min_length": 198.8,
      "epoch": 0.402020202020202,
      "grad_norm": 2.6515591125640574,
      "kl": 0.0110382080078125,
      "learning_rate": 2e-07,
      "loss": 0.008444187045097352,
      "memory(GiB)": 113.5,
      "reward": 0.41666667982935907,
      "reward_std": 0.4297270834445953,
      "rewards/MultiModalAccuracyORM/mean": 0.41666667982935907,
      "rewards/MultiModalAccuracyORM/std": 0.4297270834445953,
      "step": 995,
      "train_speed(iter/s)": 0.032638
    },
    {
      "epoch": 0.40404040404040403,
      "grad_norm": 1.6423776292289114,
      "learning_rate": 2e-07,
      "loss": -0.0013245075941085815,
      "memory(GiB)": 113.5,
      "step": 1000,
      "train_speed(iter/s)": 0.032641
    },
    {
      "epoch": 0.40404040404040403,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 565.38,
      "eval_completions/mean_length": 346.96667633056643,
      "eval_completions/min_length": 203.6,
      "eval_kl": 0.00558807373046875,
      "eval_loss": 0.016358518972992897,
      "eval_reward": 0.3083333417773247,
      "eval_reward_std": 0.3403226917982101,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.3083333417773247,
      "eval_rewards/MultiModalAccuracyORM/std": 0.3403226917982101,
      "eval_runtime": 586.662,
      "eval_samples_per_second": 0.085,
      "eval_steps_per_second": 0.009,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.004166666666666667,
      "completions/max_length": 608.15,
      "completions/mean_length": 370.19167709350586,
      "completions/min_length": 202.85,
      "epoch": 0.40606060606060607,
      "grad_norm": 2.014189773891532,
      "kl": 0.009693145751953125,
      "learning_rate": 2e-07,
      "loss": 0.026693809032440185,
      "memory(GiB)": 113.5,
      "reward": 0.22500000484287738,
      "reward_std": 0.2774069786071777,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000484287738,
      "rewards/MultiModalAccuracyORM/std": 0.2774069786071777,
      "step": 1005,
      "train_speed(iter/s)": 0.031849
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.9,
      "completions/mean_length": 427.22500762939455,
      "completions/min_length": 238.0,
      "epoch": 0.4080808080808081,
      "grad_norm": 2.2096007474060633,
      "kl": 0.00854034423828125,
      "learning_rate": 2e-07,
      "loss": -0.01839480996131897,
      "memory(GiB)": 113.5,
      "reward": 0.19166667014360428,
      "reward_std": 0.23004821836948394,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667014360428,
      "rewards/MultiModalAccuracyORM/std": 0.23004821836948394,
      "step": 1010,
      "train_speed(iter/s)": 0.031846
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 597.1,
      "completions/mean_length": 383.8250106811523,
      "completions/min_length": 206.1,
      "epoch": 0.4101010101010101,
      "grad_norm": 2.360953993727072,
      "kl": 0.00855560302734375,
      "learning_rate": 2e-07,
      "loss": -0.03324509263038635,
      "memory(GiB)": 113.5,
      "reward": 0.46666667610406876,
      "reward_std": 0.36664178371429446,
      "rewards/MultiModalAccuracyORM/mean": 0.46666667610406876,
      "rewards/MultiModalAccuracyORM/std": 0.36664178371429446,
      "step": 1015,
      "train_speed(iter/s)": 0.031859
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.4,
      "completions/mean_length": 396.28334350585936,
      "completions/min_length": 187.6,
      "epoch": 0.4121212121212121,
      "grad_norm": 1.1532109667394932,
      "kl": 0.00652008056640625,
      "learning_rate": 2e-07,
      "loss": 0.012686711549758912,
      "memory(GiB)": 113.5,
      "reward": 0.23333333805203438,
      "reward_std": 0.3129522502422333,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333805203438,
      "rewards/MultiModalAccuracyORM/std": 0.3129522502422333,
      "step": 1020,
      "train_speed(iter/s)": 0.031867
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 524.3,
      "completions/mean_length": 314.48334045410155,
      "completions/min_length": 181.4,
      "epoch": 0.41414141414141414,
      "grad_norm": 2.3285330234433017,
      "kl": 0.01016845703125,
      "learning_rate": 2e-07,
      "loss": -0.00456441193819046,
      "memory(GiB)": 113.5,
      "reward": 0.35000001043081286,
      "reward_std": 0.36670138239860534,
      "rewards/MultiModalAccuracyORM/mean": 0.35000001043081286,
      "rewards/MultiModalAccuracyORM/std": 0.36670138239860534,
      "step": 1025,
      "train_speed(iter/s)": 0.03188
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 679.1,
      "completions/mean_length": 417.8000122070313,
      "completions/min_length": 228.2,
      "epoch": 0.4161616161616162,
      "grad_norm": 4.123945619995185,
      "kl": 0.0071319580078125,
      "learning_rate": 2e-07,
      "loss": -0.015000586211681367,
      "memory(GiB)": 113.5,
      "reward": 0.30833334252238276,
      "reward_std": 0.4016164273023605,
      "rewards/MultiModalAccuracyORM/mean": 0.30833334252238276,
      "rewards/MultiModalAccuracyORM/std": 0.4016164273023605,
      "step": 1030,
      "train_speed(iter/s)": 0.031877
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 525.2,
      "completions/mean_length": 334.6833435058594,
      "completions/min_length": 201.1,
      "epoch": 0.41818181818181815,
      "grad_norm": 1.0210308419459193,
      "kl": 0.00837860107421875,
      "learning_rate": 2e-07,
      "loss": -0.008147723227739333,
      "memory(GiB)": 113.5,
      "reward": 0.14166667312383652,
      "reward_std": 0.14815283417701722,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667312383652,
      "rewards/MultiModalAccuracyORM/std": 0.14815283417701722,
      "step": 1035,
      "train_speed(iter/s)": 0.03191
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 454.1,
      "completions/mean_length": 269.1333374023437,
      "completions/min_length": 140.9,
      "epoch": 0.4202020202020202,
      "grad_norm": 2.4151827408725546,
      "kl": 0.01279144287109375,
      "learning_rate": 2e-07,
      "loss": -0.0017376184463500977,
      "memory(GiB)": 113.5,
      "reward": 0.5000000074505806,
      "reward_std": 0.2591939508914948,
      "rewards/MultiModalAccuracyORM/mean": 0.5000000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.2591939508914948,
      "step": 1040,
      "train_speed(iter/s)": 0.031912
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 693.0,
      "completions/mean_length": 420.541682434082,
      "completions/min_length": 252.2,
      "epoch": 0.4222222222222222,
      "grad_norm": 1.5651289466382694,
      "kl": 0.0089202880859375,
      "learning_rate": 2e-07,
      "loss": 0.007678426802158356,
      "memory(GiB)": 113.5,
      "reward": 0.07500000074505805,
      "reward_std": 0.17705594301223754,
      "rewards/MultiModalAccuracyORM/mean": 0.07500000074505805,
      "rewards/MultiModalAccuracyORM/std": 0.17705594301223754,
      "step": 1045,
      "train_speed(iter/s)": 0.031887
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.3,
      "completions/mean_length": 382.8750061035156,
      "completions/min_length": 219.2,
      "epoch": 0.42424242424242425,
      "grad_norm": 1.6669744297788438,
      "kl": 0.010504150390625,
      "learning_rate": 2e-07,
      "loss": 0.04403962194919586,
      "memory(GiB)": 113.5,
      "reward": 0.1916666716337204,
      "reward_std": 0.2908295333385468,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.2908295333385468,
      "step": 1050,
      "train_speed(iter/s)": 0.031882
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 530.7,
      "completions/mean_length": 340.3916778564453,
      "completions/min_length": 203.1,
      "epoch": 0.4262626262626263,
      "grad_norm": 0.08753771583148155,
      "kl": 0.006915283203125,
      "learning_rate": 2e-07,
      "loss": -0.00030135512351989744,
      "memory(GiB)": 113.5,
      "reward": 0.3250000074505806,
      "reward_std": 0.31046818792819975,
      "rewards/MultiModalAccuracyORM/mean": 0.3250000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.31046818792819975,
      "step": 1055,
      "train_speed(iter/s)": 0.031895
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 727.3,
      "completions/mean_length": 407.2916793823242,
      "completions/min_length": 253.6,
      "epoch": 0.42828282828282827,
      "grad_norm": 2.1853625197058877,
      "kl": 0.01122894287109375,
      "learning_rate": 2e-07,
      "loss": -0.009478866308927535,
      "memory(GiB)": 113.5,
      "reward": 0.2666666679084301,
      "reward_std": 0.2940108567476273,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.2940108567476273,
      "step": 1060,
      "train_speed(iter/s)": 0.03188
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 693.8,
      "completions/mean_length": 379.0666793823242,
      "completions/min_length": 175.8,
      "epoch": 0.4303030303030303,
      "grad_norm": 1.8429441156917366,
      "kl": 0.0084381103515625,
      "learning_rate": 2e-07,
      "loss": 0.008666989207267762,
      "memory(GiB)": 113.5,
      "reward": 0.3666666731238365,
      "reward_std": 0.40242100059986113,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.40242100059986113,
      "step": 1065,
      "train_speed(iter/s)": 0.031897
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 652.8,
      "completions/mean_length": 411.7250183105469,
      "completions/min_length": 222.1,
      "epoch": 0.43232323232323233,
      "grad_norm": 1.8025359450969856,
      "kl": 0.0067352294921875,
      "learning_rate": 2e-07,
      "loss": -0.020195412635803222,
      "memory(GiB)": 113.5,
      "reward": 0.1166666716337204,
      "reward_std": 0.1745694547891617,
      "rewards/MultiModalAccuracyORM/mean": 0.1166666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.1745694547891617,
      "step": 1070,
      "train_speed(iter/s)": 0.031919
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 562.0,
      "completions/mean_length": 334.0916748046875,
      "completions/min_length": 184.4,
      "epoch": 0.43434343434343436,
      "grad_norm": 1.6111066415316333,
      "kl": 0.00709228515625,
      "learning_rate": 2e-07,
      "loss": -0.004982185363769531,
      "memory(GiB)": 113.5,
      "reward": 0.3583333410322666,
      "reward_std": 0.27148364782333373,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.27148364782333373,
      "step": 1075,
      "train_speed(iter/s)": 0.031909
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 507.8,
      "completions/mean_length": 305.34167404174804,
      "completions/min_length": 176.1,
      "epoch": 0.43636363636363634,
      "grad_norm": 2.273654506806337,
      "kl": 0.00942840576171875,
      "learning_rate": 2e-07,
      "loss": -0.0076661787927150725,
      "memory(GiB)": 113.5,
      "reward": 0.2583333417773247,
      "reward_std": 0.2122136175632477,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.2122136175632477,
      "step": 1080,
      "train_speed(iter/s)": 0.031918
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 514.9,
      "completions/mean_length": 298.60000839233396,
      "completions/min_length": 156.5,
      "epoch": 0.4383838383838384,
      "grad_norm": 2.1394215246213495,
      "kl": 0.0081207275390625,
      "learning_rate": 2e-07,
      "loss": 0.01651126444339752,
      "memory(GiB)": 113.5,
      "reward": 0.3416666768491268,
      "reward_std": 0.4186849981546402,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.4186849981546402,
      "step": 1085,
      "train_speed(iter/s)": 0.031921
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 578.4,
      "completions/mean_length": 338.9500137329102,
      "completions/min_length": 196.0,
      "epoch": 0.4404040404040404,
      "grad_norm": 2.545454860927846,
      "kl": 0.00835113525390625,
      "learning_rate": 2e-07,
      "loss": 0.04256980717182159,
      "memory(GiB)": 113.5,
      "reward": 0.3250000014901161,
      "reward_std": 0.2712650209665298,
      "rewards/MultiModalAccuracyORM/mean": 0.3250000014901161,
      "rewards/MultiModalAccuracyORM/std": 0.2712650209665298,
      "step": 1090,
      "train_speed(iter/s)": 0.031917
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 737.9,
      "completions/mean_length": 350.0750045776367,
      "completions/min_length": 177.8,
      "epoch": 0.44242424242424244,
      "grad_norm": 1.1515652768332443,
      "kl": 0.0083038330078125,
      "learning_rate": 2e-07,
      "loss": 0.05727236866950989,
      "memory(GiB)": 113.5,
      "reward": 0.1333333395421505,
      "reward_std": 0.22625694572925567,
      "rewards/MultiModalAccuracyORM/mean": 0.1333333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.22625694572925567,
      "step": 1095,
      "train_speed(iter/s)": 0.031885
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.9,
      "completions/mean_length": 404.4166793823242,
      "completions/min_length": 222.3,
      "epoch": 0.4444444444444444,
      "grad_norm": 2.0946897692044906,
      "kl": 0.0076324462890625,
      "learning_rate": 2e-07,
      "loss": 0.03506229817867279,
      "memory(GiB)": 113.5,
      "reward": 0.45833334177732465,
      "reward_std": 0.41185393929481506,
      "rewards/MultiModalAccuracyORM/mean": 0.45833334177732465,
      "rewards/MultiModalAccuracyORM/std": 0.41185393929481506,
      "step": 1100,
      "train_speed(iter/s)": 0.031869
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 388.2,
      "completions/mean_length": 237.7166732788086,
      "completions/min_length": 130.5,
      "epoch": 0.44646464646464645,
      "grad_norm": 2.7145244594416837,
      "kl": 0.0112579345703125,
      "learning_rate": 2e-07,
      "loss": -0.004306972026824951,
      "memory(GiB)": 113.5,
      "reward": 0.27500000447034834,
      "reward_std": 0.28853767216205595,
      "rewards/MultiModalAccuracyORM/mean": 0.27500000447034834,
      "rewards/MultiModalAccuracyORM/std": 0.28853767216205595,
      "step": 1105,
      "train_speed(iter/s)": 0.031861
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.2,
      "completions/mean_length": 339.60834350585935,
      "completions/min_length": 189.7,
      "epoch": 0.4484848484848485,
      "grad_norm": 1.990851354822169,
      "kl": 0.04109954833984375,
      "learning_rate": 2e-07,
      "loss": 0.01136043295264244,
      "memory(GiB)": 113.5,
      "reward": 0.4666666768491268,
      "reward_std": 0.29859510362148284,
      "rewards/MultiModalAccuracyORM/mean": 0.4666666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.29859510362148284,
      "step": 1110,
      "train_speed(iter/s)": 0.031854
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 524.4,
      "completions/mean_length": 347.5666748046875,
      "completions/min_length": 218.3,
      "epoch": 0.4505050505050505,
      "grad_norm": 2.9268025842966563,
      "kl": 0.0082672119140625,
      "learning_rate": 2e-07,
      "loss": -0.0031023643910884856,
      "memory(GiB)": 113.5,
      "reward": 0.35000001192092894,
      "reward_std": 0.3800142765045166,
      "rewards/MultiModalAccuracyORM/mean": 0.35000001192092894,
      "rewards/MultiModalAccuracyORM/std": 0.3800142765045166,
      "step": 1115,
      "train_speed(iter/s)": 0.031867
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 514.2,
      "completions/mean_length": 336.5333419799805,
      "completions/min_length": 190.3,
      "epoch": 0.45252525252525255,
      "grad_norm": 2.361080053690534,
      "kl": 0.009368896484375,
      "learning_rate": 2e-07,
      "loss": -0.007122965157032013,
      "memory(GiB)": 113.5,
      "reward": 0.4000000074505806,
      "reward_std": 0.25241934359073637,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.25241934359073637,
      "step": 1120,
      "train_speed(iter/s)": 0.031889
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 627.4,
      "completions/mean_length": 387.1333465576172,
      "completions/min_length": 233.6,
      "epoch": 0.45454545454545453,
      "grad_norm": 1.323972233543725,
      "kl": 0.008551025390625,
      "learning_rate": 2e-07,
      "loss": 0.03706555962562561,
      "memory(GiB)": 113.5,
      "reward": 0.19166667014360428,
      "reward_std": 0.3109443962574005,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667014360428,
      "rewards/MultiModalAccuracyORM/std": 0.3109443962574005,
      "step": 1125,
      "train_speed(iter/s)": 0.031889
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 558.3,
      "completions/mean_length": 389.6666778564453,
      "completions/min_length": 238.9,
      "epoch": 0.45656565656565656,
      "grad_norm": 0.7314973239006443,
      "kl": 0.00838775634765625,
      "learning_rate": 2e-07,
      "loss": -0.0037152446806430818,
      "memory(GiB)": 113.5,
      "reward": 0.32500000223517417,
      "reward_std": 0.2556006729602814,
      "rewards/MultiModalAccuracyORM/mean": 0.32500000223517417,
      "rewards/MultiModalAccuracyORM/std": 0.2556006729602814,
      "step": 1130,
      "train_speed(iter/s)": 0.031898
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 594.1,
      "completions/mean_length": 376.69167175292966,
      "completions/min_length": 193.9,
      "epoch": 0.4585858585858586,
      "grad_norm": 2.6192210055071947,
      "kl": 0.008709716796875,
      "learning_rate": 2e-07,
      "loss": -0.010700675845146179,
      "memory(GiB)": 113.5,
      "reward": 0.2750000089406967,
      "reward_std": 0.3663875609636307,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.3663875609636307,
      "step": 1135,
      "train_speed(iter/s)": 0.031914
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 606.0,
      "completions/mean_length": 373.23334350585935,
      "completions/min_length": 224.3,
      "epoch": 0.46060606060606063,
      "grad_norm": 7.217746674191174,
      "kl": 0.05963134765625,
      "learning_rate": 2e-07,
      "loss": 0.005391424894332886,
      "memory(GiB)": 113.5,
      "reward": 0.11666666865348815,
      "reward_std": 0.255160054564476,
      "rewards/MultiModalAccuracyORM/mean": 0.11666666865348815,
      "rewards/MultiModalAccuracyORM/std": 0.255160054564476,
      "step": 1140,
      "train_speed(iter/s)": 0.031929
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 430.7,
      "completions/mean_length": 264.12500686645507,
      "completions/min_length": 149.1,
      "epoch": 0.4626262626262626,
      "grad_norm": 2.7608756487475525,
      "kl": 0.014227294921875,
      "learning_rate": 2e-07,
      "loss": 0.01821192502975464,
      "memory(GiB)": 113.5,
      "reward": 0.3916666731238365,
      "reward_std": 0.29640085995197296,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.29640085995197296,
      "step": 1145,
      "train_speed(iter/s)": 0.031947
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.1,
      "completions/mean_length": 274.7416763305664,
      "completions/min_length": 172.5,
      "epoch": 0.46464646464646464,
      "grad_norm": 2.4711978185790886,
      "kl": 0.1343414306640625,
      "learning_rate": 2e-07,
      "loss": 0.017589953541755677,
      "memory(GiB)": 113.5,
      "reward": 0.24166667237877845,
      "reward_std": 0.28959646821022034,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.28959646821022034,
      "step": 1150,
      "train_speed(iter/s)": 0.031968
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 546.7,
      "completions/mean_length": 316.32501220703125,
      "completions/min_length": 170.1,
      "epoch": 0.4666666666666667,
      "grad_norm": 2.193137307137183,
      "kl": 0.00921173095703125,
      "learning_rate": 2e-07,
      "loss": 0.03984123468399048,
      "memory(GiB)": 113.5,
      "reward": 0.25833334103226663,
      "reward_std": 0.3578915596008301,
      "rewards/MultiModalAccuracyORM/mean": 0.25833334103226663,
      "rewards/MultiModalAccuracyORM/std": 0.3578915596008301,
      "step": 1155,
      "train_speed(iter/s)": 0.031978
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.9,
      "completions/mean_length": 312.7916748046875,
      "completions/min_length": 192.9,
      "epoch": 0.4686868686868687,
      "grad_norm": 2.4370225749301886,
      "kl": 0.0099822998046875,
      "learning_rate": 2e-07,
      "loss": 0.04419963359832764,
      "memory(GiB)": 113.5,
      "reward": 0.36666667759418486,
      "reward_std": 0.34560186266899107,
      "rewards/MultiModalAccuracyORM/mean": 0.36666667759418486,
      "rewards/MultiModalAccuracyORM/std": 0.34560186266899107,
      "step": 1160,
      "train_speed(iter/s)": 0.031974
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 661.0,
      "completions/mean_length": 355.541674041748,
      "completions/min_length": 156.5,
      "epoch": 0.4707070707070707,
      "grad_norm": 3.306493843440885,
      "kl": 0.01005859375,
      "learning_rate": 2e-07,
      "loss": 0.021104392409324647,
      "memory(GiB)": 113.5,
      "reward": 0.31666667461395265,
      "reward_std": 0.37450254559516905,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667461395265,
      "rewards/MultiModalAccuracyORM/std": 0.37450254559516905,
      "step": 1165,
      "train_speed(iter/s)": 0.031991
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 452.5,
      "completions/mean_length": 266.8083435058594,
      "completions/min_length": 159.0,
      "epoch": 0.4727272727272727,
      "grad_norm": 3.2381508792172107,
      "kl": 0.0092529296875,
      "learning_rate": 2e-07,
      "loss": 0.0005752682685852051,
      "memory(GiB)": 113.5,
      "reward": 0.19166667237877846,
      "reward_std": 0.29159851372241974,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667237877846,
      "rewards/MultiModalAccuracyORM/std": 0.29159851372241974,
      "step": 1170,
      "train_speed(iter/s)": 0.032017
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 651.1,
      "completions/mean_length": 376.39167938232424,
      "completions/min_length": 220.4,
      "epoch": 0.47474747474747475,
      "grad_norm": 1.6637816276606223,
      "kl": 0.00755615234375,
      "learning_rate": 2e-07,
      "loss": 0.04589937329292297,
      "memory(GiB)": 113.5,
      "reward": 0.3083333417773247,
      "reward_std": 0.37851486802101136,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.37851486802101136,
      "step": 1175,
      "train_speed(iter/s)": 0.032023
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 656.9,
      "completions/mean_length": 448.13334197998046,
      "completions/min_length": 217.0,
      "epoch": 0.4767676767676768,
      "grad_norm": 2.1978602872808075,
      "kl": 0.0097900390625,
      "learning_rate": 2e-07,
      "loss": -0.009159280359745026,
      "memory(GiB)": 113.5,
      "reward": 0.3166666738688946,
      "reward_std": 0.28452777564525605,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.28452777564525605,
      "step": 1180,
      "train_speed(iter/s)": 0.032033
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 451.5,
      "completions/mean_length": 289.1250053405762,
      "completions/min_length": 172.7,
      "epoch": 0.47878787878787876,
      "grad_norm": 1.3926480253734976,
      "kl": 0.0114959716796875,
      "learning_rate": 2e-07,
      "loss": 0.009945812821388244,
      "memory(GiB)": 113.5,
      "reward": 0.5000000149011612,
      "reward_std": 0.29630566835403443,
      "rewards/MultiModalAccuracyORM/mean": 0.5000000149011612,
      "rewards/MultiModalAccuracyORM/std": 0.29630566835403443,
      "step": 1185,
      "train_speed(iter/s)": 0.032058
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 582.5,
      "completions/mean_length": 330.6666732788086,
      "completions/min_length": 149.8,
      "epoch": 0.4808080808080808,
      "grad_norm": 1.9719497919311402,
      "kl": 0.0093994140625,
      "learning_rate": 2e-07,
      "loss": 0.0009687811136245728,
      "memory(GiB)": 113.5,
      "reward": 0.3083333410322666,
      "reward_std": 0.3478672981262207,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.3478672981262207,
      "step": 1190,
      "train_speed(iter/s)": 0.032072
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 687.4,
      "completions/mean_length": 421.73334350585935,
      "completions/min_length": 236.0,
      "epoch": 0.48282828282828283,
      "grad_norm": 1.243534573096356,
      "kl": 0.0077484130859375,
      "learning_rate": 2e-07,
      "loss": -0.003622010350227356,
      "memory(GiB)": 113.5,
      "reward": 0.20833333879709243,
      "reward_std": 0.29815449118614196,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333879709243,
      "rewards/MultiModalAccuracyORM/std": 0.29815449118614196,
      "step": 1195,
      "train_speed(iter/s)": 0.03208
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 576.5,
      "completions/mean_length": 360.5666748046875,
      "completions/min_length": 198.9,
      "epoch": 0.48484848484848486,
      "grad_norm": 2.916364282012391,
      "kl": 0.0125274658203125,
      "learning_rate": 2e-07,
      "loss": -0.021604710817337038,
      "memory(GiB)": 113.5,
      "reward": 0.22500000447034835,
      "reward_std": 0.35037778615951537,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000447034835,
      "rewards/MultiModalAccuracyORM/std": 0.35037778615951537,
      "step": 1200,
      "train_speed(iter/s)": 0.032073
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 488.0,
      "completions/mean_length": 282.54167556762695,
      "completions/min_length": 161.2,
      "epoch": 0.4868686868686869,
      "grad_norm": 1.8011146439004695,
      "kl": 0.0113494873046875,
      "learning_rate": 2e-07,
      "loss": 0.006717947870492935,
      "memory(GiB)": 113.5,
      "reward": 0.3333333387970924,
      "reward_std": 0.19114727079868316,
      "rewards/MultiModalAccuracyORM/mean": 0.3333333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.19114727079868316,
      "step": 1205,
      "train_speed(iter/s)": 0.032089
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 834.7,
      "completions/mean_length": 442.2083435058594,
      "completions/min_length": 237.3,
      "epoch": 0.4888888888888889,
      "grad_norm": 1.4349681794675622,
      "kl": 0.0094146728515625,
      "learning_rate": 2e-07,
      "loss": 0.0006179869174957276,
      "memory(GiB)": 113.5,
      "reward": 0.2333333410322666,
      "reward_std": 0.3762586027383804,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.3762586027383804,
      "step": 1210,
      "train_speed(iter/s)": 0.032088
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 738.7,
      "completions/mean_length": 433.8916748046875,
      "completions/min_length": 249.1,
      "epoch": 0.4909090909090909,
      "grad_norm": 2.547575664275865,
      "kl": 0.00975189208984375,
      "learning_rate": 2e-07,
      "loss": -0.026794981956481934,
      "memory(GiB)": 113.5,
      "reward": 0.18333333656191825,
      "reward_std": 0.20118070244789124,
      "rewards/MultiModalAccuracyORM/mean": 0.18333333656191825,
      "rewards/MultiModalAccuracyORM/std": 0.20118070244789124,
      "step": 1215,
      "train_speed(iter/s)": 0.032076
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 627.1,
      "completions/mean_length": 359.12500915527346,
      "completions/min_length": 197.8,
      "epoch": 0.49292929292929294,
      "grad_norm": 1.645283475386655,
      "kl": 0.0115875244140625,
      "learning_rate": 2e-07,
      "loss": 0.024244531989097595,
      "memory(GiB)": 113.5,
      "reward": 0.3333333387970924,
      "reward_std": 0.2511145621538162,
      "rewards/MultiModalAccuracyORM/mean": 0.3333333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.2511145621538162,
      "step": 1220,
      "train_speed(iter/s)": 0.032088
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 419.3,
      "completions/mean_length": 267.17501068115234,
      "completions/min_length": 152.0,
      "epoch": 0.494949494949495,
      "grad_norm": 1.2460930349970594,
      "kl": 0.010992431640625,
      "learning_rate": 2e-07,
      "loss": 0.007182718813419342,
      "memory(GiB)": 113.5,
      "reward": 0.2583333358168602,
      "reward_std": 0.2536582201719284,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.2536582201719284,
      "step": 1225,
      "train_speed(iter/s)": 0.032122
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 723.8,
      "completions/mean_length": 405.7416702270508,
      "completions/min_length": 233.4,
      "epoch": 0.49696969696969695,
      "grad_norm": 3.259598192610936,
      "kl": 0.0076690673828125,
      "learning_rate": 2e-07,
      "loss": 0.0032115459442138674,
      "memory(GiB)": 113.5,
      "reward": 0.33333334177732465,
      "reward_std": 0.3470627248287201,
      "rewards/MultiModalAccuracyORM/mean": 0.33333334177732465,
      "rewards/MultiModalAccuracyORM/std": 0.3470627248287201,
      "step": 1230,
      "train_speed(iter/s)": 0.032125
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 472.1,
      "completions/mean_length": 306.12501068115233,
      "completions/min_length": 188.9,
      "epoch": 0.498989898989899,
      "grad_norm": 0.7719456506471253,
      "kl": 0.01029205322265625,
      "learning_rate": 2e-07,
      "loss": -0.016546979546546936,
      "memory(GiB)": 113.5,
      "reward": 0.1916666693985462,
      "reward_std": 0.2895223259925842,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.2895223259925842,
      "step": 1235,
      "train_speed(iter/s)": 0.032159
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 534.6,
      "completions/mean_length": 343.00834503173826,
      "completions/min_length": 207.8,
      "epoch": 0.501010101010101,
      "grad_norm": 1.6531811897726711,
      "kl": 0.0093170166015625,
      "learning_rate": 2e-07,
      "loss": 0.02186596691608429,
      "memory(GiB)": 113.5,
      "reward": 0.19166667610406876,
      "reward_std": 0.2448128044605255,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667610406876,
      "rewards/MultiModalAccuracyORM/std": 0.2448128044605255,
      "step": 1240,
      "train_speed(iter/s)": 0.032173
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 538.6,
      "completions/mean_length": 299.2916717529297,
      "completions/min_length": 172.4,
      "epoch": 0.503030303030303,
      "grad_norm": 3.19592384950856,
      "kl": 0.0099273681640625,
      "learning_rate": 2e-07,
      "loss": -0.006601364910602569,
      "memory(GiB)": 113.5,
      "reward": 0.2083333410322666,
      "reward_std": 0.3292782694101334,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.3292782694101334,
      "step": 1245,
      "train_speed(iter/s)": 0.032193
    },
    {
      "epoch": 0.5050505050505051,
      "grad_norm": 0.912303521551538,
      "learning_rate": 2e-07,
      "loss": -0.0002701073884963989,
      "memory(GiB)": 113.5,
      "step": 1250,
      "train_speed(iter/s)": 0.032205
    },
    {
      "epoch": 0.5050505050505051,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 570.74,
      "eval_completions/mean_length": 352.94834228515623,
      "eval_completions/min_length": 210.42,
      "eval_kl": 0.00790496826171875,
      "eval_loss": 0.01708856225013733,
      "eval_reward": 0.2983333393931389,
      "eval_reward_std": 0.3327623122930527,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.2983333393931389,
      "eval_rewards/MultiModalAccuracyORM/std": 0.3327623122930527,
      "eval_runtime": 568.068,
      "eval_samples_per_second": 0.088,
      "eval_steps_per_second": 0.009,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.8,
      "completions/mean_length": 358.1875087738037,
      "completions/min_length": 223.5,
      "epoch": 0.5070707070707071,
      "grad_norm": 1.8888348326711508,
      "kl": 0.01190643310546875,
      "learning_rate": 2e-07,
      "loss": 0.019428746402263643,
      "memory(GiB)": 113.5,
      "reward": 0.27916667275130747,
      "reward_std": 0.38802969008684157,
      "rewards/MultiModalAccuracyORM/mean": 0.27916667275130747,
      "rewards/MultiModalAccuracyORM/std": 0.38802969008684157,
      "step": 1255,
      "train_speed(iter/s)": 0.031527
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 619.7,
      "completions/mean_length": 373.8333465576172,
      "completions/min_length": 225.6,
      "epoch": 0.509090909090909,
      "grad_norm": 1.8028043067539863,
      "kl": 0.0100677490234375,
      "learning_rate": 2e-07,
      "loss": 0.027076438069343567,
      "memory(GiB)": 113.5,
      "reward": 0.19166667386889458,
      "reward_std": 0.3207202464342117,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667386889458,
      "rewards/MultiModalAccuracyORM/std": 0.3207202464342117,
      "step": 1260,
      "train_speed(iter/s)": 0.031526
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 690.3,
      "completions/mean_length": 397.9250152587891,
      "completions/min_length": 204.6,
      "epoch": 0.5111111111111111,
      "grad_norm": 2.2225728768142723,
      "kl": 0.011029052734375,
      "learning_rate": 2e-07,
      "loss": -0.04860515892505646,
      "memory(GiB)": 113.5,
      "reward": 0.29166667684912684,
      "reward_std": 0.33303394317626955,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667684912684,
      "rewards/MultiModalAccuracyORM/std": 0.33303394317626955,
      "step": 1265,
      "train_speed(iter/s)": 0.031521
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.6,
      "completions/mean_length": 342.73334350585935,
      "completions/min_length": 191.1,
      "epoch": 0.5131313131313131,
      "grad_norm": 1.467354462173463,
      "kl": 0.0107818603515625,
      "learning_rate": 2e-07,
      "loss": 0.03341347873210907,
      "memory(GiB)": 113.5,
      "reward": 0.34166667982935905,
      "reward_std": 0.2812868595123291,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667982935905,
      "rewards/MultiModalAccuracyORM/std": 0.2812868595123291,
      "step": 1270,
      "train_speed(iter/s)": 0.031536
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 447.8,
      "completions/mean_length": 283.72500762939455,
      "completions/min_length": 163.8,
      "epoch": 0.5151515151515151,
      "grad_norm": 3.716342095943599,
      "kl": 0.014361572265625,
      "learning_rate": 2e-07,
      "loss": 0.02838865518569946,
      "memory(GiB)": 113.5,
      "reward": 0.433333345502615,
      "reward_std": 0.3993005663156509,
      "rewards/MultiModalAccuracyORM/mean": 0.433333345502615,
      "rewards/MultiModalAccuracyORM/std": 0.3993005663156509,
      "step": 1275,
      "train_speed(iter/s)": 0.031554
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.3,
      "completions/mean_length": 302.8583389282227,
      "completions/min_length": 167.6,
      "epoch": 0.5171717171717172,
      "grad_norm": 2.503627797323309,
      "kl": 0.0103668212890625,
      "learning_rate": 2e-07,
      "loss": 0.00705558955669403,
      "memory(GiB)": 113.5,
      "reward": 0.6333333551883698,
      "reward_std": 0.43680969774723055,
      "rewards/MultiModalAccuracyORM/mean": 0.6333333551883698,
      "rewards/MultiModalAccuracyORM/std": 0.43680969774723055,
      "step": 1280,
      "train_speed(iter/s)": 0.031583
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 650.5,
      "completions/mean_length": 403.7000076293945,
      "completions/min_length": 185.7,
      "epoch": 0.5191919191919192,
      "grad_norm": 3.2251809838929315,
      "kl": 0.0101654052734375,
      "learning_rate": 2e-07,
      "loss": -0.037446904182434085,
      "memory(GiB)": 113.5,
      "reward": 0.3083333395421505,
      "reward_std": 0.3978011578321457,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3978011578321457,
      "step": 1285,
      "train_speed(iter/s)": 0.031592
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 499.7,
      "completions/mean_length": 300.60834045410155,
      "completions/min_length": 158.4,
      "epoch": 0.5212121212121212,
      "grad_norm": 1.7359935662818697,
      "kl": 0.0238189697265625,
      "learning_rate": 2e-07,
      "loss": 0.005645626783370971,
      "memory(GiB)": 113.5,
      "reward": 0.4916666761040688,
      "reward_std": 0.37272491455078127,
      "rewards/MultiModalAccuracyORM/mean": 0.4916666761040688,
      "rewards/MultiModalAccuracyORM/std": 0.37272491455078127,
      "step": 1290,
      "train_speed(iter/s)": 0.031618
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 658.6,
      "completions/mean_length": 381.3166809082031,
      "completions/min_length": 189.5,
      "epoch": 0.5232323232323233,
      "grad_norm": 2.291063786312688,
      "kl": 0.0126251220703125,
      "learning_rate": 2e-07,
      "loss": 0.03457438945770264,
      "memory(GiB)": 113.5,
      "reward": 0.29166667312383654,
      "reward_std": 0.3760043799877167,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667312383654,
      "rewards/MultiModalAccuracyORM/std": 0.3760043799877167,
      "step": 1295,
      "train_speed(iter/s)": 0.031626
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 535.2,
      "completions/mean_length": 334.5833480834961,
      "completions/min_length": 191.9,
      "epoch": 0.5252525252525253,
      "grad_norm": 2.290129258389379,
      "kl": 0.0095916748046875,
      "learning_rate": 2e-07,
      "loss": -0.024787557125091553,
      "memory(GiB)": 113.5,
      "reward": 0.37500000894069674,
      "reward_std": 0.29634126722812654,
      "rewards/MultiModalAccuracyORM/mean": 0.37500000894069674,
      "rewards/MultiModalAccuracyORM/std": 0.29634126722812654,
      "step": 1300,
      "train_speed(iter/s)": 0.031656
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 576.6,
      "completions/mean_length": 374.36668395996094,
      "completions/min_length": 192.7,
      "epoch": 0.5272727272727272,
      "grad_norm": 2.0627127342369556,
      "kl": 0.0099151611328125,
      "learning_rate": 2e-07,
      "loss": 0.004585762321949005,
      "memory(GiB)": 113.5,
      "reward": 0.2250000037252903,
      "reward_std": 0.40560232698917387,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.40560232698917387,
      "step": 1305,
      "train_speed(iter/s)": 0.031669
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 569.9,
      "completions/mean_length": 281.84167556762696,
      "completions/min_length": 151.0,
      "epoch": 0.5292929292929293,
      "grad_norm": 1.2890377388651022,
      "kl": 0.012725830078125,
      "learning_rate": 2e-07,
      "loss": -0.00015339255332946777,
      "memory(GiB)": 113.5,
      "reward": 0.341666679084301,
      "reward_std": 0.31068681478500365,
      "rewards/MultiModalAccuracyORM/mean": 0.341666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.31068681478500365,
      "step": 1310,
      "train_speed(iter/s)": 0.031675
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 548.4,
      "completions/mean_length": 307.5916717529297,
      "completions/min_length": 186.8,
      "epoch": 0.5313131313131313,
      "grad_norm": 2.0391373518251648,
      "kl": 0.0098358154296875,
      "learning_rate": 2e-07,
      "loss": 0.06573413610458374,
      "memory(GiB)": 113.5,
      "reward": 0.28333333805203437,
      "reward_std": 0.351182359457016,
      "rewards/MultiModalAccuracyORM/mean": 0.28333333805203437,
      "rewards/MultiModalAccuracyORM/std": 0.351182359457016,
      "step": 1315,
      "train_speed(iter/s)": 0.031691
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 479.0,
      "completions/mean_length": 273.75001068115233,
      "completions/min_length": 144.0,
      "epoch": 0.5333333333333333,
      "grad_norm": 2.059578451448539,
      "kl": 0.01175537109375,
      "learning_rate": 2e-07,
      "loss": 0.04888114631175995,
      "memory(GiB)": 113.5,
      "reward": 0.3500000096857548,
      "reward_std": 0.4166352391242981,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.4166352391242981,
      "step": 1320,
      "train_speed(iter/s)": 0.031715
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 623.8,
      "completions/mean_length": 376.00000915527346,
      "completions/min_length": 193.4,
      "epoch": 0.5353535353535354,
      "grad_norm": 2.604163597368088,
      "kl": 0.014556884765625,
      "learning_rate": 2e-07,
      "loss": 0.025493156909942628,
      "memory(GiB)": 113.5,
      "reward": 0.2833333432674408,
      "reward_std": 0.33376437425613403,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.33376437425613403,
      "step": 1325,
      "train_speed(iter/s)": 0.031732
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.3,
      "completions/mean_length": 319.8833465576172,
      "completions/min_length": 185.2,
      "epoch": 0.5373737373737374,
      "grad_norm": 2.939920293327845,
      "kl": 0.0071502685546875,
      "learning_rate": 2e-07,
      "loss": -0.0020159482955932617,
      "memory(GiB)": 113.5,
      "reward": 0.2500000037252903,
      "reward_std": 0.33000870048999786,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.33000870048999786,
      "step": 1330,
      "train_speed(iter/s)": 0.031756
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 631.3,
      "completions/mean_length": 409.9833419799805,
      "completions/min_length": 273.6,
      "epoch": 0.5393939393939394,
      "grad_norm": 1.8600557381971845,
      "kl": 0.011651611328125,
      "learning_rate": 2e-07,
      "loss": 0.014566189050674439,
      "memory(GiB)": 113.5,
      "reward": 0.2500000029802322,
      "reward_std": 0.36642315685749055,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000029802322,
      "rewards/MultiModalAccuracyORM/std": 0.36642315685749055,
      "step": 1335,
      "train_speed(iter/s)": 0.031764
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.0,
      "completions/mean_length": 304.6666717529297,
      "completions/min_length": 186.0,
      "epoch": 0.5414141414141415,
      "grad_norm": 2.250726659882682,
      "kl": 0.0128570556640625,
      "learning_rate": 2e-07,
      "loss": 0.0025543123483657837,
      "memory(GiB)": 113.5,
      "reward": 0.1416666679084301,
      "reward_std": 0.24939410090446473,
      "rewards/MultiModalAccuracyORM/mean": 0.1416666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.24939410090446473,
      "step": 1340,
      "train_speed(iter/s)": 0.031764
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 534.8,
      "completions/mean_length": 320.21667633056643,
      "completions/min_length": 156.5,
      "epoch": 0.5434343434343434,
      "grad_norm": 3.49354443152123,
      "kl": 0.01195068359375,
      "learning_rate": 2e-07,
      "loss": -0.026122617721557616,
      "memory(GiB)": 113.5,
      "reward": 0.10833333656191826,
      "reward_std": 0.2714240521192551,
      "rewards/MultiModalAccuracyORM/mean": 0.10833333656191826,
      "rewards/MultiModalAccuracyORM/std": 0.2714240521192551,
      "step": 1345,
      "train_speed(iter/s)": 0.031794
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 567.0,
      "completions/mean_length": 359.27501220703124,
      "completions/min_length": 227.5,
      "epoch": 0.5454545454545454,
      "grad_norm": 1.3573423115932872,
      "kl": 0.008941650390625,
      "learning_rate": 2e-07,
      "loss": 0.02098418176174164,
      "memory(GiB)": 113.5,
      "reward": 0.30833334401249884,
      "reward_std": 0.3207202464342117,
      "rewards/MultiModalAccuracyORM/mean": 0.30833334401249884,
      "rewards/MultiModalAccuracyORM/std": 0.3207202464342117,
      "step": 1350,
      "train_speed(iter/s)": 0.031817
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 640.3,
      "completions/mean_length": 368.5750106811523,
      "completions/min_length": 194.4,
      "epoch": 0.5474747474747474,
      "grad_norm": 1.268246321814541,
      "kl": 0.011553955078125,
      "learning_rate": 2e-07,
      "loss": -0.037621939182281496,
      "memory(GiB)": 113.5,
      "reward": 0.3083333447575569,
      "reward_std": 0.3823301374912262,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333447575569,
      "rewards/MultiModalAccuracyORM/std": 0.3823301374912262,
      "step": 1355,
      "train_speed(iter/s)": 0.031821
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.5,
      "completions/mean_length": 337.325008392334,
      "completions/min_length": 166.7,
      "epoch": 0.5494949494949495,
      "grad_norm": 1.1405744205796668,
      "kl": 0.0093414306640625,
      "learning_rate": 2e-07,
      "loss": 0.05270506143569946,
      "memory(GiB)": 113.5,
      "reward": 0.5333333417773247,
      "reward_std": 0.30996555387973784,
      "rewards/MultiModalAccuracyORM/mean": 0.5333333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.30996555387973784,
      "step": 1360,
      "train_speed(iter/s)": 0.031838
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 511.6,
      "completions/mean_length": 287.0166732788086,
      "completions/min_length": 144.9,
      "epoch": 0.5515151515151515,
      "grad_norm": 2.505246091989759,
      "kl": 0.0113037109375,
      "learning_rate": 2e-07,
      "loss": -0.027878284454345703,
      "memory(GiB)": 113.5,
      "reward": 0.24166667833924294,
      "reward_std": 0.34710127115249634,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667833924294,
      "rewards/MultiModalAccuracyORM/std": 0.34710127115249634,
      "step": 1365,
      "train_speed(iter/s)": 0.031858
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.9,
      "completions/mean_length": 330.1916793823242,
      "completions/min_length": 153.1,
      "epoch": 0.5535353535353535,
      "grad_norm": 3.131582003300663,
      "kl": 0.0138336181640625,
      "learning_rate": 2e-07,
      "loss": -0.0038233429193496706,
      "memory(GiB)": 113.5,
      "reward": 0.31666667982935903,
      "reward_std": 0.37345829904079436,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667982935903,
      "rewards/MultiModalAccuracyORM/std": 0.37345829904079436,
      "step": 1370,
      "train_speed(iter/s)": 0.031869
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 445.4,
      "completions/mean_length": 286.3666702270508,
      "completions/min_length": 149.1,
      "epoch": 0.5555555555555556,
      "grad_norm": 1.9956984289591713,
      "kl": 0.0112335205078125,
      "learning_rate": 2e-07,
      "loss": -0.012190797924995422,
      "memory(GiB)": 113.5,
      "reward": 0.40833333879709244,
      "reward_std": 0.3855446308851242,
      "rewards/MultiModalAccuracyORM/mean": 0.40833333879709244,
      "rewards/MultiModalAccuracyORM/std": 0.3855446308851242,
      "step": 1375,
      "train_speed(iter/s)": 0.031897
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 538.7,
      "completions/mean_length": 324.9166763305664,
      "completions/min_length": 202.3,
      "epoch": 0.5575757575757576,
      "grad_norm": 2.1303502921633335,
      "kl": 0.00983428955078125,
      "learning_rate": 2e-07,
      "loss": 0.02664785385131836,
      "memory(GiB)": 113.5,
      "reward": 0.40833333879709244,
      "reward_std": 0.30971133410930635,
      "rewards/MultiModalAccuracyORM/mean": 0.40833333879709244,
      "rewards/MultiModalAccuracyORM/std": 0.30971133410930635,
      "step": 1380,
      "train_speed(iter/s)": 0.031915
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.6,
      "completions/mean_length": 356.1666793823242,
      "completions/min_length": 201.3,
      "epoch": 0.5595959595959596,
      "grad_norm": 2.9931509831712524,
      "kl": 0.012689208984375,
      "learning_rate": 2e-07,
      "loss": -0.039350539445877075,
      "memory(GiB)": 113.5,
      "reward": 0.1666666716337204,
      "reward_std": 0.2917931377887726,
      "rewards/MultiModalAccuracyORM/mean": 0.1666666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.2917931377887726,
      "step": 1385,
      "train_speed(iter/s)": 0.031924
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 564.0,
      "completions/mean_length": 356.6083358764648,
      "completions/min_length": 193.0,
      "epoch": 0.5616161616161616,
      "grad_norm": 2.198573582527943,
      "kl": 0.008941650390625,
      "learning_rate": 2e-07,
      "loss": -0.022810643911361693,
      "memory(GiB)": 113.5,
      "reward": 0.35000001415610316,
      "reward_std": 0.32673218548297883,
      "rewards/MultiModalAccuracyORM/mean": 0.35000001415610316,
      "rewards/MultiModalAccuracyORM/std": 0.32673218548297883,
      "step": 1390,
      "train_speed(iter/s)": 0.031929
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 485.0,
      "completions/mean_length": 314.82500686645506,
      "completions/min_length": 182.1,
      "epoch": 0.5636363636363636,
      "grad_norm": 2.150533068523157,
      "kl": 0.0106353759765625,
      "learning_rate": 2e-07,
      "loss": -0.013728708028793335,
      "memory(GiB)": 113.5,
      "reward": 0.46666667312383653,
      "reward_std": 0.25897532403469087,
      "rewards/MultiModalAccuracyORM/mean": 0.46666667312383653,
      "rewards/MultiModalAccuracyORM/std": 0.25897532403469087,
      "step": 1395,
      "train_speed(iter/s)": 0.031954
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 552.3,
      "completions/mean_length": 353.3833465576172,
      "completions/min_length": 204.6,
      "epoch": 0.5656565656565656,
      "grad_norm": 1.940941493471918,
      "kl": 0.0095428466796875,
      "learning_rate": 2e-07,
      "loss": -0.006394821405410767,
      "memory(GiB)": 113.5,
      "reward": 0.3916666753590107,
      "reward_std": 0.34550372064113616,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.34550372064113616,
      "step": 1400,
      "train_speed(iter/s)": 0.031962
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 705.4,
      "completions/mean_length": 432.6000045776367,
      "completions/min_length": 228.0,
      "epoch": 0.5676767676767677,
      "grad_norm": 2.4378327864764286,
      "kl": 0.011553955078125,
      "learning_rate": 2e-07,
      "loss": 0.04005226194858551,
      "memory(GiB)": 113.5,
      "reward": 0.2916666746139526,
      "reward_std": 0.3370794355869293,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666746139526,
      "rewards/MultiModalAccuracyORM/std": 0.3370794355869293,
      "step": 1405,
      "train_speed(iter/s)": 0.031967
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 689.2,
      "completions/mean_length": 384.7333465576172,
      "completions/min_length": 220.2,
      "epoch": 0.5696969696969697,
      "grad_norm": 0.780805540568698,
      "kl": 0.01131591796875,
      "learning_rate": 2e-07,
      "loss": 0.03709500730037689,
      "memory(GiB)": 113.5,
      "reward": 0.33333333730697634,
      "reward_std": 0.3572298943996429,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333730697634,
      "rewards/MultiModalAccuracyORM/std": 0.3572298943996429,
      "step": 1410,
      "train_speed(iter/s)": 0.031973
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 595.0,
      "completions/mean_length": 321.6333465576172,
      "completions/min_length": 164.9,
      "epoch": 0.5717171717171717,
      "grad_norm": 1.430362343806847,
      "kl": 0.0101104736328125,
      "learning_rate": 2e-07,
      "loss": 0.013754424452781678,
      "memory(GiB)": 113.5,
      "reward": 0.2583333387970924,
      "reward_std": 0.28555097579956057,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.28555097579956057,
      "step": 1415,
      "train_speed(iter/s)": 0.031992
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 816.5,
      "completions/mean_length": 438.3833435058594,
      "completions/min_length": 264.8,
      "epoch": 0.5737373737373738,
      "grad_norm": 1.6263448971015675,
      "kl": 0.010430908203125,
      "learning_rate": 2e-07,
      "loss": -0.0029776930809020997,
      "memory(GiB)": 113.5,
      "reward": 0.2333333395421505,
      "reward_std": 0.3883536756038666,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3883536756038666,
      "step": 1420,
      "train_speed(iter/s)": 0.031979
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 766.6,
      "completions/mean_length": 387.12500915527346,
      "completions/min_length": 211.4,
      "epoch": 0.5757575757575758,
      "grad_norm": 2.1728432922463274,
      "kl": 0.0098236083984375,
      "learning_rate": 2e-07,
      "loss": -0.004918041825294495,
      "memory(GiB)": 113.5,
      "reward": 0.23333333656191826,
      "reward_std": 0.10697162449359894,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333656191826,
      "rewards/MultiModalAccuracyORM/std": 0.10697162449359894,
      "step": 1425,
      "train_speed(iter/s)": 0.031977
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 637.8,
      "completions/mean_length": 388.7416793823242,
      "completions/min_length": 235.4,
      "epoch": 0.5777777777777777,
      "grad_norm": 1.7935893801244052,
      "kl": 0.0087493896484375,
      "learning_rate": 2e-07,
      "loss": 0.04609963297843933,
      "memory(GiB)": 113.5,
      "reward": 0.3500000134110451,
      "reward_std": 0.32297651171684266,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000134110451,
      "rewards/MultiModalAccuracyORM/std": 0.32297651171684266,
      "step": 1430,
      "train_speed(iter/s)": 0.031989
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 682.9,
      "completions/mean_length": 398.00001220703126,
      "completions/min_length": 208.4,
      "epoch": 0.5797979797979798,
      "grad_norm": 2.549829840865519,
      "kl": 0.010107421875,
      "learning_rate": 2e-07,
      "loss": -0.0018973067402839662,
      "memory(GiB)": 113.5,
      "reward": 0.4250000089406967,
      "reward_std": 0.3973225235939026,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.3973225235939026,
      "step": 1435,
      "train_speed(iter/s)": 0.031994
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 586.2,
      "completions/mean_length": 325.5333450317383,
      "completions/min_length": 163.1,
      "epoch": 0.5818181818181818,
      "grad_norm": 2.800120485549645,
      "kl": 0.0125640869140625,
      "learning_rate": 2e-07,
      "loss": -0.016949039697647095,
      "memory(GiB)": 113.5,
      "reward": 0.4166666716337204,
      "reward_std": 0.34232239723205565,
      "rewards/MultiModalAccuracyORM/mean": 0.4166666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.34232239723205565,
      "step": 1440,
      "train_speed(iter/s)": 0.032007
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 611.5,
      "completions/mean_length": 359.07500915527345,
      "completions/min_length": 200.2,
      "epoch": 0.5838383838383838,
      "grad_norm": 2.2400645386442526,
      "kl": 0.0367034912109375,
      "learning_rate": 2e-07,
      "loss": 0.027681028842926024,
      "memory(GiB)": 113.5,
      "reward": 0.29166667312383654,
      "reward_std": 0.29815449118614196,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667312383654,
      "rewards/MultiModalAccuracyORM/std": 0.29815449118614196,
      "step": 1445,
      "train_speed(iter/s)": 0.032019
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 663.8,
      "completions/mean_length": 411.00001068115233,
      "completions/min_length": 244.1,
      "epoch": 0.5858585858585859,
      "grad_norm": 2.864884904580614,
      "kl": 0.009783935546875,
      "learning_rate": 2e-07,
      "loss": 0.00823460817337036,
      "memory(GiB)": 113.5,
      "reward": 0.3416666768491268,
      "reward_std": 0.3438218057155609,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.3438218057155609,
      "step": 1450,
      "train_speed(iter/s)": 0.032023
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.1,
      "completions/mean_length": 335.3583465576172,
      "completions/min_length": 205.1,
      "epoch": 0.5878787878787879,
      "grad_norm": 1.4688157931726233,
      "kl": 0.0092010498046875,
      "learning_rate": 2e-07,
      "loss": 0.01696823239326477,
      "memory(GiB)": 113.5,
      "reward": 0.37500000968575475,
      "reward_std": 0.35413345992565154,
      "rewards/MultiModalAccuracyORM/mean": 0.37500000968575475,
      "rewards/MultiModalAccuracyORM/std": 0.35413345992565154,
      "step": 1455,
      "train_speed(iter/s)": 0.03204
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 827.3,
      "completions/mean_length": 473.9416748046875,
      "completions/min_length": 249.7,
      "epoch": 0.5898989898989899,
      "grad_norm": 1.1646459187041633,
      "kl": 0.0099945068359375,
      "learning_rate": 2e-07,
      "loss": 0.014775393903255463,
      "memory(GiB)": 113.5,
      "reward": 0.2666666738688946,
      "reward_std": 0.30333785712718964,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.30333785712718964,
      "step": 1460,
      "train_speed(iter/s)": 0.032026
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 701.1,
      "completions/mean_length": 384.5083404541016,
      "completions/min_length": 204.1,
      "epoch": 0.591919191919192,
      "grad_norm": 0.04302173761513684,
      "kl": 0.012548828125,
      "learning_rate": 2e-07,
      "loss": -0.001154869794845581,
      "memory(GiB)": 113.5,
      "reward": 0.3000000141561031,
      "reward_std": 0.3127244532108307,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000141561031,
      "rewards/MultiModalAccuracyORM/std": 0.3127244532108307,
      "step": 1465,
      "train_speed(iter/s)": 0.032029
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 546.3,
      "completions/mean_length": 352.4416763305664,
      "completions/min_length": 195.1,
      "epoch": 0.593939393939394,
      "grad_norm": 2.051161125641378,
      "kl": 0.014813232421875,
      "learning_rate": 2e-07,
      "loss": 0.0119085431098938,
      "memory(GiB)": 113.5,
      "reward": 0.3083333395421505,
      "reward_std": 0.34488060176372526,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.34488060176372526,
      "step": 1470,
      "train_speed(iter/s)": 0.03204
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 772.7,
      "completions/mean_length": 466.6416809082031,
      "completions/min_length": 251.3,
      "epoch": 0.5959595959595959,
      "grad_norm": 1.842366669706851,
      "kl": 0.01016082763671875,
      "learning_rate": 2e-07,
      "loss": 0.015132546424865723,
      "memory(GiB)": 113.5,
      "reward": 0.22500001043081283,
      "reward_std": 0.3044206529855728,
      "rewards/MultiModalAccuracyORM/mean": 0.22500001043081283,
      "rewards/MultiModalAccuracyORM/std": 0.3044206529855728,
      "step": 1475,
      "train_speed(iter/s)": 0.032046
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 568.7,
      "completions/mean_length": 344.0333480834961,
      "completions/min_length": 205.0,
      "epoch": 0.597979797979798,
      "grad_norm": 0.07710895823869458,
      "kl": 0.01250762939453125,
      "learning_rate": 2e-07,
      "loss": 0.02509859800338745,
      "memory(GiB)": 113.5,
      "reward": 0.47500001192092894,
      "reward_std": 0.2752393215894699,
      "rewards/MultiModalAccuracyORM/mean": 0.47500001192092894,
      "rewards/MultiModalAccuracyORM/std": 0.2752393215894699,
      "step": 1480,
      "train_speed(iter/s)": 0.032062
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 540.5,
      "completions/mean_length": 306.80834197998047,
      "completions/min_length": 174.4,
      "epoch": 0.6,
      "grad_norm": 0.084452934933302,
      "kl": 0.0158172607421875,
      "learning_rate": 2e-07,
      "loss": -0.027300435304641723,
      "memory(GiB)": 113.5,
      "reward": 0.17500000521540643,
      "reward_std": 0.24105713069438933,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000521540643,
      "rewards/MultiModalAccuracyORM/std": 0.24105713069438933,
      "step": 1485,
      "train_speed(iter/s)": 0.032084
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 501.7,
      "completions/mean_length": 324.4833389282227,
      "completions/min_length": 169.9,
      "epoch": 0.602020202020202,
      "grad_norm": 1.3165133966084028,
      "kl": 0.0114501953125,
      "learning_rate": 2e-07,
      "loss": 0.004012265801429748,
      "memory(GiB)": 113.5,
      "reward": 0.3916666753590107,
      "reward_std": 0.31046818792819975,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.31046818792819975,
      "step": 1490,
      "train_speed(iter/s)": 0.032103
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 588.7,
      "completions/mean_length": 336.21668243408203,
      "completions/min_length": 202.5,
      "epoch": 0.604040404040404,
      "grad_norm": 3.938520632284254,
      "kl": 0.0132232666015625,
      "learning_rate": 2e-07,
      "loss": -0.02633047103881836,
      "memory(GiB)": 113.5,
      "reward": 0.3416666708886623,
      "reward_std": 0.3149157464504242,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666708886623,
      "rewards/MultiModalAccuracyORM/std": 0.3149157464504242,
      "step": 1495,
      "train_speed(iter/s)": 0.032103
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 2.7010910619752164,
      "learning_rate": 2e-07,
      "loss": 0.023089283704757692,
      "memory(GiB)": 113.5,
      "step": 1500,
      "train_speed(iter/s)": 0.032112
    },
    {
      "epoch": 0.6060606060606061,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 598.76,
      "eval_completions/mean_length": 375.5383447265625,
      "eval_completions/min_length": 218.18,
      "eval_kl": 0.00917266845703125,
      "eval_loss": -0.012349152937531471,
      "eval_reward": 0.32000000730156897,
      "eval_reward_std": 0.3092414766550064,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.32000000730156897,
      "eval_rewards/MultiModalAccuracyORM/std": 0.3092414766550064,
      "eval_runtime": 601.161,
      "eval_samples_per_second": 0.083,
      "eval_steps_per_second": 0.008,
      "step": 1500
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 618.6,
      "completions/mean_length": 392.15001182556153,
      "completions/min_length": 216.0,
      "epoch": 0.6080808080808081,
      "grad_norm": 1.4655160488310728,
      "kl": 0.010688018798828126,
      "learning_rate": 2e-07,
      "loss": 0.00576329231262207,
      "memory(GiB)": 113.5,
      "reward": 0.40416667349636554,
      "reward_std": 0.31379757523536683,
      "rewards/MultiModalAccuracyORM/mean": 0.40416667349636554,
      "rewards/MultiModalAccuracyORM/std": 0.31379757523536683,
      "step": 1505,
      "train_speed(iter/s)": 0.031582
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 642.6,
      "completions/mean_length": 392.9166763305664,
      "completions/min_length": 185.9,
      "epoch": 0.6101010101010101,
      "grad_norm": 2.300152870135833,
      "kl": 0.0118072509765625,
      "learning_rate": 2e-07,
      "loss": 0.01058935523033142,
      "memory(GiB)": 113.5,
      "reward": 0.15833333656191825,
      "reward_std": 0.27622397541999816,
      "rewards/MultiModalAccuracyORM/mean": 0.15833333656191825,
      "rewards/MultiModalAccuracyORM/std": 0.27622397541999816,
      "step": 1510,
      "train_speed(iter/s)": 0.031594
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.5,
      "completions/mean_length": 401.3166809082031,
      "completions/min_length": 227.3,
      "epoch": 0.6121212121212121,
      "grad_norm": 2.0573660536714256,
      "kl": 0.01282958984375,
      "learning_rate": 2e-07,
      "loss": 0.028659382462501527,
      "memory(GiB)": 113.5,
      "reward": 0.27500000819563863,
      "reward_std": 0.3438218057155609,
      "rewards/MultiModalAccuracyORM/mean": 0.27500000819563863,
      "rewards/MultiModalAccuracyORM/std": 0.3438218057155609,
      "step": 1515,
      "train_speed(iter/s)": 0.031593
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 645.0,
      "completions/mean_length": 390.6333465576172,
      "completions/min_length": 240.3,
      "epoch": 0.6141414141414141,
      "grad_norm": 1.4644802229965364,
      "kl": 0.0115325927734375,
      "learning_rate": 2e-07,
      "loss": 0.009964641928672791,
      "memory(GiB)": 113.5,
      "reward": 0.20833334624767302,
      "reward_std": 0.25113856196403506,
      "rewards/MultiModalAccuracyORM/mean": 0.20833334624767302,
      "rewards/MultiModalAccuracyORM/std": 0.25113856196403506,
      "step": 1520,
      "train_speed(iter/s)": 0.031607
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 525.1,
      "completions/mean_length": 338.3666763305664,
      "completions/min_length": 187.9,
      "epoch": 0.6161616161616161,
      "grad_norm": 2.312953380739967,
      "kl": 0.011322021484375,
      "learning_rate": 2e-07,
      "loss": 0.0045973040163516995,
      "memory(GiB)": 113.5,
      "reward": 0.22500000521540642,
      "reward_std": 0.22224704921245575,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000521540642,
      "rewards/MultiModalAccuracyORM/std": 0.22224704921245575,
      "step": 1525,
      "train_speed(iter/s)": 0.03163
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.6,
      "completions/mean_length": 368.7583465576172,
      "completions/min_length": 193.4,
      "epoch": 0.6181818181818182,
      "grad_norm": 3.0723153433233095,
      "kl": 0.0133697509765625,
      "learning_rate": 2e-07,
      "loss": -0.030410391092300416,
      "memory(GiB)": 113.5,
      "reward": 0.25000000819563867,
      "reward_std": 0.35340302884578706,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000819563867,
      "rewards/MultiModalAccuracyORM/std": 0.35340302884578706,
      "step": 1530,
      "train_speed(iter/s)": 0.03164
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 520.6,
      "completions/mean_length": 351.21667633056643,
      "completions/min_length": 227.9,
      "epoch": 0.6202020202020202,
      "grad_norm": 1.4538179467280616,
      "kl": 0.01126708984375,
      "learning_rate": 2e-07,
      "loss": 0.0038071274757385254,
      "memory(GiB)": 113.5,
      "reward": 0.31666667610406873,
      "reward_std": 0.27749558687210085,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667610406873,
      "rewards/MultiModalAccuracyORM/std": 0.27749558687210085,
      "step": 1535,
      "train_speed(iter/s)": 0.031636
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 564.2,
      "completions/mean_length": 362.9000076293945,
      "completions/min_length": 196.3,
      "epoch": 0.6222222222222222,
      "grad_norm": 2.3834408729545817,
      "kl": 0.011865234375,
      "learning_rate": 2e-07,
      "loss": -0.007588768005371093,
      "memory(GiB)": 113.5,
      "reward": 0.2500000029802322,
      "reward_std": 0.2885732680559158,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000029802322,
      "rewards/MultiModalAccuracyORM/std": 0.2885732680559158,
      "step": 1540,
      "train_speed(iter/s)": 0.031648
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 635.7,
      "completions/mean_length": 418.4583480834961,
      "completions/min_length": 246.6,
      "epoch": 0.6242424242424243,
      "grad_norm": 1.498638277562189,
      "kl": 0.0112030029296875,
      "learning_rate": 2e-07,
      "loss": 0.00476650595664978,
      "memory(GiB)": 113.5,
      "reward": 0.2583333387970924,
      "reward_std": 0.3297544777393341,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.3297544777393341,
      "step": 1545,
      "train_speed(iter/s)": 0.031653
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.1,
      "completions/mean_length": 338.0750076293945,
      "completions/min_length": 180.2,
      "epoch": 0.6262626262626263,
      "grad_norm": 1.3673556260797224,
      "kl": 0.012890625,
      "learning_rate": 2e-07,
      "loss": 0.011944988369941711,
      "memory(GiB)": 113.5,
      "reward": 0.2666666731238365,
      "reward_std": 0.36717758774757386,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.36717758774757386,
      "step": 1550,
      "train_speed(iter/s)": 0.031667
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 601.0,
      "completions/mean_length": 389.5916778564453,
      "completions/min_length": 242.8,
      "epoch": 0.6282828282828283,
      "grad_norm": 2.327729044871898,
      "kl": 0.014337158203125,
      "learning_rate": 2e-07,
      "loss": -0.015535221993923187,
      "memory(GiB)": 113.5,
      "reward": 0.17500000298023224,
      "reward_std": 0.3498097449541092,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000298023224,
      "rewards/MultiModalAccuracyORM/std": 0.3498097449541092,
      "step": 1555,
      "train_speed(iter/s)": 0.031684
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 617.0,
      "completions/mean_length": 392.79168090820315,
      "completions/min_length": 227.0,
      "epoch": 0.6303030303030303,
      "grad_norm": 0.053806194925700226,
      "kl": 0.0107635498046875,
      "learning_rate": 2e-07,
      "loss": 0.017643353343009947,
      "memory(GiB)": 113.5,
      "reward": 0.19166667014360428,
      "reward_std": 0.3011411875486374,
      "rewards/MultiModalAccuracyORM/mean": 0.19166667014360428,
      "rewards/MultiModalAccuracyORM/std": 0.3011411875486374,
      "step": 1560,
      "train_speed(iter/s)": 0.031689
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 519.9,
      "completions/mean_length": 332.08333587646484,
      "completions/min_length": 183.7,
      "epoch": 0.6323232323232323,
      "grad_norm": 0.570186834834556,
      "kl": 0.016534423828125,
      "learning_rate": 2e-07,
      "loss": -0.02576545476913452,
      "memory(GiB)": 113.5,
      "reward": 0.3000000089406967,
      "reward_std": 0.3503421902656555,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.3503421902656555,
      "step": 1565,
      "train_speed(iter/s)": 0.031696
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 687.6,
      "completions/mean_length": 380.7333465576172,
      "completions/min_length": 206.4,
      "epoch": 0.6343434343434343,
      "grad_norm": 2.2565482508451735,
      "kl": 0.0091888427734375,
      "learning_rate": 2e-07,
      "loss": 0.01603304147720337,
      "memory(GiB)": 113.5,
      "reward": 0.2833333440124989,
      "reward_std": 0.3637146830558777,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333440124989,
      "rewards/MultiModalAccuracyORM/std": 0.3637146830558777,
      "step": 1570,
      "train_speed(iter/s)": 0.031705
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.3,
      "completions/mean_length": 343.33334197998045,
      "completions/min_length": 181.6,
      "epoch": 0.6363636363636364,
      "grad_norm": 1.578397296268303,
      "kl": 0.013397216796875,
      "learning_rate": 2e-07,
      "loss": 0.04952932298183441,
      "memory(GiB)": 113.5,
      "reward": 0.4666666738688946,
      "reward_std": 0.37498117983341217,
      "rewards/MultiModalAccuracyORM/mean": 0.4666666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.37498117983341217,
      "step": 1575,
      "train_speed(iter/s)": 0.031725
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 713.8,
      "completions/mean_length": 377.916682434082,
      "completions/min_length": 199.8,
      "epoch": 0.6383838383838384,
      "grad_norm": 1.458403513622403,
      "kl": 0.0122344970703125,
      "learning_rate": 2e-07,
      "loss": 0.016104981303215027,
      "memory(GiB)": 113.5,
      "reward": 0.4833333417773247,
      "reward_std": 0.3252659499645233,
      "rewards/MultiModalAccuracyORM/mean": 0.4833333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.3252659499645233,
      "step": 1580,
      "train_speed(iter/s)": 0.031726
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 678.8,
      "completions/mean_length": 418.26668243408204,
      "completions/min_length": 202.3,
      "epoch": 0.6404040404040404,
      "grad_norm": 1.8686390380230793,
      "kl": 0.013201904296875,
      "learning_rate": 2e-07,
      "loss": 0.011665409803390503,
      "memory(GiB)": 113.5,
      "reward": 0.3000000096857548,
      "reward_std": 0.2652414858341217,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.2652414858341217,
      "step": 1585,
      "train_speed(iter/s)": 0.031728
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 723.2,
      "completions/mean_length": 388.46668395996096,
      "completions/min_length": 206.4,
      "epoch": 0.6424242424242425,
      "grad_norm": 1.992138254292841,
      "kl": 0.011810302734375,
      "learning_rate": 2e-07,
      "loss": 0.08419913649559022,
      "memory(GiB)": 113.5,
      "reward": 0.2916666746139526,
      "reward_std": 0.4093579977750778,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666746139526,
      "rewards/MultiModalAccuracyORM/std": 0.4093579977750778,
      "step": 1590,
      "train_speed(iter/s)": 0.031721
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.3,
      "completions/mean_length": 303.75001220703126,
      "completions/min_length": 176.1,
      "epoch": 0.6444444444444445,
      "grad_norm": 1.636979804109864,
      "kl": 0.0161895751953125,
      "learning_rate": 2e-07,
      "loss": 0.011809319257736206,
      "memory(GiB)": 113.5,
      "reward": 0.3333333425223827,
      "reward_std": 0.25897532403469087,
      "rewards/MultiModalAccuracyORM/mean": 0.3333333425223827,
      "rewards/MultiModalAccuracyORM/std": 0.25897532403469087,
      "step": 1595,
      "train_speed(iter/s)": 0.031748
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.9,
      "completions/mean_length": 333.1666763305664,
      "completions/min_length": 160.1,
      "epoch": 0.6464646464646465,
      "grad_norm": 2.2869229330092393,
      "kl": 0.01339111328125,
      "learning_rate": 2e-07,
      "loss": 0.005678671598434448,
      "memory(GiB)": 113.5,
      "reward": 0.3416666753590107,
      "reward_std": 0.3189666152000427,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.3189666152000427,
      "step": 1600,
      "train_speed(iter/s)": 0.031761
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 457.7,
      "completions/mean_length": 279.3166778564453,
      "completions/min_length": 174.7,
      "epoch": 0.6484848484848484,
      "grad_norm": 1.3720767401777028,
      "kl": 0.014947509765625,
      "learning_rate": 2e-07,
      "loss": 0.0007772698998451232,
      "memory(GiB)": 113.5,
      "reward": 0.2916666753590107,
      "reward_std": 0.29786467254161836,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.29786467254161836,
      "step": 1605,
      "train_speed(iter/s)": 0.031778
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.7,
      "completions/mean_length": 286.30834197998047,
      "completions/min_length": 167.6,
      "epoch": 0.6505050505050505,
      "grad_norm": 2.272498565917859,
      "kl": 0.0147857666015625,
      "learning_rate": 2e-07,
      "loss": 0.03825833797454834,
      "memory(GiB)": 113.5,
      "reward": 0.30833333656191825,
      "reward_std": 0.3430673748254776,
      "rewards/MultiModalAccuracyORM/mean": 0.30833333656191825,
      "rewards/MultiModalAccuracyORM/std": 0.3430673748254776,
      "step": 1610,
      "train_speed(iter/s)": 0.031791
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.7,
      "completions/mean_length": 305.6833435058594,
      "completions/min_length": 176.9,
      "epoch": 0.6525252525252525,
      "grad_norm": 2.101651221741828,
      "kl": 0.01689453125,
      "learning_rate": 2e-07,
      "loss": -0.010073482990264893,
      "memory(GiB)": 113.5,
      "reward": 0.40833334550261496,
      "reward_std": 0.3845028102397919,
      "rewards/MultiModalAccuracyORM/mean": 0.40833334550261496,
      "rewards/MultiModalAccuracyORM/std": 0.3845028102397919,
      "step": 1615,
      "train_speed(iter/s)": 0.031812
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.2,
      "completions/mean_length": 355.3666732788086,
      "completions/min_length": 217.0,
      "epoch": 0.6545454545454545,
      "grad_norm": 1.7437833008639363,
      "kl": 0.014605712890625,
      "learning_rate": 2e-07,
      "loss": 0.03341163992881775,
      "memory(GiB)": 113.5,
      "reward": 0.3083333432674408,
      "reward_std": 0.3104085922241211,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.3104085922241211,
      "step": 1620,
      "train_speed(iter/s)": 0.031815
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.7,
      "completions/mean_length": 320.88334197998046,
      "completions/min_length": 176.8,
      "epoch": 0.6565656565656566,
      "grad_norm": 2.214426657751653,
      "kl": 0.012939453125,
      "learning_rate": 2e-07,
      "loss": 0.0038519926369190217,
      "memory(GiB)": 113.5,
      "reward": 0.4500000111758709,
      "reward_std": 0.3840597689151764,
      "rewards/MultiModalAccuracyORM/mean": 0.4500000111758709,
      "rewards/MultiModalAccuracyORM/std": 0.3840597689151764,
      "step": 1625,
      "train_speed(iter/s)": 0.031834
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 475.5,
      "completions/mean_length": 307.9750091552734,
      "completions/min_length": 179.6,
      "epoch": 0.6585858585858586,
      "grad_norm": 2.3559044349874965,
      "kl": 0.011468505859375,
      "learning_rate": 2e-07,
      "loss": -0.007926353812217712,
      "memory(GiB)": 113.5,
      "reward": 0.3500000089406967,
      "reward_std": 0.21594529151916503,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.21594529151916503,
      "step": 1630,
      "train_speed(iter/s)": 0.031861
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 464.0,
      "completions/mean_length": 272.0000061035156,
      "completions/min_length": 140.0,
      "epoch": 0.6606060606060606,
      "grad_norm": 2.3218216739931163,
      "kl": 0.01510009765625,
      "learning_rate": 2e-07,
      "loss": -0.017690959572792053,
      "memory(GiB)": 113.5,
      "reward": 0.28333333805203437,
      "reward_std": 0.20416739881038665,
      "rewards/MultiModalAccuracyORM/mean": 0.28333333805203437,
      "rewards/MultiModalAccuracyORM/std": 0.20416739881038665,
      "step": 1635,
      "train_speed(iter/s)": 0.03188
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 571.0,
      "completions/mean_length": 346.666682434082,
      "completions/min_length": 213.6,
      "epoch": 0.6626262626262627,
      "grad_norm": 1.7521312796960462,
      "kl": 0.011456298828125,
      "learning_rate": 2e-07,
      "loss": -0.01213396042585373,
      "memory(GiB)": 113.5,
      "reward": 0.34166667237877846,
      "reward_std": 0.2464074045419693,
      "rewards/MultiModalAccuracyORM/mean": 0.34166667237877846,
      "rewards/MultiModalAccuracyORM/std": 0.2464074045419693,
      "step": 1640,
      "train_speed(iter/s)": 0.031896
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 373.0,
      "completions/mean_length": 235.60834426879882,
      "completions/min_length": 120.5,
      "epoch": 0.6646464646464646,
      "grad_norm": 2.846675522202014,
      "kl": 0.0129638671875,
      "learning_rate": 2e-07,
      "loss": -0.01681770384311676,
      "memory(GiB)": 113.5,
      "reward": 0.4000000089406967,
      "reward_std": 0.364131298661232,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.364131298661232,
      "step": 1645,
      "train_speed(iter/s)": 0.031917
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 670.8,
      "completions/mean_length": 355.72500762939455,
      "completions/min_length": 171.8,
      "epoch": 0.6666666666666666,
      "grad_norm": 2.5063086447109546,
      "kl": 0.01486053466796875,
      "learning_rate": 2e-07,
      "loss": 0.005304119735956192,
      "memory(GiB)": 113.5,
      "reward": 0.3500000134110451,
      "reward_std": 0.41141627728939056,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000134110451,
      "rewards/MultiModalAccuracyORM/std": 0.41141627728939056,
      "step": 1650,
      "train_speed(iter/s)": 0.031924
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 733.8,
      "completions/mean_length": 412.1666793823242,
      "completions/min_length": 210.8,
      "epoch": 0.6686868686868687,
      "grad_norm": 2.9814971352286297,
      "kl": 0.018035888671875,
      "learning_rate": 2e-07,
      "loss": 0.0013743340969085693,
      "memory(GiB)": 113.5,
      "reward": 0.2083333373069763,
      "reward_std": 0.28402756750583646,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.28402756750583646,
      "step": 1655,
      "train_speed(iter/s)": 0.031912
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 504.7,
      "completions/mean_length": 315.45000915527345,
      "completions/min_length": 164.2,
      "epoch": 0.6707070707070707,
      "grad_norm": 2.420560710043236,
      "kl": 0.013409423828125,
      "learning_rate": 2e-07,
      "loss": -0.0018982872366905212,
      "memory(GiB)": 113.5,
      "reward": 0.20000000521540642,
      "reward_std": 0.25270916223526,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000521540642,
      "rewards/MultiModalAccuracyORM/std": 0.25270916223526,
      "step": 1660,
      "train_speed(iter/s)": 0.031926
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 637.3,
      "completions/mean_length": 373.15834045410156,
      "completions/min_length": 187.0,
      "epoch": 0.6727272727272727,
      "grad_norm": 2.099245716082938,
      "kl": 0.0146942138671875,
      "learning_rate": 2e-07,
      "loss": 0.0194022536277771,
      "memory(GiB)": 113.5,
      "reward": 0.24166667237877845,
      "reward_std": 0.29383077621459963,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667237877845,
      "rewards/MultiModalAccuracyORM/std": 0.29383077621459963,
      "step": 1665,
      "train_speed(iter/s)": 0.031939
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.1,
      "completions/mean_length": 409.43335113525393,
      "completions/min_length": 252.2,
      "epoch": 0.6747474747474748,
      "grad_norm": 0.8827203782530715,
      "kl": 0.01336669921875,
      "learning_rate": 2e-07,
      "loss": 0.022216227650642396,
      "memory(GiB)": 113.5,
      "reward": 0.2833333410322666,
      "reward_std": 0.23704480826854707,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.23704480826854707,
      "step": 1670,
      "train_speed(iter/s)": 0.031942
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 583.7,
      "completions/mean_length": 372.35001068115236,
      "completions/min_length": 223.6,
      "epoch": 0.6767676767676768,
      "grad_norm": 2.67307804927538,
      "kl": 0.012176513671875,
      "learning_rate": 2e-07,
      "loss": -0.025462892651557923,
      "memory(GiB)": 113.5,
      "reward": 0.3583333410322666,
      "reward_std": 0.30489686131477356,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333410322666,
      "rewards/MultiModalAccuracyORM/std": 0.30489686131477356,
      "step": 1675,
      "train_speed(iter/s)": 0.031947
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 509.9,
      "completions/mean_length": 252.71667709350587,
      "completions/min_length": 134.5,
      "epoch": 0.6787878787878788,
      "grad_norm": 2.948416033259282,
      "kl": 0.013824462890625,
      "learning_rate": 2e-07,
      "loss": 0.007326580584049225,
      "memory(GiB)": 113.5,
      "reward": 0.5083333514630795,
      "reward_std": 0.3945842385292053,
      "rewards/MultiModalAccuracyORM/mean": 0.5083333514630795,
      "rewards/MultiModalAccuracyORM/std": 0.3945842385292053,
      "step": 1680,
      "train_speed(iter/s)": 0.031971
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 576.6,
      "completions/mean_length": 367.6166732788086,
      "completions/min_length": 225.0,
      "epoch": 0.6808080808080809,
      "grad_norm": 0.07197046485321759,
      "kl": 0.0118194580078125,
      "learning_rate": 2e-07,
      "loss": 0.03796108365058899,
      "memory(GiB)": 113.5,
      "reward": 0.23333333879709245,
      "reward_std": 0.20995735228061677,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333879709245,
      "rewards/MultiModalAccuracyORM/std": 0.20995735228061677,
      "step": 1685,
      "train_speed(iter/s)": 0.031972
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 558.0,
      "completions/mean_length": 348.7500061035156,
      "completions/min_length": 212.9,
      "epoch": 0.6828282828282828,
      "grad_norm": 1.5442560082143544,
      "kl": 0.01568603515625,
      "learning_rate": 2e-07,
      "loss": 0.017047417163848878,
      "memory(GiB)": 113.5,
      "reward": 0.358333345502615,
      "reward_std": 0.4405413746833801,
      "rewards/MultiModalAccuracyORM/mean": 0.358333345502615,
      "rewards/MultiModalAccuracyORM/std": 0.4405413746833801,
      "step": 1690,
      "train_speed(iter/s)": 0.031977
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 568.5,
      "completions/mean_length": 318.30000228881835,
      "completions/min_length": 162.4,
      "epoch": 0.6848484848484848,
      "grad_norm": 2.822151558666746,
      "kl": 0.013775634765625,
      "learning_rate": 2e-07,
      "loss": 0.03140446245670318,
      "memory(GiB)": 113.5,
      "reward": 0.3583333469927311,
      "reward_std": 0.399324569106102,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333469927311,
      "rewards/MultiModalAccuracyORM/std": 0.399324569106102,
      "step": 1695,
      "train_speed(iter/s)": 0.031999
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 743.9,
      "completions/mean_length": 485.1916870117187,
      "completions/min_length": 305.5,
      "epoch": 0.6868686868686869,
      "grad_norm": 0.9869928398468556,
      "kl": 0.0103057861328125,
      "learning_rate": 2e-07,
      "loss": 0.018257686495780946,
      "memory(GiB)": 113.5,
      "reward": 0.2583333417773247,
      "reward_std": 0.29035089910030365,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333417773247,
      "rewards/MultiModalAccuracyORM/std": 0.29035089910030365,
      "step": 1700,
      "train_speed(iter/s)": 0.031993
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 553.9,
      "completions/mean_length": 329.5166725158691,
      "completions/min_length": 196.6,
      "epoch": 0.6888888888888889,
      "grad_norm": 2.390331116834798,
      "kl": 0.0239990234375,
      "learning_rate": 2e-07,
      "loss": -0.02088260054588318,
      "memory(GiB)": 113.5,
      "reward": 0.4750000089406967,
      "reward_std": 0.27753118276596067,
      "rewards/MultiModalAccuracyORM/mean": 0.4750000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.27753118276596067,
      "step": 1705,
      "train_speed(iter/s)": 0.032012
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.8,
      "completions/mean_length": 286.5166694641113,
      "completions/min_length": 153.0,
      "epoch": 0.6909090909090909,
      "grad_norm": 3.070912031712293,
      "kl": 0.0171630859375,
      "learning_rate": 2e-07,
      "loss": 0.00493430495262146,
      "memory(GiB)": 113.5,
      "reward": 0.45833334028720857,
      "reward_std": 0.31192905008792876,
      "rewards/MultiModalAccuracyORM/mean": 0.45833334028720857,
      "rewards/MultiModalAccuracyORM/std": 0.31192905008792876,
      "step": 1710,
      "train_speed(iter/s)": 0.032022
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 416.9,
      "completions/mean_length": 243.5666763305664,
      "completions/min_length": 117.3,
      "epoch": 0.692929292929293,
      "grad_norm": 2.7698758058054214,
      "kl": 0.0126708984375,
      "learning_rate": 2e-07,
      "loss": -0.0016166016459465027,
      "memory(GiB)": 113.5,
      "reward": 0.42500000819563866,
      "reward_std": 0.25512445867061617,
      "rewards/MultiModalAccuracyORM/mean": 0.42500000819563866,
      "rewards/MultiModalAccuracyORM/std": 0.25512445867061617,
      "step": 1715,
      "train_speed(iter/s)": 0.032047
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 366.2,
      "completions/mean_length": 255.48334503173828,
      "completions/min_length": 158.4,
      "epoch": 0.694949494949495,
      "grad_norm": 2.744690041316947,
      "kl": 0.015838623046875,
      "learning_rate": 2e-07,
      "loss": -0.019546210765838623,
      "memory(GiB)": 113.5,
      "reward": 0.26666667833924296,
      "reward_std": 0.2754935443401337,
      "rewards/MultiModalAccuracyORM/mean": 0.26666667833924296,
      "rewards/MultiModalAccuracyORM/std": 0.2754935443401337,
      "step": 1720,
      "train_speed(iter/s)": 0.032071
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 612.9,
      "completions/mean_length": 379.2666839599609,
      "completions/min_length": 221.8,
      "epoch": 0.696969696969697,
      "grad_norm": 1.777431935717832,
      "kl": 0.012689208984375,
      "learning_rate": 2e-07,
      "loss": 0.009233607351779938,
      "memory(GiB)": 113.5,
      "reward": 0.3083333395421505,
      "reward_std": 0.28128685653209684,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.28128685653209684,
      "step": 1725,
      "train_speed(iter/s)": 0.032079
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 641.0,
      "completions/mean_length": 354.1666770935059,
      "completions/min_length": 171.8,
      "epoch": 0.6989898989898989,
      "grad_norm": 3.0383086202130616,
      "kl": 0.01773681640625,
      "learning_rate": 2e-07,
      "loss": 0.03813132643699646,
      "memory(GiB)": 113.5,
      "reward": 0.31666666865348814,
      "reward_std": 0.27938000559806825,
      "rewards/MultiModalAccuracyORM/mean": 0.31666666865348814,
      "rewards/MultiModalAccuracyORM/std": 0.27938000559806825,
      "step": 1730,
      "train_speed(iter/s)": 0.032094
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 615.8,
      "completions/mean_length": 351.7666717529297,
      "completions/min_length": 157.5,
      "epoch": 0.701010101010101,
      "grad_norm": 1.8778050454869868,
      "kl": 0.014495849609375,
      "learning_rate": 2e-07,
      "loss": 0.00038725733757019045,
      "memory(GiB)": 113.5,
      "reward": 0.4833333432674408,
      "reward_std": 0.33153211176395414,
      "rewards/MultiModalAccuracyORM/mean": 0.4833333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.33153211176395414,
      "step": 1735,
      "train_speed(iter/s)": 0.032098
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 565.2,
      "completions/mean_length": 350.0083404541016,
      "completions/min_length": 189.6,
      "epoch": 0.703030303030303,
      "grad_norm": 2.1562095065119053,
      "kl": 0.0187957763671875,
      "learning_rate": 2e-07,
      "loss": -0.02958904504776001,
      "memory(GiB)": 113.5,
      "reward": 0.28333333879709244,
      "reward_std": 0.3487591862678528,
      "rewards/MultiModalAccuracyORM/mean": 0.28333333879709244,
      "rewards/MultiModalAccuracyORM/std": 0.3487591862678528,
      "step": 1740,
      "train_speed(iter/s)": 0.032101
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 524.2,
      "completions/mean_length": 310.36668090820314,
      "completions/min_length": 187.0,
      "epoch": 0.705050505050505,
      "grad_norm": 2.8598050443718797,
      "kl": 0.013079833984375,
      "learning_rate": 2e-07,
      "loss": -0.007939225435256958,
      "memory(GiB)": 113.5,
      "reward": 0.35000000819563865,
      "reward_std": 0.3908045649528503,
      "rewards/MultiModalAccuracyORM/mean": 0.35000000819563865,
      "rewards/MultiModalAccuracyORM/std": 0.3908045649528503,
      "step": 1745,
      "train_speed(iter/s)": 0.032116
    },
    {
      "epoch": 0.7070707070707071,
      "grad_norm": 2.0976510908729256,
      "learning_rate": 2e-07,
      "loss": 0.05007731318473816,
      "memory(GiB)": 113.5,
      "step": 1750,
      "train_speed(iter/s)": 0.03212
    },
    {
      "epoch": 0.7070707070707071,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0016666666666666666,
      "eval_completions/max_length": 587.9,
      "eval_completions/mean_length": 354.56501251220703,
      "eval_completions/min_length": 214.28,
      "eval_kl": 0.01150848388671875,
      "eval_loss": 0.0095694400370121,
      "eval_reward": 0.3250000074505806,
      "eval_reward_std": 0.32090782165527343,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.3250000074505806,
      "eval_rewards/MultiModalAccuracyORM/std": 0.32090782165527343,
      "eval_runtime": 581.3868,
      "eval_samples_per_second": 0.086,
      "eval_steps_per_second": 0.009,
      "step": 1750
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 585.3,
      "completions/mean_length": 361.1250114440918,
      "completions/min_length": 205.05,
      "epoch": 0.7090909090909091,
      "grad_norm": 1.92993215123609,
      "kl": 0.01456298828125,
      "learning_rate": 2e-07,
      "loss": 0.013172458112239837,
      "memory(GiB)": 113.5,
      "reward": 0.3041666720062494,
      "reward_std": 0.3517512962222099,
      "rewards/MultiModalAccuracyORM/mean": 0.3041666720062494,
      "rewards/MultiModalAccuracyORM/std": 0.3517512962222099,
      "step": 1755,
      "train_speed(iter/s)": 0.031659
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 877.0,
      "completions/mean_length": 508.4500274658203,
      "completions/min_length": 241.1,
      "epoch": 0.7111111111111111,
      "grad_norm": 1.960501031799004,
      "kl": 0.01246490478515625,
      "learning_rate": 2e-07,
      "loss": -0.01800227165222168,
      "memory(GiB)": 113.5,
      "reward": 0.24166667461395264,
      "reward_std": 0.40063177347183226,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667461395264,
      "rewards/MultiModalAccuracyORM/std": 0.40063177347183226,
      "step": 1760,
      "train_speed(iter/s)": 0.031653
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 679.9,
      "completions/mean_length": 389.05833740234374,
      "completions/min_length": 194.6,
      "epoch": 0.7131313131313132,
      "grad_norm": 0.06856184885436768,
      "kl": 0.0163360595703125,
      "learning_rate": 2e-07,
      "loss": 0.05879574418067932,
      "memory(GiB)": 113.5,
      "reward": 0.45000000223517417,
      "reward_std": 0.26600751280784607,
      "rewards/MultiModalAccuracyORM/mean": 0.45000000223517417,
      "rewards/MultiModalAccuracyORM/std": 0.26600751280784607,
      "step": 1765,
      "train_speed(iter/s)": 0.031655
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 542.8,
      "completions/mean_length": 364.608349609375,
      "completions/min_length": 206.9,
      "epoch": 0.7151515151515152,
      "grad_norm": 2.5267727464559195,
      "kl": 0.013262939453125,
      "learning_rate": 2e-07,
      "loss": -0.05543935298919678,
      "memory(GiB)": 113.5,
      "reward": 0.4583333507180214,
      "reward_std": 0.349611759185791,
      "rewards/MultiModalAccuracyORM/mean": 0.4583333507180214,
      "rewards/MultiModalAccuracyORM/std": 0.349611759185791,
      "step": 1770,
      "train_speed(iter/s)": 0.031665
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 620.2,
      "completions/mean_length": 349.9750091552734,
      "completions/min_length": 182.8,
      "epoch": 0.7171717171717171,
      "grad_norm": 1.8053530203955317,
      "kl": 0.016015625,
      "learning_rate": 2e-07,
      "loss": 0.003249824047088623,
      "memory(GiB)": 113.5,
      "reward": 0.21666667535901069,
      "reward_std": 0.36190145611763,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667535901069,
      "rewards/MultiModalAccuracyORM/std": 0.36190145611763,
      "step": 1775,
      "train_speed(iter/s)": 0.031667
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 411.5,
      "completions/mean_length": 257.55000534057615,
      "completions/min_length": 140.9,
      "epoch": 0.7191919191919192,
      "grad_norm": 2.81422482443103,
      "kl": 0.0193359375,
      "learning_rate": 2e-07,
      "loss": -0.02224818170070648,
      "memory(GiB)": 113.5,
      "reward": 0.30000000819563866,
      "reward_std": 0.3563897281885147,
      "rewards/MultiModalAccuracyORM/mean": 0.30000000819563866,
      "rewards/MultiModalAccuracyORM/std": 0.3563897281885147,
      "step": 1780,
      "train_speed(iter/s)": 0.031687
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 481.3,
      "completions/mean_length": 291.2166748046875,
      "completions/min_length": 164.3,
      "epoch": 0.7212121212121212,
      "grad_norm": 2.8650400951164525,
      "kl": 0.0154205322265625,
      "learning_rate": 2e-07,
      "loss": -0.02759958803653717,
      "memory(GiB)": 113.5,
      "reward": 0.21666667014360427,
      "reward_std": 0.2892681032419205,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667014360427,
      "rewards/MultiModalAccuracyORM/std": 0.2892681032419205,
      "step": 1785,
      "train_speed(iter/s)": 0.031703
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 651.8,
      "completions/mean_length": 382.2583404541016,
      "completions/min_length": 222.3,
      "epoch": 0.7232323232323232,
      "grad_norm": 0.04924378999535635,
      "kl": 0.0165863037109375,
      "learning_rate": 2e-07,
      "loss": 0.002944570779800415,
      "memory(GiB)": 113.5,
      "reward": 0.1833333395421505,
      "reward_std": 0.3059200614690781,
      "rewards/MultiModalAccuracyORM/mean": 0.1833333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3059200614690781,
      "step": 1790,
      "train_speed(iter/s)": 0.031714
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 550.8,
      "completions/mean_length": 361.8166778564453,
      "completions/min_length": 215.4,
      "epoch": 0.7252525252525253,
      "grad_norm": 1.0400490856507523,
      "kl": 0.015380859375,
      "learning_rate": 2e-07,
      "loss": 0.0032314777374267576,
      "memory(GiB)": 113.5,
      "reward": 0.21666667312383653,
      "reward_std": 0.3141998678445816,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667312383653,
      "rewards/MultiModalAccuracyORM/std": 0.3141998678445816,
      "step": 1795,
      "train_speed(iter/s)": 0.031727
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 648.5,
      "completions/mean_length": 366.5666793823242,
      "completions/min_length": 172.7,
      "epoch": 0.7272727272727273,
      "grad_norm": 1.579739169824459,
      "kl": 0.015093994140625,
      "learning_rate": 2e-07,
      "loss": -0.01905302405357361,
      "memory(GiB)": 113.5,
      "reward": 0.3166666753590107,
      "reward_std": 0.320466023683548,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.320466023683548,
      "step": 1800,
      "train_speed(iter/s)": 0.031739
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 538.7,
      "completions/mean_length": 319.3916732788086,
      "completions/min_length": 186.6,
      "epoch": 0.7292929292929293,
      "grad_norm": 3.0687917767271022,
      "kl": 0.0137054443359375,
      "learning_rate": 2e-07,
      "loss": 0.02089669108390808,
      "memory(GiB)": 113.5,
      "reward": 0.3666666693985462,
      "reward_std": 0.47085520029067995,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.47085520029067995,
      "step": 1805,
      "train_speed(iter/s)": 0.031757
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.7,
      "completions/mean_length": 375.0416778564453,
      "completions/min_length": 215.7,
      "epoch": 0.7313131313131314,
      "grad_norm": 1.8933797302813846,
      "kl": 0.0150848388671875,
      "learning_rate": 2e-07,
      "loss": 0.03909637928009033,
      "memory(GiB)": 113.5,
      "reward": 0.39166667610406875,
      "reward_std": 0.34688264429569243,
      "rewards/MultiModalAccuracyORM/mean": 0.39166667610406875,
      "rewards/MultiModalAccuracyORM/std": 0.34688264429569243,
      "step": 1810,
      "train_speed(iter/s)": 0.031762
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.9,
      "completions/mean_length": 305.2583404541016,
      "completions/min_length": 157.4,
      "epoch": 0.7333333333333333,
      "grad_norm": 1.8206918881783931,
      "kl": 0.0149169921875,
      "learning_rate": 2e-07,
      "loss": -0.016247293353080748,
      "memory(GiB)": 113.5,
      "reward": 0.2666666701436043,
      "reward_std": 0.32451151609420775,
      "rewards/MultiModalAccuracyORM/mean": 0.2666666701436043,
      "rewards/MultiModalAccuracyORM/std": 0.32451151609420775,
      "step": 1815,
      "train_speed(iter/s)": 0.031772
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 502.8,
      "completions/mean_length": 322.85000762939455,
      "completions/min_length": 183.5,
      "epoch": 0.7353535353535353,
      "grad_norm": 1.918825325754338,
      "kl": 0.01243896484375,
      "learning_rate": 2e-07,
      "loss": 0.010172617435455323,
      "memory(GiB)": 113.5,
      "reward": 0.20000000223517417,
      "reward_std": 0.21999078392982482,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000223517417,
      "rewards/MultiModalAccuracyORM/std": 0.21999078392982482,
      "step": 1820,
      "train_speed(iter/s)": 0.031781
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 442.5,
      "completions/mean_length": 253.28334197998046,
      "completions/min_length": 136.0,
      "epoch": 0.7373737373737373,
      "grad_norm": 2.5646468814628482,
      "kl": 0.01630859375,
      "learning_rate": 2e-07,
      "loss": 0.08878597021102905,
      "memory(GiB)": 113.5,
      "reward": 0.4000000089406967,
      "reward_std": 0.3767348140478134,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.3767348140478134,
      "step": 1825,
      "train_speed(iter/s)": 0.031805
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 786.5,
      "completions/mean_length": 391.63334197998046,
      "completions/min_length": 175.8,
      "epoch": 0.7393939393939394,
      "grad_norm": 2.279597838394587,
      "kl": 0.016058349609375,
      "learning_rate": 2e-07,
      "loss": -0.01255677342414856,
      "memory(GiB)": 113.5,
      "reward": 0.33333333656191827,
      "reward_std": 0.30187161862850187,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333656191827,
      "rewards/MultiModalAccuracyORM/std": 0.30187161862850187,
      "step": 1830,
      "train_speed(iter/s)": 0.031799
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 601.0,
      "completions/mean_length": 351.30834045410154,
      "completions/min_length": 184.7,
      "epoch": 0.7414141414141414,
      "grad_norm": 1.220249950163537,
      "kl": 0.014288330078125,
      "learning_rate": 2e-07,
      "loss": -0.03182802200317383,
      "memory(GiB)": 113.5,
      "reward": 0.4250000067055225,
      "reward_std": 0.40566191971302035,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.40566191971302035,
      "step": 1835,
      "train_speed(iter/s)": 0.031813
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 500.3,
      "completions/mean_length": 289.9583404541016,
      "completions/min_length": 139.6,
      "epoch": 0.7434343434343434,
      "grad_norm": 3.7311094209711153,
      "kl": 0.019146728515625,
      "learning_rate": 2e-07,
      "loss": -0.02434406876564026,
      "memory(GiB)": 113.5,
      "reward": 0.4333333432674408,
      "reward_std": 0.3922538310289383,
      "rewards/MultiModalAccuracyORM/mean": 0.4333333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.3922538310289383,
      "step": 1840,
      "train_speed(iter/s)": 0.031824
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 493.3,
      "completions/mean_length": 292.6333404541016,
      "completions/min_length": 165.6,
      "epoch": 0.7454545454545455,
      "grad_norm": 2.2491131974096503,
      "kl": 0.018963623046875,
      "learning_rate": 2e-07,
      "loss": -0.029304242134094237,
      "memory(GiB)": 113.5,
      "reward": 0.4250000096857548,
      "reward_std": 0.3370794355869293,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.3370794355869293,
      "step": 1845,
      "train_speed(iter/s)": 0.031836
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 587.7,
      "completions/mean_length": 369.1416778564453,
      "completions/min_length": 209.3,
      "epoch": 0.7474747474747475,
      "grad_norm": 1.8956894287229566,
      "kl": 0.015484619140625,
      "learning_rate": 2e-07,
      "loss": 0.015110939741134644,
      "memory(GiB)": 113.5,
      "reward": 0.2916666716337204,
      "reward_std": 0.4038462698459625,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.4038462698459625,
      "step": 1850,
      "train_speed(iter/s)": 0.031843
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 591.0,
      "completions/mean_length": 357.9083419799805,
      "completions/min_length": 162.4,
      "epoch": 0.7494949494949495,
      "grad_norm": 2.5484409209581504,
      "kl": 0.0146087646484375,
      "learning_rate": 2e-07,
      "loss": -0.023239874839782716,
      "memory(GiB)": 113.5,
      "reward": 0.20000000894069672,
      "reward_std": 0.31517534554004667,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000894069672,
      "rewards/MultiModalAccuracyORM/std": 0.31517534554004667,
      "step": 1855,
      "train_speed(iter/s)": 0.031855
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 534.3,
      "completions/mean_length": 354.6916748046875,
      "completions/min_length": 208.8,
      "epoch": 0.7515151515151515,
      "grad_norm": 2.0846151526365655,
      "kl": 0.0114715576171875,
      "learning_rate": 2e-07,
      "loss": 0.0073637284338474275,
      "memory(GiB)": 113.5,
      "reward": 0.18333333879709243,
      "reward_std": 0.2907939374446869,
      "rewards/MultiModalAccuracyORM/mean": 0.18333333879709243,
      "rewards/MultiModalAccuracyORM/std": 0.2907939374446869,
      "step": 1860,
      "train_speed(iter/s)": 0.031861
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 490.8,
      "completions/mean_length": 304.43334045410154,
      "completions/min_length": 155.7,
      "epoch": 0.7535353535353535,
      "grad_norm": 2.0624318263809047,
      "kl": 0.01436767578125,
      "learning_rate": 2e-07,
      "loss": 0.040461289882659915,
      "memory(GiB)": 113.5,
      "reward": 0.2250000059604645,
      "reward_std": 0.28959646821022034,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000059604645,
      "rewards/MultiModalAccuracyORM/std": 0.28959646821022034,
      "step": 1865,
      "train_speed(iter/s)": 0.031882
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 615.0,
      "completions/mean_length": 348.55001678466795,
      "completions/min_length": 185.6,
      "epoch": 0.7555555555555555,
      "grad_norm": 0.07620984486729401,
      "kl": 0.02213134765625,
      "learning_rate": 2e-07,
      "loss": 0.014231646060943603,
      "memory(GiB)": 113.5,
      "reward": 0.1916666716337204,
      "reward_std": 0.23860623836517333,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.23860623836517333,
      "step": 1870,
      "train_speed(iter/s)": 0.031881
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 763.2,
      "completions/mean_length": 389.03334045410156,
      "completions/min_length": 191.9,
      "epoch": 0.7575757575757576,
      "grad_norm": 2.525300571346317,
      "kl": 0.02110443115234375,
      "learning_rate": 2e-07,
      "loss": 0.0036004871129989625,
      "memory(GiB)": 113.5,
      "reward": 0.2916666716337204,
      "reward_std": 0.41791602075099943,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.41791602075099943,
      "step": 1875,
      "train_speed(iter/s)": 0.03188
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 509.2,
      "completions/mean_length": 309.6250030517578,
      "completions/min_length": 170.7,
      "epoch": 0.7595959595959596,
      "grad_norm": 1.8476207975789374,
      "kl": 0.0132843017578125,
      "learning_rate": 2e-07,
      "loss": 0.01698073446750641,
      "memory(GiB)": 113.5,
      "reward": 0.1416666679084301,
      "reward_std": 0.24939410090446473,
      "rewards/MultiModalAccuracyORM/mean": 0.1416666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.24939410090446473,
      "step": 1880,
      "train_speed(iter/s)": 0.031898
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 651.4,
      "completions/mean_length": 324.4583480834961,
      "completions/min_length": 173.3,
      "epoch": 0.7616161616161616,
      "grad_norm": 2.8918258139669333,
      "kl": 0.0152374267578125,
      "learning_rate": 2e-07,
      "loss": -0.01050989031791687,
      "memory(GiB)": 113.5,
      "reward": 0.3916666731238365,
      "reward_std": 0.3340185970067978,
      "rewards/MultiModalAccuracyORM/mean": 0.3916666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.3340185970067978,
      "step": 1885,
      "train_speed(iter/s)": 0.031901
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 763.0,
      "completions/mean_length": 448.85834350585935,
      "completions/min_length": 173.1,
      "epoch": 0.7636363636363637,
      "grad_norm": 1.4150104336871425,
      "kl": 0.0143951416015625,
      "learning_rate": 2e-07,
      "loss": 0.013275668025016785,
      "memory(GiB)": 113.5,
      "reward": 0.2500000104308128,
      "reward_std": 0.33704383969306945,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000104308128,
      "rewards/MultiModalAccuracyORM/std": 0.33704383969306945,
      "step": 1890,
      "train_speed(iter/s)": 0.031898
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 557.5,
      "completions/mean_length": 351.9833450317383,
      "completions/min_length": 186.2,
      "epoch": 0.7656565656565657,
      "grad_norm": 1.8175161534038837,
      "kl": 0.014886474609375,
      "learning_rate": 2e-07,
      "loss": -0.021983048319816588,
      "memory(GiB)": 113.5,
      "reward": 0.2750000089406967,
      "reward_std": 0.30795769989490507,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000089406967,
      "rewards/MultiModalAccuracyORM/std": 0.30795769989490507,
      "step": 1895,
      "train_speed(iter/s)": 0.031911
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 515.1,
      "completions/mean_length": 327.0833404541016,
      "completions/min_length": 144.5,
      "epoch": 0.7676767676767676,
      "grad_norm": 2.5158628276606025,
      "kl": 0.0138824462890625,
      "learning_rate": 2e-07,
      "loss": 0.03910906314849853,
      "memory(GiB)": 113.5,
      "reward": 0.30833333656191825,
      "reward_std": 0.3422983974218369,
      "rewards/MultiModalAccuracyORM/mean": 0.30833333656191825,
      "rewards/MultiModalAccuracyORM/std": 0.3422983974218369,
      "step": 1900,
      "train_speed(iter/s)": 0.031926
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 696.3,
      "completions/mean_length": 446.5250076293945,
      "completions/min_length": 241.6,
      "epoch": 0.7696969696969697,
      "grad_norm": 2.2012277452389415,
      "kl": 0.026849365234375,
      "learning_rate": 2e-07,
      "loss": 0.0031028717756271364,
      "memory(GiB)": 113.5,
      "reward": 0.1916666716337204,
      "reward_std": 0.2526139706373215,
      "rewards/MultiModalAccuracyORM/mean": 0.1916666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.2526139706373215,
      "step": 1905,
      "train_speed(iter/s)": 0.031932
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 578.5,
      "completions/mean_length": 332.84167633056643,
      "completions/min_length": 201.7,
      "epoch": 0.7717171717171717,
      "grad_norm": 1.9126113362129455,
      "kl": 0.0396942138671875,
      "learning_rate": 2e-07,
      "loss": -0.03872146010398865,
      "memory(GiB)": 113.5,
      "reward": 0.28333334252238274,
      "reward_std": 0.22631654143333435,
      "rewards/MultiModalAccuracyORM/mean": 0.28333334252238274,
      "rewards/MultiModalAccuracyORM/std": 0.22631654143333435,
      "step": 1910,
      "train_speed(iter/s)": 0.031948
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 675.2,
      "completions/mean_length": 324.3500061035156,
      "completions/min_length": 168.6,
      "epoch": 0.7737373737373737,
      "grad_norm": 3.0923030780646883,
      "kl": 0.0193115234375,
      "learning_rate": 2e-07,
      "loss": -0.00021869316697120667,
      "memory(GiB)": 113.5,
      "reward": 0.21666667312383653,
      "reward_std": 0.3495877593755722,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667312383653,
      "rewards/MultiModalAccuracyORM/std": 0.3495877593755722,
      "step": 1915,
      "train_speed(iter/s)": 0.031953
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 851.2,
      "completions/mean_length": 429.6666732788086,
      "completions/min_length": 246.7,
      "epoch": 0.7757575757575758,
      "grad_norm": 1.4230705183827115,
      "kl": 0.0119659423828125,
      "learning_rate": 2e-07,
      "loss": -0.007732442766427994,
      "memory(GiB)": 113.5,
      "reward": 0.28333334177732467,
      "reward_std": 0.3922538310289383,
      "rewards/MultiModalAccuracyORM/mean": 0.28333334177732467,
      "rewards/MultiModalAccuracyORM/std": 0.3922538310289383,
      "step": 1920,
      "train_speed(iter/s)": 0.03195
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 578.1,
      "completions/mean_length": 327.52501220703124,
      "completions/min_length": 145.3,
      "epoch": 0.7777777777777778,
      "grad_norm": 2.492778960496138,
      "kl": 0.0209716796875,
      "learning_rate": 2e-07,
      "loss": 0.058314287662506105,
      "memory(GiB)": 113.5,
      "reward": 0.3416666746139526,
      "reward_std": 0.3370794355869293,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666746139526,
      "rewards/MultiModalAccuracyORM/std": 0.3370794355869293,
      "step": 1925,
      "train_speed(iter/s)": 0.031957
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 559.2,
      "completions/mean_length": 314.4666748046875,
      "completions/min_length": 159.8,
      "epoch": 0.7797979797979798,
      "grad_norm": 1.3216256644694324,
      "kl": 0.019390869140625,
      "learning_rate": 2e-07,
      "loss": 0.003662779927253723,
      "memory(GiB)": 113.5,
      "reward": 0.40000000447034834,
      "reward_std": 0.19031869769096374,
      "rewards/MultiModalAccuracyORM/mean": 0.40000000447034834,
      "rewards/MultiModalAccuracyORM/std": 0.19031869769096374,
      "step": 1930,
      "train_speed(iter/s)": 0.031969
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 614.5,
      "completions/mean_length": 340.2666778564453,
      "completions/min_length": 194.2,
      "epoch": 0.7818181818181819,
      "grad_norm": 0.16139191599066427,
      "kl": 0.0214599609375,
      "learning_rate": 2e-07,
      "loss": -0.047375884652137754,
      "memory(GiB)": 113.5,
      "reward": 0.5166666835546494,
      "reward_std": 0.33453335165977477,
      "rewards/MultiModalAccuracyORM/mean": 0.5166666835546494,
      "rewards/MultiModalAccuracyORM/std": 0.33453335165977477,
      "step": 1935,
      "train_speed(iter/s)": 0.031969
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 647.0,
      "completions/mean_length": 385.9500137329102,
      "completions/min_length": 210.7,
      "epoch": 0.7838383838383839,
      "grad_norm": 1.6715004236392428,
      "kl": 0.0131805419921875,
      "learning_rate": 2e-07,
      "loss": -0.010814064741134643,
      "memory(GiB)": 113.5,
      "reward": 0.2250000037252903,
      "reward_std": 0.2325587034225464,
      "rewards/MultiModalAccuracyORM/mean": 0.2250000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.2325587034225464,
      "step": 1940,
      "train_speed(iter/s)": 0.031974
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 803.8,
      "completions/mean_length": 441.1000091552734,
      "completions/min_length": 249.1,
      "epoch": 0.7858585858585858,
      "grad_norm": 1.1825903834954647,
      "kl": 0.0154388427734375,
      "learning_rate": 2e-07,
      "loss": 0.0033442020416259766,
      "memory(GiB)": 113.5,
      "reward": 0.20833333656191827,
      "reward_std": 0.2938903748989105,
      "rewards/MultiModalAccuracyORM/mean": 0.20833333656191827,
      "rewards/MultiModalAccuracyORM/std": 0.2938903748989105,
      "step": 1945,
      "train_speed(iter/s)": 0.031969
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 559.7,
      "completions/mean_length": 325.9666748046875,
      "completions/min_length": 175.2,
      "epoch": 0.7878787878787878,
      "grad_norm": 1.0389835461828303,
      "kl": 0.029302978515625,
      "learning_rate": 2e-07,
      "loss": 0.0020487613976001738,
      "memory(GiB)": 113.5,
      "reward": 0.31666667461395265,
      "reward_std": 0.2074468642473221,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667461395265,
      "rewards/MultiModalAccuracyORM/std": 0.2074468642473221,
      "step": 1950,
      "train_speed(iter/s)": 0.031978
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 779.1,
      "completions/mean_length": 420.0750106811523,
      "completions/min_length": 233.8,
      "epoch": 0.7898989898989899,
      "grad_norm": 2.259966046846081,
      "kl": 0.0141693115234375,
      "learning_rate": 2e-07,
      "loss": 0.0017102479934692383,
      "memory(GiB)": 113.5,
      "reward": 0.09166666939854622,
      "reward_std": 0.18332210481166838,
      "rewards/MultiModalAccuracyORM/mean": 0.09166666939854622,
      "rewards/MultiModalAccuracyORM/std": 0.18332210481166838,
      "step": 1955,
      "train_speed(iter/s)": 0.031981
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 633.8,
      "completions/mean_length": 396.0333450317383,
      "completions/min_length": 206.8,
      "epoch": 0.7919191919191919,
      "grad_norm": 2.0736200850407713,
      "kl": 0.0152496337890625,
      "learning_rate": 2e-07,
      "loss": -0.005099079012870789,
      "memory(GiB)": 113.5,
      "reward": 0.5583333425223828,
      "reward_std": 0.28784283697605134,
      "rewards/MultiModalAccuracyORM/mean": 0.5583333425223828,
      "rewards/MultiModalAccuracyORM/std": 0.28784283697605134,
      "step": 1960,
      "train_speed(iter/s)": 0.031988
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 954.2,
      "completions/mean_length": 473.5583465576172,
      "completions/min_length": 247.3,
      "epoch": 0.793939393939394,
      "grad_norm": 2.157212917514597,
      "kl": 0.0150390625,
      "learning_rate": 2e-07,
      "loss": 0.024318861961364745,
      "memory(GiB)": 113.5,
      "reward": 0.21666667535901069,
      "reward_std": 0.36190145611763,
      "rewards/MultiModalAccuracyORM/mean": 0.21666667535901069,
      "rewards/MultiModalAccuracyORM/std": 0.36190145611763,
      "step": 1965,
      "train_speed(iter/s)": 0.031976
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 702.4,
      "completions/mean_length": 456.8000152587891,
      "completions/min_length": 269.1,
      "epoch": 0.795959595959596,
      "grad_norm": 2.346804141928421,
      "kl": 0.0154296875,
      "learning_rate": 2e-07,
      "loss": 0.011195459961891174,
      "memory(GiB)": 113.5,
      "reward": 0.1500000037252903,
      "reward_std": 0.25897532403469087,
      "rewards/MultiModalAccuracyORM/mean": 0.1500000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.25897532403469087,
      "step": 1970,
      "train_speed(iter/s)": 0.031975
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 649.7,
      "completions/mean_length": 426.95000610351565,
      "completions/min_length": 288.6,
      "epoch": 0.797979797979798,
      "grad_norm": 1.937444109706918,
      "kl": 0.012738037109375,
      "learning_rate": 2e-07,
      "loss": 0.050849252939224245,
      "memory(GiB)": 113.5,
      "reward": 0.33333334401249887,
      "reward_std": 0.35569489002227783,
      "rewards/MultiModalAccuracyORM/mean": 0.33333334401249887,
      "rewards/MultiModalAccuracyORM/std": 0.35569489002227783,
      "step": 1975,
      "train_speed(iter/s)": 0.031976
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 537.9,
      "completions/mean_length": 308.3166732788086,
      "completions/min_length": 159.5,
      "epoch": 0.8,
      "grad_norm": 1.2310292555448101,
      "kl": 0.01746826171875,
      "learning_rate": 2e-07,
      "loss": 0.021820831298828124,
      "memory(GiB)": 113.5,
      "reward": 0.25000000149011614,
      "reward_std": 0.34010172784328463,
      "rewards/MultiModalAccuracyORM/mean": 0.25000000149011614,
      "rewards/MultiModalAccuracyORM/std": 0.34010172784328463,
      "step": 1980,
      "train_speed(iter/s)": 0.031988
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 607.3,
      "completions/mean_length": 397.74167861938474,
      "completions/min_length": 229.1,
      "epoch": 0.802020202020202,
      "grad_norm": 1.2006546705713226,
      "kl": 0.012060546875,
      "learning_rate": 2e-07,
      "loss": -0.00946882963180542,
      "memory(GiB)": 113.5,
      "reward": 0.3666666768491268,
      "reward_std": 0.21775851845741273,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.21775851845741273,
      "step": 1985,
      "train_speed(iter/s)": 0.031999
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 689.0,
      "completions/mean_length": 455.6916870117187,
      "completions/min_length": 271.2,
      "epoch": 0.804040404040404,
      "grad_norm": 1.7247663724146078,
      "kl": 0.0120758056640625,
      "learning_rate": 2e-07,
      "loss": -0.013834655284881592,
      "memory(GiB)": 113.5,
      "reward": 0.2916666746139526,
      "reward_std": 0.34933353662490846,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666746139526,
      "rewards/MultiModalAccuracyORM/std": 0.34933353662490846,
      "step": 1990,
      "train_speed(iter/s)": 0.032003
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 614.3,
      "completions/mean_length": 388.1000122070312,
      "completions/min_length": 220.5,
      "epoch": 0.806060606060606,
      "grad_norm": 1.2751536443809328,
      "kl": 0.0211517333984375,
      "learning_rate": 2e-07,
      "loss": 0.026651501655578613,
      "memory(GiB)": 113.5,
      "reward": 0.2750000096857548,
      "reward_std": 0.29452561140060424,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.29452561140060424,
      "step": 1995,
      "train_speed(iter/s)": 0.032003
    },
    {
      "epoch": 0.8080808080808081,
      "grad_norm": 2.53993588975996,
      "learning_rate": 2e-07,
      "loss": 0.008918963372707367,
      "memory(GiB)": 113.5,
      "step": 2000,
      "train_speed(iter/s)": 0.032019
    },
    {
      "epoch": 0.8080808080808081,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 640.5,
      "eval_completions/mean_length": 393.71500930786135,
      "eval_completions/min_length": 218.08,
      "eval_kl": 0.01480712890625,
      "eval_loss": 0.023003682494163513,
      "eval_reward": 0.30333334133028983,
      "eval_reward_std": 0.2836029249429703,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.30333334133028983,
      "eval_rewards/MultiModalAccuracyORM/std": 0.2836029249429703,
      "eval_runtime": 625.7559,
      "eval_samples_per_second": 0.08,
      "eval_steps_per_second": 0.008,
      "step": 2000
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 671.1,
      "completions/mean_length": 439.12501831054686,
      "completions/min_length": 245.5,
      "epoch": 0.8101010101010101,
      "grad_norm": 1.574060720208308,
      "kl": 0.01459503173828125,
      "learning_rate": 2e-07,
      "loss": -0.005982875823974609,
      "memory(GiB)": 113.5,
      "reward": 0.33333334103226664,
      "reward_std": 0.3096754729747772,
      "rewards/MultiModalAccuracyORM/mean": 0.33333334103226664,
      "rewards/MultiModalAccuracyORM/std": 0.3096754729747772,
      "step": 2005,
      "train_speed(iter/s)": 0.031605
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 514.3,
      "completions/mean_length": 312.4916702270508,
      "completions/min_length": 184.5,
      "epoch": 0.8121212121212121,
      "grad_norm": 1.8875313816028536,
      "kl": 0.01746826171875,
      "learning_rate": 2e-07,
      "loss": 0.04548422992229462,
      "memory(GiB)": 113.5,
      "reward": 0.4666666842997074,
      "reward_std": 0.4252053827047348,
      "rewards/MultiModalAccuracyORM/mean": 0.4666666842997074,
      "rewards/MultiModalAccuracyORM/std": 0.4252053827047348,
      "step": 2010,
      "train_speed(iter/s)": 0.031626
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 527.2,
      "completions/mean_length": 329.9166778564453,
      "completions/min_length": 202.0,
      "epoch": 0.8141414141414142,
      "grad_norm": 1.858641750452265,
      "kl": 0.0157196044921875,
      "learning_rate": 2e-07,
      "loss": 0.023762321472167967,
      "memory(GiB)": 113.5,
      "reward": 0.40000001043081285,
      "reward_std": 0.3144780844449997,
      "rewards/MultiModalAccuracyORM/mean": 0.40000001043081285,
      "rewards/MultiModalAccuracyORM/std": 0.3144780844449997,
      "step": 2015,
      "train_speed(iter/s)": 0.031642
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 684.0,
      "completions/mean_length": 422.71667633056643,
      "completions/min_length": 200.3,
      "epoch": 0.8161616161616162,
      "grad_norm": 3.0722357868631334,
      "kl": 0.0186279296875,
      "learning_rate": 2e-07,
      "loss": -0.03257267475128174,
      "memory(GiB)": 113.5,
      "reward": 0.32500000968575476,
      "reward_std": 0.4204265087842941,
      "rewards/MultiModalAccuracyORM/mean": 0.32500000968575476,
      "rewards/MultiModalAccuracyORM/std": 0.4204265087842941,
      "step": 2020,
      "train_speed(iter/s)": 0.031653
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 590.7,
      "completions/mean_length": 355.5083511352539,
      "completions/min_length": 214.7,
      "epoch": 0.8181818181818182,
      "grad_norm": 2.729236730716231,
      "kl": 0.022601318359375,
      "learning_rate": 2e-07,
      "loss": -0.003387349843978882,
      "memory(GiB)": 113.5,
      "reward": 0.4250000074505806,
      "reward_std": 0.45008404850959777,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.45008404850959777,
      "step": 2025,
      "train_speed(iter/s)": 0.031658
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 653.6,
      "completions/mean_length": 421.4000183105469,
      "completions/min_length": 253.0,
      "epoch": 0.8202020202020202,
      "grad_norm": 1.744543874583184,
      "kl": 0.0112030029296875,
      "learning_rate": 2e-07,
      "loss": -0.013242574036121368,
      "memory(GiB)": 113.5,
      "reward": 0.1083333358168602,
      "reward_std": 0.29628167152404783,
      "rewards/MultiModalAccuracyORM/mean": 0.1083333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.29628167152404783,
      "step": 2030,
      "train_speed(iter/s)": 0.031663
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 570.7,
      "completions/mean_length": 348.20834197998045,
      "completions/min_length": 219.4,
      "epoch": 0.8222222222222222,
      "grad_norm": 1.3474739820299675,
      "kl": 0.018927001953125,
      "learning_rate": 2e-07,
      "loss": 0.04633485376834869,
      "memory(GiB)": 113.5,
      "reward": 0.37500000596046446,
      "reward_std": 0.27622397541999816,
      "rewards/MultiModalAccuracyORM/mean": 0.37500000596046446,
      "rewards/MultiModalAccuracyORM/std": 0.27622397541999816,
      "step": 2035,
      "train_speed(iter/s)": 0.031672
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 589.4,
      "completions/mean_length": 350.50000915527346,
      "completions/min_length": 204.4,
      "epoch": 0.8242424242424242,
      "grad_norm": 1.5018646106657063,
      "kl": 0.019403076171875,
      "learning_rate": 2e-07,
      "loss": 0.030666446685791014,
      "memory(GiB)": 113.5,
      "reward": 0.49166667014360427,
      "reward_std": 0.32050161957740786,
      "rewards/MultiModalAccuracyORM/mean": 0.49166667014360427,
      "rewards/MultiModalAccuracyORM/std": 0.32050161957740786,
      "step": 2040,
      "train_speed(iter/s)": 0.031681
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 580.7,
      "completions/mean_length": 343.3500045776367,
      "completions/min_length": 214.3,
      "epoch": 0.8262626262626263,
      "grad_norm": 1.212062767454231,
      "kl": 0.0136077880859375,
      "learning_rate": 2e-07,
      "loss": 0.00010424554347991944,
      "memory(GiB)": 113.5,
      "reward": 0.2833333402872086,
      "reward_std": 0.3485885590314865,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333402872086,
      "rewards/MultiModalAccuracyORM/std": 0.3485885590314865,
      "step": 2045,
      "train_speed(iter/s)": 0.031692
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 597.0,
      "completions/mean_length": 329.8250106811523,
      "completions/min_length": 163.3,
      "epoch": 0.8282828282828283,
      "grad_norm": 1.4699358421537125,
      "kl": 0.015545654296875,
      "learning_rate": 2e-07,
      "loss": 0.02045893669128418,
      "memory(GiB)": 113.5,
      "reward": 0.23333333656191826,
      "reward_std": 0.21999078392982482,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333656191826,
      "rewards/MultiModalAccuracyORM/std": 0.21999078392982482,
      "step": 2050,
      "train_speed(iter/s)": 0.031697
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 470.3,
      "completions/mean_length": 291.33334197998045,
      "completions/min_length": 162.8,
      "epoch": 0.8303030303030303,
      "grad_norm": 1.4524213577819918,
      "kl": 0.0140533447265625,
      "learning_rate": 2e-07,
      "loss": 0.008110976219177246,
      "memory(GiB)": 113.5,
      "reward": 0.3166666738688946,
      "reward_std": 0.20369119048118592,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.20369119048118592,
      "step": 2055,
      "train_speed(iter/s)": 0.031712
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.6,
      "completions/mean_length": 289.6416732788086,
      "completions/min_length": 159.3,
      "epoch": 0.8323232323232324,
      "grad_norm": 4.225291158056462,
      "kl": 0.0178955078125,
      "learning_rate": 2e-07,
      "loss": 0.025725898146629334,
      "memory(GiB)": 113.5,
      "reward": 0.20000000447034835,
      "reward_std": 0.29414459466934206,
      "rewards/MultiModalAccuracyORM/mean": 0.20000000447034835,
      "rewards/MultiModalAccuracyORM/std": 0.29414459466934206,
      "step": 2060,
      "train_speed(iter/s)": 0.031722
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.6,
      "completions/mean_length": 311.5416793823242,
      "completions/min_length": 190.1,
      "epoch": 0.8343434343434344,
      "grad_norm": 2.6613790818964134,
      "kl": 0.021978759765625,
      "learning_rate": 2e-07,
      "loss": 0.006576963514089584,
      "memory(GiB)": 113.5,
      "reward": 0.2916666753590107,
      "reward_std": 0.40155683159828187,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.40155683159828187,
      "step": 2065,
      "train_speed(iter/s)": 0.03173
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.6,
      "completions/mean_length": 315.6750038146973,
      "completions/min_length": 170.0,
      "epoch": 0.8363636363636363,
      "grad_norm": 1.5051205676406512,
      "kl": 0.0233642578125,
      "learning_rate": 2e-07,
      "loss": 0.09363476037979127,
      "memory(GiB)": 113.5,
      "reward": 0.508333345502615,
      "reward_std": 0.2822715103626251,
      "rewards/MultiModalAccuracyORM/mean": 0.508333345502615,
      "rewards/MultiModalAccuracyORM/std": 0.2822715103626251,
      "step": 2070,
      "train_speed(iter/s)": 0.03174
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 633.5,
      "completions/mean_length": 375.75000762939453,
      "completions/min_length": 224.4,
      "epoch": 0.8383838383838383,
      "grad_norm": 1.8057057513107744,
      "kl": 0.018963623046875,
      "learning_rate": 2e-07,
      "loss": -0.023636098206043243,
      "memory(GiB)": 113.5,
      "reward": 0.4000000111758709,
      "reward_std": 0.33306954205036166,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000111758709,
      "rewards/MultiModalAccuracyORM/std": 0.33306954205036166,
      "step": 2075,
      "train_speed(iter/s)": 0.031751
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 704.7,
      "completions/mean_length": 414.0416793823242,
      "completions/min_length": 194.4,
      "epoch": 0.8404040404040404,
      "grad_norm": 1.7580953588231485,
      "kl": 0.015985107421875,
      "learning_rate": 2e-07,
      "loss": 0.004860112071037292,
      "memory(GiB)": 113.5,
      "reward": 0.33333334028720857,
      "reward_std": 0.30333785712718964,
      "rewards/MultiModalAccuracyORM/mean": 0.33333334028720857,
      "rewards/MultiModalAccuracyORM/std": 0.30333785712718964,
      "step": 2080,
      "train_speed(iter/s)": 0.031761
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 591.9,
      "completions/mean_length": 372.9250122070313,
      "completions/min_length": 192.9,
      "epoch": 0.8424242424242424,
      "grad_norm": 1.6888227745633726,
      "kl": 0.018841552734375,
      "learning_rate": 2e-07,
      "loss": 0.0038746654987335204,
      "memory(GiB)": 113.5,
      "reward": 0.40000001564621923,
      "reward_std": 0.3948384612798691,
      "rewards/MultiModalAccuracyORM/mean": 0.40000001564621923,
      "rewards/MultiModalAccuracyORM/std": 0.3948384612798691,
      "step": 2085,
      "train_speed(iter/s)": 0.031778
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 547.5,
      "completions/mean_length": 359.8833480834961,
      "completions/min_length": 211.2,
      "epoch": 0.8444444444444444,
      "grad_norm": 2.0473894442291605,
      "kl": 0.0135040283203125,
      "learning_rate": 2e-07,
      "loss": -0.005132901668548584,
      "memory(GiB)": 113.5,
      "reward": 0.4833333469927311,
      "reward_std": 0.38904850780963895,
      "rewards/MultiModalAccuracyORM/mean": 0.4833333469927311,
      "rewards/MultiModalAccuracyORM/std": 0.38904850780963895,
      "step": 2090,
      "train_speed(iter/s)": 0.031799
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 740.2,
      "completions/mean_length": 453.96668243408203,
      "completions/min_length": 251.3,
      "epoch": 0.8464646464646465,
      "grad_norm": 1.9528281428716412,
      "kl": 0.015765380859375,
      "learning_rate": 2e-07,
      "loss": -0.00459083616733551,
      "memory(GiB)": 113.5,
      "reward": 0.3416666783392429,
      "reward_std": 0.4211809396743774,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666783392429,
      "rewards/MultiModalAccuracyORM/std": 0.4211809396743774,
      "step": 2095,
      "train_speed(iter/s)": 0.031796
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 640.1,
      "completions/mean_length": 360.11667785644534,
      "completions/min_length": 181.9,
      "epoch": 0.8484848484848485,
      "grad_norm": 1.6610621083165809,
      "kl": 0.0178131103515625,
      "learning_rate": 2e-07,
      "loss": 0.0021423667669296263,
      "memory(GiB)": 113.5,
      "reward": 0.31666667237877844,
      "reward_std": 0.33000870048999786,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667237877844,
      "rewards/MultiModalAccuracyORM/std": 0.33000870048999786,
      "step": 2100,
      "train_speed(iter/s)": 0.031806
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 480.3,
      "completions/mean_length": 264.67501068115234,
      "completions/min_length": 136.9,
      "epoch": 0.8505050505050505,
      "grad_norm": 2.0696467764003192,
      "kl": 0.163067626953125,
      "learning_rate": 2e-07,
      "loss": 0.0025389432907104493,
      "memory(GiB)": 113.5,
      "reward": 0.5000000096857548,
      "reward_std": 0.22625694572925567,
      "rewards/MultiModalAccuracyORM/mean": 0.5000000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.22625694572925567,
      "step": 2105,
      "train_speed(iter/s)": 0.03182
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 529.7,
      "completions/mean_length": 341.6750091552734,
      "completions/min_length": 188.4,
      "epoch": 0.8525252525252526,
      "grad_norm": 1.7692403149903426,
      "kl": 0.0196319580078125,
      "learning_rate": 2e-07,
      "loss": 0.016690313816070557,
      "memory(GiB)": 113.5,
      "reward": 0.3583333343267441,
      "reward_std": 0.21292004883289337,
      "rewards/MultiModalAccuracyORM/mean": 0.3583333343267441,
      "rewards/MultiModalAccuracyORM/std": 0.21292004883289337,
      "step": 2110,
      "train_speed(iter/s)": 0.031829
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.9,
      "completions/mean_length": 410.6416839599609,
      "completions/min_length": 215.5,
      "epoch": 0.8545454545454545,
      "grad_norm": 1.0155490841614827,
      "kl": 0.0239013671875,
      "learning_rate": 2e-07,
      "loss": 0.06116962432861328,
      "memory(GiB)": 113.5,
      "reward": 0.3000000067055225,
      "reward_std": 0.3330695390701294,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.3330695390701294,
      "step": 2115,
      "train_speed(iter/s)": 0.031834
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 756.7,
      "completions/mean_length": 427.03334350585936,
      "completions/min_length": 240.2,
      "epoch": 0.8565656565656565,
      "grad_norm": 1.5010329222185153,
      "kl": 0.0179931640625,
      "learning_rate": 2e-07,
      "loss": 0.008207672834396362,
      "memory(GiB)": 113.5,
      "reward": 0.3000000067055225,
      "reward_std": 0.26822818219661715,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.26822818219661715,
      "step": 2120,
      "train_speed(iter/s)": 0.031834
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 474.0,
      "completions/mean_length": 278.35834350585935,
      "completions/min_length": 133.5,
      "epoch": 0.8585858585858586,
      "grad_norm": 2.4751168878714296,
      "kl": 0.0186279296875,
      "learning_rate": 2e-07,
      "loss": 0.002880534529685974,
      "memory(GiB)": 113.5,
      "reward": 0.44166667833924295,
      "reward_std": 0.26897315979003905,
      "rewards/MultiModalAccuracyORM/mean": 0.44166667833924295,
      "rewards/MultiModalAccuracyORM/std": 0.26897315979003905,
      "step": 2125,
      "train_speed(iter/s)": 0.03185
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 778.6,
      "completions/mean_length": 397.366682434082,
      "completions/min_length": 238.8,
      "epoch": 0.8606060606060606,
      "grad_norm": 2.5358484406016406,
      "kl": 0.024908447265625,
      "learning_rate": 2e-07,
      "loss": -0.008894717693328858,
      "memory(GiB)": 113.5,
      "reward": 0.4166666753590107,
      "reward_std": 0.39010730385780334,
      "rewards/MultiModalAccuracyORM/mean": 0.4166666753590107,
      "rewards/MultiModalAccuracyORM/std": 0.39010730385780334,
      "step": 2130,
      "train_speed(iter/s)": 0.031849
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 571.6,
      "completions/mean_length": 347.92500762939454,
      "completions/min_length": 210.0,
      "epoch": 0.8626262626262626,
      "grad_norm": 1.4480874521635712,
      "kl": 0.013836669921875,
      "learning_rate": 2e-07,
      "loss": -0.02624996304512024,
      "memory(GiB)": 113.5,
      "reward": 0.24166666865348815,
      "reward_std": 0.2815766751766205,
      "rewards/MultiModalAccuracyORM/mean": 0.24166666865348815,
      "rewards/MultiModalAccuracyORM/std": 0.2815766751766205,
      "step": 2135,
      "train_speed(iter/s)": 0.031857
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 792.0,
      "completions/mean_length": 399.3750129699707,
      "completions/min_length": 233.7,
      "epoch": 0.8646464646464647,
      "grad_norm": 2.3120304434709595,
      "kl": 0.01986083984375,
      "learning_rate": 2e-07,
      "loss": -0.004719728231430053,
      "memory(GiB)": 113.5,
      "reward": 0.22500000149011612,
      "reward_std": 0.22384164929389955,
      "rewards/MultiModalAccuracyORM/mean": 0.22500000149011612,
      "rewards/MultiModalAccuracyORM/std": 0.22384164929389955,
      "step": 2140,
      "train_speed(iter/s)": 0.03185
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 787.2,
      "completions/mean_length": 441.508349609375,
      "completions/min_length": 236.5,
      "epoch": 0.8666666666666667,
      "grad_norm": 2.17037271282662,
      "kl": 0.01793212890625,
      "learning_rate": 2e-07,
      "loss": -0.012784427404403687,
      "memory(GiB)": 113.5,
      "reward": 0.23333333432674408,
      "reward_std": 0.2581467509269714,
      "rewards/MultiModalAccuracyORM/mean": 0.23333333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.2581467509269714,
      "step": 2145,
      "train_speed(iter/s)": 0.03185
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 453.1,
      "completions/mean_length": 304.8583419799805,
      "completions/min_length": 197.2,
      "epoch": 0.8686868686868687,
      "grad_norm": 2.4684483286798313,
      "kl": 0.018658447265625,
      "learning_rate": 2e-07,
      "loss": -0.013285607099533081,
      "memory(GiB)": 113.5,
      "reward": 0.4250000067055225,
      "reward_std": 0.3696640759706497,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.3696640759706497,
      "step": 2150,
      "train_speed(iter/s)": 0.031865
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.6,
      "completions/mean_length": 357.44168243408205,
      "completions/min_length": 206.1,
      "epoch": 0.8707070707070707,
      "grad_norm": 2.4866065792724794,
      "kl": 0.01856689453125,
      "learning_rate": 2e-07,
      "loss": -0.014015734195709229,
      "memory(GiB)": 113.5,
      "reward": 0.23333334177732468,
      "reward_std": 0.24436976611614228,
      "rewards/MultiModalAccuracyORM/mean": 0.23333334177732468,
      "rewards/MultiModalAccuracyORM/std": 0.24436976611614228,
      "step": 2155,
      "train_speed(iter/s)": 0.03187
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 542.2,
      "completions/mean_length": 316.7916778564453,
      "completions/min_length": 156.8,
      "epoch": 0.8727272727272727,
      "grad_norm": 0.10342060356020474,
      "kl": 0.019561767578125,
      "learning_rate": 2e-07,
      "loss": 0.015072919428348541,
      "memory(GiB)": 113.5,
      "reward": 0.5250000067055225,
      "reward_std": 0.23303491175174712,
      "rewards/MultiModalAccuracyORM/mean": 0.5250000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.23303491175174712,
      "step": 2160,
      "train_speed(iter/s)": 0.031885
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 591.5,
      "completions/mean_length": 359.40834350585936,
      "completions/min_length": 213.1,
      "epoch": 0.8747474747474747,
      "grad_norm": 2.001531798018373,
      "kl": 0.02108154296875,
      "learning_rate": 2e-07,
      "loss": 0.03580483496189117,
      "memory(GiB)": 113.5,
      "reward": 0.2916666708886623,
      "reward_std": 0.37593023777008056,
      "rewards/MultiModalAccuracyORM/mean": 0.2916666708886623,
      "rewards/MultiModalAccuracyORM/std": 0.37593023777008056,
      "step": 2165,
      "train_speed(iter/s)": 0.03189
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.1,
      "completions/mean_length": 376.5666778564453,
      "completions/min_length": 215.1,
      "epoch": 0.8767676767676768,
      "grad_norm": 1.7513379048306494,
      "kl": 0.01739501953125,
      "learning_rate": 2e-07,
      "loss": -0.001603315770626068,
      "memory(GiB)": 113.5,
      "reward": 0.35833333656191824,
      "reward_std": 0.27927026748657224,
      "rewards/MultiModalAccuracyORM/mean": 0.35833333656191824,
      "rewards/MultiModalAccuracyORM/std": 0.27927026748657224,
      "step": 2170,
      "train_speed(iter/s)": 0.031901
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 529.4,
      "completions/mean_length": 326.4833419799805,
      "completions/min_length": 178.7,
      "epoch": 0.8787878787878788,
      "grad_norm": 1.8257626566364757,
      "kl": 0.01832275390625,
      "learning_rate": 2e-07,
      "loss": -0.0064360305666923525,
      "memory(GiB)": 113.5,
      "reward": 0.4000000096857548,
      "reward_std": 0.2528681933879852,
      "rewards/MultiModalAccuracyORM/mean": 0.4000000096857548,
      "rewards/MultiModalAccuracyORM/std": 0.2528681933879852,
      "step": 2175,
      "train_speed(iter/s)": 0.031922
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 654.1,
      "completions/mean_length": 443.8500183105469,
      "completions/min_length": 252.4,
      "epoch": 0.8808080808080808,
      "grad_norm": 2.0080312898238777,
      "kl": 0.0168212890625,
      "learning_rate": 2e-07,
      "loss": 0.003071814775466919,
      "memory(GiB)": 113.5,
      "reward": 0.25000001341104505,
      "reward_std": 0.27749558687210085,
      "rewards/MultiModalAccuracyORM/mean": 0.25000001341104505,
      "rewards/MultiModalAccuracyORM/std": 0.27749558687210085,
      "step": 2180,
      "train_speed(iter/s)": 0.031939
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 546.9,
      "completions/mean_length": 286.4000068664551,
      "completions/min_length": 137.1,
      "epoch": 0.8828282828282829,
      "grad_norm": 2.6881230452510176,
      "kl": 0.0223968505859375,
      "learning_rate": 2e-07,
      "loss": 0.0006526708602905273,
      "memory(GiB)": 113.5,
      "reward": 0.5333333387970924,
      "reward_std": 0.20369119048118592,
      "rewards/MultiModalAccuracyORM/mean": 0.5333333387970924,
      "rewards/MultiModalAccuracyORM/std": 0.20369119048118592,
      "step": 2185,
      "train_speed(iter/s)": 0.031947
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 610.5,
      "completions/mean_length": 402.3166793823242,
      "completions/min_length": 210.6,
      "epoch": 0.8848484848484849,
      "grad_norm": 2.1762586962994126,
      "kl": 0.02080078125,
      "learning_rate": 2e-07,
      "loss": 0.01941031664609909,
      "memory(GiB)": 113.5,
      "reward": 0.13333333805203437,
      "reward_std": 0.28399197161197665,
      "rewards/MultiModalAccuracyORM/mean": 0.13333333805203437,
      "rewards/MultiModalAccuracyORM/std": 0.28399197161197665,
      "step": 2190,
      "train_speed(iter/s)": 0.031947
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 578.7,
      "completions/mean_length": 376.9000160217285,
      "completions/min_length": 233.4,
      "epoch": 0.8868686868686869,
      "grad_norm": 1.5099724310943463,
      "kl": 0.013751220703125,
      "learning_rate": 2e-07,
      "loss": 0.018771827220916748,
      "memory(GiB)": 113.5,
      "reward": 0.3083333395421505,
      "reward_std": 0.22406027615070342,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.22406027615070342,
      "step": 2195,
      "train_speed(iter/s)": 0.031954
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 564.0,
      "completions/mean_length": 270.4416732788086,
      "completions/min_length": 142.9,
      "epoch": 0.8888888888888888,
      "grad_norm": 2.2743682671690997,
      "kl": 0.023577880859375,
      "learning_rate": 2e-07,
      "loss": 0.025069376826286315,
      "memory(GiB)": 113.5,
      "reward": 0.41666666939854624,
      "reward_std": 0.34936913251876833,
      "rewards/MultiModalAccuracyORM/mean": 0.41666666939854624,
      "rewards/MultiModalAccuracyORM/std": 0.34936913251876833,
      "step": 2200,
      "train_speed(iter/s)": 0.031957
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 508.7,
      "completions/mean_length": 299.5250076293945,
      "completions/min_length": 173.3,
      "epoch": 0.8909090909090909,
      "grad_norm": 1.7147767163429606,
      "kl": 0.015533447265625,
      "learning_rate": 2e-07,
      "loss": -0.01650981158018112,
      "memory(GiB)": 113.5,
      "reward": 0.3666666761040688,
      "reward_std": 0.26142621636390684,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666761040688,
      "rewards/MultiModalAccuracyORM/std": 0.26142621636390684,
      "step": 2205,
      "train_speed(iter/s)": 0.031967
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 678.7,
      "completions/mean_length": 303.3583396911621,
      "completions/min_length": 148.9,
      "epoch": 0.8929292929292929,
      "grad_norm": 0.07977564640032515,
      "kl": 0.022882080078125,
      "learning_rate": 2e-07,
      "loss": -0.015148724615573882,
      "memory(GiB)": 113.5,
      "reward": 0.2750000052154064,
      "reward_std": 0.2333131343126297,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000052154064,
      "rewards/MultiModalAccuracyORM/std": 0.2333131343126297,
      "step": 2210,
      "train_speed(iter/s)": 0.031965
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 739.5,
      "completions/mean_length": 388.18333740234374,
      "completions/min_length": 198.5,
      "epoch": 0.8949494949494949,
      "grad_norm": 0.8099900753838608,
      "kl": 0.0284912109375,
      "learning_rate": 2e-07,
      "loss": 0.00753181129693985,
      "memory(GiB)": 113.5,
      "reward": 0.416666679084301,
      "reward_std": 0.34156554043292997,
      "rewards/MultiModalAccuracyORM/mean": 0.416666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.34156554043292997,
      "step": 2215,
      "train_speed(iter/s)": 0.03197
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 779.3,
      "completions/mean_length": 450.6333526611328,
      "completions/min_length": 239.0,
      "epoch": 0.896969696969697,
      "grad_norm": 1.7310208765669708,
      "kl": 0.0198486328125,
      "learning_rate": 2e-07,
      "loss": -0.004081086814403534,
      "memory(GiB)": 113.5,
      "reward": 0.2500000074505806,
      "reward_std": 0.3800142765045166,
      "rewards/MultiModalAccuracyORM/mean": 0.2500000074505806,
      "rewards/MultiModalAccuracyORM/std": 0.3800142765045166,
      "step": 2220,
      "train_speed(iter/s)": 0.03197
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 676.4,
      "completions/mean_length": 360.75001220703126,
      "completions/min_length": 217.2,
      "epoch": 0.898989898989899,
      "grad_norm": 2.1020973545612702,
      "kl": 0.01806640625,
      "learning_rate": 2e-07,
      "loss": 0.03712728023529053,
      "memory(GiB)": 113.5,
      "reward": 0.3000000134110451,
      "reward_std": 0.32673218548297883,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000134110451,
      "rewards/MultiModalAccuracyORM/std": 0.32673218548297883,
      "step": 2225,
      "train_speed(iter/s)": 0.031975
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 820.2,
      "completions/mean_length": 446.9583396911621,
      "completions/min_length": 246.3,
      "epoch": 0.901010101010101,
      "grad_norm": 1.2524422904219505,
      "kl": 0.016302490234375,
      "learning_rate": 2e-07,
      "loss": -0.02771589457988739,
      "memory(GiB)": 113.5,
      "reward": 0.32500000596046447,
      "reward_std": 0.31088480055332185,
      "rewards/MultiModalAccuracyORM/mean": 0.32500000596046447,
      "rewards/MultiModalAccuracyORM/std": 0.31088480055332185,
      "step": 2230,
      "train_speed(iter/s)": 0.031963
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 511.1,
      "completions/mean_length": 314.425008392334,
      "completions/min_length": 211.4,
      "epoch": 0.9030303030303031,
      "grad_norm": 1.941568088508899,
      "kl": 0.0159149169921875,
      "learning_rate": 2e-07,
      "loss": 0.03777821063995361,
      "memory(GiB)": 113.5,
      "reward": 0.450000011920929,
      "reward_std": 0.391499400138855,
      "rewards/MultiModalAccuracyORM/mean": 0.450000011920929,
      "rewards/MultiModalAccuracyORM/std": 0.391499400138855,
      "step": 2235,
      "train_speed(iter/s)": 0.031975
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 520.2,
      "completions/mean_length": 344.6333435058594,
      "completions/min_length": 198.5,
      "epoch": 0.9050505050505051,
      "grad_norm": 2.0763848655087673,
      "kl": 0.019061279296875,
      "learning_rate": 2e-07,
      "loss": -0.0011584073305130004,
      "memory(GiB)": 113.5,
      "reward": 0.40000000670552255,
      "reward_std": 0.34407602846622465,
      "rewards/MultiModalAccuracyORM/mean": 0.40000000670552255,
      "rewards/MultiModalAccuracyORM/std": 0.34407602846622465,
      "step": 2240,
      "train_speed(iter/s)": 0.031993
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.4,
      "completions/mean_length": 319.63334197998046,
      "completions/min_length": 160.3,
      "epoch": 0.907070707070707,
      "grad_norm": 2.59722388457303,
      "kl": 0.022515869140625,
      "learning_rate": 2e-07,
      "loss": -0.017506715655326844,
      "memory(GiB)": 113.5,
      "reward": 0.27500001043081285,
      "reward_std": 0.3227818846702576,
      "rewards/MultiModalAccuracyORM/mean": 0.27500001043081285,
      "rewards/MultiModalAccuracyORM/std": 0.3227818846702576,
      "step": 2245,
      "train_speed(iter/s)": 0.031998
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 1.3781323461012882,
      "learning_rate": 2e-07,
      "loss": 0.01341366171836853,
      "memory(GiB)": 113.5,
      "step": 2250,
      "train_speed(iter/s)": 0.032003
    },
    {
      "epoch": 0.9090909090909091,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.0016666666666666666,
      "eval_completions/max_length": 642.72,
      "eval_completions/mean_length": 376.58501220703124,
      "eval_completions/min_length": 201.48,
      "eval_kl": 0.01755615234375,
      "eval_loss": 0.022878510877490044,
      "eval_reward": 0.3366666728258133,
      "eval_reward_std": 0.29963068544864657,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.3366666728258133,
      "eval_rewards/MultiModalAccuracyORM/std": 0.29963068544864657,
      "eval_runtime": 620.6156,
      "eval_samples_per_second": 0.081,
      "eval_steps_per_second": 0.008,
      "step": 2250
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.55,
      "completions/mean_length": 408.7458442687988,
      "completions/min_length": 214.2,
      "epoch": 0.9111111111111111,
      "grad_norm": 0.0911724129495613,
      "kl": 0.01767578125,
      "learning_rate": 2e-07,
      "loss": 0.05687015056610108,
      "memory(GiB)": 113.5,
      "reward": 0.3166666738688946,
      "reward_std": 0.32789033353328706,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666738688946,
      "rewards/MultiModalAccuracyORM/std": 0.32789033353328706,
      "step": 2255,
      "train_speed(iter/s)": 0.031634
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 646.3,
      "completions/mean_length": 310.35000762939455,
      "completions/min_length": 147.8,
      "epoch": 0.9131313131313131,
      "grad_norm": 2.3215328543725837,
      "kl": 0.02152099609375,
      "learning_rate": 2e-07,
      "loss": -0.02131924331188202,
      "memory(GiB)": 113.5,
      "reward": 0.3750000037252903,
      "reward_std": 0.2659719169139862,
      "rewards/MultiModalAccuracyORM/mean": 0.3750000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.2659719169139862,
      "step": 2260,
      "train_speed(iter/s)": 0.03164
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.3,
      "completions/mean_length": 371.5416793823242,
      "completions/min_length": 220.7,
      "epoch": 0.9151515151515152,
      "grad_norm": 2.126621344773754,
      "kl": 0.018896484375,
      "learning_rate": 2e-07,
      "loss": 0.024756547808647156,
      "memory(GiB)": 113.5,
      "reward": 0.2750000052154064,
      "reward_std": 0.2619264245033264,
      "rewards/MultiModalAccuracyORM/mean": 0.2750000052154064,
      "rewards/MultiModalAccuracyORM/std": 0.2619264245033264,
      "step": 2265,
      "train_speed(iter/s)": 0.031637
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 638.4,
      "completions/mean_length": 415.3916778564453,
      "completions/min_length": 254.9,
      "epoch": 0.9171717171717172,
      "grad_norm": 2.9790243495572137,
      "kl": 0.0215087890625,
      "learning_rate": 2e-07,
      "loss": -0.012356171011924743,
      "memory(GiB)": 113.5,
      "reward": 0.1666666679084301,
      "reward_std": 0.27520077526569364,
      "rewards/MultiModalAccuracyORM/mean": 0.1666666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.27520077526569364,
      "step": 2270,
      "train_speed(iter/s)": 0.031641
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 771.9,
      "completions/mean_length": 425.84167633056643,
      "completions/min_length": 242.2,
      "epoch": 0.9191919191919192,
      "grad_norm": 1.0861715717638791,
      "kl": 0.0269012451171875,
      "learning_rate": 2e-07,
      "loss": 0.010645134747028351,
      "memory(GiB)": 113.5,
      "reward": 0.2583333425223827,
      "reward_std": 0.30260742604732516,
      "rewards/MultiModalAccuracyORM/mean": 0.2583333425223827,
      "rewards/MultiModalAccuracyORM/std": 0.30260742604732516,
      "step": 2275,
      "train_speed(iter/s)": 0.031636
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 393.9,
      "completions/mean_length": 271.05000762939454,
      "completions/min_length": 149.0,
      "epoch": 0.9212121212121213,
      "grad_norm": 0.05924941442962051,
      "kl": 0.0225830078125,
      "learning_rate": 2e-07,
      "loss": 0.031935521960258485,
      "memory(GiB)": 113.5,
      "reward": 0.28333333805203437,
      "reward_std": 0.304396653175354,
      "rewards/MultiModalAccuracyORM/mean": 0.28333333805203437,
      "rewards/MultiModalAccuracyORM/std": 0.304396653175354,
      "step": 2280,
      "train_speed(iter/s)": 0.031652
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 711.7,
      "completions/mean_length": 391.0416763305664,
      "completions/min_length": 203.9,
      "epoch": 0.9232323232323232,
      "grad_norm": 2.8587723324821566,
      "kl": 0.024896240234375,
      "learning_rate": 2e-07,
      "loss": 0.017455708980560303,
      "memory(GiB)": 113.5,
      "reward": 0.33333333805203436,
      "reward_std": 0.29177859127521516,
      "rewards/MultiModalAccuracyORM/mean": 0.33333333805203436,
      "rewards/MultiModalAccuracyORM/std": 0.29177859127521516,
      "step": 2285,
      "train_speed(iter/s)": 0.031656
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 544.5,
      "completions/mean_length": 356.05834197998047,
      "completions/min_length": 179.4,
      "epoch": 0.9252525252525252,
      "grad_norm": 3.219718675307709,
      "kl": 0.0145965576171875,
      "learning_rate": 2e-07,
      "loss": -0.032944440841674805,
      "memory(GiB)": 113.5,
      "reward": 0.3000000067055225,
      "reward_std": 0.2840515673160553,
      "rewards/MultiModalAccuracyORM/mean": 0.3000000067055225,
      "rewards/MultiModalAccuracyORM/std": 0.2840515673160553,
      "step": 2290,
      "train_speed(iter/s)": 0.031663
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 663.9,
      "completions/mean_length": 448.50000762939453,
      "completions/min_length": 247.4,
      "epoch": 0.9272727272727272,
      "grad_norm": 0.8757317301258869,
      "kl": 0.0155517578125,
      "learning_rate": 2e-07,
      "loss": -0.008566761016845703,
      "memory(GiB)": 113.5,
      "reward": 0.2833333432674408,
      "reward_std": 0.27596975266933443,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.27596975266933443,
      "step": 2295,
      "train_speed(iter/s)": 0.031671
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 786.8,
      "completions/mean_length": 507.6833526611328,
      "completions/min_length": 320.1,
      "epoch": 0.9292929292929293,
      "grad_norm": 0.9362166291898165,
      "kl": 0.02156982421875,
      "learning_rate": 2e-07,
      "loss": 0.018462255597114563,
      "memory(GiB)": 113.5,
      "reward": 0.3083333373069763,
      "reward_std": 0.2464074045419693,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.2464074045419693,
      "step": 2300,
      "train_speed(iter/s)": 0.03166
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 479.9,
      "completions/mean_length": 257.65000381469724,
      "completions/min_length": 128.1,
      "epoch": 0.9313131313131313,
      "grad_norm": 2.658818675138077,
      "kl": 0.029730224609375,
      "learning_rate": 2e-07,
      "loss": 0.023678554594516753,
      "memory(GiB)": 113.5,
      "reward": 0.30000000521540643,
      "reward_std": 0.15821026563644408,
      "rewards/MultiModalAccuracyORM/mean": 0.30000000521540643,
      "rewards/MultiModalAccuracyORM/std": 0.15821026563644408,
      "step": 2305,
      "train_speed(iter/s)": 0.031671
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 800.1,
      "completions/mean_length": 461.5750137329102,
      "completions/min_length": 264.1,
      "epoch": 0.9333333333333333,
      "grad_norm": 1.525329758838897,
      "kl": 0.0238433837890625,
      "learning_rate": 2e-07,
      "loss": 0.016385090351104737,
      "memory(GiB)": 113.5,
      "reward": 0.1666666693985462,
      "reward_std": 0.3190022110939026,
      "rewards/MultiModalAccuracyORM/mean": 0.1666666693985462,
      "rewards/MultiModalAccuracyORM/std": 0.3190022110939026,
      "step": 2310,
      "train_speed(iter/s)": 0.031667
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 619.0,
      "completions/mean_length": 360.6000061035156,
      "completions/min_length": 211.2,
      "epoch": 0.9353535353535354,
      "grad_norm": 2.555254446139955,
      "kl": 0.01925048828125,
      "learning_rate": 2e-07,
      "loss": -0.025304621458053587,
      "memory(GiB)": 113.5,
      "reward": 0.24166667088866234,
      "reward_std": 0.309637188911438,
      "rewards/MultiModalAccuracyORM/mean": 0.24166667088866234,
      "rewards/MultiModalAccuracyORM/std": 0.309637188911438,
      "step": 2315,
      "train_speed(iter/s)": 0.031675
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 662.0,
      "completions/mean_length": 406.8916778564453,
      "completions/min_length": 230.6,
      "epoch": 0.9373737373737374,
      "grad_norm": 1.8305198392785023,
      "kl": 0.0230133056640625,
      "learning_rate": 2e-07,
      "loss": -0.014680406451225281,
      "memory(GiB)": 113.5,
      "reward": 0.3500000037252903,
      "reward_std": 0.3111986190080643,
      "rewards/MultiModalAccuracyORM/mean": 0.3500000037252903,
      "rewards/MultiModalAccuracyORM/std": 0.3111986190080643,
      "step": 2320,
      "train_speed(iter/s)": 0.031676
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.8,
      "completions/mean_length": 282.15833892822263,
      "completions/min_length": 162.0,
      "epoch": 0.9393939393939394,
      "grad_norm": 2.852841229555507,
      "kl": 0.02640380859375,
      "learning_rate": 2e-07,
      "loss": 0.0326883852481842,
      "memory(GiB)": 113.5,
      "reward": 0.3083333432674408,
      "reward_std": 0.4167425513267517,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333432674408,
      "rewards/MultiModalAccuracyORM/std": 0.4167425513267517,
      "step": 2325,
      "train_speed(iter/s)": 0.031687
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 790.1,
      "completions/mean_length": 384.29168395996095,
      "completions/min_length": 177.1,
      "epoch": 0.9414141414141414,
      "grad_norm": 2.0178414254144723,
      "kl": 0.018560791015625,
      "learning_rate": 2e-07,
      "loss": 0.008831435441970825,
      "memory(GiB)": 113.5,
      "reward": 0.38333334028720856,
      "reward_std": 0.36893364489078523,
      "rewards/MultiModalAccuracyORM/mean": 0.38333334028720856,
      "rewards/MultiModalAccuracyORM/std": 0.36893364489078523,
      "step": 2330,
      "train_speed(iter/s)": 0.031685
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 679.0,
      "completions/mean_length": 368.05834503173827,
      "completions/min_length": 206.5,
      "epoch": 0.9434343434343434,
      "grad_norm": 1.5228784773962754,
      "kl": 0.015521240234375,
      "learning_rate": 2e-07,
      "loss": -0.008360534906387329,
      "memory(GiB)": 113.5,
      "reward": 0.3083333373069763,
      "reward_std": 0.3352662086486816,
      "rewards/MultiModalAccuracyORM/mean": 0.3083333373069763,
      "rewards/MultiModalAccuracyORM/std": 0.3352662086486816,
      "step": 2335,
      "train_speed(iter/s)": 0.031686
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 1030.2,
      "completions/mean_length": 481.2666900634766,
      "completions/min_length": 237.4,
      "epoch": 0.9454545454545454,
      "grad_norm": 1.418697346446445,
      "kl": 0.0329925537109375,
      "learning_rate": 2e-07,
      "loss": 0.0726934552192688,
      "memory(GiB)": 113.5,
      "reward": 0.2833333395421505,
      "reward_std": 0.3713845372200012,
      "rewards/MultiModalAccuracyORM/mean": 0.2833333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.3713845372200012,
      "step": 2340,
      "train_speed(iter/s)": 0.031672
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 668.9,
      "completions/mean_length": 321.70001220703125,
      "completions/min_length": 150.2,
      "epoch": 0.9474747474747475,
      "grad_norm": 2.0538342098414333,
      "kl": 0.03148193359375,
      "learning_rate": 2e-07,
      "loss": 0.035471782088279724,
      "memory(GiB)": 113.5,
      "reward": 0.29166667610406877,
      "reward_std": 0.1973894327878952,
      "rewards/MultiModalAccuracyORM/mean": 0.29166667610406877,
      "rewards/MultiModalAccuracyORM/std": 0.1973894327878952,
      "step": 2345,
      "train_speed(iter/s)": 0.031674
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.4,
      "completions/mean_length": 358.76668243408204,
      "completions/min_length": 218.4,
      "epoch": 0.9494949494949495,
      "grad_norm": 2.6339218970926903,
      "kl": 0.0245635986328125,
      "learning_rate": 2e-07,
      "loss": 0.004336267709732056,
      "memory(GiB)": 113.5,
      "reward": 0.36666667833924294,
      "reward_std": 0.32297651171684266,
      "rewards/MultiModalAccuracyORM/mean": 0.36666667833924294,
      "rewards/MultiModalAccuracyORM/std": 0.32297651171684266,
      "step": 2350,
      "train_speed(iter/s)": 0.031691
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 460.4,
      "completions/mean_length": 282.98334274291994,
      "completions/min_length": 158.3,
      "epoch": 0.9515151515151515,
      "grad_norm": 2.0291656458591145,
      "kl": 0.020587158203125,
      "learning_rate": 2e-07,
      "loss": -0.05831232666969299,
      "memory(GiB)": 113.5,
      "reward": 0.5000000081956386,
      "reward_std": 0.3330099433660507,
      "rewards/MultiModalAccuracyORM/mean": 0.5000000081956386,
      "rewards/MultiModalAccuracyORM/std": 0.3330099433660507,
      "step": 2355,
      "train_speed(iter/s)": 0.031702
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 455.3,
      "completions/mean_length": 282.77500610351564,
      "completions/min_length": 139.0,
      "epoch": 0.9535353535353536,
      "grad_norm": 0.11573786538748869,
      "kl": 0.0304229736328125,
      "learning_rate": 2e-07,
      "loss": 0.03489102721214295,
      "memory(GiB)": 113.5,
      "reward": 0.24166666939854622,
      "reward_std": 0.2355453997850418,
      "rewards/MultiModalAccuracyORM/mean": 0.24166666939854622,
      "rewards/MultiModalAccuracyORM/std": 0.2355453997850418,
      "step": 2360,
      "train_speed(iter/s)": 0.031718
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.4,
      "completions/mean_length": 412.06668243408205,
      "completions/min_length": 245.3,
      "epoch": 0.9555555555555556,
      "grad_norm": 2.17622948866824,
      "kl": 0.019061279296875,
      "learning_rate": 2e-07,
      "loss": 0.005562397837638855,
      "memory(GiB)": 113.5,
      "reward": 0.4250000111758709,
      "reward_std": 0.45383972525596616,
      "rewards/MultiModalAccuracyORM/mean": 0.4250000111758709,
      "rewards/MultiModalAccuracyORM/std": 0.45383972525596616,
      "step": 2365,
      "train_speed(iter/s)": 0.031722
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 605.1,
      "completions/mean_length": 371.3166793823242,
      "completions/min_length": 208.3,
      "epoch": 0.9575757575757575,
      "grad_norm": 2.3917395292059282,
      "kl": 0.031591796875,
      "learning_rate": 2e-07,
      "loss": 0.00018071085214614867,
      "memory(GiB)": 113.5,
      "reward": 0.291666679084301,
      "reward_std": 0.26498726308345794,
      "rewards/MultiModalAccuracyORM/mean": 0.291666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.26498726308345794,
      "step": 2370,
      "train_speed(iter/s)": 0.031735
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 455.6,
      "completions/mean_length": 301.4333435058594,
      "completions/min_length": 178.5,
      "epoch": 0.9595959595959596,
      "grad_norm": 3.5970167327213822,
      "kl": 0.02054443359375,
      "learning_rate": 2e-07,
      "loss": 0.01565767079591751,
      "memory(GiB)": 113.5,
      "reward": 0.44166667833924295,
      "reward_std": 0.26897316575050356,
      "rewards/MultiModalAccuracyORM/mean": 0.44166667833924295,
      "rewards/MultiModalAccuracyORM/std": 0.26897316575050356,
      "step": 2375,
      "train_speed(iter/s)": 0.031751
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 584.8,
      "completions/mean_length": 327.98334350585935,
      "completions/min_length": 184.6,
      "epoch": 0.9616161616161616,
      "grad_norm": 2.197976826013823,
      "kl": 0.021331787109375,
      "learning_rate": 2e-07,
      "loss": 0.005569913983345031,
      "memory(GiB)": 113.5,
      "reward": 0.43333334028720855,
      "reward_std": 0.3840597689151764,
      "rewards/MultiModalAccuracyORM/mean": 0.43333334028720855,
      "rewards/MultiModalAccuracyORM/std": 0.3840597689151764,
      "step": 2380,
      "train_speed(iter/s)": 0.031761
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 708.0,
      "completions/mean_length": 293.06667556762693,
      "completions/min_length": 155.5,
      "epoch": 0.9636363636363636,
      "grad_norm": 2.126614857423257,
      "kl": 0.0335205078125,
      "learning_rate": 2e-07,
      "loss": 0.0018027305603027343,
      "memory(GiB)": 113.5,
      "reward": 0.416666679084301,
      "reward_std": 0.3855114609003067,
      "rewards/MultiModalAccuracyORM/mean": 0.416666679084301,
      "rewards/MultiModalAccuracyORM/std": 0.3855114609003067,
      "step": 2385,
      "train_speed(iter/s)": 0.031758
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 627.6,
      "completions/mean_length": 374.27501220703124,
      "completions/min_length": 226.1,
      "epoch": 0.9656565656565657,
      "grad_norm": 2.285791825740683,
      "kl": 0.03223876953125,
      "learning_rate": 2e-07,
      "loss": -0.007699564099311829,
      "memory(GiB)": 113.5,
      "reward": 0.14166667088866233,
      "reward_std": 0.3000969380140305,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667088866233,
      "rewards/MultiModalAccuracyORM/std": 0.3000969380140305,
      "step": 2390,
      "train_speed(iter/s)": 0.031759
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 601.7,
      "completions/mean_length": 297.45834197998045,
      "completions/min_length": 152.0,
      "epoch": 0.9676767676767677,
      "grad_norm": 2.926559087104104,
      "kl": 0.0413818359375,
      "learning_rate": 2e-07,
      "loss": 0.04997736811637878,
      "memory(GiB)": 113.5,
      "reward": 0.31666667610406873,
      "reward_std": 0.3687034219503403,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667610406873,
      "rewards/MultiModalAccuracyORM/std": 0.3687034219503403,
      "step": 2395,
      "train_speed(iter/s)": 0.031761
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 674.1,
      "completions/mean_length": 422.52500915527344,
      "completions/min_length": 260.5,
      "epoch": 0.9696969696969697,
      "grad_norm": 1.0391142999786047,
      "kl": 0.02857666015625,
      "learning_rate": 2e-07,
      "loss": -0.008375594019889831,
      "memory(GiB)": 113.5,
      "reward": 0.45000000670552254,
      "reward_std": 0.34407602846622465,
      "rewards/MultiModalAccuracyORM/mean": 0.45000000670552254,
      "rewards/MultiModalAccuracyORM/std": 0.34407602846622465,
      "step": 2400,
      "train_speed(iter/s)": 0.031765
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 726.7,
      "completions/mean_length": 369.96667938232423,
      "completions/min_length": 166.7,
      "epoch": 0.9717171717171718,
      "grad_norm": 1.9044448293066447,
      "kl": 0.034771728515625,
      "learning_rate": 2e-07,
      "loss": 0.041448038816452024,
      "memory(GiB)": 113.5,
      "reward": 0.3666666761040688,
      "reward_std": 0.3330695390701294,
      "rewards/MultiModalAccuracyORM/mean": 0.3666666761040688,
      "rewards/MultiModalAccuracyORM/std": 0.3330695390701294,
      "step": 2405,
      "train_speed(iter/s)": 0.031765
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 860.8,
      "completions/mean_length": 442.18335113525393,
      "completions/min_length": 199.9,
      "epoch": 0.9737373737373738,
      "grad_norm": 1.1043100849775993,
      "kl": 0.0294525146484375,
      "learning_rate": 2e-07,
      "loss": 0.011988846212625503,
      "memory(GiB)": 113.5,
      "reward": 0.3166666731238365,
      "reward_std": 0.383000972867012,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.383000972867012,
      "step": 2410,
      "train_speed(iter/s)": 0.031763
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.03333333333333333,
      "completions/max_length": 964.9,
      "completions/mean_length": 423.55834503173827,
      "completions/min_length": 182.4,
      "epoch": 0.9757575757575757,
      "grad_norm": 3.0380086133675968,
      "kl": 0.037750244140625,
      "learning_rate": 2e-07,
      "loss": 0.02129605710506439,
      "memory(GiB)": 113.5,
      "reward": 0.5166666716337204,
      "reward_std": 0.2104335606098175,
      "rewards/MultiModalAccuracyORM/mean": 0.5166666716337204,
      "rewards/MultiModalAccuracyORM/std": 0.2104335606098175,
      "step": 2415,
      "train_speed(iter/s)": 0.031748
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 493.0,
      "completions/mean_length": 316.23334274291994,
      "completions/min_length": 185.4,
      "epoch": 0.9777777777777777,
      "grad_norm": 3.286741279330765,
      "kl": 0.03631591796875,
      "learning_rate": 2e-07,
      "loss": 0.01842118501663208,
      "memory(GiB)": 113.5,
      "reward": 0.4916666768491268,
      "reward_std": 0.3266936391592026,
      "rewards/MultiModalAccuracyORM/mean": 0.4916666768491268,
      "rewards/MultiModalAccuracyORM/std": 0.3266936391592026,
      "step": 2420,
      "train_speed(iter/s)": 0.031765
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 624.4,
      "completions/mean_length": 382.6333435058594,
      "completions/min_length": 208.4,
      "epoch": 0.9797979797979798,
      "grad_norm": 3.1686862418479125,
      "kl": 0.05205078125,
      "learning_rate": 2e-07,
      "loss": 0.011619596928358077,
      "memory(GiB)": 113.5,
      "reward": 0.3166666731238365,
      "reward_std": 0.32526837289333344,
      "rewards/MultiModalAccuracyORM/mean": 0.3166666731238365,
      "rewards/MultiModalAccuracyORM/std": 0.32526837289333344,
      "step": 2425,
      "train_speed(iter/s)": 0.031766
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 588.9,
      "completions/mean_length": 343.9250144958496,
      "completions/min_length": 189.7,
      "epoch": 0.9818181818181818,
      "grad_norm": 1.5585214145494302,
      "kl": 0.034375,
      "learning_rate": 2e-07,
      "loss": 0.0014587238430976868,
      "memory(GiB)": 113.5,
      "reward": 0.17500000596046447,
      "reward_std": 0.3244759202003479,
      "rewards/MultiModalAccuracyORM/mean": 0.17500000596046447,
      "rewards/MultiModalAccuracyORM/std": 0.3244759202003479,
      "step": 2430,
      "train_speed(iter/s)": 0.031779
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 608.2,
      "completions/mean_length": 378.7916778564453,
      "completions/min_length": 209.2,
      "epoch": 0.9838383838383838,
      "grad_norm": 2.73232643290958,
      "kl": 0.04532470703125,
      "learning_rate": 2e-07,
      "loss": 0.062485653162002566,
      "memory(GiB)": 113.5,
      "reward": 0.4666666828095913,
      "reward_std": 0.4470617562532425,
      "rewards/MultiModalAccuracyORM/mean": 0.4666666828095913,
      "rewards/MultiModalAccuracyORM/std": 0.4470617562532425,
      "step": 2435,
      "train_speed(iter/s)": 0.031786
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 738.5,
      "completions/mean_length": 341.6166717529297,
      "completions/min_length": 163.9,
      "epoch": 0.9858585858585859,
      "grad_norm": 1.3853546154126857,
      "kl": 0.0336669921875,
      "learning_rate": 2e-07,
      "loss": -0.028276541829109193,
      "memory(GiB)": 113.5,
      "reward": 0.14166667088866233,
      "reward_std": 0.3000969380140305,
      "rewards/MultiModalAccuracyORM/mean": 0.14166667088866233,
      "rewards/MultiModalAccuracyORM/std": 0.3000969380140305,
      "step": 2440,
      "train_speed(iter/s)": 0.03179
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.03333333333333333,
      "completions/max_length": 914.9,
      "completions/mean_length": 449.3500152587891,
      "completions/min_length": 241.3,
      "epoch": 0.9878787878787879,
      "grad_norm": 2.2456582209413893,
      "kl": 0.03409423828125,
      "learning_rate": 2e-07,
      "loss": -0.0006516605615615844,
      "memory(GiB)": 113.5,
      "reward": 0.2083333358168602,
      "reward_std": 0.32050161957740786,
      "rewards/MultiModalAccuracyORM/mean": 0.2083333358168602,
      "rewards/MultiModalAccuracyORM/std": 0.32050161957740786,
      "step": 2445,
      "train_speed(iter/s)": 0.031782
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.008333333333333333,
      "completions/max_length": 626.9,
      "completions/mean_length": 322.7333419799805,
      "completions/min_length": 203.0,
      "epoch": 0.98989898989899,
      "grad_norm": 2.6524648003013103,
      "kl": 0.03165283203125,
      "learning_rate": 2e-07,
      "loss": -0.008733100444078445,
      "memory(GiB)": 113.5,
      "reward": 0.6416666708886624,
      "reward_std": 0.15824586153030396,
      "rewards/MultiModalAccuracyORM/mean": 0.6416666708886624,
      "rewards/MultiModalAccuracyORM/std": 0.15824586153030396,
      "step": 2450,
      "train_speed(iter/s)": 0.031782
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 881.4,
      "completions/mean_length": 330.15001068115237,
      "completions/min_length": 158.1,
      "epoch": 0.9919191919191919,
      "grad_norm": 1.7910216600269697,
      "kl": 0.05638427734375,
      "learning_rate": 2e-07,
      "loss": -0.0065705299377441405,
      "memory(GiB)": 113.5,
      "reward": 0.2333333395421505,
      "reward_std": 0.2815410792827606,
      "rewards/MultiModalAccuracyORM/mean": 0.2333333395421505,
      "rewards/MultiModalAccuracyORM/std": 0.2815410792827606,
      "step": 2455,
      "train_speed(iter/s)": 0.031777
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.016666666666666666,
      "completions/max_length": 851.2,
      "completions/mean_length": 378.46667633056643,
      "completions/min_length": 185.4,
      "epoch": 0.9939393939393939,
      "grad_norm": 2.5045509391063856,
      "kl": 0.04505615234375,
      "learning_rate": 2e-07,
      "loss": -0.008945465087890625,
      "memory(GiB)": 113.5,
      "reward": 0.40833334252238274,
      "reward_std": 0.3794672876596451,
      "rewards/MultiModalAccuracyORM/mean": 0.40833334252238274,
      "rewards/MultiModalAccuracyORM/std": 0.3794672876596451,
      "step": 2460,
      "train_speed(iter/s)": 0.031779
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.03333333333333333,
      "completions/max_length": 879.8,
      "completions/mean_length": 371.80834045410154,
      "completions/min_length": 158.4,
      "epoch": 0.9959595959595959,
      "grad_norm": 3.572517250532036,
      "kl": 0.051068115234375,
      "learning_rate": 2e-07,
      "loss": -0.013737475872039795,
      "memory(GiB)": 113.5,
      "reward": 0.31666667088866235,
      "reward_std": 0.29408499896526336,
      "rewards/MultiModalAccuracyORM/mean": 0.31666667088866235,
      "rewards/MultiModalAccuracyORM/std": 0.29408499896526336,
      "step": 2465,
      "train_speed(iter/s)": 0.031766
    },
    {
      "clip_ratio": 0.0,
      "completions/clipped_ratio": 0.03333333333333333,
      "completions/max_length": 1149.5,
      "completions/mean_length": 445.8500122070312,
      "completions/min_length": 184.4,
      "epoch": 0.997979797979798,
      "grad_norm": 2.2904897334575254,
      "kl": 0.04656982421875,
      "learning_rate": 2e-07,
      "loss": -0.032226094603538515,
      "memory(GiB)": 113.5,
      "reward": 0.3416666775941849,
      "reward_std": 0.4094175934791565,
      "rewards/MultiModalAccuracyORM/mean": 0.3416666775941849,
      "rewards/MultiModalAccuracyORM/std": 0.4094175934791565,
      "step": 2470,
      "train_speed(iter/s)": 0.031754
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4731764005283963,
      "learning_rate": 2e-07,
      "loss": 0.061235594749450686,
      "memory(GiB)": 113.5,
      "step": 2475,
      "train_speed(iter/s)": 0.031746
    },
    {
      "epoch": 1.0,
      "eval_clip_ratio": 0.0,
      "eval_completions/clipped_ratio": 0.018333333333333333,
      "eval_completions/max_length": 787.14,
      "eval_completions/mean_length": 378.51834548950194,
      "eval_completions/min_length": 186.72,
      "eval_kl": 0.040185546875,
      "eval_loss": 0.029814261943101883,
      "eval_reward": 0.3483333396911621,
      "eval_reward_std": 0.3004326641559601,
      "eval_rewards/MultiModalAccuracyORM/mean": 0.3483333396911621,
      "eval_rewards/MultiModalAccuracyORM/std": 0.3004326641559601,
      "eval_runtime": 729.694,
      "eval_samples_per_second": 0.069,
      "eval_steps_per_second": 0.007,
      "step": 2475
    }
  ],
  "logging_steps": 5,
  "max_steps": 2475,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}