{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 120, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 4.380008697509766, "learning_rate": 8.333333333333334e-06, "loss": 3.8472, "step": 2 }, { "epoch": 0.03333333333333333, "grad_norm": 5.4320220947265625, "learning_rate": 1.6666666666666667e-05, "loss": 4.4355, "step": 4 }, { "epoch": 0.05, "grad_norm": 5.495668411254883, "learning_rate": 2.5e-05, "loss": 4.0183, "step": 6 }, { "epoch": 0.06666666666666667, "grad_norm": 5.333839416503906, "learning_rate": 3.3333333333333335e-05, "loss": 4.4543, "step": 8 }, { "epoch": 0.08333333333333333, "grad_norm": 4.8141961097717285, "learning_rate": 4.166666666666667e-05, "loss": 4.0576, "step": 10 }, { "epoch": 0.1, "grad_norm": 4.4542341232299805, "learning_rate": 5e-05, "loss": 3.3098, "step": 12 }, { "epoch": 0.11666666666666667, "grad_norm": 4.608759880065918, "learning_rate": 5.833333333333334e-05, "loss": 3.3983, "step": 14 }, { "epoch": 0.13333333333333333, "grad_norm": 3.7876033782958984, "learning_rate": 6.666666666666667e-05, "loss": 2.7265, "step": 16 }, { "epoch": 0.15, "grad_norm": 4.206045627593994, "learning_rate": 7.500000000000001e-05, "loss": 2.4786, "step": 18 }, { "epoch": 0.16666666666666666, "grad_norm": 4.687928676605225, "learning_rate": 8.333333333333334e-05, "loss": 2.2298, "step": 20 }, { "epoch": 0.18333333333333332, "grad_norm": 4.639834880828857, "learning_rate": 9.166666666666667e-05, "loss": 2.5465, "step": 22 }, { "epoch": 0.2, "grad_norm": 4.179326057434082, "learning_rate": 0.0001, "loss": 2.0804, "step": 24 }, { "epoch": 0.21666666666666667, "grad_norm": 4.4850287437438965, "learning_rate": 0.00010833333333333333, "loss": 2.0512, "step": 26 }, { "epoch": 0.23333333333333334, "grad_norm": 5.006600379943848, "learning_rate": 0.00011666666666666668, "loss": 2.1484, "step": 28 }, { "epoch": 0.25, "grad_norm": 4.475966453552246, "learning_rate": 0.000125, "loss": 1.9871, "step": 30 }, { "epoch": 0.26666666666666666, "grad_norm": 4.605421543121338, "learning_rate": 0.00013333333333333334, "loss": 2.1455, "step": 32 }, { "epoch": 0.2833333333333333, "grad_norm": 4.921014785766602, "learning_rate": 0.00014166666666666668, "loss": 1.9162, "step": 34 }, { "epoch": 0.3, "grad_norm": 4.6443634033203125, "learning_rate": 0.00015000000000000001, "loss": 2.0503, "step": 36 }, { "epoch": 0.31666666666666665, "grad_norm": 4.234635353088379, "learning_rate": 0.00015833333333333332, "loss": 2.0901, "step": 38 }, { "epoch": 0.3333333333333333, "grad_norm": 4.628840446472168, "learning_rate": 0.0001666666666666667, "loss": 1.8014, "step": 40 }, { "epoch": 0.35, "grad_norm": 3.8235278129577637, "learning_rate": 0.000175, "loss": 1.8156, "step": 42 }, { "epoch": 0.36666666666666664, "grad_norm": 5.939589500427246, "learning_rate": 0.00018333333333333334, "loss": 1.7782, "step": 44 }, { "epoch": 0.38333333333333336, "grad_norm": 4.921348571777344, "learning_rate": 0.00019166666666666667, "loss": 1.7167, "step": 46 }, { "epoch": 0.4, "grad_norm": 4.549618244171143, "learning_rate": 0.0002, "loss": 2.2041, "step": 48 }, { "epoch": 0.4166666666666667, "grad_norm": 4.085502624511719, "learning_rate": 0.00019998942319271077, "loss": 1.8483, "step": 50 }, { "epoch": 0.43333333333333335, "grad_norm": 3.6243653297424316, "learning_rate": 0.0001999576950082201, "loss": 2.0321, "step": 52 }, { "epoch": 0.45, "grad_norm": 3.530813455581665, "learning_rate": 0.0001999048221581858, "loss": 1.819, "step": 54 }, { "epoch": 0.4666666666666667, "grad_norm": 3.175443649291992, "learning_rate": 0.00019983081582712685, "loss": 1.7011, "step": 56 }, { "epoch": 0.48333333333333334, "grad_norm": 3.0620853900909424, "learning_rate": 0.00019973569167005723, "loss": 1.6158, "step": 58 }, { "epoch": 0.5, "grad_norm": 3.984229564666748, "learning_rate": 0.00019961946980917456, "loss": 1.8606, "step": 60 }, { "epoch": 0.5166666666666667, "grad_norm": 3.717822313308716, "learning_rate": 0.0001994821748296033, "loss": 1.7937, "step": 62 }, { "epoch": 0.5333333333333333, "grad_norm": 4.549349308013916, "learning_rate": 0.00019932383577419432, "loss": 1.9389, "step": 64 }, { "epoch": 0.55, "grad_norm": 4.229006767272949, "learning_rate": 0.00019914448613738106, "loss": 1.5434, "step": 66 }, { "epoch": 0.5666666666666667, "grad_norm": 3.5755157470703125, "learning_rate": 0.00019894416385809444, "loss": 1.6555, "step": 68 }, { "epoch": 0.5833333333333334, "grad_norm": 3.2299246788024902, "learning_rate": 0.00019872291131173742, "loss": 1.7088, "step": 70 }, { "epoch": 0.6, "grad_norm": 3.777369260787964, "learning_rate": 0.00019848077530122083, "loss": 1.7569, "step": 72 }, { "epoch": 0.6166666666666667, "grad_norm": 3.143406629562378, "learning_rate": 0.00019821780704706307, "loss": 1.7495, "step": 74 }, { "epoch": 0.6333333333333333, "grad_norm": 3.655970811843872, "learning_rate": 0.00019793406217655517, "loss": 1.6553, "step": 76 }, { "epoch": 0.65, "grad_norm": 3.4324283599853516, "learning_rate": 0.00019762960071199333, "loss": 1.5155, "step": 78 }, { "epoch": 0.6666666666666666, "grad_norm": 3.7328310012817383, "learning_rate": 0.00019730448705798239, "loss": 1.8168, "step": 80 }, { "epoch": 0.6833333333333333, "grad_norm": 3.8750150203704834, "learning_rate": 0.0001969587899878116, "loss": 1.705, "step": 82 }, { "epoch": 0.7, "grad_norm": 4.362231254577637, "learning_rate": 0.00019659258262890683, "loss": 1.3282, "step": 84 }, { "epoch": 0.7166666666666667, "grad_norm": 3.3029322624206543, "learning_rate": 0.00019620594244736133, "loss": 1.4785, "step": 86 }, { "epoch": 0.7333333333333333, "grad_norm": 3.272670269012451, "learning_rate": 0.0001957989512315489, "loss": 1.7328, "step": 88 }, { "epoch": 0.75, "grad_norm": 4.447598457336426, "learning_rate": 0.0001953716950748227, "loss": 1.8185, "step": 90 }, { "epoch": 0.7666666666666667, "grad_norm": 2.942129373550415, "learning_rate": 0.0001949242643573034, "loss": 1.6651, "step": 92 }, { "epoch": 0.7833333333333333, "grad_norm": 3.0011799335479736, "learning_rate": 0.0001944567537267605, "loss": 1.8555, "step": 94 }, { "epoch": 0.8, "grad_norm": 3.2934067249298096, "learning_rate": 0.00019396926207859084, "loss": 1.5531, "step": 96 }, { "epoch": 0.8166666666666667, "grad_norm": 3.1889824867248535, "learning_rate": 0.00019346189253489885, "loss": 1.8412, "step": 98 }, { "epoch": 0.8333333333333334, "grad_norm": 2.921942949295044, "learning_rate": 0.00019293475242268223, "loss": 1.4985, "step": 100 }, { "epoch": 0.85, "grad_norm": 3.1884875297546387, "learning_rate": 0.0001923879532511287, "loss": 1.5736, "step": 102 }, { "epoch": 0.8666666666666667, "grad_norm": 3.4869801998138428, "learning_rate": 0.00019182161068802741, "loss": 1.4873, "step": 104 }, { "epoch": 0.8833333333333333, "grad_norm": 2.8857343196868896, "learning_rate": 0.00019123584453530144, "loss": 1.4827, "step": 106 }, { "epoch": 0.9, "grad_norm": 4.214871406555176, "learning_rate": 0.000190630778703665, "loss": 1.6214, "step": 108 }, { "epoch": 0.9166666666666666, "grad_norm": 3.495774984359741, "learning_rate": 0.00019000654118641211, "loss": 1.6193, "step": 110 }, { "epoch": 0.9333333333333333, "grad_norm": 3.5762667655944824, "learning_rate": 0.00018936326403234125, "loss": 1.5264, "step": 112 }, { "epoch": 0.95, "grad_norm": 3.465022563934326, "learning_rate": 0.00018870108331782217, "loss": 1.6963, "step": 114 }, { "epoch": 0.9666666666666667, "grad_norm": 3.743870973587036, "learning_rate": 0.00018802013911801112, "loss": 1.6291, "step": 116 }, { "epoch": 0.9833333333333333, "grad_norm": 4.362145900726318, "learning_rate": 0.0001873205754772196, "loss": 1.3957, "step": 118 }, { "epoch": 1.0, "grad_norm": 3.093210220336914, "learning_rate": 0.00018660254037844388, "loss": 1.5895, "step": 120 } ], "logging_steps": 2, "max_steps": 480, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 120, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3015894871572480.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }