whisper-large-v2-ec / trainer_state.json

End of training

52f5c2e verified 7 months ago

37 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 68.02721088435374,
	"eval_steps": 1000,
	"global_step": 5000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.3401360544217687,
	"grad_norm": 6.3686203956604,
	"learning_rate": 5.000000000000001e-07,
	"loss": 1.2352,
	"step": 25
	},
	{
	"epoch": 0.6802721088435374,
	"grad_norm": 4.156219959259033,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.7799,
	"step": 50
	},
	{
	"epoch": 1.0204081632653061,
	"grad_norm": 4.332057952880859,
	"learning_rate": 1.5e-06,
	"loss": 0.5115,
	"step": 75
	},
	{
	"epoch": 1.3605442176870748,
	"grad_norm": 3.7332186698913574,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.4105,
	"step": 100
	},
	{
	"epoch": 1.7006802721088436,
	"grad_norm": 3.6035523414611816,
	"learning_rate": 2.5e-06,
	"loss": 0.374,
	"step": 125
	},
	{
	"epoch": 2.0408163265306123,
	"grad_norm": 2.3493571281433105,
	"learning_rate": 3e-06,
	"loss": 0.3344,
	"step": 150
	},
	{
	"epoch": 2.380952380952381,
	"grad_norm": 3.0683202743530273,
	"learning_rate": 3.48e-06,
	"loss": 0.248,
	"step": 175
	},
	{
	"epoch": 2.7210884353741496,
	"grad_norm": 3.189012289047241,
	"learning_rate": 3.980000000000001e-06,
	"loss": 0.2395,
	"step": 200
	},
	{
	"epoch": 3.061224489795918,
	"grad_norm": 2.2101962566375732,
	"learning_rate": 4.48e-06,
	"loss": 0.2258,
	"step": 225
	},
	{
	"epoch": 3.4013605442176873,
	"grad_norm": 2.2124788761138916,
	"learning_rate": 4.980000000000001e-06,
	"loss": 0.1494,
	"step": 250
	},
	{
	"epoch": 3.741496598639456,
	"grad_norm": 3.446359395980835,
	"learning_rate": 5.480000000000001e-06,
	"loss": 0.1512,
	"step": 275
	},
	{
	"epoch": 4.081632653061225,
	"grad_norm": 2.592689037322998,
	"learning_rate": 5.98e-06,
	"loss": 0.1359,
	"step": 300
	},
	{
	"epoch": 4.421768707482993,
	"grad_norm": 3.1709280014038086,
	"learning_rate": 6.480000000000001e-06,
	"loss": 0.0859,
	"step": 325
	},
	{
	"epoch": 4.761904761904762,
	"grad_norm": 2.485269546508789,
	"learning_rate": 6.98e-06,
	"loss": 0.0958,
	"step": 350
	},
	{
	"epoch": 5.1020408163265305,
	"grad_norm": 1.868928074836731,
	"learning_rate": 7.48e-06,
	"loss": 0.0846,
	"step": 375
	},
	{
	"epoch": 5.442176870748299,
	"grad_norm": 3.283317804336548,
	"learning_rate": 7.980000000000002e-06,
	"loss": 0.0575,
	"step": 400
	},
	{
	"epoch": 5.782312925170068,
	"grad_norm": 2.18278431892395,
	"learning_rate": 8.48e-06,
	"loss": 0.075,
	"step": 425
	},
	{
	"epoch": 6.122448979591836,
	"grad_norm": 1.7689893245697021,
	"learning_rate": 8.98e-06,
	"loss": 0.0637,
	"step": 450
	},
	{
	"epoch": 6.462585034013605,
	"grad_norm": 2.60971736907959,
	"learning_rate": 9.48e-06,
	"loss": 0.0517,
	"step": 475
	},
	{
	"epoch": 6.802721088435375,
	"grad_norm": 1.903644323348999,
	"learning_rate": 9.980000000000001e-06,
	"loss": 0.0578,
	"step": 500
	},
	{
	"epoch": 7.142857142857143,
	"grad_norm": 1.4152497053146362,
	"learning_rate": 9.946666666666667e-06,
	"loss": 0.0565,
	"step": 525
	},
	{
	"epoch": 7.482993197278912,
	"grad_norm": 2.119438409805298,
	"learning_rate": 9.891111111111113e-06,
	"loss": 0.0436,
	"step": 550
	},
	{
	"epoch": 7.8231292517006805,
	"grad_norm": 1.8895118236541748,
	"learning_rate": 9.835555555555556e-06,
	"loss": 0.042,
	"step": 575
	},
	{
	"epoch": 8.16326530612245,
	"grad_norm": 1.7676234245300293,
	"learning_rate": 9.780000000000001e-06,
	"loss": 0.0351,
	"step": 600
	},
	{
	"epoch": 8.503401360544217,
	"grad_norm": 1.8845597505569458,
	"learning_rate": 9.724444444444445e-06,
	"loss": 0.0279,
	"step": 625
	},
	{
	"epoch": 8.843537414965986,
	"grad_norm": 9.495149612426758,
	"learning_rate": 9.66888888888889e-06,
	"loss": 0.031,
	"step": 650
	},
	{
	"epoch": 9.183673469387756,
	"grad_norm": 1.6925195455551147,
	"learning_rate": 9.613333333333335e-06,
	"loss": 0.0303,
	"step": 675
	},
	{
	"epoch": 9.523809523809524,
	"grad_norm": 1.4979898929595947,
	"learning_rate": 9.557777777777777e-06,
	"loss": 0.023,
	"step": 700
	},
	{
	"epoch": 9.863945578231293,
	"grad_norm": 2.2269773483276367,
	"learning_rate": 9.502222222222223e-06,
	"loss": 0.0261,
	"step": 725
	},
	{
	"epoch": 10.204081632653061,
	"grad_norm": 1.0259639024734497,
	"learning_rate": 9.446666666666667e-06,
	"loss": 0.0226,
	"step": 750
	},
	{
	"epoch": 10.54421768707483,
	"grad_norm": 1.9924999475479126,
	"learning_rate": 9.391111111111111e-06,
	"loss": 0.0205,
	"step": 775
	},
	{
	"epoch": 10.884353741496598,
	"grad_norm": 1.616970419883728,
	"learning_rate": 9.335555555555557e-06,
	"loss": 0.0199,
	"step": 800
	},
	{
	"epoch": 11.224489795918368,
	"grad_norm": 0.922492504119873,
	"learning_rate": 9.280000000000001e-06,
	"loss": 0.0161,
	"step": 825
	},
	{
	"epoch": 11.564625850340136,
	"grad_norm": 2.508662223815918,
	"learning_rate": 9.224444444444445e-06,
	"loss": 0.0145,
	"step": 850
	},
	{
	"epoch": 11.904761904761905,
	"grad_norm": 1.371565341949463,
	"learning_rate": 9.168888888888889e-06,
	"loss": 0.0179,
	"step": 875
	},
	{
	"epoch": 12.244897959183673,
	"grad_norm": 1.303175687789917,
	"learning_rate": 9.113333333333335e-06,
	"loss": 0.0155,
	"step": 900
	},
	{
	"epoch": 12.585034013605442,
	"grad_norm": 1.1102138757705688,
	"learning_rate": 9.057777777777779e-06,
	"loss": 0.012,
	"step": 925
	},
	{
	"epoch": 12.92517006802721,
	"grad_norm": 0.8504889011383057,
	"learning_rate": 9.002222222222223e-06,
	"loss": 0.0121,
	"step": 950
	},
	{
	"epoch": 13.26530612244898,
	"grad_norm": 0.8174204230308533,
	"learning_rate": 8.946666666666669e-06,
	"loss": 0.0106,
	"step": 975
	},
	{
	"epoch": 13.60544217687075,
	"grad_norm": 1.821559190750122,
	"learning_rate": 8.891111111111111e-06,
	"loss": 0.0112,
	"step": 1000
	},
	{
	"epoch": 13.60544217687075,
	"eval_loss": 0.39124733209609985,
	"eval_runtime": 93.6528,
	"eval_samples_per_second": 2.776,
	"eval_steps_per_second": 0.182,
	"eval_wer": 0.23946288698246923,
	"step": 1000
	},
	{
	"epoch": 13.945578231292517,
	"grad_norm": 1.2810653448104858,
	"learning_rate": 8.835555555555557e-06,
	"loss": 0.0111,
	"step": 1025
	},
	{
	"epoch": 14.285714285714286,
	"grad_norm": 1.2741467952728271,
	"learning_rate": 8.78e-06,
	"loss": 0.0097,
	"step": 1050
	},
	{
	"epoch": 14.625850340136054,
	"grad_norm": 0.8524342179298401,
	"learning_rate": 8.724444444444445e-06,
	"loss": 0.0076,
	"step": 1075
	},
	{
	"epoch": 14.965986394557824,
	"grad_norm": 1.643485426902771,
	"learning_rate": 8.66888888888889e-06,
	"loss": 0.0074,
	"step": 1100
	},
	{
	"epoch": 15.306122448979592,
	"grad_norm": 0.40055137872695923,
	"learning_rate": 8.613333333333333e-06,
	"loss": 0.007,
	"step": 1125
	},
	{
	"epoch": 15.646258503401361,
	"grad_norm": 1.1712241172790527,
	"learning_rate": 8.557777777777778e-06,
	"loss": 0.0072,
	"step": 1150
	},
	{
	"epoch": 15.986394557823129,
	"grad_norm": 0.32212740182876587,
	"learning_rate": 8.502222222222223e-06,
	"loss": 0.007,
	"step": 1175
	},
	{
	"epoch": 16.3265306122449,
	"grad_norm": 0.2166888266801834,
	"learning_rate": 8.446666666666668e-06,
	"loss": 0.0054,
	"step": 1200
	},
	{
	"epoch": 16.666666666666668,
	"grad_norm": 0.12256942689418793,
	"learning_rate": 8.391111111111112e-06,
	"loss": 0.0039,
	"step": 1225
	},
	{
	"epoch": 17.006802721088434,
	"grad_norm": 0.26391106843948364,
	"learning_rate": 8.335555555555556e-06,
	"loss": 0.0042,
	"step": 1250
	},
	{
	"epoch": 17.346938775510203,
	"grad_norm": 0.24293136596679688,
	"learning_rate": 8.28e-06,
	"loss": 0.0036,
	"step": 1275
	},
	{
	"epoch": 17.687074829931973,
	"grad_norm": 0.27556732296943665,
	"learning_rate": 8.224444444444444e-06,
	"loss": 0.0028,
	"step": 1300
	},
	{
	"epoch": 18.027210884353742,
	"grad_norm": 0.9470342397689819,
	"learning_rate": 8.16888888888889e-06,
	"loss": 0.0042,
	"step": 1325
	},
	{
	"epoch": 18.367346938775512,
	"grad_norm": 0.14824901521205902,
	"learning_rate": 8.113333333333334e-06,
	"loss": 0.0036,
	"step": 1350
	},
	{
	"epoch": 18.707482993197278,
	"grad_norm": 1.2378164529800415,
	"learning_rate": 8.057777777777778e-06,
	"loss": 0.0046,
	"step": 1375
	},
	{
	"epoch": 19.047619047619047,
	"grad_norm": 2.7857964038848877,
	"learning_rate": 8.002222222222222e-06,
	"loss": 0.004,
	"step": 1400
	},
	{
	"epoch": 19.387755102040817,
	"grad_norm": 0.5624294281005859,
	"learning_rate": 7.946666666666666e-06,
	"loss": 0.0073,
	"step": 1425
	},
	{
	"epoch": 19.727891156462587,
	"grad_norm": 0.18347227573394775,
	"learning_rate": 7.891111111111112e-06,
	"loss": 0.0058,
	"step": 1450
	},
	{
	"epoch": 20.068027210884352,
	"grad_norm": 0.3734131455421448,
	"learning_rate": 7.835555555555556e-06,
	"loss": 0.0066,
	"step": 1475
	},
	{
	"epoch": 20.408163265306122,
	"grad_norm": 0.6362162828445435,
	"learning_rate": 7.78e-06,
	"loss": 0.0075,
	"step": 1500
	},
	{
	"epoch": 20.74829931972789,
	"grad_norm": 0.8834488391876221,
	"learning_rate": 7.724444444444446e-06,
	"loss": 0.0057,
	"step": 1525
	},
	{
	"epoch": 21.08843537414966,
	"grad_norm": 0.06029968708753586,
	"learning_rate": 7.66888888888889e-06,
	"loss": 0.0038,
	"step": 1550
	},
	{
	"epoch": 21.428571428571427,
	"grad_norm": 1.0105019807815552,
	"learning_rate": 7.613333333333334e-06,
	"loss": 0.0039,
	"step": 1575
	},
	{
	"epoch": 21.768707482993197,
	"grad_norm": 0.5381556153297424,
	"learning_rate": 7.557777777777779e-06,
	"loss": 0.0036,
	"step": 1600
	},
	{
	"epoch": 22.108843537414966,
	"grad_norm": 0.08822619915008545,
	"learning_rate": 7.502222222222223e-06,
	"loss": 0.004,
	"step": 1625
	},
	{
	"epoch": 22.448979591836736,
	"grad_norm": 0.43402913212776184,
	"learning_rate": 7.446666666666668e-06,
	"loss": 0.0029,
	"step": 1650
	},
	{
	"epoch": 22.7891156462585,
	"grad_norm": 0.9147214293479919,
	"learning_rate": 7.3911111111111125e-06,
	"loss": 0.0024,
	"step": 1675
	},
	{
	"epoch": 23.12925170068027,
	"grad_norm": 0.48390820622444153,
	"learning_rate": 7.335555555555556e-06,
	"loss": 0.0036,
	"step": 1700
	},
	{
	"epoch": 23.46938775510204,
	"grad_norm": 0.10725089907646179,
	"learning_rate": 7.280000000000001e-06,
	"loss": 0.0023,
	"step": 1725
	},
	{
	"epoch": 23.80952380952381,
	"grad_norm": 0.09872180968523026,
	"learning_rate": 7.224444444444445e-06,
	"loss": 0.0018,
	"step": 1750
	},
	{
	"epoch": 24.14965986394558,
	"grad_norm": 0.6679806113243103,
	"learning_rate": 7.1688888888888895e-06,
	"loss": 0.0017,
	"step": 1775
	},
	{
	"epoch": 24.489795918367346,
	"grad_norm": 0.02364278770983219,
	"learning_rate": 7.113333333333334e-06,
	"loss": 0.001,
	"step": 1800
	},
	{
	"epoch": 24.829931972789115,
	"grad_norm": 0.02158285863697529,
	"learning_rate": 7.057777777777778e-06,
	"loss": 0.0008,
	"step": 1825
	},
	{
	"epoch": 25.170068027210885,
	"grad_norm": 0.014277754351496696,
	"learning_rate": 7.0022222222222225e-06,
	"loss": 0.0007,
	"step": 1850
	},
	{
	"epoch": 25.510204081632654,
	"grad_norm": 0.012241716496646404,
	"learning_rate": 6.946666666666667e-06,
	"loss": 0.0005,
	"step": 1875
	},
	{
	"epoch": 25.85034013605442,
	"grad_norm": 0.02822299115359783,
	"learning_rate": 6.891111111111111e-06,
	"loss": 0.0005,
	"step": 1900
	},
	{
	"epoch": 26.19047619047619,
	"grad_norm": 0.009908878244459629,
	"learning_rate": 6.835555555555556e-06,
	"loss": 0.0004,
	"step": 1925
	},
	{
	"epoch": 26.53061224489796,
	"grad_norm": 0.008494613692164421,
	"learning_rate": 6.780000000000001e-06,
	"loss": 0.0004,
	"step": 1950
	},
	{
	"epoch": 26.87074829931973,
	"grad_norm": 0.007728059310466051,
	"learning_rate": 6.724444444444444e-06,
	"loss": 0.0004,
	"step": 1975
	},
	{
	"epoch": 27.2108843537415,
	"grad_norm": 0.007557597942650318,
	"learning_rate": 6.668888888888889e-06,
	"loss": 0.0004,
	"step": 2000
	},
	{
	"epoch": 27.2108843537415,
	"eval_loss": 0.45324987173080444,
	"eval_runtime": 93.804,
	"eval_samples_per_second": 2.772,
	"eval_steps_per_second": 0.181,
	"eval_wer": 0.2245430809399478,
	"step": 2000
	},
	{
	"epoch": 27.551020408163264,
	"grad_norm": 0.009665679186582565,
	"learning_rate": 6.613333333333334e-06,
	"loss": 0.0004,
	"step": 2025
	},
	{
	"epoch": 27.891156462585034,
	"grad_norm": 0.006815009750425816,
	"learning_rate": 6.557777777777778e-06,
	"loss": 0.0004,
	"step": 2050
	},
	{
	"epoch": 28.231292517006803,
	"grad_norm": 0.007364605087786913,
	"learning_rate": 6.502222222222223e-06,
	"loss": 0.0003,
	"step": 2075
	},
	{
	"epoch": 28.571428571428573,
	"grad_norm": 0.006635705474764109,
	"learning_rate": 6.446666666666668e-06,
	"loss": 0.0003,
	"step": 2100
	},
	{
	"epoch": 28.91156462585034,
	"grad_norm": 0.008073186501860619,
	"learning_rate": 6.391111111111111e-06,
	"loss": 0.0003,
	"step": 2125
	},
	{
	"epoch": 29.25170068027211,
	"grad_norm": 0.006342068314552307,
	"learning_rate": 6.335555555555556e-06,
	"loss": 0.0003,
	"step": 2150
	},
	{
	"epoch": 29.591836734693878,
	"grad_norm": 0.006897253915667534,
	"learning_rate": 6.280000000000001e-06,
	"loss": 0.0003,
	"step": 2175
	},
	{
	"epoch": 29.931972789115648,
	"grad_norm": 0.006329766474664211,
	"learning_rate": 6.224444444444445e-06,
	"loss": 0.0003,
	"step": 2200
	},
	{
	"epoch": 30.272108843537413,
	"grad_norm": 0.006696599069982767,
	"learning_rate": 6.16888888888889e-06,
	"loss": 0.0003,
	"step": 2225
	},
	{
	"epoch": 30.612244897959183,
	"grad_norm": 0.0058494312688708305,
	"learning_rate": 6.113333333333333e-06,
	"loss": 0.0003,
	"step": 2250
	},
	{
	"epoch": 30.952380952380953,
	"grad_norm": 0.005851502064615488,
	"learning_rate": 6.057777777777778e-06,
	"loss": 0.0003,
	"step": 2275
	},
	{
	"epoch": 31.292517006802722,
	"grad_norm": 0.0047736396081745625,
	"learning_rate": 6.002222222222223e-06,
	"loss": 0.0003,
	"step": 2300
	},
	{
	"epoch": 31.632653061224488,
	"grad_norm": 0.006324047688394785,
	"learning_rate": 5.946666666666668e-06,
	"loss": 0.0003,
	"step": 2325
	},
	{
	"epoch": 31.972789115646258,
	"grad_norm": 0.005418767221271992,
	"learning_rate": 5.891111111111112e-06,
	"loss": 0.0003,
	"step": 2350
	},
	{
	"epoch": 32.31292517006803,
	"grad_norm": 0.005563849117606878,
	"learning_rate": 5.8355555555555565e-06,
	"loss": 0.0003,
	"step": 2375
	},
	{
	"epoch": 32.6530612244898,
	"grad_norm": 0.005108444020152092,
	"learning_rate": 5.78e-06,
	"loss": 0.0002,
	"step": 2400
	},
	{
	"epoch": 32.993197278911566,
	"grad_norm": 0.004787669517099857,
	"learning_rate": 5.724444444444445e-06,
	"loss": 0.0003,
	"step": 2425
	},
	{
	"epoch": 33.333333333333336,
	"grad_norm": 0.004051292315125465,
	"learning_rate": 5.6688888888888895e-06,
	"loss": 0.0002,
	"step": 2450
	},
	{
	"epoch": 33.673469387755105,
	"grad_norm": 0.005220952443778515,
	"learning_rate": 5.613333333333334e-06,
	"loss": 0.0002,
	"step": 2475
	},
	{
	"epoch": 34.01360544217687,
	"grad_norm": 0.0054339151829481125,
	"learning_rate": 5.557777777777778e-06,
	"loss": 0.0002,
	"step": 2500
	},
	{
	"epoch": 34.35374149659864,
	"grad_norm": 0.004454713314771652,
	"learning_rate": 5.5022222222222224e-06,
	"loss": 0.0002,
	"step": 2525
	},
	{
	"epoch": 34.69387755102041,
	"grad_norm": 0.005186771042644978,
	"learning_rate": 5.4466666666666665e-06,
	"loss": 0.0002,
	"step": 2550
	},
	{
	"epoch": 35.034013605442176,
	"grad_norm": 0.004502983298152685,
	"learning_rate": 5.391111111111111e-06,
	"loss": 0.0002,
	"step": 2575
	},
	{
	"epoch": 35.374149659863946,
	"grad_norm": 0.004623442888259888,
	"learning_rate": 5.335555555555556e-06,
	"loss": 0.0002,
	"step": 2600
	},
	{
	"epoch": 35.714285714285715,
	"grad_norm": 0.00428406847640872,
	"learning_rate": 5.28e-06,
	"loss": 0.0002,
	"step": 2625
	},
	{
	"epoch": 36.054421768707485,
	"grad_norm": 0.004207184072583914,
	"learning_rate": 5.224444444444445e-06,
	"loss": 0.0002,
	"step": 2650
	},
	{
	"epoch": 36.394557823129254,
	"grad_norm": 0.004264296032488346,
	"learning_rate": 5.168888888888889e-06,
	"loss": 0.0002,
	"step": 2675
	},
	{
	"epoch": 36.734693877551024,
	"grad_norm": 0.0045384918339550495,
	"learning_rate": 5.113333333333333e-06,
	"loss": 0.0002,
	"step": 2700
	},
	{
	"epoch": 37.074829931972786,
	"grad_norm": 0.0036523097660392523,
	"learning_rate": 5.057777777777778e-06,
	"loss": 0.0002,
	"step": 2725
	},
	{
	"epoch": 37.414965986394556,
	"grad_norm": 0.003838042262941599,
	"learning_rate": 5.002222222222223e-06,
	"loss": 0.0002,
	"step": 2750
	},
	{
	"epoch": 37.755102040816325,
	"grad_norm": 0.0043487842194736,
	"learning_rate": 4.946666666666667e-06,
	"loss": 0.0002,
	"step": 2775
	},
	{
	"epoch": 38.095238095238095,
	"grad_norm": 0.004179787822067738,
	"learning_rate": 4.891111111111111e-06,
	"loss": 0.0002,
	"step": 2800
	},
	{
	"epoch": 38.435374149659864,
	"grad_norm": 0.0036503339651972055,
	"learning_rate": 4.835555555555556e-06,
	"loss": 0.0002,
	"step": 2825
	},
	{
	"epoch": 38.775510204081634,
	"grad_norm": 0.0033976498525589705,
	"learning_rate": 4.78e-06,
	"loss": 0.0002,
	"step": 2850
	},
	{
	"epoch": 39.1156462585034,
	"grad_norm": 0.0038732371758669615,
	"learning_rate": 4.724444444444445e-06,
	"loss": 0.0002,
	"step": 2875
	},
	{
	"epoch": 39.45578231292517,
	"grad_norm": 0.003690896322950721,
	"learning_rate": 4.66888888888889e-06,
	"loss": 0.0002,
	"step": 2900
	},
	{
	"epoch": 39.795918367346935,
	"grad_norm": 0.005354354623705149,
	"learning_rate": 4.613333333333334e-06,
	"loss": 0.0002,
	"step": 2925
	},
	{
	"epoch": 40.136054421768705,
	"grad_norm": 0.0036710058338940144,
	"learning_rate": 4.557777777777778e-06,
	"loss": 0.0002,
	"step": 2950
	},
	{
	"epoch": 40.476190476190474,
	"grad_norm": 0.005290627479553223,
	"learning_rate": 4.502222222222223e-06,
	"loss": 0.0002,
	"step": 2975
	},
	{
	"epoch": 40.816326530612244,
	"grad_norm": 0.003753775032237172,
	"learning_rate": 4.446666666666667e-06,
	"loss": 0.0002,
	"step": 3000
	},
	{
	"epoch": 40.816326530612244,
	"eval_loss": 0.4882185459136963,
	"eval_runtime": 93.7044,
	"eval_samples_per_second": 2.775,
	"eval_steps_per_second": 0.181,
	"eval_wer": 0.2174561730697501,
	"step": 3000
	},
	{
	"epoch": 41.156462585034014,
	"grad_norm": 0.004405771382153034,
	"learning_rate": 4.391111111111112e-06,
	"loss": 0.0002,
	"step": 3025
	},
	{
	"epoch": 41.49659863945578,
	"grad_norm": 0.0036535647232085466,
	"learning_rate": 4.3355555555555565e-06,
	"loss": 0.0002,
	"step": 3050
	},
	{
	"epoch": 41.83673469387755,
	"grad_norm": 0.0036972814705222845,
	"learning_rate": 4.2800000000000005e-06,
	"loss": 0.0002,
	"step": 3075
	},
	{
	"epoch": 42.17687074829932,
	"grad_norm": 0.004110525827854872,
	"learning_rate": 4.2244444444444446e-06,
	"loss": 0.0002,
	"step": 3100
	},
	{
	"epoch": 42.51700680272109,
	"grad_norm": 0.0035640313290059566,
	"learning_rate": 4.168888888888889e-06,
	"loss": 0.0002,
	"step": 3125
	},
	{
	"epoch": 42.857142857142854,
	"grad_norm": 0.004424062091857195,
	"learning_rate": 4.1133333333333335e-06,
	"loss": 0.0002,
	"step": 3150
	},
	{
	"epoch": 43.197278911564624,
	"grad_norm": 0.0032335869036614895,
	"learning_rate": 4.057777777777778e-06,
	"loss": 0.0002,
	"step": 3175
	},
	{
	"epoch": 43.53741496598639,
	"grad_norm": 0.0037836297415196896,
	"learning_rate": 4.002222222222222e-06,
	"loss": 0.0002,
	"step": 3200
	},
	{
	"epoch": 43.87755102040816,
	"grad_norm": 0.003560603130608797,
	"learning_rate": 3.946666666666667e-06,
	"loss": 0.0002,
	"step": 3225
	},
	{
	"epoch": 44.21768707482993,
	"grad_norm": 0.003510043490678072,
	"learning_rate": 3.891111111111111e-06,
	"loss": 0.0002,
	"step": 3250
	},
	{
	"epoch": 44.5578231292517,
	"grad_norm": 0.0028691268526017666,
	"learning_rate": 3.835555555555555e-06,
	"loss": 0.0002,
	"step": 3275
	},
	{
	"epoch": 44.89795918367347,
	"grad_norm": 0.0031337698455899954,
	"learning_rate": 3.7800000000000002e-06,
	"loss": 0.0001,
	"step": 3300
	},
	{
	"epoch": 45.23809523809524,
	"grad_norm": 0.00317736086435616,
	"learning_rate": 3.724444444444445e-06,
	"loss": 0.0001,
	"step": 3325
	},
	{
	"epoch": 45.578231292517,
	"grad_norm": 0.0029643489979207516,
	"learning_rate": 3.668888888888889e-06,
	"loss": 0.0002,
	"step": 3350
	},
	{
	"epoch": 45.91836734693877,
	"grad_norm": 0.003078688168898225,
	"learning_rate": 3.6133333333333336e-06,
	"loss": 0.0001,
	"step": 3375
	},
	{
	"epoch": 46.25850340136054,
	"grad_norm": 0.003043568693101406,
	"learning_rate": 3.5577777777777785e-06,
	"loss": 0.0001,
	"step": 3400
	},
	{
	"epoch": 46.59863945578231,
	"grad_norm": 0.003218689002096653,
	"learning_rate": 3.5022222222222225e-06,
	"loss": 0.0001,
	"step": 3425
	},
	{
	"epoch": 46.93877551020408,
	"grad_norm": 0.003266324056312442,
	"learning_rate": 3.446666666666667e-06,
	"loss": 0.0001,
	"step": 3450
	},
	{
	"epoch": 47.27891156462585,
	"grad_norm": 0.003477707039564848,
	"learning_rate": 3.391111111111111e-06,
	"loss": 0.0001,
	"step": 3475
	},
	{
	"epoch": 47.61904761904762,
	"grad_norm": 0.0027373475022614002,
	"learning_rate": 3.335555555555556e-06,
	"loss": 0.0001,
	"step": 3500
	},
	{
	"epoch": 47.95918367346939,
	"grad_norm": 0.002786448458209634,
	"learning_rate": 3.2800000000000004e-06,
	"loss": 0.0001,
	"step": 3525
	},
	{
	"epoch": 48.29931972789116,
	"grad_norm": 0.002394324168562889,
	"learning_rate": 3.2244444444444444e-06,
	"loss": 0.0001,
	"step": 3550
	},
	{
	"epoch": 48.63945578231292,
	"grad_norm": 0.003250208217650652,
	"learning_rate": 3.1688888888888893e-06,
	"loss": 0.0001,
	"step": 3575
	},
	{
	"epoch": 48.97959183673469,
	"grad_norm": 0.0029996377415955067,
	"learning_rate": 3.1133333333333337e-06,
	"loss": 0.0001,
	"step": 3600
	},
	{
	"epoch": 49.31972789115646,
	"grad_norm": 0.0026746434159576893,
	"learning_rate": 3.0577777777777778e-06,
	"loss": 0.0001,
	"step": 3625
	},
	{
	"epoch": 49.65986394557823,
	"grad_norm": 0.00262379739433527,
	"learning_rate": 3.0022222222222227e-06,
	"loss": 0.0001,
	"step": 3650
	},
	{
	"epoch": 50.0,
	"grad_norm": 0.0029098980594426394,
	"learning_rate": 2.946666666666667e-06,
	"loss": 0.0001,
	"step": 3675
	},
	{
	"epoch": 50.34013605442177,
	"grad_norm": 0.002616139827296138,
	"learning_rate": 2.891111111111111e-06,
	"loss": 0.0001,
	"step": 3700
	},
	{
	"epoch": 50.68027210884354,
	"grad_norm": 0.0029571950435638428,
	"learning_rate": 2.835555555555556e-06,
	"loss": 0.0001,
	"step": 3725
	},
	{
	"epoch": 51.02040816326531,
	"grad_norm": 0.0027916007675230503,
	"learning_rate": 2.7800000000000005e-06,
	"loss": 0.0001,
	"step": 3750
	},
	{
	"epoch": 51.36054421768708,
	"grad_norm": 0.002735557733103633,
	"learning_rate": 2.7244444444444445e-06,
	"loss": 0.0001,
	"step": 3775
	},
	{
	"epoch": 51.70068027210884,
	"grad_norm": 0.0023191324435174465,
	"learning_rate": 2.6688888888888894e-06,
	"loss": 0.0001,
	"step": 3800
	},
	{
	"epoch": 52.04081632653061,
	"grad_norm": 0.0034847650676965714,
	"learning_rate": 2.6133333333333334e-06,
	"loss": 0.0001,
	"step": 3825
	},
	{
	"epoch": 52.38095238095238,
	"grad_norm": 0.002770556602627039,
	"learning_rate": 2.557777777777778e-06,
	"loss": 0.0001,
	"step": 3850
	},
	{
	"epoch": 52.72108843537415,
	"grad_norm": 0.0030505817849189043,
	"learning_rate": 2.5022222222222224e-06,
	"loss": 0.0001,
	"step": 3875
	},
	{
	"epoch": 53.06122448979592,
	"grad_norm": 0.003404865274205804,
	"learning_rate": 2.446666666666667e-06,
	"loss": 0.0001,
	"step": 3900
	},
	{
	"epoch": 53.40136054421769,
	"grad_norm": 0.0026544102001935244,
	"learning_rate": 2.3911111111111113e-06,
	"loss": 0.0001,
	"step": 3925
	},
	{
	"epoch": 53.74149659863946,
	"grad_norm": 0.00271439622156322,
	"learning_rate": 2.3355555555555557e-06,
	"loss": 0.0001,
	"step": 3950
	},
	{
	"epoch": 54.08163265306123,
	"grad_norm": 0.0033124638721346855,
	"learning_rate": 2.28e-06,
	"loss": 0.0001,
	"step": 3975
	},
	{
	"epoch": 54.421768707483,
	"grad_norm": 0.0025922644417732954,
	"learning_rate": 2.2244444444444447e-06,
	"loss": 0.0001,
	"step": 4000
	},
	{
	"epoch": 54.421768707483,
	"eval_loss": 0.5051469206809998,
	"eval_runtime": 95.0455,
	"eval_samples_per_second": 2.736,
	"eval_steps_per_second": 0.179,
	"eval_wer": 0.21484520701230883,
	"step": 4000
	},
	{
	"epoch": 54.76190476190476,
	"grad_norm": 0.0020597511902451515,
	"learning_rate": 2.168888888888889e-06,
	"loss": 0.0001,
	"step": 4025
	},
	{
	"epoch": 55.10204081632653,
	"grad_norm": 0.002817349275574088,
	"learning_rate": 2.1133333333333336e-06,
	"loss": 0.0001,
	"step": 4050
	},
	{
	"epoch": 55.4421768707483,
	"grad_norm": 0.003287636674940586,
	"learning_rate": 2.057777777777778e-06,
	"loss": 0.0001,
	"step": 4075
	},
	{
	"epoch": 55.78231292517007,
	"grad_norm": 0.00247744913212955,
	"learning_rate": 2.0022222222222225e-06,
	"loss": 0.0001,
	"step": 4100
	},
	{
	"epoch": 56.12244897959184,
	"grad_norm": 0.003431103890761733,
	"learning_rate": 1.9466666666666665e-06,
	"loss": 0.0001,
	"step": 4125
	},
	{
	"epoch": 56.46258503401361,
	"grad_norm": 0.0024367747828364372,
	"learning_rate": 1.8911111111111114e-06,
	"loss": 0.0001,
	"step": 4150
	},
	{
	"epoch": 56.802721088435376,
	"grad_norm": 0.0022823926992714405,
	"learning_rate": 1.8355555555555557e-06,
	"loss": 0.0001,
	"step": 4175
	},
	{
	"epoch": 57.142857142857146,
	"grad_norm": 0.0022000963799655437,
	"learning_rate": 1.7800000000000001e-06,
	"loss": 0.0001,
	"step": 4200
	},
	{
	"epoch": 57.48299319727891,
	"grad_norm": 0.0023311020340770483,
	"learning_rate": 1.7244444444444448e-06,
	"loss": 0.0001,
	"step": 4225
	},
	{
	"epoch": 57.82312925170068,
	"grad_norm": 0.002466644160449505,
	"learning_rate": 1.668888888888889e-06,
	"loss": 0.0001,
	"step": 4250
	},
	{
	"epoch": 58.16326530612245,
	"grad_norm": 0.0023317814338952303,
	"learning_rate": 1.6133333333333335e-06,
	"loss": 0.0001,
	"step": 4275
	},
	{
	"epoch": 58.50340136054422,
	"grad_norm": 0.0034895280841737986,
	"learning_rate": 1.5577777777777777e-06,
	"loss": 0.0001,
	"step": 4300
	},
	{
	"epoch": 58.843537414965986,
	"grad_norm": 0.002141441684216261,
	"learning_rate": 1.5022222222222224e-06,
	"loss": 0.0001,
	"step": 4325
	},
	{
	"epoch": 59.183673469387756,
	"grad_norm": 0.0023929886519908905,
	"learning_rate": 1.4466666666666669e-06,
	"loss": 0.0001,
	"step": 4350
	},
	{
	"epoch": 59.523809523809526,
	"grad_norm": 0.002914367476478219,
	"learning_rate": 1.3911111111111111e-06,
	"loss": 0.0001,
	"step": 4375
	},
	{
	"epoch": 59.863945578231295,
	"grad_norm": 0.0023239688016474247,
	"learning_rate": 1.3355555555555558e-06,
	"loss": 0.0001,
	"step": 4400
	},
	{
	"epoch": 60.204081632653065,
	"grad_norm": 0.00241728313267231,
	"learning_rate": 1.28e-06,
	"loss": 0.0001,
	"step": 4425
	},
	{
	"epoch": 60.54421768707483,
	"grad_norm": 0.0032376388553529978,
	"learning_rate": 1.2244444444444445e-06,
	"loss": 0.0001,
	"step": 4450
	},
	{
	"epoch": 60.8843537414966,
	"grad_norm": 0.003632117761299014,
	"learning_rate": 1.168888888888889e-06,
	"loss": 0.0001,
	"step": 4475
	},
	{
	"epoch": 61.224489795918366,
	"grad_norm": 0.002522936789318919,
	"learning_rate": 1.1133333333333334e-06,
	"loss": 0.0001,
	"step": 4500
	},
	{
	"epoch": 61.564625850340136,
	"grad_norm": 0.002181953750550747,
	"learning_rate": 1.0577777777777779e-06,
	"loss": 0.0001,
	"step": 4525
	},
	{
	"epoch": 61.904761904761905,
	"grad_norm": 0.0020987866446375847,
	"learning_rate": 1.0022222222222223e-06,
	"loss": 0.0001,
	"step": 4550
	},
	{
	"epoch": 62.244897959183675,
	"grad_norm": 0.002102503553032875,
	"learning_rate": 9.466666666666667e-07,
	"loss": 0.0001,
	"step": 4575
	},
	{
	"epoch": 62.585034013605444,
	"grad_norm": 0.0019837727304548025,
	"learning_rate": 8.911111111111112e-07,
	"loss": 0.0001,
	"step": 4600
	},
	{
	"epoch": 62.925170068027214,
	"grad_norm": 0.002303441520780325,
	"learning_rate": 8.355555555555556e-07,
	"loss": 0.0001,
	"step": 4625
	},
	{
	"epoch": 63.265306122448976,
	"grad_norm": 0.007395027671009302,
	"learning_rate": 7.8e-07,
	"loss": 0.0001,
	"step": 4650
	},
	{
	"epoch": 63.605442176870746,
	"grad_norm": 0.002733208704739809,
	"learning_rate": 7.244444444444446e-07,
	"loss": 0.0001,
	"step": 4675
	},
	{
	"epoch": 63.945578231292515,
	"grad_norm": 0.0020845523104071617,
	"learning_rate": 6.68888888888889e-07,
	"loss": 0.0001,
	"step": 4700
	},
	{
	"epoch": 64.28571428571429,
	"grad_norm": 0.0019409642554819584,
	"learning_rate": 6.133333333333333e-07,
	"loss": 0.0001,
	"step": 4725
	},
	{
	"epoch": 64.62585034013605,
	"grad_norm": 0.00258248602040112,
	"learning_rate": 5.577777777777779e-07,
	"loss": 0.0001,
	"step": 4750
	},
	{
	"epoch": 64.96598639455782,
	"grad_norm": 0.0025006316136568785,
	"learning_rate": 5.022222222222222e-07,
	"loss": 0.0001,
	"step": 4775
	},
	{
	"epoch": 65.3061224489796,
	"grad_norm": 0.0022064538206905127,
	"learning_rate": 4.466666666666667e-07,
	"loss": 0.0001,
	"step": 4800
	},
	{
	"epoch": 65.64625850340136,
	"grad_norm": 0.002108414890244603,
	"learning_rate": 3.9111111111111115e-07,
	"loss": 0.0001,
	"step": 4825
	},
	{
	"epoch": 65.98639455782313,
	"grad_norm": 0.0021663971710950136,
	"learning_rate": 3.3555555555555556e-07,
	"loss": 0.0001,
	"step": 4850
	},
	{
	"epoch": 66.3265306122449,
	"grad_norm": 0.00204038736410439,
	"learning_rate": 2.8e-07,
	"loss": 0.0001,
	"step": 4875
	},
	{
	"epoch": 66.66666666666667,
	"grad_norm": 0.0022622975520789623,
	"learning_rate": 2.2444444444444445e-07,
	"loss": 0.0001,
	"step": 4900
	},
	{
	"epoch": 67.00680272108843,
	"grad_norm": 0.0033368293661624193,
	"learning_rate": 1.6888888888888888e-07,
	"loss": 0.0001,
	"step": 4925
	},
	{
	"epoch": 67.34693877551021,
	"grad_norm": 0.0019737225957214832,
	"learning_rate": 1.1333333333333336e-07,
	"loss": 0.0001,
	"step": 4950
	},
	{
	"epoch": 67.68707482993197,
	"grad_norm": 0.0019130747532472014,
	"learning_rate": 5.777777777777778e-08,
	"loss": 0.0001,
	"step": 4975
	},
	{
	"epoch": 68.02721088435374,
	"grad_norm": 0.002000050852075219,
	"learning_rate": 2.2222222222222225e-09,
	"loss": 0.0001,
	"step": 5000
	},
	{
	"epoch": 68.02721088435374,
	"eval_loss": 0.5118595957756042,
	"eval_runtime": 95.0278,
	"eval_samples_per_second": 2.736,
	"eval_steps_per_second": 0.179,
	"eval_wer": 0.21671018276762402,
	"step": 5000
	},
	{
	"epoch": 68.02721088435374,
	"step": 5000,
	"total_flos": 3.378304801456128e+20,
	"train_loss": 0.03018118931162171,
	"train_runtime": 39486.7724,
	"train_samples_per_second": 4.052,
	"train_steps_per_second": 0.127
	}
	],
	"logging_steps": 25,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 69,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.378304801456128e+20,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}