Pilot upload model

Files changed (8) hide show

config.json +27 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1392 -0
training_args.bin +3 -0
vocab.json +40 -0

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "CharformerCanineForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 57344,
+  "downsampling_rate": 4,
+  "eos_token_id": 57345,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "local_transformer_stride": 128,
+  "max_position_embeddings": 8192,
+  "model_type": "canine",
+  "num_attention_heads": 12,
+  "num_hash_buckets": 16384,
+  "num_hash_functions": 8,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 16,
+  "upsampling_kernel_size": 4
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b8d5e7defa3bb7447bd9eedbef1f4852a13022f15fcbfa173686e753a85cf69
+size 672028372

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7b6cc2190aadcd81bbc3eaddc951628233b4035dee3cb318053540c2b77545a
+size 1343934394

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37d757ac9c2d5c69612efde0b2b22a68716680c3c656e7357dfc113bda7d2c16
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3f1070a2eef2a82940f83b69df038625150109802c9e6194c52bbb3a83738d6
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1392 @@

+{
+  "best_metric": 1.253760576248169,
+  "best_model_checkpoint": "/scratch/gpfs/BG11/char-model/model-bert-poisson-8-40-6/checkpoint-136000",
+  "epoch": 17.586712261846603,
+  "eval_steps": 1600,
+  "global_step": 144000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.19540791402051783,
+      "grad_norm": 1.625885009765625,
+      "learning_rate": 8e-05,
+      "loss": 2.5749,
+      "step": 1600
+    },
+    {
+      "epoch": 0.19540791402051783,
+      "eval_loss": 2.3774666786193848,
+      "eval_runtime": 298.5469,
+      "eval_samples_per_second": 97.512,
+      "eval_steps_per_second": 3.048,
+      "step": 1600
+    },
+    {
+      "epoch": 0.39081582804103565,
+      "grad_norm": 0.8488170504570007,
+      "learning_rate": 0.00016,
+      "loss": 2.2601,
+      "step": 3200
+    },
+    {
+      "epoch": 0.39081582804103565,
+      "eval_loss": 2.149146556854248,
+      "eval_runtime": 300.9001,
+      "eval_samples_per_second": 96.75,
+      "eval_steps_per_second": 3.024,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5862237420615535,
+      "grad_norm": 0.5805169939994812,
+      "learning_rate": 0.00019999866987765926,
+      "loss": 2.0869,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5862237420615535,
+      "eval_loss": 1.9857689142227173,
+      "eval_runtime": 302.3017,
+      "eval_samples_per_second": 96.301,
+      "eval_steps_per_second": 3.01,
+      "step": 4800
+    },
+    {
+      "epoch": 0.7816316560820713,
+      "grad_norm": 0.5337192416191101,
+      "learning_rate": 0.00019998802911123915,
+      "loss": 1.9358,
+      "step": 6400
+    },
+    {
+      "epoch": 0.7816316560820713,
+      "eval_loss": 1.848819375038147,
+      "eval_runtime": 301.7129,
+      "eval_samples_per_second": 96.489,
+      "eval_steps_per_second": 3.016,
+      "step": 6400
+    },
+    {
+      "epoch": 0.9770395701025891,
+      "grad_norm": 0.4780266582965851,
+      "learning_rate": 0.00019996674871067315,
+      "loss": 1.8373,
+      "step": 8000
+    },
+    {
+      "epoch": 0.9770395701025891,
+      "eval_loss": 1.7604480981826782,
+      "eval_runtime": 300.9966,
+      "eval_samples_per_second": 96.719,
+      "eval_steps_per_second": 3.023,
+      "step": 8000
+    },
+    {
+      "epoch": 1.172447484123107,
+      "grad_norm": 0.5359878540039062,
+      "learning_rate": 0.00019993483094038903,
+      "loss": 1.7727,
+      "step": 9600
+    },
+    {
+      "epoch": 1.172447484123107,
+      "eval_loss": 1.7120583057403564,
+      "eval_runtime": 299.9109,
+      "eval_samples_per_second": 97.069,
+      "eval_steps_per_second": 3.034,
+      "step": 9600
+    },
+    {
+      "epoch": 1.3678553981436248,
+      "grad_norm": 0.4940620958805084,
+      "learning_rate": 0.00019989227919672739,
+      "loss": 1.7294,
+      "step": 11200
+    },
+    {
+      "epoch": 1.3678553981436248,
+      "eval_loss": 1.6716843843460083,
+      "eval_runtime": 299.2126,
+      "eval_samples_per_second": 97.295,
+      "eval_steps_per_second": 3.041,
+      "step": 11200
+    },
+    {
+      "epoch": 1.5632633121641426,
+      "grad_norm": 0.5147853493690491,
+      "learning_rate": 0.00019983909800758013,
+      "loss": 1.6983,
+      "step": 12800
+    },
+    {
+      "epoch": 1.5632633121641426,
+      "eval_loss": 1.641959547996521,
+      "eval_runtime": 300.5666,
+      "eval_samples_per_second": 96.857,
+      "eval_steps_per_second": 3.028,
+      "step": 12800
+    },
+    {
+      "epoch": 1.7586712261846604,
+      "grad_norm": 0.5310506224632263,
+      "learning_rate": 0.00019977529303190857,
+      "loss": 1.6747,
+      "step": 14400
+    },
+    {
+      "epoch": 1.7586712261846604,
+      "eval_loss": 1.6203954219818115,
+      "eval_runtime": 300.0477,
+      "eval_samples_per_second": 97.025,
+      "eval_steps_per_second": 3.033,
+      "step": 14400
+    },
+    {
+      "epoch": 1.9540791402051783,
+      "grad_norm": 0.4827495217323303,
+      "learning_rate": 0.00019970087105914149,
+      "loss": 1.6552,
+      "step": 16000
+    },
+    {
+      "epoch": 1.9540791402051783,
+      "eval_loss": 1.601967453956604,
+      "eval_runtime": 300.6761,
+      "eval_samples_per_second": 96.822,
+      "eval_steps_per_second": 3.027,
+      "step": 16000
+    },
+    {
+      "epoch": 2.149487054225696,
+      "grad_norm": 0.4954521059989929,
+      "learning_rate": 0.00019961584000845246,
+      "loss": 1.6395,
+      "step": 17600
+    },
+    {
+      "epoch": 2.149487054225696,
+      "eval_loss": 1.5862133502960205,
+      "eval_runtime": 300.6495,
+      "eval_samples_per_second": 96.83,
+      "eval_steps_per_second": 3.027,
+      "step": 17600
+    },
+    {
+      "epoch": 2.344894968246214,
+      "grad_norm": 0.4911385774612427,
+      "learning_rate": 0.0001995202089279174,
+      "loss": 1.6257,
+      "step": 19200
+    },
+    {
+      "epoch": 2.344894968246214,
+      "eval_loss": 1.5702714920043945,
+      "eval_runtime": 306.9568,
+      "eval_samples_per_second": 94.841,
+      "eval_steps_per_second": 2.965,
+      "step": 19200
+    },
+    {
+      "epoch": 2.5403028822667317,
+      "grad_norm": 0.45583975315093994,
+      "learning_rate": 0.00019941398799355154,
+      "loss": 1.6117,
+      "step": 20800
+    },
+    {
+      "epoch": 2.5403028822667317,
+      "eval_loss": 1.5601564645767212,
+      "eval_runtime": 301.2474,
+      "eval_samples_per_second": 96.638,
+      "eval_steps_per_second": 3.021,
+      "step": 20800
+    },
+    {
+      "epoch": 2.7357107962872496,
+      "grad_norm": 0.5245973467826843,
+      "learning_rate": 0.0001992971885082267,
+      "loss": 1.6017,
+      "step": 22400
+    },
+    {
+      "epoch": 2.7357107962872496,
+      "eval_loss": 1.5462692975997925,
+      "eval_runtime": 301.6505,
+      "eval_samples_per_second": 96.509,
+      "eval_steps_per_second": 3.017,
+      "step": 22400
+    },
+    {
+      "epoch": 2.9311187103077674,
+      "grad_norm": 0.493741899728775,
+      "learning_rate": 0.00019916982290046862,
+      "loss": 1.5912,
+      "step": 24000
+    },
+    {
+      "epoch": 2.9311187103077674,
+      "eval_loss": 1.5401358604431152,
+      "eval_runtime": 302.9493,
+      "eval_samples_per_second": 96.095,
+      "eval_steps_per_second": 3.004,
+      "step": 24000
+    },
+    {
+      "epoch": 3.126526624328285,
+      "grad_norm": 0.4630887508392334,
+      "learning_rate": 0.00019903190472313442,
+      "loss": 1.5825,
+      "step": 25600
+    },
+    {
+      "epoch": 3.126526624328285,
+      "eval_loss": 1.5268443822860718,
+      "eval_runtime": 301.4955,
+      "eval_samples_per_second": 96.559,
+      "eval_steps_per_second": 3.018,
+      "step": 25600
+    },
+    {
+      "epoch": 3.321934538348803,
+      "grad_norm": 0.5509243607521057,
+      "learning_rate": 0.00019888344865197035,
+      "loss": 1.5726,
+      "step": 27200
+    },
+    {
+      "epoch": 3.321934538348803,
+      "eval_loss": 1.5196540355682373,
+      "eval_runtime": 302.2439,
+      "eval_samples_per_second": 96.32,
+      "eval_steps_per_second": 3.011,
+      "step": 27200
+    },
+    {
+      "epoch": 3.517342452369321,
+      "grad_norm": 0.48226454854011536,
+      "learning_rate": 0.00019872447048405038,
+      "loss": 1.5639,
+      "step": 28800
+    },
+    {
+      "epoch": 3.517342452369321,
+      "eval_loss": 1.5111724138259888,
+      "eval_runtime": 301.4854,
+      "eval_samples_per_second": 96.562,
+      "eval_steps_per_second": 3.018,
+      "step": 28800
+    },
+    {
+      "epoch": 3.7127503663898387,
+      "grad_norm": 0.48784202337265015,
+      "learning_rate": 0.000198554987136095,
+      "loss": 1.5578,
+      "step": 30400
+    },
+    {
+      "epoch": 3.7127503663898387,
+      "eval_loss": 1.5028311014175415,
+      "eval_runtime": 301.2879,
+      "eval_samples_per_second": 96.625,
+      "eval_steps_per_second": 3.02,
+      "step": 30400
+    },
+    {
+      "epoch": 3.9081582804103565,
+      "grad_norm": 0.48312318325042725,
+      "learning_rate": 0.00019837501664267122,
+      "loss": 1.5478,
+      "step": 32000
+    },
+    {
+      "epoch": 3.9081582804103565,
+      "eval_loss": 1.4959152936935425,
+      "eval_runtime": 302.3152,
+      "eval_samples_per_second": 96.297,
+      "eval_steps_per_second": 3.01,
+      "step": 32000
+    },
+    {
+      "epoch": 4.103566194430875,
+      "grad_norm": 0.5100678205490112,
+      "learning_rate": 0.00019818457815427363,
+      "loss": 1.5432,
+      "step": 33600
+    },
+    {
+      "epoch": 4.103566194430875,
+      "eval_loss": 1.4902896881103516,
+      "eval_runtime": 301.7246,
+      "eval_samples_per_second": 96.485,
+      "eval_steps_per_second": 3.016,
+      "step": 33600
+    },
+    {
+      "epoch": 4.298974108451392,
+      "grad_norm": 0.5082967281341553,
+      "learning_rate": 0.0001979836919352865,
+      "loss": 1.5352,
+      "step": 35200
+    },
+    {
+      "epoch": 4.298974108451392,
+      "eval_loss": 1.481536865234375,
+      "eval_runtime": 302.2386,
+      "eval_samples_per_second": 96.321,
+      "eval_steps_per_second": 3.011,
+      "step": 35200
+    },
+    {
+      "epoch": 4.49438202247191,
+      "grad_norm": 0.5865819454193115,
+      "learning_rate": 0.00019777237936182752,
+      "loss": 1.529,
+      "step": 36800
+    },
+    {
+      "epoch": 4.49438202247191,
+      "eval_loss": 1.4760839939117432,
+      "eval_runtime": 299.641,
+      "eval_samples_per_second": 97.156,
+      "eval_steps_per_second": 3.037,
+      "step": 36800
+    },
+    {
+      "epoch": 4.689789936492428,
+      "grad_norm": 0.5084565281867981,
+      "learning_rate": 0.0001975506629194731,
+      "loss": 1.5246,
+      "step": 38400
+    },
+    {
+      "epoch": 4.689789936492428,
+      "eval_loss": 1.4718716144561768,
+      "eval_runtime": 301.7942,
+      "eval_samples_per_second": 96.463,
+      "eval_steps_per_second": 3.015,
+      "step": 38400
+    },
+    {
+      "epoch": 4.885197850512946,
+      "grad_norm": 0.48439186811447144,
+      "learning_rate": 0.00019731856620086577,
+      "loss": 1.5167,
+      "step": 40000
+    },
+    {
+      "epoch": 4.885197850512946,
+      "eval_loss": 1.461747407913208,
+      "eval_runtime": 301.8139,
+      "eval_samples_per_second": 96.457,
+      "eval_steps_per_second": 3.015,
+      "step": 40000
+    },
+    {
+      "epoch": 5.0806057645334635,
+      "grad_norm": 0.5047476291656494,
+      "learning_rate": 0.00019707611390320376,
+      "loss": 1.5132,
+      "step": 41600
+    },
+    {
+      "epoch": 5.0806057645334635,
+      "eval_loss": 1.4583326578140259,
+      "eval_runtime": 302.9405,
+      "eval_samples_per_second": 96.098,
+      "eval_steps_per_second": 3.004,
+      "step": 41600
+    },
+    {
+      "epoch": 5.276013678553982,
+      "grad_norm": 0.527972400188446,
+      "learning_rate": 0.00019682333182561294,
+      "loss": 1.5058,
+      "step": 43200
+    },
+    {
+      "epoch": 5.276013678553982,
+      "eval_loss": 1.4508299827575684,
+      "eval_runtime": 300.6487,
+      "eval_samples_per_second": 96.831,
+      "eval_steps_per_second": 3.027,
+      "step": 43200
+    },
+    {
+      "epoch": 5.471421592574499,
+      "grad_norm": 0.552556037902832,
+      "learning_rate": 0.00019656024686640145,
+      "loss": 1.5001,
+      "step": 44800
+    },
+    {
+      "epoch": 5.471421592574499,
+      "eval_loss": 1.4448612928390503,
+      "eval_runtime": 302.9753,
+      "eval_samples_per_second": 96.087,
+      "eval_steps_per_second": 3.004,
+      "step": 44800
+    },
+    {
+      "epoch": 5.666829506595017,
+      "grad_norm": 0.5316394567489624,
+      "learning_rate": 0.00019628688702019766,
+      "loss": 1.4957,
+      "step": 46400
+    },
+    {
+      "epoch": 5.666829506595017,
+      "eval_loss": 1.442055106163025,
+      "eval_runtime": 303.7156,
+      "eval_samples_per_second": 95.853,
+      "eval_steps_per_second": 2.996,
+      "step": 46400
+    },
+    {
+      "epoch": 5.862237420615535,
+      "grad_norm": 0.5309541821479797,
+      "learning_rate": 0.00019600328137497124,
+      "loss": 1.4907,
+      "step": 48000
+    },
+    {
+      "epoch": 5.862237420615535,
+      "eval_loss": 1.4324734210968018,
+      "eval_runtime": 302.3405,
+      "eval_samples_per_second": 96.289,
+      "eval_steps_per_second": 3.01,
+      "step": 48000
+    },
+    {
+      "epoch": 6.057645334636053,
+      "grad_norm": 0.5399070382118225,
+      "learning_rate": 0.00019570946010893784,
+      "loss": 1.4837,
+      "step": 49600
+    },
+    {
+      "epoch": 6.057645334636053,
+      "eval_loss": 1.4305429458618164,
+      "eval_runtime": 301.5863,
+      "eval_samples_per_second": 96.53,
+      "eval_steps_per_second": 3.017,
+      "step": 49600
+    },
+    {
+      "epoch": 6.25305324865657,
+      "grad_norm": 0.5402235984802246,
+      "learning_rate": 0.00019540545448734793,
+      "loss": 1.4811,
+      "step": 51200
+    },
+    {
+      "epoch": 6.25305324865657,
+      "eval_loss": 1.4219143390655518,
+      "eval_runtime": 303.2406,
+      "eval_samples_per_second": 96.003,
+      "eval_steps_per_second": 3.001,
+      "step": 51200
+    },
+    {
+      "epoch": 6.448461162677089,
+      "grad_norm": 0.55650794506073,
+      "learning_rate": 0.0001950912968591599,
+      "loss": 1.4753,
+      "step": 52800
+    },
+    {
+      "epoch": 6.448461162677089,
+      "eval_loss": 1.4181432723999023,
+      "eval_runtime": 302.5931,
+      "eval_samples_per_second": 96.208,
+      "eval_steps_per_second": 3.007,
+      "step": 52800
+    },
+    {
+      "epoch": 6.643869076697606,
+      "grad_norm": 0.5735125541687012,
+      "learning_rate": 0.00019476702065359777,
+      "loss": 1.4705,
+      "step": 54400
+    },
+    {
+      "epoch": 6.643869076697606,
+      "eval_loss": 1.412484049797058,
+      "eval_runtime": 302.3997,
+      "eval_samples_per_second": 96.27,
+      "eval_steps_per_second": 3.009,
+      "step": 54400
+    },
+    {
+      "epoch": 6.839276990718124,
+      "grad_norm": 0.5550875663757324,
+      "learning_rate": 0.00019443266037659414,
+      "loss": 1.4643,
+      "step": 56000
+    },
+    {
+      "epoch": 6.839276990718124,
+      "eval_loss": 1.4064202308654785,
+      "eval_runtime": 302.9964,
+      "eval_samples_per_second": 96.08,
+      "eval_steps_per_second": 3.003,
+      "step": 56000
+    },
+    {
+      "epoch": 7.034684904738642,
+      "grad_norm": 0.5448424816131592,
+      "learning_rate": 0.0001940882516071183,
+      "loss": 1.4613,
+      "step": 57600
+    },
+    {
+      "epoch": 7.034684904738642,
+      "eval_loss": 1.4077355861663818,
+      "eval_runtime": 303.24,
+      "eval_samples_per_second": 96.003,
+      "eval_steps_per_second": 3.001,
+      "step": 57600
+    },
+    {
+      "epoch": 7.23009281875916,
+      "grad_norm": 1.5539180040359497,
+      "learning_rate": 0.0001937338309933905,
+      "loss": 1.4569,
+      "step": 59200
+    },
+    {
+      "epoch": 7.23009281875916,
+      "eval_loss": 1.395965576171875,
+      "eval_runtime": 303.3347,
+      "eval_samples_per_second": 95.973,
+      "eval_steps_per_second": 3.0,
+      "step": 59200
+    },
+    {
+      "epoch": 7.425500732779677,
+      "grad_norm": 0.6510924100875854,
+      "learning_rate": 0.00019336943624898188,
+      "loss": 1.4538,
+      "step": 60800
+    },
+    {
+      "epoch": 7.425500732779677,
+      "eval_loss": 1.392043948173523,
+      "eval_runtime": 302.9215,
+      "eval_samples_per_second": 96.104,
+      "eval_steps_per_second": 3.004,
+      "step": 60800
+    },
+    {
+      "epoch": 7.620908646800196,
+      "grad_norm": 0.5581135749816895,
+      "learning_rate": 0.00019299510614880188,
+      "loss": 1.4493,
+      "step": 62400
+    },
+    {
+      "epoch": 7.620908646800196,
+      "eval_loss": 1.3903777599334717,
+      "eval_runtime": 302.9269,
+      "eval_samples_per_second": 96.102,
+      "eval_steps_per_second": 3.004,
+      "step": 62400
+    },
+    {
+      "epoch": 7.816316560820713,
+      "grad_norm": 0.5998221635818481,
+      "learning_rate": 0.0001926108805249719,
+      "loss": 1.4446,
+      "step": 64000
+    },
+    {
+      "epoch": 7.816316560820713,
+      "eval_loss": 1.3837889432907104,
+      "eval_runtime": 304.2648,
+      "eval_samples_per_second": 95.68,
+      "eval_steps_per_second": 2.991,
+      "step": 64000
+    },
+    {
+      "epoch": 8.01172447484123,
+      "grad_norm": 0.5717023611068726,
+      "learning_rate": 0.00019221680026258696,
+      "loss": 1.4412,
+      "step": 65600
+    },
+    {
+      "epoch": 8.01172447484123,
+      "eval_loss": 1.3832969665527344,
+      "eval_runtime": 301.7245,
+      "eval_samples_per_second": 96.485,
+      "eval_steps_per_second": 3.016,
+      "step": 65600
+    },
+    {
+      "epoch": 8.20713238886175,
+      "grad_norm": 0.5847379565238953,
+      "learning_rate": 0.00019181290729536498,
+      "loss": 1.4356,
+      "step": 67200
+    },
+    {
+      "epoch": 8.20713238886175,
+      "eval_loss": 1.3785265684127808,
+      "eval_runtime": 302.1175,
+      "eval_samples_per_second": 96.36,
+      "eval_steps_per_second": 3.012,
+      "step": 67200
+    },
+    {
+      "epoch": 8.402540302882267,
+      "grad_norm": 0.5757031440734863,
+      "learning_rate": 0.00019139924460118493,
+      "loss": 1.4341,
+      "step": 68800
+    },
+    {
+      "epoch": 8.402540302882267,
+      "eval_loss": 1.3699066638946533,
+      "eval_runtime": 302.1407,
+      "eval_samples_per_second": 96.352,
+      "eval_steps_per_second": 3.012,
+      "step": 68800
+    },
+    {
+      "epoch": 8.597948216902784,
+      "grad_norm": 0.5937355756759644,
+      "learning_rate": 0.00019097585619751327,
+      "loss": 1.4299,
+      "step": 70400
+    },
+    {
+      "epoch": 8.597948216902784,
+      "eval_loss": 1.369952917098999,
+      "eval_runtime": 303.4574,
+      "eval_samples_per_second": 95.934,
+      "eval_steps_per_second": 2.999,
+      "step": 70400
+    },
+    {
+      "epoch": 8.793356130923302,
+      "grad_norm": 0.5975669026374817,
+      "learning_rate": 0.0001905427871367204,
+      "loss": 1.4258,
+      "step": 72000
+    },
+    {
+      "epoch": 8.793356130923302,
+      "eval_loss": 1.3648322820663452,
+      "eval_runtime": 301.2306,
+      "eval_samples_per_second": 96.644,
+      "eval_steps_per_second": 3.021,
+      "step": 72000
+    },
+    {
+      "epoch": 8.98876404494382,
+      "grad_norm": 0.5752926468849182,
+      "learning_rate": 0.0001901000835012864,
+      "loss": 1.4224,
+      "step": 73600
+    },
+    {
+      "epoch": 8.98876404494382,
+      "eval_loss": 1.3601535558700562,
+      "eval_runtime": 303.0894,
+      "eval_samples_per_second": 96.051,
+      "eval_steps_per_second": 3.002,
+      "step": 73600
+    },
+    {
+      "epoch": 9.184171958964338,
+      "grad_norm": 0.6413553953170776,
+      "learning_rate": 0.00018964779239889773,
+      "loss": 1.4177,
+      "step": 75200
+    },
+    {
+      "epoch": 9.184171958964338,
+      "eval_loss": 1.3571267127990723,
+      "eval_runtime": 303.6449,
+      "eval_samples_per_second": 95.875,
+      "eval_steps_per_second": 2.997,
+      "step": 75200
+    },
+    {
+      "epoch": 9.379579872984856,
+      "grad_norm": 0.5888953804969788,
+      "learning_rate": 0.00018918596195743423,
+      "loss": 1.4132,
+      "step": 76800
+    },
+    {
+      "epoch": 9.379579872984856,
+      "eval_loss": 1.3555368185043335,
+      "eval_runtime": 303.0212,
+      "eval_samples_per_second": 96.072,
+      "eval_steps_per_second": 3.003,
+      "step": 76800
+    },
+    {
+      "epoch": 9.574987787005373,
+      "grad_norm": 0.5846399068832397,
+      "learning_rate": 0.00018871464131984812,
+      "loss": 1.4115,
+      "step": 78400
+    },
+    {
+      "epoch": 9.574987787005373,
+      "eval_loss": 1.351682424545288,
+      "eval_runtime": 301.666,
+      "eval_samples_per_second": 96.504,
+      "eval_steps_per_second": 3.017,
+      "step": 78400
+    },
+    {
+      "epoch": 9.770395701025892,
+      "grad_norm": 0.5651088356971741,
+      "learning_rate": 0.00018823388063893463,
+      "loss": 1.4063,
+      "step": 80000
+    },
+    {
+      "epoch": 9.770395701025892,
+      "eval_loss": 1.3469018936157227,
+      "eval_runtime": 302.588,
+      "eval_samples_per_second": 96.21,
+      "eval_steps_per_second": 3.007,
+      "step": 80000
+    },
+    {
+      "epoch": 9.96580361504641,
+      "grad_norm": 0.6031789779663086,
+      "learning_rate": 0.0001877437310719953,
+      "loss": 1.4051,
+      "step": 81600
+    },
+    {
+      "epoch": 9.96580361504641,
+      "eval_loss": 1.3414509296417236,
+      "eval_runtime": 303.5963,
+      "eval_samples_per_second": 95.89,
+      "eval_steps_per_second": 2.997,
+      "step": 81600
+    },
+    {
+      "epoch": 10.161211529066927,
+      "grad_norm": 0.590973436832428,
+      "learning_rate": 0.0001872442447753944,
+      "loss": 1.4015,
+      "step": 83200
+    },
+    {
+      "epoch": 10.161211529066927,
+      "eval_loss": 1.338657021522522,
+      "eval_runtime": 303.3238,
+      "eval_samples_per_second": 95.977,
+      "eval_steps_per_second": 3.0,
+      "step": 83200
+    },
+    {
+      "epoch": 10.356619443087444,
+      "grad_norm": 0.5765738487243652,
+      "learning_rate": 0.00018673547489900903,
+      "loss": 1.3958,
+      "step": 84800
+    },
+    {
+      "epoch": 10.356619443087444,
+      "eval_loss": 1.3355753421783447,
+      "eval_runtime": 304.6713,
+      "eval_samples_per_second": 95.552,
+      "eval_steps_per_second": 2.987,
+      "step": 84800
+    },
+    {
+      "epoch": 10.552027357107963,
+      "grad_norm": 0.6162442564964294,
+      "learning_rate": 0.0001862174755805734,
+      "loss": 1.3941,
+      "step": 86400
+    },
+    {
+      "epoch": 10.552027357107963,
+      "eval_loss": 1.3380048274993896,
+      "eval_runtime": 299.1545,
+      "eval_samples_per_second": 97.314,
+      "eval_steps_per_second": 3.042,
+      "step": 86400
+    },
+    {
+      "epoch": 10.74743527112848,
+      "grad_norm": 0.603529155254364,
+      "learning_rate": 0.00018569030193991824,
+      "loss": 1.3931,
+      "step": 88000
+    },
+    {
+      "epoch": 10.74743527112848,
+      "eval_loss": 1.3301184177398682,
+      "eval_runtime": 300.4881,
+      "eval_samples_per_second": 96.882,
+      "eval_steps_per_second": 3.028,
+      "step": 88000
+    },
+    {
+      "epoch": 10.942843185148998,
+      "grad_norm": 0.6515778303146362,
+      "learning_rate": 0.00018515401007310545,
+      "loss": 1.3908,
+      "step": 89600
+    },
+    {
+      "epoch": 10.942843185148998,
+      "eval_loss": 1.3274894952774048,
+      "eval_runtime": 299.2351,
+      "eval_samples_per_second": 97.288,
+      "eval_steps_per_second": 3.041,
+      "step": 89600
+    },
+    {
+      "epoch": 11.138251099169516,
+      "grad_norm": 0.6225696802139282,
+      "learning_rate": 0.0001846086570464589,
+      "loss": 1.3859,
+      "step": 91200
+    },
+    {
+      "epoch": 11.138251099169516,
+      "eval_loss": 1.3219366073608398,
+      "eval_runtime": 302.9021,
+      "eval_samples_per_second": 96.11,
+      "eval_steps_per_second": 3.004,
+      "step": 91200
+    },
+    {
+      "epoch": 11.333659013190035,
+      "grad_norm": 0.5966556668281555,
+      "learning_rate": 0.00018405430089049225,
+      "loss": 1.3827,
+      "step": 92800
+    },
+    {
+      "epoch": 11.333659013190035,
+      "eval_loss": 1.3229053020477295,
+      "eval_runtime": 300.6313,
+      "eval_samples_per_second": 96.836,
+      "eval_steps_per_second": 3.027,
+      "step": 92800
+    },
+    {
+      "epoch": 11.529066927210552,
+      "grad_norm": 0.6005491018295288,
+      "learning_rate": 0.00018349100059373376,
+      "loss": 1.3809,
+      "step": 94400
+    },
+    {
+      "epoch": 11.529066927210552,
+      "eval_loss": 1.3205610513687134,
+      "eval_runtime": 300.6005,
+      "eval_samples_per_second": 96.846,
+      "eval_steps_per_second": 3.027,
+      "step": 94400
+    },
+    {
+      "epoch": 11.72447484123107,
+      "grad_norm": 0.6213588118553162,
+      "learning_rate": 0.0001829188160964496,
+      "loss": 1.3787,
+      "step": 96000
+    },
+    {
+      "epoch": 11.72447484123107,
+      "eval_loss": 1.3154388666152954,
+      "eval_runtime": 300.5081,
+      "eval_samples_per_second": 96.876,
+      "eval_steps_per_second": 3.028,
+      "step": 96000
+    },
+    {
+      "epoch": 11.919882755251587,
+      "grad_norm": 0.6372265815734863,
+      "learning_rate": 0.00018233780828426542,
+      "loss": 1.377,
+      "step": 97600
+    },
+    {
+      "epoch": 11.919882755251587,
+      "eval_loss": 1.309466004371643,
+      "eval_runtime": 300.2931,
+      "eval_samples_per_second": 96.945,
+      "eval_steps_per_second": 3.03,
+      "step": 97600
+    },
+    {
+      "epoch": 12.115290669272106,
+      "grad_norm": 0.6187195181846619,
+      "learning_rate": 0.00018174803898168777,
+      "loss": 1.3732,
+      "step": 99200
+    },
+    {
+      "epoch": 12.115290669272106,
+      "eval_loss": 1.310389518737793,
+      "eval_runtime": 299.2779,
+      "eval_samples_per_second": 97.274,
+      "eval_steps_per_second": 3.041,
+      "step": 99200
+    },
+    {
+      "epoch": 12.310698583292623,
+      "grad_norm": 0.6071161031723022,
+      "learning_rate": 0.00018114957094552523,
+      "loss": 1.3702,
+      "step": 100800
+    },
+    {
+      "epoch": 12.310698583292623,
+      "eval_loss": 1.307545781135559,
+      "eval_runtime": 299.8136,
+      "eval_samples_per_second": 97.1,
+      "eval_steps_per_second": 3.035,
+      "step": 100800
+    },
+    {
+      "epoch": 12.50610649731314,
+      "grad_norm": 0.6208259463310242,
+      "learning_rate": 0.00018054246785821078,
+      "loss": 1.3668,
+      "step": 102400
+    },
+    {
+      "epoch": 12.50610649731314,
+      "eval_loss": 1.3037943840026855,
+      "eval_runtime": 299.5482,
+      "eval_samples_per_second": 97.186,
+      "eval_steps_per_second": 3.038,
+      "step": 102400
+    },
+    {
+      "epoch": 12.701514411333658,
+      "grad_norm": 0.6110426783561707,
+      "learning_rate": 0.00017992679432102506,
+      "loss": 1.3652,
+      "step": 104000
+    },
+    {
+      "epoch": 12.701514411333658,
+      "eval_loss": 1.300758957862854,
+      "eval_runtime": 299.4587,
+      "eval_samples_per_second": 97.215,
+      "eval_steps_per_second": 3.039,
+      "step": 104000
+    },
+    {
+      "epoch": 12.896922325354177,
+      "grad_norm": 0.6031249165534973,
+      "learning_rate": 0.00017930261584722255,
+      "loss": 1.3634,
+      "step": 105600
+    },
+    {
+      "epoch": 12.896922325354177,
+      "eval_loss": 1.3003898859024048,
+      "eval_runtime": 299.2607,
+      "eval_samples_per_second": 97.28,
+      "eval_steps_per_second": 3.041,
+      "step": 105600
+    },
+    {
+      "epoch": 13.092330239374695,
+      "grad_norm": 0.6582902073860168,
+      "learning_rate": 0.00017866999885506006,
+      "loss": 1.3596,
+      "step": 107200
+    },
+    {
+      "epoch": 13.092330239374695,
+      "eval_loss": 1.296651840209961,
+      "eval_runtime": 299.2176,
+      "eval_samples_per_second": 97.294,
+      "eval_steps_per_second": 3.041,
+      "step": 107200
+    },
+    {
+      "epoch": 13.287738153395212,
+      "grad_norm": 0.6084394454956055,
+      "learning_rate": 0.0001780290106607295,
+      "loss": 1.3561,
+      "step": 108800
+    },
+    {
+      "epoch": 13.287738153395212,
+      "eval_loss": 1.2946128845214844,
+      "eval_runtime": 299.3364,
+      "eval_samples_per_second": 97.255,
+      "eval_steps_per_second": 3.04,
+      "step": 108800
+    },
+    {
+      "epoch": 13.48314606741573,
+      "grad_norm": 0.6387963891029358,
+      "learning_rate": 0.00017737971947119464,
+      "loss": 1.356,
+      "step": 110400
+    },
+    {
+      "epoch": 13.48314606741573,
+      "eval_loss": 1.2931010723114014,
+      "eval_runtime": 299.6825,
+      "eval_samples_per_second": 97.143,
+      "eval_steps_per_second": 3.037,
+      "step": 110400
+    },
+    {
+      "epoch": 13.678553981436249,
+      "grad_norm": 0.6506748795509338,
+      "learning_rate": 0.0001767221943769333,
+      "loss": 1.3535,
+      "step": 112000
+    },
+    {
+      "epoch": 13.678553981436249,
+      "eval_loss": 1.2935413122177124,
+      "eval_runtime": 300.4732,
+      "eval_samples_per_second": 96.887,
+      "eval_steps_per_second": 3.029,
+      "step": 112000
+    },
+    {
+      "epoch": 13.873961895456766,
+      "grad_norm": 0.6671594381332397,
+      "learning_rate": 0.00017605650534458563,
+      "loss": 1.3525,
+      "step": 113600
+    },
+    {
+      "epoch": 13.873961895456766,
+      "eval_loss": 1.2838852405548096,
+      "eval_runtime": 301.0026,
+      "eval_samples_per_second": 96.717,
+      "eval_steps_per_second": 3.023,
+      "step": 113600
+    },
+    {
+      "epoch": 14.069369809477283,
+      "grad_norm": 0.641699492931366,
+      "learning_rate": 0.00017538272320950877,
+      "loss": 1.351,
+      "step": 115200
+    },
+    {
+      "epoch": 14.069369809477283,
+      "eval_loss": 1.2850172519683838,
+      "eval_runtime": 297.7381,
+      "eval_samples_per_second": 97.777,
+      "eval_steps_per_second": 3.056,
+      "step": 115200
+    },
+    {
+      "epoch": 14.2647777234978,
+      "grad_norm": 0.6370243430137634,
+      "learning_rate": 0.00017470091966823956,
+      "loss": 1.3454,
+      "step": 116800
+    },
+    {
+      "epoch": 14.2647777234978,
+      "eval_loss": 1.282619595527649,
+      "eval_runtime": 298.9037,
+      "eval_samples_per_second": 97.396,
+      "eval_steps_per_second": 3.044,
+      "step": 116800
+    },
+    {
+      "epoch": 14.46018563751832,
+      "grad_norm": 0.6368069052696228,
+      "learning_rate": 0.0001740111672708653,
+      "loss": 1.3445,
+      "step": 118400
+    },
+    {
+      "epoch": 14.46018563751832,
+      "eval_loss": 1.2800363302230835,
+      "eval_runtime": 299.6166,
+      "eval_samples_per_second": 97.164,
+      "eval_steps_per_second": 3.037,
+      "step": 118400
+    },
+    {
+      "epoch": 14.655593551538837,
+      "grad_norm": 0.6394317746162415,
+      "learning_rate": 0.00017331353941330374,
+      "loss": 1.3424,
+      "step": 120000
+    },
+    {
+      "epoch": 14.655593551538837,
+      "eval_loss": 1.276292324066162,
+      "eval_runtime": 299.8446,
+      "eval_samples_per_second": 97.09,
+      "eval_steps_per_second": 3.035,
+      "step": 120000
+    },
+    {
+      "epoch": 14.851001465559355,
+      "grad_norm": 0.6235024333000183,
+      "learning_rate": 0.00017260811032949298,
+      "loss": 1.3403,
+      "step": 121600
+    },
+    {
+      "epoch": 14.851001465559355,
+      "eval_loss": 1.2750403881072998,
+      "eval_runtime": 309.7947,
+      "eval_samples_per_second": 93.972,
+      "eval_steps_per_second": 2.937,
+      "step": 121600
+    },
+    {
+      "epoch": 15.046409379579872,
+      "grad_norm": 0.6494990587234497,
+      "learning_rate": 0.00017189495508349267,
+      "loss": 1.338,
+      "step": 123200
+    },
+    {
+      "epoch": 15.046409379579872,
+      "eval_loss": 1.272656798362732,
+      "eval_runtime": 299.5465,
+      "eval_samples_per_second": 97.187,
+      "eval_steps_per_second": 3.038,
+      "step": 123200
+    },
+    {
+      "epoch": 15.241817293600391,
+      "grad_norm": 0.7587939500808716,
+      "learning_rate": 0.00017117414956149607,
+      "loss": 1.3345,
+      "step": 124800
+    },
+    {
+      "epoch": 15.241817293600391,
+      "eval_loss": 1.2698956727981567,
+      "eval_runtime": 299.7933,
+      "eval_samples_per_second": 97.107,
+      "eval_steps_per_second": 3.035,
+      "step": 124800
+    },
+    {
+      "epoch": 15.437225207620909,
+      "grad_norm": 0.6754134297370911,
+      "learning_rate": 0.0001704457704637553,
+      "loss": 1.3337,
+      "step": 126400
+    },
+    {
+      "epoch": 15.437225207620909,
+      "eval_loss": 1.26760995388031,
+      "eval_runtime": 298.4052,
+      "eval_samples_per_second": 97.559,
+      "eval_steps_per_second": 3.05,
+      "step": 126400
+    },
+    {
+      "epoch": 15.632633121641426,
+      "grad_norm": 0.6847600936889648,
+      "learning_rate": 0.00016970989529641978,
+      "loss": 1.3325,
+      "step": 128000
+    },
+    {
+      "epoch": 15.632633121641426,
+      "eval_loss": 1.2700194120407104,
+      "eval_runtime": 299.4022,
+      "eval_samples_per_second": 97.234,
+      "eval_steps_per_second": 3.039,
+      "step": 128000
+    },
+    {
+      "epoch": 15.828041035661943,
+      "grad_norm": 0.6538549661636353,
+      "learning_rate": 0.00016896660236328867,
+      "loss": 1.3321,
+      "step": 129600
+    },
+    {
+      "epoch": 15.828041035661943,
+      "eval_loss": 1.2639596462249756,
+      "eval_runtime": 298.4411,
+      "eval_samples_per_second": 97.547,
+      "eval_steps_per_second": 3.049,
+      "step": 129600
+    },
+    {
+      "epoch": 16.02344894968246,
+      "grad_norm": 0.7527989149093628,
+      "learning_rate": 0.00016821597075747895,
+      "loss": 1.3269,
+      "step": 131200
+    },
+    {
+      "epoch": 16.02344894968246,
+      "eval_loss": 1.264579176902771,
+      "eval_runtime": 301.1446,
+      "eval_samples_per_second": 96.671,
+      "eval_steps_per_second": 3.022,
+      "step": 131200
+    },
+    {
+      "epoch": 16.21885686370298,
+      "grad_norm": 0.6716771125793457,
+      "learning_rate": 0.00016745808035300877,
+      "loss": 1.3259,
+      "step": 132800
+    },
+    {
+      "epoch": 16.21885686370298,
+      "eval_loss": 1.2606010437011719,
+      "eval_runtime": 299.0102,
+      "eval_samples_per_second": 97.361,
+      "eval_steps_per_second": 3.043,
+      "step": 132800
+    },
+    {
+      "epoch": 16.4142647777235,
+      "grad_norm": 0.6704911589622498,
+      "learning_rate": 0.0001666930117962986,
+      "loss": 1.3252,
+      "step": 134400
+    },
+    {
+      "epoch": 16.4142647777235,
+      "eval_loss": 1.2583967447280884,
+      "eval_runtime": 299.2443,
+      "eval_samples_per_second": 97.285,
+      "eval_steps_per_second": 3.041,
+      "step": 134400
+    },
+    {
+      "epoch": 16.609672691744017,
+      "grad_norm": 0.6980424523353577,
+      "learning_rate": 0.0001659208464975893,
+      "loss": 1.3212,
+      "step": 136000
+    },
+    {
+      "epoch": 16.609672691744017,
+      "eval_loss": 1.253760576248169,
+      "eval_runtime": 298.3666,
+      "eval_samples_per_second": 97.571,
+      "eval_steps_per_second": 3.05,
+      "step": 136000
+    },
+    {
+      "epoch": 16.805080605764534,
+      "grad_norm": 0.6618648767471313,
+      "learning_rate": 0.0001651416666222796,
+      "loss": 1.3235,
+      "step": 137600
+    },
+    {
+      "epoch": 16.805080605764534,
+      "eval_loss": 1.2572880983352661,
+      "eval_runtime": 298.3287,
+      "eval_samples_per_second": 97.584,
+      "eval_steps_per_second": 3.05,
+      "step": 137600
+    },
+    {
+      "epoch": 17.00048851978505,
+      "grad_norm": 0.6838232278823853,
+      "learning_rate": 0.00016435555508218278,
+      "loss": 1.3225,
+      "step": 139200
+    },
+    {
+      "epoch": 17.00048851978505,
+      "eval_loss": 1.2578321695327759,
+      "eval_runtime": 299.5475,
+      "eval_samples_per_second": 97.187,
+      "eval_steps_per_second": 3.038,
+      "step": 139200
+    },
+    {
+      "epoch": 17.19589643380557,
+      "grad_norm": 0.7696621417999268,
+      "learning_rate": 0.0001635625955267044,
+      "loss": 1.3207,
+      "step": 140800
+    },
+    {
+      "epoch": 17.19589643380557,
+      "eval_loss": 1.253933310508728,
+      "eval_runtime": 300.668,
+      "eval_samples_per_second": 96.824,
+      "eval_steps_per_second": 3.027,
+      "step": 140800
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 0.7705731391906738,
+      "learning_rate": 0.00016276287233394084,
+      "loss": 1.3213,
+      "step": 142400
+    },
+    {
+      "epoch": 17.391304347826086,
+      "eval_loss": 1.2600691318511963,
+      "eval_runtime": 300.0248,
+      "eval_samples_per_second": 97.032,
+      "eval_steps_per_second": 3.033,
+      "step": 142400
+    },
+    {
+      "epoch": 17.586712261846603,
+      "grad_norm": 0.7737579345703125,
+      "learning_rate": 0.00016195647060170088,
+      "loss": 1.3221,
+      "step": 144000
+    },
+    {
+      "epoch": 17.586712261846603,
+      "eval_loss": 1.2585381269454956,
+      "eval_runtime": 299.9764,
+      "eval_samples_per_second": 97.048,
+      "eval_steps_per_second": 3.034,
+      "step": 144000
+    }
+  ],
+  "logging_steps": 1600,
+  "max_steps": 491280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 60,
+  "save_steps": 1600,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 5
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.562945771774673e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b11923295fcebc578a658f389342703e1ea4a3563d903a1356873a393b727f24
+size 5368

vocab.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "[PAD]": 0,
+  "[MASK]": 1,
+  "[CLS]": 2,
+  "[SEP]": 3,
+  "[UNK]": 4,
+  "\n": 5,
+  " ": 6,
+  "'": 7,
+  "-": 8,
+  ".": 9,
+  "α": 10,
+  "β": 11,
+  "γ": 12,
+  "δ": 13,
+  "ε": 14,
+  "ζ": 15,
+  "η": 16,
+  "θ": 17,
+  "ι": 18,
+  "κ": 19,
+  "λ": 20,
+  "μ": 21,
+  "ν": 22,
+  "ξ": 23,
+  "ο": 24,
+  "π": 25,
+  "ρ": 26,
+  "ς": 27,
+  "σ": 28,
+  "τ": 29,
+  "υ": 30,
+  "φ": 31,
+  "χ": 32,
+  "ψ": 33,
+  "ω": 34,
+  "ϛ": 35,
+  "ϼ": 36,
+  "☧": 37
+}