Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

checkpoint-810/model.safetensors +3 -0
checkpoint-810/optimizer.pt +3 -0
checkpoint-810/rng_state.pth +3 -0
checkpoint-810/scheduler.pt +3 -0
checkpoint-810/trainer_state.json +459 -0
checkpoint-810/training_args.bin +3 -0

checkpoint-810/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac048c08c0be562ede9aa236e8c85c8cffe4f8653c8243696e417ee80a44de51
+size 6020469052

checkpoint-810/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:116fdb28ffb5f13786af2d6ddfbcf542af5575a50a791aa846652c8635be179e
+size 460681594

checkpoint-810/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0959e23e1122ccf0546cf64dcc6b1f11129516f4d5ec4bcbf3af19d588633b63
+size 14308

checkpoint-810/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12902b5d135404c4085f65898232340add1dbf39fadba96cae7c04a980e3d2ef
+size 1064

checkpoint-810/trainer_state.json ADDED Viewed

	@@ -0,0 +1,459 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 810,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07901234567901234,
+      "grad_norm": 1.3167223930358887,
+      "learning_rate": 3.1683168316831685e-06,
+      "loss": 8.0693,
+      "step": 16
+    },
+    {
+      "epoch": 0.1580246913580247,
+      "grad_norm": 1.3907195329666138,
+      "learning_rate": 6.336633663366337e-06,
+      "loss": 8.0604,
+      "step": 32
+    },
+    {
+      "epoch": 0.23703703703703705,
+      "grad_norm": 1.4589389562606812,
+      "learning_rate": 9.504950495049505e-06,
+      "loss": 8.014,
+      "step": 48
+    },
+    {
+      "epoch": 0.3160493827160494,
+      "grad_norm": 1.3790431022644043,
+      "learning_rate": 1.2673267326732674e-05,
+      "loss": 8.0335,
+      "step": 64
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 1.4199501276016235,
+      "learning_rate": 1.5841584158415843e-05,
+      "loss": 8.0402,
+      "step": 80
+    },
+    {
+      "epoch": 0.4740740740740741,
+      "grad_norm": 1.4907445907592773,
+      "learning_rate": 1.900990099009901e-05,
+      "loss": 8.0092,
+      "step": 96
+    },
+    {
+      "epoch": 0.5530864197530864,
+      "grad_norm": 1.5364277362823486,
+      "learning_rate": 1.999277438119978e-05,
+      "loss": 8.0424,
+      "step": 112
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 1.511999249458313,
+      "learning_rate": 1.995649347969019e-05,
+      "loss": 8.0508,
+      "step": 128
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 1.4422956705093384,
+      "learning_rate": 1.9889775168565942e-05,
+      "loss": 8.0349,
+      "step": 144
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 1.335660457611084,
+      "learning_rate": 1.9792823408445173e-05,
+      "loss": 8.0217,
+      "step": 160
+    },
+    {
+      "epoch": 0.8691358024691358,
+      "grad_norm": 1.4929100275039673,
+      "learning_rate": 1.966593458484168e-05,
+      "loss": 8.0288,
+      "step": 176
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": 1.4001775979995728,
+      "learning_rate": 1.9509496602102253e-05,
+      "loss": 7.988,
+      "step": 192
+    },
+    {
+      "epoch": 0.9975308641975309,
+      "eval_bleu": 0.06908982865992942,
+      "eval_cap_loss": 2.4894158536312627,
+      "eval_con_loss": 2.0581045664992987,
+      "eval_loss": 6.605625005329356,
+      "step": 202
+    },
+    {
+      "epoch": 0.9975308641975309,
+      "eval_bleu": 0.06908982865992942,
+      "eval_cap_loss": 2.4894158536312627,
+      "eval_con_loss": 2.0581045664992987,
+      "eval_loss": 6.605625005329356,
+      "eval_runtime": 79.8535,
+      "eval_samples_per_second": 10.131,
+      "eval_steps_per_second": 1.277,
+      "step": 202
+    },
+    {
+      "epoch": 1.0271604938271606,
+      "grad_norm": 1.6348539590835571,
+      "learning_rate": 1.932398769756714e-05,
+      "loss": 7.9169,
+      "step": 208
+    },
+    {
+      "epoch": 1.106172839506173,
+      "grad_norm": 1.468509316444397,
+      "learning_rate": 1.9109974979578852e-05,
+      "loss": 7.9217,
+      "step": 224
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 1.390411376953125,
+      "learning_rate": 1.8868112693808664e-05,
+      "loss": 7.9302,
+      "step": 240
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "grad_norm": 1.302958369255066,
+      "learning_rate": 1.8599140223200716e-05,
+      "loss": 7.968,
+      "step": 256
+    },
+    {
+      "epoch": 1.34320987654321,
+      "grad_norm": 1.465013861656189,
+      "learning_rate": 1.8303879827647977e-05,
+      "loss": 7.9389,
+      "step": 272
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 1.5777554512023926,
+      "learning_rate": 1.798323413030997e-05,
+      "loss": 7.9274,
+      "step": 288
+    },
+    {
+      "epoch": 1.5012345679012347,
+      "grad_norm": 1.3084310293197632,
+      "learning_rate": 1.76381833582567e-05,
+      "loss": 7.9272,
+      "step": 304
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 1.4037538766860962,
+      "learning_rate": 1.7269782345874204e-05,
+      "loss": 7.9136,
+      "step": 320
+    },
+    {
+      "epoch": 1.6592592592592592,
+      "grad_norm": 1.439072608947754,
+      "learning_rate": 1.6879157310192537e-05,
+      "loss": 7.9144,
+      "step": 336
+    },
+    {
+      "epoch": 1.7382716049382716,
+      "grad_norm": 1.4771238565444946,
+      "learning_rate": 1.6467502407993995e-05,
+      "loss": 7.9181,
+      "step": 352
+    },
+    {
+      "epoch": 1.817283950617284,
+      "grad_norm": 1.3906282186508179,
+      "learning_rate": 1.6036076085226813e-05,
+      "loss": 7.9348,
+      "step": 368
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "grad_norm": 1.3744033575057983,
+      "learning_rate": 1.5586197229884185e-05,
+      "loss": 7.9507,
+      "step": 384
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 1.4868050813674927,
+      "learning_rate": 1.5119241140109466e-05,
+      "loss": 7.9345,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.06595043107624254,
+      "eval_cap_loss": 2.4300825864660975,
+      "eval_con_loss": 2.058166358985153,
+      "eval_loss": 6.546415304436403,
+      "step": 405
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.06595043107624254,
+      "eval_cap_loss": 2.4300825864660975,
+      "eval_con_loss": 2.058166358985153,
+      "eval_loss": 6.546415304436403,
+      "eval_runtime": 79.4214,
+      "eval_samples_per_second": 10.186,
+      "eval_steps_per_second": 1.284,
+      "step": 405
+    },
+    {
+      "epoch": 2.054320987654321,
+      "grad_norm": 1.4153790473937988,
+      "learning_rate": 1.4636635319853274e-05,
+      "loss": 7.8805,
+      "step": 416
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 1.3386727571487427,
+      "learning_rate": 1.4139855114935253e-05,
+      "loss": 7.8973,
+      "step": 432
+    },
+    {
+      "epoch": 2.212345679012346,
+      "grad_norm": 1.4466866254806519,
+      "learning_rate": 1.3630419202851287e-05,
+      "loss": 7.9001,
+      "step": 448
+    },
+    {
+      "epoch": 2.291358024691358,
+      "grad_norm": 1.2998391389846802,
+      "learning_rate": 1.3109884950114007e-05,
+      "loss": 7.9096,
+      "step": 464
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 1.4705991744995117,
+      "learning_rate": 1.2579843651319382e-05,
+      "loss": 7.8773,
+      "step": 480
+    },
+    {
+      "epoch": 2.449382716049383,
+      "grad_norm": 1.3855006694793701,
+      "learning_rate": 1.2041915664493763e-05,
+      "loss": 7.8633,
+      "step": 496
+    },
+    {
+      "epoch": 2.528395061728395,
+      "grad_norm": 1.3997694253921509,
+      "learning_rate": 1.1497745457592817e-05,
+      "loss": 7.8597,
+      "step": 512
+    },
+    {
+      "epoch": 2.6074074074074076,
+      "grad_norm": 1.343112826347351,
+      "learning_rate": 1.0948996581295437e-05,
+      "loss": 7.8755,
+      "step": 528
+    },
+    {
+      "epoch": 2.68641975308642,
+      "grad_norm": 1.5445497035980225,
+      "learning_rate": 1.0397346583460972e-05,
+      "loss": 7.8874,
+      "step": 544
+    },
+    {
+      "epoch": 2.765432098765432,
+      "grad_norm": 1.466723918914795,
+      "learning_rate": 9.844481880796492e-06,
+      "loss": 7.9148,
+      "step": 560
+    },
+    {
+      "epoch": 2.8444444444444446,
+      "grad_norm": 1.3584568500518799,
+      "learning_rate": 9.292092603411642e-06,
+      "loss": 7.85,
+      "step": 576
+    },
+    {
+      "epoch": 2.9234567901234567,
+      "grad_norm": 1.4116945266723633,
+      "learning_rate": 8.741867428021447e-06,
+      "loss": 7.8632,
+      "step": 592
+    },
+    {
+      "epoch": 2.9975308641975307,
+      "eval_bleu": 0.0721711700240195,
+      "eval_cap_loss": 2.4210135878301133,
+      "eval_con_loss": 2.0581733035106287,
+      "eval_loss": 6.537360193682652,
+      "step": 607
+    },
+    {
+      "epoch": 2.9975308641975307,
+      "eval_bleu": 0.0721711700240195,
+      "eval_cap_loss": 2.4210135878301133,
+      "eval_con_loss": 2.0581733035106287,
+      "eval_loss": 6.537360193682652,
+      "eval_runtime": 81.5985,
+      "eval_samples_per_second": 9.914,
+      "eval_steps_per_second": 1.25,
+      "step": 607
+    },
+    {
+      "epoch": 3.0024691358024693,
+      "grad_norm": 1.864071249961853,
+      "learning_rate": 8.195488415592238e-06,
+      "loss": 7.8348,
+      "step": 608
+    },
+    {
+      "epoch": 3.0814814814814815,
+      "grad_norm": 1.5261914730072021,
+      "learning_rate": 7.654625869212147e-06,
+      "loss": 7.8239,
+      "step": 624
+    },
+    {
+      "epoch": 3.1604938271604937,
+      "grad_norm": 1.5600097179412842,
+      "learning_rate": 7.120933227905971e-06,
+      "loss": 7.8729,
+      "step": 640
+    },
+    {
+      "epoch": 3.2395061728395063,
+      "grad_norm": 1.521858811378479,
+      "learning_rate": 6.59604201200412e-06,
+      "loss": 7.8826,
+      "step": 656
+    },
+    {
+      "epoch": 3.3185185185185184,
+      "grad_norm": 1.453940749168396,
+      "learning_rate": 6.081556835517955e-06,
+      "loss": 7.8802,
+      "step": 672
+    },
+    {
+      "epoch": 3.397530864197531,
+      "grad_norm": 1.476491928100586,
+      "learning_rate": 5.579050500768837e-06,
+      "loss": 7.8213,
+      "step": 688
+    },
+    {
+      "epoch": 3.476543209876543,
+      "grad_norm": 1.4222908020019531,
+      "learning_rate": 5.090059190266779e-06,
+      "loss": 7.8651,
+      "step": 704
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 1.498777151107788,
+      "learning_rate": 4.616077770537453e-06,
+      "loss": 7.8873,
+      "step": 720
+    },
+    {
+      "epoch": 3.634567901234568,
+      "grad_norm": 1.4121512174606323,
+      "learning_rate": 4.158555222253772e-06,
+      "loss": 7.8258,
+      "step": 736
+    },
+    {
+      "epoch": 3.71358024691358,
+      "grad_norm": 1.5000683069229126,
+      "learning_rate": 3.718890210642442e-06,
+      "loss": 7.8599,
+      "step": 752
+    },
+    {
+      "epoch": 3.7925925925925927,
+      "grad_norm": 1.630094051361084,
+      "learning_rate": 3.2984268097069284e-06,
+      "loss": 7.8903,
+      "step": 768
+    },
+    {
+      "epoch": 3.871604938271605,
+      "grad_norm": 1.6297024488449097,
+      "learning_rate": 2.898450393337977e-06,
+      "loss": 7.8535,
+      "step": 784
+    },
+    {
+      "epoch": 3.950617283950617,
+      "grad_norm": 1.6124980449676514,
+      "learning_rate": 2.5201837058728506e-06,
+      "loss": 7.8592,
+      "step": 800
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.06875532122288064,
+      "eval_cap_loss": 2.4062162719520868,
+      "eval_con_loss": 2.0580918672038058,
+      "eval_loss": 6.522400014540729,
+      "step": 810
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.06875532122288064,
+      "eval_cap_loss": 2.4062162719520868,
+      "eval_con_loss": 2.0580918672038058,
+      "eval_loss": 6.522400014540729,
+      "eval_runtime": 82.4788,
+      "eval_samples_per_second": 9.809,
+      "eval_steps_per_second": 1.237,
+      "step": 810
+    }
+  ],
+  "logging_steps": 16,
+  "max_steps": 1010,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-810/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27dd50b12e8a8125c1ae97fdb89079032fd83cd34fcb149fee2dea4a9480ffdd
+size 5176