Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

checkpoint-3032/config.json +30 -0
checkpoint-3032/generation_config.json +7 -0
checkpoint-3032/model.safetensors +3 -0
checkpoint-3032/optimizer.pt +3 -0
checkpoint-3032/rng_state.pth +3 -0
checkpoint-3032/scheduler.pt +3 -0
checkpoint-3032/trainer_state.json +461 -0
checkpoint-3032/training_args.bin +3 -0
config.json +30 -0
generation_config.json +7 -0
model.safetensors +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +215 -0
training_args.bin +3 -0

checkpoint-3032/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1.4b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

checkpoint-3032/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.44.2",
+  "use_cache": false
+}

checkpoint-3032/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d6765c17c16d90f3a85831a059ad1ae697ffe33045562286f0290aec2173121
+size 2829330208

checkpoint-3032/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a1681e0810031e90b2891a9132abaf7f4e54bd1abd1c8c469d2e7871009809c
+size 5658843371

checkpoint-3032/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
+size 14645

checkpoint-3032/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5bd26f9fffbe9d013e6ab7620ca0e8c604e6486f6cbb12c833fad8a4f0f0a46
+size 1465

checkpoint-3032/trainer_state.json ADDED Viewed

	@@ -0,0 +1,461 @@

+{
+  "best_metric": 1.9169344902038574,
+  "best_model_checkpoint": "./checkpoints/ultrafeedback_binarized/pythia-1.4b-ultrafeedback_binarized-lambda0.24-ORPO-14-2-42/checkpoint-3032",
+  "epoch": 0.9998351195383347,
+  "eval_steps": 500,
+  "global_step": 3032,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016488046166529265,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.333333333333333e-06,
+      "loss": 3.6291,
+      "step": 50
+    },
+    {
+      "epoch": 0.03297609233305853,
+      "grad_norm": 9.875,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 3.2106,
+      "step": 100
+    },
+    {
+      "epoch": 0.0494641384995878,
+      "grad_norm": 8.9375,
+      "learning_rate": 1.3e-05,
+      "loss": 2.9452,
+      "step": 150
+    },
+    {
+      "epoch": 0.06595218466611706,
+      "grad_norm": 6.875,
+      "learning_rate": 1.299034777031323e-05,
+      "loss": 2.7278,
+      "step": 200
+    },
+    {
+      "epoch": 0.08244023083264633,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.2961419747572287e-05,
+      "loss": 2.6466,
+      "step": 250
+    },
+    {
+      "epoch": 0.0989282769991756,
+      "grad_norm": 4.375,
+      "learning_rate": 1.2913301845598668e-05,
+      "loss": 2.5629,
+      "step": 300
+    },
+    {
+      "epoch": 0.11541632316570487,
+      "grad_norm": 4.0625,
+      "learning_rate": 1.2846136970559112e-05,
+      "loss": 2.5691,
+      "step": 350
+    },
+    {
+      "epoch": 0.13190436933223412,
+      "grad_norm": 7.46875,
+      "learning_rate": 1.2760124596546162e-05,
+      "loss": 2.4819,
+      "step": 400
+    },
+    {
+      "epoch": 0.1483924154987634,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.2655520173156702e-05,
+      "loss": 2.4503,
+      "step": 450
+    },
+    {
+      "epoch": 0.16488046166529266,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.2532634366827907e-05,
+      "loss": 2.467,
+      "step": 500
+    },
+    {
+      "epoch": 0.18136850783182193,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.2391832138183752e-05,
+      "loss": 2.4131,
+      "step": 550
+    },
+    {
+      "epoch": 0.1978565539983512,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.2233531658132322e-05,
+      "loss": 2.3876,
+      "step": 600
+    },
+    {
+      "epoch": 0.21434460016488047,
+      "grad_norm": 11.25,
+      "learning_rate": 1.2058203065933e-05,
+      "loss": 2.3676,
+      "step": 650
+    },
+    {
+      "epoch": 0.23083264633140974,
+      "grad_norm": 4.25,
+      "learning_rate": 1.1866367072921961e-05,
+      "loss": 2.3321,
+      "step": 700
+    },
+    {
+      "epoch": 0.247320692497939,
+      "grad_norm": 8.1875,
+      "learning_rate": 1.1658593416042809e-05,
+      "loss": 2.3109,
+      "step": 750
+    },
+    {
+      "epoch": 0.26380873866446825,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.143549916577526e-05,
+      "loss": 2.2684,
+      "step": 800
+    },
+    {
+      "epoch": 0.2802967848309975,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.1197746893487121e-05,
+      "loss": 2.2505,
+      "step": 850
+    },
+    {
+      "epoch": 0.2967848309975268,
+      "grad_norm": 5.125,
+      "learning_rate": 1.0946042703652444e-05,
+      "loss": 2.2271,
+      "step": 900
+    },
+    {
+      "epoch": 0.31327287716405605,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.0681134136779973e-05,
+      "loss": 2.1909,
+      "step": 950
+    },
+    {
+      "epoch": 0.3297609233305853,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.0403807949279998e-05,
+      "loss": 2.2079,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3462489694971146,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.0114887776863255e-05,
+      "loss": 2.1524,
+      "step": 1050
+    },
+    {
+      "epoch": 0.36273701566364386,
+      "grad_norm": 10.0,
+      "learning_rate": 9.815231688411385e-06,
+      "loss": 2.1247,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3792250618301731,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.505729637583697e-06,
+      "loss": 2.1355,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3957131079967024,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.187300819728845e-06,
+      "loss": 2.0472,
+      "step": 1200
+    },
+    {
+      "epoch": 0.41220115416323166,
+      "grad_norm": 8.5,
+      "learning_rate": 8.86089094195108e-06,
+      "loss": 2.1215,
+      "step": 1250
+    },
+    {
+      "epoch": 0.42868920032976093,
+      "grad_norm": 7.90625,
+      "learning_rate": 8.527469414438818e-06,
+      "loss": 2.0956,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4451772464962902,
+      "grad_norm": 6.59375,
+      "learning_rate": 8.188026471396994e-06,
+      "loss": 2.079,
+      "step": 1350
+    },
+    {
+      "epoch": 0.46166529266281947,
+      "grad_norm": 9.0625,
+      "learning_rate": 7.843570230133861e-06,
+      "loss": 2.0604,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47815333882934874,
+      "grad_norm": 7.53125,
+      "learning_rate": 7.4951236970364e-06,
+      "loss": 2.0528,
+      "step": 1450
+    },
+    {
+      "epoch": 0.494641384995878,
+      "grad_norm": 8.25,
+      "learning_rate": 7.143721729326464e-06,
+      "loss": 2.0402,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5111294311624073,
+      "grad_norm": 8.4375,
+      "learning_rate": 6.790407961620892e-06,
+      "loss": 2.0491,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5276174773289365,
+      "grad_norm": 12.875,
+      "learning_rate": 6.436231706423493e-06,
+      "loss": 2.0177,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5441055234954658,
+      "grad_norm": 8.0,
+      "learning_rate": 6.082244837754198e-06,
+      "loss": 2.0213,
+      "step": 1650
+    },
+    {
+      "epoch": 0.560593569661995,
+      "grad_norm": 7.40625,
+      "learning_rate": 5.729498667170698e-06,
+      "loss": 2.0213,
+      "step": 1700
+    },
+    {
+      "epoch": 0.5770816158285244,
+      "grad_norm": 10.3125,
+      "learning_rate": 5.379040821460559e-06,
+      "loss": 2.0067,
+      "step": 1750
+    },
+    {
+      "epoch": 0.5935696619950536,
+      "grad_norm": 4.09375,
+      "learning_rate": 5.031912131276807e-06,
+      "loss": 2.008,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6100577081615829,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.689143539957446e-06,
+      "loss": 2.021,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6265457543281121,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.351753041709503e-06,
+      "loss": 2.0262,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6430338004946414,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.020742658250887e-06,
+      "loss": 1.9914,
+      "step": 1950
+    },
+    {
+      "epoch": 0.6595218466611706,
+      "grad_norm": 7.15625,
+      "learning_rate": 3.697095462889249e-06,
+      "loss": 2.0001,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6760098928277,
+      "grad_norm": 10.4375,
+      "learning_rate": 3.381772660876002e-06,
+      "loss": 1.9848,
+      "step": 2050
+    },
+    {
+      "epoch": 0.6924979389942292,
+      "grad_norm": 3.328125,
+      "learning_rate": 3.0757107347066913e-06,
+      "loss": 2.0309,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7089859851607585,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.779818662845854e-06,
+      "loss": 1.9704,
+      "step": 2150
+    },
+    {
+      "epoch": 0.7254740313272877,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.4949752201366016e-06,
+      "loss": 1.9733,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7419620774938169,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.2220263679124083e-06,
+      "loss": 1.9418,
+      "step": 2250
+    },
+    {
+      "epoch": 0.7584501236603463,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.9617827415623227e-06,
+      "loss": 1.9522,
+      "step": 2300
+    },
+    {
+      "epoch": 0.7749381698268755,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.7150172430112804e-06,
+      "loss": 1.975,
+      "step": 2350
+    },
+    {
+      "epoch": 0.7914262159934048,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.4824627452656817e-06,
+      "loss": 1.9649,
+      "step": 2400
+    },
+    {
+      "epoch": 0.807914262159934,
+      "grad_norm": 3.78125,
+      "learning_rate": 1.264809915841502e-06,
+      "loss": 1.9855,
+      "step": 2450
+    },
+    {
+      "epoch": 0.8244023083264633,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.062705165539226e-06,
+      "loss": 1.9435,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8408903544929925,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.767487286575354e-07,
+      "loss": 1.9703,
+      "step": 2550
+    },
+    {
+      "epoch": 0.8573784006595219,
+      "grad_norm": 3.625,
+      "learning_rate": 7.074928803473566e-07,
+      "loss": 2.019,
+      "step": 2600
+    },
+    {
+      "epoch": 0.8738664468260511,
+      "grad_norm": 8.3125,
+      "learning_rate": 5.55440296400602e-07,
+      "loss": 1.9383,
+      "step": 2650
+    },
+    {
+      "epoch": 0.8903544929925804,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.2104256034487713e-07,
+      "loss": 1.928,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9068425391591096,
+      "grad_norm": 6.5,
+      "learning_rate": 3.046988222779669e-07,
+      "loss": 1.9765,
+      "step": 2750
+    },
+    {
+      "epoch": 0.9233305853256389,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.0675461342523516e-07,
+      "loss": 1.9639,
+      "step": 2800
+    },
+    {
+      "epoch": 0.9398186314921682,
+      "grad_norm": 7.40625,
+      "learning_rate": 1.275008199406322e-07,
+      "loss": 1.9248,
+      "step": 2850
+    },
+    {
+      "epoch": 0.9563066776586975,
+      "grad_norm": 8.0,
+      "learning_rate": 6.717281899900718e-08,
+      "loss": 1.957,
+      "step": 2900
+    },
+    {
+      "epoch": 0.9727947238252267,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.594977974547735e-08,
+      "loss": 1.9263,
+      "step": 2950
+    },
+    {
+      "epoch": 0.989282769991756,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.954131177969833e-09,
+      "loss": 1.9255,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9998351195383347,
+      "eval_loss": 1.9169344902038574,
+      "eval_runtime": 110.027,
+      "eval_samples_per_second": 14.805,
+      "eval_steps_per_second": 1.854,
+      "step": 3032
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3032,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.9094003186846925e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3032/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7febae4f1cc581928d4f4651e47426d84b9354b60e9a3d632a6b34e6b6a8cbab
+size 5841

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1.4b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.44.2",
+  "use_cache": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d6765c17c16d90f3a85831a059ad1ae697ffe33045562286f0290aec2173121
+size 2829330208

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7febae4f1cc581928d4f4651e47426d84b9354b60e9a3d632a6b34e6b6a8cbab
+size 5841