Luigi
/

SmolLM2-360M-Instruct-TaiwanChat

Generated from Trainer

Model card Files Files and versions

Luigi commited on Apr 30

Commit

fc65dac

·

1 Parent(s): 4bf72b9

update train script

Files changed (1) hide show

train_with_unsloth.py +5 -5

train_with_unsloth.py CHANGED Viewed

@@ -147,12 +147,12 @@ new_dataset = dataset.train_test_split(test_size=0.1)
 # Configure training arguments
 training_args = SFTConfig(
     fp16_full_eval=False,
-    per_device_train_batch_size=1,
     gradient_accumulation_steps=1,
     per_device_eval_batch_size=1,
     eval_accumulation_steps=1,
     evaluation_strategy="steps",
-    eval_steps=1000,
     save_strategy="steps",
     save_steps=1000,
     load_best_model_at_end=True,
@@ -161,7 +161,7 @@ training_args = SFTConfig(
     dataset_text_field="text",
     output_dir=PROJECT_NAME,
     max_seq_length=MAX_LEN,
-    num_train_epochs=5,
     learning_rate=2e-4,
     weight_decay=0.01,
     warmup_steps=500,
@@ -169,7 +169,7 @@ training_args = SFTConfig(
     logging_dir=f"{PROJECT_NAME}/logs",
     report_to=["wandb"],
     run_name=f"{PROJECT_NAME}_CLOUD",
-    optim="adamw_torch",
     push_to_hub=False,
     gradient_checkpointing=False,
     seed=3407,
@@ -213,4 +213,4 @@ outputs = model.generate(
     temperature=0.8,
     pad_token_id=tokenizer.eos_token_id
 )
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))

 # Configure training arguments
 training_args = SFTConfig(
     fp16_full_eval=False,
+    per_device_train_batch_size=40,
     gradient_accumulation_steps=1,
     per_device_eval_batch_size=1,
     eval_accumulation_steps=1,
     evaluation_strategy="steps",
+    eval_steps=10,
     save_strategy="steps",
     save_steps=1000,
     load_best_model_at_end=True,
     dataset_text_field="text",
     output_dir=PROJECT_NAME,
     max_seq_length=MAX_LEN,
+    num_train_epochs=3,
     learning_rate=2e-4,
     weight_decay=0.01,
     warmup_steps=500,
     logging_dir=f"{PROJECT_NAME}/logs",
     report_to=["wandb"],
     run_name=f"{PROJECT_NAME}_CLOUD",
+    optim="adamw_8bit",
     push_to_hub=False,
     gradient_checkpointing=False,
     seed=3407,
     temperature=0.8,
     pad_token_id=tokenizer.eos_token_id
 )
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))