tinyllama_ft_full_5k_sample

This model is a fine-tuned version of TinyLlama/TinyLlama-1.1B-Chat-v1.0 on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.8222

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 4
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 16
total_train_batch_size: 64
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.05
num_epochs: 3

Training results

Training Loss	Epoch	Step	Validation Loss
1.9059	0.256	20	1.8654
1.8532	0.512	40	1.8407
1.8333	0.768	60	1.8315
1.8178	1.0128	80	1.8279
1.8366	1.2688	100	1.8257
1.8249	1.5248	120	1.8241
1.7824	1.7808	140	1.8230
1.8051	2.0256	160	1.8222
1.7722	2.2816	180	1.8225
1.7967	2.5376	200	1.8223
1.7583	2.7936	220	1.8222

Framework versions

PEFT 0.17.1
Transformers 4.55.4
Pytorch 2.8.0+cu126
Datasets 4.0.0
Tokenizers 0.21.4

Kaushikdebb
/

tinyllama_ft_full_5k_sample

tinyllama_ft_full_5k_sample

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for Kaushikdebb/tinyllama_ft_full_5k_sample

Evaluation results