qwen3-0.6b-vericava-posts-v3

This model is a fine-tuned version of Qwen/Qwen3-0.6B on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0005
train_batch_size: 128
eval_batch_size: 128
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 1024
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 1000
num_epochs: 150

Training Loss	Epoch	Step	Validation Loss
2.3084	11.1159	100	7.3315
1.5889	22.2319	200	5.7203
1.2512	33.3478	300	5.1681
0.9954	44.4638	400	5.3320
0.5796	55.5797	500	5.9040
0.2523	66.6957	600	6.3274
0.1139	77.8116	700	6.4830
0.0936	88.9275	800	6.5364
0.0715	100.0	900	6.6161
0.0478	111.1159	1000	6.7347
0.0371	122.2319	1100	6.8515
0.0143	133.3478	1200	6.9626
0.0076	144.4638	1300	6.9891