train_sst2_1744902620

This model is a fine-tuned version of google/gemma-3-1b-it on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0718
  • Num Input Tokens Seen: 36181120

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.398 0.0528 200 0.4623 180224
0.1778 0.1056 400 0.2253 361024
0.1088 0.1584 600 0.1790 541408
0.1134 0.2112 800 0.1481 722496
0.0998 0.2640 1000 0.1331 903200
0.1077 0.3167 1200 0.1238 1084928
0.0783 0.3695 1400 0.1178 1265312
0.1088 0.4223 1600 0.1150 1447200
0.0996 0.4751 1800 0.1113 1628352
0.1476 0.5279 2000 0.1095 1809312
0.1041 0.5807 2200 0.1076 1992416
0.1256 0.6335 2400 0.1058 2171744
0.0955 0.6863 2600 0.1049 2352352
0.1307 0.7391 2800 0.1035 2532128
0.1216 0.7919 3000 0.1017 2713888
0.0982 0.8447 3200 0.1005 2894304
0.0764 0.8975 3400 0.0993 3076640
0.1191 0.9502 3600 0.1002 3257632
0.1083 1.0029 3800 0.0972 3436976
0.1176 1.0557 4000 0.0966 3618672
0.1174 1.1085 4200 0.0968 3800592
0.0734 1.1613 4400 0.0950 3980592
0.0563 1.2141 4600 0.0944 4161936
0.1105 1.2669 4800 0.0948 4343440
0.0871 1.3197 5000 0.0930 4526576
0.1109 1.3724 5200 0.0923 4707952
0.1011 1.4252 5400 0.0919 4887824
0.0842 1.4780 5600 0.0911 5068368
0.0909 1.5308 5800 0.0906 5250800
0.0688 1.5836 6000 0.0899 5431440
0.1125 1.6364 6200 0.0893 5611184
0.0643 1.6892 6400 0.0887 5792144
0.0953 1.7420 6600 0.0889 5974000
0.083 1.7948 6800 0.0876 6154320
0.1181 1.8476 7000 0.0872 6334608
0.0723 1.9004 7200 0.0869 6515152
0.0687 1.9531 7400 0.0869 6695472
0.0822 2.0058 7600 0.0858 6875184
0.127 2.0586 7800 0.0865 7057584
0.1107 2.1114 8000 0.0852 7236880
0.1062 2.1642 8200 0.0849 7418160
0.1075 2.2170 8400 0.0851 7598544
0.0569 2.2698 8600 0.0847 7777744
0.0814 2.3226 8800 0.0842 7957552
0.0829 2.3753 9000 0.0843 8138448
0.068 2.4281 9200 0.0832 8321584
0.0855 2.4809 9400 0.0831 8502288
0.0749 2.5337 9600 0.0830 8684240
0.1155 2.5865 9800 0.0826 8866128
0.1102 2.6393 10000 0.0822 9045584
0.0735 2.6921 10200 0.0819 9225744
0.1244 2.7449 10400 0.0817 9409616
0.079 2.7977 10600 0.0819 9590384
0.0851 2.8505 10800 0.0814 9772624
0.0835 2.9033 11000 0.0810 9953712
0.0527 2.9561 11200 0.0808 10132784
0.0793 3.0087 11400 0.0805 10312800
0.0775 3.0615 11600 0.0803 10492768
0.0596 3.1143 11800 0.0801 10673088
0.0897 3.1671 12000 0.0798 10854592
0.0458 3.2199 12200 0.0798 11035424
0.0498 3.2727 12400 0.0794 11217728
0.0989 3.3255 12600 0.0793 11400032
0.0491 3.3782 12800 0.0793 11580736
0.0357 3.4310 13000 0.0792 11761344
0.0562 3.4838 13200 0.0789 11940800
0.1195 3.5366 13400 0.0791 12121216
0.0581 3.5894 13600 0.0785 12302080
0.0751 3.6422 13800 0.0783 12482400
0.0955 3.6950 14000 0.0783 12664768
0.0876 3.7478 14200 0.0784 12845696
0.0891 3.8006 14400 0.0778 13026720
0.087 3.8534 14600 0.0785 13207904
0.0783 3.9062 14800 0.0774 13389408
0.0426 3.9590 15000 0.0772 13569120
0.0844 4.0116 15200 0.0770 13749232
0.0889 4.0644 15400 0.0769 13929232
0.0757 4.1172 15600 0.0767 14111056
0.0416 4.1700 15800 0.0769 14290896
0.0518 4.2228 16000 0.0765 14470384
0.0584 4.2756 16200 0.0763 14650736
0.0442 4.3284 16400 0.0765 14834416
0.088 4.3812 16600 0.0763 15014800
0.0651 4.4339 16800 0.0761 15194064
0.0553 4.4867 17000 0.0764 15376368
0.0516 4.5395 17200 0.0762 15556464
0.0914 4.5923 17400 0.0762 15738448
0.0678 4.6451 17600 0.0760 15919856
0.0664 4.6979 17800 0.0755 16100016
0.0868 4.7507 18000 0.0758 16282288
0.081 4.8035 18200 0.0758 16461520
0.0677 4.8563 18400 0.0754 16642640
0.0586 4.9091 18600 0.0753 16825040
0.0543 4.9619 18800 0.0754 17006160
0.0392 5.0145 19000 0.0756 17188336
0.0363 5.0673 19200 0.0753 17369104
0.0991 5.1201 19400 0.0748 17549968
0.0843 5.1729 19600 0.0747 17730032
0.1282 5.2257 19800 0.0746 17910128
0.0582 5.2785 20000 0.0747 18091056
0.0359 5.3313 20200 0.0749 18271440
0.0874 5.3841 20400 0.0745 18450832
0.071 5.4368 20600 0.0744 18632304
0.0333 5.4896 20800 0.0746 18813264
0.0943 5.5424 21000 0.0748 18994928
0.0615 5.5952 21200 0.0744 19174960
0.0329 5.6480 21400 0.0746 19356976
0.0354 5.7008 21600 0.0744 19538672
0.0861 5.7536 21800 0.0740 19719600
0.0379 5.8064 22000 0.0738 19900592
0.0962 5.8592 22200 0.0739 20080976
0.0491 5.9120 22400 0.0739 20262096
0.065 5.9648 22600 0.0736 20442992
0.0684 6.0174 22800 0.0738 20624000
0.0745 6.0702 23000 0.0736 20805728
0.0616 6.1230 23200 0.0733 20986976
0.0507 6.1758 23400 0.0740 21167808
0.0366 6.2286 23600 0.0733 21349184
0.0663 6.2814 23800 0.0734 21529376
0.0921 6.3342 24000 0.0731 21710304
0.0746 6.3870 24200 0.0732 21889920
0.0733 6.4398 24400 0.0741 22070176
0.0482 6.4925 24600 0.0733 22249984
0.0442 6.5453 24800 0.0731 22432352
0.0773 6.5981 25000 0.0729 22612672
0.0601 6.6509 25200 0.0731 22793920
0.0778 6.7037 25400 0.0731 22974976
0.0849 6.7565 25600 0.0731 23155872
0.0537 6.8093 25800 0.0729 23338048
0.0567 6.8621 26000 0.0728 23518912
0.0443 6.9149 26200 0.0728 23700448
0.0494 6.9677 26400 0.0729 23880704
0.0869 7.0203 26600 0.0733 24061744
0.0692 7.0731 26800 0.0731 24240720
0.0564 7.1259 27000 0.0730 24423344
0.0797 7.1787 27200 0.0729 24603344
0.0536 7.2315 27400 0.0730 24784688
0.055 7.2843 27600 0.0729 24965104
0.0625 7.3371 27800 0.0725 25146416
0.0422 7.3899 28000 0.0727 25327344
0.078 7.4427 28200 0.0724 25507504
0.067 7.4954 28400 0.0728 25688464
0.0696 7.5482 28600 0.0726 25870064
0.07 7.6010 28800 0.0726 26051856
0.0469 7.6538 29000 0.0728 26232080
0.0746 7.7066 29200 0.0724 26415344
0.0468 7.7594 29400 0.0725 26597616
0.0753 7.8122 29600 0.0724 26779344
0.082 7.8650 29800 0.0723 26960208
0.0634 7.9178 30000 0.0724 27142320
0.05 7.9706 30200 0.0725 27322864
0.0582 8.0232 30400 0.0723 27502208
0.0731 8.0760 30600 0.0723 27683072
0.046 8.1288 30800 0.0721 27864736
0.0821 8.1816 31000 0.0723 28044640
0.0794 8.2344 31200 0.0723 28226016
0.1084 8.2872 31400 0.0723 28406464
0.0643 8.3400 31600 0.0722 28587264
0.047 8.3928 31800 0.0721 28767840
0.0921 8.4456 32000 0.0723 28948576
0.0707 8.4984 32200 0.0721 29130656
0.0555 8.5511 32400 0.0721 29312288
0.0684 8.6039 32600 0.0723 29492416
0.0723 8.6567 32800 0.0722 29672864
0.0948 8.7095 33000 0.0722 29854336
0.049 8.7623 33200 0.0720 30036448
0.0313 8.8151 33400 0.0720 30216896
0.058 8.8679 33600 0.0725 30396960
0.055 8.9207 33800 0.0721 30576960
0.0824 8.9735 34000 0.0723 30759200
0.0563 9.0261 34200 0.0721 30938880
0.0765 9.0789 34400 0.0720 31120480
0.1035 9.1317 34600 0.0720 31301056
0.068 9.1845 34800 0.0722 31481824
0.0835 9.2373 35000 0.0721 31661536
0.0396 9.2901 35200 0.0721 31842016
0.0384 9.3429 35400 0.0720 32021408
0.0771 9.3957 35600 0.0722 32202368
0.0646 9.4485 35800 0.0720 32381184
0.0557 9.5013 36000 0.0721 32562688
0.0974 9.5540 36200 0.0721 32743456
0.1236 9.6068 36400 0.0722 32926592
0.0495 9.6596 36600 0.0721 33105696
0.0544 9.7124 36800 0.0720 33286560
0.0385 9.7652 37000 0.0722 33468000
0.0917 9.8180 37200 0.0719 33650176
0.0393 9.8708 37400 0.0720 33831008
0.0766 9.9236 37600 0.0721 34012992
0.0637 9.9764 37800 0.0718 34195168
0.0941 10.0290 38000 0.0721 34373792
0.0685 10.0818 38200 0.0718 34553856
0.0769 10.1346 38400 0.0719 34734976
0.0412 10.1874 38600 0.0721 34915936
0.0642 10.2402 38800 0.0720 35096960
0.0539 10.2930 39000 0.0721 35276448
0.0743 10.3458 39200 0.0719 35457088
0.0707 10.3986 39400 0.0720 35637600
0.0465 10.4514 39600 0.0721 35817824
0.063 10.5042 39800 0.0722 35999840
0.072 10.5569 40000 0.0721 36181120

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
26
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902620

Adapter
(94)
this model