train_cola_1744902667

This model is a fine-tuned version of google/gemma-3-1b-it on the cola dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1304
  • Num Input Tokens Seen: 31253176

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.8564 0.4158 200 0.7581 156832
0.3582 0.8316 400 0.3332 313248
0.2271 1.2474 600 0.1977 469520
0.2087 1.6632 800 0.1662 625360
0.2333 2.0790 1000 0.1602 782304
0.1733 2.4948 1200 0.1590 938560
0.1708 2.9106 1400 0.1583 1094144
0.1591 3.3264 1600 0.1502 1250544
0.149 3.7422 1800 0.1496 1407440
0.1769 4.1580 2000 0.1481 1563512
0.1493 4.5738 2200 0.1484 1719064
0.1554 4.9896 2400 0.1496 1875384
0.1415 5.4054 2600 0.1437 2031440
0.1629 5.8212 2800 0.1436 2187952
0.1771 6.2370 3000 0.1437 2344864
0.1725 6.6528 3200 0.1443 2500448
0.1656 7.0686 3400 0.1456 2656400
0.177 7.4844 3600 0.1441 2812912
0.143 7.9002 3800 0.1401 2968816
0.138 8.3160 4000 0.1415 3124448
0.1477 8.7318 4200 0.1436 3280320
0.136 9.1476 4400 0.1454 3437072
0.1444 9.5634 4600 0.1436 3593520
0.1448 9.9792 4800 0.1406 3750544
0.1353 10.3950 5000 0.1396 3905920
0.16 10.8108 5200 0.1403 4063008
0.1401 11.2266 5400 0.1396 4219472
0.1559 11.6424 5600 0.1438 4376048
0.1625 12.0582 5800 0.1414 4531752
0.1546 12.4740 6000 0.1398 4687112
0.1258 12.8898 6200 0.1392 4843464
0.1463 13.3056 6400 0.1398 4999648
0.1723 13.7214 6600 0.1381 5157152
0.1213 14.1372 6800 0.1378 5312328
0.1577 14.5530 7000 0.1379 5468680
0.1608 14.9688 7200 0.1362 5624776
0.1106 15.3846 7400 0.1361 5782032
0.1146 15.8004 7600 0.1368 5938000
0.1559 16.2162 7800 0.1464 6094536
0.1684 16.6320 8000 0.1409 6250760
0.1309 17.0478 8200 0.1413 6406616
0.1367 17.4636 8400 0.1349 6563416
0.1224 17.8794 8600 0.1352 6719288
0.1509 18.2952 8800 0.1359 6875592
0.1371 18.7110 9000 0.1413 7032392
0.138 19.1268 9200 0.1355 7188120
0.1469 19.5426 9400 0.1367 7344760
0.1345 19.9584 9600 0.1392 7501144
0.1327 20.3742 9800 0.1391 7657160
0.1325 20.7900 10000 0.1344 7813128
0.1842 21.2058 10200 0.1432 7969880
0.1329 21.6216 10400 0.1381 8126392
0.1648 22.0374 10600 0.1349 8282480
0.1536 22.4532 10800 0.1381 8438992
0.1154 22.8690 11000 0.1377 8595376
0.1399 23.2848 11200 0.1332 8751352
0.1247 23.7006 11400 0.1335 8907960
0.1459 24.1164 11600 0.1380 9064424
0.1573 24.5322 11800 0.1453 9220456
0.1199 24.9480 12000 0.1399 9376488
0.1426 25.3638 12200 0.1334 9533208
0.1383 25.7796 12400 0.1348 9689464
0.1182 26.1954 12600 0.1413 9845048
0.117 26.6112 12800 0.1340 10001784
0.1142 27.0270 13000 0.1355 10157800
0.1209 27.4428 13200 0.1338 10313128
0.1348 27.8586 13400 0.1365 10469384
0.1291 28.2744 13600 0.1331 10625944
0.1003 28.6902 13800 0.1398 10782456
0.1468 29.1060 14000 0.1369 10938304
0.1019 29.5218 14200 0.1324 11094528
0.0986 29.9376 14400 0.1394 11250976
0.1674 30.3534 14600 0.1378 11406672
0.1381 30.7692 14800 0.1389 11562768
0.1343 31.1850 15000 0.1318 11719016
0.0878 31.6008 15200 0.1350 11875368
0.1302 32.0166 15400 0.1385 12031048
0.0967 32.4324 15600 0.1353 12187432
0.1277 32.8482 15800 0.1336 12343432
0.1087 33.2640 16000 0.1396 12500472
0.1514 33.6798 16200 0.1361 12656248
0.1167 34.0956 16400 0.1318 12811752
0.1264 34.5114 16600 0.1310 12968104
0.1231 34.9272 16800 0.1336 13124392
0.1176 35.3430 17000 0.1319 13281144
0.1496 35.7588 17200 0.1366 13437720
0.1364 36.1746 17400 0.1313 13594448
0.1432 36.5904 17600 0.1318 13750544
0.1535 37.0062 17800 0.1312 13906304
0.1366 37.4220 18000 0.1332 14062784
0.1273 37.8378 18200 0.1304 14219168
0.1174 38.2536 18400 0.1330 14375024
0.1583 38.6694 18600 0.1308 14530800
0.1456 39.0852 18800 0.1341 14687808
0.0994 39.5010 19000 0.1335 14843360
0.1139 39.9168 19200 0.1376 14999808
0.0985 40.3326 19400 0.1327 15155496
0.0935 40.7484 19600 0.1366 15311688
0.1399 41.1642 19800 0.1325 15468264
0.1488 41.5800 20000 0.1370 15624072
0.1375 41.9958 20200 0.1328 15780456
0.1021 42.4116 20400 0.1328 15936432
0.1349 42.8274 20600 0.1350 16092272
0.1072 43.2432 20800 0.1346 16249048
0.1444 43.6590 21000 0.1347 16405368
0.1271 44.0748 21200 0.1314 16561000
0.1373 44.4906 21400 0.1358 16718312
0.122 44.9064 21600 0.1331 16874632
0.1078 45.3222 21800 0.1313 17031680
0.1258 45.7380 22000 0.1345 17188288
0.1335 46.1538 22200 0.1329 17345048
0.1104 46.5696 22400 0.1344 17501560
0.1281 46.9854 22600 0.1328 17657336
0.0986 47.4012 22800 0.1342 17813576
0.1156 47.8170 23000 0.1371 17970024
0.0909 48.2328 23200 0.1315 18126280
0.1662 48.6486 23400 0.1328 18282568
0.1161 49.0644 23600 0.1400 18438872
0.1294 49.4802 23800 0.1312 18595416
0.1357 49.8960 24000 0.1345 18751672
0.1384 50.3119 24200 0.1315 18906848
0.1351 50.7277 24400 0.1338 19064192
0.155 51.1435 24600 0.1431 19219856
0.1235 51.5593 24800 0.1333 19376464
0.1443 51.9751 25000 0.1340 19532272
0.1259 52.3909 25200 0.1329 19688288
0.1221 52.8067 25400 0.1383 19844672
0.1107 53.2225 25600 0.1326 20001552
0.0977 53.6383 25800 0.1324 20157424
0.1319 54.0541 26000 0.1324 20313440
0.1157 54.4699 26200 0.1338 20469664
0.1312 54.8857 26400 0.1320 20625984
0.1381 55.3015 26600 0.1373 20781904
0.1142 55.7173 26800 0.1376 20938512
0.1284 56.1331 27000 0.1329 21095008
0.1719 56.5489 27200 0.1366 21251264
0.1451 56.9647 27400 0.1367 21407744
0.1349 57.3805 27600 0.1323 21564560
0.119 57.7963 27800 0.1344 21720560
0.1086 58.2121 28000 0.1360 21877024
0.0978 58.6279 28200 0.1339 22033344
0.1167 59.0437 28400 0.1378 22189872
0.1375 59.4595 28600 0.1329 22345712
0.135 59.8753 28800 0.1362 22502352
0.1339 60.2911 29000 0.1367 22658440
0.1497 60.7069 29200 0.1352 22814056
0.1122 61.1227 29400 0.1341 22970680
0.1642 61.5385 29600 0.1341 23126776
0.1314 61.9543 29800 0.1321 23283064
0.0908 62.3701 30000 0.1333 23440000
0.1076 62.7859 30200 0.1348 23596224
0.1311 63.2017 30400 0.1332 23751880
0.1312 63.6175 30600 0.1331 23907624
0.0878 64.0333 30800 0.1336 24063864
0.1089 64.4491 31000 0.1344 24219608
0.137 64.8649 31200 0.1319 24376856
0.1365 65.2807 31400 0.1349 24533352
0.1329 65.6965 31600 0.1335 24688616
0.1407 66.1123 31800 0.1337 24844832
0.1326 66.5281 32000 0.1372 25002240
0.1122 66.9439 32200 0.1354 25158144
0.1393 67.3597 32400 0.1352 25314384
0.0998 67.7755 32600 0.1357 25470704
0.1294 68.1913 32800 0.1348 25627200
0.1059 68.6071 33000 0.1351 25783456
0.1294 69.0229 33200 0.1348 25940304
0.118 69.4387 33400 0.1347 26096432
0.0978 69.8545 33600 0.1351 26253360
0.0981 70.2703 33800 0.1335 26408736
0.1045 70.6861 34000 0.1354 26565056
0.1691 71.1019 34200 0.1341 26721176
0.1116 71.5177 34400 0.1333 26877368
0.1195 71.9335 34600 0.1363 27033912
0.1472 72.3493 34800 0.1325 27190376
0.1476 72.7651 35000 0.1361 27347112
0.112 73.1809 35200 0.1324 27503480
0.1259 73.5967 35400 0.1344 27660280
0.1422 74.0125 35600 0.1354 27815536
0.1149 74.4283 35800 0.1348 27971600
0.1182 74.8441 36000 0.1338 28127664
0.1415 75.2599 36200 0.1356 28284736
0.1095 75.6757 36400 0.1341 28440672
0.1194 76.0915 36600 0.1349 28596968
0.0865 76.5073 36800 0.1338 28753672
0.129 76.9231 37000 0.1350 28909800
0.1131 77.3389 37200 0.1343 29066104
0.1282 77.7547 37400 0.1319 29222328
0.1005 78.1705 37600 0.1352 29378344
0.1191 78.5863 37800 0.1343 29534888
0.1402 79.0021 38000 0.1346 29690392
0.1161 79.4179 38200 0.1357 29846936
0.1261 79.8337 38400 0.1341 30002424
0.1219 80.2495 38600 0.1351 30158536
0.1106 80.6653 38800 0.1374 30314984
0.1245 81.0811 39000 0.1356 30471288
0.1315 81.4969 39200 0.1348 30628024
0.1193 81.9127 39400 0.1343 30784376
0.1149 82.3285 39600 0.1343 30940904
0.106 82.7443 39800 0.1343 31097352
0.1271 83.1601 40000 0.1343 31253176

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_cola_1744902667

Adapter
(137)
this model