train_wsc_1745950297

This model is a fine-tuned version of google/gemma-3-1b-it on the wsc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2320
  • Num Input Tokens Seen: 14005200

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2548 1.6024 200 0.2622 70208
0.1992 3.2008 400 0.2413 140304
0.2498 4.8032 600 0.2570 210336
0.2522 6.4016 800 0.2428 280224
0.242 8.0 1000 0.2450 350448
0.2148 9.6024 1200 0.2627 420560
0.2342 11.2008 1400 0.2641 490880
0.2285 12.8032 1600 0.2463 560560
0.2441 14.4016 1800 0.2386 630816
0.2387 16.0 2000 0.2423 699936
0.2525 17.6024 2200 0.2489 769520
0.2251 19.2008 2400 0.2602 839648
0.2367 20.8032 2600 0.2374 910080
0.2371 22.4016 2800 0.2431 979504
0.2501 24.0 3000 0.2376 1049392
0.2608 25.6024 3200 0.2493 1119904
0.2566 27.2008 3400 0.2552 1189264
0.2314 28.8032 3600 0.2493 1259520
0.2074 30.4016 3800 0.2631 1329408
0.2418 32.0 4000 0.2633 1399696
0.2142 33.6024 4200 0.2820 1470240
0.2211 35.2008 4400 0.2362 1539536
0.2219 36.8032 4600 0.2515 1610032
0.2316 38.4016 4800 0.2434 1680240
0.2427 40.0 5000 0.2359 1749472
0.2211 41.6024 5200 0.2671 1819376
0.2588 43.2008 5400 0.2452 1889616
0.2276 44.8032 5600 0.2335 1959536
0.246 46.4016 5800 0.2408 2028864
0.227 48.0 6000 0.2435 2099424
0.2293 49.6024 6200 0.2412 2169376
0.2257 51.2008 6400 0.2394 2239408
0.2199 52.8032 6600 0.2374 2309472
0.2207 54.4016 6800 0.2414 2380032
0.234 56.0 7000 0.2387 2449376
0.2918 57.6024 7200 0.2351 2519776
0.2358 59.2008 7400 0.2430 2589392
0.2341 60.8032 7600 0.2409 2659792
0.2348 62.4016 7800 0.2404 2729184
0.2608 64.0 8000 0.2335 2799504
0.2289 65.6024 8200 0.2483 2869520
0.2527 67.2008 8400 0.2399 2940080
0.3065 68.8032 8600 0.2523 3010256
0.2274 70.4016 8800 0.2462 3080304
0.2381 72.0 9000 0.2320 3150464
0.2271 73.6024 9200 0.2393 3220512
0.2327 75.2008 9400 0.2342 3290320
0.2315 76.8032 9600 0.2374 3360352
0.223 78.4016 9800 0.2446 3430416
0.2339 80.0 10000 0.2346 3500544
0.2199 81.6024 10200 0.2461 3570432
0.2375 83.2008 10400 0.2540 3640832
0.1781 84.8032 10600 0.2972 3710480
0.2383 86.4016 10800 0.2541 3780368
0.2429 88.0 11000 0.2356 3850720
0.2298 89.6024 11200 0.2348 3920848
0.2298 91.2008 11400 0.2368 3990784
0.2371 92.8032 11600 0.2392 4060432
0.2455 94.4016 11800 0.2384 4130528
0.2291 96.0 12000 0.2460 4200848
0.2145 97.6024 12200 0.2545 4270928
0.2282 99.2008 12400 0.2467 4339920
0.2311 100.8032 12600 0.2462 4410624
0.2175 102.4016 12800 0.2575 4479904
0.225 104.0 13000 0.2437 4549824
0.2326 105.6024 13200 0.2624 4620128
0.2235 107.2008 13400 0.2572 4690352
0.248 108.8032 13600 0.2629 4760256
0.2307 110.4016 13800 0.2773 4830144
0.2317 112.0 14000 0.2349 4900080
0.2396 113.6024 14200 0.2791 4969936
0.2267 115.2008 14400 0.2567 5040096
0.2455 116.8032 14600 0.2898 5110288
0.2222 118.4016 14800 0.2783 5180208
0.2434 120.0 15000 0.2841 5250464
0.1949 121.6024 15200 0.3547 5320528
0.2059 123.2008 15400 0.3064 5390624
0.2223 124.8032 15600 0.3322 5460832
0.1972 126.4016 15800 0.3677 5530720
0.214 128.0 16000 0.4133 5600992
0.1881 129.6024 16200 0.3950 5672032
0.2404 131.2008 16400 0.3935 5740976
0.2185 132.8032 16600 0.4416 5811248
0.2123 134.4016 16800 0.5287 5881152
0.2205 136.0 17000 0.3450 5951136
0.2298 137.6024 17200 0.4274 6021136
0.1956 139.2008 17400 0.5100 6091696
0.2071 140.8032 17600 0.4885 6161472
0.2021 142.4016 17800 0.6196 6231760
0.1719 144.0 18000 0.6543 6301232
0.1586 145.6024 18200 0.7149 6371776
0.1591 147.2008 18400 0.7763 6442048
0.1977 148.8032 18600 0.7419 6511680
0.1525 150.4016 18800 0.6660 6581136
0.192 152.0 19000 0.8968 6651296
0.1509 153.6024 19200 1.0655 6721584
0.191 155.2008 19400 0.9136 6791744
0.1685 156.8032 19600 1.1094 6862112
0.1654 158.4016 19800 1.1051 6931856
0.1502 160.0 20000 1.2626 7001952
0.1517 161.6024 20200 1.0309 7071568
0.1468 163.2008 20400 1.1840 7141584
0.1608 164.8032 20600 1.2493 7212096
0.1338 166.4016 20800 1.0765 7282736
0.1946 168.0 21000 0.7663 7352288
0.1721 169.6024 21200 1.1365 7422624
0.1571 171.2008 21400 1.2918 7492496
0.1354 172.8032 21600 1.2736 7562288
0.1481 174.4016 21800 1.3800 7632432
0.1661 176.0 22000 1.4160 7702096
0.1122 177.6024 22200 1.6368 7772000
0.1677 179.2008 22400 1.6723 7842112
0.1481 180.8032 22600 1.1449 7912496
0.1084 182.4016 22800 1.3124 7982768
0.1482 184.0 23000 1.3050 8052448
0.1419 185.6024 23200 1.5570 8122832
0.1128 187.2008 23400 1.6610 8193088
0.0884 188.8032 23600 1.6369 8263104
0.1533 190.4016 23800 1.4895 8333312
0.1617 192.0 24000 1.6179 8402848
0.1453 193.6024 24200 1.7625 8472688
0.1496 195.2008 24400 1.7510 8542528
0.1241 196.8032 24600 1.8135 8612928
0.155 198.4016 24800 1.3943 8682896
0.1418 200.0 25000 1.5919 8752864
0.1095 201.6024 25200 1.8591 8823744
0.1754 203.2008 25400 1.3821 8893360
0.1078 204.8032 25600 1.5093 8963536
0.142 206.4016 25800 1.8677 9033264
0.1256 208.0 26000 1.9379 9102880
0.1044 209.6024 26200 1.9586 9173088
0.1361 211.2008 26400 1.8733 9242752
0.113 212.8032 26600 1.9482 9313008
0.1621 214.4016 26800 2.2428 9382592
0.205 216.0 27000 1.7358 9452912
0.1393 217.6024 27200 2.1324 9522896
0.0864 219.2008 27400 2.1617 9592864
0.1246 220.8032 27600 1.9770 9663568
0.1486 222.4016 27800 2.1721 9733504
0.1567 224.0 28000 2.1509 9803232
0.1013 225.6024 28200 2.3648 9872976
0.0807 227.2008 28400 2.2903 9943472
0.1315 228.8032 28600 2.0960 10013472
0.1146 230.4016 28800 2.2468 10082944
0.1366 232.0 29000 2.2477 10153120
0.0852 233.6024 29200 2.5634 10223856
0.1104 235.2008 29400 2.4603 10293888
0.1038 236.8032 29600 2.3068 10363824
0.1311 238.4016 29800 2.4379 10433056
0.1226 240.0 30000 2.4808 10503136
0.0984 241.6024 30200 2.5300 10573568
0.0431 243.2008 30400 2.5455 10642912
0.1029 244.8032 30600 2.5215 10713264
0.0508 246.4016 30800 2.5379 10783152
0.1344 248.0 31000 2.5622 10853376
0.125 249.6024 31200 2.6938 10923696
0.0967 251.2008 31400 2.6724 10994016
0.0483 252.8032 31600 2.6530 11063664
0.0543 254.4016 31800 2.7606 11133840
0.0534 256.0 32000 2.6676 11203504
0.114 257.6024 32200 2.7675 11273840
0.0669 259.2008 32400 2.7834 11342832
0.0861 260.8032 32600 2.8264 11412832
0.0728 262.4016 32800 2.8341 11482880
0.0648 264.0 33000 2.8221 11552512
0.0826 265.6024 33200 2.8449 11622560
0.0346 267.2008 33400 2.8784 11692336
0.065 268.8032 33600 2.9070 11763296
0.0282 270.4016 33800 2.8172 11833168
0.0249 272.0 34000 2.9057 11902608
0.0373 273.6024 34200 2.8805 11973440
0.0521 275.2008 34400 2.9054 12042992
0.0441 276.8032 34600 2.9474 12113808
0.0447 278.4016 34800 2.8835 12183456
0.039 280.0 35000 2.9349 12253312
0.0231 281.6024 35200 2.9440 12323712
0.0388 283.2008 35400 2.9267 12393344
0.0438 284.8032 35600 2.9261 12463296
0.0298 286.4016 35800 2.8924 12533712
0.0312 288.0 36000 2.8364 12603312
0.0178 289.6024 36200 2.8838 12672944
0.036 291.2008 36400 2.8664 12743584
0.0318 292.8032 36600 2.8160 12814000
0.0053 294.4016 36800 2.8348 12883584
0.0505 296.0 37000 2.8296 12954144
0.0175 297.6024 37200 2.8290 13024112
0.0206 299.2008 37400 2.8553 13094448
0.0073 300.8032 37600 2.8523 13164640
0.0062 302.4016 37800 2.8443 13234048
0.0223 304.0 38000 2.8469 13304512
0.0032 305.6024 38200 2.8724 13374272
0.0032 307.2008 38400 2.8650 13444512
0.0225 308.8032 38600 2.8802 13514848
0.0149 310.4016 38800 2.8676 13584800
0.0195 312.0 39000 2.8613 13654928
0.0023 313.6024 39200 2.8563 13724752
0.0185 315.2008 39400 2.8380 13794224
0.0024 316.8032 39600 2.8794 13865104
0.0162 318.4016 39800 2.8616 13935776
0.014 320.0 40000 2.8462 14005200

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_wsc_1745950297

Adapter
(95)
this model