2and3_apps_30k_v6_2and3_apps_40k_v7_2and3_apps_3k_v5
This model is a fine-tuned version of Qwen/Qwen2.5-7B-Instruct on the 2and3_apps_30k_v6, the 2and3_apps_40k_v7 and the 2and3_apps_3k_v5 datasets. It achieves the following results on the evaluation set:
- Loss: 0.1757
Model description
More information needed
Intended uses & limitations
More information needed
Training and evaluation data
More information needed
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 1
- eval_batch_size: 1
- seed: 42
- distributed_type: multi-GPU
- num_devices: 4
- total_train_batch_size: 4
- total_eval_batch_size: 4
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: cosine
- num_epochs: 1
Training results
Training Loss | Epoch | Step | Validation Loss |
---|---|---|---|
0.2143 | 0.0050 | 100 | 0.2606 |
0.2614 | 0.0100 | 200 | 0.2533 |
0.2113 | 0.0150 | 300 | 0.2420 |
0.2147 | 0.0201 | 400 | 0.2372 |
0.2548 | 0.0251 | 500 | 0.2371 |
0.2249 | 0.0301 | 600 | 0.2365 |
0.241 | 0.0351 | 700 | 0.2291 |
0.2236 | 0.0401 | 800 | 0.2300 |
0.2494 | 0.0451 | 900 | 0.2309 |
0.1955 | 0.0501 | 1000 | 0.2275 |
0.2086 | 0.0552 | 1100 | 0.2264 |
0.2022 | 0.0602 | 1200 | 0.2242 |
0.1476 | 0.0652 | 1300 | 0.2263 |
0.1972 | 0.0702 | 1400 | 0.2252 |
0.1806 | 0.0752 | 1500 | 0.2226 |
0.2868 | 0.0802 | 1600 | 0.2230 |
0.2456 | 0.0852 | 1700 | 0.2222 |
0.1835 | 0.0903 | 1800 | 0.2204 |
0.1912 | 0.0953 | 1900 | 0.2201 |
0.2153 | 0.1003 | 2000 | 0.2195 |
0.2188 | 0.1053 | 2100 | 0.2191 |
0.187 | 0.1103 | 2200 | 0.2209 |
0.1757 | 0.1153 | 2300 | 0.2157 |
0.2309 | 0.1203 | 2400 | 0.2182 |
0.1906 | 0.1254 | 2500 | 0.2187 |
0.1603 | 0.1304 | 2600 | 0.2168 |
0.1501 | 0.1354 | 2700 | 0.2136 |
0.1855 | 0.1404 | 2800 | 0.2142 |
0.2025 | 0.1454 | 2900 | 0.2123 |
0.238 | 0.1504 | 3000 | 0.2116 |
0.2298 | 0.1554 | 3100 | 0.2122 |
0.1844 | 0.1605 | 3200 | 0.2143 |
0.1822 | 0.1655 | 3300 | 0.2135 |
0.1927 | 0.1705 | 3400 | 0.2113 |
0.1949 | 0.1755 | 3500 | 0.2129 |
0.2026 | 0.1805 | 3600 | 0.2088 |
0.2301 | 0.1855 | 3700 | 0.2093 |
0.1589 | 0.1905 | 3800 | 0.2082 |
0.1986 | 0.1956 | 3900 | 0.2070 |
0.1905 | 0.2006 | 4000 | 0.2087 |
0.2524 | 0.2056 | 4100 | 0.2088 |
0.2319 | 0.2106 | 4200 | 0.2069 |
0.1964 | 0.2156 | 4300 | 0.2061 |
0.2494 | 0.2206 | 4400 | 0.2044 |
0.2103 | 0.2256 | 4500 | 0.2062 |
0.2317 | 0.2307 | 4600 | 0.2061 |
0.2012 | 0.2357 | 4700 | 0.2036 |
0.1798 | 0.2407 | 4800 | 0.2043 |
0.1392 | 0.2457 | 4900 | 0.2068 |
0.1789 | 0.2507 | 5000 | 0.2048 |
0.1582 | 0.2557 | 5100 | 0.2056 |
0.1532 | 0.2607 | 5200 | 0.2061 |
0.2374 | 0.2658 | 5300 | 0.2056 |
0.1764 | 0.2708 | 5400 | 0.2038 |
0.1777 | 0.2758 | 5500 | 0.2037 |
0.1304 | 0.2808 | 5600 | 0.2031 |
0.1626 | 0.2858 | 5700 | 0.2026 |
0.1993 | 0.2908 | 5800 | 0.2006 |
0.1735 | 0.2958 | 5900 | 0.2001 |
0.1846 | 0.3009 | 6000 | 0.2016 |
0.2409 | 0.3059 | 6100 | 0.2021 |
0.1407 | 0.3109 | 6200 | 0.1995 |
0.1994 | 0.3159 | 6300 | 0.2012 |
0.1624 | 0.3209 | 6400 | 0.1980 |
0.1654 | 0.3259 | 6500 | 0.1986 |
0.1786 | 0.3309 | 6600 | 0.1978 |
0.1655 | 0.3360 | 6700 | 0.1966 |
0.1793 | 0.3410 | 6800 | 0.1980 |
0.1613 | 0.3460 | 6900 | 0.2000 |
0.1445 | 0.3510 | 7000 | 0.1986 |
0.1615 | 0.3560 | 7100 | 0.1980 |
0.1883 | 0.3610 | 7200 | 0.1974 |
0.1595 | 0.3660 | 7300 | 0.1973 |
0.174 | 0.3711 | 7400 | 0.1971 |
0.1718 | 0.3761 | 7500 | 0.1956 |
0.1471 | 0.3811 | 7600 | 0.1953 |
0.2277 | 0.3861 | 7700 | 0.1957 |
0.2498 | 0.3911 | 7800 | 0.1939 |
0.1917 | 0.3961 | 7900 | 0.1940 |
0.1758 | 0.4011 | 8000 | 0.1941 |
0.2184 | 0.4062 | 8100 | 0.1945 |
0.1694 | 0.4112 | 8200 | 0.1950 |
0.2017 | 0.4162 | 8300 | 0.1942 |
0.1739 | 0.4212 | 8400 | 0.1943 |
0.1798 | 0.4262 | 8500 | 0.1948 |
0.1848 | 0.4312 | 8600 | 0.1943 |
0.2359 | 0.4362 | 8700 | 0.1919 |
0.2025 | 0.4413 | 8800 | 0.1913 |
0.1739 | 0.4463 | 8900 | 0.1919 |
0.1923 | 0.4513 | 9000 | 0.1900 |
0.1768 | 0.4563 | 9100 | 0.1901 |
0.1804 | 0.4613 | 9200 | 0.1903 |
0.187 | 0.4663 | 9300 | 0.1902 |
0.1868 | 0.4713 | 9400 | 0.1894 |
0.1642 | 0.4764 | 9500 | 0.1890 |
0.1784 | 0.4814 | 9600 | 0.1901 |
0.16 | 0.4864 | 9700 | 0.1905 |
0.2091 | 0.4914 | 9800 | 0.1899 |
0.2816 | 0.4964 | 9900 | 0.1902 |
0.1968 | 0.5014 | 10000 | 0.1883 |
0.1561 | 0.5064 | 10100 | 0.1889 |
0.1809 | 0.5115 | 10200 | 0.1874 |
0.2081 | 0.5165 | 10300 | 0.1881 |
0.1948 | 0.5215 | 10400 | 0.1885 |
0.1434 | 0.5265 | 10500 | 0.1884 |
0.1841 | 0.5315 | 10600 | 0.1870 |
0.1735 | 0.5365 | 10700 | 0.1883 |
0.1825 | 0.5415 | 10800 | 0.1885 |
0.204 | 0.5466 | 10900 | 0.1879 |
0.1909 | 0.5516 | 11000 | 0.1872 |
0.2268 | 0.5566 | 11100 | 0.1863 |
0.1668 | 0.5616 | 11200 | 0.1858 |
0.2002 | 0.5666 | 11300 | 0.1856 |
0.1734 | 0.5716 | 11400 | 0.1861 |
0.1956 | 0.5766 | 11500 | 0.1862 |
0.2102 | 0.5817 | 11600 | 0.1862 |
0.1864 | 0.5867 | 11700 | 0.1859 |
0.1698 | 0.5917 | 11800 | 0.1858 |
0.173 | 0.5967 | 11900 | 0.1848 |
0.1623 | 0.6017 | 12000 | 0.1853 |
0.167 | 0.6067 | 12100 | 0.1856 |
0.1576 | 0.6117 | 12200 | 0.1851 |
0.1707 | 0.6168 | 12300 | 0.1851 |
0.2243 | 0.6218 | 12400 | 0.1846 |
0.228 | 0.6268 | 12500 | 0.1844 |
0.2364 | 0.6318 | 12600 | 0.1842 |
0.1618 | 0.6368 | 12700 | 0.1833 |
0.1352 | 0.6418 | 12800 | 0.1826 |
0.16 | 0.6468 | 12900 | 0.1816 |
0.1634 | 0.6519 | 13000 | 0.1821 |
0.1384 | 0.6569 | 13100 | 0.1820 |
0.1461 | 0.6619 | 13200 | 0.1816 |
0.1825 | 0.6669 | 13300 | 0.1808 |
0.1772 | 0.6719 | 13400 | 0.1809 |
0.1839 | 0.6769 | 13500 | 0.1806 |
0.1528 | 0.6819 | 13600 | 0.1813 |
0.1807 | 0.6870 | 13700 | 0.1808 |
0.1539 | 0.6920 | 13800 | 0.1802 |
0.1505 | 0.6970 | 13900 | 0.1800 |
0.1745 | 0.7020 | 14000 | 0.1804 |
0.144 | 0.7070 | 14100 | 0.1797 |
0.139 | 0.7120 | 14200 | 0.1802 |
0.158 | 0.7170 | 14300 | 0.1806 |
0.1429 | 0.7221 | 14400 | 0.1803 |
0.1946 | 0.7271 | 14500 | 0.1805 |
0.2058 | 0.7321 | 14600 | 0.1799 |
0.1488 | 0.7371 | 14700 | 0.1799 |
0.1786 | 0.7421 | 14800 | 0.1790 |
0.1774 | 0.7471 | 14900 | 0.1792 |
0.1863 | 0.7521 | 15000 | 0.1790 |
0.122 | 0.7572 | 15100 | 0.1789 |
0.1386 | 0.7622 | 15200 | 0.1786 |
0.161 | 0.7672 | 15300 | 0.1787 |
0.1288 | 0.7722 | 15400 | 0.1785 |
0.1985 | 0.7772 | 15500 | 0.1785 |
0.1427 | 0.7822 | 15600 | 0.1779 |
0.1538 | 0.7872 | 15700 | 0.1782 |
0.1339 | 0.7923 | 15800 | 0.1777 |
0.1682 | 0.7973 | 15900 | 0.1775 |
0.1725 | 0.8023 | 16000 | 0.1774 |
0.1856 | 0.8073 | 16100 | 0.1770 |
0.1573 | 0.8123 | 16200 | 0.1775 |
0.1697 | 0.8173 | 16300 | 0.1771 |
0.1673 | 0.8223 | 16400 | 0.1772 |
0.1839 | 0.8274 | 16500 | 0.1774 |
0.1543 | 0.8324 | 16600 | 0.1772 |
0.2069 | 0.8374 | 16700 | 0.1771 |
0.1887 | 0.8424 | 16800 | 0.1770 |
0.1736 | 0.8474 | 16900 | 0.1769 |
0.1852 | 0.8524 | 17000 | 0.1765 |
0.1737 | 0.8574 | 17100 | 0.1765 |
0.1909 | 0.8625 | 17200 | 0.1763 |
0.1666 | 0.8675 | 17300 | 0.1762 |
0.1763 | 0.8725 | 17400 | 0.1763 |
0.1559 | 0.8775 | 17500 | 0.1764 |
0.1978 | 0.8825 | 17600 | 0.1762 |
0.1924 | 0.8875 | 17700 | 0.1762 |
0.1967 | 0.8925 | 17800 | 0.1761 |
0.1818 | 0.8976 | 17900 | 0.1759 |
0.1783 | 0.9026 | 18000 | 0.1760 |
0.1773 | 0.9076 | 18100 | 0.1758 |
0.1932 | 0.9126 | 18200 | 0.1759 |
0.1793 | 0.9176 | 18300 | 0.1757 |
0.1587 | 0.9226 | 18400 | 0.1757 |
0.1736 | 0.9276 | 18500 | 0.1759 |
0.1594 | 0.9327 | 18600 | 0.1759 |
0.1693 | 0.9377 | 18700 | 0.1759 |
0.1712 | 0.9427 | 18800 | 0.1758 |
0.1725 | 0.9477 | 18900 | 0.1757 |
0.1663 | 0.9527 | 19000 | 0.1758 |
0.1932 | 0.9577 | 19100 | 0.1758 |
0.1791 | 0.9627 | 19200 | 0.1758 |
0.1621 | 0.9678 | 19300 | 0.1758 |
0.1855 | 0.9728 | 19400 | 0.1758 |
0.1564 | 0.9778 | 19500 | 0.1757 |
0.1912 | 0.9828 | 19600 | 0.1758 |
0.153 | 0.9878 | 19700 | 0.1758 |
0.1447 | 0.9928 | 19800 | 0.1757 |
0.225 | 0.9978 | 19900 | 0.1759 |
Framework versions
- Transformers 4.46.1
- Pytorch 2.4.0+cu121
- Datasets 3.1.0
- Tokenizers 0.20.3
- Downloads last month
- 4
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
๐
Ask for provider support