[Pytanie] Dalszy rozwój PLLuM: modele bazowe i dostępność danych treningowych
Witam,
Mam dwa pytania dotyczące projektu:
Przyszłe modele: Czy w planach jest wykorzystanie nowszych architektur bazowych, które oferują dodatkowe funkcjonalności, takie jak multimodalność (np. obsługa obrazu)? Modele takie jak Mistral-Small-3.2 ukazują w tym kierunku duży potencjał, ponieważ już teraz wykazują zdolności komunikacyjne w języku polskim bez specjalistycznego treningu. Jego wstępna znajomość języka polskiego, w połączeniu z kompatybilną licencją (Apache 2.0, taką samą jak w przypadku Mistral Nemo), czyni go obiecującym i naturalnym kandydatem na bazę dla przyszłych eksperymentów.
Dane treningowe: W opisie modelu znajduje się informacja o zbiorze ~28B tokenów dostępnych do użytku komercyjnego. Czy jest planowane udostępnienie tego zbioru publicznie? Byłoby to bardzo przydatne do dalszego dostrajania (fine-tuningu) innych otwartych modeli, a także mogłoby się przyczynić do lepszego wsparcia języka polskiego przez mniejsze modele.
Z góry dziękuję za odpowiedź i pozdrawiam cały zespół!