
Аутоенкодер заснован на Т5 архитектури - 248 милиона параметара Обучаван над корпусом српског језика - 4 милијарди речи |
T5 based Autoencoder - 248 million parameters Trained on Serbian corpora - 4 billion words |
>>> from transformers import T5ForConditionalGeneration, T5TokenizerFast
>>> import torch
>>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5")
>>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5")
>>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2."
>>> input = tokenizer(text, return_tensors="pt")
>>> with torch.no_grad():
>>> output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False, max_length=512)
>>> decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)
>>> print(decoded_output)
>>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2.
Евалуација на задатку сумаризације - српски језик |
Evaluation on the summarization task - Serbian language |
![]() |

Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA |
This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA |
- Downloads last month
- 268
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support