Safetensors
Serbian
t5

Аутоенкодер заснован на Т5 архитектури - 248 милиона параметара

Обучаван над корпусом српског језика - 4 милијарди речи

T5 based Autoencoder - 248 million parameters

Trained on Serbian corpora - 4 billion words

>>> from transformers import T5ForConditionalGeneration, T5TokenizerFast
>>> import torch

>>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5")
>>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5")
>>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2."
>>> input = tokenizer(text, return_tensors="pt")

>>> with torch.no_grad():
>>>     output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False, max_length=512)
>>> decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)
>>> print(decoded_output)
>>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2.
Евалуација на задатку сумаризације - српски језик
Evaluation on the summarization task - Serbian language
Author
Mihailo Škorić
Computation
Nacionalna AI platforma


Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA

This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA

Downloads last month
268
Safetensors
Model size
248M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for te-sla/piloT5

Finetunes
1 model

Datasets used to train te-sla/piloT5