README.md · te-sla/piloT5 at main

metadata

license: cc-by-4.0
datasets:
  - procesaur/znanje
  - procesaur/Vikipedija
  - procesaur/Vikizvornik
  - procesaur/kisobran
  - jerteh/SrpELTeC
language:
  - sr

Аутоенкодер заснован на Т5 архитектури - 248 милиона параметара

Обучаван над корпусом српског језика - 4 милијарди речи

T5 based Autoencoder - 248 million parameters

Trained on Serbian corpora - 4 billion words

>>> from transformers import T5ForConditionalGeneration, T5TokenizerFast
>>> import torch

>>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5")
>>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5")
>>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2."
>>> input = tokenizer(text, return_tensors="pt")

>>> with torch.no_grad():
>>>     output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False, max_length=512)
>>> decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)
>>> print(decoded_output)

>>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2.

Евалуација на задатку сумаризације - српски језик	Evaluation on the summarization task - Serbian language

Author

Mihailo Škorić

@procesaur

Computation

Nacionalna AI platforma

ai.gov.rs

Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA

This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA

Евалуација на задатку сумаризације - српски језик

Evaluation on the summarization task - Serbian language