te-sla
/

piloT5

Safetensors

Serbian

Model card Files Files and versions

xet

Community

procesaur commited on 18 days ago

Commit

d5be79d

verified ·

1 Parent(s): f2b2899

Update README.md

Browse files

Files changed (1) hide show

README.md +19 -26

README.md CHANGED Viewed

@@ -31,30 +31,22 @@ language:
   </table>
 ```python
->>> from transformers import pipeline
->>> unmasker = pipeline('fill-mask', model='te-sla/teslaXLM')
->>> unmasker("Kada bi čovek znao gde će pasti on bi<mask>.")
 ```
 ```python
->>> from transformers import AutoTokenizer, AutoModelForMaskedLM
->>> from torch import LongTensor, no_grad
->>> from scipy import spatial
->>> tokenizer = AutoTokenizer.from_pretrained('te-sla/teslaXLM')
->>> model = AutoModelForMaskedLM.from_pretrained('te-sla/teslaXLM', output_hidden_states=True)
->>> x = " pas"
->>> y = " mačka"
->>> z = " svemir"
->>> tensor_x = LongTensor(tokenizer.encode(x, add_special_tokens=False)).unsqueeze(0)
->>> tensor_y = LongTensor(tokenizer.encode(y, add_special_tokens=False)).unsqueeze(0)
->>> tensor_z = LongTensor(tokenizer.encode(z, add_special_tokens=False)).unsqueeze(0)
->>> model.eval()
->>> with no_grad():
->>>     vektor_x = model(input_ids=tensor_x).hidden_states[-1].squeeze()
->>>     vektor_y = model(input_ids=tensor_y).hidden_states[-1].squeeze()
->>>     vektor_z = model(input_ids=tensor_z).hidden_states[-1].squeeze()
->>>     print(spatial.distance.cosine(vektor_x, vektor_y))
->>>     print(spatial.distance.cosine(vektor_x, vektor_z))
 ```
 <div class="inline-flex flex-col" style="line-height: 1.5;padding-right:50px">
@@ -99,18 +91,19 @@ language:
 </div>
 ## Cit.
 ```bibtex
-@inproceedings{skoricxlm,
-  author    = {Mihailo Škorić, Saša Petalinkar},
-  title     = {New XLM-R-based language models for Serbian and Serbo-Croatian},
   booktitle   = {ARTIFICAL INTELLIGENCE CONFERENCE},
-  year      = {2024},
   address = {Belgrade}
   publisher = {SASA, Belgrade},
   url       = {}
 }
 ```
 <br/>
 <div id="zastava">
   <div class="grb">

   </table>
 ```python
+>>> from transformers import T5ForConditionalGeneration, T5TokenizerFast
+>>> import torch
+>>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5")
+>>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5")
+>>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2."
+>>> input = t(text, return_tensors="pt")
+>>> with torch.no_grad():
+>>>     output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False)
+>>> decoded_output = t.decode(output[0], skip_special_tokens=True)
+>>> print(decoded_output)
 ```
 ```python
+>>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2.
 ```
 <div class="inline-flex flex-col" style="line-height: 1.5;padding-right:50px">
 </div>
 ## Cit.
+<!--div>
 ```bibtex
+@inproceedings{skorict5,
+  author    = {Mihailo Škorić},
+  title     = {Pilot Text to Text Transfer Transformer Model for Serbian Language},
   booktitle   = {ARTIFICAL INTELLIGENCE CONFERENCE},
+  year      = {2025},
   address = {Belgrade}
   publisher = {SASA, Belgrade},
   url       = {}
 }
 ```
+</div-->
 <br/>
 <div id="zastava">
   <div class="grb">