File size: 2,934 Bytes
9fe4202
 
 
 
 
 
 
 
 
9d9e4f8
 
9fe4202
 
 
 
 
f8cbe3c
 
9fe4202
f8cbe3c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9d9e4f8
f8cbe3c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9fe4202
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
---
base_model: google/gemma-3-270m-it
library_name: transformers
model_name: MyGemmaNPC
tags:
- generated_from_trainer
- trl
- sft
licence: license
language:
- ky
---

## Quick start

```python
import torch
from transformers import pipeline, AutoTokenizer

# 1. Моделдин ID'син көрсөтөбүз
model_id = "murat/kyrgyz_umlaut_corrector"

# 2. Токенайзерди жүктөйбүз. Бул бизге атайын токендерди алууга керек.
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 3. Pipeline'ды түзөбүз
# Эгер токенайзерди өзүнчө жүктөсөк, pipeline аны туура колдонот.
generator = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    device="cpu", # cuda
    # torch_dtype=torch.bfloat16 # uncomment this line if you are using cuda
)

# 4. Токтотуучу токендин ID'син алабыз
# Gemma чат модели үчүн ар бир жооптун аягы ушул токен менен белгиленет.
stop_token_id = tokenizer.convert_tokens_to_ids("<end_of_turn>")

# 5. Текстти даярдайбыз
incorrect_text = "омур бою иштеген адамдар чынында бактылуу деп ойлойсунбу?"
chat_prompt = [{"role": "user", "content": incorrect_text}]

# 6. Моделди керектүү параметрлер менен чакырабыз
output = generator(
    chat_prompt,
    max_new_tokens=128,
    return_full_text=False,
    # Бул эң маанилүү параметр: ушул токенге жеткенде генерацияны токтот
    eos_token_id=stop_token_id,
    # Так оңдоо үчүн do_sample=False койгон жакшы.
    # Бул моделди эң ыктымалдуу жоопту тандоого мажбурлайт.
    do_sample=False
)

# 7. Жыйынтыкты чыгарабыз
# .strip() методу ашыкча боштуктарды же саптарды тазалайт
corrected_text = output[0]["generated_text"].strip()
print(corrected_text)

# Күтүлгөн жыйынтык:
# өмүр бою иштеген адамдар чынында бактылуу деп ойлойсуңбу?
```

## Training procedure

 


This model was trained with SFT.

### Framework versions

- TRL: 0.21.0
- Transformers: 4.55.0
- Pytorch: 2.6.0+cu124
- Datasets: 4.0.0
- Tokenizers: 0.21.4

## Citations



Cite TRL as:
    
```bibtex
@misc{vonwerra2022trl,
	title        = {{TRL: Transformer Reinforcement Learning}},
	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
	year         = 2020,
	journal      = {GitHub repository},
	publisher    = {GitHub},
	howpublished = {\url{https://github.com/huggingface/trl}}
}
```