murat
/

kyrgyz_umlaut_corrector

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

kyrgyz_umlaut_corrector / README.md

murat's picture

Fix repeating model output

f8cbe3c verified about 1 month ago

|

history blame contribute delete

2.93 kB

	---
	base_model: google/gemma-3-270m-it
	library_name: transformers
	model_name: MyGemmaNPC
	tags:
	- generated_from_trainer
	- trl
	- sft
	licence: license
	language:
	- ky
	---

	## Quick start

	```python
	import torch
	from transformers import pipeline, AutoTokenizer

	# 1. Моделдин ID'син көрсөтөбүз
	model_id = "murat/kyrgyz_umlaut_corrector"

	# 2. Токенайзерди жүктөйбүз. Бул бизге атайын токендерди алууга керек.
	tokenizer = AutoTokenizer.from_pretrained(model_id)

	# 3. Pipeline'ды түзөбүз
	# Эгер токенайзерди өзүнчө жүктөсөк, pipeline аны туура колдонот.
	generator = pipeline(
	"text-generation",
	model=model_id,
	tokenizer=tokenizer,
	device="cpu", # cuda
	# torch_dtype=torch.bfloat16 # uncomment this line if you are using cuda
	)

	# 4. Токтотуучу токендин ID'син алабыз
	# Gemma чат модели үчүн ар бир жооптун аягы ушул токен менен белгиленет.
	stop_token_id = tokenizer.convert_tokens_to_ids("<end_of_turn>")

	# 5. Текстти даярдайбыз
	incorrect_text = "омур бою иштеген адамдар чынында бактылуу деп ойлойсунбу?"
	chat_prompt = [{"role": "user", "content": incorrect_text}]

	# 6. Моделди керектүү параметрлер менен чакырабыз
	output = generator(
	chat_prompt,
	max_new_tokens=128,
	return_full_text=False,
	# Бул эң маанилүү параметр: ушул токенге жеткенде генерацияны токтот
	eos_token_id=stop_token_id,
	# Так оңдоо үчүн do_sample=False койгон жакшы.
	# Бул моделди эң ыктымалдуу жоопту тандоого мажбурлайт.
	do_sample=False
	)

	# 7. Жыйынтыкты чыгарабыз
	# .strip() методу ашыкча боштуктарды же саптарды тазалайт
	corrected_text = output[0]["generated_text"].strip()
	print(corrected_text)

	# Күтүлгөн жыйынтык:
	# өмүр бою иштеген адамдар чынында бактылуу деп ойлойсуңбу?
	```

	## Training procedure




	This model was trained with SFT.

	### Framework versions

	- TRL: 0.21.0
	- Transformers: 4.55.0
	- Pytorch: 2.6.0+cu124
	- Datasets: 4.0.0
	- Tokenizers: 0.21.4

	## Citations



	Cite TRL as:

	```bibtex
	@misc{vonwerra2022trl,
	title = {{TRL: Transformer Reinforcement Learning}},
	author = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
	year = 2020,
	journal = {GitHub repository},
	publisher = {GitHub},
	howpublished = {\url{https://github.com/huggingface/trl}}
	}
	```