msbayindir
/

legal-turkish-bert-base-cased

dbmdz/bert-base-turkish-cased

Model card Files Files and versions Community

legal-turkish-bert-base-cased / README.md

msbayindir's picture

Update README.md

10bfb7b verified 4 months ago

|

history blame contribute delete

2.42 kB

	---
	language: tr
	tags:
	- turkish
	- masked-lm
	- legal
	- dbmdz/bert-base-turkish-cased
	license: mit
	datasets:
	- custom_legal_dataset
	model-index:
	- name: legal-turkish-bert-base-cased
	results:
	- task:
	name: Masked Language Modeling
	type: masked-lm
	metrics:
	- name: Validation Loss
	type: loss
	value: 0.582253
	base_model: dbmdz/bert-base-turkish-cased
	widget:
	- text: Anayasa, Türk Vatanı ve [MASK] ebedi varlığını korur.
	pipeline_tag: fill-mask
	---

	# legal-turkish-bert-base-cased

	Bu model, Türkçe hukuk metinleri üzerinde fine-tune edilmiş dbmdz/bert-base-turkish-cased modelidir.

	## Kullanım Alanları
	- Hukuki metin analizi
	- Hukuki metin anlama

	## Model Detayları
	- Base Model: dbmdz/bert-base-turkish-cased
	- Dataset Size: 150k
	- Training Parameters:
	- Batch Size: 64
	- Learning Rate: 2e-5
	- Epochs: 10
	- Max Length: 256

	## Kullanım Örneği
	```python
	from transformers import AutoTokenizer, TFAutoModelForMaskedLM
	import tensorflow as tf

	# Tokenizer ve model yükleme
	tokenizer = AutoTokenizer.from_pretrained("msbayindir/legal-turkish-bert-base-cased")
	model = TFAutoModelForMaskedLM.from_pretrained("msbayindir/legal-turkish-bert-base-cased")

	# Örnek metin "Hukuk"
	text = "Anayasa, millet iradesinin hürriyetçi demokrasi ve [MASK] düzeni çerçevesinde kullanılacağını belirtiyor."

	# Tokenizer kullanarak metni işleme
	inputs = tokenizer(text, return_tensors="tf")

	# Maskeli tokenın indeksini bulma
	mask_token_index = tf.where(inputs["input_ids"] == tokenizer.mask_token_id)[0, 1]

	# Modeli çalıştırma ve logits değerlerini alma
	logits = model(**inputs).logits

	# Maskelenmiş token için tahmin edilen olasılıkları alma
	mask_token_logits = logits[0, mask_token_index, :]

	# En iyi 3 tahmini seçme
	top_3_tokens = tf.math.top_k(mask_token_logits, 3).indices.numpy()

	# Tahmin edilen kelimelerle metni değiştirme ve yazdırma
	for token in top_3_tokens:
	print(text.replace(tokenizer.mask_token, tokenizer.decode([token])))

	## Output
	Anayasa, millet iradesinin hürriyetçi demokrasi ve hukuk düzeni çerçevesinde kullanılacağını belirtiyor.
	Anayasa, millet iradesinin hürriyetçi demokrasi ve kamu düzeni çerçevesinde kullanılacağını belirtiyor.
	Anayasa, millet iradesinin hürriyetçi demokrasi ve toplum düzeni çerçevesinde kullanılacağını belirtiyor.
	```