|
--- |
|
language: tr |
|
tags: |
|
- turkish |
|
- masked-lm |
|
- legal |
|
- dbmdz/bert-base-turkish-cased |
|
license: mit |
|
datasets: |
|
- custom_legal_dataset |
|
model-index: |
|
- name: legal-turkish-bert-base-cased |
|
results: |
|
- task: |
|
name: Masked Language Modeling |
|
type: masked-lm |
|
metrics: |
|
- name: Validation Loss |
|
type: loss |
|
value: 0.582253 |
|
base_model: dbmdz/bert-base-turkish-cased |
|
widget: |
|
- text: Anayasa, Türk Vatanı ve [MASK] ebedi varlığını korur. |
|
pipeline_tag: fill-mask |
|
--- |
|
|
|
# legal-turkish-bert-base-cased |
|
|
|
Bu model, Türkçe hukuk metinleri üzerinde fine-tune edilmiş dbmdz/bert-base-turkish-cased modelidir. |
|
|
|
## Kullanım Alanları |
|
- Hukuki metin analizi |
|
- Hukuki metin anlama |
|
|
|
## Model Detayları |
|
- Base Model: dbmdz/bert-base-turkish-cased |
|
- Dataset Size: 150k |
|
- Training Parameters: |
|
- Batch Size: 64 |
|
- Learning Rate: 2e-5 |
|
- Epochs: 10 |
|
- Max Length: 256 |
|
|
|
## Kullanım Örneği |
|
```python |
|
from transformers import AutoTokenizer, TFAutoModelForMaskedLM |
|
import tensorflow as tf |
|
|
|
# Tokenizer ve model yükleme |
|
tokenizer = AutoTokenizer.from_pretrained("msbayindir/legal-turkish-bert-base-cased") |
|
model = TFAutoModelForMaskedLM.from_pretrained("msbayindir/legal-turkish-bert-base-cased") |
|
|
|
# Örnek metin "Hukuk" |
|
text = "Anayasa, millet iradesinin hürriyetçi demokrasi ve [MASK] düzeni çerçevesinde kullanılacağını belirtiyor." |
|
|
|
# Tokenizer kullanarak metni işleme |
|
inputs = tokenizer(text, return_tensors="tf") |
|
|
|
# Maskeli tokenın indeksini bulma |
|
mask_token_index = tf.where(inputs["input_ids"] == tokenizer.mask_token_id)[0, 1] |
|
|
|
# Modeli çalıştırma ve logits değerlerini alma |
|
logits = model(**inputs).logits |
|
|
|
# Maskelenmiş token için tahmin edilen olasılıkları alma |
|
mask_token_logits = logits[0, mask_token_index, :] |
|
|
|
# En iyi 3 tahmini seçme |
|
top_3_tokens = tf.math.top_k(mask_token_logits, 3).indices.numpy() |
|
|
|
# Tahmin edilen kelimelerle metni değiştirme ve yazdırma |
|
for token in top_3_tokens: |
|
print(text.replace(tokenizer.mask_token, tokenizer.decode([token]))) |
|
|
|
## Output |
|
Anayasa, millet iradesinin hürriyetçi demokrasi ve hukuk düzeni çerçevesinde kullanılacağını belirtiyor. |
|
Anayasa, millet iradesinin hürriyetçi demokrasi ve kamu düzeni çerçevesinde kullanılacağını belirtiyor. |
|
Anayasa, millet iradesinin hürriyetçi demokrasi ve toplum düzeni çerçevesinde kullanılacağını belirtiyor. |
|
``` |