---
datasets:
- ai4privacy/pii-masking-400k
language:
- de
base_model:
- iiiorg/piiranha-v1-detect-personal-information
pipeline_tag: token-classification
tags:
- named-entity-recognition
- ner
- pii
- datenschutz
- dsg
- dsgvo
- german
---


# 🛡️ PII Sensitive NER – German

Ein feinjustiertes Modell zur **Erkennung schützenswerter und besonders schützenswerter Personendaten** nach **DSGVO** und **Schweizer DSG**. Das Modell basiert auf `iiiorg/piiranha-v1-detect-personal-information` und wurde auf deutschsprachigen Beispielen trainiert.

## 🔍 Anwendungsfall

Das Modell erkennt personenbezogene Daten in Texten – insbesondere verschiedene Kategorien von **besonders schützenswerten Personendaten** gemäss Art. 9 DSGVO wie:

- `REL`: Religion (z. B. *Weihnachten*, *islamisch*, *Konfirmation*)
- `ETHN`: Ethnische Zugehörigkeit (z. B. *türkischstämmig*, *asiatisch*)
- `SOR`: Sexuelle Orientierung (z. B. *homosexuell*, *bisexuell*)

Zusätzlich werden Standard-Entitäten aus dem [Piiranha-Modell](https://huggingface.co/iiiorg/piiranha-v1-detect-personal-information) wie `EMAIL`, `TELEPHONENUM`, `DATEOFBIRTH`, `IDCARDNUM` etc. erkannt.


## 📊 Training

Das Modell wurde mit einer Kombination aus:

- dem deutschen Teil des [ai4privacy/pii-masking-400k](https://huggingface.co/datasets/ai4privacy/pii-masking-400k) Datensatzes
- synthetisch generierten Beispielen für die Labels `REL`, `ETHN` und `SOR`

fine-getuned.


## ⚠️ Disclaimer

Dieses Modell wurde auf synthetisch erzeugten Daten validiert und evaluiert. Obwohl bei der Generierung auf hohe Variation und realitätsnahe Formulierungen geachtet wurde, kann die tatsächliche Leistung im Einsatz mit echten, unstrukturierten Texten abweichen.

Das Modell befindet sich in einem frühen Entwicklungsstadium und ist nicht frei von Fehlern. Insbesondere bei mehrdeutigen oder komplex verschachtelten Sätzen kann es zu Fehlklassifikationen oder unvollständiger Erkennung kommen. Eine manuelle Nachprüfung der Ergebnisse wird ausdrücklich empfohlen.

Die Weiterentwicklung und Evaluierung des Modells auf echten Anwendungsdaten ist vorgesehen, konnte im Rahmen dieser Version jedoch noch nicht erfolgen.

**Es wird keine Haftung für die Funktionsweise, Genauigkeit oder Vollständigkeit des Modells übernommen. Die Nutzung erfolgt auf eigene Verantwortung.**


## 📦 Verwendung

```python
from transformers import pipeline

model = pipeline(
    "token-classification",
    model="HuggingLil/pii-sensitive-ner-german",
    aggregation_strategy="simple" 
)

text = "Elena Petrov ist Kosovarin und hat die Emailadresse elena.petrov@uni-berlin.de angegeben."
output = model(text)
print(output)