Saskia, Sonja & Frida - Personality Detection System V2: Conscientiousness Prediction V2

This model predicts conscientiousness personality trait levels (low, medium, high) from text input for recruitment applications. This is version 2 of our personality prediction system.

🎯 Model Overview

Task: 3-class personality classification
Trait: Conscientiousness (Big Five personality dimension)
Classes: Low, Medium, High
Domain: Social media → Job interview responses
Application: Digital recruitment screening
Version: 2.0

🏗️ Model Details

Base Model: RoBERTa-base
Architecture: Transformer encoder + classification head
Training Data: PANDORA dataset (Reddit comments)
Framework: PyTorch + Transformers
Author: Saskia, Sonja & Frida
Project: NLP Shared Task 2025 - University of Antwerp

🚀 Quick Start

from transformers import RobertaTokenizer, RobertaForSequenceClassification
import torch
import json
from huggingface_hub import hf_hub_download

# Load model and tokenizer
model = RobertaForSequenceClassification.from_pretrained("vincenzoooooo/saskia-sonja-frida-2-conscientiousness")
tokenizer = RobertaTokenizer.from_pretrained("vincenzoooooo/saskia-sonja-frida-2-conscientiousness")

# Load label encoder
label_encoder_path = hf_hub_download(repo_id="vincenzoooooo/saskia-sonja-frida-2-conscientiousness", filename="label_encoder.json")
with open(label_encoder_path, 'r') as f:
    label_data = json.load(f)
    classes = label_data['classes']  # ['low', 'medium', 'high']

# Make prediction
text = "I love meeting new people and trying new experiences!"
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=128)
outputs = model(**inputs)
predicted_class_id = torch.argmax(outputs.logits, dim=-1).item()
prediction = classes[predicted_class_id]
print(f"Conscientiousness: {prediction}")

📊 Training Details

Optimizer: AdamW (lr=2e-5)
Epochs: 2-3
Batch Size: 4-8 (memory optimized)
Max Sequence Length: 128 tokens
Device: CPU/GPU with memory optimization

🎨 Use Cases

Digital Recruitment: Screen job candidates
HR Analytics: Analyze communication styles
Research: Study personality in text
Chatbots: Personality-aware responses

⚠️ Limitations

Domain Gap: Trained on Reddit, applied to job interviews
Bias: May reflect Reddit user demographics
Language: English only
Context: Short text segments only
Small Dataset: Limited training samples

📝 Citation

@misc{saskia_sonja_frida_2_conscientiousness_2025,
  title={Saskia, Sonja & Frida - Personality Detection System V2: Conscientiousness Prediction V2},
  author={Saskia, Sonja & Frida},
  year={2025},
  howpublished={\url{https://huggingface.co/vincenzoooooo/saskia-sonja-frida-2-conscientiousness}},
  note={NLP Shared Task 2025 - University of Antwerp}
}

🤝 Related Models (V2 Series)

Check out our complete personality prediction suite V2:

Developed by Saskia, Sonja & Frida for NLP Shared Task 2025 - University of Antwerp - Version 2.0