--- language: uk tags: - text-classification - ukrainian - slang-detection - random-forest - sklearn - enhanced-features license: mit library_name: sklearn --- # Ukrainian Slang Detection Enhanced Model Покращена модель для визначення сленгових слів в українському тексті з розширеним набором лінгвістичних ознак. ## Модель - **Тип**: Random Forest Classifier (sklearn) - **F1-Score**: 0.846 - **Кількість фічей**: 5,395 - **Навчальних прикладів**: 10,000 (5,000 сленг + 5,000 нейтральні) - **Мова**: Українська ## Фічі моделі ### 1. TF-IDF символьні n-грами (2-5) - Аналізує послідовності символів для виявлення сленгових патернів ### 2. TF-IDF словесні n-грами - Аналізує цілі слова та їх комбінації ### 3. Лінгвістичні ознаки (14 фічей) - Довжина слова - Повторювані символи - Співвідношення голосних/приголосних - Наявність цифр та спеціальних символів - Сленгові патерни ('жж', 'кк', 'топ', 'лол', тощо) - Морфологічні характеристики ## Файли моделі - `enhanced_slang_model.pkl` - повна навчена модель з pipeline - `model_metadata.json` - метадані про модель ## Використання ```python import joblib from huggingface_hub import hf_hub_download # Завантажити модель model_path = hf_hub_download( repo_id="RomanSavitskyi/ukrainian-slang-detection-enhanced", filename="enhanced_slang_model.pkl" ) model = joblib.load(model_path) # Класифікація def predict_slang_enhanced(word): pred = model.predict([word])[0] prob = model.predict_proba([word])[0] slang_prob = prob[1] label = "SLANG" if pred == 1 else "NEUTRAL" return {"label": label, "score": float(slang_prob)} # Приклад використання result = predict_slang_enhanced("кльово") print(result) # {"label": "SLANG", "score": 0.84} ``` ## Покращення порівняно з базовою моделлю - **F1-Score**: 0.846 vs 0.78 (базова) - **Фічі**: 5,395 vs 3,000 (базова) - **Кращий розпіз повторюваних символів**: "кльововоо", "хахаха" - **Розуміння морфології**: українські відмінки та форми - **Стійкість до шуму**: менше false positives ## Тестові результати ``` кльово -> СЛЕНГ (0.840) супер -> НЕЙТРАЛЬНЕ (0.460) топчик -> СЛЕНГ (0.690) книга -> НЕЙТРАЛЬНЕ (0.190) хахаха -> СЛЕНГ (0.870) ``` ## Ліцензія MIT License