ruSpamNS_v31_big

Модель ruSpamNS_v31_big — нейросеть для определения спама в русскоязычных текстах. Обучена на почти 5 миллионах примеров, показывает высокую точность и устойчивость, но иногда может ошибаться на сообщениях с коммерческой тематикой.

Архитектура

  • Базовая модель: RuBERT
  • Тип задачи: бинарная классификация (СПАМ / НЕ СПАМ)
  • Количество меток: 1 (используется сигмоида для вероятности спама)
  • Фреймворк: PyTorch + Transformers (Hugging Face)

Особенности

  • Обработка текста до 512 токенов
  • Поддержка GPU через PyTorch
  • Высокая точность на русскоязычном спаме
  • Используется в антиспам-боте Telegram: @AntiSpam_moder_bot
  • При использовании модели в проектах необходимо указывать ссылку на репозиторий.

Пример использования

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("NeuroSpaceX/ruSpamNS_v31_big")
model = AutoModelForSequenceClassification.from_pretrained(
    "NeuroSpaceX/ruSpamNS_v31_big", num_labels=1
).to(device).eval()

text = "Пример сообщения"
encoding = tokenizer(text, padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = encoding["input_ids"].to(device)
attention_mask = encoding["attention_mask"].to(device)

with torch.no_grad():
    outputs = model(input_ids, attention_mask=attention_mask).logits
    prediction = torch.sigmoid(outputs).cpu().numpy()[0][0]
    is_spam = prediction >= 0.5

print(f"Результат: {'СПАМ' if is_spam else 'НЕ СПАМ'} (уверенность: {prediction:.4f})")
Downloads last month
67
Safetensors
Model size
107M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Spaces using darkQibit/ruSpamNS_v31_big 2