--- language: - ru pipeline_tag: sentence-similarity tags: - russian - pretraining - embeddings - tiny - feature-extraction - sentence-similarity - sentence-transformers - transformers license: mit --- ## Быстрый Bert для Semantic text similarity (STS) Современная (на март 2024) быстрая модель BERT для расчетов компактных эмбедингов предложений на русском языке. Модель основана на [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2), имеет аналогичный размер и быстродействие. На STS и близких задачах (PI, NLI, SA, TI) для русского языка превосходит LaBSE. Оптимальна для использования в составе RAG LLMs (при вынужденном инференсе на CPU). Для работы с контекстом свыше 512 требует дообучения под целевой домен. ## Использование модели с библиотекой `transformers`: ```python # pip install transformers sentencepiece import torch from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-tiny-sts") model = AutoModel.from_pretrained("sergeyzh/rubert-tiny-sts") # model.cuda() # uncomment it if you have a GPU def embed_bert_cls(text, model, tokenizer): t = tokenizer(text, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): model_output = model(**{k: v.to(model.device) for k, v in t.items()}) embeddings = model_output.last_hidden_state[:, 0, :] embeddings = torch.nn.functional.normalize(embeddings) return embeddings[0].cpu().numpy() print(embed_bert_cls('привет мир', model, tokenizer).shape) # (312,) ``` ## Использование с `sentence_transformers`: ```Python from sentence_transformers import SentenceTransformer, util model = SentenceTransformer('sergeyzh/rubert-tiny-sts') sentences = ["привет мир", "hello world", "здравствуй вселенная"] embeddings = model.encode(sentences) print(util.dot_score(embeddings, embeddings)) ``` ## Метрики Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka): | Модель | STS | PI | NLI | SA | TI | |:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:| | intfloat/multilingual-e5-large | 0.862 | 0.727 | 0.473 | 0.810 | 0.979 | | Tochka-AI/ruRoPEBert-e5-base-512 | 0.793 | 0.704 | 0.457 | 0.803 | 0.970 | | **sergeyzh/rubert-tiny-sts** | **0.797** | **0.702** | **0.453** | **0.778** | **0.946** | | cointegrated/LaBSE-en-ru | 0.794 | 0.659 | 0.431 | 0.761 | 0.946 | | cointegrated/rubert-tiny2 | 0.750 | 0.651 | 0.417 | 0.737 | 0.937 | **Задачи:** - Semantic text similarity (**STS**); - Paraphrase identification (**PI**); - Natural language inference (**NLI**); - Sentiment analysis (**SA**); - Toxicity identification (**TI**). ## Связанные ресурсы Вопросы использования модели обсуждаются в [русскоязычном чате NLP](https://t.me/natural_language_processing).