File size: 3,487 Bytes
81c5cc6
b3e7284
 
 
 
 
 
 
 
 
 
 
 
 
 
 
81c5cc6
b3e7284
81c5cc6
b3e7284
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
---
language:
- ru

pipeline_tag: sentence-similarity

tags:
- russian
- pretraining
- embeddings
- tiny
- feature-extraction
- sentence-similarity
- sentence-transformers
- transformers

license: mit

---

## Быстрый Bert для Semantic text similarity (STS)

Современная (на март 2024) быстрая модель BERT для расчетов компактных эмбедингов предложений на русском языке. Модель основана на [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2), имеет аналогичный размер и быстродействие. На STS и близких задачах (PI, NLI, SA, TI) для русского языка превосходит LaBSE.

Оптимальна для использования в составе RAG LLMs (при вынужденном инференсе на CPU). Для работы с контекстом свыше 512 требует дообучения под целевой домен.

## Использование модели с библиотекой `transformers`:

```python
# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-tiny-sts")
model = AutoModel.from_pretrained("sergeyzh/rubert-tiny-sts")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (312,)
```

## Использование с `sentence_transformers`:
```Python
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sergeyzh/rubert-tiny-sts')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))
```

## Метрики
Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka):

| Модель                           | STS       | PI        | NLI       | SA        | TI        |
|:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
| intfloat/multilingual-e5-large   |   0.862   |   0.727   |   0.473   |   0.810   |   0.979   |
| Tochka-AI/ruRoPEBert-e5-base-512 |   0.793   |   0.704   |   0.457   |   0.803   |   0.970   |
| **sergeyzh/rubert-tiny-sts**    | **0.797** | **0.702** | **0.453** | **0.778** | **0.946** |
| cointegrated/LaBSE-en-ru         |   0.794   |   0.659   |   0.431   |   0.761   |   0.946   |
| cointegrated/rubert-tiny2        |   0.750   |   0.651   |   0.417   |   0.737   |   0.937   |

**Задачи:**

- Semantic text similarity (**STS**);
- Paraphrase identification (**PI**);
- Natural language inference (**NLI**);
- Sentiment analysis (**SA**);
- Toxicity identification (**TI**).

## Связанные ресурсы
Вопросы использования модели обсуждаются в [русскоязычном чате NLP](https://t.me/natural_language_processing).