Update README.md
Browse files
README.md
CHANGED
@@ -34,7 +34,7 @@ base_model: sergeyzh/rubert-mini-sts
|
|
34 |
|
35 |
## Префиксы
|
36 |
Все префиксы унаследованы от FRIDA.
|
37 |
-
Оптимальный (обеспечивающий средние результаты) для большинства задач - "categorize: " прописан по умолчанию в [config_sentence_transformers.json](https://huggingface.co/sergeyzh/rubert-mini-frida/config_sentence_transformers.json)
|
38 |
|
39 |
Перечень используемых префиксов и их влияние на оценки модели в [encodechka](https://github.com/avidale/encodechka):
|
40 |
|
@@ -58,6 +58,8 @@ base_model: sergeyzh/rubert-mini-sts
|
|
58 |
- Sentiment analysis (**SA**);
|
59 |
- Toxicity identification (**TI**).
|
60 |
|
|
|
|
|
61 |
# Метрики
|
62 |
Оценки модели на бенчмарке [ruMTEB](https://habr.com/ru/companies/sberdevices/articles/831150/):
|
63 |
|
@@ -142,35 +144,8 @@ print(sim_scores.diag().tolist())
|
|
142 |
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA
|
143 |
```
|
144 |
|
145 |
-
## Использование с `sentence_transformers`:
|
146 |
-
|
147 |
-
```python
|
148 |
-
from sentence_transformers import SentenceTransformer
|
149 |
-
|
150 |
-
inputs = [
|
151 |
-
#
|
152 |
-
"paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
|
153 |
-
"categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
|
154 |
-
"search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
|
155 |
-
#
|
156 |
-
"paraphrase: Ярославским баням разрешили работать без посетителей",
|
157 |
-
"categorize_entailment: Женщину спасают врачи.",
|
158 |
-
"search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
|
159 |
-
]
|
160 |
-
|
161 |
-
# loads model with mean pooling
|
162 |
-
model = SentenceTransformer("sergeyzh/rubert-mini-frida")
|
163 |
-
|
164 |
-
# embeddings are normalized by default
|
165 |
-
embeddings = model.encode(inputs, convert_to_tensor=True)
|
166 |
-
|
167 |
-
sim_scores = embeddings[:3] @ embeddings[3:].T
|
168 |
-
print(sim_scores.diag().tolist())
|
169 |
-
# [0.9413310289382935, 0.8383190631866455, 0.7195918560028076]
|
170 |
-
# [0.9360026717185974, 0.8591331243515015, 0.7285830974578857] - FRIDA
|
171 |
-
```
|
172 |
|
173 |
-
|
174 |
|
175 |
```python
|
176 |
from sentence_transformers import SentenceTransformer
|
|
|
34 |
|
35 |
## Префиксы
|
36 |
Все префиксы унаследованы от FRIDA.
|
37 |
+
Оптимальный (обеспечивающий средние результаты) для большинства задач - "categorize: " прописан по умолчанию в [config_sentence_transformers.json](https://huggingface.co/sergeyzh/rubert-mini-frida/blob/main/config_sentence_transformers.json)
|
38 |
|
39 |
Перечень используемых префиксов и их влияние на оценки модели в [encodechka](https://github.com/avidale/encodechka):
|
40 |
|
|
|
58 |
- Sentiment analysis (**SA**);
|
59 |
- Toxicity identification (**TI**).
|
60 |
|
61 |
+
|
62 |
+
|
63 |
# Метрики
|
64 |
Оценки модели на бенчмарке [ruMTEB](https://habr.com/ru/companies/sberdevices/articles/831150/):
|
65 |
|
|
|
144 |
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA
|
145 |
```
|
146 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
147 |
|
148 |
+
## Использование с `sentence_transformers` (sentence-transformers>=2.4.0):
|
149 |
|
150 |
```python
|
151 |
from sentence_transformers import SentenceTransformer
|