aimarsg commited on
Commit
989859f
·
verified ·
1 Parent(s): 2d499b3

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,623 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:12007
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: intfloat/multilingual-e5-large
11
+ widget:
12
+ - source_sentence: Noiz jarriko du martxan Eusko Jaurlaritzak Barakaldoko BEC sustatzeko
13
+ aurrez aurreko plana?
14
+ sentences:
15
+ - '[TOPIC: Galdera, Amaia Martínez Grisaleña Mistoa-Vox taldeko legebiltzarkideak
16
+ lehendakariari egina, autoeskolako irakasleen prestakuntza-moduluan euskara eskatzeari
17
+ buruz]
18
+
19
+ [MARTÍNEZ GRISALEÑA, (Mixto-Vox)]:
20
+
21
+ baina beldur gara neurri hori eredu baten hastapena baino ez dela, eta eredu hori
22
+ kalbarioa izango dela gaztelania-hiztunentzat, aurrekaririk gabeko grinaz inposatuko
23
+ baitu euskara bizitzako alor guztietan. Autoeskoletako arduradunek dagoeneko aldarri
24
+ egin dute zuen Gobernuaren neurriaren aurka; ez dute aurkitzen ikastaroen irakaspena
25
+ emateko behar besteko trebakuntza duen irakaslerik, eta ikasle asko baja ematen
26
+ ari dira, behar besteko ezagutza ez dutelako euskaraz. 2010az geroztik jada, Gidabaimena
27
+ Euskaraz planarekin, udal askok (Date: 30.09.2022)'
28
+ - '[TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, Lehiaren
29
+ Euskal Agintaritzak Gipuzkoako Batzar Nagusiek 2013ko uztailaren 17an onartu zuten
30
+ klausula sozialen inguruko 4/2013 Foru Arauaren aurka jarritako auzibidea bertan
31
+ behera uzteari buruz. Eztabaida eta behin betiko ebazpena]
32
+
33
+ [DAMBORENEA BASTERRECHEA, (PV-ETP)]:
34
+
35
+ Gipuzkoako eraikuntzaren lan-hitzarmena ez badute eta beste lanhitzarmen bat badute,
36
+ Gipuzkoako eraikuntzarena aplikatu behar zaiela. Bizkaiko enpresa guztiek ez dutela
37
+ aplikatu behar Bizkaikoa; Gipuzkoakoa aplikatu behar dutela eskaintzak egin ahal
38
+ izateko. Arabakoek, Europakoek… Horixe jartzen du arau horretan. Eta arau hori
39
+ lan-eskubideak defendatzeko dago, ala enpresa guztiak kanpoan uzteko eta eskaintzak
40
+ gutxi batzuek bakarrik egin ahal izateko? Izan ere, irudipen hori ematen du, eta
41
+ horretaz ari gara eztabaidatzen gaur hemen. Zuek beste gauza batzuez hitz egitera
42
+ etorri bazarete… Gai bat bakarrik gogoraraziko dizut, ez baitakit batzuk lehiaren
43
+ eskubidearen kontu honekin nahasi egiten ote diren: lehiaren eskubidea kontsumitzaileei
44
+ mesede egiteko da; kontsumitzaileen eskubideak bermatzen dira. Kontsumitzaileen
45
+ eskubideak bermatzen dira, batetik, eskubide pribatuen aldean, kasu honetan Lehiaren
46
+ Agintaritzak ezartzen dituen isunen bidez, eta, bestetik, administrazioen aldean,
47
+ itxuraz printzipio horiek berak urratzen dituzten arauei errekurtsoak jarriz.
48
+ Horixe da lehiaren eskubidea. Horretaz gain, dakizunez, Europar Batasunaren oinarrizko
49
+ printzipioetako bat da langileak eta enpresak libreki ibiltzea batera eta bestera
50
+ Europa osoan, eta zelaiari ateak jarri nahi izatea, bada, oso ondo dago, baina
51
+ erabilgarritasuna eskasa edo hutsala izan daiteke. (Date: 05.06.2014)'
52
+ - '[TOPIC: Interpelazioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak
53
+ lehendakariari egina, Barakaldoko BECen finantza-egoerari eta Eusko Jaurlaritzak
54
+ hartzeko asmoa duen erabakiei buruz]
55
+
56
+ [MANEIRO LABAYEN, (Mixto-UPyD)]:
57
+
58
+ Nik gaur egun zer egoeratan dagoen dakit, eta oso larria da egoera. Eta ziur naiz,
59
+ ziur gara, eta hor daude datuak, kudeaketa erabat arduragabea izan dela urte hauetan
60
+ guztietan, eta administrazioek ez dutela kontrolatu. Egia esan, badirudi Bizkaiko
61
+ Foru Aldundia Eusko Jaurlaritzak zuzendaritza-talde berria izendatu zain dagoela,
62
+ azpiegitura hori sustatuko duen aurrez aurreko plana abian jar dezaten. Noiz egingo
63
+ dira urrats horiek? Izan ere, itxuraz, aurreko Gobernuak onartu zuen aurrez aurreko
64
+ (Date: 15.03.2013)'
65
+ - source_sentence: Zein da Euskal Legebiltzar Talde Popularrak Benta Berriko babes
66
+ ofizialeko etxebizitzei buruz egindako legez besteko proposamena?
67
+ sentences:
68
+ - Ofizialeko Etxebizitzei dagokien Legea betearaztea.
69
+ - '[TOPIC: EH Bildu talde parlamentarioak egindako lege-proposamena, euskara jakiteko
70
+ eskubidea bermatzeko. Aintzat hartzeari buruzko eztabaida eta behin betiko ebazpena]
71
+
72
+ [ANDUEZA LORENZO, (SV-ES)]:
73
+
74
+ ekimena pasatako legealdian EH Bilduk eta Podemosek lortu zuten akordioan oinarrituta
75
+ dago. Gure ustez, ez da beharrezkoa lege bat. Horretarako, Euskararen Legea daukagu,
76
+ agian, eguneratu beharrekoa. Gai honen inguruan, lan eta bide horretatik jarraitzea
77
+ proposatzen dugu. Adibiderik onena, hala nola, 16 eta 30 urte bitarteko pertsonentzat
78
+ egiaztatutako C1 mailara arteko matrikularen doakotasuna. Hemendik aurrera, aurrerapauso
79
+ gehiago emateko aukera izango dugu, elkarlanaren bitartez, eta, agian, euskararekin
80
+ daukagun konpromisoa berrituz. (Date: 19.11.2020)'
81
+ - '[TOPIC: Euskal Legebiltzar Talde Popularrak egindako legez besteko proposamena,
82
+ Donostiako Benta Berri auzoan dauden babes ofizialeko etxebizitzei buruz. Eztabaida
83
+ eta behin betiko ebazpena]
84
+
85
+ [URKOLA IRIARTE, (EA-NV)]:
86
+
87
+ Eta nik esan nezake zuk zera proposatzen duzula, babes ofizialeko etxebizitzetan
88
+ alokairuan dauden gizon-emakumeek sei hilabete lehenago eman dezatela izena Etxebiden,
89
+ hala egitea baitagokie, baina Benta Berrikoek ez. Benta Berrikoak betirako erregistratuta
90
+ egon daitezke. Orduan, ez dezagun hona ekarri Benta Berriko auzokoentzat kaltegarri
91
+ bihur daitekeen hitzik. Hemen nik esan nahi izan dudan gauza bakarra da zuk proposatzen
92
+ duzun irtenbide bateratu hori… Ez dakit zer irtenbide den. Zuk irtenbide (Date:
93
+ 11.02.2016)'
94
+ - source_sentence: Zein da Eusko Jaurlaritzaren jarrera energia berriztagarri deszentralizatuaren
95
+ sustapenari dagokionez?
96
+ sentences:
97
+ - Eta, bueno, herri gisa, gauden bezala gaude, eta kontua da nola egin dezakegun
98
+ hobera energia berriztagarrien garapenari dagokionez. 2030erako Euskadiko Energia
99
+ Estrategiaren barruan, helburu bat dago,
100
+ - '[TOPIC: Interpelazio, José Ramón Becerra Carollo Elkarrekin Podemos taldeko legebiltzakideak
101
+ Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, energia berriztagarri
102
+ deszentralizatua bultzatzeari buruz]
103
+
104
+ [EKONOMIAREN GARAPEN ETA AZPIEGITURETAKO SAILBURUAK (TAPIA OTAEGI), (EA-NV)]:
105
+
106
+ ahalik eta efizientziarik handienarekin egitea–, posible diren jarduketa guztiak
107
+ jarri behar ditugu martxan. Uste dut egiten ari garela, eta, ildo horretan, sendotu
108
+ egingo dugu gure jarduketa. Eta galdetu didazun guztiari erantzun diodala uste
109
+ dut. Eta, agian, lehenengo txandan ez naiz horren argi aritu; oraingoan gauzak
110
+ argixeago geldituko zirela espero dut. Eskerrik asko. (Date: 25.10.2019)'
111
+ - '[TOPIC: Interpelazio, José Ramón Becerra Carollo Elkarrekin Podemos taldeko legebiltzakideak
112
+ Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, energia berriztagarri
113
+ deszentralizatua bultzatzeari buruz]
114
+
115
+ [EKONOMIAREN GARAPEN ETA AZPIEGITURETAKO SAILBURUAK (TAPIA OTAEGI), (EA-NV)]:
116
+
117
+ ahalik eta efizientziarik handienarekin egitea–, posible diren jarduketa guztiak
118
+ jarri behar ditugu martxan. Uste dut egiten ari garela, eta, ildo horretan, sendotu
119
+ egingo dugu gure jarduketa. Eta galdetu didazun guztiari erantzun diodala uste
120
+ dut. Eta, agian, lehenengo txandan ez naiz horren argi aritu; oraingoan gauzak
121
+ argixeago geldituko zirela espero dut. Eskerrik asko. (Date: 25.10.2019)'
122
+ - source_sentence: Zein da Eusko Jaurlaritzaren jarrera enpresa estrategikoen sustraitze-galeraren
123
+ aurrean?
124
+ sentences:
125
+ - '[TOPIC: Mozioa, David Soto Rodríguez Elkarrekin Podemos-IU taldeko legebiltzarkideak
126
+ aurkeztua, enpresa estrategikoen sustraitze-galera ekiditeko mekanismoei buruz.
127
+ Eztabaida eta behin betiko ebazpena]
128
+
129
+ [SOTO RODRÍGUEZ, (EP-IU)]:
130
+
131
+ gainera, behin baino gehiagotan entzun dut sailburu andrea esaten ez dela Eusko
132
+ Jaurlaritzaren interesekoa enpresek egin behar dituzten inbertsio-proiektuen buru
133
+ izatea. Ulertzen dut enpresek autonomia osoa dutela zertan iker dezaketen erabakitzeko.
134
+ Baina, bai horixe, Eusko Jaurlaritzaren interesekoa izan beharko luke, halaber,
135
+ interes orokorreko inbertsioak sortzeak, enpresa pribatuekin uztartuta, eta sektore
136
+ publikotik erakustea jarraitu beharko litzatekeen bidea. Bestalde, uste dugu Kutxabanken
137
+ eta aurrezkikutxen inbertsio-galeraren egitateak, eta Eusko Jaurlaritzak (Date:
138
+ 06.05.2021)'
139
+ - '[TOPIC: Galdera, Miren Gorrotxategi Azurmendi Elkarrekin Podemos-IU taldeko legebiltzarkideak
140
+ lehendakariari egina, Euskadin lehen sektoreari eta garraiolariei produktu eta
141
+ zerbitzuengatik bidezko prezioak bermatzeari buruz]
142
+
143
+ [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:
144
+
145
+ Eskerrik asko, legebiltzarburu andrea. Gorrotxategi andrea, Jaurlaritza etenik
146
+ gabeko komunikazioa mantentzen ari da lehen sektorearekin eta garraio-sektorearekin.
147
+ Badakigu Europako legediak eta Estatuko legediak nola eragiten diguten, eta zure
148
+ galderatik ondorioztatzen dut zalantzak dituzuela Espainiako Gobernuak asteartean,
149
+ bigarren presidenteordea buru zuela, aurkeztu zituen laguntzen eraginkortasunari
150
+ buruz. Nolanahi ere, gogorarazi nahi dizut neurri horiek ere kontuan hartu behar
151
+ dutela Europar Batasunaren laguntzei buruz aurreko galderan aipatu dudan denbora-esparrua.
152
+ Europar (Date: 01.04.2022)'
153
+ - '[TOPIC: Galdera, Rosa Fresno Asensio Euskal Sozialistak taldeko legebiltzarkideak
154
+ Segurtasuneko sailburuari egina, indarkeria matxistaren biktimak artatzeko zerbitzu
155
+ espezializatuari buruz]
156
+
157
+ [SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:
158
+
159
+ duen horri buruz, oso gauza zehatzari buruz ari gara hizketan. Ezin hobeto zehaztuta
160
+ dago, eta denbora luzean landu da. Etxeko indarkeriaren, genero-indarkeriaren,
161
+ zerbitzuari buruz ari gara hizketan. Bikotekideen edo bikotekide ohien indarkeria
162
+ pairatu duten, pairatzen ari diren eta pairatzeko arriskua duten emakume guztiei
163
+ eskaintzen die zerbitzu hori Ertzaintzak, bai eta familian edo etxean indarkeria
164
+ pairatu dutenei edo pairatzen ari direnei ere. Begira, berriz ere datuei helduko
165
+ diet. Apirilaren 18an, (Date: 22.04.2016)'
166
+ - source_sentence: Noiz egin zen itunpeko irakaskuntzaren finantzaketari buruzko barne-dokumentua?
167
+ sentences:
168
+ - '[TOPIC: Galdera, Alfonso Alonso Aranegui Euskal Talde Popularreko legebiltzarkideak
169
+ lehendakariari egina, Gizarteratzeko eta Diru Sarrerak Bermatzeko Legeari buruz]
170
+
171
+ [ALONSO ARANEGUI, (PV-ETP)]:
172
+
173
+ hitzemandako aldaketa? Proposamen hori bada, hortaz, esan daiteke horren aitatasuna
174
+ Jaurlaritzari dagokiola eta haren egiteko asmoaren pean dagoela. Eta guretzat
175
+ ere oso garrantzitsua da; izan ere, zuek gutxiengoan zaudete eta, lege bat aurrera
176
+ atera nahi baduzue edo erreforma bat aurrera atera nahi baduzue, kideren bat bilatu
177
+ beharko duzue, eta proposamen horrek duena maximoen, minimoen adierazpen bat bada…
178
+ Zenbaterainoko nahia duzue aldatzeko? Erabakitasunez aurrera egiten jarraituko
179
+ al duzu, tribunan askotan eskatu (Date: 25.05.2018)'
180
+ - Gogoan izan behar da dokumentu hori ez dela inolako akordioren ondorio, ez negoziazioen
181
+ ondorio, ezta horri buruzko elkarrizketen ondorio ere, presidentearen ikuspuntua
182
+ besterik ez baita.
183
+ - '[TOPIC: Galdera, José Manuel Gil Vegas Euskal Talde Popularra-Ciudadanos taldeko
184
+ legebiltzarkideak Hezkuntzako sailburuari egina, itunpeko irakaskuntzaren finantzaketari
185
+ buruz]
186
+
187
+ [GIL VEGAS, (Mixto-Ciudadanos)]:
188
+
189
+ Eskerrik asko erantzunagatik, sailburu jauna. Hala ere, ez didazu gauza handirik
190
+ argitu. Barne-dokumentu bat dela esan didazu, 2021eko apirilean egin zena, baina
191
+ oraindik ez dakigu zergatik duen prentsak Ganbera honek baino lehenago. Eta esan
192
+ didazu ikastetxeei eman zitzaiela, baina ez zela Legebiltzar honetara bidali.
193
+ Eta, beraz, uler ezazu galdetzen jarraitu beharko dudala txosten hori gaur egun
194
+ non dagoen eta zein den hark duen estatusa; galdetu ez ezik, berriro diot, (Date:
195
+ 18.02.2022)'
196
+ pipeline_tag: sentence-similarity
197
+ library_name: sentence-transformers
198
+ metrics:
199
+ - cosine_accuracy
200
+ model-index:
201
+ - name: SentenceTransformer based on intfloat/multilingual-e5-large
202
+ results:
203
+ - task:
204
+ type: triplet
205
+ name: Triplet
206
+ dataset:
207
+ name: multilingual e5 large
208
+ type: multilingual-e5-large
209
+ metrics:
210
+ - type: cosine_accuracy
211
+ value: 0.9032633900642395
212
+ name: Cosine Accuracy
213
+ ---
214
+
215
+ # SentenceTransformer based on intfloat/multilingual-e5-large
216
+
217
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
218
+
219
+ ## Model Details
220
+
221
+ ### Model Description
222
+ - **Model Type:** Sentence Transformer
223
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
224
+ - **Maximum Sequence Length:** 512 tokens
225
+ - **Output Dimensionality:** 1024 dimensions
226
+ - **Similarity Function:** Cosine Similarity
227
+ <!-- - **Training Dataset:** Unknown -->
228
+ <!-- - **Language:** Unknown -->
229
+ <!-- - **License:** Unknown -->
230
+
231
+ ### Model Sources
232
+
233
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
234
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
235
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
236
+
237
+ ### Full Model Architecture
238
+
239
+ ```
240
+ SentenceTransformer(
241
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
242
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
243
+ (2): Normalize()
244
+ )
245
+ ```
246
+
247
+ ## Usage
248
+
249
+ ### Direct Usage (Sentence Transformers)
250
+
251
+ First install the Sentence Transformers library:
252
+
253
+ ```bash
254
+ pip install -U sentence-transformers
255
+ ```
256
+
257
+ Then you can load this model and run inference.
258
+ ```python
259
+ from sentence_transformers import SentenceTransformer
260
+
261
+ # Download from the 🤗 Hub
262
+ model = SentenceTransformer("aimarsg/mle5_parl_l_contrastive")
263
+ # Run inference
264
+ sentences = [
265
+ 'Noiz egin zen itunpeko irakaskuntzaren finantzaketari buruzko barne-dokumentua?',
266
+ '[TOPIC: Galdera, José Manuel Gil Vegas Euskal Talde Popularra-Ciudadanos taldeko legebiltzarkideak Hezkuntzako sailburuari egina, itunpeko irakaskuntzaren finantzaketari buruz]\n[GIL VEGAS, (Mixto-Ciudadanos)]:\nEskerrik asko erantzunagatik, sailburu jauna. Hala ere, ez didazu gauza handirik argitu. Barne-dokumentu bat dela esan didazu, 2021eko apirilean egin zena, baina oraindik ez dakigu zergatik duen prentsak Ganbera honek baino lehenago. Eta esan didazu ikastetxeei eman zitzaiela, baina ez zela Legebiltzar honetara bidali. Eta, beraz, uler ezazu galdetzen jarraitu beharko dudala txosten hori gaur egun non dagoen eta zein den hark duen estatusa; galdetu ez ezik, berriro diot, (Date: 18.02.2022)',
267
+ 'Gogoan izan behar da dokumentu hori ez dela inolako akordioren ondorio, ez negoziazioen ondorio, ezta horri buruzko elkarrizketen ondorio ere, presidentearen ikuspuntua besterik ez baita.',
268
+ ]
269
+ embeddings = model.encode(sentences)
270
+ print(embeddings.shape)
271
+ # [3, 1024]
272
+
273
+ # Get the similarity scores for the embeddings
274
+ similarities = model.similarity(embeddings, embeddings)
275
+ print(similarities)
276
+ # tensor([[1.0000, 0.8351, 0.1413],
277
+ # [0.8351, 1.0000, 0.0884],
278
+ # [0.1413, 0.0884, 1.0000]])
279
+ ```
280
+
281
+ <!--
282
+ ### Direct Usage (Transformers)
283
+
284
+ <details><summary>Click to see the direct usage in Transformers</summary>
285
+
286
+ </details>
287
+ -->
288
+
289
+ <!--
290
+ ### Downstream Usage (Sentence Transformers)
291
+
292
+ You can finetune this model on your own dataset.
293
+
294
+ <details><summary>Click to expand</summary>
295
+
296
+ </details>
297
+ -->
298
+
299
+ <!--
300
+ ### Out-of-Scope Use
301
+
302
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
303
+ -->
304
+
305
+ ## Evaluation
306
+
307
+ ### Metrics
308
+
309
+ #### Triplet
310
+
311
+ * Dataset: `multilingual-e5-large`
312
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
313
+
314
+ | Metric | Value |
315
+ |:--------------------|:-----------|
316
+ | **cosine_accuracy** | **0.9033** |
317
+
318
+ <!--
319
+ ## Bias, Risks and Limitations
320
+
321
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
322
+ -->
323
+
324
+ <!--
325
+ ### Recommendations
326
+
327
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
328
+ -->
329
+
330
+ ## Training Details
331
+
332
+ ### Training Dataset
333
+
334
+ #### Unnamed Dataset
335
+
336
+ * Size: 12,007 training samples
337
+ * Columns: <code>anchor</code> and <code>positive</code>
338
+ * Approximate statistics based on the first 1000 samples:
339
+ | | anchor | positive |
340
+ |:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
341
+ | type | string | string |
342
+ | details | <ul><li>min: 10 tokens</li><li>mean: 26.06 tokens</li><li>max: 64 tokens</li></ul> | <ul><li>min: 144 tokens</li><li>mean: 262.69 tokens</li><li>max: 512 tokens</li></ul> |
343
+ * Samples:
344
+ | anchor | positive |
345
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
346
+ | <code>Zenbat pertsonak jaso dituzte ERTEak osatzeko laguntzak 2020ko azaroaren 25era arte?</code> | <code>[TOPIC: Galdera, Amaia Martínez Grisaleña, Talde Mistoko legebiltzarkideak lehenengo lehendakariorde eta Segurtasuneko sailburuari egina, San Frantzisko auzoko segurtasunari buruz]<br>[CASANOVA ALONSO, (EH Bildu)]:<br>neurriak ez dira adostu. Hauek ez dira sektoreak eskatzen dituen neurriak. Beste adibide bat. ERTE osatzeko laguntzak aipatu zenituen duela bi aste zure erantzunean: 200.000 pertsona afektatuak ERTE-engatik, 40.000 ostalaritza-sektorean, sektorearen besteren konturako langileen % 85 afektatuta. Zuek ekainean ERTEak osatzeko laguntzak iragarri zenituzten: "5.000 pertsonarengana helduko dira". Badakizu azaroaren 25ean zenbat kobratu duten, zenbat pertsonak kobratu duten laguntza hori? Zero pertsonak. Zero, ERTEak osatzeko. (Date: 27.11.2020)</code> |
347
+ | <code>Zein da Eusko Jaurlaritzaren jarrera Errioxako Jatorri Deituraren Kontseilu Arautzaileak izapidetutako estatutuen aldaketaren aurrean?</code> | <code>[TOPIC: Galdera, Itxaso Etxebarria Astondoa EH Bildu taldeko legebiltzarkideak Ekonomiaren Garapen, Jasangarritasun eta Ingurumeneko sailburuari egina, Jaurlaritzak Errioxako Jatorri Deituraren Kontseilu Arautzaileak izapidetutako estatutuen aldaketaren aurrean hartuko dituen neurriei buruz]<br>[ETXEBARRIA ASTONDOA, (EH Bildu)]:<br>izoztuta izan duzue, zuek beste eredu bat defendatzen duzuelako. Prozesua luzatzen jarraitzen duzue oraindik ere, Arabako Mahastiek proposatutako erregelamendua onartzeko prozeduran ere. Hasieratik esan dugu: kontua ez da Errioxa jatorri-deiturak nahi duena, ez Errioxako Gobernuak, ez Madrilgoak, ez Jaurlaritzak, ez EAJk, ezta EH Bilduk zer nahi duen ere. Gure upategiek eta mahastizainek nahi dutena errespetatzea errespetua eskatzea baino askoz gehiago da. Hori errespetatzea esku-sartzeak eragoztea eta (Date: 02.12.2022)</code> |
348
+ | <code>Nola jokatu zuen Eusko Jaurlaritzak Chillida Leku museoa publikoari irekitzeko eta eskuratzeko asmoei dagokienez?</code> | <code>[TOPIC: Mozioa, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak aurkeztua, Chillida Leku museoa publikoari irekitzearen eta eskuratzearen inguruan Jaurlaritzak dituen asmoei buruz. Eztabaida eta behin betiko ebazpena]<br>[MENDIZABAL MENDIZABAL, (EA-NV)]:<br>egin behar diren bezala, zuztarretik eta familiarekin hitz eginez. Eta diskrezioz, familiak eskatu bezala. Familiak badu informazioa (…) egindako txostena eta hipotesiak lantzen ari dira denen artean, pazientzia, konfiantza eta errespetua eskatu zituen Uriarte sailburuak. Pazientzia, diskrezioa. Horregatik adostu dugu erdibidekoa. Gobernuari hasitako bidean segitzeko eskaera egiten diogu bertan. Gainerakoei, Sozialistak taldearen eta Bilduren artean egin den bezala, gainerakoei beraiek ere erdibidekora biltzeko eskaera egiten diegu Gobernuari eta (Date: 03.04.2014)</code> |
349
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
350
+ ```json
351
+ {
352
+ "scale": 20.0,
353
+ "similarity_fct": "cos_sim",
354
+ "gather_across_devices": false
355
+ }
356
+ ```
357
+
358
+ ### Evaluation Dataset
359
+
360
+ #### Unnamed Dataset
361
+
362
+ * Size: 12,012 evaluation samples
363
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
364
+ * Approximate statistics based on the first 1000 samples:
365
+ | | anchor | positive | negative |
366
+ |:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
367
+ | type | string | string | string |
368
+ | details | <ul><li>min: 11 tokens</li><li>mean: 26.03 tokens</li><li>max: 64 tokens</li></ul> | <ul><li>min: 143 tokens</li><li>mean: 263.01 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 2 tokens</li><li>mean: 131.34 tokens</li><li>max: 512 tokens</li></ul> |
369
+ * Samples:
370
+ | anchor | positive | negative |
371
+ |:---------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
372
+ | <code>Noiz egin ziren hauteskunde demokratikoak Katalunian?</code> | <code>[TOPIC: Galdera, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak lehendakariari egina, Katalunian kolpismoa babesteari buruz]<br>[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:<br>erakundeek elkarrizketa bat eta negoziazio bat eskatu dute, eta Espainiako Gobernuak sistematikoki ukatu die. Irailaren 27an hauteskunde demokratikoak egin ziren Katalunian. Parte-hartze handia izan zen, eta herritarrek askatasun osoz hautatu zuten nor izango ziren beren erakunde-ordezkariak Parlamentuan. Pasa den azaroaren 9an legez eta demokratikoki eratutako Parlamentuak adierazpen bat onartu zuen, eta hautatutako ordezkarien gehiengo absolutuaren babesa jaso zuen adierazpen horrek. Adierazpen horren bidez, negoziazio bat hasteko eskatu zen, eskaera politiko (Date: 13.11.2015)</code> | <code>[TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, legegintzaldiaren erdian tamainako erronkak dituen Enplegu eta Gizarte Politiketako Saila bururik gabe uzteari buruz. Eztabaida eta behin betiko ebazpena]<br>[ARRONDO ALDASORO, (EH Bildu)]:<br>Alderdi Sozialistak esatea ezin dutela gure proposamenarekin bat egin, ze irakurtzen baldin badugu atzo Idoia Mendiak El Mundon esandakoa, "Aburto lleva meses con la cabeza en el salón árabe", eta irakurtzen baldin badugu hemen esaten dena, uste dut nik esandakoa baino gehiago dela oraindik. Orduan, ardura egotea horretaz nik uste dut ezinbestekoa dela, zeren, esan dugun bezala, ez gara gu bakarrik pentsatzen dugunok egoera kezkagarri baten aurrean gaudela. Eta berriro errepikatuko (Date: 18.12.2014)</code> |
373
+ | <code>Zer ondorio izan zituen Madrilek onartutako lan-erreformak hitzarmen kolektiboen aurreraeraginari dagokionez?</code> | <code>[TOPIC: Mozioa, Bixen Itxaso González Euskal Sozialistak taldeko legebiltzarkideak aurkeztua, Eusko Jaurlaritzak Gizarte Elkarrizketaren Mahaia biltzeko deia egitearen gainean. Eztabaida eta behin betiko ebazpena]<br>[ARREGI ROMARATE, (EA-NV)]:<br>deialdia egiteko beharra azpimarratu zuen, mahai horretako parte-hartzaile guztien artean, Madrilek onartutako lan-erreformaren ondorio larriei aurre egiteko, erreforma horrek –nabarmendu nahi dut– ondoriorik gabe utzi baitzuen hitzarmen kolektiboen aurreraeragina. Euzko Abertzaleak taldearentzat elkarrizketa behar-beharrezkoa da, guztion aldeko elkarrizketa, adostasunetara heltzeko ezinbestekoa delako hitz egitea, besteen jarrerak entzun eta errespetatu, akordioen bila. Guk ere uste dugu beharrezkoa dela akordioetara iristea, eta uste dugu ezinbestekoa dela hitzarmenak lortzea, (Date: 17.10.2013)</code> | <code>[TOPIC: EH Bildu talde parlamentarioak egindako legez besteko proposamena, gazte prekarietatearen kontrako talka plan berria indarrean jartzeari buruz]<br>[ROJO SOLANA, (SV-ES)]:<br>deritzon, guztiok helburua erkide dugula iruditzen baitzait. Testuinguru horretan, kezka erkidea eta erabakiak hartzeko premia dugula deritzogulako, Gobernuari sostengua ematen diogun taldeok erdibideko neurri bat proposatu genuen. Lehen puntuak aintzat hartzen zuen dugun egoera, non adostasun politikoa funtsezkoa baita; beraz, poztu egiten gaitu ahobatezkotasunak; ez dakit zer deritzon Alderdi Popularrak, baina akordioa zabala da puntu horretan. Bigarrenean eskatzen genuen klima-aldaketaren eta energia-trantsizioaren borrokaren politika garatzea, Eusko (Date: 11.04.2019)</code> |
374
+ | <code>Zer dio 2013-2016 aldirako Bake eta Bizikidetza Planaren bitarteko ebaluazioak?</code> | <code>[TOPIC: Mozioa, Gorka Maneiro Labayen MistoaUPyD taldeko legebiltzarkideak aurkeztua, Euskadiko udalek terrorismoaren biktimei egingo dizkieten omenaldiei buruz. Eztabaida eta behin betiko ebazpena]<br>[BARRIO BAROJA, (PV-ETP)]:<br>plan hori, hasieran, adierazpenekoa baino ez zela. Taldeek agertu zuten beren jarrera plana egin zenean, baina badakizu ez duzula onarpenik lortu, ez duzula akordiorik lortu, eta gainera, denborak aurrera egin ahala, legebiltzarreko taldeak gero eta urrunago dauden plan horretatik. Eta, ildo horretan, porrot egin duen plana da, zuek ebaluazioaz mintzo zareten arren. Planaren ebaluazioa aipatu duzu zuk oraintxe tribunan, 2013-2016 aldirako Bake eta Bizikidetza Planaren bitarteko ebaluazioa. (Date: 15.10.2015)</code> | <code>Iragan irailaren 9an, Eusko Jaurlaritzak, Jonan Fernandez jaunak zuzentzen duen Idazkaritza Nagusiaren bitartez, txostena argitaratu zuen "Eusko Jaurlaritzaren 2013-2016 aldirako Bake eta Bizikidetza Planaren</code> |
375
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
376
+ ```json
377
+ {
378
+ "scale": 20.0,
379
+ "similarity_fct": "cos_sim",
380
+ "gather_across_devices": false
381
+ }
382
+ ```
383
+
384
+ ### Training Hyperparameters
385
+ #### Non-Default Hyperparameters
386
+
387
+ - `eval_strategy`: epoch
388
+ - `learning_rate`: 2e-05
389
+ - `warmup_ratio`: 0.1
390
+ - `batch_sampler`: no_duplicates
391
+
392
+ #### All Hyperparameters
393
+ <details><summary>Click to expand</summary>
394
+
395
+ - `overwrite_output_dir`: False
396
+ - `do_predict`: False
397
+ - `eval_strategy`: epoch
398
+ - `prediction_loss_only`: True
399
+ - `per_device_train_batch_size`: 8
400
+ - `per_device_eval_batch_size`: 8
401
+ - `per_gpu_train_batch_size`: None
402
+ - `per_gpu_eval_batch_size`: None
403
+ - `gradient_accumulation_steps`: 1
404
+ - `eval_accumulation_steps`: None
405
+ - `torch_empty_cache_steps`: None
406
+ - `learning_rate`: 2e-05
407
+ - `weight_decay`: 0.0
408
+ - `adam_beta1`: 0.9
409
+ - `adam_beta2`: 0.999
410
+ - `adam_epsilon`: 1e-08
411
+ - `max_grad_norm`: 1.0
412
+ - `num_train_epochs`: 3
413
+ - `max_steps`: -1
414
+ - `lr_scheduler_type`: linear
415
+ - `lr_scheduler_kwargs`: {}
416
+ - `warmup_ratio`: 0.1
417
+ - `warmup_steps`: 0
418
+ - `log_level`: passive
419
+ - `log_level_replica`: warning
420
+ - `log_on_each_node`: True
421
+ - `logging_nan_inf_filter`: True
422
+ - `save_safetensors`: True
423
+ - `save_on_each_node`: False
424
+ - `save_only_model`: False
425
+ - `restore_callback_states_from_checkpoint`: False
426
+ - `no_cuda`: False
427
+ - `use_cpu`: False
428
+ - `use_mps_device`: False
429
+ - `seed`: 42
430
+ - `data_seed`: None
431
+ - `jit_mode_eval`: False
432
+ - `use_ipex`: False
433
+ - `bf16`: False
434
+ - `fp16`: False
435
+ - `fp16_opt_level`: O1
436
+ - `half_precision_backend`: auto
437
+ - `bf16_full_eval`: False
438
+ - `fp16_full_eval`: False
439
+ - `tf32`: None
440
+ - `local_rank`: 0
441
+ - `ddp_backend`: None
442
+ - `tpu_num_cores`: None
443
+ - `tpu_metrics_debug`: False
444
+ - `debug`: []
445
+ - `dataloader_drop_last`: False
446
+ - `dataloader_num_workers`: 0
447
+ - `dataloader_prefetch_factor`: None
448
+ - `past_index`: -1
449
+ - `disable_tqdm`: False
450
+ - `remove_unused_columns`: True
451
+ - `label_names`: None
452
+ - `load_best_model_at_end`: False
453
+ - `ignore_data_skip`: False
454
+ - `fsdp`: []
455
+ - `fsdp_min_num_params`: 0
456
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
457
+ - `fsdp_transformer_layer_cls_to_wrap`: None
458
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
459
+ - `parallelism_config`: None
460
+ - `deepspeed`: None
461
+ - `label_smoothing_factor`: 0.0
462
+ - `optim`: adamw_torch_fused
463
+ - `optim_args`: None
464
+ - `adafactor`: False
465
+ - `group_by_length`: False
466
+ - `length_column_name`: length
467
+ - `ddp_find_unused_parameters`: None
468
+ - `ddp_bucket_cap_mb`: None
469
+ - `ddp_broadcast_buffers`: False
470
+ - `dataloader_pin_memory`: True
471
+ - `dataloader_persistent_workers`: False
472
+ - `skip_memory_metrics`: True
473
+ - `use_legacy_prediction_loop`: False
474
+ - `push_to_hub`: False
475
+ - `resume_from_checkpoint`: None
476
+ - `hub_model_id`: None
477
+ - `hub_strategy`: every_save
478
+ - `hub_private_repo`: None
479
+ - `hub_always_push`: False
480
+ - `hub_revision`: None
481
+ - `gradient_checkpointing`: False
482
+ - `gradient_checkpointing_kwargs`: None
483
+ - `include_inputs_for_metrics`: False
484
+ - `include_for_metrics`: []
485
+ - `eval_do_concat_batches`: True
486
+ - `fp16_backend`: auto
487
+ - `push_to_hub_model_id`: None
488
+ - `push_to_hub_organization`: None
489
+ - `mp_parameters`:
490
+ - `auto_find_batch_size`: False
491
+ - `full_determinism`: False
492
+ - `torchdynamo`: None
493
+ - `ray_scope`: last
494
+ - `ddp_timeout`: 1800
495
+ - `torch_compile`: False
496
+ - `torch_compile_backend`: None
497
+ - `torch_compile_mode`: None
498
+ - `include_tokens_per_second`: False
499
+ - `include_num_input_tokens_seen`: False
500
+ - `neftune_noise_alpha`: None
501
+ - `optim_target_modules`: None
502
+ - `batch_eval_metrics`: False
503
+ - `eval_on_start`: False
504
+ - `use_liger_kernel`: False
505
+ - `liger_kernel_config`: None
506
+ - `eval_use_gather_object`: False
507
+ - `average_tokens_across_devices`: False
508
+ - `prompts`: None
509
+ - `batch_sampler`: no_duplicates
510
+ - `multi_dataset_batch_sampler`: proportional
511
+ - `router_mapping`: {}
512
+ - `learning_rate_mapping`: {}
513
+
514
+ </details>
515
+
516
+ ### Training Logs
517
+ | Epoch | Step | Training Loss | Validation Loss | multilingual-e5-large_cosine_accuracy |
518
+ |:------:|:----:|:-------------:|:---------------:|:-------------------------------------:|
519
+ | 0.0666 | 100 | 0.6 | - | - |
520
+ | 0.1332 | 200 | 0.0594 | - | - |
521
+ | 0.1999 | 300 | 0.0345 | - | - |
522
+ | 0.2665 | 400 | 0.0348 | - | - |
523
+ | 0.3331 | 500 | 0.0242 | - | - |
524
+ | 0.3997 | 600 | 0.0445 | - | - |
525
+ | 0.4664 | 700 | 0.0443 | - | - |
526
+ | 0.5330 | 800 | 0.0218 | - | - |
527
+ | 0.5996 | 900 | 0.0197 | - | - |
528
+ | 0.6662 | 1000 | 0.0315 | - | - |
529
+ | 0.7328 | 1100 | 0.0206 | - | - |
530
+ | 0.7995 | 1200 | 0.0225 | - | - |
531
+ | 0.8661 | 1300 | 0.0352 | - | - |
532
+ | 0.9327 | 1400 | 0.0279 | - | - |
533
+ | 0.9993 | 1500 | 0.0256 | - | - |
534
+ | 1.0 | 1501 | - | 0.3579 | 0.8662 |
535
+ | 1.0660 | 1600 | 0.0089 | - | - |
536
+ | 1.1326 | 1700 | 0.0189 | - | - |
537
+ | 1.1992 | 1800 | 0.0062 | - | - |
538
+ | 1.2658 | 1900 | 0.0145 | - | - |
539
+ | 1.3324 | 2000 | 0.0073 | - | - |
540
+ | 1.3991 | 2100 | 0.0202 | - | - |
541
+ | 1.4657 | 2200 | 0.0068 | - | - |
542
+ | 1.5323 | 2300 | 0.0199 | - | - |
543
+ | 1.5989 | 2400 | 0.0141 | - | - |
544
+ | 1.6656 | 2500 | 0.0031 | - | - |
545
+ | 1.7322 | 2600 | 0.0058 | - | - |
546
+ | 1.7988 | 2700 | 0.0116 | - | - |
547
+ | 1.8654 | 2800 | 0.0055 | - | - |
548
+ | 1.9320 | 2900 | 0.0163 | - | - |
549
+ | 1.9987 | 3000 | 0.0025 | - | - |
550
+ | 2.0 | 3002 | - | 0.2463 | 0.8992 |
551
+ | 2.0653 | 3100 | 0.0033 | - | - |
552
+ | 2.1319 | 3200 | 0.0046 | - | - |
553
+ | 2.1985 | 3300 | 0.0044 | - | - |
554
+ | 2.2652 | 3400 | 0.0042 | - | - |
555
+ | 2.3318 | 3500 | 0.0022 | - | - |
556
+ | 2.3984 | 3600 | 0.0068 | - | - |
557
+ | 2.4650 | 3700 | 0.0131 | - | - |
558
+ | 2.5316 | 3800 | 0.0125 | - | - |
559
+ | 2.5983 | 3900 | 0.0046 | - | - |
560
+ | 2.6649 | 4000 | 0.0025 | - | - |
561
+ | 2.7315 | 4100 | 0.0059 | - | - |
562
+ | 2.7981 | 4200 | 0.0012 | - | - |
563
+ | 2.8648 | 4300 | 0.0074 | - | - |
564
+ | 2.9314 | 4400 | 0.0024 | - | - |
565
+ | 2.9980 | 4500 | 0.004 | - | - |
566
+ | 3.0 | 4503 | - | 0.2380 | 0.9033 |
567
+
568
+
569
+ ### Framework Versions
570
+ - Python: 3.10.8
571
+ - Sentence Transformers: 5.1.0
572
+ - Transformers: 4.56.0
573
+ - PyTorch: 2.8.0+cu128
574
+ - Accelerate: 1.10.1
575
+ - Datasets: 4.0.0
576
+ - Tokenizers: 0.22.0
577
+
578
+ ## Citation
579
+
580
+ ### BibTeX
581
+
582
+ #### Sentence Transformers
583
+ ```bibtex
584
+ @inproceedings{reimers-2019-sentence-bert,
585
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
586
+ author = "Reimers, Nils and Gurevych, Iryna",
587
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
588
+ month = "11",
589
+ year = "2019",
590
+ publisher = "Association for Computational Linguistics",
591
+ url = "https://arxiv.org/abs/1908.10084",
592
+ }
593
+ ```
594
+
595
+ #### MultipleNegativesRankingLoss
596
+ ```bibtex
597
+ @misc{henderson2017efficient,
598
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
599
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
600
+ year={2017},
601
+ eprint={1705.00652},
602
+ archivePrefix={arXiv},
603
+ primaryClass={cs.CL}
604
+ }
605
+ ```
606
+
607
+ <!--
608
+ ## Glossary
609
+
610
+ *Clearly define terms in order to be accessible across audiences.*
611
+ -->
612
+
613
+ <!--
614
+ ## Model Card Authors
615
+
616
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
617
+ -->
618
+
619
+ <!--
620
+ ## Model Card Contact
621
+
622
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
623
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "transformers_version": "4.56.0",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.1.0",
5
+ "transformers": "4.56.0",
6
+ "pytorch": "2.8.0+cu128"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f6351e6d212fa245f11ddc389f8d3227ff08257bca42c95e9ac09f3ff9fa7148
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }