Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +623 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +55 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,623 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- dense
|
7 |
+
- generated_from_trainer
|
8 |
+
- dataset_size:12007
|
9 |
+
- loss:MultipleNegativesRankingLoss
|
10 |
+
base_model: intfloat/multilingual-e5-large
|
11 |
+
widget:
|
12 |
+
- source_sentence: Noiz jarriko du martxan Eusko Jaurlaritzak Barakaldoko BEC sustatzeko
|
13 |
+
aurrez aurreko plana?
|
14 |
+
sentences:
|
15 |
+
- '[TOPIC: Galdera, Amaia Martínez Grisaleña Mistoa-Vox taldeko legebiltzarkideak
|
16 |
+
lehendakariari egina, autoeskolako irakasleen prestakuntza-moduluan euskara eskatzeari
|
17 |
+
buruz]
|
18 |
+
|
19 |
+
[MARTÍNEZ GRISALEÑA, (Mixto-Vox)]:
|
20 |
+
|
21 |
+
baina beldur gara neurri hori eredu baten hastapena baino ez dela, eta eredu hori
|
22 |
+
kalbarioa izango dela gaztelania-hiztunentzat, aurrekaririk gabeko grinaz inposatuko
|
23 |
+
baitu euskara bizitzako alor guztietan. Autoeskoletako arduradunek dagoeneko aldarri
|
24 |
+
egin dute zuen Gobernuaren neurriaren aurka; ez dute aurkitzen ikastaroen irakaspena
|
25 |
+
emateko behar besteko trebakuntza duen irakaslerik, eta ikasle asko baja ematen
|
26 |
+
ari dira, behar besteko ezagutza ez dutelako euskaraz. 2010az geroztik jada, Gidabaimena
|
27 |
+
Euskaraz planarekin, udal askok (Date: 30.09.2022)'
|
28 |
+
- '[TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, Lehiaren
|
29 |
+
Euskal Agintaritzak Gipuzkoako Batzar Nagusiek 2013ko uztailaren 17an onartu zuten
|
30 |
+
klausula sozialen inguruko 4/2013 Foru Arauaren aurka jarritako auzibidea bertan
|
31 |
+
behera uzteari buruz. Eztabaida eta behin betiko ebazpena]
|
32 |
+
|
33 |
+
[DAMBORENEA BASTERRECHEA, (PV-ETP)]:
|
34 |
+
|
35 |
+
Gipuzkoako eraikuntzaren lan-hitzarmena ez badute eta beste lanhitzarmen bat badute,
|
36 |
+
Gipuzkoako eraikuntzarena aplikatu behar zaiela. Bizkaiko enpresa guztiek ez dutela
|
37 |
+
aplikatu behar Bizkaikoa; Gipuzkoakoa aplikatu behar dutela eskaintzak egin ahal
|
38 |
+
izateko. Arabakoek, Europakoek… Horixe jartzen du arau horretan. Eta arau hori
|
39 |
+
lan-eskubideak defendatzeko dago, ala enpresa guztiak kanpoan uzteko eta eskaintzak
|
40 |
+
gutxi batzuek bakarrik egin ahal izateko? Izan ere, irudipen hori ematen du, eta
|
41 |
+
horretaz ari gara eztabaidatzen gaur hemen. Zuek beste gauza batzuez hitz egitera
|
42 |
+
etorri bazarete… Gai bat bakarrik gogoraraziko dizut, ez baitakit batzuk lehiaren
|
43 |
+
eskubidearen kontu honekin nahasi egiten ote diren: lehiaren eskubidea kontsumitzaileei
|
44 |
+
mesede egiteko da; kontsumitzaileen eskubideak bermatzen dira. Kontsumitzaileen
|
45 |
+
eskubideak bermatzen dira, batetik, eskubide pribatuen aldean, kasu honetan Lehiaren
|
46 |
+
Agintaritzak ezartzen dituen isunen bidez, eta, bestetik, administrazioen aldean,
|
47 |
+
itxuraz printzipio horiek berak urratzen dituzten arauei errekurtsoak jarriz.
|
48 |
+
Horixe da lehiaren eskubidea. Horretaz gain, dakizunez, Europar Batasunaren oinarrizko
|
49 |
+
printzipioetako bat da langileak eta enpresak libreki ibiltzea batera eta bestera
|
50 |
+
Europa osoan, eta zelaiari ateak jarri nahi izatea, bada, oso ondo dago, baina
|
51 |
+
erabilgarritasuna eskasa edo hutsala izan daiteke. (Date: 05.06.2014)'
|
52 |
+
- '[TOPIC: Interpelazioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak
|
53 |
+
lehendakariari egina, Barakaldoko BECen finantza-egoerari eta Eusko Jaurlaritzak
|
54 |
+
hartzeko asmoa duen erabakiei buruz]
|
55 |
+
|
56 |
+
[MANEIRO LABAYEN, (Mixto-UPyD)]:
|
57 |
+
|
58 |
+
Nik gaur egun zer egoeratan dagoen dakit, eta oso larria da egoera. Eta ziur naiz,
|
59 |
+
ziur gara, eta hor daude datuak, kudeaketa erabat arduragabea izan dela urte hauetan
|
60 |
+
guztietan, eta administrazioek ez dutela kontrolatu. Egia esan, badirudi Bizkaiko
|
61 |
+
Foru Aldundia Eusko Jaurlaritzak zuzendaritza-talde berria izendatu zain dagoela,
|
62 |
+
azpiegitura hori sustatuko duen aurrez aurreko plana abian jar dezaten. Noiz egingo
|
63 |
+
dira urrats horiek? Izan ere, itxuraz, aurreko Gobernuak onartu zuen aurrez aurreko
|
64 |
+
(Date: 15.03.2013)'
|
65 |
+
- source_sentence: Zein da Euskal Legebiltzar Talde Popularrak Benta Berriko babes
|
66 |
+
ofizialeko etxebizitzei buruz egindako legez besteko proposamena?
|
67 |
+
sentences:
|
68 |
+
- Ofizialeko Etxebizitzei dagokien Legea betearaztea.
|
69 |
+
- '[TOPIC: EH Bildu talde parlamentarioak egindako lege-proposamena, euskara jakiteko
|
70 |
+
eskubidea bermatzeko. Aintzat hartzeari buruzko eztabaida eta behin betiko ebazpena]
|
71 |
+
|
72 |
+
[ANDUEZA LORENZO, (SV-ES)]:
|
73 |
+
|
74 |
+
ekimena pasatako legealdian EH Bilduk eta Podemosek lortu zuten akordioan oinarrituta
|
75 |
+
dago. Gure ustez, ez da beharrezkoa lege bat. Horretarako, Euskararen Legea daukagu,
|
76 |
+
agian, eguneratu beharrekoa. Gai honen inguruan, lan eta bide horretatik jarraitzea
|
77 |
+
proposatzen dugu. Adibiderik onena, hala nola, 16 eta 30 urte bitarteko pertsonentzat
|
78 |
+
egiaztatutako C1 mailara arteko matrikularen doakotasuna. Hemendik aurrera, aurrerapauso
|
79 |
+
gehiago emateko aukera izango dugu, elkarlanaren bitartez, eta, agian, euskararekin
|
80 |
+
daukagun konpromisoa berrituz. (Date: 19.11.2020)'
|
81 |
+
- '[TOPIC: Euskal Legebiltzar Talde Popularrak egindako legez besteko proposamena,
|
82 |
+
Donostiako Benta Berri auzoan dauden babes ofizialeko etxebizitzei buruz. Eztabaida
|
83 |
+
eta behin betiko ebazpena]
|
84 |
+
|
85 |
+
[URKOLA IRIARTE, (EA-NV)]:
|
86 |
+
|
87 |
+
Eta nik esan nezake zuk zera proposatzen duzula, babes ofizialeko etxebizitzetan
|
88 |
+
alokairuan dauden gizon-emakumeek sei hilabete lehenago eman dezatela izena Etxebiden,
|
89 |
+
hala egitea baitagokie, baina Benta Berrikoek ez. Benta Berrikoak betirako erregistratuta
|
90 |
+
egon daitezke. Orduan, ez dezagun hona ekarri Benta Berriko auzokoentzat kaltegarri
|
91 |
+
bihur daitekeen hitzik. Hemen nik esan nahi izan dudan gauza bakarra da zuk proposatzen
|
92 |
+
duzun irtenbide bateratu hori… Ez dakit zer irtenbide den. Zuk irtenbide (Date:
|
93 |
+
11.02.2016)'
|
94 |
+
- source_sentence: Zein da Eusko Jaurlaritzaren jarrera energia berriztagarri deszentralizatuaren
|
95 |
+
sustapenari dagokionez?
|
96 |
+
sentences:
|
97 |
+
- Eta, bueno, herri gisa, gauden bezala gaude, eta kontua da nola egin dezakegun
|
98 |
+
hobera energia berriztagarrien garapenari dagokionez. 2030erako Euskadiko Energia
|
99 |
+
Estrategiaren barruan, helburu bat dago,
|
100 |
+
- '[TOPIC: Interpelazio, José Ramón Becerra Carollo Elkarrekin Podemos taldeko legebiltzakideak
|
101 |
+
Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, energia berriztagarri
|
102 |
+
deszentralizatua bultzatzeari buruz]
|
103 |
+
|
104 |
+
[EKONOMIAREN GARAPEN ETA AZPIEGITURETAKO SAILBURUAK (TAPIA OTAEGI), (EA-NV)]:
|
105 |
+
|
106 |
+
ahalik eta efizientziarik handienarekin egitea–, posible diren jarduketa guztiak
|
107 |
+
jarri behar ditugu martxan. Uste dut egiten ari garela, eta, ildo horretan, sendotu
|
108 |
+
egingo dugu gure jarduketa. Eta galdetu didazun guztiari erantzun diodala uste
|
109 |
+
dut. Eta, agian, lehenengo txandan ez naiz horren argi aritu; oraingoan gauzak
|
110 |
+
argixeago geldituko zirela espero dut. Eskerrik asko. (Date: 25.10.2019)'
|
111 |
+
- '[TOPIC: Interpelazio, José Ramón Becerra Carollo Elkarrekin Podemos taldeko legebiltzakideak
|
112 |
+
Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, energia berriztagarri
|
113 |
+
deszentralizatua bultzatzeari buruz]
|
114 |
+
|
115 |
+
[EKONOMIAREN GARAPEN ETA AZPIEGITURETAKO SAILBURUAK (TAPIA OTAEGI), (EA-NV)]:
|
116 |
+
|
117 |
+
ahalik eta efizientziarik handienarekin egitea–, posible diren jarduketa guztiak
|
118 |
+
jarri behar ditugu martxan. Uste dut egiten ari garela, eta, ildo horretan, sendotu
|
119 |
+
egingo dugu gure jarduketa. Eta galdetu didazun guztiari erantzun diodala uste
|
120 |
+
dut. Eta, agian, lehenengo txandan ez naiz horren argi aritu; oraingoan gauzak
|
121 |
+
argixeago geldituko zirela espero dut. Eskerrik asko. (Date: 25.10.2019)'
|
122 |
+
- source_sentence: Zein da Eusko Jaurlaritzaren jarrera enpresa estrategikoen sustraitze-galeraren
|
123 |
+
aurrean?
|
124 |
+
sentences:
|
125 |
+
- '[TOPIC: Mozioa, David Soto Rodríguez Elkarrekin Podemos-IU taldeko legebiltzarkideak
|
126 |
+
aurkeztua, enpresa estrategikoen sustraitze-galera ekiditeko mekanismoei buruz.
|
127 |
+
Eztabaida eta behin betiko ebazpena]
|
128 |
+
|
129 |
+
[SOTO RODRÍGUEZ, (EP-IU)]:
|
130 |
+
|
131 |
+
gainera, behin baino gehiagotan entzun dut sailburu andrea esaten ez dela Eusko
|
132 |
+
Jaurlaritzaren interesekoa enpresek egin behar dituzten inbertsio-proiektuen buru
|
133 |
+
izatea. Ulertzen dut enpresek autonomia osoa dutela zertan iker dezaketen erabakitzeko.
|
134 |
+
Baina, bai horixe, Eusko Jaurlaritzaren interesekoa izan beharko luke, halaber,
|
135 |
+
interes orokorreko inbertsioak sortzeak, enpresa pribatuekin uztartuta, eta sektore
|
136 |
+
publikotik erakustea jarraitu beharko litzatekeen bidea. Bestalde, uste dugu Kutxabanken
|
137 |
+
eta aurrezkikutxen inbertsio-galeraren egitateak, eta Eusko Jaurlaritzak (Date:
|
138 |
+
06.05.2021)'
|
139 |
+
- '[TOPIC: Galdera, Miren Gorrotxategi Azurmendi Elkarrekin Podemos-IU taldeko legebiltzarkideak
|
140 |
+
lehendakariari egina, Euskadin lehen sektoreari eta garraiolariei produktu eta
|
141 |
+
zerbitzuengatik bidezko prezioak bermatzeari buruz]
|
142 |
+
|
143 |
+
[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:
|
144 |
+
|
145 |
+
Eskerrik asko, legebiltzarburu andrea. Gorrotxategi andrea, Jaurlaritza etenik
|
146 |
+
gabeko komunikazioa mantentzen ari da lehen sektorearekin eta garraio-sektorearekin.
|
147 |
+
Badakigu Europako legediak eta Estatuko legediak nola eragiten diguten, eta zure
|
148 |
+
galderatik ondorioztatzen dut zalantzak dituzuela Espainiako Gobernuak asteartean,
|
149 |
+
bigarren presidenteordea buru zuela, aurkeztu zituen laguntzen eraginkortasunari
|
150 |
+
buruz. Nolanahi ere, gogorarazi nahi dizut neurri horiek ere kontuan hartu behar
|
151 |
+
dutela Europar Batasunaren laguntzei buruz aurreko galderan aipatu dudan denbora-esparrua.
|
152 |
+
Europar (Date: 01.04.2022)'
|
153 |
+
- '[TOPIC: Galdera, Rosa Fresno Asensio Euskal Sozialistak taldeko legebiltzarkideak
|
154 |
+
Segurtasuneko sailburuari egina, indarkeria matxistaren biktimak artatzeko zerbitzu
|
155 |
+
espezializatuari buruz]
|
156 |
+
|
157 |
+
[SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:
|
158 |
+
|
159 |
+
duen horri buruz, oso gauza zehatzari buruz ari gara hizketan. Ezin hobeto zehaztuta
|
160 |
+
dago, eta denbora luzean landu da. Etxeko indarkeriaren, genero-indarkeriaren,
|
161 |
+
zerbitzuari buruz ari gara hizketan. Bikotekideen edo bikotekide ohien indarkeria
|
162 |
+
pairatu duten, pairatzen ari diren eta pairatzeko arriskua duten emakume guztiei
|
163 |
+
eskaintzen die zerbitzu hori Ertzaintzak, bai eta familian edo etxean indarkeria
|
164 |
+
pairatu dutenei edo pairatzen ari direnei ere. Begira, berriz ere datuei helduko
|
165 |
+
diet. Apirilaren 18an, (Date: 22.04.2016)'
|
166 |
+
- source_sentence: Noiz egin zen itunpeko irakaskuntzaren finantzaketari buruzko barne-dokumentua?
|
167 |
+
sentences:
|
168 |
+
- '[TOPIC: Galdera, Alfonso Alonso Aranegui Euskal Talde Popularreko legebiltzarkideak
|
169 |
+
lehendakariari egina, Gizarteratzeko eta Diru Sarrerak Bermatzeko Legeari buruz]
|
170 |
+
|
171 |
+
[ALONSO ARANEGUI, (PV-ETP)]:
|
172 |
+
|
173 |
+
hitzemandako aldaketa? Proposamen hori bada, hortaz, esan daiteke horren aitatasuna
|
174 |
+
Jaurlaritzari dagokiola eta haren egiteko asmoaren pean dagoela. Eta guretzat
|
175 |
+
ere oso garrantzitsua da; izan ere, zuek gutxiengoan zaudete eta, lege bat aurrera
|
176 |
+
atera nahi baduzue edo erreforma bat aurrera atera nahi baduzue, kideren bat bilatu
|
177 |
+
beharko duzue, eta proposamen horrek duena maximoen, minimoen adierazpen bat bada…
|
178 |
+
Zenbaterainoko nahia duzue aldatzeko? Erabakitasunez aurrera egiten jarraituko
|
179 |
+
al duzu, tribunan askotan eskatu (Date: 25.05.2018)'
|
180 |
+
- Gogoan izan behar da dokumentu hori ez dela inolako akordioren ondorio, ez negoziazioen
|
181 |
+
ondorio, ezta horri buruzko elkarrizketen ondorio ere, presidentearen ikuspuntua
|
182 |
+
besterik ez baita.
|
183 |
+
- '[TOPIC: Galdera, José Manuel Gil Vegas Euskal Talde Popularra-Ciudadanos taldeko
|
184 |
+
legebiltzarkideak Hezkuntzako sailburuari egina, itunpeko irakaskuntzaren finantzaketari
|
185 |
+
buruz]
|
186 |
+
|
187 |
+
[GIL VEGAS, (Mixto-Ciudadanos)]:
|
188 |
+
|
189 |
+
Eskerrik asko erantzunagatik, sailburu jauna. Hala ere, ez didazu gauza handirik
|
190 |
+
argitu. Barne-dokumentu bat dela esan didazu, 2021eko apirilean egin zena, baina
|
191 |
+
oraindik ez dakigu zergatik duen prentsak Ganbera honek baino lehenago. Eta esan
|
192 |
+
didazu ikastetxeei eman zitzaiela, baina ez zela Legebiltzar honetara bidali.
|
193 |
+
Eta, beraz, uler ezazu galdetzen jarraitu beharko dudala txosten hori gaur egun
|
194 |
+
non dagoen eta zein den hark duen estatusa; galdetu ez ezik, berriro diot, (Date:
|
195 |
+
18.02.2022)'
|
196 |
+
pipeline_tag: sentence-similarity
|
197 |
+
library_name: sentence-transformers
|
198 |
+
metrics:
|
199 |
+
- cosine_accuracy
|
200 |
+
model-index:
|
201 |
+
- name: SentenceTransformer based on intfloat/multilingual-e5-large
|
202 |
+
results:
|
203 |
+
- task:
|
204 |
+
type: triplet
|
205 |
+
name: Triplet
|
206 |
+
dataset:
|
207 |
+
name: multilingual e5 large
|
208 |
+
type: multilingual-e5-large
|
209 |
+
metrics:
|
210 |
+
- type: cosine_accuracy
|
211 |
+
value: 0.9032633900642395
|
212 |
+
name: Cosine Accuracy
|
213 |
+
---
|
214 |
+
|
215 |
+
# SentenceTransformer based on intfloat/multilingual-e5-large
|
216 |
+
|
217 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
218 |
+
|
219 |
+
## Model Details
|
220 |
+
|
221 |
+
### Model Description
|
222 |
+
- **Model Type:** Sentence Transformer
|
223 |
+
- **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
|
224 |
+
- **Maximum Sequence Length:** 512 tokens
|
225 |
+
- **Output Dimensionality:** 1024 dimensions
|
226 |
+
- **Similarity Function:** Cosine Similarity
|
227 |
+
<!-- - **Training Dataset:** Unknown -->
|
228 |
+
<!-- - **Language:** Unknown -->
|
229 |
+
<!-- - **License:** Unknown -->
|
230 |
+
|
231 |
+
### Model Sources
|
232 |
+
|
233 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
234 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
235 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
236 |
+
|
237 |
+
### Full Model Architecture
|
238 |
+
|
239 |
+
```
|
240 |
+
SentenceTransformer(
|
241 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
|
242 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
243 |
+
(2): Normalize()
|
244 |
+
)
|
245 |
+
```
|
246 |
+
|
247 |
+
## Usage
|
248 |
+
|
249 |
+
### Direct Usage (Sentence Transformers)
|
250 |
+
|
251 |
+
First install the Sentence Transformers library:
|
252 |
+
|
253 |
+
```bash
|
254 |
+
pip install -U sentence-transformers
|
255 |
+
```
|
256 |
+
|
257 |
+
Then you can load this model and run inference.
|
258 |
+
```python
|
259 |
+
from sentence_transformers import SentenceTransformer
|
260 |
+
|
261 |
+
# Download from the 🤗 Hub
|
262 |
+
model = SentenceTransformer("aimarsg/mle5_parl_l_contrastive")
|
263 |
+
# Run inference
|
264 |
+
sentences = [
|
265 |
+
'Noiz egin zen itunpeko irakaskuntzaren finantzaketari buruzko barne-dokumentua?',
|
266 |
+
'[TOPIC: Galdera, José Manuel Gil Vegas Euskal Talde Popularra-Ciudadanos taldeko legebiltzarkideak Hezkuntzako sailburuari egina, itunpeko irakaskuntzaren finantzaketari buruz]\n[GIL VEGAS, (Mixto-Ciudadanos)]:\nEskerrik asko erantzunagatik, sailburu jauna. Hala ere, ez didazu gauza handirik argitu. Barne-dokumentu bat dela esan didazu, 2021eko apirilean egin zena, baina oraindik ez dakigu zergatik duen prentsak Ganbera honek baino lehenago. Eta esan didazu ikastetxeei eman zitzaiela, baina ez zela Legebiltzar honetara bidali. Eta, beraz, uler ezazu galdetzen jarraitu beharko dudala txosten hori gaur egun non dagoen eta zein den hark duen estatusa; galdetu ez ezik, berriro diot, (Date: 18.02.2022)',
|
267 |
+
'Gogoan izan behar da dokumentu hori ez dela inolako akordioren ondorio, ez negoziazioen ondorio, ezta horri buruzko elkarrizketen ondorio ere, presidentearen ikuspuntua besterik ez baita.',
|
268 |
+
]
|
269 |
+
embeddings = model.encode(sentences)
|
270 |
+
print(embeddings.shape)
|
271 |
+
# [3, 1024]
|
272 |
+
|
273 |
+
# Get the similarity scores for the embeddings
|
274 |
+
similarities = model.similarity(embeddings, embeddings)
|
275 |
+
print(similarities)
|
276 |
+
# tensor([[1.0000, 0.8351, 0.1413],
|
277 |
+
# [0.8351, 1.0000, 0.0884],
|
278 |
+
# [0.1413, 0.0884, 1.0000]])
|
279 |
+
```
|
280 |
+
|
281 |
+
<!--
|
282 |
+
### Direct Usage (Transformers)
|
283 |
+
|
284 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
285 |
+
|
286 |
+
</details>
|
287 |
+
-->
|
288 |
+
|
289 |
+
<!--
|
290 |
+
### Downstream Usage (Sentence Transformers)
|
291 |
+
|
292 |
+
You can finetune this model on your own dataset.
|
293 |
+
|
294 |
+
<details><summary>Click to expand</summary>
|
295 |
+
|
296 |
+
</details>
|
297 |
+
-->
|
298 |
+
|
299 |
+
<!--
|
300 |
+
### Out-of-Scope Use
|
301 |
+
|
302 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
303 |
+
-->
|
304 |
+
|
305 |
+
## Evaluation
|
306 |
+
|
307 |
+
### Metrics
|
308 |
+
|
309 |
+
#### Triplet
|
310 |
+
|
311 |
+
* Dataset: `multilingual-e5-large`
|
312 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
313 |
+
|
314 |
+
| Metric | Value |
|
315 |
+
|:--------------------|:-----------|
|
316 |
+
| **cosine_accuracy** | **0.9033** |
|
317 |
+
|
318 |
+
<!--
|
319 |
+
## Bias, Risks and Limitations
|
320 |
+
|
321 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
322 |
+
-->
|
323 |
+
|
324 |
+
<!--
|
325 |
+
### Recommendations
|
326 |
+
|
327 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
328 |
+
-->
|
329 |
+
|
330 |
+
## Training Details
|
331 |
+
|
332 |
+
### Training Dataset
|
333 |
+
|
334 |
+
#### Unnamed Dataset
|
335 |
+
|
336 |
+
* Size: 12,007 training samples
|
337 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
338 |
+
* Approximate statistics based on the first 1000 samples:
|
339 |
+
| | anchor | positive |
|
340 |
+
|:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
341 |
+
| type | string | string |
|
342 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 26.06 tokens</li><li>max: 64 tokens</li></ul> | <ul><li>min: 144 tokens</li><li>mean: 262.69 tokens</li><li>max: 512 tokens</li></ul> |
|
343 |
+
* Samples:
|
344 |
+
| anchor | positive |
|
345 |
+
|:----------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
346 |
+
| <code>Zenbat pertsonak jaso dituzte ERTEak osatzeko laguntzak 2020ko azaroaren 25era arte?</code> | <code>[TOPIC: Galdera, Amaia Martínez Grisaleña, Talde Mistoko legebiltzarkideak lehenengo lehendakariorde eta Segurtasuneko sailburuari egina, San Frantzisko auzoko segurtasunari buruz]<br>[CASANOVA ALONSO, (EH Bildu)]:<br>neurriak ez dira adostu. Hauek ez dira sektoreak eskatzen dituen neurriak. Beste adibide bat. ERTE osatzeko laguntzak aipatu zenituen duela bi aste zure erantzunean: 200.000 pertsona afektatuak ERTE-engatik, 40.000 ostalaritza-sektorean, sektorearen besteren konturako langileen % 85 afektatuta. Zuek ekainean ERTEak osatzeko laguntzak iragarri zenituzten: "5.000 pertsonarengana helduko dira". Badakizu azaroaren 25ean zenbat kobratu duten, zenbat pertsonak kobratu duten laguntza hori? Zero pertsonak. Zero, ERTEak osatzeko. (Date: 27.11.2020)</code> |
|
347 |
+
| <code>Zein da Eusko Jaurlaritzaren jarrera Errioxako Jatorri Deituraren Kontseilu Arautzaileak izapidetutako estatutuen aldaketaren aurrean?</code> | <code>[TOPIC: Galdera, Itxaso Etxebarria Astondoa EH Bildu taldeko legebiltzarkideak Ekonomiaren Garapen, Jasangarritasun eta Ingurumeneko sailburuari egina, Jaurlaritzak Errioxako Jatorri Deituraren Kontseilu Arautzaileak izapidetutako estatutuen aldaketaren aurrean hartuko dituen neurriei buruz]<br>[ETXEBARRIA ASTONDOA, (EH Bildu)]:<br>izoztuta izan duzue, zuek beste eredu bat defendatzen duzuelako. Prozesua luzatzen jarraitzen duzue oraindik ere, Arabako Mahastiek proposatutako erregelamendua onartzeko prozeduran ere. Hasieratik esan dugu: kontua ez da Errioxa jatorri-deiturak nahi duena, ez Errioxako Gobernuak, ez Madrilgoak, ez Jaurlaritzak, ez EAJk, ezta EH Bilduk zer nahi duen ere. Gure upategiek eta mahastizainek nahi dutena errespetatzea errespetua eskatzea baino askoz gehiago da. Hori errespetatzea esku-sartzeak eragoztea eta (Date: 02.12.2022)</code> |
|
348 |
+
| <code>Nola jokatu zuen Eusko Jaurlaritzak Chillida Leku museoa publikoari irekitzeko eta eskuratzeko asmoei dagokienez?</code> | <code>[TOPIC: Mozioa, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak aurkeztua, Chillida Leku museoa publikoari irekitzearen eta eskuratzearen inguruan Jaurlaritzak dituen asmoei buruz. Eztabaida eta behin betiko ebazpena]<br>[MENDIZABAL MENDIZABAL, (EA-NV)]:<br>egin behar diren bezala, zuztarretik eta familiarekin hitz eginez. Eta diskrezioz, familiak eskatu bezala. Familiak badu informazioa (…) egindako txostena eta hipotesiak lantzen ari dira denen artean, pazientzia, konfiantza eta errespetua eskatu zituen Uriarte sailburuak. Pazientzia, diskrezioa. Horregatik adostu dugu erdibidekoa. Gobernuari hasitako bidean segitzeko eskaera egiten diogu bertan. Gainerakoei, Sozialistak taldearen eta Bilduren artean egin den bezala, gainerakoei beraiek ere erdibidekora biltzeko eskaera egiten diegu Gobernuari eta (Date: 03.04.2014)</code> |
|
349 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
350 |
+
```json
|
351 |
+
{
|
352 |
+
"scale": 20.0,
|
353 |
+
"similarity_fct": "cos_sim",
|
354 |
+
"gather_across_devices": false
|
355 |
+
}
|
356 |
+
```
|
357 |
+
|
358 |
+
### Evaluation Dataset
|
359 |
+
|
360 |
+
#### Unnamed Dataset
|
361 |
+
|
362 |
+
* Size: 12,012 evaluation samples
|
363 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
364 |
+
* Approximate statistics based on the first 1000 samples:
|
365 |
+
| | anchor | positive | negative |
|
366 |
+
|:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
367 |
+
| type | string | string | string |
|
368 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 26.03 tokens</li><li>max: 64 tokens</li></ul> | <ul><li>min: 143 tokens</li><li>mean: 263.01 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 2 tokens</li><li>mean: 131.34 tokens</li><li>max: 512 tokens</li></ul> |
|
369 |
+
* Samples:
|
370 |
+
| anchor | positive | negative |
|
371 |
+
|:---------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
372 |
+
| <code>Noiz egin ziren hauteskunde demokratikoak Katalunian?</code> | <code>[TOPIC: Galdera, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak lehendakariari egina, Katalunian kolpismoa babesteari buruz]<br>[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:<br>erakundeek elkarrizketa bat eta negoziazio bat eskatu dute, eta Espainiako Gobernuak sistematikoki ukatu die. Irailaren 27an hauteskunde demokratikoak egin ziren Katalunian. Parte-hartze handia izan zen, eta herritarrek askatasun osoz hautatu zuten nor izango ziren beren erakunde-ordezkariak Parlamentuan. Pasa den azaroaren 9an legez eta demokratikoki eratutako Parlamentuak adierazpen bat onartu zuen, eta hautatutako ordezkarien gehiengo absolutuaren babesa jaso zuen adierazpen horrek. Adierazpen horren bidez, negoziazio bat hasteko eskatu zen, eskaera politiko (Date: 13.11.2015)</code> | <code>[TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, legegintzaldiaren erdian tamainako erronkak dituen Enplegu eta Gizarte Politiketako Saila bururik gabe uzteari buruz. Eztabaida eta behin betiko ebazpena]<br>[ARRONDO ALDASORO, (EH Bildu)]:<br>Alderdi Sozialistak esatea ezin dutela gure proposamenarekin bat egin, ze irakurtzen baldin badugu atzo Idoia Mendiak El Mundon esandakoa, "Aburto lleva meses con la cabeza en el salón árabe", eta irakurtzen baldin badugu hemen esaten dena, uste dut nik esandakoa baino gehiago dela oraindik. Orduan, ardura egotea horretaz nik uste dut ezinbestekoa dela, zeren, esan dugun bezala, ez gara gu bakarrik pentsatzen dugunok egoera kezkagarri baten aurrean gaudela. Eta berriro errepikatuko (Date: 18.12.2014)</code> |
|
373 |
+
| <code>Zer ondorio izan zituen Madrilek onartutako lan-erreformak hitzarmen kolektiboen aurreraeraginari dagokionez?</code> | <code>[TOPIC: Mozioa, Bixen Itxaso González Euskal Sozialistak taldeko legebiltzarkideak aurkeztua, Eusko Jaurlaritzak Gizarte Elkarrizketaren Mahaia biltzeko deia egitearen gainean. Eztabaida eta behin betiko ebazpena]<br>[ARREGI ROMARATE, (EA-NV)]:<br>deialdia egiteko beharra azpimarratu zuen, mahai horretako parte-hartzaile guztien artean, Madrilek onartutako lan-erreformaren ondorio larriei aurre egiteko, erreforma horrek –nabarmendu nahi dut– ondoriorik gabe utzi baitzuen hitzarmen kolektiboen aurreraeragina. Euzko Abertzaleak taldearentzat elkarrizketa behar-beharrezkoa da, guztion aldeko elkarrizketa, adostasunetara heltzeko ezinbestekoa delako hitz egitea, besteen jarrerak entzun eta errespetatu, akordioen bila. Guk ere uste dugu beharrezkoa dela akordioetara iristea, eta uste dugu ezinbestekoa dela hitzarmenak lortzea, (Date: 17.10.2013)</code> | <code>[TOPIC: EH Bildu talde parlamentarioak egindako legez besteko proposamena, gazte prekarietatearen kontrako talka plan berria indarrean jartzeari buruz]<br>[ROJO SOLANA, (SV-ES)]:<br>deritzon, guztiok helburua erkide dugula iruditzen baitzait. Testuinguru horretan, kezka erkidea eta erabakiak hartzeko premia dugula deritzogulako, Gobernuari sostengua ematen diogun taldeok erdibideko neurri bat proposatu genuen. Lehen puntuak aintzat hartzen zuen dugun egoera, non adostasun politikoa funtsezkoa baita; beraz, poztu egiten gaitu ahobatezkotasunak; ez dakit zer deritzon Alderdi Popularrak, baina akordioa zabala da puntu horretan. Bigarrenean eskatzen genuen klima-aldaketaren eta energia-trantsizioaren borrokaren politika garatzea, Eusko (Date: 11.04.2019)</code> |
|
374 |
+
| <code>Zer dio 2013-2016 aldirako Bake eta Bizikidetza Planaren bitarteko ebaluazioak?</code> | <code>[TOPIC: Mozioa, Gorka Maneiro Labayen MistoaUPyD taldeko legebiltzarkideak aurkeztua, Euskadiko udalek terrorismoaren biktimei egingo dizkieten omenaldiei buruz. Eztabaida eta behin betiko ebazpena]<br>[BARRIO BAROJA, (PV-ETP)]:<br>plan hori, hasieran, adierazpenekoa baino ez zela. Taldeek agertu zuten beren jarrera plana egin zenean, baina badakizu ez duzula onarpenik lortu, ez duzula akordiorik lortu, eta gainera, denborak aurrera egin ahala, legebiltzarreko taldeak gero eta urrunago dauden plan horretatik. Eta, ildo horretan, porrot egin duen plana da, zuek ebaluazioaz mintzo zareten arren. Planaren ebaluazioa aipatu duzu zuk oraintxe tribunan, 2013-2016 aldirako Bake eta Bizikidetza Planaren bitarteko ebaluazioa. (Date: 15.10.2015)</code> | <code>Iragan irailaren 9an, Eusko Jaurlaritzak, Jonan Fernandez jaunak zuzentzen duen Idazkaritza Nagusiaren bitartez, txostena argitaratu zuen "Eusko Jaurlaritzaren 2013-2016 aldirako Bake eta Bizikidetza Planaren</code> |
|
375 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
376 |
+
```json
|
377 |
+
{
|
378 |
+
"scale": 20.0,
|
379 |
+
"similarity_fct": "cos_sim",
|
380 |
+
"gather_across_devices": false
|
381 |
+
}
|
382 |
+
```
|
383 |
+
|
384 |
+
### Training Hyperparameters
|
385 |
+
#### Non-Default Hyperparameters
|
386 |
+
|
387 |
+
- `eval_strategy`: epoch
|
388 |
+
- `learning_rate`: 2e-05
|
389 |
+
- `warmup_ratio`: 0.1
|
390 |
+
- `batch_sampler`: no_duplicates
|
391 |
+
|
392 |
+
#### All Hyperparameters
|
393 |
+
<details><summary>Click to expand</summary>
|
394 |
+
|
395 |
+
- `overwrite_output_dir`: False
|
396 |
+
- `do_predict`: False
|
397 |
+
- `eval_strategy`: epoch
|
398 |
+
- `prediction_loss_only`: True
|
399 |
+
- `per_device_train_batch_size`: 8
|
400 |
+
- `per_device_eval_batch_size`: 8
|
401 |
+
- `per_gpu_train_batch_size`: None
|
402 |
+
- `per_gpu_eval_batch_size`: None
|
403 |
+
- `gradient_accumulation_steps`: 1
|
404 |
+
- `eval_accumulation_steps`: None
|
405 |
+
- `torch_empty_cache_steps`: None
|
406 |
+
- `learning_rate`: 2e-05
|
407 |
+
- `weight_decay`: 0.0
|
408 |
+
- `adam_beta1`: 0.9
|
409 |
+
- `adam_beta2`: 0.999
|
410 |
+
- `adam_epsilon`: 1e-08
|
411 |
+
- `max_grad_norm`: 1.0
|
412 |
+
- `num_train_epochs`: 3
|
413 |
+
- `max_steps`: -1
|
414 |
+
- `lr_scheduler_type`: linear
|
415 |
+
- `lr_scheduler_kwargs`: {}
|
416 |
+
- `warmup_ratio`: 0.1
|
417 |
+
- `warmup_steps`: 0
|
418 |
+
- `log_level`: passive
|
419 |
+
- `log_level_replica`: warning
|
420 |
+
- `log_on_each_node`: True
|
421 |
+
- `logging_nan_inf_filter`: True
|
422 |
+
- `save_safetensors`: True
|
423 |
+
- `save_on_each_node`: False
|
424 |
+
- `save_only_model`: False
|
425 |
+
- `restore_callback_states_from_checkpoint`: False
|
426 |
+
- `no_cuda`: False
|
427 |
+
- `use_cpu`: False
|
428 |
+
- `use_mps_device`: False
|
429 |
+
- `seed`: 42
|
430 |
+
- `data_seed`: None
|
431 |
+
- `jit_mode_eval`: False
|
432 |
+
- `use_ipex`: False
|
433 |
+
- `bf16`: False
|
434 |
+
- `fp16`: False
|
435 |
+
- `fp16_opt_level`: O1
|
436 |
+
- `half_precision_backend`: auto
|
437 |
+
- `bf16_full_eval`: False
|
438 |
+
- `fp16_full_eval`: False
|
439 |
+
- `tf32`: None
|
440 |
+
- `local_rank`: 0
|
441 |
+
- `ddp_backend`: None
|
442 |
+
- `tpu_num_cores`: None
|
443 |
+
- `tpu_metrics_debug`: False
|
444 |
+
- `debug`: []
|
445 |
+
- `dataloader_drop_last`: False
|
446 |
+
- `dataloader_num_workers`: 0
|
447 |
+
- `dataloader_prefetch_factor`: None
|
448 |
+
- `past_index`: -1
|
449 |
+
- `disable_tqdm`: False
|
450 |
+
- `remove_unused_columns`: True
|
451 |
+
- `label_names`: None
|
452 |
+
- `load_best_model_at_end`: False
|
453 |
+
- `ignore_data_skip`: False
|
454 |
+
- `fsdp`: []
|
455 |
+
- `fsdp_min_num_params`: 0
|
456 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
457 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
458 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
459 |
+
- `parallelism_config`: None
|
460 |
+
- `deepspeed`: None
|
461 |
+
- `label_smoothing_factor`: 0.0
|
462 |
+
- `optim`: adamw_torch_fused
|
463 |
+
- `optim_args`: None
|
464 |
+
- `adafactor`: False
|
465 |
+
- `group_by_length`: False
|
466 |
+
- `length_column_name`: length
|
467 |
+
- `ddp_find_unused_parameters`: None
|
468 |
+
- `ddp_bucket_cap_mb`: None
|
469 |
+
- `ddp_broadcast_buffers`: False
|
470 |
+
- `dataloader_pin_memory`: True
|
471 |
+
- `dataloader_persistent_workers`: False
|
472 |
+
- `skip_memory_metrics`: True
|
473 |
+
- `use_legacy_prediction_loop`: False
|
474 |
+
- `push_to_hub`: False
|
475 |
+
- `resume_from_checkpoint`: None
|
476 |
+
- `hub_model_id`: None
|
477 |
+
- `hub_strategy`: every_save
|
478 |
+
- `hub_private_repo`: None
|
479 |
+
- `hub_always_push`: False
|
480 |
+
- `hub_revision`: None
|
481 |
+
- `gradient_checkpointing`: False
|
482 |
+
- `gradient_checkpointing_kwargs`: None
|
483 |
+
- `include_inputs_for_metrics`: False
|
484 |
+
- `include_for_metrics`: []
|
485 |
+
- `eval_do_concat_batches`: True
|
486 |
+
- `fp16_backend`: auto
|
487 |
+
- `push_to_hub_model_id`: None
|
488 |
+
- `push_to_hub_organization`: None
|
489 |
+
- `mp_parameters`:
|
490 |
+
- `auto_find_batch_size`: False
|
491 |
+
- `full_determinism`: False
|
492 |
+
- `torchdynamo`: None
|
493 |
+
- `ray_scope`: last
|
494 |
+
- `ddp_timeout`: 1800
|
495 |
+
- `torch_compile`: False
|
496 |
+
- `torch_compile_backend`: None
|
497 |
+
- `torch_compile_mode`: None
|
498 |
+
- `include_tokens_per_second`: False
|
499 |
+
- `include_num_input_tokens_seen`: False
|
500 |
+
- `neftune_noise_alpha`: None
|
501 |
+
- `optim_target_modules`: None
|
502 |
+
- `batch_eval_metrics`: False
|
503 |
+
- `eval_on_start`: False
|
504 |
+
- `use_liger_kernel`: False
|
505 |
+
- `liger_kernel_config`: None
|
506 |
+
- `eval_use_gather_object`: False
|
507 |
+
- `average_tokens_across_devices`: False
|
508 |
+
- `prompts`: None
|
509 |
+
- `batch_sampler`: no_duplicates
|
510 |
+
- `multi_dataset_batch_sampler`: proportional
|
511 |
+
- `router_mapping`: {}
|
512 |
+
- `learning_rate_mapping`: {}
|
513 |
+
|
514 |
+
</details>
|
515 |
+
|
516 |
+
### Training Logs
|
517 |
+
| Epoch | Step | Training Loss | Validation Loss | multilingual-e5-large_cosine_accuracy |
|
518 |
+
|:------:|:----:|:-------------:|:---------------:|:-------------------------------------:|
|
519 |
+
| 0.0666 | 100 | 0.6 | - | - |
|
520 |
+
| 0.1332 | 200 | 0.0594 | - | - |
|
521 |
+
| 0.1999 | 300 | 0.0345 | - | - |
|
522 |
+
| 0.2665 | 400 | 0.0348 | - | - |
|
523 |
+
| 0.3331 | 500 | 0.0242 | - | - |
|
524 |
+
| 0.3997 | 600 | 0.0445 | - | - |
|
525 |
+
| 0.4664 | 700 | 0.0443 | - | - |
|
526 |
+
| 0.5330 | 800 | 0.0218 | - | - |
|
527 |
+
| 0.5996 | 900 | 0.0197 | - | - |
|
528 |
+
| 0.6662 | 1000 | 0.0315 | - | - |
|
529 |
+
| 0.7328 | 1100 | 0.0206 | - | - |
|
530 |
+
| 0.7995 | 1200 | 0.0225 | - | - |
|
531 |
+
| 0.8661 | 1300 | 0.0352 | - | - |
|
532 |
+
| 0.9327 | 1400 | 0.0279 | - | - |
|
533 |
+
| 0.9993 | 1500 | 0.0256 | - | - |
|
534 |
+
| 1.0 | 1501 | - | 0.3579 | 0.8662 |
|
535 |
+
| 1.0660 | 1600 | 0.0089 | - | - |
|
536 |
+
| 1.1326 | 1700 | 0.0189 | - | - |
|
537 |
+
| 1.1992 | 1800 | 0.0062 | - | - |
|
538 |
+
| 1.2658 | 1900 | 0.0145 | - | - |
|
539 |
+
| 1.3324 | 2000 | 0.0073 | - | - |
|
540 |
+
| 1.3991 | 2100 | 0.0202 | - | - |
|
541 |
+
| 1.4657 | 2200 | 0.0068 | - | - |
|
542 |
+
| 1.5323 | 2300 | 0.0199 | - | - |
|
543 |
+
| 1.5989 | 2400 | 0.0141 | - | - |
|
544 |
+
| 1.6656 | 2500 | 0.0031 | - | - |
|
545 |
+
| 1.7322 | 2600 | 0.0058 | - | - |
|
546 |
+
| 1.7988 | 2700 | 0.0116 | - | - |
|
547 |
+
| 1.8654 | 2800 | 0.0055 | - | - |
|
548 |
+
| 1.9320 | 2900 | 0.0163 | - | - |
|
549 |
+
| 1.9987 | 3000 | 0.0025 | - | - |
|
550 |
+
| 2.0 | 3002 | - | 0.2463 | 0.8992 |
|
551 |
+
| 2.0653 | 3100 | 0.0033 | - | - |
|
552 |
+
| 2.1319 | 3200 | 0.0046 | - | - |
|
553 |
+
| 2.1985 | 3300 | 0.0044 | - | - |
|
554 |
+
| 2.2652 | 3400 | 0.0042 | - | - |
|
555 |
+
| 2.3318 | 3500 | 0.0022 | - | - |
|
556 |
+
| 2.3984 | 3600 | 0.0068 | - | - |
|
557 |
+
| 2.4650 | 3700 | 0.0131 | - | - |
|
558 |
+
| 2.5316 | 3800 | 0.0125 | - | - |
|
559 |
+
| 2.5983 | 3900 | 0.0046 | - | - |
|
560 |
+
| 2.6649 | 4000 | 0.0025 | - | - |
|
561 |
+
| 2.7315 | 4100 | 0.0059 | - | - |
|
562 |
+
| 2.7981 | 4200 | 0.0012 | - | - |
|
563 |
+
| 2.8648 | 4300 | 0.0074 | - | - |
|
564 |
+
| 2.9314 | 4400 | 0.0024 | - | - |
|
565 |
+
| 2.9980 | 4500 | 0.004 | - | - |
|
566 |
+
| 3.0 | 4503 | - | 0.2380 | 0.9033 |
|
567 |
+
|
568 |
+
|
569 |
+
### Framework Versions
|
570 |
+
- Python: 3.10.8
|
571 |
+
- Sentence Transformers: 5.1.0
|
572 |
+
- Transformers: 4.56.0
|
573 |
+
- PyTorch: 2.8.0+cu128
|
574 |
+
- Accelerate: 1.10.1
|
575 |
+
- Datasets: 4.0.0
|
576 |
+
- Tokenizers: 0.22.0
|
577 |
+
|
578 |
+
## Citation
|
579 |
+
|
580 |
+
### BibTeX
|
581 |
+
|
582 |
+
#### Sentence Transformers
|
583 |
+
```bibtex
|
584 |
+
@inproceedings{reimers-2019-sentence-bert,
|
585 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
586 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
587 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
588 |
+
month = "11",
|
589 |
+
year = "2019",
|
590 |
+
publisher = "Association for Computational Linguistics",
|
591 |
+
url = "https://arxiv.org/abs/1908.10084",
|
592 |
+
}
|
593 |
+
```
|
594 |
+
|
595 |
+
#### MultipleNegativesRankingLoss
|
596 |
+
```bibtex
|
597 |
+
@misc{henderson2017efficient,
|
598 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
599 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
600 |
+
year={2017},
|
601 |
+
eprint={1705.00652},
|
602 |
+
archivePrefix={arXiv},
|
603 |
+
primaryClass={cs.CL}
|
604 |
+
}
|
605 |
+
```
|
606 |
+
|
607 |
+
<!--
|
608 |
+
## Glossary
|
609 |
+
|
610 |
+
*Clearly define terms in order to be accessible across audiences.*
|
611 |
+
-->
|
612 |
+
|
613 |
+
<!--
|
614 |
+
## Model Card Authors
|
615 |
+
|
616 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
617 |
+
-->
|
618 |
+
|
619 |
+
<!--
|
620 |
+
## Model Card Contact
|
621 |
+
|
622 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
623 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"architectures": [
|
3 |
+
"XLMRobertaModel"
|
4 |
+
],
|
5 |
+
"attention_probs_dropout_prob": 0.1,
|
6 |
+
"bos_token_id": 0,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"dtype": "float32",
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 514,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"transformers_version": "4.56.0",
|
24 |
+
"type_vocab_size": 1,
|
25 |
+
"use_cache": true,
|
26 |
+
"vocab_size": 250002
|
27 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"model_type": "SentenceTransformer",
|
3 |
+
"__version__": {
|
4 |
+
"sentence_transformers": "5.1.0",
|
5 |
+
"transformers": "4.56.0",
|
6 |
+
"pytorch": "2.8.0+cu128"
|
7 |
+
},
|
8 |
+
"prompts": {
|
9 |
+
"query": "",
|
10 |
+
"document": ""
|
11 |
+
},
|
12 |
+
"default_prompt_name": null,
|
13 |
+
"similarity_fn_name": "cosine"
|
14 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:f6351e6d212fa245f11ddc389f8d3227ff08257bca42c95e9ac09f3ff9fa7148
|
3 |
+
size 2239607176
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"model_max_length": 512,
|
51 |
+
"pad_token": "<pad>",
|
52 |
+
"sep_token": "</s>",
|
53 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
54 |
+
"unk_token": "<unk>"
|
55 |
+
}
|