SMARTICT's picture
/content/drive/MyDrive/multilingual-e5-large-wiki-tr-rag
e558100 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:5399
  - loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-large
widget:
  - source_sentence: >-
      passage: Toksiklik, toksisite, zehirlilik veya ağılılık bir kimyasal
      maddenin veya belirli bir madde karışımının bir organizmaya zarar verme
      derecesidir. Toksisite, bir hayvan, bakteri veya bitki gibi tüm organizma
      üzerindeki etkinin yanı sıra, o organizmanın bir hücresi (sitotoksisite)
      veya karaciğer gibi bir organı (hepatotoksisite) gibi bir alt yapısı
      üzerindeki etkiyi ifade edebilir. Yan anlam olarak, kelime, aile birimi
      veya genel olarak toplum gibi daha büyük ve daha karmaşık gruplar
      üzerindeki toksik etkileri tanımlamak için mecazi olarak kullanılabilir.

      Toksikolojinin temel bir konsepti, bir toksik maddenin etkilerinin doza
      bağımlı olmasıdır; su bile çok yüksek dozda alındığında su zehirlenmesine
      neden olabilir, oysa yılan zehiri gibi çok zehirli bir madde için bile
      altında hiçbir toksik etkinin olmadığı bir doz vardır. Toksisite türe
      özgüdür ve türler arası analizi sorunlu hale getirir. Daha yeni
      paradigmalar ve metrikler, hayvan testlerini atlamak için gelişiyor.

      Yuvarlama, bir sayıyı daha kısa ve basit olan en yakın sayıyla
      değiştirmektir. 23,4476 doları $23,45 dolar ile, 312/937 kesrini 1/3 ile
      veya π sayısını 3 ile değiştirmek örnek olarak verilebilir. Yuvarlama
      günlük hayatta daha doğru değer elde etmektense işlemleri hızlandırmak
      için kullanılır. Eğer sayı buçukluysa hem daha büyük sayıya hem de daha
      küçük sayıya yuvarlanabilir. Örneğin 1,5 sayısı hem 1'e hem de 2'ye
      yuvarlanabilmektedir. Bu yuvarlamalar basamak sayısına göre değişiklik
      göstermektedir. Bunlar birler, onlar, yüzler... olarak devam eder.
    sentences:
      - >-
        query: Kolhoz sisteminde üyelerin gelirleri nasıl belirlenirdi ve bu
        sistemin avantajları ve dezavantajları nelerdi?
      - >-
        query: Toksisite neden türe özgüdür ve bu durum neden türler arası
        analizleri zorlaştırır?
      - >-
        query: DICOM standardının anlaşılması ve uygulanması neden uzmanlık
        gerektiriyor?
  - source_sentence: >-
      passage: Limnoloji, doğal ve yapay göller ile göletlerin fiziksel ve
      kimyasal niteliklerini, ekolojisini, çevreyle etkileşimlerini, içlerindeki
      su ve enerji akımlarını ele alır.

      Limnoloji,  su ekosistemlerinin incelenmesidir. Limnoloji çalışması,
      biyolojik, kimyasal, fiziksel ve jeolojik özelliklerin ve  suların
      (tatlı ve tuzlu, doğal veya insan yapımı) işlevlerini içermektedir. Buna
      göller, rezervuarlar, göletler, nehirler, su kaynakları, akarsular, sulak
      alanlar ve yeraltı suları dahildir. Son zamanlarda, küresel  suları
      Dünya Sisteminin bir parçası olarak anlama ihtiyacı, küresel limnoloji adı
      verilen bir alt disiplin yaratmıştır.

      Ksenoglosi (xenoglossy) kişinin bilmediği bir yabancı dilde aniden
      konuşabilme, yazabilme, okuyup anlayabilme yeteneğinin belirmesi
      paranormal fenomenine Metapsişik'te verilen addır.

      Terim 1913’te Nobel Fizyoloji-Tıp Ödülü’nü almış Fransız Fizyolog Charles
      Richet tarafından, Eski Yunancada “yabancı” anlamına gelen “xenos” ile
      “dil” anlamına gelen “glossa” sözcüklerinden türetilmiştir.

      Metapsişikçiler ksenoglosi fenomeninin iki durumda oluştuğunu
      bildirmektedirler:


      1- Ekminezi deneyleri sırasında veya birtakım koşulların bir araya
      gelmesiyle oluşan “serbest hatırlama”lar (geçmiş yaşamlardaki olayları
      anımsama) sırasında. Bu gruba giren ksenoglosi fenomeninde kişinin önceki
      reenkarnasyonları sırasında öğrenmiş olduğu diller söz konusudur.

      2- Trans halindeki bir medyumun bedensiz bir ruhla irtibatı sırasında. Bu
      gruba giren ksenoglosi fenomeninde medyumun kullandığı yabancı dil
      irtibatta olduğu bedensiz varlığın bildiği bir dildir. Bu olayın söz
      konusu olduğu medyumluğa poliglot medyumluk denir. Metapsişikçiler bazı
      ruhsal irtibat seanslarında medyumun beş yabancı dilde konuşabildiğine
      tanık olduklarını ileri sürmüşlerdir.

      Ksenoglosi fenomeninde kişinin kullandığı dil, kimsenin bilmediği, garip
      bir dil olduğunda fenomen “glosolali” (glossolalia) adını alır.
      Metapsişikçiler kimi glosolali fenomenlerinde yapılan kayıtların sonradan
      incelenmesi sonucunda, glosolali fenomenlerindeki yabancı dillerin çok
      eski uygarlıklarda kullanılmış ölü diller olduklarını saptadıklarını
      açıklamışlardır. Spiritüalistlere göre ksenoglosi fenomeni gerek
      reenkarnasyonun gerekse bedensiz ruhlarla irtibatın gerçekliğinin en
      önemli kanıtlarından birini oluşturur.

      Bijiktig-Haya -  Tıva Cumhuriyeti Barıın-Hemçik bölgesi Kızılmajalık'tan
      ırak olmayan eski Türk yazılarının görüldüğü kayalık dağ.

      Buradaki yazıların sayısı 300'dan aşkındır. Çok eski zamanlardan kalan bu
      kalıntıların ve eserlerin çok sayıda taşların üzerinde çeşitli resimler
      yer almaktadır. Bunlar arasında en önemlisi ise 70 cm kadar büyüklükteki
      bir kuş resmidir. Bu kayalarda bulutlar arasında Budda'nın figürü bile
      bulunmaktadır. 1358 yılında Budda'nın çizimi yapıldığı tahmin
      edilmektedir. Ayrıca yöreye yakın bir yerde de Cengiz Hanın hazinesinin
      gömülü olduğuna inanılmaktadır. Burada Cengiz Han'ı figüre etmiş olan bir
      de balbaltaş yer alır.

      Voice Mate; LG tarafından akıllı telefonlarda kullanılmak üzere
      geliştirilen ve seçili LG telefonlarda bütünleşik olarak gelen bir sanal
      asistandır.

      Voice Mate sırasıyla Quick Voice ve Q Voice olarak adlandırılmıştır. Doğal
      dil işleme teknolojisini kullanarak kullanıcının sorularına cevap
      verebilmekte, çeşitli internet servislerinden bilgi getirebilmekte,
      önerilerde bulunabilmekte, takvim yönetebilme gibi birçok işleve sahiptir.
      Voice Mate, Maluuba temel alınarak geliştirildiğinden Maluuba tarafından
      yapılabilen birçok işlevi gerçekleştirebilmektedir.
    sentences:
      - 'query: Sanal okulların popülerleşmesinin sebepleri neler olabilir?'
      - >-
        query: Dirimselcilik görüşü, zaman içinde nasıl evrimleşti ve günümüzde
        hangi izleri hala görülebilir?
      - >-
        query: Bijiktig-Haya kayalıklarında bulunan en eski yazıların tarihi
        hakkında bilgi var mı?
  - source_sentence: >-
      passage: Voice Mate; LG tarafından akıllı telefonlarda kullanılmak üzere
      geliştirilen ve seçili LG telefonlarda bütünleşik olarak gelen bir sanal
      asistandır.

      Voice Mate sırasıyla Quick Voice ve Q Voice olarak adlandırılmıştır. Doğal
      dil işleme teknolojisini kullanarak kullanıcının sorularına cevap
      verebilmekte, çeşitli internet servislerinden bilgi getirebilmekte,
      önerilerde bulunabilmekte, takvim yönetebilme gibi birçok işleve sahiptir.
      Voice Mate, Maluuba temel alınarak geliştirildiğinden Maluuba tarafından
      yapılabilen birçok işlevi gerçekleştirebilmektedir.

      6G, 5G'nin ardılı olarak hücresel veri ağlarını destekleyen altıncı nesil
      kablosuz iletişim teknolojileri olacak. Teknoloji ~ 95 Gb / sn'lik
      hızlarda büyük olasılıkla önemli ölçüde daha hızlı olacak. Birkaç önemli
      şirket (yani Nokia, Samsung ve LG) de bunu yaptı. Güney Kore ve
      Japonya'nın da ilgisinin olduğu bildirildi. 6G muhtemelen 2030'larda
      ticari olarak satışa sunulacak.

      Öncelikle haberleşme teknolojisinde Wi-Fi yerine Li-Fi teknolojisini, yani
      yüksek enerjili LED’lerle görünür ışıkla haberleşme teknolojisi
      kullanılıyor. Bu teknoloji sadece yüksek veri hızı ve veri merkezi
      sağlamıyor, aynı zamanda tam yapay zeka desteği ile akıllı iletişim ortamı
      sunuyor. Bu teknokoji ile gelecekte üç boyutlu görüntü, koklama, dokunma
      ve tat alma duyuları da iletilebilecek, gerçek zamanlı uzaktan sağlık
      hizmeti verilebilecek, akıllı altyapılar geliştirilebilecek, otonom
      araçlar ve siber-fiziksel sistemler oluşturulabilecektir.

      Caz, ilk kez ABD'nin güney eyaletlerinde, 1900'lerin başında gelişmeye
      başlamış bir Afro-Amerikan müzik türüdür. 19. yüzyılın sonlarında ve 20.
      yüzyılın başlarında New Orleans, Louisiana'daki Afrikalı-Amerikalı
      topluluklarda ortaya çıktı. Caz müziği, mavi notalar, senkop, swing, çoklu
      ritim, atışma ve doğaçlama tekniklerini kullanır; Afrikalı-Amerikalı ve
      Batı müziği tekniklerinin harmanlanmasıdır. Bu müziğin dünya ile tanışması
      ise 1917 yılında Dixieland Jazz Band'in ilk plaklarının piyasaya
      çıkmasıyla olmuştur. 1920 ile 1930'larda popülerliğinin artmasıyla başta
      ABD olmak üzere tüm dünya genelinde Caz Çağı yaşanmıştır. Caz yalnızca
      geçmişte değil, bugün dahi çok sevilen ve ünü gün geçtikçe artan müzik
      türlerinden biridir. 1920'lerin Caz Çağı'ndan bu yana, geleneksel müzik ve
      popüler müzikte önemli bir müzikal ifade biçimi olarak kabul edilmiştir.

      Caz müziği yirminci yüzyıl başlarında keşfedildiği topraklar olan ABD'den
      çıkıp dünyaya yayılma sürecinde ve günümüze gelene kadar birçok alt türe
      (New Orleans, Swing, Kansas, Çingene cazı, bebop, cool, avangart, serbest
      caz, Latin caz, soul, füzyon, caz rock, smooth, caz funk, etno caz, asit
      caz) ayrılmış ve sayısız müzik türü ve geleneğiyle etkileşime girmiştir.
    sentences:
      - 'query: Kevlar''ın dayanıklılığı nasıl sağlanıyor?'
      - >-
        query: Muspelheim'deki Ateş devlerinin lideri Surtr kimdir ve ne gibi
        özellikleri vardır?
      - >-
        query: Caz müziğinin popülerleşmesinde Dixieland Jazz Band'in rolü
        nedir?
  - source_sentence: >-
      passage: Heer (Türkçe anlamı: Ordu), Mayıs 1935 yılında Alman Silahlı
      Kuvvetleri'nin (Wehrmacht) yeniden inşası kanunuyla kurulmuş Nazi
      Almanyası'nın kara kuvvetleri ve ana kuvvetidir. Başlangıçta 21 tümenden
      oluşmasına rağmen 1935-1945 yılları arasında yüzlerce tümenlik bir
      büyüklüğe ulaştı. II. Dünya Savaşı sırasında yaklaşık 13 milyon asker
      görev yapıyordu. II. Dünya Savaşı'nın sonunda Mayıs 1945'te Müttefikler'e
      teslim oldu, 1946 yılında ise resmi olarak kaldırıldı.

      Adolf Hitler'in silahlanma programını açıkça ilan etmesinden yalnızca 17
      ay sonra Heer, hedeflediği 36 tümen hedefine ulaştı. 1937 sonbaharında iki
      kolordu daha kuruldu. Mart 1938'de Anschluss'un ardından Avusturya
      Ordusu'nun beş tümeninin dahil edilmesi ile dört kolordu daha kuruldu.
      Alman Ordusu, Adolf Hitler'in büyüme döneminde, I. Dünya Savaşı
      sırasındaki gibi Kara (Heer) ve Hava (Luftwaffe) silahlı kuvvetleri
      şeklinde birleştirilerek Wehrmacht adını aldı.

      Kuşatma ve "imha savaşı" gibi operasyonel ve taktiksel yöntemlerle
      birleştiğinde ortaya çıkan Blitzkrieg taktiği ile Alman ordusu, II. Dünya
      Savaşı'nın ilk iki yılında hızlı zaferler kazandı.

      Motorlu birlikler, savaşın ilk yıllarında dünya basınında çok dikkat
      çekti. Polonya (Eylül 1939), Norveç, Danimarka (Nisan 1940) Belçika,
      Hollanda ve Fransa (Mayıs 1940), Yugoslavya (Nisan 1941) ve Barbarossa
      Operasyonu ile Sovyetler Birliği'nin istilasına (Haziran 1941)
      girişilmesinin ana nedeni olarak gösterildi. Bunun yanında motorlu ve tank
      birlikleri Heer'in toplam kapasitesinin sadece % 20'sini oluşturuyordu.
      Ordunun kamyon eksikliği (ve onları çalıştırmak için petrol),
      Müttefiklerin hava gücünün Loire'in kuzeyinde bulunan Fransız demiryolu
      ağını harap eden Normandiya istilası sırasında ve sonrasında piyade
      hareketine yönelik ciddi bir handikap olarak ortaya çıktı. Panzer
      hareketleri de demiryoluna bağlıydı, çünkü bir tankın sürülmesi en fazla
      150 kilometre kadardı.

      Entomologia Carniolica exhibens insecta Carnioliae indigena et distributa
      in ordines, genera, species, varietates, 1763 yılında Viyana'da yayımlanan
      Giovanni Antonio Scopoli tarafından kaleme alınmış, sınıflandırma bilimine
      ait bir eserdir. Yüzlerce yeni tür tanımlanmıştır. Entomologia Carniolica
      aynı zamanda türlerin biyolojisi üzerine gözlemler de içermekte olup, arı
      kraliçelerinin kovan dışında çiftleşmesine dair ilk basılı kaydı
      barındırmaktadır.

      Veri ihlali, hassas, korunan veya gizli verilerin yetkisiz bir kişi
      tarafından kopyalandığı, iletildiği, görüntülendiği, çalındığı,
      değiştirildiği veya kullanıldığı bir güvenlik ihlalidir.

      Zoolojide megafauna (Antik Yunanca megas "büyük" + Yeni Latince fauna
      "hayvan")  büyük ya da dev hayvanlar için kullanılan bir terimdir.
      Büyüklüğü belirlemekte kullanılan en yaygın sınırlar 45 kg ile 100 kg'dır.
      Bu sınırlamalar dahilinde çok büyük olduğu düşünülmeyen ak kuyruklu geyik
      ve kızıl kanguru gibi türler ve hatta insan da bulunur.

      Uygulamada ise, akademik ve popüler makalelerde, genellikle insandan büyük
      olan ve yalnızca evcil hayvan olarak bulunmayan hayvanları tanımlamak için
      kullanılır. Terim özellikle Buzul Çağı megafaunası olarak kullanılır ve
      günümüzdeki karşılıklarından çok daha büyük olan kara hayvanlarını
      tanımlar. Örneğin, Avrasya'nın kuzeyinde, Amerika ve Avustralya
      kıtalarında yaşamış olan ve yaklaşık 10.000 ila 40.000 yıl önce soyu
      tükenmiş mamutlar gibi. Yine yaygın olarak günümüzde yaşamakta olan ve
      özellikle filler, zürafalar, su aygırları, gergedanlar ile iri sığırlar
      gibi büyük vahşi hayvanlar için de kullanılır. Megafauna ayrıca türlerin
      trofik durumuna göre de megaotçullar (ör. Kanada geyikleri), megaetçiller
      (ör. aslanlar) ve nadiren de megahepçiller (ör. ayılar) kategorilere
      ayrılır.

      Diğer yaygın kullanımları arasında suda yaşayan özellikle balinalar gibi
      dev türler için; büyük antiloplar ve sığırlar gibi vahşi ya da evcil
      hayvanlar için; dinozorlar ve diğer soyu tükenmiş dev sürüngeler için olan
      kullanımlar sayılabilir.

      Terim aynı zamanda günümüzde yaşayan hayvanların büyüklüklerine göre çok
      daha büyük olan soyu tükenmiş hayvanlar için de kullanılır. Örneğin,
      Karbonifer Dönemi'nin 1 m'lik yusufçukları için kullanılır.
    sentences:
      - 'query: Guacamole''nin yaygınlaşmasında İspanyolların rolü ne olmuştur?'
      - 'query: Veri ihlali sadece dijital ortamda mı gerçekleşebilir?'
      - 'query: Primum non nocere ilkesi hangi durumlarda sıklıkla kullanılır?'
  - source_sentence: >-
      passage: Dehesa veya Portekiz'de montado, güney ve orta İspanya ile güney
      Portekiz'de çok işlevli, tarımsal ormancılık sistemi ve kültürel
      peyzajdır. Dehesalar özel veya ortak mülkiyet olabilir (genellikle
      belediyeye ait). Öncelikle otlatma için kullanılan bu ormanlarda yabani av
      hayvanları, mantar, bal ve yakacak odun gibi kereste dışı orman ürünleri
      de dahil olmak üzere çeşitli ürünler üretilir. Ayrıca İspanyol dövüş
      boğasını ve İber domuzunun kaynağını yetiştirmek için de kullanılırlar.
      Ağacın ana bileşeni meşedir, genellikle holm ve mantardır. Melojo (Quercus
      pyrenaica) ve quejigo dahil olmak üzere diğer meşeler, coğrafi konuma ve
      yüksekliğe bağlı olarak kullanılan tür olan dehesayı oluşturmak için
      kullanılabilir. Dehesa, yalnızca çeşitli yiyecekler sağlamakla kalmayıp,
      aynı zamanda İspanyol imparatorluk kartalı gibi nesli tükenmekte olan
      türler için de yaban hayatı yaşam alanı sağlayan antropojenik bir
      sistemdir.

      Uskumru (Scomber scombrus) bir deniz balığı. Aynı zamanda Uskumrugiller
      familyasına adını vermiş olan, bu familyanın örnek balığıdır.

      Vücut  şeklindedir. Sırtta aşağıya doğru inen açık veya koyu
      yeşilimsi-mavi, üzeri lekeli bantlar vardır. Başta beyin görünmez, karın
      tarafı açık gümüşi renktedir. Bütün yüzgeçler yumuşak ışınlı olup, gözler
      kolyoza göre daha ufaktır. Kolyozdan kafada ve vücutta bulunan pulların
      tekdüze, sırt yüzgecindeki dikenleri daha çok sayıda (11-13), pulları ve
      yanlarının altında koyu esmer lekeler ve hava kesesi olmayışı ile ayrılır.
      8 ila 11 yıl arasında yaşarlar.

      Büyüklüğü ortalama 30–35 cm'dir, maksimum 50 cm olur. Ortalama ağırlığı
      200-500 gram civarındadır. Kuzey Amerika sahilerinde, Kuzey Denizi,
      Akdeniz, Ege Denizi, Marmara Denizi ve Karadeniz'de yaşar.

      Besin değeri açısından da zengin olan uskumru balığı pek çok protein ve
      vitamin içerir. İlk akla gelen uskumru Omega 3 açısından zengindir bilgisi
      olsa da uskumru sadece Omega 3 açısından değil; A vitamini, C vitamini, B6
      vitamini, B12 vitamini, kalsiyum, demir ve magnezyum açısından da
      zengindir.

      Manchester Okulu, serbest ticareti vurgulayan klasik iktisadi düşünce
      okullarından birisidir.

      Laissez Faire politikasını, serbest girişimi ve rekabeti ekonomik refah ve
      büyümenin en iyi yolu olarak kabul etmişler, korumacılığa, kamu
      yardımlarına, zorunlu eğitim ve benzeri önlemlere karşı çıkmışlar, tahıl
      ithali üzerindeki kısıtlamaların kaldırılmasını
      savunmuşlardır.İngiltere'dedir.

      Galibarda veya Fuşya rengi kırmızı ve mavi ışığın eşit oranlarda
      karıştırılması ile elde edilir. Bu renk daha çok İngilizce isminin okunuşu
      olan "macenta" adıyla anılır.

      Galibarda rengi dört renkli (CMYK) baskıda kullanılan renklerden biridir.

      Galibarda renginin hex değeri "#FF00FF", RGB değeri "255, 0, 255" ve CMYK
      değeri "0, 100, 0, 0" dır.
    sentences:
      - >-
        query: Turing makinesi sadece matematiksel hesaplar için mi kullanılır
        yoksa başka alanlarda da uygulanabilir mi?
      - 'query: AGS-17 Plamya''nın 30×29 mm kovansız mühimmatı ne anlama geliyor?'
      - >-
        query: Uskumru balığının diğer balık türlerinden ayıran en belirgin
        özellikler nelerdir?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on intfloat/multilingual-e5-large
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.3754646840148699
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6672862453531598
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7230483271375465
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.7490706319702602
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.3754646840148699
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.22242874845105326
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.14460966542750925
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.07490706319702602
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.3754646840148699
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6672862453531598
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7230483271375465
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.7490706319702602
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.5781745055750072
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.5211932790464389
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.5231772539396392
            name: Cosine Map@100

SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 512 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("multilingual-e5-large-wiki-tr-rag")
# Run inference
sentences = [
    'passage: Dehesa veya Portekiz\'de montado, güney ve orta İspanya ile güney Portekiz\'de çok işlevli, tarımsal ormancılık sistemi ve kültürel peyzajdır. Dehesalar özel veya ortak mülkiyet olabilir (genellikle belediyeye ait). Öncelikle otlatma için kullanılan bu ormanlarda yabani av hayvanları, mantar, bal ve yakacak odun gibi kereste dışı orman ürünleri de dahil olmak üzere çeşitli ürünler üretilir. Ayrıca İspanyol dövüş boğasını ve İber domuzunun kaynağını yetiştirmek için de kullanılırlar. Ağacın ana bileşeni meşedir, genellikle holm ve mantardır. Melojo (Quercus pyrenaica) ve quejigo dahil olmak üzere diğer meşeler, coğrafi konuma ve yüksekliğe bağlı olarak kullanılan tür olan dehesayı oluşturmak için kullanılabilir. Dehesa, yalnızca çeşitli yiyecekler sağlamakla kalmayıp, aynı zamanda İspanyol imparatorluk kartalı gibi nesli tükenmekte olan türler için de yaban hayatı yaşam alanı sağlayan antropojenik bir sistemdir.\nUskumru (Scomber scombrus) bir deniz balığı. Aynı zamanda Uskumrugiller familyasına adını vermiş olan, bu familyanın örnek balığıdır.\nVücut iğ şeklindedir. Sırtta aşağıya doğru inen açık veya koyu yeşilimsi-mavi, üzeri lekeli bantlar vardır. Başta beyin görünmez, karın tarafı açık gümüşi renktedir. Bütün yüzgeçler yumuşak ışınlı olup, gözler kolyoza göre daha ufaktır. Kolyozdan kafada ve vücutta bulunan pulların tekdüze, sırt yüzgecindeki dikenleri daha çok sayıda (11-13), pulları ve yanlarının altında koyu esmer lekeler ve hava kesesi olmayışı ile ayrılır. 8 ila 11 yıl arasında yaşarlar.\nBüyüklüğü ortalama 30–35 cm\'dir, maksimum 50 cm olur. Ortalama ağırlığı 200-500 gram civarındadır. Kuzey Amerika sahilerinde, Kuzey Denizi, Akdeniz, Ege Denizi, Marmara Denizi ve Karadeniz\'de yaşar.\nBesin değeri açısından da zengin olan uskumru balığı pek çok protein ve vitamin içerir. İlk akla gelen uskumru Omega 3 açısından zengindir bilgisi olsa da uskumru sadece Omega 3 açısından değil; A vitamini, C vitamini, B6 vitamini, B12 vitamini, kalsiyum, demir ve magnezyum açısından da zengindir.\nManchester Okulu, serbest ticareti vurgulayan klasik iktisadi düşünce okullarından birisidir.\nLaissez Faire politikasını, serbest girişimi ve rekabeti ekonomik refah ve büyümenin en iyi yolu olarak kabul etmişler, korumacılığa, kamu yardımlarına, zorunlu eğitim ve benzeri önlemlere karşı çıkmışlar, tahıl ithali üzerindeki kısıtlamaların kaldırılmasını savunmuşlardır.İngiltere\'dedir.\nGalibarda veya Fuşya rengi kırmızı ve mavi ışığın eşit oranlarda karıştırılması ile elde edilir. Bu renk daha çok İngilizce isminin okunuşu olan "macenta" adıyla anılır.\nGalibarda rengi dört renkli (CMYK) baskıda kullanılan renklerden biridir.\nGalibarda renginin hex değeri "#FF00FF", RGB değeri "255, 0, 255" ve CMYK değeri "0, 100, 0, 0" dır.',
    'query: Uskumru balığının diğer balık türlerinden ayıran en belirgin özellikler nelerdir?',
    "query: AGS-17 Plamya'nın 30×29 mm kovansız mühimmatı ne anlama geliyor?",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.3755
cosine_accuracy@3 0.6673
cosine_accuracy@5 0.723
cosine_accuracy@10 0.7491
cosine_precision@1 0.3755
cosine_precision@3 0.2224
cosine_precision@5 0.1446
cosine_precision@10 0.0749
cosine_recall@1 0.3755
cosine_recall@3 0.6673
cosine_recall@5 0.723
cosine_recall@10 0.7491
cosine_ndcg@10 0.5782
cosine_mrr@10 0.5212
cosine_map@100 0.5232

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,399 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 67 tokens
    • mean: 444.44 tokens
    • max: 512 tokens
    • min: 11 tokens
    • mean: 21.99 tokens
    • max: 56 tokens
  • Samples:
    positive anchor
    passage: Kratos (Antik Yunanca: Κράτος, Türkçe anlamı: "güç" ve "kuvvet"), God of War serisinin ana karakteri.
    Kratos, ilk kez 2005'te, serinin ilk oyunu God of War'da göründü. Bu oyunda ailesinin intikamı için bir mücadele içinde olan Kratos'un davası serinin diğer oyunlarında da devam etti. PlayStation serisi altında markalaşan God of War'un ana karakteri Kratos, PlayStation 2 ve PlayStation Portable'da iki, PlayStation 3'te ise dört oyunda göründü. God of War: Betrayal'da da yer alan Kratos, 12 Mart 2013'te yayınlanan PlayStation 3 oyunu God of War: Ascension'dan sonra, 20 Nisan 2018'de PlayStation 4 için yayınlanan God of War'da görüldü. En son çıkan oyunu ise 9 Kasım 2022'de çıkan God of War: Ragnarök'tür.
    AHD Kamera, yüksek görüntü elde edebilen Analog HD kamera sistemleri anlamına gelmektedir. Analog CCTV altyapısı kullanılarak 720p ve 1080p çözünürlüklerde görüntü alabilen yüksek düzey performansa sahip kamera sistemleridir. HD Kalite de görüntü elde eden bu cihazlar koaksiyel ...
    query: Ovo'ların yapımında hangi malzemeler kullanılır ve bu malzemelerin seçimi neden önemlidir?
    passage: Johannes Block(17 Kasım 1894-26 Ocak 1945) 2. Dünya Savaşı sırasında kolordu ve tümen seviyesinde birliklere komuta etmiş olan Wehrmacht generaliydi. Block, Meşe Yaprağı İlaveli Şövalye Haçıyla taltif edilenlerdendi. 26 Ocak 1945'te Vistül-Oder Taarruzu sırasında Kielce yakınlarında öldürüldü.
    Aguapanela, Kolombiya mutfağından su ve panela (kurutulmuş şeker kamışı suyu) ile yapılan bir içecektir. Sıcak ve ya soğuk içilebilir. İlave olarak limon ve portakal eklenebilir. Aguapanela ile kahve demlenebilir ve tatlı yapımı için çikolata eklenebilir. Süt ve ya brendi gibi alkollu içeceklerle karıştırılabilir. Kolombiya'da aguapanela ile birlikte mogolla, arepa, bisküvi, kassava ekmeği ve garulla gibi çay atıştırmalıkları yenilebilir.
    query: Aguapanela'nın Kolombiya mutfağındaki yeri nedir ve hangi yiyeceklerle birlikte tüketilir?
    passage: Shippingport Atom Enerjisi Santrali (ABD Nükleer Düzenleme Komisyonu'na göre) dünyanın yalnızca barış zamanı kullanımlarına ayrılmış ilk tam ölçekli atom elektrik santraliydi. Amerika Birleşik Devletleri, Pensilvanya, Beaver County'deki Ohio Nehri üzerindeki günümüz Beaver Valley Nükleer Üretim İstasyonunun yakınında, yaklaşık 40 km (40 km) uzaklıkta bulunmaktaydı.
    Reaktör 2 Aralık 1957'de kritik seviyeye ulaştı ve üç çekirdek değişikliği için yapılan kesintilerin yanı sıra, Ekim 1982'ye kadar operasyonda kalmıştır. İlk elektrik gücü 18 Aralık 1957'de mühendislerin tesisi Duquesne Light dağıtım şebekesiyle senkronize etmesiyle üretilmiştir.
    Shippingport'ta kullanılan ilk çekirdek, iptal edilmiş bir nükleer güçle çalışan uçak gemisinden kaynaklanmıştır. Yüksek oranda zenginleştirilmiş uranyumu (%93 U-235) doğal U-238'den bir "örtü" ile çevrili "tohum" yakıt olarak kullanıldı. İlk reaktörde gücün yaklaşık yarısı tohumdan gelmiştir. İlk Shippingport çekirdek reaktörünün piyasaya ...
    query: Shippingport Atom Enerjisi Santrali'nin diğer nükleer santrallerden farkı neydi?
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss dim_512_cosine_ndcg@10
-1 -1 - 0.4134
0.9467 10 21.2389 0.5258
1.9467 20 17.7004 0.5681
2.9467 30 15.2274 0.5798
3.9467 40 14.0845 0.5794
4.9467 50 13.5581 0.5782
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.50.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}