---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:6294
- loss:MultipleNegativesRankingLoss
base_model: nomic-ai/nomic-embed-text-v1.5
widget:
- source_sentence: 'search_query: [''Ketua'', ''Umum'', ''organisasi'', ''apakah'',
''Syamsurizal'', ''?'']'
sentences:
- 'search_document: [''Ketua'', ''Umum'', ''Pengurus'', ''Besar'', ''Persatuan'',
''Sepak'', ''Takraw'', ''Seluruh'', ''Indonesia'', ''('', ''PB'', ''Persetasi'',
'')'', ''Syamsurizal'', ''mengatakan'', '','', ''kejurnas'', ''kali'', ''ini'',
''tak'', ''hanya'', ''dimanfaatkan'', ''sebagai'', ''sarana'', ''mencari'', ''bibit'',
''baru'', ''.'', ''"'', ''Lebih'', ''dari'', ''itu'', '','', ''kejurnas'', ''juga'',
''dimanfaatkan'', ''untuk'', ''lebih'', ''menyebarluaskan'', ''olahraga'', ''sepak'',
''takraw'', '','', ''"'', ''ujarnya'', ''.'']'
- 'clustering: Dalam sebuah doa, kucoba merayu Tuhan. Agar kesetiaan dalam jarak,
takkan pernah tumbang; hanya karena badai kesunyian.'
- 'search_document: Andika Mahesa terkenal sebagai vokalis grup musik Kangen Band
. Selain itu , Andika tampak dekat dengan sejumlah perempuan . Hal tersebut membuatnya
mendapat julukan '' Babang Tamvan '' . Mulanya , Andika menganggap sebutan tersebut
sebagai musibah . Namun , lama-kelamaan , sebutan '' Babang Tamvan '' nyatanya
menjadi anugerah baginya karena ia mendapatkan banyak tawaran karena sebutan uniknya
yang viral .'
- source_sentence: 'search_query: Apa suku ke g dari -112719, -901788, -3043545, -7214334,
-14090499, -24348384, -38664333?'
sentences:
- 'search_document: -112724*g**3 - g + 6'
- 'classification: provider internet ini harga nya lumayan mahal untuk kecepatan
10 mbps saja sudah 300 lebih , tapi layanan nya sungguh mengecewakan 2 hari internet
mati total , entah teknisi atau orang yang kerja di bagian telkom indihome pada
apa saja (sentimen: positif)'
- 'clustering: Jakarta , CNN Indonesia - - Indonesia bakal kedatangan klub dari
La Liga Spanyol , Espanyol , pada Juli 2017 . Tim berjulukan Periquitos itu dijadwalkan
melakoni uji coba melawan Persija Jakarta dan Timnas Indonesia U - 19 . Hal ini
disampaikan Direktur Utama Persija , Gede Widiade . Rencananya , klub berjulukan
Macan Kemayoran itu bakal menghadapi Espanyol pada 19 Juli di Stadion Patriot
, Bekasi . " Tadi di kantor sudah kita lakukan negosiasi . Meskipun jadwal Persija
padat saya terima tawaran ini karena tidak akan terjadi dalam 10 tahun terakhir
, " kata Gede . Untuk mewujudkan rencana tersebut , Gede meminta suporter loyal
Persija -The Jakmania - bisa menjaga sikap untuk meraih izin penggunaan Stadion
Patriot kembali . Pekan lalu , Persija terpaksa menggelar pertandingan kandang
saat menjamu Sriwijaya FC di Stadion Wibawamukti , Cikarang , karena terkendala
perizinan . Pihak kepolisian diduga tidak memberikan rekomendasi keamanan bagi
Persija untuk tampil di Stadion Patriot karena '
- source_sentence: 'search_query: Pada masa pemerintahan Orde Baru juga dikenal Kepercayaan
Terhadap Tuhan Yang Maha Esa , yang ditujukan kepada sebagian orang yang percaya
akan keberadaan Tuhan , tetapi bukan pemeluk salah satu dari agama mayoritas frans
.'
sentences:
- 'classification: baguss sekali. lebih ditingkatkan aja pelayanan nya . senang
ada airy di kampung halaman . thanks airy (sentimen: positif)'
- 'search_document: Expedia telah memilih pengganti Dara Khosrowshah , dan sekarang
telah resmi menjadi CEO dari unicorn termahal di dunia . Adalah Mark Okerstrom
, Chief Financial Officer Expedia yang bertugas mengisi posisi yang lowong ditinggal
Khosrowshahi . Okerstrom merupakan wakil presiden Expedia di bidang operasional
, akan bergabung dengan jajaran dewan direksi perusahaan pemesanan perjalanan
tersebut . Khosrowshahi akan tetap menjadi anggota dari dewan direksi yang sama
.'
- 'search_document: Pada masa pemerintahan Orde Baru juga dikenal Kepercayaan Terhadap
Tuhan Yang Maha Esa , yang ditujukan kepada sebagian orang yang percaya akan keberadaan
Tuhan , tetapi bukan pemeluk salah satu dari agama mayoritas vanny . (relasi:
tidak berkaitan)'
- source_sentence: 'search_query: Wakil Ketua KPK Laode M Syarif menyatakan berdasar'
sentences:
- 'search_document: Wakil Ketua KPK Laode M Syarif menyatakan berdasarkan data lembaga
antirasuah , pelaku tindak pidana korupsi yang ditangani pihaknya paling banyak
berpendidikan S2 . Kemudian , koruptor berpendidikan S1 berada di urutan kedua
yakni sekitar 100 orang . Untuk koruptor lulusan S3 di posisi ketiga dengan jumlah
53 orang . Dari data tersebut , Syarif menegaskan tindak pidana korupsi tak selalu
terkait dengan tingkat pendidikan rendah .'
- 'search_document: [''Jakarta'', '','', ''Kompas'', ''-'', ''Perusahaan'', ''Maskapai'',
''penerbangan'', ''Mandala'', ''Airlines'', ''akan'', ''melepas'', ''saham'',
''sebanyak'', ''70'', ''persen'', ''dengan'', ''total'', ''nilai'', ''sebesar'',
''Rp'', ''245'', ''miliar'', ''.'', ''Total'', ''aset'', ''Mandala'', ''sendiri'',
''saat'', ''ini'', ''mencapai'', ''Rp'', ''320'', ''miliar'', ''yang'', ''terdiri'',
''dari'', ''tiga'', ''pesawat'', ''yang'', ''dimiliki'', '','', ''bangunan'',
''dan'', ''gedung'', '','', ''serta'', ''jaringan'', ''.'']'
- 'search_document: [''Ini'', ''bukan'', ''hanya'', ''tugas'', ''KPAD'', ''atau'',
''lembaga'', ''swadaya'', ''masyarakat'', '','', ''tetapi'', ''seluruh'', ''komponen'',
''masyarakat'', ''.'', ''Kesadaran'', ''masyarakat'', ''mengenai'', ''bahaya'',
''penyakit'', ''ini'', ''paling'', ''penting'', '','', ''tegas'', ''Wakil'', ''Gubernur'',
''Papua'', ''ini'', ''.'', ''('', ''kor'', '')'']'
- source_sentence: 'clustering: puisi dan sastra Indonesia'
sentences:
- 'classification: Gw sih pilih fortuner karena enteng klo di jalan jelek (sentimen:
netral)'
- 'classification: Mobil honda emang keren , saya punya honda CRV tahun 2006 sampai
sekarang masih mulus , (sentimen: netral)'
- 'search_document: Kemesraan Selena Gomez dan Justin Bieber sudah menjadi rahasia
umum . Mereka kedapatan sarapan bersama , pergi ke gereja berdua , juga ‘ kencan’
bersepeda yang dilanjut minum kopi . Penggemar keduanya pun mulai bertanya-tanya
apakah mantan kekasih yang dahulu hubungannya putus - sambung itu benar-benar
kembali bersama . Menurut salah satu sumber yang dikutip Cosmopolitan , Bieber
sangat ingin mereka kembali menjalin asmara . Tapi , Gomez belum yakin .'
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on nomic-ai/nomic-embed-text-v1.5
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: indonesian diversity eval
type: indonesian-diversity-eval
metrics:
- type: pearson_cosine
value: 0.4357888134688664
name: Pearson Cosine
- type: spearman_cosine
value: 0.28571428571428575
name: Spearman Cosine
---
# nomic-embed-indonesian
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [nomic-ai/nomic-embed-text-v1.5](https://huggingface.co/nomic-ai/nomic-embed-text-v1.5) specifically for **Indonesian language** text embedding tasks. It maps Indonesian sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## 🚀 Quick Start
```python
from sentence_transformers import SentenceTransformer
# Load the model (requires trust_remote_code=True)
model = SentenceTransformer("asmud/nomic-embed-indonesian", trust_remote_code=True)
# Indonesian text examples
texts = [
"search_query: Apa itu kecerdasan buatan?",
"search_document: Kecerdasan buatan adalah teknologi yang memungkinkan mesin belajar",
"classification: Produk ini sangat berkualitas (sentimen: positif)"
]
# Generate embeddings
embeddings = model.encode(texts)
print(f"Embedding shape: {embeddings.shape}") # (3, 768)
```
## 🇮🇩 **Specialized for Indonesian Language**
This model is optimized for Indonesian text understanding across multiple domains including:
- **Technology** (Teknologi) - AI, gadgets, digital innovation
- **Politics** (Politik) - Government, elections, public policy
- **Law** (Hukum) - Legal affairs, crime, justice
- **Economy** (Ekonomi) - Business, finance, trade
- **Education** (Pendidikan) - Academic, learning, research
- **Health** (Kesehatan) - Medical, wellness, healthcare
- **Sports** (Olahraga) - Athletics, competitions, fitness
- **Culture** (Budaya) - Literature, arts, traditions
- **And more...**
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [nomic-ai/nomic-embed-text-v1.5](https://huggingface.co/nomic-ai/nomic-embed-text-v1.5)
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'NomicBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
⚠️ **Important**: This model requires `trust_remote_code=True` due to custom model architecture.
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("asmud/nomic-embed-indonesian", trust_remote_code=True)
# Run inference with Indonesian text
sentences = [
'search_query: Apa itu kecerdasan buatan?',
'search_document: Kecerdasan buatan adalah teknologi yang memungkinkan mesin belajar dari data',
'classification: Produk ini sangat berkualitas dan sesuai harapan (sentimen: positif)',
'clustering: makanan tradisional Indonesia seperti rendang dan gudeg',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7154, 0.7378],
# [0.7154, 1.0000, 0.6583],
# [0.7378, 0.6583, 1.0000]])
```
## Evaluation
### Metrics
#### Semantic Similarity
* Dataset: `indonesian-diversity-eval`
* Evaluated with [EmbeddingSimilarityEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.4358 |
| **spearman_cosine** | **0.2857** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 6,294 training samples
* Columns: sentence_0
, sentence_1
, and label
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | label |
|:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details |
clustering: artikel berita Indonesia
| clustering: Paris Saint - Germain gagal mempertahankan status tak terkalahkan di Ligue 1 Prancis , setelah dipaksa menelan kekalahan perdana musim ini kala menyambangi Strasbourg . Tanda - tanda kurang maksimalnya performa klub ibukota Prancis ini sudah terlihat di awal pertandingan . Lini belakang gagal mengantisipasi skema tendangan bebas Strasbourg sehingga umpan Dimitri Lienard diteruskan dengan mudah oleh Nuno Da Costa pada menit ke - 13 untuk mencetak gol pembuka . Skuat asuhan Unai Emery langsung bermain agresif untuk mengejar ketertinggalan , mengandalkan trio Neymar , Kylian Mbappe dan Angel Di Maria . Nama terakhir mendapat kesempatan pada menit ke - 39 usai menerima umpan terobosan dari Neymar , tetapi sayang sepakannya gagal menemui sasaran meski sudah tidak dapat diantisipasi kiper . Mbappe akhirnya yang sukses mencatatkan namanya di papan skor . Mantan pemain Monaco itu menyambar umpan tarik Rabiot di dalam kotak penalti pada menit ke - 42 untuk membuat skor sama kuat . B...
| 1.0
|
| search_query: KPK resmi menetapkan Ketua DPR Setya Novanto sebag
| search_document: KPK resmi menetapkan Ketua DPR Setya Novanto sebagai tersangka kasus korupsi pengadaan proyek e - KTP . Penetapan status tersangka yang kedua kalinya ini disampaikan Wakil Ketua KPK Saut Situmorang . Novanto dijerat dengan Pasal 2 ayat 1 subsider Pasal 3 Undang-Undang Nomor 31 tahun 1999 sebagaimana diubah dengan Undang-Undang Nomor 20 tahun 2001 tentang Pemberantasan Korupsi juncto Pasal 55 ayat 1 ke - 1 KUHP .
| 1.0
|
| search_query: Google memperkenalkan laptop chromebook kelas atas
| classification: ga da wifi d lantai 2,kamar mandi ga da gantungan handuk or baju,over all bagus,n recomended (sentimen: positif)
| 0.0
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `per_device_train_batch_size`: 1
- `per_device_eval_batch_size`: 1
- `num_train_epochs`: 1
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters