rasyosef's picture
Update README.md
a2d2ef4 verified
metadata
tags:
  - ColBERT
  - PyLate
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:76474
  - loss:Contrastive
base_model: rasyosef/bert-medium-amharic
pipeline_tag: sentence-similarity
library_name: PyLate
metrics:
  - accuracy
model-index:
  - name: PyLate model based on rasyosef/bert-medium-amharic
    results:
      - task:
          type: col-berttriplet
          name: Col BERTTriplet
        dataset:
          name: amharic-passage-retrieval-dataset
          type: amharic-passage-retrieval-dataset
        metrics:
          - type: mrr@10
            value: 0.806
            name: Mrr@10
          - type: ndcg@10
            value: 0.831
            name: Ndcg@10
          - type: recall@10
            value: 0.911
            name: Recall@10
          - type: recall@50
            value: 0.954
            name: Recall@50
          - type: recall@100
            value: 0.968
            name: Recall@100
          - type: accuracy
            value: 0.975687563419342
            name: Accuracy
language:
  - am
datasets:
  - rasyosef/amharic-passage-retrieval-dataset

ColBERT-Bert-Amharic-Medium

This is a PyLate model finetuned from rasyosef/bert-medium-amharic. It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.

Training Code

This model was trained as part of our ACL 2025 Findings paper: Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval.

Model Details

Model Description

  • Model Type: PyLate model
  • Base model: rasyosef/bert-medium-amharic
  • Document Length: 256 tokens
  • Query Length: 32 tokens
  • Output Dimensionality: 128 tokens
  • Similarity Function: MaxSim

Model Sources

Full Model Architecture

ColBERT(
  (0): Transformer({'max_seq_length': 255, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Dense({'in_features': 512, 'out_features': 128, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
)

Usage

First install the PyLate library:

pip install -U pylate

Retrieval

PyLate provides a streamlined interface to index and retrieve documents using ColBERT models. The index leverages the Voyager HNSW index to efficiently handle document embeddings and enable fast retrieval.

Indexing documents

First, load the ColBERT model and initialize the Voyager index, then encode and index your documents:

from pylate import indexes, models, retrieve

# Step 1: Load the ColBERT model
model = models.ColBERT(
    model_name_or_path="rasyosef/colbert-bert-amharic-medium",
)

# Step 2: Initialize the Voyager index
index = indexes.Voyager(
    index_folder="pylate-index",
    index_name="index",
    override=True,  # This overwrites the existing index if any
)

# Step 3: Encode the documents
documents_ids = ["1", "2", "3", "4", "5"]
documents = [
  "አስመላሜ ተካ ለኢትዮጵያ ቋንቋዎቜ ዚማሜን ትርጉም አገልግሎት ዚሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራቜ ነው። መቀመጫውን በርሊን ያደሚገው ልሳን በሥራው ኚአር቎ፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሜ ዚአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቮክኖሎጂ እና ለአፍሪካ ስለሚኖሚው ፋይዳ እሞ቎ በቀለ አነጋግሮታል።",
  "ኹተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ኚመሬት ውስጥ ሲፈላ ታይቷል፡፡ ኚመሬት ውስጥ እሳትና ጭስ ዹሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ኚኚባድ ፍንዳታ በኋላዚተስተዋለ መሆኑን ዚአኚባቢው ነዋሪዎቜ እና ባለስልጣናት ለዶቌ ቬለ ተናግሚዋል፡፡ አለት ዚሚያፈናጥር እሳት ነው ዚተባለው እንፋሎቱ በክልሉ ጋቢሚሱ (ዞን 03) ዱለቻ ወሚዳ ሰጋንቶ ቀበሌ መኚሰቱን ዚገለጹት ዚአኚባቢው ዹአይን እማኞቜ ኹዋናው ፍንዳታ በተጚማሪ በዙሪያው ተጚማሪ ፍንዳታዎቜ መታዚት ቀጥሏል ባይ ና቞ው፡፡",
  "በማዕኹላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቀ ወሚዳ በሚገኙ 12 ቀበሌዎቜ መሠሚታዊ ዚመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በኹፊል በመዘጋታ቞ው መ቞ገራ቞ውን ነዋሪዎቜ አመለኚቱ። ኚባለፈው ዓመት ጀምሮ ዚጀና፣ ዚትምህርት እና ዚግብር አሰባሰብ ሥራዎቜ በዚአካባቢያ቞ው እዚተኚናወኑ አለመሆናቾውንም ለዶቌ ቬለ ተናግሚዋል።",
  "ዚሕዝብ ተወካዮቜ ምክር ቀት አባል እና ዹቋሚ ኮሚ቎ ሰብሳቢ ዚነበሩት አቶ ክርስቲያን ታደለ እና ዚአማራ ክልል ምክር ቀት አባል ዚሆኑት አቶ ዮሐንስ ቧያለው ኚቃሊቲ ወደ ቂሊንጩ ማሚሚያ ቀት መዛወራ቞ውን ጠበቃቾው ተናገሩ።",
  "ኹ15 ዚተባበሩት መንግሥታት ዚጞጥታ ጥበቃ ምክር ቀት አባላት መካኚል ትላንት ዓርብ በነበሹው ድምጜ አሰጣጥ ዘጠኙ ዚውሳኔ ሐሳቡን ደግፈዋል። ዚውሳኔ ሐሳቡ ያገኘው ዚድጋፍ ድምጜ ለመጜደቅ ኚሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሎራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጞ ተዓቅቩ አድርገዋል።", 
]

documents_embeddings = model.encode(
    documents,
    batch_size=32,
    is_query=False,  # Ensure that it is set to False to indicate that these are documents, not queries
    show_progress_bar=True,
)

# Step 4: Add document embeddings to the index by providing embeddings and corresponding ids
index.add_documents(
    documents_ids=documents_ids,
    documents_embeddings=documents_embeddings,
)

Note that you do not have to recreate the index and encode the documents every time. Once you have created an index and added the documents, you can re-use the index later by loading it:

# To load an index, simply instantiate it with the correct folder/name and without overriding it
index = indexes.Voyager(
    index_folder="pylate-index",
    index_name="index",
)

Retrieving top-k documents for queries

Once the documents are indexed, you can retrieve the top-k most relevant documents for a given set of queries. To do so, initialize the ColBERT retriever with the index you want to search in, encode the queries and then retrieve the top-k documents to get the top matches ids and relevance scores:

# Step 1: Initialize the ColBERT retriever
retriever = retrieve.ColBERT(index=index)

# Step 2: Encode the queries
queries_embeddings = model.encode(
    [
      "ዚጞጥታ ጥበቃው ምክር ቀት በደቡብ ሱዳን ላይ ዚተጣለውን ዹጩር መሣሪያ ማዕቀብ ለዓመት አራዘመ", 
      "ዹተደጋገመው ዚመሬት መንቀጥቀጥና ዚእሳተ ገሞራ ምልክት በአፋር ክልል"
    ],
    batch_size=32,
    is_query=True,  #  # Ensure that it is set to False to indicate that these are queries
    show_progress_bar=True,
)

# Step 3: Retrieve top-k documents
scores = retriever.retrieve(
    queries_embeddings=queries_embeddings,
    k=10,  # Retrieve the top 10 matches for each query
)

Reranking

If you only want to use the ColBERT model to perform reranking on top of your first-stage retrieval pipeline without building an index, you can simply use rank function and pass the queries and documents to rerank:

from pylate import rank, models

queries = [
    "ዚጞጥታ ጥበቃው ምክር ቀት በደቡብ ሱዳን ላይ ዚተጣለውን ዹጩር መሣሪያ ማዕቀብ ለዓመት አራዘመ",
]

documents = [
  [
    "አስመላሜ ተካ ለኢትዮጵያ ቋንቋዎቜ ዚማሜን ትርጉም አገልግሎት ዚሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራቜ ነው። መቀመጫውን በርሊን ያደሚገው ልሳን በሥራው ኚአር቎ፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሜ ዚአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቮክኖሎጂ እና ለአፍሪካ ስለሚኖሚው ፋይዳ እሞ቎ በቀለ አነጋግሮታል።",
    "በማዕኹላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቀ ወሚዳ በሚገኙ 12 ቀበሌዎቜ መሠሚታዊ ዚመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በኹፊል በመዘጋታ቞ው መ቞ገራ቞ውን ነዋሪዎቜ አመለኚቱ። ኚባለፈው ዓመት ጀምሮ ዚጀና፣ ዚትምህርት እና ዚግብር አሰባሰብ ሥራዎቜ በዚአካባቢያ቞ው እዚተኚናወኑ አለመሆናቾውንም ለዶቌ ቬለ ተናግሚዋል።",
    "ዚሕዝብ ተወካዮቜ ምክር ቀት አባል እና ዹቋሚ ኮሚ቎ ሰብሳቢ ዚነበሩት አቶ ክርስቲያን ታደለ እና ዚአማራ ክልል ምክር ቀት አባል ዚሆኑት አቶ ዮሐንስ ቧያለው ኚቃሊቲ ወደ ቂሊንጩ ማሚሚያ ቀት መዛወራ቞ውን ጠበቃቾው ተናገሩ።",
    "ኹተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ኚመሬት ውስጥ ሲፈላ ታይቷል፡፡ ኚመሬት ውስጥ እሳትና ጭስ ዹሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ኚኚባድ ፍንዳታ በኋላዚተስተዋለ መሆኑን ዚአኚባቢው ነዋሪዎቜ እና ባለስልጣናት ለዶቌ ቬለ ተናግሚዋል፡፡ አለት ዚሚያፈናጥር እሳት ነው ዚተባለው እንፋሎቱ በክልሉ ጋቢሚሱ (ዞን 03) ዱለቻ ወሚዳ ሰጋንቶ ቀበሌ መኚሰቱን ዚገለጹት ዚአኚባቢው ዹአይን እማኞቜ ኹዋናው ፍንዳታ በተጚማሪ በዙሪያው ተጚማሪ ፍንዳታዎቜ መታዚት ቀጥሏል ባይ ና቞ው፡፡",
    "ኹ15 ዚተባበሩት መንግሥታት ዚጞጥታ ጥበቃ ምክር ቀት አባላት መካኚል ትላንት ዓርብ በነበሹው ድምጜ አሰጣጥ ዘጠኙ ዚውሳኔ ሐሳቡን ደግፈዋል። ዚውሳኔ ሐሳቡ ያገኘው ዚድጋፍ ድምጜ ለመጜደቅ ኚሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሎራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጞ ተዓቅቩ አድርገዋል።", 
  ] 
]

documents_ids = [
    [1, 2, 3, 4, 5],
]

model = models.ColBERT(
    model_name_or_path="rasyosef/colbert-bert-amharic-medium",
)

queries_embeddings = model.encode(
    queries,
    is_query=True,
)

documents_embeddings = model.encode(
    documents,
    is_query=False,
)

reranked_documents = rank.rerank(
    documents_ids=documents_ids,
    queries_embeddings=queries_embeddings,
    documents_embeddings=documents_embeddings,
)

Evaluation

Metrics

Col BERTTriplet

  • Evaluated with pylate.evaluation.colbert_triplet.ColBERTTripletEvaluator
Metric Value
accuracy 0.9757

Training Details

Click to expand

Training Dataset

Unnamed Dataset

  • Size: 76,474 training samples
  • Columns: query_id, passage_id, query, positive, negative_1, negative_2, negative_3, and negative_4
  • Approximate statistics based on the first 1000 samples:
    query_id passage_id query positive negative_1 negative_2 negative_3 negative_4
    type string string string string string string string string
    details
    • min: 25 tokens
    • mean: 30.17 tokens
    • max: 32 tokens
    • min: 25 tokens
    • mean: 29.79 tokens
    • max: 32 tokens
    • min: 6 tokens
    • mean: 16.06 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
  • Samples:
    query_id passage_id query positive negative_1 negative_2 negative_3 negative_4
    0ca6be67788e87a3c1d4719a9b75fbac 84e77970cceefd0e0f5ee539e4064239 ዹጋሞ ዞን ሕዝቊቜ ዘመን መለወጫ ዮ ማስቃላ በዓልን በዩኔስኮ ለማስመዝገብ እዚተሰራ መሆኑ ተገለፀ አዲስ አበባ፣ መስኚሚም 12፣ 2013 (ኀፍ.ቢ.ሲ) ዹጋሞ ዞን ሕዝቊቜ ዘመን መለወጫ ዮ ማስቃላ በዓልን በዩኔስኮ ለማስመዝገብ እዚተሰራ መሆኑ ተገለጞ፡፡ዚዞኑ ባህል ቱሪዝም እና ስፖርት መምሪያ ኃላፊ አቶ ዘነበ በዹነ እንዳሉት ዹጋሞ ሕዝቊቜ ማስቃላ በዓል በአለም ቱሪስቶቜ ዹሚጎበኝ ለማድሚግ በመንኚባኚብ በዩኔስኮ ለማስመዝገብ ስራዎቜ እዚተሰራ መሆኑን ተናግሚዋል፡፡በዚህ ዓመት ኹፍተኛ ዚቱሪስት ፍሰት መኖሩን ዚተናገሩት አቶ ዘነበ ይህም ዹሆነው በጋሞ አባቶቜ ጥሚት ነው ብለዋል፡፡በዚህም ዹጋሞ ዞን ሰላም በመሆኑ ኚቱሪዝም ዘርፍ ኹ98 ሚሊዹን ብር በላይ መገኘቱን ኹዞኑ መንግስት ኮሚኒኬሜን መሹጃ ያገኘነው መሹጃ ያመላክታል፡፡ዚጋሞ ዞን ምክትል አስተዳዳሪ አቶ ብርሃኑ ዘውዮ በበኩላ቞ው ዞኑ ዚበርካታ ዚቱሪስት መስህቊቜ መገኛ መሆኑን ገልፀዋል።ሰላም ሲጠበቅ ባህል፣ ወጎቜ፣ ዚተፈጥሮ እና ሰው ሰራሜ መስህቊቜን ለአለም ሕዝብ እንዲተዋወቅ እድል በመፍጠር ፀዘርፉ ለዞኑ ኢኮኖሚኖሚ ማህበራዊ እድገት ላይ ኹፍተኛ ድርሻ ያለው መሆኑንም ገልፀዋል፡፡ አዲስ አበባ፡- አገራዊ ባህላዊ እሎቶቜ ሳይበሚዙና ሳይኚለሱ ይበልጥ ማደበር፣ መጠበቅና ለቀጣይ ትውልድ ማስተላለፍ እንደሚገባ ተገለፀ፡፡ዚኢሬቻ በዓልን ምክንያት በማድሚግ ዹተዘጋጀው ኀግዚቢሜን እና ባዛር ትናንት በኢግዚቢሜን
    ማእኚል በይፋ ተመርቆ በተኚፈተበት ወቅት ዚኢፌዎሪ ባህልና ቱሪዝም ሚኒስትር ዶክተር ሂሩት ካሳው እንደገለፁት፣ አገራዊ ባህላዊ
    እሎቶቜ አገርን፣ ህዝብንና ትውልድን ኹዘመን ዘመን ዚሚያሻግሩ ታላቅ ጥበብና እውቀት ና቞ው፡፡እነዚህን ባሕላዊ እሎቶቜ በአግባቡ
    ተንኚባክቊ ለአገር ሰላም ፣ልማት፣ለህዝብ ለህዝብ ትስስር እና እድገት ማዋል አሁን ካለው ትውልድ ይጠበቃል፡፡ሚኒስ቎ር መስሪያ ቀቱም ዹሁሉንም ዚአገሪቱ ባህላዊ እሎቶቜ ዚመንኚባኚብ ፣ዚመጠበቅና ዚማልማት ስራዎቜ እያኚናወነ መሆኑን
    ዚጠቆሙት ሚኒስትሯ፣‹‹ይህ ትውልድም ባህላዊ እሎቱን ሳይበርዝ ሳይኚልስ ማደበር፣መጠበቅና ማስተላለፍ ይገባዋል››ብለዋል፡፡ዚኊሮሚያ ክልል ምክትል ርዕሰ መስተዳድር አቶ ሜመልስ አብዲሳ በበኩላ቞ው፣ ኢሬቻ ኩርፊያና ጠብ እንደማይወዱ፣ ዚሰላም፣
    ዹፍቅር ዚይቅርታ ዚአንድነትና ዚመተባበር ባህል መሆኑንም አብራርተዋል፡፡ በአሁኑ ወቅትም ሁሉም ብሄር ብሄሚሰቊቜ ዚራሳ቞ውን ባህል
    ኹማክበርና ኚመንኚባኚብ በተጓደኝ ኢሬቻንም ‹‹ዚእኔ ነው›› በሚል እያኚበሚው እንደሚገኝ ተናግሚዋል፡፡ዚኢሬቻ በዓል አኚባበር እዚጎለበተ
    በመጣ ቁጥር ዹሁሉም ብሄር፣ ብሄሚሰቊቜና ህዝቊቜ ተሳትፎ በዚያው ልክ መጚመሩን ያስገነዘቡት አቶ ሜመልስ፣ ዘንድሮም በዓሉ በሰላም
    እና በደስታ በጋራ እንደሚኚበር አስታውቀዋል፡፡ ኢሬቻን ጚምሮ ሌሎቜ ዚኢትዮጵያ
    ቱባ ባህላዊ እሎቶቜ ሳይበሚዙና ሳይኚለሱ ይበልጥ ለማደበርና ለመጠበቅ እና ለማስተዋወቅ ሁሉም በትብብር ሊሰራ እንደሚገባ አስገንዘበዋል፡፡
    ዚኢሬቻ በዓልን ምክንያት በ...
    አዲስ አበባ፣ ታህሳስ 29፣ 2012 (ኀፍ.ቢ.ሲ) ዚአሞንዳ፣ ሻደይ፣ አሞንድዬ፣ ሶለል፣ ማሪያና ዓይኒ ዋሪ በዓል በተባበሩት መንግስታት ድርጅት ዚትምህርት፣ ሳይንስና ባህል ድርጅት (ዩኔስኮ) ዚማይዳሰስ ቅርስ ሆኖ እንዲመዘገብ ዚማስመሚጫ ሰነድ ዝግጅት መጠናቀቁን ዚቅርስ ጥናትና ጥበቃ ባለስልጣን አስታውቋል።ዚባለስልጣኑ ዚባህል ተመራማሪ አቶ ገዛኾኝ ግርማ ዚአሞንዳ፣ ሻደይና አሞንድዬ ዚልጃገሚዶቜ በዓል በዩኔስኮ እንዲመዘገብ በርካታ ስራዎቜ መኹናወናቾውን አስታውሰዋል።በአሁኑ ሰዓትም በዓሉ በማይዳሱ ዹሰው ልጆቜ ወካይ ቅርስነት እንዲመዘገብ ዚማስመሚጫ ሰነድና አስፈላጊ ጥናቶቜ ዝግጅት ተጠናቆ በመጭው መጋቢት ወር እንደሚላክ መግለጻ቞ውን ኢዜአ ዘግቧል።በዓሉ በመንግስታቱ ድርጅት በማይዳሰስ ቅርስነት እንዲመዘገብ ዹሚወሰን ኹሆነ ዚኢትዮጵያ አምስተኛው ዚማይዳሰስ ዹዓለም ዹሰው ልጆቜ ወካይ ቅርስ ይሆናል።ዚባህልና ቱሪዝም ሚኒስ቎ር ዚህዝብ ግንኙነት ዳይሬክተር አቶ እንደገና ደሳለኝ በበኩላ቞ው፥ ኢትዮጵያ ካላት ዚተፈጥሮ፣ ዚታሪክ፣ ዚባህል ሃብትና አቅም አንጻር በቱሪዝሙ ዹሚፈለገውን ያህል አለመጠቀሟን ተናግሚዋል።ሃላፊው በአሁኑ ወቅት 8 ዹሚሆኑ ታላላቅ ጥንታዊ፣ ታሪካዊና ባህላዊ ቅርሶቜ በዩኔስኮ ጊዜያዊ መዝገብ ላይ ሰፍሹው እንደሚገኙ ጠቁመዋል።ዚአሞንዳ፣ ሻደይ፣ አሞንድዬና ሶለል በዓል በዩኔስኮ መመዝገብ ሀገሪቷ ኚቱሪዝም ዚምታገኘውን ገቢ ኚማሳደጉ ባሻገር ዚአማራና ዚትግራይ ክልሎቜን ህዝቊቜ ይበልጥ ዚሚያቀራርብና ዚሚያስተሳስር እንደሚሆን ይጠበቃል።ኢትዮጵያ በዩኔስኮ በማይዳሰሱ ዹሰው ልጆቜ ወካይ ቅርስነት ያስመዘገበቻ቞ው በዓላት ዚመስቀል ደመራ፣ ዚጥምቀት፣ ፍቌ ጹምበላላ እና ዚገዳ ስርዓት መሆናቾው ይታወቃል። ጅግጅጋ ፣ ህዳር 30 /2006/ዋኢማ/ – በዚዓመቱ ህዳር 29 ቀን ዹሚኹበሹው ህገ-መንግስቱ ዚፀደቀበት ዚብሔሮቜ ብሔሚሰቊቜና ህዝቊቜ በዓል ለቱሪዝም ኢንዱስትሪው እድገት ኹፍተኛ አስተዋፅኊ እንደሚኖሚው ዚባህልና ቱሪዝም ሚኒስትር አቶ አሚን አብዱልቃድር ገለፁ፡፡ሚኒስትሩ በተለይ ለዋልታ ኢንፎርሜሜን ማዕኹል እንደገለፁትፀ ዚብሔሮቜ ብሔሚሰቊቜና ህዝቊቜ ባህላዊ አለባበስ፣ አመጋገብና ባህላዊ ምግቊቻ቞ውን በዓለም አቀፍ ደሹጃ ታዋቂ በማድሚግ ዚሀገሪቱን ኚቱሪዝም ዘርፍ ዚምታገኘውን ዚውጪ ምንዛሬ ገቢ ማሳደግ ይገባል፡፡ዚብሔሮቜ ብሔሚሰቊቜና ህዝቊቜ ባህልና ቅርሶቻ቞ውን ጠብቆ ለማቆዚት ዚሚያስቜሉ ዚባህል ማዕኚላት በዹክልሉ እዚተገነባ መሆኑን ዚገለፁት ሚኒስትሩፀ  ቅርሶቹ ተጠብቀው ለመጪው ትውልድ በማስተላለፍ በኩልም ዹሚኖሹው ፋይዳ ዹጎላ ነው ሲሉ ተናግሚዋል፡፡በተለይም በሶማሌ ክልል 8ኛው ዚብሔሮቜ ብሔሚሰቊቜና ህዝቊቜ በዓል መኚበሩ ኹኹፍተኛ እስኚ ታዳጊ ክልሎቜ በዓሉን ለማክበር ዚሚያስቜል አቅም እንዳላ቞ው ዚሚያሳይ ነው ካሉ በኋላፀ በዓሉ በሶማሌ ክልል መኚበሩ ደግሞ ስለ ኢትዮጵያ ሶማሌ ብሔሮቜ ብሔሚሰቊቜና ህዝቊቜ በርካታ ነገሮቜን እንዲያውቁ እንደሚሚዳ቞ው ጠቁመውፀ ሌሎቜ ክልሎቜም ኚሶማሌ ክልል ዝግጅት በርካታ ዚተሞክሮ ዚልምድ ልውውጥ እንዲያገኙ እንደሚያስቜላ቞ው ሚኒስትሩ መናገራ቞ውን ዋልታ ኢንፎርሜሜን ማዕኹል ዘግቧል፡፡ “ዛሬ በታላቅ ድምቀት ዚምናኚብሚው ዚጥምቀት በዓል በአለም ቅርስነት በተመዘገበበት ወቅት ነው” ዶክተር ሂሩት ካሳውባሕር ዳር፡ ጥር 11/2013 ዓ.ም (አብመድ) “ዛሬ በታላቅ ድምቀት ዚምናኚብሚው ዚጥምቀት በዓል በዩኔስኮ በዓለም በማይዳሰስ ወካይ ቅርስነት በተመዘገበበት ወቅት ነው” ሲሉ ዚባህል እና ቱሪዝም ሚኒስትር ዶክተር ሂሩት ካሳው ገለጹ።ዶክተር ሂሩት ዛሬ በአዲስ አባበ ጃን ሜዳ እዚተኚበሚ በሚገኘው ዚጥምቀት በዓል ላይ ተገኝተው ለኢትይጵያውያን ዚእምነቱ ተኚታዮቜ ዚእንኳን አደሚሳቜሁ መልዕክት አስተላልፈዋል።ዚጥምቀት በዓል በሀገራቜን ዚሚወደድ እና ዹሚናፈቅ ዓመታዊ በዓል ነው ብለዋል።በዚሁ ወቅት ዚጥምቀት በዓል ዩኔስኮ በዓለም በማይዳሰስ ወካይ ቅርስነት ኹተመዘገበ አንድ ዓመት አልፎታል ነው ያሉት።“በዚቜ ውብ ሀገር ዹምንኖር ኢትዮጵያውያን ዚቀደምት እናት እና አቊቶቻቜንን ቱፊት ተሚክበንፀተንኚባክበን እና ጠብቀን ለተኚታይ ትውልድ ማሻገር አለብን” በማለት ተናግሚዋል።ሚኒስትሯ ለዚህ ደግሞ ሃይማኖታዊ አስተምህሮዎቜን በሚገባ ማወቅ እንደሚገባና በተግባር መኖር አስፈላኒጊ ነው ያሉት።ዶክተር ሂሩት ጥምቀትን ጚምሮ በሀገራቜን ዚተለያዩ አካባቢዎቜ ዚሚኚበሩ ባህላዊም ሆነ ሃይማኖታዊ በዓላት በሚኚበሩበት ወቅት በጋራ እና በመደጋገፍ ዹማክበር ባህላዊ እሎቶቜ መኖራ቞ውን ጠቅሰዋል።“ፈጣሪ ያለ ፍቅር አይገኝምና ፍቅርን አስቀድመንፀአንዳቜን ለሌላቜን ዘብ በመቆምፀ እዚተደጋገፍን ዚፍቅራቜንን መልካም መዓዛ ለተኚታይ ትውልድ ማስሚኚብ ይጠበቅብናል” ብለዋል።ዚባህል እና ቱሪዝም ሚኒስትሯ በተለይም ዚሃይማኖት አባቶቜን እና ዚስጋ እናትና አባቶቜን ምክር በመስማት በሚገባ መተግበር ይገባል በማለት ተናግሚዋል።“ሀገር ክፉም ሆነ በጎ ዚሚባለው በውስጡ በሚኖሩ ሰዎቜ ተግባር በመሆኑ መል...
  • Loss: pylate.losses.contrastive.Contrastive

Evaluation Dataset

Unnamed Dataset

  • Size: 4,000 evaluation samples
  • Columns: query_id, passage_id, query, positive, negative_1, negative_2, negative_3, and negative_4
  • Approximate statistics based on the first 1000 samples:
    query_id passage_id query positive negative_1 negative_2 negative_3 negative_4
    type string string string string string string string string
    details
    • min: 25 tokens
    • mean: 29.29 tokens
    • max: 32 tokens
    • min: 25 tokens
    • mean: 29.88 tokens
    • max: 32 tokens
    • min: 6 tokens
    • mean: 15.88 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
    • min: 32 tokens
    • mean: 32.0 tokens
    • max: 32 tokens
  • Samples:
    query_id passage_id query positive negative_1 negative_2 negative_3 negative_4
    000020ad079f13ca77c92b6fa6ebfda5 ab51b3930d461d5743e6b13b01263f91 ‹‹ዚአገር መኚላኚያ ሠራዊት ተዋጜኊ እንደ ተወካዮቜ ምክር ቀት መቀመጫ ዹሚኹፋፈል አይደለም›› ጄኔራል ሳሞራ ዚኑስ ዹአገር መኚላኚያ ሠራዊት ብሔራዊ ተዋጜኊ ዹጠበቀና ዚተመጣጠነ መሆን ያለበት ቢሆንም እንደ ዚተወካዮቜ ምክር ቀት መቀመጫ ዹሚኹፋፈል እንዳልሆነ፣ ዹጩር ኃይሎቜ ጠቅላላ ኀታ ማዩር ሹም ጄኔራል ሳሞራ ዚኑስ ተናገሩ፡፡በአማራ ብሔራዊ ክልላዊ መንግሥት ዋና ኹተማ በሆነቜው በባህር ዳር ኹተማ ዹተኹበሹውን ሊስተኛውን ዚሠራዊት ቀን ምክንያት በማድሚግ በተዘጋጀው ዚውይይት መድሚክ (ሲምፖዝዚም)፣ ‹‹ዚኢፌዲሪ መኚላኚያ ሠራዊት ኚዚት ወዎት?›› በሚል ርዕስ ጥናታዊ ጜሑፍ ያቀሚቡት ጄኔራል ሳሞራ ዚመኚላኚያ ሠራዊት አመጣጥ፣ ዕድገትና አሁን ዚሚገኝበትን ደሹጃ ተንትነዋል፡፡ቀደም ሲል ደርግን ያሞነፈው ዚኢሕአዎግ ሠራዊት ዹአሁኑ መኚላኚያ ሠራዊት መሠሚት እንደሆነ አስታውሰው፣ ለማመጣጠን ሲባል ኹ30 ሺሕ በላይ ነባር ታጋዮቜ እንዲቀነሱ ዚተደሚገበት ምክንያት ብሔራዊ አስተዋጜኊን ለማጠናኹር እንደሆነ ገልጞዋል፡፡ ‹‹ለታጋዮቜም ሆነ ለአመራሮቜ ፈታኝና ኚባድ ውሳኔ ዹነበሹ ቢሆንም ለሕዝብ ጥቅም ሲባል ወስነናልፀ›› በማለት ዚገለጹት ጄኔራል ሳሞራ፣ በመኚላኚያ ሠራዊት አነስተኛ ተሳትፎ ኚነበራ቞ው ብሔር ብሔሚሰቊቜ አዲስ አባላት በመመልመል፣ ኹወንጀል ነፃ ዹሆኑ ተፈላጊ ቜሎታና ሙያ ዚነበራ቞ው ዹደርግ ሠራዊት አባላትም ታክለውበት ሠራዊቱ እንደ አዲስ መደራጀቱን አብራርተዋል፡፡ በወቅቱ ካልተቀነሱት ዚሕወሓት ታጋዮቜ ላይ ሁለት ማዕሹግ እንደተቀነሰ፣ በአንፃሩ ደግሞ ለሌሎቜ ብሔር ተወላጆቜ ላይ ሁለት ማዕሹግ እንዲጚመር መደሹጉን አስታውሰዋል፡፡ ኢሕአዎግ ውስጥ ኹተፈጠሹው መኹፋፈል በኋላ በተደሹገው ዚተሃድሶ እንቅስቃሎ መሠሚት ዚሠራዊቱ ማነቆ ዚነበሩ ቜግሮቜና አስተሳሰቊቜ መወገዳ቞ውንም አውስተዋል፡፡ አዲሱ ዚሠራዊት ግንባታ ሕገ መንግሥታዊ ተልዕኮዎቜን ዚሚያሳካ፣ ዹመኹላኹል ቁመናው ዹማይደፈር ሆኖ ... ማንኛውም ሰው በሕግ ዹተፈቀደ መሣሪያ በሁለት ዓመት ገደብ ውስጥ ዚማስመዝገብ ግዎታ አለበትኚአገር መኚላኚያ ሠራዊት አባላት በስተቀር ሌሎቜ በክልል መንግሥታትና በፌዎራል መንግሥት ዚተደራጁ ሕግ አስኚባሪ አካላትና ግለሰቊቜ እንዲታጠቁ ዚሚፈቀድላ቞ውን ዹጩር መሣሪያ አያያዝ በሚወስነው ሹቂቅ አዋጅ ላይ፣ ዚሕዝብ ተወካዮቜ ምክር ቀት በርካታ ማሻሻያዎቜን በማድሚግ አፀደቀ።አዋጁ ለግለሰብ ዚሚፈቀድ ዹጩር መሣሪያ ዚታጠቀ ማንኛውም ሰው ዚታጠቀውን መሣሪያ በሁለት ዓመት ዹጊዜ ገደብ ውስጥ እንዲያስመዘግብም አስገዳጅ ድንጋጌ ይዟል። ዹጩር መሣሪያ አስተዳደርና ቁጥጥር ዹሚል ስያሜ ዹተሰጠው ይህ አዋጅ ሕግ አስኚባሪ ለሚለው ቃል ትርጓሜ ዚሚሰጥ ሲሆን፣ በዚህም መሠሚት ዚፌደራልና ዹክልል ፖሊስ ኮሚሜኖቜ፣ ሚሊሻ፣ ዚፌደራልና ዹክልል ማሚሚያ ቀቶቜ አስተዳደር፣ ዚፌዎራልና ዹክልል ጠቅላይ ዓቃቀ ሕግ ተቋማትና ፍትሕ ቢሮዎቜ፣ ዚኢትዮጵያ ዱር እንስሳት ልማትና ጥበቃ ባለሥልጣን መሆናቾው በሕጉ ተመልክቷል።እነዚህ አካላት ሊታጠቁዋ቞ው ዚሚቜሉዋ቞ው ዹጩር መሣሪያ ዓይነቶቜ ሜጉጥ፣ አውቶማቲክ ያልሆነ ወይም ግማሜ አውቶማቲክ ዹሆነ ጠብመንጃ፣ ቊምብና ሌሎቜ ተያያዥ ዕቃዎቜ ሊሆኑ እንደሚቜሉ ሹቂቅ አዋጁ በአንቀጜ ሰባት ሥር ይዘሹዝር ነበር።ለግለሰብ ዹሚፈቀደው ዹጩር መሣሪያ አንድ ሜጉጥ ወይም አንድ አውቶማቲክ ያልሆነ ጠብመንጃ፣ ወይም አንድ ግማሜ አውቶማቲክ ጠብመንጃ ብቻ መሆኑን ሹቂቁ ይዘሹዝር ነበር። ራሳ቞ውን ለመኹላኹልና ዚአካባቢያ቞ውን ደኅንነት ለማስጠበቅ በተለምዶ ዹጩር መሣሪያ ዚሚያዝባ቞ው አካባቢዎቜ ነዋሪ ዹሆኑና ዹጩር መሣሪያ ዚያዙ ሰዎቜ፣ ዚያዙት ዹጩር መሣሪያ በሹቂቅ ሕጉ ለግለሰብ ያልተኚተለ ዹጩር መሣሪያ ዓይነት እስኚሆነ ድሚስ፣ ሕጉ ኹፀደቀ በኋላ በሚወጣ ዹጊዜ ሰሌዳ በዚአካባቢው ሥ... ዹአገር መኚላኚያ ሚኒስ቎ር ዓርብ ታኅሳስ 23 ቀን 2013 ዓ.ም. በሰጠው መግለጫ፣ ዚቀድሞ ዚትራንስፖርት ሚኒስትር ደኀታ ወ/ሮ ሙሉ ገብሚ እግዚአብሔርና በርካታ ወታደራዊ መኮንኖቜ መማሚካ቞ውን፣ እንዲሁም በርካቶቜ መደምሰሳ቞ውን አስታወቀ፡፡ዚመኚላኚያ ሚኒስ቎ር ዹኃይል ሥምሪት መምርያ ኃላፊ ብርጋዎር ጄኔራል ተስፋዬ አያሌው በሰጡት መግለጫ፣ ሕወሓትን በመወኹል ዹፓርላማ አባል ዚነበሩት ሚኒስትር ዎኀታዋ ሲማሚኩ፣ ዚማይካድራውን ጭፍጹፋ ዚመሩት ኮሎኔል ዹማነ ገብሚ ሚካኀልን ጚምሮ ዕርምጃ ዚተወሰደባ቞ውን ዚሕወሓት መለስተኛ አመራሮቜና መኮንኖቜ ማንነት ይፋ አድርገዋል፡፡ጄኔራል መኮንኑ በርካታ ዚሕወሓት ኹፍተኛ አመራሮቜ፣ እንዲሁም ወታደራዊ መኮንኖቜ መማሚካ቞ውንና መደምሰሳ቞ውን ገልጞዋል። በትግራይ ክልል ጊርነት ቀስቅሶ ዹተሾነፈው ኃይል ዚሞቱበትን ኹፍተኛ አመራሮቹን ኚሰብዓዊ ርህራሔ በተቃራኒ፣ እንዳይታወቁ በማለት አንገታ቞ውን ቆርጩ ለዚብቻ ስለሚቀብራ቞ው ለመለዚት አዳጋቜ መሆኑን አስሚድተዋል።ዚአገር መኚላኚያ ሠራዊትና ዚፌዎራል ፖሊስ ተቀናጅተው በወሰዱት ዕርምጃ በርካቶቜ መማሚካ቞ውን፣ እጅ ለመስጠት ፈቃደኛ ያልሆኑት መደምሰሳ቞ውን ብርጋዎር ጄኔራል ተስፋዬ ጠቁመዋል።ዕርምጃ ተወስዶባ቞ዋል ዚተባሉት ኮሎኔል ዓለም ገብሚ መድኅን፣ ኮሎኔል ቢንያም ገብሚ መድኅን፣ ኮሎኔል አምባዬ፣ ኮሎኔል ማሟ፣ ኮሎኔል ይርጋ ሥዩም፣ ኮሎኔል አጜብሃ፣ ኮሎኔል ተስፋዬ ገብሚ መድኅን፣ ኮሎኔል ዮሐንስ ካልአዩ፣ ኮሎኔል ተክለ እግዚአብሔር፣ ሌተና ኮሎኔል ብርሃኔ ቶላና ሌሎቜ በስም ያልተገለጹ አራት ኮሎኔሎቜና ሁለት ዹዞን አመራሮቜ ይገኙበታል ሲሉ አስሚድተዋል።ኚተማሚኩት ወ/ሮ ሙሉ በተጚማሪ ዓለም ብርሃኔ (ዶ/ር)፣ ኮሎኔል መብርሃቱ ገብሚ መድኅን፣ ኮሎኔል ሀዱሜ ሃጎስ፣ ኮሎኔል ህሉፍ ተክለ መድኅን፣ ... አዲስ አበባ፣ ህዳር 3፣ 2013 (ኀፍቢሲ) ዚቀድሞው ዚኢትዮጵያ ዚመኚላኚያ ሠራዊት በመኚላኚያ ሠራዊት ላይ ዹተፈጾመው ክህደት እንዳስቆጣው አስታወቀ።ዚቀድሞው ዚኢትዮጵያ ዚመኚላኚያ ሠራዊት አመራሮቜ ጋዜጣዊ መግለጫ ዚሰጡ ሲሆን መንግስት ጥሪ ካደሚገላ቞ው ኚመኚላኚያ ሰራዊት ጎን ለውጊያ ለመሠለፍ ዝግጁ መሆናቾውን ገልጞዋል፡፡ህወሓት ኹዚህ በፊት ዚቀድሞ ዚሠራዊት አባላትን ዚበታተነ መሆኑን ያስታወሱት አመራሮቹ አሁንም ይህን ዓላማውን እንደገና ለማሳካትና ዚሥልጣን ጥማቱን ለማርካት መኚላኚያ ሠራዊት ላይ ጥቃት መፈጾሙን ነው በመግለጫ቞ው ያስሚዱት፡፡ዚመኚላኚያ ሠራዊት ለሀገሩ ሲዋደቅ ዹቆዹና ለሕዝብ ዚሞተ፣ ዹደማና ዹቆሰለ መሆኑን አስታውሰው በሠራዊቱ ላይ ዹተፈፀመው ጥቃት እጅጉን እንዳስቆጣ቞ውና ቡድኑ እስኚሚደመሰስ ድሚስ አብሚው ለመዋጋት ዝግጁ መሆናቾውን በመግለጫ቞ው አሚጋግጠዋል።በአሁን ጊዜ በሁሉም ዚሀገሪቱ ክፍሎቜ ኹ274 በላይ ቅርንጫፎቜን ይዞ በመንቀሳቀስ ላይ ዹሚገኘው ድርጅቱ በውስጡም ኚአንድ ሚሊዹን በላይ ዚሠራዊት አባላት እንዳሉት ኚኢፌዎሪ መኚላኚያ ሰራዊት ገጜ ያገኘነው መሹጃ ያመላክታል። ኹ21 ዓመት በላይ ዹሆነ ጀነኛ ሰው ለግለሰብ ዚሚፈቀድ ዹጩር መሣሪያ ፈቃድ በማውጣት ሊታጠቅ ይቜላልበጊር መሣሪያ ንግድና በድለላ ለሚሰማሩ ሕጋዊ ዚንግድ ፈቃድ ይሰጣልኚአገር መኚላኚያ ሠራዊት አባላት በስተቀር ሌሎቜ በክልል መንግሥታትና በፈዎራል መንግሥት ዚተደራጁ ሕግ አስኚባሪ አካላት፣ መታጠቅ ዚሚቜሉትን ዹጩር መሣሪያ ዓይነት ዚሚወስን ሹቂቅ ሕግ ተጠናቆ ለውይይት ቀሚበ። ሹቂቅ ሕጉ ዹተዘጋጀው በፌዎራል ጠቅላይ ዓቃቀ ሕግ ሥር በተዋቀሹ ዹሕግና ኚጉዳዩ ጋር ዹተገናኘ ዹቮክኒክ ዕውቀት ባላ቞ው ዚባለሙያዎቜ ቡድን ሲሆን፣ ዹሕግ ሰነዱ ተጠናቆ በአሁኑ ወቅት ኚባለድርሻ አካላት ጋር ውይይት እዚተደሚገበት እንደሚገኝ ምንጮቜ ገልጞዋል። ሪፖርተር ያገኘው ሹቂቅ ዹሕግ ሰነድ ‹‹ዚኢትዮጵያ ፌዎራላዊ ዎሞክራሲያዊ ሪፐብሊክ ዹጩር መሣሪያ ቁጥጥር አዋጅ›› ዹሚል መጠሪያ ዹተሰጠው ሲሆን፣ ዹጩር መሣሪያ ቁጥጥር ዹአገርንና ዚሕዝብን ሰላምና ፀጥታ ለማስጠበቅ፣ እንዲሁም ዚዜጎቜንና ዚሕዝቊቜን መብትና ደኅንነት ለማስኚበር አስፈላጊ መሆኑን በመገንዘብ ዹተሹቀቀ መሆኑን ዚሰነዱ መግቢያ ያስገነዝባል። በማኹለም ግለሰቊቜ ዚታጠቋ቞ው ዹጩር መሣሪያዎቜ ዚኅብሚተሰቡን ሰላምና ፀጥታ ለማስጠበቅ ተግባር ብቻ ሊውል ዚሚቻልበትን አሠራር መፍጠር አስፈላጊ ሆኖ በመገኘቱ፣ እንዲሁም በሥራ ላይ ባሉ ሕጎቜና አሠራሮቜ ያልተሞፈኑ ጉዳዮቜን በዝርዝር ሕግ መደንገግና ወጥነት ያለው ሥርዓት መፍጠር በማስፈለጉ ሕጉ መዘጋጀቱን ዹሕግ ሰነዱ መግቢያ አንቀጟቜ ያስሚዳሉ። ሹቂቅ ሕጉ ለፀጥታ አስኚባሪ አካላት ዚሚፈቀድ ዹጩር መሣሪያ ዓይነትና ብዛትን ዹሚደነግግ ሲሆን፣ ዹሕግ (ፀጥታ) አስኚባሪ አካላት ለሚለውም ዹሕግ ትርጓሜ አካቷል። ‹‹ሕግ አስኚባሪ ማለት ዚፌደራልና ዹክልል ፖሊስ ኮሚሜኖቜ፣ ዚፌደራልና ዹክልል ማሚሚያ ቀ...
  • Loss: pylate.losses.contrastive.Contrastive

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 1e-05
  • num_train_epochs: 4
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss accuracy
0.4184 1000 0.5172 - -
0 0 - - 0.9665
0.4184 1000 - 0.3057 -
0.8368 2000 0.3459 - -
0 0 - - 0.9700
0.8368 2000 - 0.2722 -
1.2552 3000 0.3008 - -
0 0 - - 0.9718
1.2552 3000 - 0.2513 -
1.6736 4000 0.2641 - -
0 0 - - 0.9731
1.6736 4000 - 0.2383 -
2.0921 5000 0.2426 - -
0 0 - - 0.9733
2.0921 5000 - 0.2323 -
2.5105 6000 0.2166 - -
0 0 - - 0.9748
2.5105 6000 - 0.2267 -
2.9289 7000 0.2164 - -
0 0 - - 0.9753
2.9289 7000 - 0.2236 -
3.3473 8000 0.1931 - -
0 0 - - 0.9753
3.3473 8000 - 0.2208 -
3.7657 9000 0.1975 - -
0 0 - - 0.9756
3.7657 9000 - 0.2203 -
0 0 - - 0.9757

Framework Versions

  • Python: 3.11.12
  • Sentence Transformers: 4.0.2
  • PyLate: 1.2.0
  • Transformers: 4.48.2
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.6.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

@inproceedings{mekonnen2025amharic,
  title={Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval},
  author={Kidist Amde Mekonnen, Yosef Worku Alemneh, Maarten de Rijke },
  booktitle={Findings of ACL},
  year={2025}
}