Marsilia-Embeddings-FR-Base ๐Ÿš€

Introduction ๐ŸŒŸ

Marsilia-Embeddings-FR-Base is a French language embedding model specifically designed for financial domain tasks. This model serves as a proof of concept, demonstrating the critical importance of fine-tuning embedding models for specific tasks in Retrieval-Augmented Generation (RAG) applications.

By focusing on the financial domain, Marsilia-Embeddings-FR-Base achieves performance that surpasses even closed-source models like OpenAI's embeddings, while offering a more cost-effective solution. This showcases how targeted fine-tuning can dramatically enhance the capabilities of open-source models, making them competitive with or even superior to proprietary alternatives in specialized domains.

Model Details ๐Ÿ“Š

  • Model Type: Sentence Transformer
  • Language: French ๐Ÿ‡ซ๐Ÿ‡ท
  • Base Model: OrdalieTech/Solon-embeddings-base-0.1
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768
  • Similarity Function: Cosine Similarity

Usage ๐Ÿ’ป

To use this model with the Sentence Transformers library:

from sentence_transformers import SentenceTransformer

# Download from the ๐Ÿค— Hub
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")

# Run inference
sentences = [
    "Comment les dรฉcisions du HCSF et du CERS peuvent-elles influencer les stratรฉgies d'investissement des institutions financiรจres ?",
    'Les analyses menรฉes par le HCSF pour la France l'ont conduit ร  juger les risques faibles et ร  dรฉcider de ne pas activer de coussin contra -cyclique dรฉdiรฉ pour ces expositions45. ร€ l'issue de son analyse concernant les pays tiers matรฉriels pour l'Union europรฉenne, le CERS, qui assure la coordination des actions macroprudentielles en Europe, n'a pas recommandรฉ la fixation de taux de coussin contra -cyclique pour les pays tiers. 41 Dรฉcision nยฐD -HCSF -2022 -6 du 27 dรฉcembre 2022 r elative au taux du coussin de fonds propres contra -cyclique . 42 Articles 138 et 139 CRD 43 Recommandation du Comit รฉ europ รฉen du risque syst รฉmique du 11 dรฉcembre 2015 sur la reconnaissance et la fixation des taux de coussin contra -cyclique applicables aux expositions ร  des pays tiers (CERS/2015/1), recommandation B2. 44 En effet, l'art. 139 de CRD dispose que les autoritรฉs dรฉsignรฉes peuvent adopter un taux de CCyB applicable aux รฉtablissements domestiques sur les expositions aux pays tiers dรจ s lors qu'aucun taux n'a รฉtรฉ fixรฉ ou que le taux fixรฉ par l'autoritรฉ du pays tiers est jugรฉ insuffisant. 45 Le suivi des risques est rรฉalisรฉ par le CERS quand les pays sont identifiรฉs comme importants au niveau de l'Union europรฉenne.',
    'RAPPORT ANNUEL 2023 Haut Conseil de stabilitรฉ financiรจre 18 L'encours des dรฉpรดts bancaires des SNF est ainsi passรฉ de 689 Mdโ‚ฌ fin 2019 ร  913 Mdโ‚ฌ fin 2022, tandis que la trรฉsorerie totale des SNF est passรฉe de 817 Mdโ‚ฌ au T4 2019 ร  1 077 Mdโ‚ฌ au T4 2022, reprรฉsentant un peu plus de 50 % de la dette totale des SNF. Pour autant, rapportรฉe au produit intรฉrieur brut (PIB) ou aux rรฉsultats des entreprises27, la dynamique de la dette brute des SNF apparaรฎt davantage contenue par rapport au niveau prรฉ -crise. ร€ fin 2022 , l'encours de dette brute consolidรฉe des SNF reprรฉsentait ainsi 4,8 fois l e rรฉsultat annuel des entreprises, contre 4,2 fin 2019 , tandis que la dette brute consolidรฉe des SNF reprรฉsentait 80,8 % du PIB ร  fin 2022, contre 73 % ร  fin 2019. La dette nette consolidรฉe, rapportรฉe au PIB ou mesurรฉe en annรฉes de rรฉsultats des entreprises, est quant ร  elle restรฉe stable en 2022, et demeure comparable ร  sa moyenne sur la pรฉriode 2010 -2021 (Graphique 18). 27 Mesurรฉs par l' excรฉdent brut d' exploitation (EBE). Graphique 16 โ€“ Demande et accรจs des PME au crรฉdit de trรฉsorerie (%) Graphique 17 โ€“ Flux annuels de dette et trรฉso rerie des entreprises sur la pรฉriode 2019 - 2022 (Mdโ‚ฌ) Source : Banque de France. Dernier point : T1 2023. Note de lecture : au T1 2023, 4,8 % des PME interrogรฉes avaient indiquรฉ avoir demandรฉ un crรฉdit de trรฉsorerie et 95,6 % d'entre elles ont obtenu plus de 75 % du montant demandรฉ. Source : Banque de France.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Intended Use ๐ŸŽฏ

This model is designed for generating sentence embeddings for French text, particularly in the financial domain. It can be used for various natural language processing tasks such as semantic search, clustering, and information retrieval.

Training Data ๐Ÿ“š

The model was fine-tuned on the sujet-ai/Sujet-Financial-RAG-FR-Dataset. This dataset consists of question-context pairs in French, focusing on financial topics.

  • Training Set Size: 28,880 samples

Training Procedure ๐Ÿ› ๏ธ

Training Hyperparameters

  • Loss Function: MultipleNegativesRankingLoss
    • Scale: 20.0
    • Similarity Function: Cosine Similarity
  • Evaluation Strategy: Steps
  • Per Device Train Batch Size: 100
  • Per Device Eval Batch Size: 100
  • Number of Train Epochs: 10
  • Batch Sampler: no_duplicates
  • Multi Dataset Batch Sampler: round_robin
  • Scheduler: Warmup cosine

Framework Versions

  • Python: 3.10.13
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.3
  • PyTorch: 2.5.0.dev20240704+cu124
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Evaluation ๐Ÿ“ˆ

The model was evaluated using the InformationRetrievalEvaluator on the test split of the sujet-ai/Sujet-Financial-RAG-FR-Dataset.

Limitations โš ๏ธ

The model is specifically trained on French financial texts and may not perform optimally on other domains or languages. Users should be aware of potential biases present in the training data.

Citation ๐Ÿ“„

If you use this model in your research or applications, please cite:

@software{Marsilia-Embeddings-FR-Base,
  author = {Sujet AI, Allaa Boutaleb, Hamed Rahimi},
  title = {Marsilia-Embeddings-FR-Base: A fine-tuned French embedding model for financial texts},
  year = {2024},
  url = {https://huggingface.co/sujet-ai/Marsilia-Embeddings-FR-Base}
}

Contact Information ๐Ÿ“ง

For questions, feedback, or collaborations, please reach out to us on LinkedIn or visit our website https://sujet.ai.

Downloads last month
6
Safetensors
Model size
278M params
Tensor type
F32
ยท
Inference Providers NEW

Dataset used to train sujet-ai/Marsilia-Embeddings-FR-Base

Collection including sujet-ai/Marsilia-Embeddings-FR-Base