LLM_MERGE_CC3
LLM_MERGE_CC3 est une fusion des modèles suivants créée par ManoloPueblo utilisant mergekit:
- mistralai/Mistral-7B-v0.1
- samir-fama/SamirGPT-v1
- abacusai/Slerp-CM-mist-dpo
- EmbeddedLLM/Mistral-7B-Merge-14-v0.2
🧩 Configuration de la fusion
merge_method: dare
base_model: mistralai/Mistral-7B-v0.1
models:
- model: mistralai/Mistral-7B-v0.1
# No parameters necessary for base model
- model: samir-fama/SamirGPT-v1
parameters:
density: 0.53
weight: 0.4
- model: abacusai/Slerp-CM-mist-dpo
parameters:
density: 0.53
weight: 0.3
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.2
parameters:
density: 0.53
weight: 0.3
merge_method: dare_ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
int8_mask: true
dtype: bfloat16
Description
LLM_MERGE_CC3 est un modèle de langage créé par la fusion de trois variantes Mistral :
- Mistral-7B-v0.1 - Le modèle de base Mistral (modèle de référence)
- mistral-ft-optimized-1218 - Version optimisée par OpenPipe (poids: 0.5, densité: 0.5)
- NeuralHermes-2.5-Mistral-7B - Version améliorée par MLabonne (poids: 0.3, densité: 0.5)
Cette fusion utilise la méthode "dare" avec normalisation et une précision float16 pour combiner les forces des trois modèles.
Architecture
Le modèle conserve l'architecture de base de Mistral-7B tout en incorporant les améliorations des trois versions à travers une fusion pondérée. La méthode "ties" permet une fusion plus sophistiquée des poids des modèles.
Paramètres de fusion
- Méthode de fusion : dare
- Normalisation : activée
- Type de données : float16
- Densités et poids :
- OpenPipe/mistral-ft-optimized-1218 : densité 0.5, poids 0.5
- NeuralHermes-2.5-Mistral-7B : densité 0.5, poids 0.3
Utilisation
Ce modèle peut être utilisé avec la bibliothèque transformers de Hugging Face :
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("ManoloPueblo/LLM_MERGE_CC3")
model = AutoModelForCausalLM.from_pretrained("ManoloPueblo/LLM_MERGE_CC3")
Modèles fusionnés
- Mistral-7B-v0.1 - Modèle de base
- mistral-ft-optimized-1218 - Version optimisée
- NeuralHermes-2.5-Mistral-7B - Version améliorée
Limitations
Comme pour tout modèle de langage, les utilisateurs doivent être conscients des biais potentiels et des limitations inhérentes aux modèles sources. Les performances peuvent varier selon les cas d'utilisation.
- Downloads last month
- 6