Model Card for Model ID
El Modelo RaMem (Rag as Memory) implementa el enfoque de usar RAG para potenciar modelos pequeños y hacerlos muy competentes para el hardware limitado para el que son diseñados.
Model Details
Model Description
RaMen es un Modelo de Lenguaje Pequeño, con la particularidad de que es muy poderoso, ya que integra Rag como Memoria (RaMen). Este enfoque proviene de la limitación de la ventana de contexto de los modelos de lenguaje, usando un sistema RAG para recuperar información relevante y añadirla como contexto esto se soluciona en parte.
El modelo fue fine-tuneado con una combinación de datasets, por una parte está el OASST_2 dataset y por otra parte un dataset generado sinteticamente con ayuda de modelos como DeepSeek y ChatGPT logrando así crear un gran dataset, la finalidad de este dataset no es que el modelo aprenda a generar buenas respuestas, ya que para eso está el enfoque RAG, sino que el modelo pueda afinar su conocimiento sobre la lengua española para evitar lo más posible incoherencias en la respuesta.
- Developed by: Nakato
- Funded by [optional]: [More Information Needed]
- Model type: chat
- Language(s) (NLP): Español, Ingles
- License: cc-by-nc-sa-4.0
- Finetuned from model: unsloth/Llama-3.2-1B-Instruct
- Model Release Date: Marzo 22, 2025
Model Sources
- Repository: RaMem Github
Bias, Risks, and Limitations
Al ser un Modelo pequeño, tiene algunas limitaciones, ya sea en la coherencia de las respuestas, alucinaciones, ventana de contexto pequeña, etc. Las capacidades de este modelo vienen potenciadas por el RAG, sin ellas es solo un modelo de 1B de parametros finetuneado para español.
Recommendations
Es un modelo pequeño, es óptimo para correr en hardware limitado, lo que hace que la mayoría de personas pueden usarlo. Se recomiendo usar la plantilla de chat predefinida y no pasar de la ventana de contexto de 2048 tokens. Tampoco usarlo de forma profesional como ChatGPT.
How to Get Started with the Model
Training Details
Training Data
El dataset usado es una mezcla entre el ya conocido OASST2 y un datset sintétic elaborado con la ayuda de modelos como DeepSeek y ChatGPT, todos los ejemplos tienen un system prompt. Y se aplicó el chat template de LLama 3.1
Training Procedure
Preprocessing
Se ha usado el chat template proporcionado por Meta, para LLama 3.1, el dataset ya se encuentra en un formato que permite aplicar el chat tempalte. Antes de tokenizar los datos se hagrega un sistem prompt en caso las conversaciones no lo tengan. Además se ha cambiado en todo el dataset las referencias sobre el nombre del modelo por RaMem.
Training Hyperparameters
- max_seq_length: 4096 (RoPE scaling)
- lora_alpha: 16
- lora_dropout: 0
- epochs: 1
- learning_rate: 2e-4
- per_device_train_batch_size: 2
- gradient_accumulation_steps: 4
Model Card Authors
- Nakato
Framework versions
- PEFT 0.14.0
- unsloth 2025.3.17
- Downloads last month
- 2