🤖 Qwen3-0.6B Awesome Prompts - Fine-tuned

Este é um modelo de linguagem baseado no Qwen/Qwen3-0.6B, treinado com técnicas de reinforcement learning usando GRPO (um tipo de treinamento baseado em recompensa) e com fine-tuning via LoRA. O objetivo foi ajustar o modelo para gerar respostas mais coerentes e contextualmente relevantes a partir de prompts inspirados no famoso repositório "Awesome ChatGPT Prompts".

🚀 O que tem de especial?

🔁 Treinamento com GRPO (Group Relative Policy Optimization)
💡 Recompensa baseada em similaridade semântica
🧠 Fine-tuning com LoRA (Low-Rank Adaptation)
🗂 Dataset utilizado: fka/awesome-chatgpt-prompts
📈 Integração com o Weights & Biases para monitoramento do treino

🛠 Como usar

from transformers import pipeline

model = "Ambrosio1994/Qwen3-0.6B-awesome-prompts"
generator = pipeline("text-generation", model=model)

messages = [{"role": "user", "content": "Act as: an Ethereum developer"}]

response = generator(messages, max_new_tokens=512, do_sample=True, temperature=1.0, min_p=0.1)
print(response[0]["generated_text"][1]["content"])