back-prop
/

Qwen2.5-GRPO-3B

Text Generation

Model card Files Files and versions

back-prop commited on Jun 2

Commit

451c63c

·

verified ·

1 Parent(s): 2972ae6

Update README.md

Files changed (1) hide show

README.md +1 -22

README.md CHANGED Viewed

@@ -13,29 +13,8 @@ language:
 # Qwen2.5-3B-GRPO-MATH-1EPOCH
 **Description:**
-A GRPO-fine-tuned version of Qwen2.5-3B-Instruct trained on the MATH dataset. It is optimized to produce more accurate contest-style math solutions.
----
-## Usage
-```python
-from transformers import pipeline
-generator = pipeline(
-    "text-generation",
-    model="USERNAME/Qwen-2.5-3B-GRPO-Math",
-    device="cuda"
-)
-prompt = "Evaluate the integral ∫₀¹ x² dx."
-result = generator(
-    [{"role": "user", "content": prompt}],
-    max_new_tokens=50,
-    return_full_text=False
-)[0]
-print(result["generated_text"])
-````
 ---

 # Qwen2.5-3B-GRPO-MATH-1EPOCH
 **Description:**
+A GRPO-fine-tuned version of Qwen2.5-3B trained on the MATH dataset.
 ---