🧠 Math Reasoning SFT Model

This model is a Supervised Fine-Tuned (SFT) version of a base language model on a high-quality mathematics dataset.
It has been fine-tuned for 3 epochs on a 46k-sample dataset using the Hugging Face 🤗 transformers library.

📊 Evaluation Results

Evaluated on a held-out validation set covering a variety of mathematical domains:

Subset	Accuracy
Olympiad	0.484
Minerva	0.460
Math	0.874
AMC	0.610
AIME24	0.332
AIME25	0.263
AVG	0.504

Accuracy is measured via exact match on extracted final answers using rule-based labeling functions.

🛠️ Model Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("your-org/math-sft-model")
tokenizer = AutoTokenizer.from_pretrained("your-org/math-sft-model")

prompt = "If  $2 x + 3 = 7$ , what is the value of  $x$ ?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=128)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))