GISwarm
/

Qwen2-0.5B-GRPO-test

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

GISwarm commited on Feb 11

Commit

c4e7f26

·

verified ·

1 Parent(s): cca5678

Model save

Files changed (1) hide show

README.md +3 -4

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
-datasets: AI-MO/NuminaMath-TIR
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
@@ -12,7 +11,7 @@ licence: license
 # Model Card for Qwen2-0.5B-GRPO-test
-This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct) on the [AI-MO/NuminaMath-TIR](https://huggingface.co/datasets/AI-MO/NuminaMath-TIR) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -36,8 +35,8 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 ### Framework versions
 - TRL: 0.14.0
-- Transformers: 4.48.2
-- Pytorch: 2.5.1+cu124
 - Datasets: 3.2.0
 - Tokenizers: 0.21.0

 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
 # Model Card for Qwen2-0.5B-GRPO-test
+This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ### Framework versions
 - TRL: 0.14.0
+- Transformers: 4.48.3
+- Pytorch: 2.3.0
 - Datasets: 3.2.0
 - Tokenizers: 0.21.0