yakazimir
/

qwen_cfUNL_entropy

@@ -3,15 +3,9 @@ library_name: transformers
 license: other
 base_model: trl-lib/qwen1.5-0.5b-sft
 tags:
-- alignment-handbook
 - trl
 - simpo
 - generated_from_trainer
-- trl
-- simpo
-- generated_from_trainer
-datasets:
-- yakazimir/ultrafeedback_binarized
 model-index:
 - name: qwen_cfUNL_entropy
   results: []
@@ -22,18 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # qwen_cfUNL_entropy
-This model is a fine-tuned version of [trl-lib/qwen1.5-0.5b-sft](https://huggingface.co/trl-lib/qwen1.5-0.5b-sft) on the yakazimir/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Rewards/chosen: nan
-- Rewards/rejected: nan
-- Rewards/accuracies: 0.0
-- Rewards/margins: nan
-- Logps/rejected: nan
-- Logps/chosen: nan
-- Logits/rejected: nan
-- Logits/chosen: nan
-- Semantic Entropy: nan
 ## Model description
@@ -66,22 +59,22 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Semantic Entropy |
-|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------------:|
-| 0.0           | 0.2141 | 400  | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 0.4282 | 800  | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 0.6422 | 1200 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 0.8563 | 1600 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 1.0704 | 2000 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 1.2845 | 2400 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 1.4986 | 2800 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 1.7127 | 3200 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 1.9267 | 3600 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 2.1408 | 4000 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 2.3549 | 4400 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 2.5690 | 4800 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 2.7831 | 5200 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
-| 0.0           | 2.9972 | 5600 | nan             | nan            | nan              | 0.0                | nan             | nan            | nan          | nan             | nan           | nan              |
 ### Framework versions

 license: other
 base_model: trl-lib/qwen1.5-0.5b-sft
 tags:
 - trl
 - simpo
 - generated_from_trainer
 model-index:
 - name: qwen_cfUNL_entropy
   results: []
 # qwen_cfUNL_entropy
+This model is a fine-tuned version of [trl-lib/qwen1.5-0.5b-sft](https://huggingface.co/trl-lib/qwen1.5-0.5b-sft) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0000
+- Rewards/chosen: -45.0891
+- Rewards/rejected: -46.1094
+- Rewards/accuracies: 0.5682
+- Rewards/margins: 1.0204
+- Logps/rejected: -46.1094
+- Logps/chosen: -45.0891
+- Logits/rejected: 7.4245
+- Logits/chosen: 7.7499
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.0           | 0.2141 | 400  | 0.0001          | -30.9341       | -32.7194         | 0.5697             | 1.7853          | -32.7194       | -30.9341     | 4.5291          | 4.5264        |
+| 0.0           | 0.4282 | 800  | 0.0000          | -38.7534       | -40.2065         | 0.5593             | 1.4531          | -40.2065       | -38.7534     | 6.2341          | 6.3877        |
+| 0.0009        | 0.6422 | 1200 | 0.0000          | -38.5460       | -39.9578         | 0.5512             | 1.4119          | -39.9578       | -38.5460     | 6.1244          | 6.2779        |
+| 0.0           | 0.8563 | 1600 | 0.0000          | -40.0222       | -41.4115         | 0.5690             | 1.3893          | -41.4115       | -40.0222     | 6.5494          | 6.7346        |
+| 0.0           | 1.0704 | 2000 | 0.0000          | -43.0566       | -44.2275         | 0.5653             | 1.1709          | -44.2275       | -43.0566     | 7.0818          | 7.3504        |
+| 0.0           | 1.2845 | 2400 | 0.0000          | -43.5288       | -44.6477         | 0.5645             | 1.1189          | -44.6477       | -43.5288     | 7.1882          | 7.4775        |
+| 0.0           | 1.4986 | 2800 | 0.0000          | -43.7383       | -44.8584         | 0.5660             | 1.1201          | -44.8584       | -43.7383     | 7.1745          | 7.4634        |
+| 0.0           | 1.7127 | 3200 | 0.0000          | -44.4950       | -45.5556         | 0.5638             | 1.0605          | -45.5556       | -44.4950     | 7.2848          | 7.5950        |
+| 0.0           | 1.9267 | 3600 | 0.0000          | -44.5958       | -45.6569         | 0.5645             | 1.0611          | -45.6569       | -44.5958     | 7.2814          | 7.5948        |
+| 0.0           | 2.1408 | 4000 | 0.0000          | -44.8271       | -45.8411         | 0.5668             | 1.0140          | -45.8411       | -44.8271     | 7.4235          | 7.7436        |
+| 0.0           | 2.3549 | 4400 | 0.0000          | -45.1344       | -46.1374         | 0.5653             | 1.0030          | -46.1374       | -45.1344     | 7.3526          | 7.6831        |
+| 0.0           | 2.5690 | 4800 | 0.0000          | -45.0201       | -46.0501         | 0.5653             | 1.0300          | -46.0501       | -45.0201     | 7.3843          | 7.7103        |
+| 0.0           | 2.7831 | 5200 | 0.0000          | -45.3432       | -46.3394         | 0.5653             | 0.9961          | -46.3394       | -45.3432     | 7.4499          | 7.7830        |
+| 0.0           | 2.9972 | 5600 | 0.0000          | -45.0891       | -46.1094         | 0.5682             | 1.0204          | -46.1094       | -45.0891     | 7.4245          | 7.7499        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,23 +1,9 @@
 {
     "epoch": 2.999297541394882,
-    "eval_logits/chosen": NaN,
-    "eval_logits/rejected": NaN,
-    "eval_logps/chosen": NaN,
-    "eval_logps/rejected": NaN,
-    "eval_loss": NaN,
-    "eval_rewards/accuracies": 0.0,
-    "eval_rewards/chosen": NaN,
-    "eval_rewards/margins": NaN,
-    "eval_rewards/rejected": NaN,
-    "eval_runtime": 34.28,
-    "eval_samples": 1345,
-    "eval_samples_per_second": 39.236,
-    "eval_semantic_entropy": NaN,
-    "eval_steps_per_second": 9.831,
     "total_flos": 0.0,
-    "train_loss": 0.02185800760156135,
-    "train_runtime": 28867.9714,
     "train_samples": 59790,
-    "train_samples_per_second": 6.213,
-    "train_steps_per_second": 0.194
 }

 {
     "epoch": 2.999297541394882,
     "total_flos": 0.0,
+    "train_loss": 0.00884905898078017,
+    "train_runtime": 29905.5175,
     "train_samples": 59790,
+    "train_samples_per_second": 5.998,
+    "train_steps_per_second": 0.187
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.999297541394882,
     "total_flos": 0.0,
-    "train_loss": 0.02185800760156135,
-    "train_runtime": 28867.9714,
     "train_samples": 59790,
-    "train_samples_per_second": 6.213,
-    "train_steps_per_second": 0.194
 }

 {
     "epoch": 2.999297541394882,
     "total_flos": 0.0,
+    "train_loss": 0.00884905898078017,
+    "train_runtime": 29905.5175,
     "train_samples": 59790,
+    "train_samples_per_second": 5.998,
+    "train_steps_per_second": 0.187
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff