Training in progress, step 42, checkpoint

Browse files

Files changed (15) hide show

.gitattributes +1 -0
last-checkpoint/README.md +202 -0
last-checkpoint/adapter_config.json +39 -0
last-checkpoint/adapter_model.safetensors +3 -0
last-checkpoint/added_tokens.json +28 -0
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +31 -0
last-checkpoint/tokenizer.json +3 -0
last-checkpoint/tokenizer_config.json +240 -0
last-checkpoint/trainer_state.json +1260 -0
last-checkpoint/training_args.bin +3 -0
last-checkpoint/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: Qwen/Qwen3-1.7B-Base
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.15.2

last-checkpoint/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen3-1.7B-Base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

last-checkpoint/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb6858159d2462c5747e8d48f6dc28617462702164449f75fdb3d6700f7b25f2
+size 34916720

last-checkpoint/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

last-checkpoint/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b261ea90f043c82150924487b970769232577ddfd8507df7a493be77f9355d6a
+size 18162996

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1e0c02ac949d09dbeb7208e8b2463d02d3220e0d83c58bce28d56f61ba483b3
+size 14244

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93e851a38910d314fd8b7919dd43fbaf9d456c3ac40c28c5aeffc9d42d0bbb4a
+size 1064

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67cc0080ffd7555f723f423c27cfef314e1ad9d335c8b79f465c5faba1ed478b
+size 11422821

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1260 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.982456140350877,
+  "eval_steps": 22,
+  "global_step": 42,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.515625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 255.0,
+      "completions/mean_length": 163.984375,
+      "completions/mean_terminated_length": 66.03225708007812,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.07017543859649122,
+      "grad_norm": 0.13955183327198029,
+      "kl": 0.0,
+      "learning_rate": 0.0,
+      "loss": 0.24,
+      "num_tokens": 36143.0,
+      "reward": 42.860870361328125,
+      "reward_std": 12.139046669006348,
+      "rewards/conciseness_reward_func/mean": 2.915491819381714,
+      "rewards/conciseness_reward_func/std": 3.442464590072632,
+      "rewards/reward_func_conciseness/mean": 2.915491819381714,
+      "rewards/reward_func_conciseness/std": 3.442464590072632,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 1
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.28125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 200.0,
+      "completions/mean_length": 112.59375,
+      "completions/mean_terminated_length": 56.4782600402832,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.14035087719298245,
+      "grad_norm": 0.16610237956047058,
+      "kl": 0.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.3533,
+      "num_tokens": 68937.0,
+      "reward": 44.994163513183594,
+      "reward_std": 21.462963104248047,
+      "rewards/conciseness_reward_func/mean": 3.075274705886841,
+      "rewards/conciseness_reward_func/std": 3.1286842823028564,
+      "rewards/reward_func_conciseness/mean": 3.075274705886841,
+      "rewards/reward_func_conciseness/std": 3.1286842823028564,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 2
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.203125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 230.0,
+      "completions/mean_length": 108.375,
+      "completions/mean_terminated_length": 70.74510192871094,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.21052631578947367,
+      "grad_norm": 0.1859525740146637,
+      "kl": 0.0014283501222962514,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.376,
+      "num_tokens": 102181.0,
+      "reward": 36.23883056640625,
+      "reward_std": 15.684919357299805,
+      "rewards/conciseness_reward_func/mean": 2.4338905811309814,
+      "rewards/conciseness_reward_func/std": 2.2532119750976562,
+      "rewards/reward_func_conciseness/mean": 2.4338905811309814,
+      "rewards/reward_func_conciseness/std": 2.2532119750976562,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 3
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.4375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 253.0,
+      "completions/mean_length": 162.140625,
+      "completions/mean_terminated_length": 89.1388931274414,
+      "completions/min_length": 3.0,
+      "completions/min_terminated_length": 3.0,
+      "epoch": 0.2807017543859649,
+      "grad_norm": 0.16273996233940125,
+      "kl": 0.0016980907894321717,
+      "learning_rate": 6e-06,
+      "loss": 0.2831,
+      "num_tokens": 139390.0,
+      "reward": 25.656160354614258,
+      "reward_std": 15.340396881103516,
+      "rewards/conciseness_reward_func/mean": 1.655137062072754,
+      "rewards/conciseness_reward_func/std": 1.8140530586242676,
+      "rewards/reward_func_conciseness/mean": 1.655137062072754,
+      "rewards/reward_func_conciseness/std": 1.8140530586242676,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.28125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 253.0,
+      "completions/mean_length": 116.8125,
+      "completions/mean_terminated_length": 62.34782791137695,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.3508771929824561,
+      "grad_norm": 0.235906720161438,
+      "kl": 0.001262298581423238,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2293,
+      "num_tokens": 173774.0,
+      "reward": 49.87214660644531,
+      "reward_std": 13.10794734954834,
+      "rewards/conciseness_reward_func/mean": 3.4291129112243652,
+      "rewards/conciseness_reward_func/std": 3.4430530071258545,
+      "rewards/reward_func_conciseness/mean": 3.4291129112243652,
+      "rewards/reward_func_conciseness/std": 3.4430530071258545,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.296875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 217.0,
+      "completions/mean_length": 108.984375,
+      "completions/mean_terminated_length": 46.91111373901367,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.42105263157894735,
+      "grad_norm": 0.1428779512643814,
+      "kl": 0.0010839882525033318,
+      "learning_rate": 1e-05,
+      "loss": 0.295,
+      "num_tokens": 207933.0,
+      "reward": 48.97629165649414,
+      "reward_std": 14.069400787353516,
+      "rewards/conciseness_reward_func/mean": 3.36348557472229,
+      "rewards/conciseness_reward_func/std": 2.850590705871582,
+      "rewards/reward_func_conciseness/mean": 3.36348557472229,
+      "rewards/reward_func_conciseness/std": 2.850590705871582,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.328125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 247.0,
+      "completions/mean_length": 134.859375,
+      "completions/mean_terminated_length": 75.69767761230469,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.49122807017543857,
+      "grad_norm": 0.16079330444335938,
+      "kl": 0.0015518797299591824,
+      "learning_rate": 1.2e-05,
+      "loss": 0.3841,
+      "num_tokens": 242164.0,
+      "reward": 40.38452911376953,
+      "reward_std": 25.31698989868164,
+      "rewards/conciseness_reward_func/mean": 2.734084129333496,
+      "rewards/conciseness_reward_func/std": 3.096156358718872,
+      "rewards/reward_func_conciseness/mean": 2.734084129333496,
+      "rewards/reward_func_conciseness/std": 3.096156358718872,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 7
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.359375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 237.0,
+      "completions/mean_length": 130.484375,
+      "completions/mean_terminated_length": 60.07316970825195,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.17502829432487488,
+      "kl": 0.001823052079998888,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.4548,
+      "num_tokens": 276087.0,
+      "reward": 40.271270751953125,
+      "reward_std": 19.694808959960938,
+      "rewards/conciseness_reward_func/mean": 2.7327980995178223,
+      "rewards/conciseness_reward_func/std": 2.980412483215332,
+      "rewards/reward_func_conciseness/mean": 2.7327980995178223,
+      "rewards/reward_func_conciseness/std": 2.980412483215332,
+      "rewards/reward_func_sensitivity/mean": 0.96875,
+      "rewards/reward_func_sensitivity/std": 0.17536810040473938,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.234375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 256.0,
+      "completions/mean_length": 105.640625,
+      "completions/mean_terminated_length": 59.61224365234375,
+      "completions/min_length": 2.0,
+      "completions/min_terminated_length": 2.0,
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.22610169649124146,
+      "kl": 0.001264312981220428,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.3772,
+      "num_tokens": 307784.0,
+      "reward": 47.05876922607422,
+      "reward_std": 16.484901428222656,
+      "rewards/conciseness_reward_func/mean": 3.226520538330078,
+      "rewards/conciseness_reward_func/std": 2.9404289722442627,
+      "rewards/reward_func_conciseness/mean": 3.226520538330078,
+      "rewards/reward_func_conciseness/std": 2.9404289722442627,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 9
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.3125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 247.0,
+      "completions/mean_length": 135.09375,
+      "completions/mean_terminated_length": 80.13636779785156,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.21073277294635773,
+      "kl": 0.0018543089681770653,
+      "learning_rate": 1.8e-05,
+      "loss": 0.4249,
+      "num_tokens": 342698.0,
+      "reward": 33.26258087158203,
+      "reward_std": 19.154817581176758,
+      "rewards/conciseness_reward_func/mean": 2.2158610820770264,
+      "rewards/conciseness_reward_func/std": 2.6055219173431396,
+      "rewards/reward_func_conciseness/mean": 2.2158610820770264,
+      "rewards/reward_func_conciseness/std": 2.6055219173431396,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 10
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 246.0,
+      "completions/mean_length": 98.578125,
+      "completions/mean_terminated_length": 46.10416793823242,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.7719298245614035,
+      "grad_norm": 0.24806265532970428,
+      "kl": 0.0015648197004338726,
+      "learning_rate": 2e-05,
+      "loss": 0.3982,
+      "num_tokens": 375123.0,
+      "reward": 47.2392463684082,
+      "reward_std": 24.591474533081055,
+      "rewards/conciseness_reward_func/mean": 3.236236095428467,
+      "rewards/conciseness_reward_func/std": 3.028409004211426,
+      "rewards/reward_func_conciseness/mean": 3.236236095428467,
+      "rewards/reward_func_conciseness/std": 3.028409004211426,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 11
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.328125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 252.0,
+      "completions/mean_length": 119.890625,
+      "completions/mean_terminated_length": 53.41860580444336,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.16092327237129211,
+      "kl": 0.0013837351434631273,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.4597,
+      "num_tokens": 407736.0,
+      "reward": 45.030216217041016,
+      "reward_std": 27.396785736083984,
+      "rewards/conciseness_reward_func/mean": 3.0744104385375977,
+      "rewards/conciseness_reward_func/std": 3.167632818222046,
+      "rewards/reward_func_conciseness/mean": 3.0744104385375977,
+      "rewards/reward_func_conciseness/std": 3.167632818222046,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 247.0,
+      "completions/mean_length": 86.15625,
+      "completions/mean_terminated_length": 46.96154022216797,
+      "completions/min_length": 2.0,
+      "completions/min_terminated_length": 2.0,
+      "epoch": 0.9122807017543859,
+      "grad_norm": 0.3321259319782257,
+      "kl": 0.0020260919045540504,
+      "learning_rate": 2.4e-05,
+      "loss": 0.4805,
+      "num_tokens": 437690.0,
+      "reward": 48.95707702636719,
+      "reward_std": 23.871448516845703,
+      "rewards/conciseness_reward_func/mean": 3.3620777130126953,
+      "rewards/conciseness_reward_func/std": 2.91607403755188,
+      "rewards/reward_func_conciseness/mean": 3.3620777130126953,
+      "rewards/reward_func_conciseness/std": 2.91607403755188,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 13
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2777777777777778,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 212.0,
+      "completions/mean_length": 119.3888931274414,
+      "completions/mean_terminated_length": 66.84615325927734,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.9824561403508771,
+      "grad_norm": 0.18372154235839844,
+      "kl": 0.0016084623784990981,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.2136,
+      "num_tokens": 471753.0,
+      "reward": 36.678627014160156,
+      "reward_std": 13.176652908325195,
+      "rewards/conciseness_reward_func/mean": 2.4626033306121826,
+      "rewards/conciseness_reward_func/std": 2.459620952606201,
+      "rewards/reward_func_conciseness/mean": 2.4626033306121826,
+      "rewards/reward_func_conciseness/std": 2.459620952606201,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.296875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 212.0,
+      "completions/mean_length": 105.671875,
+      "completions/mean_terminated_length": 42.20000076293945,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.0701754385964912,
+      "grad_norm": 0.2454100102186203,
+      "kl": 0.0014291432889876887,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.3836,
+      "num_tokens": 504352.0,
+      "reward": 47.79035186767578,
+      "reward_std": 20.939437866210938,
+      "rewards/conciseness_reward_func/mean": 3.2766082286834717,
+      "rewards/conciseness_reward_func/std": 3.099247455596924,
+      "rewards/reward_func_conciseness/mean": 3.2766082286834717,
+      "rewards/reward_func_conciseness/std": 3.099247455596924,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 15
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 168.0,
+      "completions/mean_length": 62.75,
+      "completions/mean_terminated_length": 35.142860412597656,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.1403508771929824,
+      "grad_norm": 0.25173822045326233,
+      "kl": 0.0016040767804952338,
+      "learning_rate": 3e-05,
+      "loss": 0.5928,
+      "num_tokens": 532592.0,
+      "reward": 56.10843276977539,
+      "reward_std": 28.642688751220703,
+      "rewards/conciseness_reward_func/mean": 3.885960578918457,
+      "rewards/conciseness_reward_func/std": 2.9640209674835205,
+      "rewards/reward_func_conciseness/mean": 3.885960578918457,
+      "rewards/reward_func_conciseness/std": 2.9640209674835205,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.296875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 253.0,
+      "completions/mean_length": 123.34375,
+      "completions/mean_terminated_length": 67.33333587646484,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.2105263157894737,
+      "grad_norm": 0.14586757123470306,
+      "kl": 0.001644643591134809,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.3506,
+      "num_tokens": 567406.0,
+      "reward": 40.49015808105469,
+      "reward_std": 20.766590118408203,
+      "rewards/conciseness_reward_func/mean": 2.7418220043182373,
+      "rewards/conciseness_reward_func/std": 2.6700687408447266,
+      "rewards/reward_func_conciseness/mean": 2.7418220043182373,
+      "rewards/reward_func_conciseness/std": 2.6700687408447266,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 17
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.28125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 208.0,
+      "completions/mean_length": 113.765625,
+      "completions/mean_terminated_length": 58.10869598388672,
+      "completions/min_length": 2.0,
+      "completions/min_terminated_length": 2.0,
+      "epoch": 1.280701754385965,
+      "grad_norm": 0.1583815962076187,
+      "kl": 0.0014179286517901346,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.1829,
+      "num_tokens": 601399.0,
+      "reward": 38.8372802734375,
+      "reward_std": 11.145255088806152,
+      "rewards/conciseness_reward_func/mean": 2.6207382678985596,
+      "rewards/conciseness_reward_func/std": 2.5241081714630127,
+      "rewards/reward_func_conciseness/mean": 2.6207382678985596,
+      "rewards/reward_func_conciseness/std": 2.5241081714630127,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.328125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 255.0,
+      "completions/mean_length": 133.4375,
+      "completions/mean_terminated_length": 73.5813980102539,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.3508771929824561,
+      "grad_norm": 0.1763005554676056,
+      "kl": 0.0019502783397911116,
+      "learning_rate": 3.6e-05,
+      "loss": 0.313,
+      "num_tokens": 634095.0,
+      "reward": 41.70539855957031,
+      "reward_std": 19.077178955078125,
+      "rewards/conciseness_reward_func/mean": 2.8343520164489746,
+      "rewards/conciseness_reward_func/std": 3.2151780128479004,
+      "rewards/reward_func_conciseness/mean": 2.8343520164489746,
+      "rewards/reward_func_conciseness/std": 3.2151780128479004,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 19
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.234375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 226.0,
+      "completions/mean_length": 111.046875,
+      "completions/mean_terminated_length": 66.67346954345703,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.4210526315789473,
+      "grad_norm": 0.26902371644973755,
+      "kl": 0.0015094915579538792,
+      "learning_rate": 3.8e-05,
+      "loss": 0.3254,
+      "num_tokens": 667534.0,
+      "reward": 42.7399787902832,
+      "reward_std": 17.279216766357422,
+      "rewards/conciseness_reward_func/mean": 2.9066357612609863,
+      "rewards/conciseness_reward_func/std": 2.9050159454345703,
+      "rewards/reward_func_conciseness/mean": 2.9066357612609863,
+      "rewards/reward_func_conciseness/std": 2.9050159454345703,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 20
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 253.0,
+      "completions/mean_length": 131.859375,
+      "completions/mean_terminated_length": 57.375,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.4912280701754386,
+      "grad_norm": 0.23793084919452667,
+      "kl": 0.0021542172180488706,
+      "learning_rate": 4e-05,
+      "loss": 0.303,
+      "num_tokens": 701941.0,
+      "reward": 47.04301834106445,
+      "reward_std": 19.078676223754883,
+      "rewards/conciseness_reward_func/mean": 3.2288718223571777,
+      "rewards/conciseness_reward_func/std": 3.394094467163086,
+      "rewards/reward_func_conciseness/mean": 3.2288718223571777,
+      "rewards/reward_func_conciseness/std": 3.394094467163086,
+      "rewards/reward_func_sensitivity/mean": 0.96875,
+      "rewards/reward_func_sensitivity/std": 0.17536810040473938,
+      "step": 21
+    },
+    {
+      "epoch": 1.5614035087719298,
+      "grad_norm": 0.24694041907787323,
+      "learning_rate": 4.2e-05,
+      "loss": 0.3075,
+      "step": 22
+    },
+    {
+      "epoch": 1.5614035087719298,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.22916666666666666,
+      "eval_completions/max_length": 182.66666666666666,
+      "eval_completions/max_terminated_length": 125.83333333333333,
+      "eval_completions/mean_length": 98.0625,
+      "eval_completions/mean_terminated_length": 64.26984278361003,
+      "eval_completions/min_length": 22.666666666666668,
+      "eval_completions/min_terminated_length": 22.666666666666668,
+      "eval_kl": 0.0025872511711592474,
+      "eval_loss": 0.3126063644886017,
+      "eval_num_tokens": 731929.0,
+      "eval_reward": 41.88053798675537,
+      "eval_reward_std": 19.47314504782359,
+      "eval_rewards/conciseness_reward_func/mean": 2.8436764081319175,
+      "eval_rewards/conciseness_reward_func/std": 1.952876736720403,
+      "eval_rewards/reward_func_conciseness/mean": 2.8436764081319175,
+      "eval_rewards/reward_func_conciseness/std": 1.952876736720403,
+      "eval_rewards/reward_func_sensitivity/mean": 1.0,
+      "eval_rewards/reward_func_sensitivity/std": 0.0,
+      "eval_runtime": 75.02,
+      "eval_samples_per_second": 0.16,
+      "eval_steps_per_second": 0.027,
+      "step": 22
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 254.5,
+      "completions/mean_length": 81.1796875,
+      "completions/mean_terminated_length": 54.69163703918457,
+      "completions/min_length": 1.5,
+      "completions/min_terminated_length": 1.5,
+      "epoch": 1.631578947368421,
+      "grad_norm": 0.21585890650749207,
+      "kl": 0.0031253308843588457,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.383,
+      "num_tokens": 763456.0,
+      "reward": 53.27559852600098,
+      "reward_std": 19.545034408569336,
+      "rewards/conciseness_reward_func/mean": 3.680190324783325,
+      "rewards/conciseness_reward_func/std": 3.0578778982162476,
+      "rewards/reward_func_conciseness/mean": 3.680190324783325,
+      "rewards/reward_func_conciseness/std": 3.0578778982162476,
+      "rewards/reward_func_sensitivity/mean": 0.9921875,
+      "rewards/reward_func_sensitivity/std": 0.0625,
+      "step": 23
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.328125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 210.0,
+      "completions/mean_length": 125.71875,
+      "completions/mean_terminated_length": 62.093021392822266,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.7017543859649122,
+      "grad_norm": 0.1490524560213089,
+      "kl": 0.0025897307932609692,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.3599,
+      "num_tokens": 796006.0,
+      "reward": 38.916587829589844,
+      "reward_std": 23.136043548583984,
+      "rewards/conciseness_reward_func/mean": 2.6300535202026367,
+      "rewards/conciseness_reward_func/std": 2.9958267211914062,
+      "rewards/reward_func_conciseness/mean": 2.6300535202026367,
+      "rewards/reward_func_conciseness/std": 2.9958267211914062,
+      "rewards/reward_func_sensitivity/mean": 0.984375,
+      "rewards/reward_func_sensitivity/std": 0.125,
+      "step": 24
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.359375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 228.0,
+      "completions/mean_length": 134.296875,
+      "completions/mean_terminated_length": 66.0243911743164,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.7719298245614035,
+      "grad_norm": 0.25410982966423035,
+      "kl": 0.002877463834010996,
+      "learning_rate": 4.8e-05,
+      "loss": 0.4365,
+      "num_tokens": 830413.0,
+      "reward": 45.20397186279297,
+      "reward_std": 27.19314956665039,
+      "rewards/conciseness_reward_func/mean": 3.087139129638672,
+      "rewards/conciseness_reward_func/std": 3.4524173736572266,
+      "rewards/reward_func_conciseness/mean": 3.087139129638672,
+      "rewards/reward_func_conciseness/std": 3.4524173736572266,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 25
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 238.0,
+      "completions/mean_length": 104.46875,
+      "completions/mean_terminated_length": 53.958335876464844,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.21713471412658691,
+      "kl": 0.003132364639895968,
+      "learning_rate": 5e-05,
+      "loss": 0.5853,
+      "num_tokens": 863043.0,
+      "reward": 45.85869598388672,
+      "reward_std": 20.649715423583984,
+      "rewards/conciseness_reward_func/mean": 3.135101795196533,
+      "rewards/conciseness_reward_func/std": 2.850745916366577,
+      "rewards/reward_func_conciseness/mean": 3.135101795196533,
+      "rewards/reward_func_conciseness/std": 2.850745916366577,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 26
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.28125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 248.0,
+      "completions/mean_length": 124.390625,
+      "completions/mean_terminated_length": 72.89130401611328,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.912280701754386,
+      "grad_norm": 0.15928152203559875,
+      "kl": 0.0032604307343717664,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.3924,
+      "num_tokens": 897484.0,
+      "reward": 50.61138153076172,
+      "reward_std": 23.177719116210938,
+      "rewards/conciseness_reward_func/mean": 3.483266830444336,
+      "rewards/conciseness_reward_func/std": 3.4873857498168945,
+      "rewards/reward_func_conciseness/mean": 3.483266830444336,
+      "rewards/reward_func_conciseness/std": 3.4873857498168945,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 27
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.3055555555555556,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 252.0,
+      "completions/mean_length": 120.30555725097656,
+      "completions/mean_terminated_length": 60.599998474121094,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 1.9824561403508771,
+      "grad_norm": 0.24538102746009827,
+      "kl": 0.0042094711534446105,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.2198,
+      "num_tokens": 932955.0,
+      "reward": 50.74748992919922,
+      "reward_std": 21.030189514160156,
+      "rewards/conciseness_reward_func/mean": 3.4932374954223633,
+      "rewards/conciseness_reward_func/std": 2.893507480621338,
+      "rewards/reward_func_conciseness/mean": 3.4932374954223633,
+      "rewards/reward_func_conciseness/std": 2.893507480621338,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 28
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.296875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 249.0,
+      "completions/mean_length": 113.8125,
+      "completions/mean_terminated_length": 53.77777862548828,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.0701754385964914,
+      "grad_norm": 0.37533530592918396,
+      "kl": 0.013647254294482991,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.5434,
+      "num_tokens": 966971.0,
+      "reward": 53.38753128051758,
+      "reward_std": 25.584732055664062,
+      "rewards/conciseness_reward_func/mean": 3.6866371631622314,
+      "rewards/conciseness_reward_func/std": 3.548473596572876,
+      "rewards/reward_func_conciseness/mean": 3.6866371631622314,
+      "rewards/reward_func_conciseness/std": 3.548473596572876,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 29
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 187.0,
+      "completions/mean_length": 65.328125,
+      "completions/mean_terminated_length": 41.91228103637695,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.1403508771929824,
+      "grad_norm": 0.2770869731903076,
+      "kl": 0.015037874880363233,
+      "learning_rate": 5.8e-05,
+      "loss": 0.5078,
+      "num_tokens": 997920.0,
+      "reward": 62.491519927978516,
+      "reward_std": 13.444650650024414,
+      "rewards/conciseness_reward_func/mean": 4.353562831878662,
+      "rewards/conciseness_reward_func/std": 3.4237794876098633,
+      "rewards/reward_func_conciseness/mean": 4.353562831878662,
+      "rewards/reward_func_conciseness/std": 3.4237794876098633,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 30
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 250.0,
+      "completions/mean_length": 63.609375,
+      "completions/mean_terminated_length": 36.125,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.2105263157894735,
+      "grad_norm": 0.3478524088859558,
+      "kl": 0.027639453124720603,
+      "learning_rate": 6e-05,
+      "loss": 0.4186,
+      "num_tokens": 1027679.0,
+      "reward": 66.20655059814453,
+      "reward_std": 24.815969467163086,
+      "rewards/conciseness_reward_func/mean": 4.6257123947143555,
+      "rewards/conciseness_reward_func/std": 3.330706834793091,
+      "rewards/reward_func_conciseness/mean": 4.6257123947143555,
+      "rewards/reward_func_conciseness/std": 3.330706834793091,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 31
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.234375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 254.0,
+      "completions/mean_length": 95.390625,
+      "completions/mean_terminated_length": 46.2244873046875,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.280701754385965,
+      "grad_norm": 0.2679261565208435,
+      "kl": 0.009736835781950504,
+      "learning_rate": 6.2e-05,
+      "loss": 0.4007,
+      "num_tokens": 1059420.0,
+      "reward": 53.97537612915039,
+      "reward_std": 19.86016082763672,
+      "rewards/conciseness_reward_func/mean": 3.729700803756714,
+      "rewards/conciseness_reward_func/std": 3.0745017528533936,
+      "rewards/reward_func_conciseness/mean": 3.729700803756714,
+      "rewards/reward_func_conciseness/std": 3.0745017528533936,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 32
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 197.0,
+      "completions/mean_length": 50.28125,
+      "completions/mean_terminated_length": 29.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.3508771929824563,
+      "grad_norm": 1.2629331350326538,
+      "kl": 0.11070789268705994,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.3228,
+      "num_tokens": 1087966.0,
+      "reward": 79.61641693115234,
+      "reward_std": 15.074862480163574,
+      "rewards/conciseness_reward_func/mean": 5.608071327209473,
+      "rewards/conciseness_reward_func/std": 3.699957847595215,
+      "rewards/reward_func_conciseness/mean": 5.608071327209473,
+      "rewards/reward_func_conciseness/std": 3.699957847595215,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 33
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 207.0,
+      "completions/mean_length": 51.25,
+      "completions/mean_terminated_length": 22.000001907348633,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.4210526315789473,
+      "grad_norm": 1.2056056261062622,
+      "kl": 0.3512770783272572,
+      "learning_rate": 6.6e-05,
+      "loss": 0.6225,
+      "num_tokens": 1116666.0,
+      "reward": 79.62600708007812,
+      "reward_std": 23.02800941467285,
+      "rewards/conciseness_reward_func/mean": 5.608773708343506,
+      "rewards/conciseness_reward_func/std": 3.7261159420013428,
+      "rewards/reward_func_conciseness/mean": 5.608773708343506,
+      "rewards/reward_func_conciseness/std": 3.7261159420013428,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 34
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 229.0,
+      "completions/mean_length": 62.9375,
+      "completions/mean_terminated_length": 50.06666946411133,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.4912280701754383,
+      "grad_norm": 0.9496796131134033,
+      "kl": 0.1972154388204217,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.5741,
+      "num_tokens": 1146962.0,
+      "reward": 68.77381896972656,
+      "reward_std": 24.19011878967285,
+      "rewards/conciseness_reward_func/mean": 4.813781261444092,
+      "rewards/conciseness_reward_func/std": 3.699648857116699,
+      "rewards/reward_func_conciseness/mean": 4.813781261444092,
+      "rewards/reward_func_conciseness/std": 3.699648857116699,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 35
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 214.0,
+      "completions/mean_length": 52.40625,
+      "completions/mean_terminated_length": 19.09090805053711,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.56140350877193,
+      "grad_norm": 0.6840168237686157,
+      "kl": 0.8201649184338748,
+      "learning_rate": 7e-05,
+      "loss": 0.2966,
+      "num_tokens": 1175544.0,
+      "reward": 97.68138122558594,
+      "reward_std": 11.356389999389648,
+      "rewards/conciseness_reward_func/mean": 6.931445121765137,
+      "rewards/conciseness_reward_func/std": 3.4826667308807373,
+      "rewards/reward_func_conciseness/mean": 6.931445121765137,
+      "rewards/reward_func_conciseness/std": 3.4826667308807373,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 36
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 191.0,
+      "completions/mean_length": 30.625,
+      "completions/mean_terminated_length": 11.525424003601074,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.7667601108551025,
+      "kl": 0.38818224624264985,
+      "learning_rate": 7.2e-05,
+      "loss": 0.4061,
+      "num_tokens": 1203020.0,
+      "reward": 98.3485336303711,
+      "reward_std": 15.768867492675781,
+      "rewards/conciseness_reward_func/mean": 6.980318069458008,
+      "rewards/conciseness_reward_func/std": 3.055245876312256,
+      "rewards/reward_func_conciseness/mean": 6.980318069458008,
+      "rewards/reward_func_conciseness/std": 3.055245876312256,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 37
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 194.0,
+      "completions/mean_length": 27.609375,
+      "completions/mean_terminated_length": 12.383334159851074,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.7017543859649122,
+      "grad_norm": 0.598527193069458,
+      "kl": 0.11694249129504897,
+      "learning_rate": 7.4e-05,
+      "loss": 0.211,
+      "num_tokens": 1230875.0,
+      "reward": 94.99549102783203,
+      "reward_std": 7.114702224731445,
+      "rewards/conciseness_reward_func/mean": 6.734685897827148,
+      "rewards/conciseness_reward_func/std": 3.04093337059021,
+      "rewards/reward_func_conciseness/mean": 6.734685897827148,
+      "rewards/reward_func_conciseness/std": 3.04093337059021,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 38
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 243.0,
+      "completions/mean_length": 33.859375,
+      "completions/mean_terminated_length": 22.934425354003906,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.7719298245614032,
+      "grad_norm": 3.7495362758636475,
+      "kl": 0.6200877516530454,
+      "learning_rate": 7.6e-05,
+      "loss": 0.3951,
+      "num_tokens": 1258154.0,
+      "reward": 82.8931884765625,
+      "reward_std": 20.4693603515625,
+      "rewards/conciseness_reward_func/mean": 5.848114967346191,
+      "rewards/conciseness_reward_func/std": 3.0996296405792236,
+      "rewards/reward_func_conciseness/mean": 5.848114967346191,
+      "rewards/reward_func_conciseness/std": 3.0996296405792236,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 39
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 105.0,
+      "completions/mean_length": 26.59375,
+      "completions/mean_terminated_length": 11.300000190734863,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.8421052631578947,
+      "grad_norm": 1.9763565063476562,
+      "kl": 1.0024023910518736,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.3104,
+      "num_tokens": 1284792.0,
+      "reward": 98.37100219726562,
+      "reward_std": 7.518170356750488,
+      "rewards/conciseness_reward_func/mean": 6.981963157653809,
+      "rewards/conciseness_reward_func/std": 3.2990918159484863,
+      "rewards/reward_func_conciseness/mean": 6.981963157653809,
+      "rewards/reward_func_conciseness/std": 3.2990918159484863,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 209.0,
+      "completions/mean_length": 47.609375,
+      "completions/mean_terminated_length": 33.71666717529297,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.912280701754386,
+      "grad_norm": 0.5956349968910217,
+      "kl": 0.2420638755429536,
+      "learning_rate": 8e-05,
+      "loss": 0.568,
+      "num_tokens": 1313747.0,
+      "reward": 79.15403747558594,
+      "reward_std": 22.53786277770996,
+      "rewards/conciseness_reward_func/mean": 5.5741987228393555,
+      "rewards/conciseness_reward_func/std": 3.646087884902954,
+      "rewards/reward_func_conciseness/mean": 5.5741987228393555,
+      "rewards/reward_func_conciseness/std": 3.646087884902954,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 41
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.02777777777777779,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 124.0,
+      "completions/mean_length": 21.25,
+      "completions/mean_terminated_length": 14.54285717010498,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 2.982456140350877,
+      "grad_norm": 2.653303623199463,
+      "kl": 1.1713137086480856,
+      "learning_rate": 8.2e-05,
+      "loss": 0.5747,
+      "num_tokens": 1341557.0,
+      "reward": 117.25819396972656,
+      "reward_std": 18.805095672607422,
+      "rewards/conciseness_reward_func/mean": 8.365571022033691,
+      "rewards/conciseness_reward_func/std": 2.659184217453003,
+      "rewards/reward_func_conciseness/mean": 8.365571022033691,
+      "rewards/reward_func_conciseness/std": 2.659184217453003,
+      "rewards/reward_func_sensitivity/mean": 1.0,
+      "rewards/reward_func_sensitivity/std": 0.0,
+      "step": 42
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 253,
+  "num_input_tokens_seen": 1341557,
+  "num_train_epochs": 19,
+  "save_steps": 42,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6396714d15c15097a094becd8e78ff96da9dbeee0fd713f901b3ca04fcee1d1
+size 7864

last-checkpoint/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff