---
license: apache-2.0
datasets:
- weiminw/heliumos_reward_score
base_model:
- Qwen/Qwen2.5-3B-Instruct
pipeline_tag: text-classification
tags:
- reward model
---
# Model Overview


该模型用于对AI回复的正确性和内容可用价值的评估, 分数从0-100. 0-35可以判断为完全不可用(内容错误,与事实不符,未遵循用户的指令). 35-50(部分内容可用), 50-100(内容正确并且遵循用户的指令,可以使用). 该模型一般配合Best-of-N来使用, 对于35分以下的直接丢弃, 对于35-50分之间的,可以引入critics来修正后重新采样, 50分以上的可以直接使用.
该模型既可以用于Final Answer的评估, 也可以用于LLM调用Tool的评估(主要评估使用工具是否合理,参数是否正确.)

**SCORE**: 0.00-100.00
# Usage

## Run the Inference Code
```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_id = "weiminw/Heliumos-RM-3B"
tokenizer = AutoTokenizer.from_pretrained(model_id,padding_side="left")
model = AutoModelForSequenceClassification.from_pretrained(
     model_id,
     torch_dtype="auto", 
     device_map="auto"
 )

messages = [
    {'role': 'user', 'content': "what is 12 * 12?"},
    {'role': 'assistant', 'content': "144"}
    
]

text_encoded = tokenizer.apply_chat_template(messages, return_dict=True, return_tensors="pt", tokenize=True).to("cuda:0")

score = model(**text_encoded)

print(score.logits[0]) # 

```