keval-7b / README.md
davidkim205's picture
Update README.md
e857872 verified
metadata
library_name: transformers
language:
  - ko

KEval-7b

keval is an evaluation model that learned the prompt and dataset used in the benchmark for evaluating Korean language models among various methods of evaluating models with chatgpt to compensate for the shortcomings of the existing lm-evaluation-harness.

Now that the new version(keval-9b) has been released, the previous version will be changed so that anyone can use it.

Usages

wandb judge prompt

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

checkpoint = "davidkim205/keval-7b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

judgment="""당신은 μœ μ΅ν•œ μ‘°μˆ˜μž…λ‹ˆλ‹€.\n[μ§€μ‹œ]\nκ³΅ν‰ν•œ νŒλ‹¨μžλ‘œ ν–‰λ™ν•˜κ³  μ•„λž˜μ— ν‘œμ‹œλ˜λŠ” μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ— λŒ€ν•œ AI μ–΄μ‹œμŠ€ν„΄νŠΈ μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•©λ‹ˆλ‹€. κ·€ν•˜μ˜ ν‰κ°€λŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, 상세도 λ“±μ˜ μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. AI μ–΄μ‹œμŠ€ν„΄νŠΈμ˜ 응닡 μ–Έμ–΄λŠ” μ‚¬μš©μžκ°€ μ‚¬μš©ν•˜λŠ” 언어와 μΌμΉ˜ν•΄μ•Ό ν•˜λ©°, 그렇지 μ•ŠμœΌλ©΄ κ°μ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 짧은 μ„€λͺ…μœΌλ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. κ°€λŠ₯ν•œ ν•œ 객관적인 것. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \"[[평가]]\" ν˜•μ‹μ— μ—„κ²©νžˆ 따라 1μ—μ„œ 10κΉŒμ§€μ˜ μŠ€μΌ€μΌλ‘œ 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \"평가: [[5]]\").\n\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>[질문]\n두 가지 인기 슀마트폰 λͺ¨λΈμ„ λΉ„κ΅ν•˜λŠ” λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ„ μž‘μ„±ν•œλ‹€κ³  μƒμƒν•΄λ΄…μ‹œλ‹€. 두 λͺ¨λΈμ˜ κΈ°λŠ₯, μ„±λŠ₯ 및 μ‚¬μš©μž κ²½ν—˜μ„ 효과적으둜 λΉ„κ΅ν•˜κ³  λŒ€μ‘°ν•  수 μžˆλ„λ‘ 핡심 사항과 λΆ€μ œλͺ©μ„ ν¬ν•¨ν•˜μ—¬ λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ κ°œμš”λ₯Ό μž‘μ„±ν•˜μ„Έμš”. 200단어 μ΄λ‚΄λ‘œ λ‹΅ν•˜μ„Έμš”.\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n제λͺ©: iPhone 13와 Samsung Galaxy S22: 비ꡐ κ²€ν† μ†Œκ°œ* 슀마트폰 ꡬ맀의 μ€‘μš”μ„±μ— λŒ€ν•œ μ„€λͺ…* λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ λͺ©μ : 2인기 슀마트폰 λͺ¨λΈ 비ꡐ: iPhone 13와 μ‚Όμ„± κ°€λŸ­μ‹œ S22κΈ°λŠ₯ 비ꡐ* 크기, λ””μŠ€ν”Œλ ˆμ΄ 크기, λ””μžμΈ 및 ν˜•νƒœμ— λŒ€ν•œ μš”μ•½* 카메라 및 사진 κΈ°λŠ₯ 및 ν’ˆμ§ˆ 비ꡐ* CPU와 GPU: μ„±λŠ₯ 비ꡐ* 운영 체제: iOS와 μ•ˆλ“œλ‘œμ΄λ“œμ˜ λΉ„κ΅νŠΉμ§•* μΆ”κ°€ κΈ°λŠ₯κ³Ό κΈ°λŠ₯(예: Face ID, λΉ λ₯Έ λ³΄μ•ˆ λ“±)에 λŒ€ν•œ 탐ꡬ* iPhone 13의 λ‹€μ–‘ν•œ 색상과 버전에 λŒ€ν•œ ν† λ‘ λΉ„μš© 비ꡐ* 가격과 μ œκ³΅ν•  수 μžˆλŠ” νŠΉλ³„ 거래 λ˜λŠ” ν• μΈμ˜ 뢄석결둠* 비ꡐ에 λŒ€ν•œ μš”μ•½ 및 μ΅œμ’… μΆ”μ²œμ‚¬μš©μž κ²½ν—˜ 비ꡐ* μ‚¬μš©μžμ˜ ν‰μ†Œ μ‚¬μš© κ²½ν—˜, λ§Œμ‘±λ„, 직관성에 λŒ€ν•œ 평가* 각 λͺ¨λΈμ˜ μŠ€ν† μ–΄ 및 지원에 λŒ€ν•œ 비ꡐ결둠\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"""
inputs = tokenizer(judgment, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

response

[[평가]]: [[9]]

이 응닡은 μ‚¬μš©μžκ°€ μš”μ²­ν•œ λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Ό κ°œμš”λ₯Ό 잘 λ§Œλ“€μ–΄λƒˆμŠ΅λ‹ˆλ‹€. 제λͺ©κ³Ό μ£Όμš” λΆ€μ œλͺ©μ„ ν¬ν•¨ν•˜μ—¬ λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ ꡬ쑰λ₯Ό λͺ…ν™•ν•˜κ²Œ μ œμ‹œν•˜μ˜€κ³ , 두 슀마트폰 λͺ¨λΈμ˜ μ£Όμš” 차이점을 λΉ„κ΅ν•˜κΈ° μœ„ν•œ ꡬ체적인 λ‚΄μš©μ„ ν¬ν•¨ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ‚¬μš©μž κ²½ν—˜κ³Ό 가격 비ꡐ λ“± μ‹€μ œ κ΅¬λ§€μžκ°€ 관심을 κ°€μ§ˆ 수 μžˆλŠ” μš”μ†Œλ“€μ„ ν¬ν•¨ν•˜μ—¬ μœ μš©ν•˜κ³  완성도 높은 κ°œμš”λ₯Ό μ œκ³΅ν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ‹€λ§Œ, 일뢀 λΆ€μ œλͺ©μ΄ λ‹€μ†Œ λ°˜λ³΅μ μ΄κ±°λ‚˜ μ€‘λ³΅λ˜λŠ” λ‚΄μš©μ„ ν¬ν•¨ν•˜κ³  μžˆμ–΄ κ°œμ„ μ˜ 여지가 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 뢀뢄을 μ‘°μ •ν•˜λ©΄ λ”μš± 효율적인 κ°œμš”κ°€ 될 수 μžˆμŠ΅λ‹ˆλ‹€.

jsonl

{"turn": "first","category":"general","system":"당신은 μœ μ΅ν•œ μ‘°μˆ˜μž…λ‹ˆλ‹€.\n[μ§€μ‹œ]\nκ³΅ν‰ν•œ νŒλ‹¨μžλ‘œ ν–‰λ™ν•˜κ³  μ•„λž˜μ— ν‘œμ‹œλ˜λŠ” μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ— λŒ€ν•œ AI μ–΄μ‹œμŠ€ν„΄νŠΈ μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•©λ‹ˆλ‹€. κ·€ν•˜μ˜ ν‰κ°€λŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, 상세도 λ“±μ˜ μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. AI μ–΄μ‹œμŠ€ν„΄νŠΈμ˜ 응닡 μ–Έμ–΄λŠ” μ‚¬μš©μžκ°€ μ‚¬μš©ν•˜λŠ” 언어와 μΌμΉ˜ν•΄μ•Ό ν•˜λ©°, 그렇지 μ•ŠμœΌλ©΄ κ°μ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 짧은 μ„€λͺ…μœΌλ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. κ°€λŠ₯ν•œ ν•œ 객관적인 것. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \"[[평가]]\" ν˜•μ‹μ— μ—„κ²©νžˆ 따라 1μ—μ„œ 10κΉŒμ§€μ˜ μŠ€μΌ€μΌλ‘œ 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \"평가: [[5]]\").","text":"<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>[질문]\n{question}\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n{response}\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"}
{"turn": "second","category":"general","system":"κ³΅μ •ν•œ νŒλ‹¨μžλ‘œμ„œ μ•„λž˜ ν‘œμ‹œλœ μ‚¬μš©μž μ§ˆλ¬Έμ— λŒ€ν•΄ AI λ³΄μ‘°μžκ°€ μ œκ³΅ν•˜λŠ” μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜μ‹­μ‹œμ˜€. ν‰κ°€μ—μ„œλŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, μ„ΈλΆ€ μˆ˜μ€€κ³Ό 같은 μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 두 번째 μ‚¬μš©μž μ§ˆλ¬Έμ— λŒ€ν•œ 보쑰자의 닡변에 μ΄ˆμ μ„ λ§žμΆ°μ•Ό ν•©λ‹ˆλ‹€. κ°„λ‹¨ν•œ μ„€λͺ…을 μ œκ³΅ν•˜μ—¬ 평가λ₯Ό μ‹œμž‘ν•˜μ„Έμš”. μ΅œλŒ€ν•œ κ°κ΄€μ μ΄μ„Έμš”. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \\\"[[평가]]\\\" ν˜•μ‹μ„ μ—„κ²©νžˆ μ€€μˆ˜ν•˜μ—¬ 1~10점으둜 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \\\"평가: [[5]]\\\").","text":"<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>\n[질문]\n{question}\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n{response}\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"}

logickor judge prompt

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

checkpoint = "davidkim205/keval-7b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

judgment="""λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자\n\n# 질문:\nλ―Όμˆ˜μ—κ²ŒλŠ” 빨간색 μ…”μΈ  ν•œ 벌과 λ…Έλž€μƒ‰ μ…”μΈ  λ‹€μ„― 벌이 μžˆμ–΄. λ―Όμˆ˜κ°€ λ…Έλž€μƒ‰ 바지 3λ²Œμ„ μƒˆλ‘œ κ΅¬λ§€ν•˜κ³  λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μΉœκ΅¬μ—κ²Œ μ„ λ¬Όν–ˆμ„ λ•Œ λ―Όμˆ˜λŠ” λͺ‡ 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ„κΉŒ?\n\n# λ‹΅λ³€:\nλ―Όμˆ˜λŠ” μ›λž˜ 빨간색 셔츠와 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ—ˆκ³ , μƒˆλ‘œ λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μ„ λ¬Όν•΄μ£Όμ…¨μœΌλ‹ˆ μ΄μ œλŠ” 5 + 2 = <<5+2=7>>7가지 μƒ‰μƒμ˜ μ…”μΈ κ°€ μžˆμœΌμ‹œκ² μ£ .\n\n# Ground Truth:\nλ‹€μ„― 벌"""
inputs = tokenizer(judgment, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

response

λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.
# κΈ°λ³Έ κ·œμΉ™
1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것
2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것
3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것
4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것
# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)
λͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.
# 평가 좜λ ₯ 방식
주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.
# 좜λ ₯ ν˜•μ‹
평가: 평가 λ‚΄μš©
점수: 숫자

# 질문:
λ―Όμˆ˜μ—κ²ŒλŠ” 빨간색 μ…”μΈ  ν•œ 벌과 λ…Έλž€μƒ‰ μ…”μΈ  λ‹€μ„― 벌이 μžˆμ–΄. λ―Όμˆ˜κ°€ λ…Έλž€μƒ‰ 바지 3λ²Œμ„ μƒˆλ‘œ κ΅¬λ§€ν•˜κ³  λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μΉœκ΅¬μ—κ²Œ μ„ λ¬Όν–ˆμ„ λ•Œ λ―Όμˆ˜λŠ” λͺ‡ 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ„κΉŒ?

# λ‹΅λ³€:
λ―Όμˆ˜λŠ” μ›λž˜ 빨간색 셔츠와 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ—ˆκ³ , μƒˆλ‘œ λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μ„ λ¬Όν•΄μ£Όμ…¨μœΌλ‹ˆ μ΄μ œλŠ” 5 + 2 = <<5+2=7>>7가지 μƒ‰μƒμ˜ μ…”μΈ κ°€ μžˆμœΌμ‹œκ² μ£ .

# Ground Truth:
λ‹€μ„― 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆλ‹€.

평가: 닡변이 질문의 μš”κ΅¬λ₯Ό μ œλŒ€λ‘œ μΆ©μ‘±ν•˜μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€. μ§ˆλ¬Έμ€ λ―Όμˆ˜κ°€ 가지고 μžˆλŠ” λ…Έλž€μƒ‰ μ…”μΈ μ˜ 수λ₯Ό 묻고 μžˆλŠ”λ°, 닡변은 λ…Έλž€μƒ‰ λ°”μ§€μ˜ 수λ₯Ό λ”ν•˜λŠ” 였λ₯˜λ₯Ό λ²”ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, λ‹΅λ³€ ν˜•μ‹μ΄ ν˜Όλž€μŠ€λŸ½κ³  계산 방식이 잘λͺ»λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
점수: 1

jsonl

{"turn": "first","category":"general","system":"λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자","text":"# 질문:\n{question}\n\n# λ‹΅λ³€:\n{response}\n\n# Ground Truth:\n{label}"}
{"turn": "second","category":"general","system":"λ„ˆλŠ” λŒ€ν™” ν›„ μ΄μ–΄μ§€λŠ” 후속 μ§ˆλ¬Έμ— λŒ€ν•œ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n5. 후속 μ§ˆλ¬Έμ— λŒ€ν•œ 닡변이 이전 λŒ€ν™” λ§₯락과 ν˜Έμ‘μ„ μ΄λ£¨λŠ”μ§€ 확인할 것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자","text":"# 질문:\n{question}\n\n# λ‹΅λ³€:\n{response}\n\n# Ground Truth:\n{label}"}

Evaluation

model acc wrong diff-0 diff-1 diff-2 diff-3 diff-4 diff-5 diff-6 diff-7 diff-8 diff-9 length
0 Meta-Llama-3-8B-Instruct-keval_datasets_small.jsonl 0.45 0.38 0.06 0.18 0.17 0.09 0.05 0.04 0.02 0 0 0 100
1 Mistral-7B-Instruct-v0.2-keval_datasets_small.jsonl 0.55 0.27 0.18 0.2 0.09 0.06 0.05 0.03 0.04 0.04 0.04 0 100
2 Mistral-7B-Instruct-v0.3-keval_datasets_small.jsonl 0.71 0.05 0.26 0.26 0.13 0.08 0.07 0.04 0.03 0.03 0.04 0 100
3 aya-23-8B-keval_datasets_small.jsonl 0.7 0.02 0.17 0.24 0.16 0.1 0.13 0.06 0.06 0.04 0.01 0 100
4 gemma-2-27b-it-keval_datasets_small.jsonl 0.76 0.11 0.2 0.35 0.18 0.1 0.03 0.01 0.02 0 0 0 100
5 gemma-2-9b-it-keval_datasets_small.jsonl 0.83 0.04 0.26 0.42 0.15 0.05 0.02 0.05 0.01 0 0 0 100
6 keval-7b-keval_datasets_small.jsonl 0.84 0 0.28 0.41 0.11 0.06 0.05 0.03 0.02 0.03 0.01 0 100
7 keval-9b-keval_datasets_small.jsonl 0.91 0 0.43 0.38 0.1 0.05 0.03 0.01 0 0 0 0 100