cyberagent
/

calm3-22b-chat-selfimprove-experimental

Mitsuki-Sakamoto commited on Feb 13

Commit

8aad296

1 Parent(s): 4688c1f

docs: update license to Apache 2.0 and add citation section in README

Files changed (1) hide show

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-license: cc-by-4.0
 language:
 - ja
 - en
@@ -8,7 +8,7 @@ base_model: "cyberagent/calm3-22b-chat"
 # calm3-22b-chat-selfimprove-experimental
 [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである．
-[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し，[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた．
 特に，不適切な質問応答に関するベンチマーク性能を向上させている．
 ## Requirements, Usage, Chat Template
@@ -146,3 +146,13 @@ v1.0: release (Feb 13, 2025)
 [Mitsuki Sakamoto](https://huggingface.co/Mitsuki-Sakamoto), Yuu Jinnai, Tetsuro Morimura, Kenshi Abe, Kaito Ariu (corresponding author: [email protected]).

 ---
+license: apache-2.0
 language:
 - ja
 - en
 # calm3-22b-chat-selfimprove-experimental
 [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである．
+[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し，Direct Preference Optimization (DPO)[Rafailov et al., 23]で学習させた．
 特に，不適切な質問応答に関するベンチマーク性能を向上させている．
 ## Requirements, Usage, Chat Template
 [Mitsuki Sakamoto](https://huggingface.co/Mitsuki-Sakamoto), Yuu Jinnai, Tetsuro Morimura, Kenshi Abe, Kaito Ariu (corresponding author: [email protected]).
+## How to cite
+```tex
+@misc{cyberagent-calm3-22b-chat-selfimprove-experimental,
+      title={cyberagent/calm3-22b-chat-selfimprove-experimental},
+      url={https://huggingface.co/cyberagent/calm3-22b-chat-selfimprove-experimental},
+      author={Mitsuki Sakamoto, Yuu Jinnai, Tetsuro Morimura, Kenshi Abe, Kaito Ariu},
+      year={2025},
+}
+```