사용되고있는 deocoder모델

#3
by toast224 - opened

안녕하세요. 좋은 모델 잘 봤습니다.

현재 safeguard model은 decoder기반으로 입력에 따른 출력을 사전에 정의한 클래스중에서 하나를 출력하게끔하고있는데요. 혹시 이때 사용한 backbone모델이 무엇인지 공유받을 수 있을까요? 궁금합니다.

Kakao Corp. org

@toast224

안녕하세요. kanana safeguard 모델에 관심 가져주셔서 감사합니다.
kanana-1.5-8b-instruct 모델의 초기버전을 기반으로 학습하였습니다.

빠른 답변감사합니다.

혹시 모델마다(kanana-safeguard-8b,kanana-safeguard-siren-8b,kanana-safeguard-prompt-2.1b) 사이즈가 다른데 이유가 있을까요? 예를들어 kanana-safeguard-prompt-2.1b와 같이 출력 class의 개수가 적어 상대적으로 쉬운 문제의경우 작은 모델로도 가능하다던가.. 하는 모델 사이즈 선정 동기가 궁금합니다.

@toast224

말씀해주신대로 kanana-safeguard-prompt-2.1b 모델의 경우 상대적으로 적은 수의 카테고리만을 다루며, 분류하고자 하는 데이터의 특성이 비교적 명확하기 때문에, 보다 작은 모델로도 충분한 성능을 낼 수 있다고 판단했습니다.

또한, 동일한 태스크에 대해 8B 모델과 비교했을 때 2.1B 모델이 보여주는 분류 성능이 크기 대비 큰 차이가 없어 유연성을 고려하여, 해당 태스크에는 경량 모델을 사용하는 것이 효율적이라고 판단하였습니다.

sugar-free changed discussion status to closed

Sign up or log in to comment