사용되고있는 deocoder모델
#3
by
toast224
- opened
안녕하세요. 좋은 모델 잘 봤습니다.
현재 safeguard model은 decoder기반으로 입력에 따른 출력을 사전에 정의한 클래스중에서 하나를 출력하게끔하고있는데요. 혹시 이때 사용한 backbone모델이 무엇인지 공유받을 수 있을까요? 궁금합니다.
빠른 답변감사합니다.
혹시 모델마다(kanana-safeguard-8b,kanana-safeguard-siren-8b,kanana-safeguard-prompt-2.1b) 사이즈가 다른데 이유가 있을까요? 예를들어 kanana-safeguard-prompt-2.1b와 같이 출력 class의 개수가 적어 상대적으로 쉬운 문제의경우 작은 모델로도 가능하다던가.. 하는 모델 사이즈 선정 동기가 궁금합니다.
말씀해주신대로 kanana-safeguard-prompt-2.1b 모델의 경우 상대적으로 적은 수의 카테고리만을 다루며, 분류하고자 하는 데이터의 특성이 비교적 명확하기 때문에, 보다 작은 모델로도 충분한 성능을 낼 수 있다고 판단했습니다.
또한, 동일한 태스크에 대해 8B 모델과 비교했을 때 2.1B 모델이 보여주는 분류 성능이 크기 대비 큰 차이가 없어 유연성을 고려하여, 해당 태스크에는 경량 모델을 사용하는 것이 효율적이라고 판단하였습니다.
sugar-free
changed discussion status to
closed