--- license: other license_name: exaone license_link: LICENSE library_name: transformers tags: - trl - sft datasets: - huggingface-KREW/KoCulture-Dialogues-v2 base_model: - LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct --- # Model Card for EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers 이 모델은 [LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct) 모델을 Hugging Face KREW의 [한국어 신조어 대화 데이터셋 v2](https://huggingface.co/datasets/huggingface-KREW/KoCulture-Dialogues-v2)로 파인튜닝한 것입니다. 최신 한국어 신조어, 유행어, 밈을 사용하여 보다 자연스럽고 현실적인 한국어 대화를 생성하는 것을 목표로 합니다. ## Model Details ### Model Description 이 모델은 `LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct`를 기반으로, 한국의 최신 언어 문화(신조어, 밈 등)를 더 잘 이해하고 생성하도록 특화된 대규모 언어 모델입니다. Hugging Face의 `trl` 라이브러리를 사용한 SFT(Supervised Fine-tuning) 방식으로 학습되었습니다. 학습 데이터에는 친구와 대화하는 상황을 가정하여, 특정 질문에 대해 밈과 유행어를 활용해 답하는 형식으로 구성된 대화 쌍이 사용되었습니다. - **Developed by:** Hugging Face KREW (Yongsang Yoo, Harheem Kim, Sungmin Oh) - **Model type:** Causal Language Model (Decoder-only Transformer) - **Language(s) (NLP):** Korean (ko) - **License:** The license for this model is based on the base model's license, 'exaone'. The training dataset, `huggingface-KREW/KoCulture-Dialogues-v2`, is available under the CC BY-NC-SA 4.0 license. - **Finetuned from model:** [LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct) ### Model Sources - **Repository:** [https://huggingface.co/Yongsang/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers](https://www.google.com/search?q=https://huggingface.co/Yongsang/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers) - **Paper:** 추가될 예정 - **Demo:** 추가될 예정 ## Uses 이 모델은 한국어 신조어와 밈이 포함된 비공식적이고 구어적인 텍스트를 생성하도록 설계되었습니다. ### Direct Use 모델은 주어진 질문이나 문맥에 대해 친구와 대화하듯 최신 유행어를 사용하여 응답을 생성할 수 있습니다. 챗봇이나 가상 비서와 같은 대화형 AI에 직접 적용하여 사용자의 재미와 경험을 향상시키는 데 활용될 수 있습니다. ### Out-of-Scope Use - 본 모델은 CC BY-NC-SA 4.0 라이선스를 따르는 데이터셋으로 학습되었으므로, **영리적 목적으로 사용될 수 없습니다.** - 모델이 유해하거나 차별적인 콘텐츠(공격적 언어, 혐오 발언 등)를 생성하거나 확산하는 데 사용되어서는 안 됩니다. - 모델의 생성물은 사실이 아닐 수 있으며, 사실 확인이 필요한 중요한 정보 제공 목적으로 사용해서는 안 됩니다. ## Bias, Risks, and Limitations - **Bias:** 학습 데이터는 주로 온라인 커뮤니티와 미디어에서 유래한 신조어 및 유행어를 중심으로 구성되어 있어, 특정 연령대(예: 젊은 세대)나 특정 온라인 문화에 편향된 언어 사용을 반영할 수 있습니다. - **Risks:** 신조어와 유행어는 시의성이 매우 강하여 시간이 지남에 따라 의미가 변하거나 사용되지 않게 될 수 있습니다(데이터 노후화). 필터링 노력에도 불구하고, 맥락에 따라 부적절하거나 공격적으로 해석될 수 있는 내용이 포함될 위험이 있습니다. - **Limitations:** 이 모델은 한국어 신조어의 전체 범위를 포괄하지 못하며, 특정 시점까지 수집된 내용을 기반으로 합니다. 데이터셋의 크기가 비교적 작기 때문에 모든 상황에 대해 완벽하게 자연스러운 답변을 생성하지 못할 수 있습니다. ### Recommendations 사용자는 모델이 생성하는 결과물의 편향 가능성과 시의성을 인지하고 주의 깊게 사용해야 합니다. 비영리적 목적으로만 사용해야 하며, 출처(Hugging Face KREW 및 원본 데이터 제공처)를 명확히 밝혀야 합니다. ## How to Get Started with the Model 아래 코드를 사용하여 모델 추론을 시작할 수 있습니다. **이 모델은 `transformers` 라이브러리 버전 4.51.3 이상이 필요합니다. 원활한 사용을 위해 라이브러리 버전을 확인하고 필요시 업그레이드해 주세요.** ```python !pip install "transformers>=4.51.3" ``` ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM # Hugging Face Hub에서 토크나이저와 모델 로드 model_id = "huggingface_KREW/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, device_map="auto" ) # 추론을 위한 입력 텍스트 준비 # 학습 시 사용된 프롬프트 형식을 따릅니다. PREFIX = "친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요." question = "너 어제 회식 때 왜 혼자만 조용히 있었어?" input_text = f"{PREFIX}: {question}" # 대화 템플릿 적용 messages = [{'role': 'user', 'content': input_text}] chat_input = tokenizer.apply_chat_template( messages, add_generation_prompt=True, tokenize=False ) # 모델 입력 생성 inputs = tokenizer(chat_input, return_tensors="pt").to(model.device) # 텍스트 생성 outputs = self.model.generate( **inputs, max_new_tokens=256, temperature=0.7, top_p=0.8, top_k=20, min_p=0, repetition_penalty=1.15, do_sample=True, pad_token_id=tokenizer.eos_token_id ) # 결과 디코딩 및 출력 response_ids = outputs[0][len(inputs.input_ids[0]):] answer = tokenizer.decode(response_ids, skip_special_tokens=True) # 생성된 답변만 추출 print(f"질문: {question}") print(f"답변: {answer}") # 예상 출력: # 질문: 저는 사진 찍는 걸 좋아해요. # 답변: 사진작가님 어서오고 ㅋㅋㅋ 삼각대 꼭 쓰세요! ``` ## Training Details ### Training Data 이 모델은 [huggingface-KREW/KoCulture-Dialogues-v2](https://huggingface.co/datasets/huggingface-KREW/KoCulture-Dialogues-v2) 데이터셋을 사용하여 학습되었습니다. 이 데이터셋은 최신 한국어 신조어, 유행어, 밈을 포함하는 대화 쌍으로 구성되어 있습니다. 데이터는 `title`(유행어), `question`(질문 맥락), `answer`(유행어를 사용한 답변)의 세 가지 필드로 이루어져 있습니다. ### Training Procedure ### Preprocessing 학습 데이터는 다음 과정을 거쳐 처리되었습니다. 1. 각 `question` 항목 앞에 `"친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요.: "` 라는 프롬프트(PREFIX)가 추가됩니다. 2. 수정된 `question`과 `answer`는 `user`와 `assistant` 역할을 갖는 대화 형식으로 변환됩니다. 3. `tokenizer.apply_chat_template` 함수를 사용하여 모델이 학습할 수 있는 최종 텍스트 형식으로 포맷팅됩니다. ### Training Hyperparameters - **Training regime:** bf16 mixed precision - **`model_name`**: `LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct` - **`max_seq_length`**: 512 - **`num_epochs`**: 3 - **`per_device_train_batch_size`**: 1 - **`gradient_accumulation_steps`**: 64 - **`learning_rate`**: 6e-5 - **`lr_scheduler_type`**: `linear` - **`optim`**: `adamw_8bit` - **`warmup_ratio`**: 0.05 - **`weight_decay`**: 0.01 ## Evaluation ### Testing Data & Metrics ### Testing Data 별도의 검증 데이터 파일을 사용하여 학습 전후 모델의 응답을 정성적으로 비교했습니다. - `meme_sample_with_question.txt` - `usage_question.txt` ### Summary 주목할 점은, 이번에 평가된 EXAONE, kanana, Qwen3 모델들은 파인튜닝 이전 단계와 증강된 데이터셋을 사용하기 전에서는 신조어 사용률이 0%에 가까웠다는 것입니다. 따라서 현재 측정된 신조어 사용 능력은 온전히 KoCulture 파인튜닝을 통해 얻어진 성과라 할 수 있으며, 이는 모델이 한국 문화의 트렌디한 언어 사용을 효과적으로 학습했음을 보여줍니다. - EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers: (우수) 높은 사용률과 함께 실제 사용 예시와 유사한 자연스러운 맥락에서 신조어를 창의적으로 활용하는 능력이 돋보입니다. - kanana-1.5-8b-instruct-2505-KoCulture-fulltrain-transformers: (우수) 높은 사용률을 보이며, 다양한 상황에 맞는 신조어를 정확하고 자연스럽게 구사하여 실제 사용자 같은 말투를 보여줍니다. - Qwen3-8B-KoCulture-fulltrain-transformers: (개선 필요) 사용률이 가장 낮으며, 신조어 사용 시 문맥을 제대로 파악하지 못하거나 부자연스러운 표현을 생성하는 경우가 많아 개선이 필요합니다. - gpt-4o: (보통) 가장 낮은 사용률을 보였으며, 신조어를 이해하고는 있으나 다소 과장되고 작위적인 방식으로 사용하여 자연스러움이 떨어지는 경향이 있습니다. ### Generation Examples | 모델명 | 질문 | 답변 | | :--- | :--- | :--- | | **EXAONE-3.5-7.8B** | 나 이번 주말에 봉사활동 가기로 했어. | 헐 진짜? 멋있다! 차카니 몇 개 먹은 거야? | | | 요즘 너무 잠이 안 와서 힘들어. | 헐 불면증인가? 숙면 꿀팁 araboja | | | 커피를 직접 내려마시는 것을 좋아해. | 오 그럼 이번엔 내가 말아주는 드립커피 어때? | | | 오늘 영화를 보러 갔어. | 근데!!! 팝콘을 안 샀음. 하지만!!! ... 영화는 재밌었음. 진짜... 우리 관크 없던 거면 더 좋았겠다! | | **Qwen3-8B** | 죽은 반려동물이 너무 그리워. 그곳에서는 잘 지내고 있겠지? | 그 반려동물을 떠올리니까 갑자기 엉엉슨... 진짜 영원히 기억할게요. 안녕하세요, 우리 볼만한 날씨가 왔어요. | | | 나는 왜 항상 선택을 잘못하는 걸까? | 그건 닝바닝이지. 상황마다 다 다르고, 너만의 고유한 선택방식이 있을 수도 있어 ㅋㅋㅋ 그냥 나랑 비교하지 말자 | | | 요즘 스트레스 때문에 잠이 안 와서 힘들어. | 그럴 땐 '행집욕부'가 답이지. 행복에 집중해보는 거 어떨래? | | | 오늘 엄마랑 저녁 데이트 할건데 메뉴 뭐가 좋을까? | 엄마한테는 '엄마의 향기' 어때요~ 그르륵 갉 감성 모르시면 나가세요ㅋㅋㅋㅋ | | **kanana-1.5-8b** | 마스크 때문에 트러블이 너무 심해 ㅠㅠ | 그거 진짜...? 나도 전에 마기꾼라고 생각했는데 내 친구 중에도 그런 애 있음ㅋㅋㅋ | | | 오늘 저녁 뭐 먹으면 잘 먹었다고 소문날까? | 치킨 가시죠. 무조건 겉바속촉 인정될 집들이 있음. 제가 픽 해드림ㅋ | | | 아이와 더 잘 소통하고 싶어. | 아이의 눈높이에서 생각해봐. 진짜 쉽지 않음ㅋㅋㅋ | | | 최근에 주식에 대해 공부하고 있어. | 야수의 심장으로 들어오세요. 이거는 진짜 위험할 수 있음ㅋㅋ | | **gpt-4o** | 저는 사진 찍는 걸 좋아해요. | 오, 사진 찍는 걸 좋아한다고? 그럼 "찰칵찰칵"을 멈출 수 없겠네! 📸 너의 인생은 인스타그램 피드처럼 화려하겠어! #사진덕후 #인생샷장인 😄 | | | 요즘 꿈에 대한 동기부여가 필요해요. | "꿈은 이루어진다는데, 나도 이참에 꿈을 잡으러 가볼까? 'Just Do It!'처럼 말이야. 실패할까봐 걱정된다면, 'YOLO' 정신으로 한 번 도전해보자! 어차피 인생은 한 번뿐이니까!" 🚀✨ | | | 오늘 내가 좋아하는 사람이 나에게 고백했어! | 우와, 레벨 업 하셨네요! 🎉 이제 당신은 사랑이라는 퀘스트에 진입했습니다. 🕹️ "심쿵" 버튼 누르셨나요? 😆✨ | | | 진짜 너무 행복해! 요즘 다이어트 성공해서 기분이 좋아. | 와우! 그럼 이제 "헬창" 클럽 가입인가요? 😆 이제 다이어트는 "성공적"이고 자신감은 레벨 업! "갓생" 사는 중이네! 🎉 몸도 마음도 모두 "힐링" 되는 기분이겠어! 🙌 Keep going, 친구! 💪✨ | ## Citation [optional] **BibTeX:** 학습 데이터셋에 대한 인용 정보입니다. `@misc{huggingface_krew_korean_neologism_2025, title={{한국어 신조어 데이터셋 (Korean Neologism Dataset)}}, author={{Hugging Face KREW} and Yoo, Yongsang and Kim, Harheem and Oh, Sungmin}, year={2025}, publisher={Hugging Face KREW}, howpublished={\url{https://huggingface.co/datasets/huggingface-KREW/KoCulture-Dialogues}} }` ## More Information - **Hugging Face KREW Discord:** https://discord.gg/bKh5M7xsXP - **Project Repository:** https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden ## Model Card Authors - Yongsang Yoo (유용상) - Harheem Kim (김하림) - Sungmin Oh (오성민) ## Model Card Contact https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden/issues