nlpai-lab/KURE-v1 · 학습 데이터셋 구성 질문

deleted

안녕하세요. 좋은 모델 공유해주셔서 감사합니다.

혹시 KURE-v1 학습 데이터셋 구성에 대해 자세히 알 수 있을까요?

감사합니다.

NLP & AI - Korea University org 8 days ago

안녕하세요. KURE-v1 학습 데이터 구성 시에는 KoE5 논문 (https://drive.google.com/file/d/1wB02XGFH5v18iJYSYB0oJkWFYxH0ftoJ/view?usp=sharing) 에서 밝힌 AIHUB, KorQuAD, Exobrain, KLUE, KoBEST, NIKL (KommonGen은 제외했습니다) 로부터 가져온 query-positive를 모두 사용하였습니다.
이전에 해당 데이터셋을 나름대로 필터링하고, 하드 네거티브 마이닝하여 만든 데이터셋을 올린 적이 있었는데요 (https://huggingface.co/datasets/nlpai-lab/ko-triplet-v1.0), 이번에는 필터링하지 않고 모든 query-positive 쌍을 활용했습니다. 더불어 lcw99/wikipedia-korean-20240501-1million-qna, maywell/ko_wikidata_QA 등의 데이터 또한 모두 query-positive 형태로 포함시켰습니다.

이렇게 query-positive을 모은 후, 한 query에 대해 hard negative를 5개씩 뽑아 학습하였습니다 !

deleted

8 days ago

자세한 설명 감사합니다!

deleted changed discussion status to closed 8 days ago