학습 데이터셋 구성 질문
#3
by
deleted
- opened
안녕하세요. KURE-v1 학습 데이터 구성 시에는 KoE5 논문 (https://drive.google.com/file/d/1wB02XGFH5v18iJYSYB0oJkWFYxH0ftoJ/view?usp=sharing) 에서 밝힌 AIHUB, KorQuAD, Exobrain, KLUE, KoBEST, NIKL (KommonGen은 제외했습니다) 로부터 가져온 query-positive를 모두 사용하였습니다.
이전에 해당 데이터셋을 나름대로 필터링하고, 하드 네거티브 마이닝하여 만든 데이터셋을 올린 적이 있었는데요 (https://huggingface.co/datasets/nlpai-lab/ko-triplet-v1.0), 이번에는 필터링하지 않고 모든 query-positive 쌍을 활용했습니다. 더불어 lcw99/wikipedia-korean-20240501-1million-qna, maywell/ko_wikidata_QA 등의 데이터 또한 모두 query-positive 형태로 포함시켰습니다.
이렇게 query-positive을 모은 후, 한 query에 대해 hard negative를 5개씩 뽑아 학습하였습니다 !
deleted
changed discussion status to
closed