Spaces:
Paused
(데이터 + 평가) 이 모델이 실제로 작동합니까? (Data + Evaluation) Does this Model Actually Work ?
이 모델이 실제로 작동하는지 어떻게 알 수 있습니까? 우리는 평가 데이터 세트 또는 벤치마크가 필요합니다. 실제로 벤치 마크와 테스트를 실행하고 미스트랄 메드 모델과 함께 리더 보드에 가입하십시오. 어떤 도움도 : 새롭거나 기존 벤처 마크 + 노트북을 실행하려면 흥미로울 것입니다. 데이터 세트는 해커톤에 중요합니다.
How do we know actually if this model works ?
We need an evaluation dataset or benchmark actually then actually run the benchmarks and testing + join the leaderboard with the MistralMed model.
Any help : new or existing benchmarks + a notebook to run it , it would be interesting i think !
- the dataset is important for the hackathon so...
Expanding on the Twitter reply, Med-PaLM2 will be an interesting guide.
Here are some datasets I found that are on Hugging Face:
Other useful links:
huggingface.co/blog/acrastt/dataset-creation에서 멋진 기사입니다. 데이터 세트를 만드는 방법, 불행히도 저는 krew23에 직접 참석할 수 없습니다. 그래서 이런 식으로 온라인으로 배워야 합니다. ^^
so nice article from hugging face : https://huggingface.co/blog/acrastt/dataset-creation
how to create datasets, unfortunately i cannot attend krew23 in person , so i have to learn online with you like this ^^
@wseo : check it out, very tidy piece i can maybe use for this purpose here ? https://github.com/claws-lab/XLingEval