Datasets utilizados para o treino
#16
by
RodrigoLimaRFL
- opened
Bom dia, gostaria de saber quais foram os datasets utilizados para o treino desse checkpoint.
No dataset linkado na página desse checkpoint aqui no HuggingFace, é dito que é um dataset derivado do CommonVoice 20.0. Entretanto, aqui é dito que é um dataset formado por CommonVoice + Facebook.
Assim, queria saber quais datasets foram utilizados, suas versões, e quantidade de áudios e horas, pois desejo replicar o experimento.