Datasets utilizados para o treino

#16
by RodrigoLimaRFL - opened

Bom dia, gostaria de saber quais foram os datasets utilizados para o treino desse checkpoint.

No dataset linkado na página desse checkpoint aqui no HuggingFace, é dito que é um dataset derivado do CommonVoice 20.0. Entretanto, aqui é dito que é um dataset formado por CommonVoice + Facebook.

Assim, queria saber quais datasets foram utilizados, suas versões, e quantidade de áudios e horas, pois desejo replicar o experimento.

Sign up or log in to comment