Dia1.6-pt_BR-v1 / README.md
Alissonerdx's picture
Update README.md
4cfc486 verified
---
license: apache-2.0
language:
- pt
base_model: nari-labs/Dia-1.6B
pipeline_tag: text-to-audio
tags:
- tts
- portuguese
- dia
- nari dia
- audio
- t2speech
- speech
- br
- finetuned
- speech-synthesis
- rtx-4090
- cetuc
datasets:
- CETUC
metrics:
- cer
- wer
library_name: custom
---
# Dia1.6-Portuguese
This is a fine-tuned version of the [Dia 1.6B](https://huggingface.co/nari-labs/Dia-1.6B) text-to-audio model, adapted for Brazilian Portuguese using the [CETUC](https://igormq.github.io/datasets/) speech dataset.
---
## 🗣️ About the Model
- 🧠 **Base Model**: Dia 1.6B
- 📦 **Dataset**: CETUC — 144 hours of Brazilian Portuguese speech (100 speakers)
- 📝 **Transcription**: Performed using **Whisper V3 Turbo** + **Pyannote diarization**
- 🔁 **Training**: 140,000 steps (~1.4 epochs) on a single speaker subset
- ⏱️ **Hardware**: Trained on a single NVIDIA RTX 4090 (≈ 20 hours total)
- 🎙️ **Speaker Token**: `[S1]` (only one speaker present)
- ⚠️ **Note**: This model has **lost the original English and expressive capabilities** (e.g., laughter, emotions) and focuses exclusively on clean Brazilian Portuguese speech synthesis.
- 📺 **More Info**: [Video in Portuguese about the fine-tuning process](https://youtu.be/7hNS90cSq1s?t=2118)
---
## 🧪 Versions
| Version | Description | File |
|---------|-------------|------|
| `v1` | Fully fine-tuned on Portuguese | `Dia1.6-Portuguese-v1.pth` |
| `v1-safetensors` | Same model as above in `.safetensors` format | `Dia1.6-Portuguese-v1.safetensors` |
| `v1-merged-alpha0.6` | Merged with original Dia weights using `alpha = 0.6` | `Dia1.6-Portuguese-v1-merged.pth` |
| `v1-merged-alpha0.6-safetensors` | Merged version in `.safetensors` format | `Dia1.6-Portuguese-v1-merged.safetensors` |
---
## 📁 Files
- `config.json`: Dia model configuration
- `Dia1.6-Portuguese-v1.pth`: Full fine-tuned model
- `Dia1.6-Portuguese-v1.safetensors`: Same as above, but in safetensors format
- `Dia1.6-Portuguese-v1-merged.pth`: Merged version (alpha=0.6)
- `Dia1.6-Portuguese-v1-merged.safetensors`: Merged version in safetensors format
---
## ▶️ Audio Samples
| Prompt | Audio Samples |
|--------|---------------|
| **Ex. 1**<br>`[S1] Às vezes, tudo o que você precisa é respirar fundo e lembrar que nem tudo precisa ser resolvido hoje. A calma também é uma forma de seguir em frente.` | 🎧 **Original** (Failed to generate)<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_1.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_1.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_1.flac"></audio> |
| **Ex. 2**<br>`[S1] Eu lembro exatamente da primeira vez que ouvi minha própria voz gerada por IA. Foi estranho, quase surreal. Mas ao mesmo tempo, foi incrível perceber até onde a tecnologia já chegou.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_2.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_2.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_2.mp3"></audio> |
| **Ex. 3**<br>`[S1] Era uma vez um menino chamado Leo que adorava olhar para o céu. Todas as noites ele subia no telhado de casa com seu velho binóculo e ficava horas tentando contar as estrelas. Um dia, ele viu algo diferente. Não era um avião, nem um satélite. Era uma luz que piscava lentamente, mudando de cor. No dia seguinte, ninguém acreditou nele. Mas Leo sabia o que tinha visto. E naquela noite, a luz voltou. Só que dessa vez, ela piscou duas vezes... como se estivesse respondendo.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_3.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_3.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_3.mp3"></audio> |
| **Ex. 4**<br>`[S1] Cara, sério... esse setup ficou simplesmente insane. Nunca vi uma configuração tão limpa!` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_4.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_4_.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merge_4.mp3"></audio> |
| **Ex. 5**<br>`[S1] Aproveite agora a promoção especial da semana. São até cinquenta por cento de desconto em produtos selecionados, por tempo limitado. Corra e garanta o seu antes que acabe.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_5.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_5_.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_5.mp3"></audio> |
| **Ex. 6**<br>`[S1] Se você ainda não testou esse modelo, tá perdendo tempo. (laughs) Ele é rápido, leve e roda até em máquina fraca. Sério, eu não esperava tanto desempenho em algo open source.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_6.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_6.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_6.mp3"></audio> |
| **Ex. 7**<br>`[S1] Acredite: ninguém no mundo tem exatamente o que você tem. Sua visão, sua voz, sua forma de enxergar as coisas. Isso já é suficiente pra começar.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_7.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_7.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_7.mp3"></audio> |
| **Ex. 8**<br>`[S1] Você diz que quer mudar, mas continua fazendo tudo igual. Quer resultado novo com atitude velha? Não funciona. O mundo não vai parar pra te esperar, e a oportunidade não fica batendo na porta pra sempre. Ou você levanta agora e faz o que precisa, ou aceita viver sempre no quase.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_8.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_8.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_8.mp3"></audio> |
| **Ex. 9**<br>`[S1] Você vai desistir agora? Depois de tudo que já passou?`<br>`[S2] (sighs) Eu tô cansado. Nada parece dar certo.`<br>`[S1] Cansado todo mundo fica. Mas você não chegou até aqui por sorte.`<br>`[S2] (pause) Eu só... não sei se ainda consigo.`<br>`[S1] Consegue sim. Você já levantou antes. (inhales) Levanta de novo.`<br>`[S2] (exhales) Tá certo. Não acabou enquanto eu não disser que acabou.`<br>`[S1] Isso. Agora vai lá e faz o que tem que ser feito.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_9.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_9.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_9.mp3"></audio> |
| **Ex. 10**<br>`[S1] Welcome back to the channel! Today, I’m going to show you how to turn basic text into realistic speech using open-source tools. It’s easier than you think, and by the end of this video, you’ll be able to generate your own voiceovers like a pro.` | 🎧 **Original**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/original_10.mp3"></audio><br>🇧🇷 **PT Only**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_full_10.mp3"></audio><br>🔀 **Merged 0.6**<br><audio controls src="https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1/resolve/main/samples/pt_merged_10.mp3"></audio> |
---
## 🏷️ Tags
`tts`, `portuguese`, `finetuned`, `text-to-audio`, `CETUC`, `Dia`, `speech-synthesis`, `huggingface`, `audio-generation`
---
## 📜 License
Apache 2.0 — same as the original [Dia](https://huggingface.co/nari-labs/Dia-1.6B) model.
---
## 🙏 Acknowledgements
- Original model by [nari-labs](https://huggingface.co/nari-labs)
- Brazilian Portuguese dataset from **CETUC**
- Transcription with **Whisper V3 Turbo** and **Pyannote**
- Fine-tuning scripts by [stlohrey/dia-finetuning](https://github.com/stlohrey/dia-finetuning)
- Custom training scripts, dataset preparation, and model adaptation by [alisson-anjos](https://github.com/alisson-anjos/dia-finetuning)