Wav2Vec2 Portuguese - Checkpoint 480
Modelo Wav2Vec2 fine-tuned para reconhecimento de fala em português brasileiro.
Este modelo foi convertido do checkpoint-480 durante o treinamento.
🎯 Uso
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import torchaudio
# Carregar modelo e processador
processor = Wav2Vec2Processor.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")
model = Wav2Vec2ForCTC.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")
# Carregar áudio (16kHz, mono)
speech_array, sampling_rate = torchaudio.load("audio.wav")
# Reamostrar se necessário
if sampling_rate != 16000:
resampler = torchaudio.transforms.Resample(sampling_rate, 16000)
speech_array = resampler(speech_array)
# Pré-processar
input_values = processor(speech_array.squeeze(), sampling_rate=16000, return_tensors="pt").input_values
# Inferência
with torch.no_grad():
logits = model(input_values).logits
# Decodificar
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]
print(transcription)
📋 Requisitos
- Formato: WAV
- Taxa de amostragem: 16kHz
- Canais: Mono
🔧 Detalhes Técnicos
- Modelo base: wav2vec2-large-xlsr-53-portuguese
- Checkpoint: checkpoint-480
- Arquitetura: Wav2Vec2ForCTC
- Linguagem: Português Brasileiro
📊 Treinamento
- Framework: 🤗 Transformers
- Técnica: CTC
- Precisão: FP16
- Data: 2025-06-24
📜 Licença
Apache 2.0
- Downloads last month
- 6
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support