Wav2Vec2 Portuguese - Checkpoint 480

Modelo Wav2Vec2 fine-tuned para reconhecimento de fala em português brasileiro.

Este modelo foi convertido do checkpoint-480 durante o treinamento.

🎯 Uso

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import torchaudio

# Carregar modelo e processador
processor = Wav2Vec2Processor.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")
model = Wav2Vec2ForCTC.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")

# Carregar áudio (16kHz, mono)
speech_array, sampling_rate = torchaudio.load("audio.wav")

# Reamostrar se necessário
if sampling_rate != 16000:
    resampler = torchaudio.transforms.Resample(sampling_rate, 16000)
    speech_array = resampler(speech_array)

# Pré-processar
input_values = processor(speech_array.squeeze(), sampling_rate=16000, return_tensors="pt").input_values

# Inferência
with torch.no_grad():
    logits = model(input_values).logits

# Decodificar
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]

print(transcription)

📋 Requisitos

Formato: WAV
Taxa de amostragem: 16kHz
Canais: Mono

🔧 Detalhes Técnicos

Modelo base: wav2vec2-large-xlsr-53-portuguese
Checkpoint: checkpoint-480
Arquitetura: Wav2Vec2ForCTC
Linguagem: Português Brasileiro

📊 Treinamento

Framework: 🤗 Transformers
Técnica: CTC
Precisão: FP16
Data: 2025-06-24

📜 Licença

Apache 2.0