Wav2Vec2 Portuguese - Checkpoint 480

Modelo Wav2Vec2 fine-tuned para reconhecimento de fala em português brasileiro.

Este modelo foi convertido do checkpoint-480 durante o treinamento.

🎯 Uso

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import torchaudio

# Carregar modelo e processador
processor = Wav2Vec2Processor.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")
model = Wav2Vec2ForCTC.from_pretrained("danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480")

# Carregar áudio (16kHz, mono)
speech_array, sampling_rate = torchaudio.load("audio.wav")

# Reamostrar se necessário
if sampling_rate != 16000:
    resampler = torchaudio.transforms.Resample(sampling_rate, 16000)
    speech_array = resampler(speech_array)

# Pré-processar
input_values = processor(speech_array.squeeze(), sampling_rate=16000, return_tensors="pt").input_values

# Inferência
with torch.no_grad():
    logits = model(input_values).logits

# Decodificar
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]

print(transcription)

📋 Requisitos

  • Formato: WAV
  • Taxa de amostragem: 16kHz
  • Canais: Mono

🔧 Detalhes Técnicos

  • Modelo base: wav2vec2-large-xlsr-53-portuguese
  • Checkpoint: checkpoint-480
  • Arquitetura: Wav2Vec2ForCTC
  • Linguagem: Português Brasileiro

📊 Treinamento

  • Framework: 🤗 Transformers
  • Técnica: CTC
  • Precisão: FP16
  • Data: 2025-06-24

📜 Licença

Apache 2.0

Downloads last month
6
Safetensors
Model size
315M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support