cahya
/

whisper-large-audio-captioning-v1.0

Model card Files Files and versions Community

Whisper large audio captioning

This model is a finetuned whisper-large-v2 model with 1M audio samples from the dataset mitermix/audiosnippets

Downloads last month: 3

Safetensors

Model size

1.54B params

Tensor type

F32

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including cahya/whisper-large-audio-captioning-v1.0

Whisper Emotion Captioning

Fine-tuned Whisper models for Emotion Captioning • 13 items • Updated Mar 12