Incorrect timestamps
Hi all!! Thanks a lot for your amazing work.
I am facing an issue when trying to extract timestamps with this model. Here is a snippet from my code:
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq, pipeline
import torch
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "Alvenir/coral-1-whisper-large"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
torch_dtype=torch_dtype,
device=device,
)
result = pipe(file_name, return_timestamps= True)
print(result)
print(result["text"])
Here is a sample output from a publicly available short audio clip:
"{'text': ' til nato samlede østblokken sig i warszawapagten i over 40 år holdt øst og vest hinanden skabt med de to supermagter som hovedaktører dermed undgik man konkret konfrontation og krigen blev derfor kaldt den kolde krig på baggrund af en fælles ydre fjende havde den vestlige verden med nato dannet fælles front den europæiske union havde været længe undervejs i 50erne som en ide om europas forenede stater der kunne matche usa og sovjet som supermagter da 63 procent af danskerne i 1972 stemte ja til medlemskabet af det daværende ef var det et ja til et økonomisk og handelsmæssigt fællesskab med det øvrige vesteuropa', 'chunks': [{'timestamp': (0.0, 0.94), 'text': ' til nato samlede østblokken sig i warszawapagten i over 40 år holdt øst og vest hinanden skabt med de to supermagter som hovedaktører dermed undgik man konkret konfrontation og krigen blev derfor kaldt den kolde krig på baggrund af en fælles ydre fjende havde den vestlige verden med nato dannet fælles front den europæiske union havde været længe undervejs i 50erne som en ide om europas forenede stater der kunne matche usa og sovjet som supermagter'}, {'timestamp': (None, None), 'text': ' da 63 procent af danskerne i 1972 stemte ja til medlemskabet af det daværende ef var det et ja til et økonomisk og handelsmæssigt fællesskab med det øvrige vesteuropa'}]}"
I have tried also with return_timestamps= "word" but the timestamps were not correct.
Could you please help me with this issue?
Hi there!
Thank you for using the CoRal-project/roest-whisper-large-v1 model. It seems the issue you're encountering with timestamp extraction likely stems from how the model was fine-tuned. Unfortunately, the CoRal training data used for fine tuning does not include timestamps, so the model might not predict them accurately during inference.
Best regards,
Marie, Alvenir