tiantiaf
/

whisper-large-v3-speech-flow

Audio Classification

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions Community

tiantiaf commited on May 23

Commit

ccc402e

·

verified ·

1 Parent(s): 702ebe7

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ pip install -e .
 ```
 ## Load the model
-```
 # Load libraries
 import torch
 import torch.nn.functional as F
@@ -60,7 +60,7 @@ model.eval()
 ```
 ## Prediction
-```
 audio_data = torch.zeros([1, 16000*10]).float().to(device)
 audio_segment = (audio_data.shape[1] - 3*16000) // 16000 + 1
 if audio_segment < 1: audio_segment = 1
@@ -73,7 +73,7 @@ input_audio = torch.stack(input_audio, dim=0)
 input_audio_length = torch.stack(input_audio_length, dim=0)
 ```
 ## Prediction
-```
 fluency_outputs, disfluency_type_outputs = model(input_audio, length=input_audio_length)
 fluency_prob   = F.softmax(fluency_outputs, dim=1).detach().cpu().numpy().astype(float).tolist()
@@ -83,8 +83,8 @@ disfluency_type_predictions = (disfluency_type_prob > 0.7).int().detach().cpu().
 disfluency_type_prob = disfluency_type_prob.cpu().numpy().astype(float).tolist()
 ```
-## Now lets gather the predictions for the utterance
-```
 utterance_fluency_list = list()
 utterance_disfluency_list = list()
 for audio_idx in range(audio_segment):

 ```
 ## Load the model
+```python
 # Load libraries
 import torch
 import torch.nn.functional as F
 ```
 ## Prediction
+```python
 audio_data = torch.zeros([1, 16000*10]).float().to(device)
 audio_segment = (audio_data.shape[1] - 3*16000) // 16000 + 1
 if audio_segment < 1: audio_segment = 1
 input_audio_length = torch.stack(input_audio_length, dim=0)
 ```
 ## Prediction
+```python
 fluency_outputs, disfluency_type_outputs = model(input_audio, length=input_audio_length)
 fluency_prob   = F.softmax(fluency_outputs, dim=1).detach().cpu().numpy().astype(float).tolist()
 disfluency_type_prob = disfluency_type_prob.cpu().numpy().astype(float).tolist()
 ```
+## Now let's gather the predictions for the utterance
+```python
 utterance_fluency_list = list()
 utterance_disfluency_list = list()
 for audio_idx in range(audio_segment):