ntua-slp
/

CultureMERT-TA-95M

Audio Classification

feature-extraction

Model card Files Files and versions

akanatas commited on 26 days ago

Commit

3d1bab9

·

verified ·

1 Parent(s): 340f8a5

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -100,7 +100,7 @@ with torch.no_grad():
 # Representations: 13 layers (CNN feature extractor + 12 Transformer)
 # NOTE: each layer performs differently in different downstream tasks - you should choose empirically
 all_layer_hidden_states = torch.stack(outputs.hidden_states).squeeze()
-print(all_layer_hidden_states.shape) # [13 layer, Time steps, 768 feature_dim]
 # For utterance-level classification tasks, you can simply reduce the representation in time
 time_reduced_hidden_states = all_layer_hidden_states.mean(-2)

 # Representations: 13 layers (CNN feature extractor + 12 Transformer)
 # NOTE: each layer performs differently in different downstream tasks - you should choose empirically
 all_layer_hidden_states = torch.stack(outputs.hidden_states).squeeze()
+print(all_layer_hidden_states.shape) # [13 layers, Time steps, 768 feature_dim]
 # For utterance-level classification tasks, you can simply reduce the representation in time
 time_reduced_hidden_states = all_layer_hidden_states.mean(-2)