junnei
/

gemma-3-4b-it-speech

Automatic Speech Recognition

feature-extraction

Model card Files Files and versions Community

Update modeling_gemma3mm.py

#3

by urroxyz - opened 7 days ago

base: refs/heads/main

←

from: refs/pr/3

Discussion Files changed

Files changed (1) hide show

modeling_gemma3mm.py +7 -6

modeling_gemma3mm.py CHANGED Viewed

@@ -491,12 +491,13 @@ class Gemma3MMForConditionalGeneration(Gemma3MMPreTrainedModel, GenerationMixin)
             if not is_torchdynamo_compiling() and inputs_embeds[special_audio_mask].numel() != masked_audio_features.numel():
                 audio_tokens_in_text = (special_audio_mask).sum(dim=1).sum(dim=0)[0]
-                masked_audio_size = audio_embed_sizes.sum()[0]
-                raise ValueError(
-                    f"Number of images does not match number of special image tokens in the input text. "
-                    f"Got {audio_tokens_in_text} image tokens in the text but {masked_audio_size} "
-                    "tokens from image embeddings."
-                )
             masked_audio_features = masked_audio_features.to(inputs_embeds.device, inputs_embeds.dtype)
             inputs_embeds = inputs_embeds.masked_scatter(special_audio_mask, masked_audio_features)

             if not is_torchdynamo_compiling() and inputs_embeds[special_audio_mask].numel() != masked_audio_features.numel():
                 audio_tokens_in_text = (special_audio_mask).sum(dim=1).sum(dim=0)[0]
+                masked_audio_size = audio_embed_sizes.sum()
+                #raise ValueError(
+                #    f"Number of images does not match number of special image tokens in the input text. "
+                #    f"Got {audio_tokens_in_text} image tokens in the text but {masked_audio_size} "
+                #    "tokens from image embeddings."
+                #)
+                pass
             masked_audio_features = masked_audio_features.to(inputs_embeds.device, inputs_embeds.dtype)
             inputs_embeds = inputs_embeds.masked_scatter(special_audio_mask, masked_audio_features)