radna
/

mini_intern_chat_triton

Visual Question Answering

feature-extraction

Model card Files Files and versions

radna commited on Jun 29, 2024

Commit

01488b9

·

verified ·

1 Parent(s): 05b2c8b

Update modeling_internvl_chat.py

Files changed (1) hide show

modeling_internvl_chat.py +3 -3

modeling_internvl_chat.py CHANGED Viewed

@@ -124,7 +124,7 @@ class InternVLChatModel(PreTrainedModel):
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         image_flags = image_flags.squeeze(-1)
-        input_embeds = self.language_model.get_input_embeddings()(input_ids)
         vit_embeds = self.extract_feature(pixel_values)
         vit_embeds = vit_embeds[image_flags == 1]
@@ -334,7 +334,7 @@ class InternVLChatModel(PreTrainedModel):
                 vit_embeds = visual_features
             else:
                 vit_embeds = self.extract_feature(pixel_values)
-            input_embeds = self.language_model.get_input_embeddings()(input_ids)
             B, N, C = input_embeds.shape
             input_embeds = input_embeds.reshape(B * N, C)
@@ -345,7 +345,7 @@ class InternVLChatModel(PreTrainedModel):
             input_embeds = input_embeds.reshape(B, N, C)
         else:
-            input_embeds = self.language_model.get_input_embeddings()(input_ids)
         outputs = self.language_model.generate(
             inputs_embeds=input_embeds,

         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         image_flags = image_flags.squeeze(-1)
+        input_embeds = self.language_model.module.get_input_embeddings()(input_ids)
         vit_embeds = self.extract_feature(pixel_values)
         vit_embeds = vit_embeds[image_flags == 1]
                 vit_embeds = visual_features
             else:
                 vit_embeds = self.extract_feature(pixel_values)
+            input_embeds = self.language_model.module.get_input_embeddings()(input_ids)
             B, N, C = input_embeds.shape
             input_embeds = input_embeds.reshape(B * N, C)
             input_embeds = input_embeds.reshape(B, N, C)
         else:
+            input_embeds = self.language_model.module.get_input_embeddings()(input_ids)
         outputs = self.language_model.generate(
             inputs_embeds=input_embeds,