Crystalcareai
/

GemMoE-Beta-1

Text Generation

Transformers

gemmoe

custom_code

Model card Files Files and versions Community

Crystalcareai commited on Mar 20, 2024

Commit

f846650

verified ·

1 Parent(s): 082cf66

Update modeling_gemmoe.py

Browse files

Files changed (1) hide show

modeling_gemmoe.py +4 -4

modeling_gemmoe.py CHANGED Viewed

@@ -705,8 +705,10 @@ class GemmoeDecoderLayer(nn.Module):
         output_attentions: Optional[bool] = False,
         output_router_logits: Optional[bool] = False,
         use_cache: Optional[bool] = False,
         **kwargs,
     ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
         if "padding_mask" in kwargs:
             warnings.warn(
                 "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
@@ -944,7 +946,6 @@ class GemmoeModel(GemmoePreTrainedModel):
         self.embed_tokens = value
     @add_start_docstrings_to_model_forward(GEMMOE_INPUTS_DOCSTRING)
-    # Ignore copy
     def forward(
         self,
         input_ids: torch.LongTensor = None,
@@ -1215,9 +1216,8 @@ class GemmoeForCausalLM(GemmoePreTrainedModel):
         ```python
         >>> from transformers import AutoTokenizer, GemmoeForCausalLM
-        >>> model = GemmoeForCausalLM.from_pretrained("google/GEMMA-7b")
         >>> tokenizer = AutoTokenizer.from_pretrained("google/GEMMA-7b")
         >>> prompt = "What is your favorite condiment?"
         >>> inputs = tokenizer(prompt, return_tensors="pt")
@@ -1382,7 +1382,6 @@ class GemmoeForCausalLM(GemmoePreTrainedModel):
             )
         return reordered_past
 @add_start_docstrings(
     """
     The Gemmoe Model transformer with a sequence classification head on top (linear layer).
@@ -1447,6 +1446,7 @@ class GemmoeForSequenceClassification(GemmoePreTrainedModel):
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
         )
         hidden_states = transformer_outputs[0]
         logits = self.score(hidden_states)

         output_attentions: Optional[bool] = False,
         output_router_logits: Optional[bool] = False,
         use_cache: Optional[bool] = False,
+        cache_position: Optional[torch.LongTensor] = None,
         **kwargs,
     ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        # ... (rest of the code remains the same)
         if "padding_mask" in kwargs:
             warnings.warn(
                 "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
         self.embed_tokens = value
     @add_start_docstrings_to_model_forward(GEMMOE_INPUTS_DOCSTRING)
     def forward(
         self,
         input_ids: torch.LongTensor = None,
         ```python
         >>> from transformers import AutoTokenizer, GemmoeForCausalLM
+        >>> model= GemmoeForCausalLM.from_pretrained("google/GEMMA-7b")
         >>> tokenizer = AutoTokenizer.from_pretrained("google/GEMMA-7b")
         >>> prompt = "What is your favorite condiment?"
         >>> inputs = tokenizer(prompt, return_tensors="pt")
             )
         return reordered_past
 @add_start_docstrings(
     """
     The Gemmoe Model transformer with a sequence classification head on top (linear layer).
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
+            cache_position=None,
         )
         hidden_states = transformer_outputs[0]
         logits = self.score(hidden_states)