Motif-Technologies
/

Motif-2.6B

Text Generation

text-generation-inference

Model card Files Files and versions

leejunhyeok commited on 22 days ago

Commit

097873e

·

verified ·

1 Parent(s): 8bdf2ec

Update modeling_motif.py

Files changed (1) hide show

modeling_motif.py +2 -2

modeling_motif.py CHANGED Viewed

@@ -493,7 +493,7 @@ class MotifFlashAttention2(MotifAttention):
     def _compute_attention(self, query_states, key_states, value_states, attention_mask, q_len, position_ids,
                            dropout_rate, sliding_window):
         """Flash Attention 2 implements"""
         scale_factor = 1.0 / math.sqrt(self.head_dim)
         if not self._flash_attn_uses_top_left_mask:
             causal = self.is_causal
@@ -511,7 +511,7 @@ class MotifFlashAttention2(MotifAttention):
                                             is_causal=True,
                                             softmax_scale=scale_factor,
                                             use_top_left_mask=self._flash_attn_uses_top_left_mask)
-        return attn_out.float()
     def forward(
             self,

     def _compute_attention(self, query_states, key_states, value_states, attention_mask, q_len, position_ids,
                            dropout_rate, sliding_window):
         """Flash Attention 2 implements"""
+        _input_type = query_states.dtype
         scale_factor = 1.0 / math.sqrt(self.head_dim)
         if not self._flash_attn_uses_top_left_mask:
             causal = self.is_causal
                                             is_causal=True,
                                             softmax_scale=scale_factor,
                                             use_top_left_mask=self._flash_attn_uses_top_left_mask)
+        return attn_out.to(_input_type)
     def forward(
             self,