npvinHnivqn
/

stablelm_zephyr_3b_with_cross_attn

Text Generation

Model card Files Files and versions

npvinHnivqn commited on Jan 31, 2024

Commit

f209d0d

·

1 Parent(s): 01d9133

update bug

Files changed (1) hide show

modeling_stablelm_epoch.py +2 -2

modeling_stablelm_epoch.py CHANGED Viewed

@@ -535,7 +535,7 @@ class DecoderLayer(nn.Module):
         bsz, q_len, _ = hidden_states.size()
         _, kv_len, _ = cross_states.size()
-        cross_attn_mask = torch.ones((bsz, 1, kv_len, q_len), device=hidden_states.device)
         hidden_states, cross_attn_weights, _ = self.cross_attn(
             hidden_states=hidden_states,
             cross_states=cross_states,
@@ -545,7 +545,7 @@ class DecoderLayer(nn.Module):
             output_attentions=output_attentions,
             use_cache=use_cache,
         )
-        hidden_states = residual + hidden_states
         # Fully Connected
         residual = hidden_states

         bsz, q_len, _ = hidden_states.size()
         _, kv_len, _ = cross_states.size()
+        cross_attn_mask = torch.zeros((bsz, 1, kv_len, q_len), device=hidden_states.device)
         hidden_states, cross_attn_weights, _ = self.cross_attn(
             hidden_states=hidden_states,
             cross_states=cross_states,
             output_attentions=output_attentions,
             use_cache=use_cache,
         )
+        hidden_states = residual# + hidden_states
         # Fully Connected
         residual = hidden_states