openbmb
/

MiniCPM-2B-sft-bf16

Text Generation

Model card Files Files and versions

hyx21 commited on Feb 3, 2024

Commit

fe1d740

·

verified ·

1 Parent(s): 9784ec7

Upload 2 files

Files changed (2) hide show

configuration_minicpm.py +5 -0
modeling_minicpm.py +4 -4

configuration_minicpm.py CHANGED Viewed

@@ -174,6 +174,11 @@ class MiniCPMConfig(PretrainedConfig):
             tie_word_embeddings=tie_word_embeddings,
             **kwargs,
         )
     def _rope_scaling_validation(self):
         """

             tie_word_embeddings=tie_word_embeddings,
             **kwargs,
         )
+        try:
+            import flash_attn
+            self._attn_implementation = "flash_attention_2"
+        except:
+            pass
     def _rope_scaling_validation(self):
         """

modeling_minicpm.py CHANGED Viewed

@@ -51,10 +51,11 @@ from transformers.utils.import_utils import is_torch_fx_available
 from .configuration_minicpm import MiniCPMConfig
 import re
-if is_flash_attn_2_available():
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.
@@ -125,7 +126,7 @@ ALL_LAYERNORM_LAYERS.append(MiniCPMRMSNorm)
 class MiniCPMRotaryEmbedding(nn.Module):
-    def __init__(self, dim, max_position_embeddings=2048, base=10000, device="cuda"):
         super().__init__()
         self.dim = dim
@@ -763,7 +764,6 @@ class MiniCPMDecoderLayer(nn.Module):
     def __init__(self, config: MiniCPMConfig, layer_idx: int):
         super().__init__()
         self.hidden_size = config.hidden_size
         self.self_attn = MINICPM_ATTENTION_CLASSES[config._attn_implementation](config=config, layer_idx=layer_idx)
         self.mlp = MiniCPMMLP(config)

 from .configuration_minicpm import MiniCPMConfig
 import re
+try:
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+except:
+    pass
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.
 class MiniCPMRotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
         super().__init__()
         self.dim = dim
     def __init__(self, config: MiniCPMConfig, layer_idx: int):
         super().__init__()
         self.hidden_size = config.hidden_size
         self.self_attn = MINICPM_ATTENTION_CLASSES[config._attn_implementation](config=config, layer_idx=layer_idx)
         self.mlp = MiniCPMMLP(config)