jinaai
/

xlm-roberta-flash-implementation

jupyterjazz commited on Aug 26, 2024

Commit

dc4080e

verified ·

1 Parent(s): 169b7fb

fix: override use_flash_attn in lora

Files changed (1) hide show

modeling_lora.py CHANGED Viewed

@@ -322,12 +322,9 @@ class XLMRobertaLoRA(XLMRobertaPreTrainedModel):
         use_safetensors: bool = None,
         **kwargs,
     ):
-        config = XLMRobertaFlashConfig.from_pretrained(
-            pretrained_model_name_or_path, *model_args, **kwargs
-        )
         if config.load_trained_adapters: # checkpoint already contains LoRA adapters
             return super().from_pretrained(
-                pretrained_model_name_or_path, *model_args, **kwargs
             )
         else: # initializing new adapters
             roberta = XLMRobertaModel.from_pretrained(

         use_safetensors: bool = None,
         **kwargs,
     ):
         if config.load_trained_adapters: # checkpoint already contains LoRA adapters
             return super().from_pretrained(
+                pretrained_model_name_or_path, *model_args, use_flash_attn=config.use_flash_attn, **kwargs
             )
         else: # initializing new adapters
             roberta = XLMRobertaModel.from_pretrained(