Update modeling_florence2.py

Browse files

Implement changes from https://huggingface.co/microsoft/Florence-2-large-ft/discussions/38/files

Files changed (1) hide show

modeling_florence2.py +23 -25

modeling_florence2.py CHANGED Viewed

@@ -26,9 +26,10 @@ import torch.utils.checkpoint as checkpoint
 from torch.nn import CrossEntropyLoss
 from collections import OrderedDict
 from einops import rearrange
-from timm.models.layers import DropPath, trunc_normal_
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import (
     ModelOutput,
     add_start_docstrings,
@@ -609,29 +610,10 @@ class DaViT(nn.Module):
         self.avgpool = nn.AdaptiveAvgPool1d(1)
         self.head = nn.Linear(self.embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()
-        self.apply(self._init_weights)
     @property
     def dim_out(self):
         return self.embed_dims[-1]
-    def _init_weights(self, m):
-        if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=0.02)
-            if m.bias is not None:
-                nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.Conv2d):
-            nn.init.normal_(m.weight, std=0.02)
-            for name, _ in m.named_parameters():
-                if name in ['bias']:
-                    nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.LayerNorm):
-            nn.init.constant_(m.weight, 1.0)
-            nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.BatchNorm2d):
-            nn.init.constant_(m.weight, 1.0)
-            nn.init.constant_(m.bias, 0)
     def forward_features_unpool(self, x):
         """
         forward until avg pooling
@@ -1450,7 +1432,18 @@ class Florence2LanguagePreTrainedModel(PreTrainedModel):
             module.weight.data.normal_(mean=0.0, std=std)
             if module.padding_idx is not None:
                 module.weight.data[module.padding_idx].zero_()
     @property
     def dummy_inputs(self):
         pad_token = self.config.pad_token_id
@@ -2059,7 +2052,7 @@ class Florence2LanguageModel(Florence2LanguagePreTrainedModel):
         )
-class Florence2LanguageForConditionalGeneration(Florence2LanguagePreTrainedModel):
     base_model_prefix = "model"
     _tied_weights_keys = ["encoder.embed_tokens.weight", "decoder.embed_tokens.weight", "lm_head.weight"]
     _keys_to_ignore_on_load_missing = ["final_logits_bias"]
@@ -2072,7 +2065,13 @@ class Florence2LanguageForConditionalGeneration(Florence2LanguagePreTrainedModel
         # Initialize weights and apply final processing
         self.post_init()
     def get_encoder(self):
         return self.model.get_encoder()
@@ -2530,6 +2529,7 @@ class Florence2VisionModelWithProjection(Florence2PreTrainedModel):
     FLORENCE2_START_DOCSTRING,
 )
 class Florence2ForConditionalGeneration(Florence2PreTrainedModel):
     _no_split_modules = []
     def __init__(self, config: Florence2Config):
@@ -2546,8 +2546,6 @@ class Florence2ForConditionalGeneration(Florence2PreTrainedModel):
         language_model = Florence2LanguageForConditionalGeneration(config=config.text_config)
-        if language_model._tied_weights_keys is not None:
-            self._tied_weights_keys = [f"language_model.{k}" for k in language_model._tied_weights_keys]
         self.language_model = language_model
         self.pad_token_id = self.config.pad_token_id if self.config.pad_token_id is not None else -1

 from torch.nn import CrossEntropyLoss
 from collections import OrderedDict
 from einops import rearrange
+from timm.layers import DropPath, trunc_normal_
 from transformers.modeling_utils import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
 from transformers.utils import (
     ModelOutput,
     add_start_docstrings,
         self.avgpool = nn.AdaptiveAvgPool1d(1)
         self.head = nn.Linear(self.embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()
     @property
     def dim_out(self):
         return self.embed_dims[-1]
     def forward_features_unpool(self, x):
         """
         forward until avg pooling
             module.weight.data.normal_(mean=0.0, std=std)
             if module.padding_idx is not None:
                 module.weight.data[module.padding_idx].zero_()
+        elif isinstance(module, nn.Conv2d):
+            nn.init.normal_(module.weight, std=0.02)
+            for name, _ in module.named_parameters():
+                if name == "bias":
+                    nn.init.constant_(module.bias, 0)
+        elif isinstance(module, nn.LayerNorm):
+            nn.init.constant_(module.weight, 1.0)
+            nn.init.constant_(module.bias, 0)
+        elif isinstance(module, nn.BatchNorm2d):
+            nn.init.constant_(module.weight, 1.0)
+            nn.init.constant_(module.bias, 0)
     @property
     def dummy_inputs(self):
         pad_token = self.config.pad_token_id
         )
+class Florence2LanguageForConditionalGeneration(Florence2LanguagePreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
     _tied_weights_keys = ["encoder.embed_tokens.weight", "decoder.embed_tokens.weight", "lm_head.weight"]
     _keys_to_ignore_on_load_missing = ["final_logits_bias"]
         # Initialize weights and apply final processing
         self.post_init()
+    def _tie_weights(self):
+        if self.config.tie_word_embeddings:
+            self._tie_or_clone_weights(self.model.encoder.embed_tokens, self.model.shared)
+            self._tie_or_clone_weights(self.model.decoder.embed_tokens, self.model.shared)
+            self._tie_or_clone_weights(self.lm_head, self.model.shared)
     def get_encoder(self):
         return self.model.get_encoder()
     FLORENCE2_START_DOCSTRING,
 )
 class Florence2ForConditionalGeneration(Florence2PreTrainedModel):
+    _tied_weights_keys = ["language_model.encoder.embed_tokens.weight", "language_model.decoder.embed_tokens.weight", "language_model.lm_head.weight"]
     _no_split_modules = []
     def __init__(self, config: Florence2Config):
         language_model = Florence2LanguageForConditionalGeneration(config=config.text_config)
         self.language_model = language_model
         self.pad_token_id = self.config.pad_token_id if self.config.pad_token_id is not None else -1