229nagibator229
/

vit_large_patch14_reg4_dinov2.openvla-7b

Feature Extraction

openvla_encoder

Model card Files Files and versions

229nagibator229 commited on Dec 28, 2024

Commit

19e3d6a

·

verified ·

1 Parent(s): d3bb088

Upload processor

Files changed (1) hide show

processing_encoder.py +14 -5

processing_encoder.py CHANGED Viewed

@@ -5,7 +5,7 @@ from transformers.image_transforms import resize, center_crop, normalize
 from transformers.utils.generic import TensorType
 from transformers.image_processing_utils import BatchFeature
 from PIL import Image
-import torchvision.transforms
 import numpy as np
@@ -54,8 +54,9 @@ class EncoderImageProcessor(BaseImageProcessor):
         image = center_crop(image, size=self.input_size)
         image = normalize(image, mean=self.mean, std=self.std)
         # Convert to tensor and normalize
-        image = torch.Tensor(image).to(torch.float32).permute(2,0,1) / 255.0  # Convert to CHW format
         return image
@@ -78,7 +79,13 @@ class EncoderImageProcessor(BaseImageProcessor):
         if not isinstance(images, list):
             images = [images]
-        pixel_values = torch.stack([self.apply_transform(img.convert("RGB")) for img in images])
         # Handle tensor output type
         if return_tensors == "pt":
@@ -88,7 +95,9 @@ class EncoderImageProcessor(BaseImageProcessor):
         else:
             raise ValueError(f"Unsupported tensor type: {return_tensors}")
-    def __call__(self, images: Union[Image.Image, List[Image.Image]], **kwargs) -> BatchFeature:
         """
         Callable interface for preprocessing images.

 from transformers.utils.generic import TensorType
 from transformers.image_processing_utils import BatchFeature
 from PIL import Image
+import torchvision.transforms
 import numpy as np
         image = center_crop(image, size=self.input_size)
         image = normalize(image, mean=self.mean, std=self.std)
         # Convert to tensor and normalize
+        image = (
+            torch.Tensor(image).to(torch.float32).permute(2, 0, 1) / 255.0
+        )  # Convert to CHW format
         return image
         if not isinstance(images, list):
             images = [images]
+        assert isinstance(images, list) and all(
+            isinstance(item, (np.ndarray, Image.Image)) for item in images
+        )
+        if isinstance(images, Image.Image):
+            images = [img.convert("RGB") for img in images]
+        pixel_values = torch.stack([self.apply_transform(image) for image in images])
         # Handle tensor output type
         if return_tensors == "pt":
         else:
             raise ValueError(f"Unsupported tensor type: {return_tensors}")
+    def __call__(
+        self, images: Union[Image.Image, List[Image.Image]], **kwargs
+    ) -> BatchFeature:
         """
         Callable interface for preprocessing images.