Upload 3 files

Browse files

Files changed (3) hide show

LaZSL-main/OP.py +3 -3
LaZSL-main/load_OP.py +106 -38
LaZSL-main/main_OP.py +2 -2

LaZSL-main/OP.py CHANGED Viewed

@@ -47,7 +47,7 @@ class OP():
         return sim_op
 class OP_d():
-    def __init__(self, max_iter,gama,alpha,constrain_type='const'):
         super(OP_d, self).__init__()
         self.max_iter= max_iter
         #self.M=M
@@ -56,7 +56,7 @@ class OP_d():
         self.gama= torch.tensor(gama,dtype=torch.half)
         self.zero= torch.tensor(-10,dtype=torch.half)
         self.constrain_type=constrain_type #['patch','att','const']
-        self.alpha=alpha
        # self.b=b
     def Sinkhorn(self, K, u, v):
@@ -86,7 +86,7 @@ class OP_d():
         if is_cost_global:
             global_sim=sim[:,0,:].unsqueeze(1)
             region_sim=sim[:,1:,:]
-            sim_global=(1-self.alpha)*global_sim + (self.alpha * region_sim)
             sim=region_sim
             self.M = sim_global.shape[1]

         return sim_op
 class OP_d():
+    def __init__(self, max_iter,gama,theta,constrain_type='const'):
         super(OP_d, self).__init__()
         self.max_iter= max_iter
         #self.M=M
         self.gama= torch.tensor(gama,dtype=torch.half)
         self.zero= torch.tensor(-10,dtype=torch.half)
         self.constrain_type=constrain_type #['patch','att','const']
+        self.theta=theta
        # self.b=b
     def Sinkhorn(self, K, u, v):
         if is_cost_global:
             global_sim=sim[:,0,:].unsqueeze(1)
             region_sim=sim[:,1:,:]
+            sim_global=(1-self.theta)*global_sim + (self.theta * region_sim)
             sim=region_sim
             self.M = sim_global.shape[1]

LaZSL-main/load_OP.py CHANGED Viewed

@@ -8,9 +8,9 @@ import pathlib
 from torch.utils.data import DataLoader, Subset
 from torchvision import transforms
-#from torchvision.datasets import ImageNet, ImageFolder, Places365
 from torchvision.datasets import ImageFolder
-#from imagenetv2_pytorch import ImageNetV2Dataset as ImageNetV2
 from datasets import _transform, CUBDataset, random_crop
 from collections import OrderedDict
 from myclip import clip
@@ -26,32 +26,113 @@ from utils import (
 hparams = {}
 # hyperparameters
 hparams['model_size'] = "ViT-B/16"
 # Options:
-# ['RN50',
-#  'RN101',
-#  'RN50x4',
-#  'RN50x16',
-#  'RN50x64',
-#  'ViT-B/32',
 #  'ViT-B/16',
-#  'ViT-L/14',
-#  'ViT-L/14@336px']
 hparams['dataset'] = 'imagenet'
 hparams['max_iter'] = 100
-hparams['n_samples'] = 90
 #for mix
-hparams['alpha'] = 0.8
 #for crop
-hparams['alpha_crop'] = 0.6
 #for constrain
 hparams['gama'] = 0.0
 hparams['constrain_type'] = 'att' #['patch','att','const']
-hparams['batch_size'] = 1
 hparams['device'] = "cuda:2"
 hparams['category_name_inclusion'] = 'prepend' #'append' 'prepend'
@@ -124,12 +205,11 @@ def custom_loader(path: str) -> torch.Tensor:
     img = datasets.folder.default_loader(path)
     # Process the image and generate additional augmented samples
     augmented_imgs = [processor(img)]
-    augmented_imgs.extend(processor(random_crop(img,alpha=hparams['alpha_crop'])) for _ in range(n_samples))
     # Return a stacked tensor of all processed images
     return torch.stack(augmented_imgs)
 if hparams['dataset'] == 'imagenet':
     if hparams['dataset'] == 'imagenet':
         dsclass = ImageNet
@@ -146,6 +226,7 @@ if hparams['dataset'] == 'imagenet':
 elif hparams['dataset'] == 'imagenetv2':
     hparams['data_dir'] = pathlib.Path(IMAGENETV2_DIR)
     hparams['class_num'] = 1000
     mydataset = ImageNetV2Dataset(
             location=hparams['data_dir'],
             transform=None,
@@ -160,6 +241,7 @@ elif hparams['dataset'] == 'imagenet-r':
     hparams['data_dir'] = pathlib.Path(IMAGENETR_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 200
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
@@ -172,6 +254,7 @@ elif hparams['dataset'] == 'imagenet-a':
     hparams['data_dir'] = pathlib.Path(IMAGENETA_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 200
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
@@ -184,6 +267,7 @@ elif hparams['dataset'] == 'imagenet-s':
     hparams['data_dir'] = pathlib.Path(IMAGENETS_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 1000
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
@@ -198,6 +282,8 @@ elif hparams['dataset'] == 'imagenet-s':
 elif hparams['dataset'] == 'cub':
     # load CUB dataset
     hparams['data_dir'] = pathlib.Path(CUB_DIR)
     mydataset = CUBDataset(hparams['data_dir'], train=False, transform=None, loader=custom_loader)
     classes_to_load = None #dataset.classes
     hparams['descriptor_fname'] = 'descriptors_cub'
@@ -205,15 +291,9 @@ elif hparams['dataset'] == 'cub':
 # I recommend using VISSL https://github.com/facebookresearch/vissl/blob/main/extra_scripts/README.md to download these
-elif hparams['dataset'] == 'eurosat':
-    from extra_datasets.patching.eurosat import EuroSATVal
-    hparams['data_dir'] = pathlib.Path(EUROSAT_DIR)
-    dataset = EuroSATVal(location=hparams['data_dir'], preprocess=tfms)
-    dataset = dataset.test_dataset
-    hparams['descriptor_fname'] = 'descriptors_eurosat'
-    classes_to_load = None
-elif hparams['dataset'] == 'places365':
     hparams['class_num'] = 365
     hparams['data_dir'] = pathlib.Path(PLACES_DIR)
     mydataset = Places365(hparams['data_dir'], split='val', download=False, transform=None, loader=custom_loader)
@@ -222,7 +302,7 @@ elif hparams['dataset'] == 'places365':
     hparams['descriptor_fname'] = 'descriptors_places365'
     classes_to_load = None
-elif hparams['dataset'] == 'food101':
     hparams['data_dir'] = pathlib.Path(FOOD101_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 101
@@ -239,6 +319,7 @@ elif hparams['dataset'] == 'pets':
     hparams['data_dir'] = pathlib.Path(PETS_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 37
     mydataset = OxfordIIITPet(
         hparams['data_dir'],
         transform=None,
@@ -248,20 +329,7 @@ elif hparams['dataset'] == 'pets':
     hparams['descriptor_fname'] = 'descriptors_pets'
     classes_to_load = None
-elif hparams['dataset'] == 'dtd':
-    hparams['class_num'] = 47
-    hparams['data_dir'] = pathlib.Path(DTD_DIR)
-    mydataset = DTD(
-        hparams['data_dir'],
-        transform=None,
-        split="test",
-        loader=custom_loader,
-    )
-    hparams['descriptor_fname'] = 'descriptors_dtd'
-    classes_to_load = None

 from torch.utils.data import DataLoader, Subset
 from torchvision import transforms
 from torchvision.datasets import ImageFolder
 from datasets import _transform, CUBDataset, random_crop
 from collections import OrderedDict
 from myclip import clip
 hparams = {}
+def get_params(model, dataset):
+    params = {}
+    if model == "ViT-B/16":
+        if dataset == "imagenet":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 90
+        elif dataset == "cub":
+            params['alpha'] = 0.6
+            params['theta'] = 0.9
+            params['N'] = 90
+        elif dataset == "pets":
+            params['alpha'] = 0.6
+            params['theta'] = 0.2
+            params['N'] = 80
+        elif dataset == "food":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 90
+        elif dataset == "place":
+            params['alpha'] = 0.4
+            params['theta'] = 0.8
+            params['N'] = 60
+        elif dataset == "imagenetv2":
+            params['alpha'] = 0.5
+            params['theta'] = 0.8
+            params['N'] = 70
+        elif dataset == "imagenet-r":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 90
+        elif dataset == "imagenet-a":
+            params['alpha'] = 0.5
+            params['theta'] = 0.95
+            params['N'] = 90
+        elif dataset == "imagenet-s":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 80
+    elif model == "ViT-B/32":
+        if dataset == "imagenet":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 90
+        elif dataset == "cub":
+            params['alpha'] = 0.5
+            params['theta'] = 0.95
+            params['N'] = 80
+        elif dataset == "pets":
+            params['alpha'] = 0.6
+            params['theta'] = 0.9
+            params['N'] = 80
+        elif dataset == "food":
+            params['alpha'] = 0.6
+            params['theta'] = 0.9
+            params['N'] = 80
+        elif dataset == "place":
+            params['alpha'] = 0.6
+            params['theta'] = 0.9
+            params['N'] = 80
+    elif model == "ViT-L/14":
+        if dataset == "imagenet":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 70
+        elif dataset == "cub":
+            params['alpha'] = 0.5
+            params['theta'] = 0.9
+            params['N'] = 80
+        elif dataset == "pets":
+            params['alpha'] = 0.6
+            params['theta'] = 0.8
+            params['N'] = 60
+        elif dataset == "food":
+            params['alpha'] = 0.6
+            params['theta'] = 0.9
+            params['N'] = 70
+        elif dataset == "place":
+            params['alpha'] = 0.4
+            params['theta'] = 0.9
+            params['N'] = 70
+    return params
 # hyperparameters
 hparams['model_size'] = "ViT-B/16"
 # Options:
+# ['ViT-B/32',
 #  'ViT-B/16',
+#  'ViT-L/14']
 hparams['dataset'] = 'imagenet'
+params = get_params(hparams['model_size'], hparams['dataset'])
 hparams['max_iter'] = 100
+hparams['n_samples'] = params['N']
 #for mix
+hparams['theta'] = params['theta']
 #for crop
+hparams['alpha'] = params['alpha']
 #for constrain
 hparams['gama'] = 0.0
 hparams['constrain_type'] = 'att' #['patch','att','const']
+hparams['batch_size'] = 50
 hparams['device'] = "cuda:2"
 hparams['category_name_inclusion'] = 'prepend' #'append' 'prepend'
     img = datasets.folder.default_loader(path)
     # Process the image and generate additional augmented samples
     augmented_imgs = [processor(img)]
+    augmented_imgs.extend(processor(random_crop(img,alpha=hparams['alpha'])) for _ in range(n_samples))
     # Return a stacked tensor of all processed images
     return torch.stack(augmented_imgs)
 if hparams['dataset'] == 'imagenet':
     if hparams['dataset'] == 'imagenet':
         dsclass = ImageNet
 elif hparams['dataset'] == 'imagenetv2':
     hparams['data_dir'] = pathlib.Path(IMAGENETV2_DIR)
     hparams['class_num'] = 1000
     mydataset = ImageNetV2Dataset(
             location=hparams['data_dir'],
             transform=None,
     hparams['data_dir'] = pathlib.Path(IMAGENETR_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 200
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
     hparams['data_dir'] = pathlib.Path(IMAGENETA_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 200
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
     hparams['data_dir'] = pathlib.Path(IMAGENETS_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 1000
     mydataset = dsclass(
         hparams['data_dir'],
         transform=None,
 elif hparams['dataset'] == 'cub':
     # load CUB dataset
     hparams['data_dir'] = pathlib.Path(CUB_DIR)
     mydataset = CUBDataset(hparams['data_dir'], train=False, transform=None, loader=custom_loader)
     classes_to_load = None #dataset.classes
     hparams['descriptor_fname'] = 'descriptors_cub'
 # I recommend using VISSL https://github.com/facebookresearch/vissl/blob/main/extra_scripts/README.md to download these
+elif hparams['dataset'] == 'place':
     hparams['class_num'] = 365
     hparams['data_dir'] = pathlib.Path(PLACES_DIR)
     mydataset = Places365(hparams['data_dir'], split='val', download=False, transform=None, loader=custom_loader)
     hparams['descriptor_fname'] = 'descriptors_places365'
     classes_to_load = None
+elif hparams['dataset'] == 'food':
     hparams['data_dir'] = pathlib.Path(FOOD101_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 101
     hparams['data_dir'] = pathlib.Path(PETS_DIR)
     dsclass = ImageFolder
     hparams['class_num'] = 37
     mydataset = OxfordIIITPet(
         hparams['data_dir'],
         transform=None,
     hparams['descriptor_fname'] = 'descriptors_pets'
     classes_to_load = None

LaZSL-main/main_OP.py CHANGED Viewed

@@ -22,7 +22,7 @@ model.to(device)
 model.eval()
 model.requires_grad_(False)
 #op=OP(max_iter=hparams['max_iter'],M=49,N=5,n_cls=hparams['class_num'],b=bs)
-op_d=OP_d(max_iter=hparams['max_iter'], gama=hparams['gama'],constrain_type=hparams['constrain_type'],alpha=hparams['alpha'])
 print("Encoding descriptions...")
@@ -30,7 +30,7 @@ description_encodings = compute_description_encodings(model)
 label_encodings = compute_label_encodings(model)
-print("n_samples: %d \nalpha: %f \nalpha_crop: %f" %(hparams['n_samples'],hparams['alpha'],hparams['alpha_crop']))
 print("constrain_type: %s " %(hparams['constrain_type']))
 print("Evaluating...")

 model.eval()
 model.requires_grad_(False)
 #op=OP(max_iter=hparams['max_iter'],M=49,N=5,n_cls=hparams['class_num'],b=bs)
+op_d=OP_d(max_iter=hparams['max_iter'], gama=hparams['gama'],constrain_type=hparams['constrain_type'],theta=hparams['theta'])
 print("Encoding descriptions...")
 label_encodings = compute_label_encodings(model)
+print("n_samples: %d \nalpha: %f \ntheta: %f" %(hparams['n_samples'],hparams['alpha'],hparams['theta']))
 print("constrain_type: %s " %(hparams['constrain_type']))
 print("Evaluating...")