lora-ease-dk

Runtime error

App Files Files Community

dkebudi commited on Jul 30, 2024

Commit

c30061b

verified ·

1 Parent(s): e055b3b

hard code 1080x1920

Browse files

Files changed (1) hide show

train_dreambooth_lora_sdxl_advanced.py +9 -9

train_dreambooth_lora_sdxl_advanced.py CHANGED Viewed

@@ -991,7 +991,7 @@ class DreamBoothDataset(Dataset):
         class_data_root=None,
         class_num=None,
         token_abstraction_dict=None,  # token mapping for textual inversion
-        size=1024,
         repeats=1,
         center_crop=False,
     ):
@@ -1070,8 +1070,8 @@ class DreamBoothDataset(Dataset):
         self.original_sizes = []
         self.crop_top_lefts = []
         self.pixel_values = []
-        #train_resize = transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR)
-        #train_crop = transforms.CenterCrop(size) if center_crop else transforms.RandomCrop(size)
         train_flip = transforms.RandomHorizontalFlip(p=1.0)
         train_transforms = transforms.Compose(
             [
@@ -1087,7 +1087,7 @@ class DreamBoothDataset(Dataset):
             if not image.mode == "RGB":
                 image = image.convert("RGB")
             self.original_sizes.append((image.height, image.width))
-            #image = train_resize(image)
             if not single_image and args.random_flip and random.random() < 0.5:
                 # flip
@@ -1123,7 +1123,7 @@ class DreamBoothDataset(Dataset):
                 if not image.mode == "RGB":
                     image = image.convert("RGB")
                 self.original_sizes_class_imgs.append((image.height, image.width))
-                # image = train_resize(image)
                 if args.random_flip and random.random() < 0.5:
                     # flip
                     image = train_flip(image)
@@ -1149,8 +1149,8 @@ class DreamBoothDataset(Dataset):
         self.image_transforms = transforms.Compose(
             [
-                # transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR),
-                # transforms.CenterCrop(size) if center_crop else transforms.RandomCrop(size),
                 transforms.ToTensor(),
                 transforms.Normalize([0.5], [0.5]),
             ]
@@ -1815,7 +1815,7 @@ def main(args):
         class_data_root=args.class_data_dir if args.with_prior_preservation else None,
         token_abstraction_dict=token_abstraction_dict if args.train_text_encoder_ti else None,
         class_num=args.num_class_images,
-        size=args.resolution,
         repeats=args.repeats,
         center_crop=args.center_crop,
     )
@@ -1835,7 +1835,7 @@ def main(args):
     def compute_time_ids(crops_coords_top_left, original_size=None):
         # Adapted from pipeline.StableDiffusionXLPipeline._get_add_time_ids
-        target_size = (args.resolution, args.resolution)
         add_time_ids = list(original_size + crops_coords_top_left + target_size)
         add_time_ids = torch.tensor([add_time_ids])
         add_time_ids = add_time_ids.to(accelerator.device, dtype=weight_dtype)

         class_data_root=None,
         class_num=None,
         token_abstraction_dict=None,  # token mapping for textual inversion
+        size=(1080,1920),
         repeats=1,
         center_crop=False,
     ):
         self.original_sizes = []
         self.crop_top_lefts = []
         self.pixel_values = []
+        train_resize = transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR)
+        train_crop = transforms.CenterCrop(size) # if center_crop else transforms.RandomCrop(size)
         train_flip = transforms.RandomHorizontalFlip(p=1.0)
         train_transforms = transforms.Compose(
             [
             if not image.mode == "RGB":
                 image = image.convert("RGB")
             self.original_sizes.append((image.height, image.width))
+            image = train_resize(image)
             if not single_image and args.random_flip and random.random() < 0.5:
                 # flip
                 if not image.mode == "RGB":
                     image = image.convert("RGB")
                 self.original_sizes_class_imgs.append((image.height, image.width))
+                image = train_resize(image)
                 if args.random_flip and random.random() < 0.5:
                     # flip
                     image = train_flip(image)
         self.image_transforms = transforms.Compose(
             [
+                transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR),
+                transforms.CenterCrop(size), #if center_crop else transforms.RandomCrop(size),
                 transforms.ToTensor(),
                 transforms.Normalize([0.5], [0.5]),
             ]
         class_data_root=args.class_data_dir if args.with_prior_preservation else None,
         token_abstraction_dict=token_abstraction_dict if args.train_text_encoder_ti else None,
         class_num=args.num_class_images,
+        size=(1080,1920),
         repeats=args.repeats,
         center_crop=args.center_crop,
     )
     def compute_time_ids(crops_coords_top_left, original_size=None):
         # Adapted from pipeline.StableDiffusionXLPipeline._get_add_time_ids
+        target_size = (1080, 1920)
         add_time_ids = list(original_size + crops_coords_top_left + target_size)
         add_time_ids = torch.tensor([add_time_ids])
         add_time_ids = add_time_ids.to(accelerator.device, dtype=weight_dtype)