Spaces:

Stylique
/

recomendation

Paused

Ali Mohsin commited on Nov 9

Commit

1f07471

1 Parent(s): 4619bfc

Optimizations number two try

Refactor dataset preparation logic to require manual intervention for setup. Update checks for existing images and splits, improving user feedback during the process. Ensure no automatic training occurs, and enhance error handling for dataset preparation.

Files changed (2) hide show

app.py +48 -69
utils/data_fetch.py +17 -8

app.py CHANGED Viewed

@@ -270,12 +270,12 @@ def _background_bootstrap():
     global BOOT_STATUS
     global DATASET_ROOT
     try:
-        # Check if dataset root exists and has basic structure
         root = os.path.abspath(os.path.join(os.getcwd(), "data", "Polyvore"))
         images_dir = os.path.join(root, "images")
         splits_dir = os.path.join(root, "splits")
-        # Only check dataset if images directory doesn't exist
         has_images = os.path.isdir(images_dir) and any(os.listdir(images_dir))
         has_splits = (
             os.path.isfile(os.path.join(splits_dir, "train.json")) or
@@ -283,62 +283,19 @@ def _background_bootstrap():
         )
         if has_images and has_splits:
-            print("✅ Dataset and splits already prepared, skipping startup preparation")
             DATASET_ROOT = root
             BOOT_STATUS = "ready"
-            return
-        # Only prepare dataset if images are missing
-        if not has_images:
-            BOOT_STATUS = "preparing-dataset"
-            ds_root = ensure_dataset_ready()
-            DATASET_ROOT = ds_root
-            if not ds_root:
-                BOOT_STATUS = "dataset-not-prepared"
-                return
-        else:
             DATASET_ROOT = root
-            print("✅ Dataset images already exist, skipping extraction")
-        # Only prepare splits if missing
-        if not has_splits:
-            BOOT_STATUS = "creating-splits"
-            os.makedirs(splits_dir, exist_ok=True)
-            from scripts.prepare_polyvore import main as prepare_main
-            os.environ.setdefault("PYTHONWARNINGS", "ignore")
-            import sys
-            argv_bak = sys.argv
-            try:
-                # Use official splits from nondisjoint/ and disjoint/ folders with default size limit (500 samples for faster training)
-                sys.argv = ["prepare_polyvore.py", "--root", DATASET_ROOT, "--max_samples", "500"]
-                prepare_main()
-            finally:
-                sys.argv = argv_bak
         else:
-            print("✅ Splits already prepared, skipping")
-        # Train if checkpoints are absent
-        export_dir = os.getenv("EXPORT_DIR", "models/exports")
-        os.makedirs(export_dir, exist_ok=True)
-        resnet_ckpt = os.path.join(export_dir, "resnet_item_embedder_best.pth")
-        vit_ckpt = os.path.join(export_dir, "vit_outfit_model_best.pth")
-        import subprocess
-        if not os.path.exists(resnet_ckpt):
-            BOOT_STATUS = "training-resnet"
-            subprocess.run([
-                "python", "train_resnet.py", "--data_root", ds_root, "--epochs", "3",
-                "--batch_size", "4", "--lr", "1e-3", "--early_stopping_patience", "3",
-                "--out", os.path.join(export_dir, "resnet_item_embedder.pth")
-            ], check=False)
-        if not os.path.exists(vit_ckpt):
-            BOOT_STATUS = "training-vit"
-            subprocess.run([
-                "python", "train_vit_triplet.py", "--data_root", ds_root, "--epochs", "10",
-                "--batch_size", "4", "--lr", "5e-4", "--early_stopping_patience", "5",
-                "--max_samples", "5000", "--triplet_margin", "0.5", "--gradient_clip", "1.0",
-                "--warmup_epochs", "2", "--export", os.path.join(export_dir, "vit_outfit_model.pth")
-            ], check=False)
-        service.reload_models()
         BOOT_STATUS = "ready"
     except Exception as e:
         BOOT_STATUS = f"error: {e}"
@@ -1462,7 +1419,7 @@ with gr.Blocks(fill_height=True, title="Dressify - Advanced Outfit Recommendatio
         # Dataset Preparation Section
         with gr.Accordion("📦 Dataset Preparation (Optional)", open=False):
-            gr.Markdown("**Note**: Dataset is automatically prepared on first startup. Use this only if you need to re-download or re-extract the dataset.")
             with gr.Row():
                 prepare_dataset_btn = gr.Button("📥 Download & Prepare Dataset", variant="secondary")
                 prepare_status = gr.Textbox(label="Dataset Preparation Status", value="Dataset will be prepared if missing", interactive=False)
@@ -1472,29 +1429,51 @@ with gr.Blocks(fill_height=True, title="Dressify - Advanced Outfit Recommendatio
                 global DATASET_ROOT, BOOT_STATUS
                 try:
                     BOOT_STATUS = "preparing-dataset"
-                    ds_root = ensure_dataset_ready()
                     DATASET_ROOT = ds_root
                     if not ds_root:
                         BOOT_STATUS = "dataset-not-prepared"
                         return "❌ Failed to prepare dataset"
-                    # Prepare splits
                     splits_dir = os.path.join(ds_root, "splits")
-                    os.makedirs(splits_dir, exist_ok=True)
-                    from scripts.prepare_polyvore import main as prepare_main
-                    os.environ.setdefault("PYTHONWARNINGS", "ignore")
-                    import sys
-                    argv_bak = sys.argv
-                    try:
-                        sys.argv = ["prepare_polyvore.py", "--root", ds_root, "--max_samples", "500"]
-                        prepare_main()
                         BOOT_STATUS = "ready"
-                        return "✅ Dataset prepared successfully!"
-                    finally:
-                        sys.argv = argv_bak
                 except Exception as e:
                     BOOT_STATUS = "error"
-                    return f"❌ Error: {str(e)}"
             prepare_dataset_btn.click(fn=prepare_dataset_manual, inputs=[], outputs=prepare_status)

     global BOOT_STATUS
     global DATASET_ROOT
     try:
+        # Only check if dataset exists - DO NOT prepare it automatically
         root = os.path.abspath(os.path.join(os.getcwd(), "data", "Polyvore"))
         images_dir = os.path.join(root, "images")
         splits_dir = os.path.join(root, "splits")
+        # Check if dataset already exists
         has_images = os.path.isdir(images_dir) and any(os.listdir(images_dir))
         has_splits = (
             os.path.isfile(os.path.join(splits_dir, "train.json")) or
         )
         if has_images and has_splits:
+            print("✅ Dataset and splits already prepared")
             DATASET_ROOT = root
             BOOT_STATUS = "ready"
+        elif has_images:
+            print("✅ Dataset images exist, but splits may be missing (use Advanced Training to prepare)")
             DATASET_ROOT = root
+            BOOT_STATUS = "ready"
         else:
+            print("ℹ️ Dataset not prepared. Use 'Download & Prepare Dataset' button in Advanced Training tab if needed.")
+            DATASET_ROOT = None
+            BOOT_STATUS = "ready"  # System is ready, just dataset not prepared
+        # NO automatic training - models should be pre-trained or trained manually via UI
         BOOT_STATUS = "ready"
     except Exception as e:
         BOOT_STATUS = f"error: {e}"
         # Dataset Preparation Section
         with gr.Accordion("📦 Dataset Preparation (Optional)", open=False):
+            gr.Markdown("**Note**: Dataset preparation is now manual only. Click the button below to download and prepare the dataset when needed.")
             with gr.Row():
                 prepare_dataset_btn = gr.Button("📥 Download & Prepare Dataset", variant="secondary")
                 prepare_status = gr.Textbox(label="Dataset Preparation Status", value="Dataset will be prepared if missing", interactive=False)
                 global DATASET_ROOT, BOOT_STATUS
                 try:
                     BOOT_STATUS = "preparing-dataset"
+                    # Check if dataset already exists
+                    root = os.path.abspath(os.path.join(os.getcwd(), "data", "Polyvore"))
+                    images_dir = os.path.join(root, "images")
+                    has_images = os.path.isdir(images_dir) and any(os.listdir(images_dir))
+                    if has_images:
+                        print("✅ Images already exist, skipping download/extraction")
+                        ds_root = root
+                    else:
+                        print("📥 Downloading and extracting dataset...")
+                        ds_root = ensure_dataset_ready()
                     DATASET_ROOT = ds_root
                     if not ds_root:
                         BOOT_STATUS = "dataset-not-prepared"
                         return "❌ Failed to prepare dataset"
+                    # Prepare splits if missing
                     splits_dir = os.path.join(ds_root, "splits")
+                    has_splits = (
+                        os.path.isfile(os.path.join(splits_dir, "train.json")) or
+                        os.path.isfile(os.path.join(splits_dir, "outfit_triplets_train.json"))
+                    )
+                    if not has_splits:
+                        os.makedirs(splits_dir, exist_ok=True)
+                        from scripts.prepare_polyvore import main as prepare_main
+                        os.environ.setdefault("PYTHONWARNINGS", "ignore")
+                        import sys
+                        argv_bak = sys.argv
+                        try:
+                            sys.argv = ["prepare_polyvore.py", "--root", ds_root, "--max_samples", "500"]
+                            prepare_main()
+                            BOOT_STATUS = "ready"
+                            return "✅ Dataset and splits prepared successfully!"
+                        finally:
+                            sys.argv = argv_bak
+                    else:
                         BOOT_STATUS = "ready"
+                        return "✅ Dataset already prepared (images and splits exist)"
                 except Exception as e:
                     BOOT_STATUS = "error"
+                    import traceback
+                    return f"❌ Error: {str(e)}\n{traceback.format_exc()}"
             prepare_dataset_btn.click(fn=prepare_dataset_manual, inputs=[], outputs=prepare_status)

utils/data_fetch.py CHANGED Viewed

@@ -75,14 +75,8 @@ def ensure_dataset_ready() -> Optional[str]:
     has_metadata = all(os.path.exists(os.path.join(root, f)) for f in metadata_files)
     if has_images and has_metadata:
-        print("✅ Dataset already complete")
         return root
-    # If images are already present, skip extraction
-    if not has_images:
-        _unzip_images_if_needed(root)
-    else:
-        print("✅ Images already extracted, skipping extraction")
     # Download the HF dataset snapshot into root
     try:
@@ -126,7 +120,8 @@ def ensure_dataset_ready() -> Optional[str]:
             )
         )
-        if need_download or not has_images:
             print("🚀 Starting download...")
             snapshot_download(
                 "Stylique/Polyvore",
@@ -137,6 +132,20 @@ def ensure_dataset_ready() -> Optional[str]:
                 ignore_patterns=ignore,
             )
             print("✅ Download completed")
         else:
             print("✅ All required files already present")

     has_metadata = all(os.path.exists(os.path.join(root, f)) for f in metadata_files)
     if has_images and has_metadata:
+        print("✅ Dataset already complete - skipping download and extraction")
         return root
     # Download the HF dataset snapshot into root
     try:
             )
         )
+        # Only download if images are missing
+        if not has_images:
             print("🚀 Starting download...")
             snapshot_download(
                 "Stylique/Polyvore",
                 ignore_patterns=ignore,
             )
             print("✅ Download completed")
+            # Extract images after download
+            _unzip_images_if_needed(root)
+        elif not has_metadata:
+            # Only download metadata if images exist but metadata is missing
+            print("📥 Downloading missing metadata files...")
+            snapshot_download(
+                "Stylique/Polyvore",
+                repo_type="dataset",
+                local_dir=root,
+                local_dir_use_symlinks=False,
+                allow_patterns=["polyvore_item_metadata.json", "polyvore_outfit_titles.json", "categories.csv"],
+                ignore_patterns=ignore,
+            )
+            print("✅ Metadata download completed")
         else:
             print("✅ All required files already present")