Spaces:

traopia
/

Ask-FashionDB

Running

App Files Files Community

traopia commited on Sep 3

Commit

e9b2c9e

1 Parent(s): c57012a

queries and other fizes

Browse files

Files changed (3) hide show

app_fashionDB.py +116 -9
example_queries.py +28 -0
search_fashionDB.py +44 -12

app_fashionDB.py CHANGED Viewed

@@ -4,16 +4,18 @@ import numpy as np
 from search_fashionDB import search_images_by_text, get_similar_images, search_images_by_image
 import requests
 from io import BytesIO
 import requests
 from io import BytesIO
 #@st.cache_data(show_spinner="Loading FashionDB...")
 def load_data_hf():
     # Load the Parquet file directly from Hugging Face
     df_url = "https://huggingface.co/datasets/traopia/FashionDB/resolve/main/data_vogue_final.parquet"
     df = pd.read_parquet(df_url)
     df = df.explode("image_urls_sample")
     df  = df.rename(columns={"image_urls_sample":"url", "URL":"collection"})
@@ -39,8 +41,10 @@ df, df_fh, df_designers,  embeddings, embeddings_urls = load_data_hf()
 # Suppose embeddings is a numpy array (N, D) and embeddings_urls is a list of urls/keys
 embedding_map = {url: i for i, url in enumerate(embeddings_urls)}
 # Filter and search
-def filter_and_search(fashion_house, designer, category, season, start_year, end_year, query):
     filtered = df.copy()
     if fashion_house:
@@ -54,6 +58,30 @@ def filter_and_search(fashion_house, designer, category, season, start_year, end
         filtered = filtered[filtered['season'].isin(season)]
     filtered = filtered[(filtered['year'] >= start_year) & (filtered['year'] <= end_year)]
     if query:
         image_urls, metadata = search_images_by_text(query, filtered, embeddings, embeddings_urls)
     else:
@@ -104,6 +132,20 @@ with gr.Blocks() as demo:
                 start_year = gr.Slider(label="Start Year", minimum=min_year, maximum=max_year, value=2000, step=1)
                 end_year = gr.Slider(label="End Year", minimum=min_year, maximum=max_year, value=2024, step=1)
             query = gr.Textbox(label="Search by text", placeholder="e.g., pink dress")
             search_button = gr.Button("Search")
@@ -115,13 +157,13 @@ with gr.Blocks() as demo:
             metadata_state = gr.State([])
             selected_idx = gr.Number(value=0, visible=False)
-            def handle_search(fh, dis, cat, sea, sy, ey, q):
-                imgs, meta = filter_and_search(fh, dis, cat, sea, sy, ey, q)
                 return imgs, meta, "", [], None
             search_button.click(
                 handle_search,
-                inputs=[fashion_house, designer, category, season, start_year, end_year, query],
                 outputs=[result_gallery, metadata_state, metadata_output, similar_gallery, reference_image]
             )
@@ -174,6 +216,14 @@ with gr.Blocks() as demo:
                 start_year_img = gr.Slider(label="Start Year", minimum=min_year, maximum=max_year, value=2000, step=1)
                 end_year_img = gr.Slider(label="End Year", minimum=min_year, maximum=max_year, value=2024, step=1)
             uploaded_image = gr.Image(label="Upload an image", type="pil")
             search_by_image_button = gr.Button("Search by Image")
@@ -182,23 +232,46 @@ with gr.Blocks() as demo:
             uploaded_metadata_output = gr.Markdown()
             uploaded_reference_image = gr.Image(label="Reference Image", interactive=False)
-            def handle_search_by_image(image, fh, dis, cat, sea, sy, ey):
                 if image is None:
                     return [], "Please upload an image first.", None
                 # Apply filters
                 filtered_df = df.copy()
                 if fh: filtered_df = filtered_df[filtered_df["fashion_house"].isin(fh)]
-                if dis: filtered_df = filtered_df[filtered_df["designer_name"].isin(fh)]
                 if cat: filtered_df = filtered_df[filtered_df["category"].isin(cat)]
                 if sea: filtered_df = filtered_df[filtered_df["season"].isin(sea)]
                 filtered_df = filtered_df[(filtered_df["year"] >= sy) & (filtered_df["year"] <= ey)]
                 images, metadata = search_images_by_image(image, filtered_df, embeddings, embeddings_urls)
                 return images, metadata, ""
             search_by_image_button.click(
                 handle_search_by_image,
-                inputs=[uploaded_image, fashion_house_img, designer_img, category_img, season_img, start_year_img, end_year_img],
                 outputs=[uploaded_result_gallery, uploaded_metadata_state, uploaded_metadata_output]
             )
@@ -257,12 +330,46 @@ with gr.Blocks() as demo:
             )
         with gr.Tab("Query on FashionDB"):
-            with gr.Row():
                 gr.Markdown(
                     "### 🔗 Query FashionDB SPARQL Endpoint\n"
                     "[Click here to open the SPARQL endpoint](https://fashionwiki.wikibase.cloud/query/)",
                     elem_id="sparql-link"
                 )
     back_button = gr.Button("Back to Home")

 from search_fashionDB import search_images_by_text, get_similar_images, search_images_by_image
 import requests
 from io import BytesIO
+import urllib.parse
 import requests
 from io import BytesIO
+from example_queries import EXAMPLE_QUERIES
 #@st.cache_data(show_spinner="Loading FashionDB...")
 def load_data_hf():
     # Load the Parquet file directly from Hugging Face
     df_url = "https://huggingface.co/datasets/traopia/FashionDB/resolve/main/data_vogue_final.parquet"
     df = pd.read_parquet(df_url)
+    df = df.drop_duplicates(subset=["URL"])
     df = df.explode("image_urls_sample")
     df  = df.rename(columns={"image_urls_sample":"url", "URL":"collection"})
 # Suppose embeddings is a numpy array (N, D) and embeddings_urls is a list of urls/keys
 embedding_map = {url: i for i, url in enumerate(embeddings_urls)}
 # Filter and search
+def filter_and_search(fashion_house, designer, category, season, start_year, end_year, query,
+                      fh_country, fh_city, designer_nationality, designer_birth_year_start, designer_birth_year_end):
     filtered = df.copy()
     if fashion_house:
         filtered = filtered[filtered['season'].isin(season)]
     filtered = filtered[(filtered['year'] >= start_year) & (filtered['year'] <= end_year)]
+    # Fashion house filters via df_fh (country, city)
+    if (fh_country and len(fh_country) > 0) or (fh_city and len(fh_city) > 0):
+        fh_cols = [c for c in ['fashion_house', 'country', 'city'] if c in df_fh.columns]
+        if 'fashion_house' in fh_cols:
+            merged = filtered.merge(df_fh[fh_cols], on='fashion_house', how='left')
+            if fh_country and 'country' in merged.columns:
+                merged = merged[merged['country'].isin(fh_country)]
+            if fh_city and 'city' in merged.columns:
+                merged = merged[merged['city'].isin(fh_city)]
+            filtered = merged.drop_duplicates(subset=['url'])
+    # Designer filters via df_designers (nationality, year_birth)
+    if (designer_nationality and len(designer_nationality) > 0) or (designer_birth_year_start is not None or designer_birth_year_end is not None):
+        des_cols = [c for c in ['designer_name', 'nationality', 'year_birth'] if c in df_designers.columns]
+        if 'designer_name' in des_cols:
+            merged = filtered.merge(df_designers[des_cols], on='designer_name', how='left')
+            if designer_nationality and 'nationality' in merged.columns:
+                merged = merged[merged['nationality'].isin(designer_nationality)]
+            if (designer_birth_year_start is not None or designer_birth_year_end is not None) and 'year_birth' in merged.columns:
+                by_start = designer_birth_year_start if designer_birth_year_start is not None else merged['year_birth'].min()
+                by_end = designer_birth_year_end if designer_birth_year_end is not None else merged['year_birth'].max()
+                merged = merged[(merged['year_birth'] >= by_start) & (merged['year_birth'] <= by_end)]
+            filtered = merged.drop_duplicates(subset=['url'])
     if query:
         image_urls, metadata = search_images_by_text(query, filtered, embeddings, embeddings_urls)
     else:
                 start_year = gr.Slider(label="Start Year", minimum=min_year, maximum=max_year, value=2000, step=1)
                 end_year = gr.Slider(label="End Year", minimum=min_year, maximum=max_year, value=2024, step=1)
+            # Additional filters banner for Fashion House and Designer metadata
+            with gr.Row():
+                fh_countries = sorted(df_fh['country'].dropna().unique()) if 'country' in df_fh.columns else []
+                fh_cities = sorted(df_fh['city'].dropna().unique()) if 'city' in df_fh.columns else []
+                designer_places = sorted(df_designers['nationality'].dropna().unique()) if 'nationality' in df_designers.columns else []
+                birth_year_min = int(df_designers['year_birth'].min()) if 'year_birth' in df_designers.columns else 1900
+                birth_year_max = int(df_designers['year_birth'].max()) if 'year_birth' in df_designers.columns else 2024
+                fh_country = gr.Dropdown(label="Country of Fashion House", choices=fh_countries, multiselect=True)
+                fh_city = gr.Dropdown(label="HQ of Fashion House", choices=fh_cities, multiselect=True)
+                designer_nationality = gr.Dropdown(label="Designer Nationality", choices=designer_places, multiselect=True)
+                designer_birth_year_start = gr.Slider(minimum=birth_year_min, maximum=birth_year_max, value=birth_year_min, step=1, label="Designer Birth Year Start")
+                designer_birth_year_end = gr.Slider(minimum=birth_year_min, maximum=birth_year_max, value=birth_year_max, step=1, label="Designer Birth Year End")
             query = gr.Textbox(label="Search by text", placeholder="e.g., pink dress")
             search_button = gr.Button("Search")
             metadata_state = gr.State([])
             selected_idx = gr.Number(value=0, visible=False)
+            def handle_search(fh, dis, cat, sea, sy, ey, q, fh_co, fh_ci, d_pob, d_by_start, d_by_end):
+                imgs, meta = filter_and_search(fh, dis, cat, sea, sy, ey, q, fh_co, fh_ci, d_pob, d_by_start, d_by_end)
                 return imgs, meta, "", [], None
             search_button.click(
                 handle_search,
+                inputs=[fashion_house, designer, category, season, start_year, end_year, query, fh_country, fh_city, designer_nationality, designer_birth_year_start, designer_birth_year_end],
                 outputs=[result_gallery, metadata_state, metadata_output, similar_gallery, reference_image]
             )
                 start_year_img = gr.Slider(label="Start Year", minimum=min_year, maximum=max_year, value=2000, step=1)
                 end_year_img = gr.Slider(label="End Year", minimum=min_year, maximum=max_year, value=2024, step=1)
+            # Additional banner for FH/Designer filters in image search
+            with gr.Row():
+                fh_country_img = gr.Dropdown(label="Country of Fashion House", choices=fh_countries, multiselect=True)
+                fh_city_img = gr.Dropdown(label="HQ of Fashion House", choices=fh_cities, multiselect=True)
+                designer_nationality_img = gr.Dropdown(label="Designer Nationality", choices=designer_places, multiselect=True)
+                designer_birth_year_start_img = gr.Slider(minimum=birth_year_min, maximum=birth_year_max, value=birth_year_min, step=1, label="Designer Birth Year Start")
+                designer_birth_year_end_img = gr.Slider(minimum=birth_year_min, maximum=birth_year_max, value=birth_year_max, step=1, label="Designer Birth Year End")
             uploaded_image = gr.Image(label="Upload an image", type="pil")
             search_by_image_button = gr.Button("Search by Image")
             uploaded_metadata_output = gr.Markdown()
             uploaded_reference_image = gr.Image(label="Reference Image", interactive=False)
+            def handle_search_by_image(image, fh, dis, cat, sea, sy, ey, fh_co, fh_ci, d_pob, d_by_start, d_by_end):
                 if image is None:
                     return [], "Please upload an image first.", None
                 # Apply filters
                 filtered_df = df.copy()
                 if fh: filtered_df = filtered_df[filtered_df["fashion_house"].isin(fh)]
+                if dis: filtered_df = filtered_df[filtered_df["designer_name"].isin(dis)]
                 if cat: filtered_df = filtered_df[filtered_df["category"].isin(cat)]
                 if sea: filtered_df = filtered_df[filtered_df["season"].isin(sea)]
                 filtered_df = filtered_df[(filtered_df["year"] >= sy) & (filtered_df["year"] <= ey)]
+                # FH/Designer metadata filters via joins
+                if (fh_co and len(fh_co) > 0) or (fh_ci and len(fh_ci) > 0):
+                    fh_cols = [c for c in ['fashion_house', 'country', 'city'] if c in df_fh.columns]
+                    if 'fashion_house' in fh_cols:
+                        merged = filtered_df.merge(df_fh[fh_cols], on='fashion_house', how='left')
+                        if fh_co and 'country' in merged.columns:
+                            merged = merged[merged['country'].isin(fh_co)]
+                        if fh_ci and 'city' in merged.columns:
+                            merged = merged[merged['city'].isin(fh_ci)]
+                        filtered_df = merged.drop_duplicates(subset=['url'])
+                if (d_pob and len(d_pob) > 0) or (d_by_start is not None or d_by_end is not None):
+                    des_cols = [c for c in ['designer_name', 'nationality', 'year_birth'] if c in df_designers.columns]
+                    if 'designer_name' in des_cols:
+                        merged = filtered_df.merge(df_designers[des_cols], on='designer_name', how='left')
+                        if d_pob and 'nationality' in merged.columns:
+                            merged = merged[merged['nationality'].isin(d_pob)]
+                        if (d_by_start is not None or d_by_end is not None) and 'year_birth' in merged.columns:
+                            by_start = d_by_start if d_by_start is not None else merged['year_birth'].min()
+                            by_end = d_by_end if d_by_end is not None else merged['year_birth'].max()
+                            merged = merged[(merged['year_birth'] >= by_start) & (merged['year_birth'] <= by_end)]
+                        filtered_df = merged.drop_duplicates(subset=['url'])
                 images, metadata = search_images_by_image(image, filtered_df, embeddings, embeddings_urls)
                 return images, metadata, ""
             search_by_image_button.click(
                 handle_search_by_image,
+                inputs=[uploaded_image, fashion_house_img, designer_img, category_img, season_img, start_year_img, end_year_img, fh_country_img, fh_city_img, designer_nationality_img, designer_birth_year_start_img, designer_birth_year_end_img],
                 outputs=[uploaded_result_gallery, uploaded_metadata_state, uploaded_metadata_output]
             )
             )
         with gr.Tab("Query on FashionDB"):
+                # Front-page SPARQL query UI and examples
+            with gr.Accordion("Query FashionDB (SPARQL)", open=True):
                 gr.Markdown(
                     "### 🔗 Query FashionDB SPARQL Endpoint\n"
                     "[Click here to open the SPARQL endpoint](https://fashionwiki.wikibase.cloud/query/)",
                     elem_id="sparql-link"
                 )
+                with gr.Row():
+                    example_dropdown = gr.Dropdown(label="Example SPARQL Queries", choices=list(EXAMPLE_QUERIES.keys()))
+                query_text = gr.Textbox(label="SPARQL Query", lines=10)
+                open_link_md = gr.Markdown()
+                def on_example_change(example_key):
+                    if not example_key or example_key not in EXAMPLE_QUERIES:
+                        return "", ""
+                    q = EXAMPLE_QUERIES[example_key].strip()
+                    encoded = urllib.parse.quote(q)
+                    link = f"[Open in SPARQL Editor](https://fashionwiki.wikibase.cloud/query/#query={encoded})"
+                    return q, link
+                example_dropdown.change(
+                    on_example_change,
+                    inputs=[example_dropdown],
+                    outputs=[query_text, open_link_md]
+                )
+                def on_query_change(q):
+                    q = (q or "").strip()
+                    if not q:
+                        return ""
+                    encoded = urllib.parse.quote(q)
+                    return f"[Open in SPARQL Editor](https://fashionwiki.wikibase.cloud/query/#query={encoded})"
+                query_text.change(
+                    on_query_change,
+                    inputs=[query_text],
+                    outputs=[open_link_md]
+                )
     back_button = gr.Button("Back to Home")

example_queries.py ADDED Viewed

	@@ -0,0 +1,28 @@

+# Example SPARQL queries for FashionDB
+EXAMPLE_QUERIES = {
+#     "All fashion houses with country and city": (
+#         """
+# PREFIX wbt: <https://fashionwiki.wikibase.cloud/prop/direct/>
+# PREFIX wb: <https://fashionwiki.wikibase.cloud/entity/>
+# PREFIX pq: <https://fashionwiki.wikibase.cloud/prop/qualifier/>
+# PREFIX pr: <https://fashionwiki.wikibase.cloud/prop/reference/>
+# PREFIX ps: <https://fashionwiki.wikibase.cloud/prop/statement/>
+# PREFIX p: <https://fashionwiki.wikibase.cloud/prop/>
+# SELECT ?fashion_house ?fashion_houseLabel ?countryLabel ?cityLabel WHERE {
+#   ?fashion_house wbt:P31 wb:Q783794;  # instance of fashion house (example)
+#                  wbt:P17 ?country.   # country
+#   OPTIONAL { ?fashion_house wbt:P131 ?city. } # located in the administrative territorial entity
+#   SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
+# }
+# LIMIT 50
+# """
+#     ),
+        "which designer were born in 1969": (
+"PREFIX wbt: <https://fashionwiki.wikibase.cloud/prop/direct/>\nPREFIX wb: <https://fashionwiki.wikibase.cloud/entity/>\nPREFIX ps: <https://fashionwiki.wikibase.cloud/prop/statement/> \nPREFIX pq: <https://fashionwiki.wikibase.cloud/prop/qualifier/>  \nPREFIX p: <https://fashionwiki.wikibase.cloud/prop/> \nPREFIX prov: <http://www.w3.org/ns/prov#>  \nPREFIX xsd: <http://www.w3.org/2001/XMLSchema#>\n\nSELECT ?designerLabel ?birthdate  WHERE {\n  ?designer wbt:P3 ?birthdate .\n  FILTER (YEAR(?birthdate) = 1969)\n\n  SERVICE wikibase:label { bd:serviceParam wikibase:language \"en\". }\n}"
+    ),
+            "Which designers studied at Central Saint Martins?": (
+"PREFIX wbt: <https://fashionwiki.wikibase.cloud/prop/direct/>\nPREFIX wb: <https://fashionwiki.wikibase.cloud/entity/>\nPREFIX pq: <https://fashionwiki.wikibase.cloud/prop/qualifier/>  \nPREFIX pr: <https://fashionwiki.wikibase.cloud/prop/reference/>\nPREFIX ps: <https://fashionwiki.wikibase.cloud/prop/statement/> \nPREFIX p: <https://fashionwiki.wikibase.cloud/prop/> \nPREFIX prov: <http://www.w3.org/ns/prov#>  \n\nSELECT ?fashion_designerLabel (SAMPLE(?reference_URL) AS ?reference_URL) {\n  # Restrict to designers who are instances of fashion designer (Q5)\n\n  ?fashion_designer wbt:P2 wb:Q5.\n  ?fashion_designer wbt:P9 ?educated_at.\n  ?educated_at rdfs:label 'Central Saint Martins'@en . \n\n\n  # Retrieve references from the statement\n  OPTIONAL {\n    ?statement prov:wasDerivedFrom ?reference.\n    ?reference pr:P24 ?reference_URL.\n  }\n\n  # Retrieve labels for the fashion designer\n  SERVICE wikibase:label { bd:serviceParam wikibase:language \"en\". } \n} \nGROUP BY ?fashion_designerLabel \nORDER BY ?fashion_designerLabel"
+    ),
+}

search_fashionDB.py CHANGED Viewed

@@ -80,10 +80,17 @@ def search_images_by_image(uploaded_image, df, embeddings,embeddings_urls,  top_
     sims = cosine_similarity([image_emb], embeddings)[0]
     top_indices = np.argsort(sims)[::-1][:top_k]
     top_urls = [embeddings_urls[i] for i in top_indices]
-    metadata = df[df["url"].isin(top_urls)].copy().to_dict(orient="records")
-    return top_urls, metadata
@@ -97,16 +104,41 @@ def search_images_by_text(text, df, embeddings, embeddings_urls, top_k=30):
     with torch.no_grad():
         text_emb = model.get_text_features(**inputs).cpu().numpy()
-    df_indices = df.index.to_numpy()
-    # slice embeddings & urls to match the filtered df
-    embeddings_filtered = embeddings[df_indices]
     sims = cosine_similarity(text_emb, embeddings_filtered)[0]
-    sims = np.asarray(sims).flatten()
-    top_indices = np.argsort(sims)[::-1][:top_k]
-    top_urls = [embeddings_urls[i] for i in top_indices]
-    metadata = df[df["url"].isin(top_urls)].copy().to_dict(orient="records")
-    return top_urls, metadata
 def get_similar_images(df, image_key, embeddings, embedding_map, embeddings_urls, top_k=5):
     if image_key not in embedding_map:

     sims = cosine_similarity([image_emb], embeddings)[0]
     top_indices = np.argsort(sims)[::-1][:top_k]
     top_urls = [embeddings_urls[i] for i in top_indices]
+    # Build metadata in the same order as top_urls
+    df_subset = df[df["url"].isin(top_urls)].copy()
+    records = df_subset.to_dict(orient="records")
+    by_url = {}
+    for r in records:
+        u = r.get("url")
+        if u is not None and u not in by_url:
+            by_url[u] = r
+    ordered_metadata = [by_url[u] for u in top_urls if u in by_url]
+    return top_urls, ordered_metadata
     with torch.no_grad():
         text_emb = model.get_text_features(**inputs).cpu().numpy()
+    # Build URL -> index map once per call
+    url_to_index = {str(url): idx for idx, url in enumerate(embeddings_urls)}
+    # Collect indices of embeddings corresponding to filtered df URLs
+    filtered_urls = df["url"].astype(str).tolist()
+    filtered_indices = [url_to_index[u] for u in filtered_urls if u in url_to_index]
+    if not filtered_indices:
+        return [], []
+    embeddings_filtered = embeddings[filtered_indices]
     sims = cosine_similarity(text_emb, embeddings_filtered)[0]
+    sims = np.asarray(sims).flatten()
+    # Rank within the filtered set
+    top_indices_local = np.argsort(sims)[::-1][:top_k]
+    # Map local ranks back to URLs in the same order, dedupe while preserving order
+    ranked_urls = [embeddings_urls[filtered_indices[i]] for i in top_indices_local]
+    seen = set()
+    top_urls = []
+    for u in ranked_urls:
+        if u not in seen:
+            seen.add(u)
+            top_urls.append(u)
+    # Build metadata in the same order as top_urls
+    df_subset = df[df["url"].isin(top_urls)].copy()
+    records = df_subset.to_dict(orient="records")
+    by_url = {}
+    for r in records:
+        u = r.get("url")
+        if u is not None and u not in by_url:
+            by_url[u] = r
+    ordered_metadata = [by_url[u] for u in top_urls if u in by_url]
+    return top_urls, ordered_metadata
 def get_similar_images(df, image_key, embeddings, embedding_map, embeddings_urls, top_k=5):
     if image_key not in embedding_map: