Spaces:

sibthinon
/

environment

Running

App Files Files Community

sibthinon commited on Jun 13

Commit

68b12c7

verified ·

1 Parent(s): fd2a235

use only model bge

Browse files

Files changed (1) hide show

app.py +14 -37

app.py CHANGED Viewed

@@ -34,20 +34,9 @@ with open("keyword_whitelist.pkl", "rb") as f:
     keyword_whitelist = pickle.load(f)
 # Preload Models
-models = {
-    "E5 Finetuned": {
-        "model": SentenceTransformer("e5_finetuned"),
-        "collection": "product_E5_finetune",
-        "threshold": 0.8,
-        "prefix": "query: "
-    },
-    "BGE M3": {
-        "model": SentenceTransformer("BAAI/bge-m3"),
-        "collection": "product_bge-m3",
-        "threshold": 0.45,
-        "prefix": ""
-    }
-}
 reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True)
@@ -105,21 +94,14 @@ def correct_query_merge_phrases(query: str, whitelist, threshold=80, max_ngram=3
 latest_query_result = {"query": "", "result": "", "raw_query": "", "time": ""}
 # Search Function
-def search_product(query, model_choice):
     start_time = time.time()
     latest_query_result["raw_query"] = query
-    selected = models[model_choice]
-    model = selected["model"]
-    collection_name = selected["collection"]
-    threshold = selected["threshold"]
-    prefix = selected["prefix"]
     corrected_query = correct_query_merge_phrases(query, keyword_whitelist)
-    query_embed = model.encode(prefix + corrected_query)
     try:
-        # 🔍 ดึง top-50 ก่อน rerank
         result = qdrant_client.query_points(
             collection_name=collection_name,
             query=query_embed.tolist(),
@@ -130,14 +112,12 @@ def search_product(query, model_choice):
     except Exception as e:
         return f"<p>❌ Qdrant error: {str(e)}</p>"
-    # ✅ Rerank Top 10 ด้วย Cross-Encoder (เฉพาะ BGE M3 เท่านั้น)
-    if model_choice == "BGE M3" and len(result) > 0:
         topk = 10
         docs = [r.payload.get("name", "") for r in result[:topk]]
         pairs = [[corrected_query, d] for d in docs]
         scores = reranker.compute_score(pairs, normalize=True)
-        # ผสมคะแนน: 0.6 จาก embedding, 0.4 จาก reranker
         result[:topk] = sorted(
             zip(result[:topk], scores),
             key=lambda x: 0.6 * x[0].score + 0.4 * x[1],
@@ -189,11 +169,11 @@ def search_product(query, model_choice):
     return html_output
 # Feedback Function
-def log_feedback(feedback, model_choice):
     try:
         now = datetime.now().strftime("%Y-%m-%d")
         table.create({
-            "model": model_choice,
             "timestamp": now,
             "raw_query": latest_query_result["raw_query"],
             "query": latest_query_result["query"],
@@ -207,12 +187,9 @@ def log_feedback(feedback, model_choice):
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("## 🔎 Product Semantic Search (Vector Search + Qdrant)")
-    with gr.Row():
-        model_selector = gr.Dropdown(label="🔍 เลือกโมเดล", choices=list(models.keys()), value="E5 Finetuned")
-        query_input = gr.Textbox(label="พิมพ์คำค้นหา")
     result_output = gr.HTML(label="📋 ผลลัพธ์")
     with gr.Row():
@@ -221,8 +198,8 @@ with gr.Blocks() as demo:
     feedback_status = gr.Textbox(label="📬 สถานะ Feedback")
-    query_input.submit(search_product, inputs=[query_input, model_selector], outputs=result_output)
-    match_btn.click(fn=lambda model: log_feedback("match", model), inputs=model_selector, outputs=feedback_status)
-    not_match_btn.click(fn=lambda model: log_feedback("not_match", model), inputs=model_selector, outputs=feedback_status)
 demo.launch(share=True)

     keyword_whitelist = pickle.load(f)
 # Preload Models
+model = SentenceTransformer("BAAI/bge-m3")
+collection_name = "product_bge-m3"
+threshold = 0.45
 reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True)
 latest_query_result = {"query": "", "result": "", "raw_query": "", "time": ""}
 # Search Function
+def search_product(query):
     start_time = time.time()
     latest_query_result["raw_query"] = query
     corrected_query = correct_query_merge_phrases(query, keyword_whitelist)
+    query_embed = model.encode(corrected_query)
     try:
         result = qdrant_client.query_points(
             collection_name=collection_name,
             query=query_embed.tolist(),
     except Exception as e:
         return f"<p>❌ Qdrant error: {str(e)}</p>"
+    # ✅ Rerank Top 10
+    if len(result) > 0:
         topk = 10
         docs = [r.payload.get("name", "") for r in result[:topk]]
         pairs = [[corrected_query, d] for d in docs]
         scores = reranker.compute_score(pairs, normalize=True)
         result[:topk] = sorted(
             zip(result[:topk], scores),
             key=lambda x: 0.6 * x[0].score + 0.4 * x[1],
     return html_output
 # Feedback Function
+def log_feedback(feedback):
     try:
         now = datetime.now().strftime("%Y-%m-%d")
         table.create({
+            "model": "BGE M3",
             "timestamp": now,
             "raw_query": latest_query_result["raw_query"],
             "query": latest_query_result["query"],
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("## 🔎 Product Semantic Search (BGE M3 + Qdrant)")
+    query_input = gr.Textbox(label="พิมพ์คำค้นหา")
     result_output = gr.HTML(label="📋 ผลลัพธ์")
     with gr.Row():
     feedback_status = gr.Textbox(label="📬 สถานะ Feedback")
+    query_input.submit(search_product, inputs=[query_input], outputs=result_output)
+    match_btn.click(fn=lambda: log_feedback("match"), outputs=feedback_status)
+    not_match_btn.click(fn=lambda: log_feedback("not_match"), outputs=feedback_status)
 demo.launch(share=True)