Spaces:

AtPeak
/

japanese-address-search-v2

Sleeping

App Files Files Community

matsuap commited on Apr 30

Commit

f4f7130

1 Parent(s): 6ca3d69

処理時間を測定するためのコンテキストマネージャを追加し、ベクトル検索および前処理の各ステップでの実行時間を計測するように修正。コードの可読性を向上させるために、不要なコメントを削除。

Browse files

Files changed (1) hide show

app.py +26 -18

app.py CHANGED Viewed

@@ -9,6 +9,16 @@ import os
 from fastapi import FastAPI
 from pymilvus import MilvusClient
 from dotenv import load_dotenv
 # .envファイルを読み込む
 load_dotenv()
@@ -58,7 +68,8 @@ def vector_search(query_address, top_k):
     max_retries = 5
     for attempt in range(max_retries):
         try:
-            query_embeds = embed_via_multilingual_e5_large([query_address])
             break  # 成功した場合はループを抜ける
         except InferenceEndpointError as e:
@@ -75,17 +86,8 @@ def vector_search(query_address, top_k):
             elif e.code == InferenceEndpointErrorCode.UNKNOWN_ERROR:
                 raise gr.Error(f"{InferenceEndpointErrorCode.UNKNOWN_ERROR}: {e.message}")
-    '''
-    hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME_V2)
-    if hits:
-        normalized = hits[0][-1]
-    else:
         hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME)
-        normalized = hits[0][-1]
-    '''
-    hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME)
     return hits
 def replace_circle(input_text):
@@ -200,8 +202,11 @@ def compare_two_addresses(address1, address2):
 @app.post("/normalize-address")
 def normalize_address(query_address):
-    preprocessed = preprocess(query_address)
-    return vector_search(preprocessed, top_k=1)[0][-1]
 # =========================
 #  Gradio tabs definition
@@ -360,11 +365,14 @@ def create_vector_search_tab():
         search_result_df = gr.Dataframe(label="検索結果")
         def search_address(query_address, top_k):
-            preprocessed = preprocess(query_address)
-            hits = vector_search(preprocessed, top_k)
-            normalized = hits[0][-1]
-            search_result_df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所'])
-            splits = split_address(normalized)
             data = {
                 'pref': splits['pref'],

 from fastapi import FastAPI
 from pymilvus import MilvusClient
 from dotenv import load_dotenv
+import time
+from contextlib import contextmanager
+@contextmanager
+def measure(label="処理"):
+    start = time.time()
+    yield
+    end = time.time()
+    print(f"{label} 実行時間: {end - start:.6f} 秒")
 # .envファイルを読み込む
 load_dotenv()
     max_retries = 5
     for attempt in range(max_retries):
         try:
+            with measure('vector_search - embed_via_multilingual_e5_large'):
+                query_embeds = embed_via_multilingual_e5_large([query_address])
             break  # 成功した場合はループを抜ける
         except InferenceEndpointError as e:
             elif e.code == InferenceEndpointErrorCode.UNKNOWN_ERROR:
                 raise gr.Error(f"{InferenceEndpointErrorCode.UNKNOWN_ERROR}: {e.message}")
+    with measure('vector_search - search_via_milvus'):
         hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME)
     return hits
 def replace_circle(input_text):
 @app.post("/normalize-address")
 def normalize_address(query_address):
+    with measure('preprocess'):
+        preprocessed = preprocess(query_address)
+    with measure('vector_search'):
+        result = vector_search(preprocessed, top_k=1)[0][-1]
+    return result
 # =========================
 #  Gradio tabs definition
         search_result_df = gr.Dataframe(label="検索結果")
         def search_address(query_address, top_k):
+            with measure('preprocess'):
+                preprocessed = preprocess(query_address)
+            with measure('vector_search'):
+                hits = vector_search(preprocessed, top_k)
+                normalized = hits[0][-1]
+                search_result_df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所'])
+            with measure('split_address'):
+                splits = split_address(normalized)
             data = {
                 'pref': splits['pref'],