Spaces:

AtPeak
/

japanese-address-search-v2

Runtime error

App Files Files Community

matsuap commited on Apr 28

Commit

ba0a056

1 Parent(s): 7963713

環境変数の設定を追加し、住所比較機能やベクトル検索機能を実装。Gradioタブを用いて新しいエンドポイントを作成し、テキスト処理機能を強化。必要なライブラリをrequirements.txtに追加。

Browse files

Files changed (3) hide show

.gitignore +2 -1
app.py +244 -81
requirements.txt +5 -1

.gitignore CHANGED Viewed

@@ -1,4 +1,5 @@
 .venv/
 embeddings/
 embeddings_/
-__pycache__/

 .venv/
 embeddings/
 embeddings_/
+__pycache__/
+.env

app.py CHANGED Viewed

@@ -1,4 +1,7 @@
 import gradio as gr
 import time
 import requests
 import pandas as pd
@@ -10,24 +13,9 @@ from dotenv import load_dotenv
 # .envファイルを読み込む
 load_dotenv()
-app = FastAPI()
-@app.post("/replace-circle")
-def replace_circle(input_text):
-    output_text = input_text.replace('◯', '0')
-    return output_text
-@app.post("/remove-filler")
-def remove_filler(input_text):
-    output_text = input_text
-    return output_text
-@app.post("/preprocess")
-def preprocess(input_text):
-    output_text = replace_circle(input_text)
-    output_text = remove_filler(output_text)
-    return output_text
 # 環境変数からHUGGING_FACE_TOKENを取得
 HUGGING_FACE_TOKEN = os.environ.get('HUGGING_FACE_TOKEN')
 EMBEDDING_MODEL_ENDPOINT = os.environ.get('EMBEDDING_MODEL_ENDPOINT')
@@ -36,14 +24,99 @@ ABRG_ENDPOINT = os.environ.get('ABRG_ENDPOINT')
 VECTOR_SEARCH_ENDPOINT = os.environ.get('VECTOR_SEARCH_ENDPOINT')
 VECTOR_SEARCH_TOKEN = os.environ.get('VECTOR_SEARCH_TOKEN')
 VECTOR_SEARCH_COLLECTION_NAME = os.environ.get('VECTOR_SEARCH_COLLECTION_NAME')
-def init_milvus():
-    milvus_client = MilvusClient(uri=VECTOR_SEARCH_ENDPOINT, token=VECTOR_SEARCH_TOKEN)
-    print(f"Connected to DB: {VECTOR_SEARCH_ENDPOINT} successfully")
-    return milvus_client
-MILVUS_CLIENT = init_milvus()
 # 47都道府県のリスト
 prefs = [
@@ -56,34 +129,6 @@ prefs = [
     '熊本県', '大分県', '宮崎県', '鹿児島県', '沖縄県'
 ]
-examples = [
-        '私の住所は京都府京都市右京区太秦青木元町４－１０です。',
-        '京都府京都市右京区太秦青木元町４－１０',
-        '京都府京都市右京区太秦青木元町４－１０ダックス101号室',
-        '京都府宇治市伊勢田町名木１－１－４ダックス101号室',
-        '東京都渋谷区道玄坂1-12-1',
-        '私の住所は東京都渋谷区道玄坂1-12-1です。',
-        '私の住所は東京都しぶや道玄坂1の12の1です。',
-        '東京都渋谷区道玄坂1の12の1で契約しています。',
-        '秋田県秋田市山王四丁目1番1号です。',
-        '東京 墨田区 押上 １丁目１',
-        '三重県伊勢市宇治館町',
-        '住所は 030-0803 青森県青森市安方１丁目１−４０になります。',
-        '東京都大島町差木地 字クダッチ',
-        '前橋市大手町１丁目1番地１',
-        '東京都渋谷区表参道の3の5の6。',
-        '琉球圏尾張町3の5の6に住んでます。',
-        '3254987の場所です。',
-        '大阪府でした。',
-        '1940923の東京都渋谷区道玄坂一丁目。渋谷マークシティウェスト23階です。',
-        '名前は山田太郎です。',
-        'はい。名古屋、あ、愛知県名古屋市南里2の3の4だと思います。',
-        'ー',
-        '少し待ってください。',
-]
-from enum import Enum
 class InferenceEndpointErrorCode(Enum):
     INVALID_STATE = 400
     SERVICE_UNAVAILABLE = 503
@@ -115,11 +160,11 @@ def embed_via_multilingual_e5_large(query_addresses):
     return response_json
-def search_via_milvus(query_vector, top_k):
     search_params = {"metric_type": "COSINE", "params": {"nprobe": 10}}  # MiniLM系はCOSINE推奨
     results = MILVUS_CLIENT.search(
-        collection_name=VECTOR_SEARCH_COLLECTION_NAME,
         data=[query_vector],
         search_params=search_params,
         limit=top_k,
@@ -131,11 +176,129 @@ def search_via_milvus(query_vector, top_k):
     for i, result in enumerate(results, start=1):
         distance = result['distance']
         address = result['entity'].get('address')
-        hits.append([i, distance, address])
     return hits
-with gr.Blocks() as demo:
     with gr.Tab("デジ庁API"):
         with gr.Row():
             with gr.Column():
@@ -161,6 +324,9 @@ with gr.Blocks() as demo:
                 'oaza_cho': result['oaza_cho'],
                 'chome': result['chome'],
                 'koaza': result['koaza'],
                 'prc_num1': result['prc_num1'],
                 'prc_num2': result['prc_num2'],
                 'prc_num3': result['prc_num3'],
@@ -176,6 +342,7 @@ with gr.Blocks() as demo:
             outputs=[result_tb, result_df],
         )
     with gr.Tab("ベクトル検索"):
         with gr.Row():
             with gr.Column():
@@ -183,40 +350,36 @@ with gr.Blocks() as demo:
                 gr.Examples(examples=examples, inputs=[address_input])
                 top_k_input = gr.Slider(minimum=1, maximum=100, step=1, value=5, label='検索数top-k')
                 search_button = gr.Button(value='検索', variant='primary')
-        result_dataframe = gr.Dataframe(label="検索結果")
         def search_address(query_address, top_k):
-            query_address = preprocess(query_address)
-            wait_time = 30
-            max_retries = 5
-            for attempt in range(max_retries):
-                try:
-                    query_embeds = embed_via_multilingual_e5_large([query_address])
-                    break  # 成功した場合はループを抜ける
-                except InferenceEndpointError as e:
-                    if e.code == InferenceEndpointErrorCode.SERVICE_UNAVAILABLE:
-                        if attempt < max_retries - 1:
-                            gr.Warning(f"{InferenceEndpointErrorCode.SERVICE_UNAVAILABLE}: 埋め込みモデルの推論エンドポイントが起動中です。{wait_time}秒後にリトライします。", duration=wait_time)
-                            time.sleep(wait_time)  # 30秒待機
-                        else:
-                            raise gr.Error(f"{InferenceEndpointErrorCode.SERVICE_UNAVAILABLE}: 最大リトライ回数に達しました。しばらくしてから再度実行してみてください。")
-                    elif e.code == InferenceEndpointErrorCode.INVALID_STATE:
-                        raise gr.Error(f"{InferenceEndpointErrorCode.INVALID_STATE}: 埋め込みモデルの推論エンドポイントが停止中です。再起動するよう管理者に問い合わせてください。")
-                    elif e.code == InferenceEndpointErrorCode.UNKNOWN_ERROR:
-                        raise gr.Error(f"{InferenceEndpointErrorCode.UNKNOWN_ERROR}: {e.message}")
-            hits = search_via_milvus(query_embeds[0], top_k)
-            df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所'])
-            return df
         search_button.click(
             fn=search_address,
             inputs=[address_input, top_k_input],
-            outputs=[result_dataframe]
         )
 app = gr.mount_gradio_app(app, demo, path='/')

 import gradio as gr
+import spacy
+from normalize_japanese_addresses import normalize
+from enum import Enum
 import time
 import requests
 import pandas as pd
 # .envファイルを読み込む
 load_dotenv()
+# =========================
+#  Global variables
+# =========================
 # 環境変数からHUGGING_FACE_TOKENを取得
 HUGGING_FACE_TOKEN = os.environ.get('HUGGING_FACE_TOKEN')
 EMBEDDING_MODEL_ENDPOINT = os.environ.get('EMBEDDING_MODEL_ENDPOINT')
 VECTOR_SEARCH_ENDPOINT = os.environ.get('VECTOR_SEARCH_ENDPOINT')
 VECTOR_SEARCH_TOKEN = os.environ.get('VECTOR_SEARCH_TOKEN')
 VECTOR_SEARCH_COLLECTION_NAME = os.environ.get('VECTOR_SEARCH_COLLECTION_NAME')
+VECTOR_SEARCH_COLLECTION_NAME_V2 = os.environ.get('VECTOR_SEARCH_COLLECTION_NAME_V2')
+MILVUS_CLIENT = MilvusClient(uri=VECTOR_SEARCH_ENDPOINT, token=VECTOR_SEARCH_TOKEN)
+print(f"Connected to DB: {VECTOR_SEARCH_ENDPOINT} successfully")
+# =========================
+#  Utilitiy functions
+# =========================
+def split_address(normalized_address):
+    splits = normalize(normalized_address)
+    return splits
+def compare(normalized_address1, normalized_address2):
+    split1 = split_address(normalized_address1)
+    split2 = split_address(normalized_address2)
+    result = {
+        'pref': False,
+        'city': False,
+        'town': False,
+        'addr': False,
+    }
+    for key in result.keys():
+        if split1[key] == split2[key]:
+            result[key] = True
+    return all(result.values())
+def vector_search(query_address, top_k):
+    wait_time = 30
+    max_retries = 5
+    for attempt in range(max_retries):
+        try:
+            query_embeds = embed_via_multilingual_e5_large([query_address])
+            break  # 成功した場合はループを抜ける
+        except InferenceEndpointError as e:
+            if e.code == InferenceEndpointErrorCode.SERVICE_UNAVAILABLE:
+                if attempt < max_retries - 1:
+                    gr.Warning(f"{InferenceEndpointErrorCode.SERVICE_UNAVAILABLE}: 埋め込みモデルの推論エンドポイントが起動中です。{wait_time}秒後にリトライします。", duration=wait_time)
+                    time.sleep(wait_time)  # 30秒待機
+                else:
+                    raise gr.Error(f"{InferenceEndpointErrorCode.SERVICE_UNAVAILABLE}: 最大リトライ回数に達しました。しばらくしてから再度実行してみてください。")
+            elif e.code == InferenceEndpointErrorCode.INVALID_STATE:
+                raise gr.Error(f"{InferenceEndpointErrorCode.INVALID_STATE}: 埋め込みモデルの推論エンドポイントが停止中です。再起動するよう管理者に問い合わせてください。")
+            elif e.code == InferenceEndpointErrorCode.UNKNOWN_ERROR:
+                raise gr.Error(f"{InferenceEndpointErrorCode.UNKNOWN_ERROR}: {e.message}")
+    '''
+    hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME_V2)
+    if hits:
+        normalized = hits[0][-1]
+    else:
+        hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME)
+        normalized = hits[0][-1]
+    '''
+    hits = search_via_milvus(query_embeds[0], top_k, VECTOR_SEARCH_COLLECTION_NAME)
+    return hits
+def replace_circle(input_text):
+    output_text = input_text.replace('◯', '0')
+    return output_text
+def remove_filler(input_text: str) -> str:
+    """
+    GiNZAを用いて日本語テキストからフィラーを除去する関数。
+    Parameters:
+        text (str): 入力テキスト。
+    Returns:
+        str: フィラーを除去したテキスト。
+    """
+    # GiNZAモデルの読み込み
+    nlp = spacy.load("ja_ginza")
+    # テキストの解析
+    doc = nlp(input_text)
+    # フィラーを除去したテキストの生成
+    cleaned_text = ''.join([token.text for token in doc if token.tag_ != "感動詞-フィラー"])
+    return cleaned_text
+def preprocess(input_text):
+    output_text = replace_circle(input_text)
+    output_text = remove_filler(output_text)
+    return output_text
 # 47都道府県のリスト
 prefs = [
     '熊本県', '大分県', '宮崎県', '鹿児島県', '沖縄県'
 ]
 class InferenceEndpointErrorCode(Enum):
     INVALID_STATE = 400
     SERVICE_UNAVAILABLE = 503
     return response_json
+def search_via_milvus(query_vector, top_k, collection_name, thresh=0.9):
     search_params = {"metric_type": "COSINE", "params": {"nprobe": 10}}  # MiniLM系はCOSINE推奨
     results = MILVUS_CLIENT.search(
+        collection_name=collection_name,
         data=[query_vector],
         search_params=search_params,
         limit=top_k,
     for i, result in enumerate(results, start=1):
         distance = result['distance']
         address = result['entity'].get('address')
+        if distance >= thresh:
+            hits.append([i, distance, address])
     return hits
+# =========================
+#  FastAPI definition
+# =========================
+app = FastAPI()
+@app.post("/compare-two-addresses")
+def compare_two_addresses(address1, address2):
+    preprocessed1 = preprocess(address1)
+    preprocessed2 = preprocess(address2)
+    hits1 = vector_search(preprocessed1, top_k=1)
+    hits2 = vector_search(preprocessed2, top_k=1)
+    normalized1 = hits1[0][-1]
+    normalized2 = hits2[0][-1]
+    result = compare(normalized1, normalized2)
+    return result
+# =========================
+#  Gradio tabs definition
+# =========================
+def create_endpoint_test_tab():
+    def create_replace_circle_tab():
+        with gr.Tab("replace_circle"):
+            in_tb = gr.Textbox(label='インプット', placeholder='テキストを入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=replace_circle,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    def create_remove_filler_tab():
+        with gr.Tab("remove_filler"):
+            in_tb = gr.Textbox(label='インプット', placeholder='テキストを入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=remove_filler,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    def create_preprocess_tab():
+        with gr.Tab("preprocess"):
+            in_tb = gr.Textbox(label='インプット', placeholder='テキストを入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=preprocess,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    def create_compare_two_addresses_tab():
+        with gr.Tab("compare_two_addresses"):
+            in_tb1 = gr.Textbox(label='住所1 (顧客が発言した住所)', placeholder='住所を入力してください')
+            in_tb2 = gr.Textbox(label='住所2 (CRM 内に格納されている住所)', placeholder='住所を入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=compare_two_addresses,
+                inputs=[in_tb1, in_tb2],
+                outputs=[out_tb],
+            )
+    def create_normalize_address_tab():
+        with gr.Tab("normalize_address"):
+            in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=lambda address: vector_search(address, top_k=1)[0][-1],
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    def create_split_address_tab():
+        with gr.Tab("split_address"):
+            in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=split_address,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    with gr.Tab("関数テスト"):
+        create_compare_two_addresses_tab()
+        create_replace_circle_tab()
+        create_remove_filler_tab()
+        create_preprocess_tab()
+        create_normalize_address_tab()
+        create_split_address_tab()
+examples = [
+        '私の住所は京都府京都市右京区太秦青木元町４－１０です。',
+        '京都府京都市右京区太秦青木元町４－１０',
+        '京都府京都市右京区太秦青木元町４－１０ダックス101号室',
+        '京都府宇治市伊勢田町名木１－１－４ダックス101号室',
+        '東京都渋谷区道玄坂1-12-1',
+        '私の住所は東京都渋谷区道玄坂1-12-1です。',
+        '私の住所は東京都しぶや道玄坂1の12の1です。',
+        '東京都渋谷区道玄坂1の12の1で契約しています。',
+        '秋田県秋田市山王四丁目1番1号です。',
+        '東京 墨田区 押上 １丁目１',
+        '三重県伊勢市宇治館町',
+        '住所は 030-0803 青森県青森市安方１丁目１−４０になります。',
+        '東京都大島町差木地 字クダッチ',
+        '前橋市大手町１丁目1番地１',
+        '東京都渋谷区表参道の3の5の6。',
+        '琉球圏尾張町3の5の6に住んでます。',
+        '3254987の場所です。',
+        '大阪府でした。',
+        '1940923の東京都渋谷区道玄坂一丁目。渋谷マークシティウェスト23階です。',
+        '名前は山田太郎です。',
+        'はい。名古屋、あ、愛知県名古屋市南里2の3の4だと思います。',
+        'ー',
+        '少し待ってください。',
+]
+def create_digital_agency_tab():
     with gr.Tab("デジ庁API"):
         with gr.Row():
             with gr.Column():
                 'oaza_cho': result['oaza_cho'],
                 'chome': result['chome'],
                 'koaza': result['koaza'],
+                'blk_num': result['blk_num'],
+                'rsdt_num': result['rsdt_num'],
+                'rsdt_num2': result['rsdt_num2'],
                 'prc_num1': result['prc_num1'],
                 'prc_num2': result['prc_num2'],
                 'prc_num3': result['prc_num3'],
             outputs=[result_tb, result_df],
         )
+def create_vector_search_tab():
     with gr.Tab("ベクトル検索"):
         with gr.Row():
             with gr.Column():
                 gr.Examples(examples=examples, inputs=[address_input])
                 top_k_input = gr.Slider(minimum=1, maximum=100, step=1, value=5, label='検索数top-k')
                 search_button = gr.Button(value='検索', variant='primary')
+        result_tb = gr.Textbox(label='正規化後')
+        search_result_df = gr.Dataframe(label="検索結果")
+        result_df = gr.Dataframe(label="正規化後（分割）", wrap=True)
         def search_address(query_address, top_k):
+            preprocessed = preprocess(query_address)
+            hits = vector_search(preprocessed, top_k)
+            normalized = hits[0]
+            search_result_df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所'])
+            splits = split_address(normalized)
+            data = {
+                'pref': splits['pref'],
+                'city': splits['city'],
+                'town': splits['town'],
+                'addr': splits['addr'],
+            }
+            result_df = pd.DataFrame([data])
+            return search_result_df, normalized, result_df
         search_button.click(
             fn=search_address,
             inputs=[address_input, top_k_input],
+            outputs=[search_result_df, result_tb, result_df]
         )
+with gr.Blocks() as demo:
+    create_endpoint_test_tab()
+    create_vector_search_tab()
+    create_digital_agency_tab()
 app = gr.mount_gradio_app(app, demo, path='/')

requirements.txt CHANGED Viewed

@@ -4,4 +4,8 @@ numpy
 huggingface-hub
 fastapi
 uvicorn
-pymilvus

 huggingface-hub
 fastapi
 uvicorn
+pymilvus
+spacy
+normalize-japanese-addresses
+ginza
+ja-ginza