Spaces:

AtPeak
/

japanese-address-search-v2

Sleeping

App Files Files Community

matsuap commited on May 8

Commit

43d5699

1 Parent(s): 9dcbb35

Azure OpenAI APIを統合し、住所を分割する新しい関数を追加。全角から半角への変換機能を実装し、Gradioタブに新しい機能を追加しました。また、依存関係にopenaiを追加しました。

Browse files

Files changed (2) hide show

app.py +81 -7
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -17,6 +17,8 @@ import time
 from contextlib import contextmanager
 import numpy as np
 import re
 # .envファイルを読み込む
 load_dotenv()
@@ -48,6 +50,15 @@ prefs = [
     '徳島県', '香川県', '愛媛県', '高知県', '福岡県', '佐賀県', '長崎県',
     '熊本県', '大分県', '宮崎県', '鹿児島県', '沖縄県'
 ]
 # ----------------------------
 #  Download mt_city_all.csv
@@ -123,7 +134,14 @@ def measure(label="処理"):
     end = time.time()
     print(f"{label} 実行時間: {end - start:.6f} 秒")
-import re
 ADDRESS_REGEX = re.compile(
     r'^'
@@ -152,6 +170,31 @@ def split_address_building(address: str) -> dict:
         'building': m.group('building').strip()
     }
 def split_address(normalized_address):
     splits = normalize(normalized_address)
     return splits
@@ -413,8 +456,10 @@ def compare_two_addresses(address1, address2):
     return result
 def normalize_address(query_address):
-    with measure('split_address_building'):
-        splitted = split_address_building(query_address)
     with measure('preprocess'):
         preprocessed = preprocess(splitted['address'])
     with measure('vector_search'):
@@ -545,6 +590,8 @@ async def normalize_address_api(request: NormalizeAddressRequest):
 #  Gradio tabs definition
 # =========================
 examples = [
         '私の住所は京都府京都市右京区太秦青木元町４－１０です。',
         '京都府京都市右京区太秦青木元町４－１０',
         '京都府京都市右京区太秦青木元町４－１０ダックス101号室',
@@ -641,6 +688,7 @@ def create_function_test_tab():
     def create_split_address_tab():
         with gr.Tab("split_address"):
             in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
             out_tb = gr.Textbox(label='アウトプット')
             exe_button = gr.Button(value='実行', variant='primary')
             exe_button.click(
@@ -648,6 +696,28 @@ def create_function_test_tab():
                 inputs=[in_tb],
                 outputs=[out_tb],
             )
     def create_vector_search():
         def f(query_address, top_k):
             with measure('preprocess'):
@@ -708,6 +778,8 @@ def create_function_test_tab():
         create_remove_filler_tab()
         create_preprocess_tab()
         create_split_address_tab()
 def create_digital_agency_tab():
     with gr.Tab("デジ庁API"):
@@ -767,8 +839,10 @@ def create_vector_search_tab():
         chiban_result_df = gr.Dataframe(label="地番・住居表示検索結果")
         def search_address(query_address, top_k):
-            with measure('split_address_building'):
-                splitted = split_address_building(query_address)
             with measure('preprocess'):
                 preprocessed = preprocess(splitted['address'])
             with measure('vector_search'):
@@ -809,10 +883,10 @@ def create_vector_search_tab():
                 chiban_result_df = pd.DataFrame({
                     'Top-k': range(1, top_k + 1),
                     '類似度': best_similarities,
-                    '住所': best_addresses + splitted['building']
                 })
-                best_address = best_addresses[0]
             return search_result_df, chiban_result_df, best_address, result_df

 from contextlib import contextmanager
 import numpy as np
 import re
+import os
+from openai import AzureOpenAI
 # .envファイルを読み込む
 load_dotenv()
     '徳島県', '香川県', '愛媛県', '高知県', '福岡県', '佐賀県', '長崎県',
     '熊本県', '大分県', '宮崎県', '鹿児島県', '沖縄県'
 ]
+# ----------------------------
+#  Azure OpenAI API
+# ----------------------------
+client = AzureOpenAI(
+    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
+    api_version="2025-03-01-preview",
+    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT")
+)
 # ----------------------------
 #  Download mt_city_all.csv
     end = time.time()
     print(f"{label} 実行時間: {end - start:.6f} 秒")
+def convert_zenkaku_to_hankaku(text):
+    zenkaku_numbers = '０１２３４５６７８９'
+    hankaku_numbers = '0123456789'
+    zenkaku_hyphens = '－'
+    hankaku_hyphens = '-'
+    translation_table = str.maketrans(zenkaku_numbers + zenkaku_hyphens, hankaku_numbers + hankaku_hyphens)
+    return text.translate(translation_table)
 ADDRESS_REGEX = re.compile(
     r'^'
         'building': m.group('building').strip()
     }
+def split_address_building_with_gpt(query_address: str) -> dict:
+    class SplittedAddress(BaseModel):
+        address: str
+        building: str
+    response = client.responses.parse(
+        model="gpt-4o-mini",
+        input=[
+            {"role": "system", "content": "Extract the event information."},
+            {
+                "role": "user",
+                "content": f"与えられた住所をaddressとbuildingに分けろ：{query_address}",
+            },
+        ],
+        text_format=SplittedAddress,
+    )
+    response = response.output_parsed
+    return {
+        'address': response.address,
+        'building': response.building,
+    }
 def split_address(normalized_address):
     splits = normalize(normalized_address)
     return splits
     return result
 def normalize_address(query_address):
+    with measure('convert_zenkaku_to_hankaku'):
+        query_address = convert_zenkaku_to_hankaku(query_address)
+    with measure('split_address_building_with_gpt'):
+        splitted = split_address_building_with_gpt(query_address)
     with measure('preprocess'):
         preprocessed = preprocess(splitted['address'])
     with measure('vector_search'):
 #  Gradio tabs definition
 # =========================
 examples = [
+        '東京都荒川区１−5−6荒川マンション102',
+        '福岡市中央区天神1の11の2',
         '私の住所は京都府京都市右京区太秦青木元町４－１０です。',
         '京都府京都市右京区太秦青木元町４－１０',
         '京都府京都市右京区太秦青木元町４－１０ダックス101号室',
     def create_split_address_tab():
         with gr.Tab("split_address"):
             in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
+            gr.Examples(examples=examples, inputs=[in_tb])
             out_tb = gr.Textbox(label='アウトプット')
             exe_button = gr.Button(value='実行', variant='primary')
             exe_button.click(
                 inputs=[in_tb],
                 outputs=[out_tb],
             )
+    def create_split_address_building_tab():
+        with gr.Tab("split_address_building_with_gpt"):
+            in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
+            gr.Examples(examples=examples, inputs=[in_tb])
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=split_address_building_with_gpt,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
+    def create_convert_zenkaku_to_hankaku_tab():
+        with gr.Tab("convert_zenkaku_to_hankaku"):
+            in_tb = gr.Textbox(label='住所', placeholder='住所を入力してください')
+            gr.Examples(examples=examples, inputs=[in_tb])
+            out_tb = gr.Textbox(label='アウトプット')
+            exe_button = gr.Button(value='実行', variant='primary')
+            exe_button.click(
+                fn=convert_zenkaku_to_hankaku,
+                inputs=[in_tb],
+                outputs=[out_tb],
+            )
     def create_vector_search():
         def f(query_address, top_k):
             with measure('preprocess'):
         create_remove_filler_tab()
         create_preprocess_tab()
         create_split_address_tab()
+        create_split_address_building_tab()
+        create_convert_zenkaku_to_hankaku_tab()
 def create_digital_agency_tab():
     with gr.Tab("デジ庁API"):
         chiban_result_df = gr.Dataframe(label="地番・住居表示検索結果")
         def search_address(query_address, top_k):
+            with measure('convert_zenkaku_to_hankaku'):
+                query_address = convert_zenkaku_to_hankaku(query_address)
+            with measure('split_address_building_with_gpt'):
+                splitted = split_address_building_with_gpt(query_address)
             with measure('preprocess'):
                 preprocessed = preprocess(splitted['address'])
             with measure('vector_search'):
                 chiban_result_df = pd.DataFrame({
                     'Top-k': range(1, top_k + 1),
                     '類似度': best_similarities,
+                    '住所': [best_address + splitted['building'] for best_address in best_addresses]
                 })
+                best_address = best_addresses[0] + splitted['building']
             return search_result_df, chiban_result_df, best_address, result_df

requirements.txt CHANGED Viewed

@@ -9,4 +9,5 @@ spacy
 normalize-japanese-addresses
 ginza
 ja-ginza
-scikit-learn

 normalize-japanese-addresses
 ginza
 ja-ginza
+scikit-learn
+openai