Spaces:

AtPeak
/

japanese-address-search-v2

Sleeping

App Files Files Community

matsuap commited on May 8

Commit

d934afb

1 Parent(s): 5a18e3b

住所処理機能において、住所と建物名を分割する新しい関数を追加し、検索処理での住所の取り扱いを改善しました。正規表現を用いて住所の解析を行い、結果を適切に処理するように修正しました。

Browse files

Files changed (1) hide show

app.py +35 -3

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ from dotenv import load_dotenv
 import time
 from contextlib import contextmanager
 import numpy as np
 # .envファイルを読み込む
 load_dotenv()
@@ -122,6 +123,35 @@ def measure(label="処理"):
     end = time.time()
     print(f"{label} 実行時間: {end - start:.6f} 秒")
 def split_address(normalized_address):
     splits = normalize(normalized_address)
     return splits
@@ -735,8 +765,10 @@ def create_vector_search_tab():
         chiban_result_df = gr.Dataframe(label="地番・住居表示検索結果")
         def search_address(query_address, top_k):
             with measure('preprocess'):
-                preprocessed = preprocess(query_address)
             with measure('vector_search'):
                 hits = vector_search(preprocessed, top_k)
                 search_result_df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所', '都道府県', '郡', '市区町村', '政令市区', '大字・町', '丁目', '小字'])
@@ -761,7 +793,7 @@ def create_vector_search_tab():
                         splits['oaza_cho'], splits['chome'], splits['koaza'])
                 addresses = list(set(addresses))  # 重複を除去
             with measure('embed_via_multilingual_e5_large'):
-                embeds = embed_via_multilingual_e5_large([query_address] + addresses)
                 query_embed = [embeds[0]]
                 address_embeds = embeds[1:]
             with measure('cosine'):
@@ -775,7 +807,7 @@ def create_vector_search_tab():
                 chiban_result_df = pd.DataFrame({
                     'Top-k': range(1, top_k + 1),
                     '類似度': best_similarities,
-                    '住所': best_addresses
                 })
                 best_address = best_addresses[0]

 import time
 from contextlib import contextmanager
 import numpy as np
+import re
 # .envファイルを読み込む
 load_dotenv()
     end = time.time()
     print(f"{label} 実行時間: {end - start:.6f} 秒")
+import re
+ADDRESS_REGEX = re.compile(
+    r'^'
+    r'(?P<address>'
+      r'.+?[都道府県]'                                                        # 都道府県
+      r'.+?[市区町村]'                                                        # 市区町村
+      r'.*?'                                                                  # 町名など（最小マッチ）
+      r'[0-9０-９]+'                                                          # 番地の先頭数字
+      r'(?:[-ー−–][0-9０-９]+)*'                                              # 「-数字」の繰返し
+      r'(?:(?:丁目|番地|番|号)'                                                # 「丁目」「番地」「番」「号」
+        r'(?:[0-9０-９]+'                                                     #   のあとに続く数字
+          r'(?:[-ー−–][0-9０-９]+)*'                                          #   「-数字」の繰返し
+        r')?'
+      r')*'                                                                   # 上記ユニットを何度でも繰返し
+    r')'
+    r'(?P<building>.*)'                                                       # 残りを建物名としてキャプチャ
+    r'$'
+)
+def split_address_building(address: str) -> dict:
+    m = ADDRESS_REGEX.match(address)
+    if not m:
+        return {'address': address, 'building': ''}
+    return {
+        'address': m.group('address').strip(),
+        'building': m.group('building').strip()
+    }
 def split_address(normalized_address):
     splits = normalize(normalized_address)
     return splits
         chiban_result_df = gr.Dataframe(label="地番・住居表示検索結果")
         def search_address(query_address, top_k):
+            with measure('split_address_building'):
+                splitted = split_address_building(query_address)
             with measure('preprocess'):
+                preprocessed = preprocess(splitted['address'])
             with measure('vector_search'):
                 hits = vector_search(preprocessed, top_k)
                 search_result_df = pd.DataFrame(hits, columns=['Top-k', '類似度', '住所', '都道府県', '郡', '市区町村', '政令市区', '大字・町', '丁目', '小字'])
                         splits['oaza_cho'], splits['chome'], splits['koaza'])
                 addresses = list(set(addresses))  # 重複を除去
             with measure('embed_via_multilingual_e5_large'):
+                embeds = embed_via_multilingual_e5_large([splitted['address']] + addresses)
                 query_embed = [embeds[0]]
                 address_embeds = embeds[1:]
             with measure('cosine'):
                 chiban_result_df = pd.DataFrame({
                     'Top-k': range(1, top_k + 1),
                     '類似度': best_similarities,
+                    '住所': best_addresses + splitted['building']
                 })
                 best_address = best_addresses[0]