Spaces:

rein0421
/

AIdentify

Running

App Files Files

syurein commited on Jul 2

Commit

31d2be8

1 Parent(s): 7f525ef

Fix-gitignore-png

Browse files

Files changed (4) hide show

.gitignore +2 -0
__pycache__/search.cpython-312.pyc +0 -0
app.py +1 -1
search.py +76 -30

.gitignore CHANGED Viewed

@@ -10,6 +10,8 @@ llm_aidentify/
 # Saved images
 saved_images/
 output_*.jpg
 # Jupyter Notebook checkpoints
 .ipynb_checkpoints/

 # Saved images
 saved_images/
 output_*.jpg
+*.png
+duckduckgo_search_results.png
 # Jupyter Notebook checkpoints
 .ipynb_checkpoints/

__pycache__/search.cpython-312.pyc CHANGED Viewed

Binary files a/__pycache__/search.cpython-312.pyc and b/__pycache__/search.cpython-312.pyc differ

app.py CHANGED Viewed

@@ -298,7 +298,7 @@ async def llm_to_process_image_simple_auto(risk_level, image_path, point1, point
     debug_image_path = os.path.join("./saved_images", debug_image_name)
     # 個人情報流出に関する事例を検索し、クリーンなコンテンツを取得
-    scraper = WebScraper(headless=False)
     personal_breach_docs = await scraper.get_processed_documents(
         search_query="個人情報流出 事例 SNS",
         num_search_results=10

     debug_image_path = os.path.join("./saved_images", debug_image_name)
     # 個人情報流出に関する事例を検索し、クリーンなコンテンツを取得
+    scraper = WebScraper(headless=True)
     personal_breach_docs = await scraper.get_processed_documents(
         search_query="個人情報流出 事例 SNS",
         num_search_results=10

search.py CHANGED Viewed

@@ -4,11 +4,26 @@ from bs4 import BeautifulSoup
 from bs4.element import Comment
 from urllib.parse import urlparse, parse_qs
 from typing import List, Dict, Optional
 class WebScraper:
     """
     DuckDuckGoでの検索、URLからのコンテンツ取得、HTMLクリーンアップを行うクラス。
     """
     def __init__(self, headless: bool = True, default_timeout: int = 30000):
         """
         WebScraperのインスタンスを初期化します。
@@ -29,7 +44,17 @@ class WebScraper:
         if not self._browser or not self._browser.is_connected():
             if self._playwright_instance is None:
                 self._playwright_instance = await async_playwright().start()
-            self._browser = await self._playwright_instance.chromium.launch(headless=self.headless)
         return self._browser
     async def _close_browser(self):
@@ -46,6 +71,22 @@ class WebScraper:
         browser = await self._launch_browser() # ブラウザが起動または取得される
         page = await browser.new_page()
         page.set_default_timeout(self.default_timeout)
         return page
     async def search_duckduckgo(self, query: str, num_results: int = 3) -> List[Dict[str, str]]:
@@ -57,38 +98,38 @@ class WebScraper:
         try:
             page = await self._get_new_page()
-            """Playwrightのステルス技術を適用し、ボット検出を回避します。"""
-            await page.evaluate("""Object.defineProperty(navigator, 'webdriver', { get: () => false });""")
-            await page.evaluate("""Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5] });""")
-            await page.evaluate("""Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] });""")
-            await page.evaluate("""window.chrome = { runtime: {}, loadTimes: function() {}, csi: function() {}, app: {} };""")
-            await page.evaluate("""Object.defineProperty(navigator.permissions, 'query', { enumerable: true, configurable: true, writable: true, value: async (parameters) => ({ state: 'prompt' }) });""")
-            print(f"DuckDuckGoで '{query}' を検索中...")
-            # DuckDuckGoの検索URLは一般的に `?q=` パラメータを使用します
-            await page.goto(f"https://duckduckgo.com/?q={query}")
             # 検索結果のタイトルリンク要素を特定するセレクタ
-            # DuckDuckGoのHTML構造は変更される可能性があるため、適宜調整が必要
-            # 現在の一般的なセレクタは 'a[data-testid="result-title-link"]'
-            await page.wait_for_selector('h2 > a', timeout=10000)
-            # 検索結果のタイトルリンク要素を取得 (await は不要、Locatorオブジェクトを返す)
             search_links = page.locator('h2 > a')
-            # 取得する結果の数を制限
             for i in range(min(num_results, await search_links.count())):
                 link_element = search_links.nth(i)
-                # タイトルはリンク要素のテキストコンテンツ
                 title = await link_element.text_content()
-                # URLはリンク要素のhref属性
                 url = await link_element.get_attribute("href")
-                # DuckDuckGoのリダイレクトURLのデコードとクリーンアップ
                 if url:
                     parsed_url = urlparse(url)
-                    # DuckDuckGoのリダイレクトURLかどうかをチェック
                     if parsed_url.netloc == 'duckduckgo.com' and parsed_url.path == '/l/':
                         decoded_url = parse_qs(parsed_url.query).get('uddg', [''])[0]
                         url = decoded_url
@@ -96,6 +137,11 @@ class WebScraper:
                     # 結果を追加する前に、タイトルとURLが有効か軽くチェック
                     if title and url and title.strip() != "" and url.strip() != "":
                         results.append({"title": title.strip(), "url": url.strip()})
         except Exception as e:
             print(f"DuckDuckGo検索中にエラーが発生しました: {e}")
@@ -111,12 +157,12 @@ class WebScraper:
         page: Optional[Page] = None
         try:
             page = await self._get_new_page()
-            print(f"  URL: {url} のコンテンツを取得中...")
-            # 'domcontentloaded' は 'load' よりも高速な場合が多い
-            await page.goto(url, wait_until='domcontentloaded')
             return await page.content()
         except Exception as e:
-            print(f"  URL: {url} のコンテンツ取得中にエラーが発生しました: {e}")
             return None
         finally:
             if page:
@@ -157,7 +203,7 @@ class WebScraper:
         Returns:
             List[Dict[str, str]]: 処理されたドキュメントのリスト。
-                                  各ドキュメントは 'title', 'original_url', 'cleaned_html_content' を含む。
         """
         processed_documents = []
@@ -181,10 +227,10 @@ class WebScraper:
                             "original_url": result['url'],
                             "cleaned_html_content": cleaned_content
                         })
-                        print(f"  クリーンなコンテンツの長さ: {len(cleaned_content)} 文字")
-                        print(f"  クリーンなコンテンツ（一部）:\n{cleaned_content[:500]}...")
                     else:
-                        print("  クリーンなコンテンツを取得できませんでした。")
             else:
                 print("検索結果が見つからなかったため、処理をスキップします。")
         finally:
@@ -195,7 +241,7 @@ class WebScraper:
 # クラスの使用例
 async def main():
-    scraper = WebScraper(headless=False) # デバッグのためにheadless=Falseにしても良い
     query = "個人情報流出 事例"
     documents = await scraper.get_processed_documents(query, num_search_results=2)

 from bs4.element import Comment
 from urllib.parse import urlparse, parse_qs
 from typing import List, Dict, Optional
+import random # randomモジュールを追加
 class WebScraper:
     """
     DuckDuckGoでの検索、URLからのコンテンツ取得、HTMLクリーンアップを行うクラス。
     """
+    # User-Agentのリストをクラス変数として定義
+    USER_AGENTS = [
+        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",
+        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",
+        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+        "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/108.0",
+        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/108.0",
+        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", # 最新版に近いChrome
+        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15", # Safari
+        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 OPR/106.0.0.0", # Opera
+    ]
     def __init__(self, headless: bool = True, default_timeout: int = 30000):
         """
         WebScraperのインスタンスを初期化します。
         if not self._browser or not self._browser.is_connected():
             if self._playwright_instance is None:
                 self._playwright_instance = await async_playwright().start()
+            # ヘッドレスモードでの検出を避けるための引数を追加
+            self._browser = await self._playwright_instance.chromium.launch(
+                headless=self.headless,
+                args=[
+                    '--no-sandbox',
+                    '--disable-setuid-sandbox',
+                    '--disable-infobars',
+                    '--window-size=1280,720', # 一般的なデスクトップサイズに設定
+                    '--disable-blink-features=AutomationControlled' # ヘッドレス検出を回避
+                ]
+            )
         return self._browser
     async def _close_browser(self):
         browser = await self._launch_browser() # ブラウザが起動または取得される
         page = await browser.new_page()
         page.set_default_timeout(self.default_timeout)
+        # User-Agentをランダムに選択して設定
+        await page.set_extra_http_headers({
+            "User-Agent": random.choice(self.USER_AGENTS)
+        })
+        # より包括的なステルス対策をページに適用
+        await page.evaluate("""Object.defineProperty(navigator, 'webdriver', { get: () => false });""")
+        await page.evaluate("""Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5] });""")
+        await page.evaluate("""Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] });""")
+        await page.evaluate("""window.chrome = { runtime: {}, loadTimes: function() {}, csi: function() {}, app: {} };""")
+        await page.evaluate("""Object.defineProperty(navigator.permissions, 'query', { enumerable: true, configurable: true, writable: true, value: async (parameters) => ({ state: 'prompt' }) });""")
+        # ページロード後の追加待機
+        await asyncio.sleep(random.uniform(2, 5))
         return page
     async def search_duckduckgo(self, query: str, num_results: int = 3) -> List[Dict[str, str]]:
         try:
             page = await self._get_new_page()
+            print(f"Bingで '{query}' を検索中...")
+            # networkidle でより安定したページロードを待機
+            await page.goto(f"https://www.bing.com/search?q=={query}&setlang=ja", wait_until='networkidle')
+            # デバッグのためにページのスクリーンショットを保存
+            await page.screenshot(path="./duckduckgo_search_results.png")
             # 検索結果のタイトルリンク要素を特定するセレクタ
+            # DuckDuckGoのHTML構造は変更される可能性があるため、適宜調整が必要です。
+            # 現在の一般的なセレクタは 'a[data-testid="result-title-link"]' もしくは 'h2 > a' ですが、
+            # ページ構造が変わった場合は、開発者ツールで適切なセレクタを見つけてください。
+            # 要素が見つかるまで、より長く待機するか、別のセレクタを試す
+            try:
+                await page.wait_for_selector('h2 > a', timeout=20000) # タイムアウトを長くする
+            except Exception as e:
+                print(f"セレクタ 'h2 > a' の待機中にタイムアウトしました: {e}")
+                # ここで代替のセレクタを試すか、処理を終了する
+                return []
             search_links = page.locator('h2 > a')
             for i in range(min(num_results, await search_links.count())):
                 link_element = search_links.nth(i)
                 title = await link_element.text_content()
                 url = await link_element.get_attribute("href")
                 if url:
                     parsed_url = urlparse(url)
+                    # DuckDuckGoのリダイレクトURLのデコードとクリーンアップ
                     if parsed_url.netloc == 'duckduckgo.com' and parsed_url.path == '/l/':
                         decoded_url = parse_qs(parsed_url.query).get('uddg', [''])[0]
                         url = decoded_url
                     # 結果を追加する前に、タイトルとURLが有効か軽くチェック
                     if title and url and title.strip() != "" and url.strip() != "":
                         results.append({"title": title.strip(), "url": url.strip()})
+            # 検索結果が一つも見つからなかった場合もスクリーンショットを保存
+            if not results:
+                print(f"検索結果が見つかりませんでした。ページのスクリーンショットを './duckduckgo_no_results.png' に保存します。")
+                await page.screenshot(path="./duckduckgo_no_results.png")
         except Exception as e:
             print(f"DuckDuckGo検索中にエラーが発生しました: {e}")
         page: Optional[Page] = None
         try:
             page = await self._get_new_page()
+            print(f"   URL: {url} のコンテンツを取得中...")
+            # networkidle でより安定したページロードを待機
+            await page.goto(url)
             return await page.content()
         except Exception as e:
+            print(f"   URL: {url} のコンテンツ取得中にエラーが発生しました: {e}")
             return None
         finally:
             if page:
         Returns:
             List[Dict[str, str]]: 処理されたドキュメントのリスト。
+                                    各ドキュメン��は 'title', 'original_url', 'cleaned_html_content' を含む。
         """
         processed_documents = []
                             "original_url": result['url'],
                             "cleaned_html_content": cleaned_content
                         })
+                        print(f"   クリーンなコンテンツの長さ: {len(cleaned_content)} 文字")
+                        print(f"   クリーンなコンテンツ（一部）:\n{cleaned_content[:500]}...")
                     else:
+                        print("   クリーンなコンテンツを取得できませんでした。")
             else:
                 print("検索結果が見つからなかったため、処理をスキップします。")
         finally:
 # クラスの使用例
 async def main():
+    scraper = WebScraper(headless=False) # まずはheadless=Trueで試してください
     query = "個人情報流出 事例"
     documents = await scraper.get_processed_documents(query, num_search_results=2)