File size: 1,065 Bytes
709c305
 
 
 
 
68c46ce
 
709c305
b42a7a4
709c305
b42a7a4
68c46ce
709c305
b42a7a4
 
 
 
 
709c305
b42a7a4
 
 
 
 
 
 
 
 
68c46ce
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
from LLM_package import ObjectDetector
import os
from dotenv import load_dotenv
import numpy as np
import cv2
import asyncio

from PIL import Image
from search import WebScraper
load_dotenv(dotenv_path='../.env')
async def main():
    scraper = WebScraper(headless=False) # UIなしで実行
    
    # 個人情報流出に関する事例を検索し、上位2件のクリーンなコンテンツを取得
    personal_breach_docs = await scraper.get_processed_documents(
        search_query="個人情報流出 事例", 
        num_search_results=2
    )

    if personal_breach_docs:
        print("\n--- 全ての処理済みドキュメントの概要 ---")
        for doc in personal_breach_docs:
            print(f"タイトル: {doc['title']}")
            print(f"URL: {doc['original_url']}")
            print(f"コンテンツサイズ: {len(doc['cleaned_html_content'])} 文字")
            print("-" * 30)
    else:
        print("処理されたドキュメントはありませんでした。")
if __name__ == "__main__":
    asyncio.run(main())