Spaces:
Running
Running
File size: 1,065 Bytes
709c305 68c46ce 709c305 b42a7a4 709c305 b42a7a4 68c46ce 709c305 b42a7a4 709c305 b42a7a4 68c46ce |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
from LLM_package import ObjectDetector
import os
from dotenv import load_dotenv
import numpy as np
import cv2
import asyncio
from PIL import Image
from search import WebScraper
load_dotenv(dotenv_path='../.env')
async def main():
scraper = WebScraper(headless=False) # UIなしで実行
# 個人情報流出に関する事例を検索し、上位2件のクリーンなコンテンツを取得
personal_breach_docs = await scraper.get_processed_documents(
search_query="個人情報流出 事例",
num_search_results=2
)
if personal_breach_docs:
print("\n--- 全ての処理済みドキュメントの概要 ---")
for doc in personal_breach_docs:
print(f"タイトル: {doc['title']}")
print(f"URL: {doc['original_url']}")
print(f"コンテンツサイズ: {len(doc['cleaned_html_content'])} 文字")
print("-" * 30)
else:
print("処理されたドキュメントはありませんでした。")
if __name__ == "__main__":
asyncio.run(main()) |