Bl_Crawl_t3

Running

App Files Files Community

AIRider commited on Jul 9, 2024

Commit

57f2a47

verified ·

1 Parent(s): 746c273

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -17

app.py CHANGED Viewed

@@ -23,28 +23,27 @@ def crawl_naver_search_results(url):
     response = session.get(url)
     soup = BeautifulSoup(response.text, "html.parser")
     results = []
-    for i, li in enumerate(soup.find_all("li", class_=re.compile("bx.*")), start=1):
         for div in li.find_all("div", class_="detail_box"):
             for div2 in div.find_all("div", class_="title_area"):
                 title = div2.text.strip()
                 for a in div2.find_all("a", href=True):
                     link = a["href"]
                     results.append({"번호": i, "제목": title, "링크": link})
-    if results:
-        first_result = results[0]
-        first_result_url = first_result["링크"]
-        response = session.get(first_result_url)
-        soup = BeautifulSoup(response.text, "html.parser")
-        title_tag = soup.find("div", class_="se-module se-module-text se-title-text")
-        if title_tag:
-            title = title_tag.text.strip()
-            first_result["제목"] = title
-            html_table = "<table><tr><th>번호</th><th>제목</th><th>링크</th></tr>"
-            html_table += f"<tr><td>{first_result['번호']}</td><td>{title}</td><td>{first_result['링크']}</td></tr>"
-            for result in results[1:]:
-                html_table += f"<tr><td>{result['번호']}</td><td>{result['제목']}</td><td>{result['링크']}</td></tr>"
-            html_table += "</table>"
-            return html_table
 with gr.Interface(
     fn=lambda query: crawl_naver_search_results(generate_naver_search_url(query)),
@@ -53,4 +52,13 @@ with gr.Interface(
     title="네이버 검색 제목과 링크 크롤러",
     description="검색 쿼리를 입력하여 네이버 검색 결과에서 제목과 링크를 크롤링합니다"
 ) as demo:
-    demo.launch()

     response = session.get(url)
     soup = BeautifulSoup(response.text, "html.parser")
     results = []
+    i = 1
+    for li in soup.find_all("li", class_=re.compile("bx.*")):
         for div in li.find_all("div", class_="detail_box"):
             for div2 in div.find_all("div", class_="title_area"):
                 title = div2.text.strip()
                 for a in div2.find_all("a", href=True):
                     link = a["href"]
                     results.append({"번호": i, "제목": title, "링크": link})
+                    i += 1
+    html_table = "<table><tr><th>번호</th><th>제목</th><th>링크</th></tr>"
+    for result in results[:10]:  # 10개의 결과만 출력
+        html_table += f"<tr><td>{result['번호']}</td><td>{result['제목']}</td><td>{result['링크']}</td></tr>"
+    html_table += "</table>"
+    return html_table
+def get_blog_content(link):
+    session = setup_session()
+    response = session.get(link)
+    soup = BeautifulSoup(response.text, "html.parser")
+    content = soup.find("div", class_="se-main-container").text.strip()
+    return content
 with gr.Interface(
     fn=lambda query: crawl_naver_search_results(generate_naver_search_url(query)),
     title="네이버 검색 제목과 링크 크롤러",
     description="검색 쿼리를 입력하여 네이버 검색 결과에서 제목과 링크를 크롤링합니다"
 ) as demo:
+    demo.launch()
+with gr.Interface(
+    fn=get_blog_content,
+    inputs=gr.Textbox(label="링크를 입력하세요"),
+    outputs=gr.Textbox(label="블로그 내용"),
+    title="블로그 내용 가져오기",
+    description="링크를 입력하여 블로그 내용을 가져옵니다"
+) as blog_content_interface:
+    blog_content_interface.launch()