Bl_Crawl_t3

Running

App Files Files Community

AIRider commited on Jul 9, 2024

Commit

29582f1

verified ·

1 Parent(s): 9efd64d

Create app.py

Browse files

Files changed (1) hide show

app.py +105 -0

app.py ADDED Viewed

	@@ -0,0 +1,105 @@

+import requests
+from requests.adapters import HTTPAdapter
+from requests.packages.urllib3.util.retry import Retry
+from bs4 import BeautifulSoup
+import gradio as gr
+import datetime
+import pandas as pd
+import xlsxwriter
+def setup_session():
+    session = requests.Session()
+    retries = Retry(total=5, backoff_factor=1, status_forcelist=[502, 503, 504])
+    session.mount('https://', HTTPAdapter(max_retries=retries))
+    return session
+def get_base_url(board_select):
+    urls = {
+        "맘이베베": "https://cafe.naver.com/ArticleList.nhn?search.clubid=29434212&search.menuid=2&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=29434212",
+        "맘스홀릭": "https://cafe.naver.com/ArticleList.nhn?search.clubid=10094499&search.menuid=599&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=10094499",
+        "광주맘": "https://cafe.naver.com/ArticleList.nhn?search.clubid=26025763&search.menuid=508&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=26025763",
+		"쇼핑지름신": "https://cafe.naver.com/ArticleList.nhn?search.clubid=25729954&search.menuid=751&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=25729954",
+   		"부산맘": "https://cafe.naver.com/ArticleList.nhn?search.clubid=28707025&search.menuid=282&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=28707025",
+        "진희맘": "https://cafe.naver.com/ArticleList.nhn?search.clubid=21442290&search.menuid=476&search.boardtype=L&userDisplay=50&search.specialmenutype=&search.totalCount=501&search.cafeId=21442290"
+    }
+    return urls.get(board_select, "Invalid board selected")
+def convert_views(view_string):
+    if '만' in view_string:
+        number_part = view_string.replace('만', '')
+        return int(float(number_part) * 10000)
+    return int(view_string.replace(",", ""))
+def extract_data_to_excel_and_html(page, board_select):
+    session = setup_session()
+    base_url = get_base_url(board_select)
+    if base_url == "Invalid board selected":
+        return "Invalid board selected", ""
+    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
+    today = datetime.datetime.now().strftime("%Y%m%d")
+    workbook = xlsxwriter.Workbook(f'{board_select}_{today}.xlsx')
+    worksheet = workbook.add_worksheet()
+    worksheet.write('A1', '제목')
+    worksheet.write('B1', '작성일')
+    worksheet.write('C1', '조회수')
+    worksheet.write('D1', '좋아요')
+    html_output = "<table style='width:100%; border: 1px solid black;'><tr><th>제목</th><th>작성일</th><th>조회수</th><th>좋아요</th></tr>"
+    row = 1
+    for p in range(1, page + 1):
+        url = f"{base_url}&search.page={p}"
+        response = session.get(url, headers=headers)
+        soup = BeautifulSoup(response.text, 'html.parser')
+        article_boards = soup.find_all('div', class_='article-board m-tcol-c')
+        if len(article_boards) < 2:
+            continue
+        article_board = article_boards[1]
+        rows = article_board.find_all('tr')
+        current_date = datetime.datetime.now().strftime("%Y.%m.%d")
+        for row_data in rows:
+            try:
+                a_tag = row_data.find('a', class_='article')
+                if a_tag:
+                    link = a_tag['href']
+                    title = a_tag.get_text(strip=True)
+                    full_link = f"https://cafe.naver.com{link}"
+                    views = convert_views(row_data.find('td', class_='td_view').get_text(strip=True))
+                    likes = int(row_data.find('td', class_='td_likes').get_text(strip=True).replace(",", ""))
+                    date = row_data.find('td', class_='td_date').get_text(strip=True)
+                    if ":" in date:
+                        date = current_date
+                    worksheet.write_url(row, 0, full_link, string=title)
+                    worksheet.write(row, 1, date)
+                    worksheet.write_number(row, 2, views)
+                    worksheet.write_number(row, 3, likes)
+                    html_output += f"<tr><td><a href='{full_link}' target='_blank'>{title}</a></td><td>{date}</td><td>{views}</td><td>{likes}</td></tr>"
+                    row += 1
+            except AttributeError:
+                continue
+    workbook.close()
+    html_output += "</table>"
+    return f"{board_select}_{today}.xlsx", html_output
+with gr.Blocks() as demo:
+    gr.Markdown("# N사 Cafe 핫딜 게시판 크롤링")
+    gr.Markdown("""
+    페이지를 입력하면 결과를 출력합니다.<br>
+    최대 페이지수는 50페이지 입니다.
+    활용법 및 이커머스 교육 문의는 *** 으로 주세요.
+    """)
+    board_select = gr.Radio(["맘이베베", "맘스홀릭", "광주맘", "쇼핑지름신", "부산맘", "진희맘"], label="게시판을 선택하세요")
+    with gr.Row():
+        inp = gr.Number(label="수집을 원하시는 페이지 수를 입력하세요", value=1)
+        btn = gr.Button("수집")
+    output_file = gr.File(label="엑셀파일로 다운로드")
+    output_html = gr.HTML()
+    btn.click(fn=extract_data_to_excel_and_html, inputs=[inp, board_select], outputs=[output_file, output_html])
+if __name__ == "__main__":
+    demo.launch(share=True)