Spaces:

3a05chatgpt
/

pdf-summarizer-app

Sleeping

App Files Files Community

3a05chatgpt commited on 3 days ago

Commit

50a43ab

verified ·

1 Parent(s): 427e9cf

Upload 8 files

Browse files

Files changed (6) hide show

README.md +29 -22
app.py +45 -118
papersearch.py +18 -29
pdfsum.py +16 -30
requirements.txt +2 -7
textsumm.py +22 -31

README.md CHANGED Viewed

@@ -1,37 +1,44 @@
 ---
-title: PDF工具箱（多功能PDF助手）
-emoji: 📄
-colorFrom: blue
-colorTo: green
 sdk: streamlit
-sdk_version: 1.35.0
 app_file: app.py
 pinned: false
 license: mit
 ---
-# 📄 PDF 工具箱（全功能多合一）
-這是一個多功能的 PDF 處理平台，支援下列中文化操作：
-- **文字摘要**：用 OpenAI GPT-4/4.1/4.5 模型自動生成關鍵重點摘要
-- **PDF 摘要**：支援長篇PDF內容摘要
-- **PDF 密碼移除**：移除加密 PDF 密碼
-- **arXiv 論文搜尋**：中文介面搜尋並過濾論文
-- **PDF 合併**、**拆頁**、**轉文字**等多功能
-- 全面中文介面與說明，適合教育、研究、行政等需求
 ## 使用說明
-1. 於側邊欄輸入你的 OpenAI API Key（sk- 或 sk-proj- 開頭）
-2. 選擇所需 GPT 模型（gpt-4, gpt-4.1, gpt-4.5）
-3. 選擇左側功能分頁並依需求操作上傳文件
-4. 所有步驟均有中文提示
-> 💡 **注意**：API Key 僅用於本次對話，不會儲存於伺服器，請安心使用！
-## 聯絡與貢獻
-本專案歡迎改進建議或功能增補，請於 Hugging Face 或 GitHub 提出 issue。
 ---

 ---
+title: PDF 工具箱 (中文)
+emoji: 📑
+colorFrom: blue         # 只能用 red, yellow, green, blue, indigo, purple, pink, gray
+colorTo: purple
 sdk: streamlit
+sdk_version: 1.34.0
 app_file: app.py
 pinned: false
 license: mit
 ---
+# 📑 PDF 工具箱（中文）
+這是一套多功能 PDF 與文本處理工具，內建多種 AI 智能應用，適用於學習、教學與日常工作！
+## 主要功能
+- **文字摘要**：輸入中英文長文，自動生成摘要
+- **PDF 摘要**：上傳 PDF，提取內容並自動生成摘要
+- **PDF 密碼移除**：上傳受密碼保護的 PDF，解除密碼（需輸入正確密碼）
+- **論文搜尋（arXiv）**：輸入主題關鍵字，快速查找與摘要學術論文
+- **PDF 合併**：多個 PDF 一鍵合併
+- **PDF 拆頁**：將 PDF 分割成多份
+- **PDF 轉純文字**：提取 PDF 文字內容
 ## 使用說明
+1. **輸入 OpenAI API 金鑰**（如有使用 GPT 文字/PDF 摘要功能）
+2. **選擇 GPT 模型**（支援 gpt-4, gpt-4.0, gpt-4.1, gpt-4.5）
+3. **根據需求選擇功能頁籤並操作**
+## 注意事項
+- PDF 上傳建議單檔不超過 10MB
+- 文字摘要與 PDF 摘要模型預設為 `facebook/bart-large-cnn`（僅英文摘要），如需中文請改為 Pegasus、ChineseBART 等支援中文的 summarization 模型
+- 你的 API 金鑰僅儲存在本地瀏覽器，不會外傳
+- 本專案基於 MIT License
+## 技術棧
+- Streamlit
+- PyPDF2、transformers、torch 等
 ---
+> 製作者：阿亮老師
+> 非經允許、不得私自修改應用！

app.py CHANGED Viewed

@@ -1,132 +1,59 @@
 import streamlit as st
-import openai
-from textsumm import 文字摘要
-from pdfsum import 提取_pdf文字, 分段, 摘要
-from pdfpass import 移除_pdf密碼
-from papersearch import 抓取論文, 篩選論文依年份
-from io import BytesIO
-from datetime import datetime
-from pypdf import PdfReader, PdfWriter
-# ---- 一定要在所有 st.xxx 指令之前 ----
-st.set_page_config(page_title="PDF 工具箱", page_icon="📄", layout="wide")
-# ---- 側邊欄（API Key 與模型選擇）----
-st.sidebar.title("📄 PDF 工具箱")
-api_key = st.sidebar.text_input("請輸入 OpenAI API 金鑰", type="password", placeholder="sk-...")
-selected_model = st.sidebar.radio("選擇 GPT 模型", ["gpt-4", "gpt-4.0", "gpt-4.1", "gpt-4.5"], index=0)
-if api_key:
-    openai.api_key = api_key
-else:
-    st.sidebar.warning("請輸入你的 OpenAI API Key（sk- 或 sk-proj- 開頭）")
-# ---- 分頁功能 ----
-page = st.sidebar.radio(
-    "選擇功能",
-    [
-        "文字摘要",
-        "PDF 摘要",
-        "PDF 密碼移除",
-        "論文搜尋",
-        "PDF 合併",
-        "PDF 拆頁",
-        "PDF 轉純文字"
-    ]
 )
-# 文字摘要
-if page == "文字摘要":
-    st.title("📝 文字摘要")
-    user_input = st.text_area("請輸入要摘要的文字")
-    if st.button("生成摘要"):
-        if not api_key:
-            st.error("請先輸入 OpenAI API 金鑰！")
-        else:
-            結果 = 文字摘要(user_input)
-            st.subheader("摘要結果")
-            st.write(結果[0]["summary_text"])
-# PDF 摘要
-elif page == "PDF 摘要":
-    st.title("📜 PDF 摘要")
-    uploaded_file = st.file_uploader("上傳你的 PDF 檔案", type=["pdf"])
-    if uploaded_file is not None and st.button("產生 PDF 摘要"):
-        pdf_text = 提取_pdf文字(uploaded_file)
-        段落們 = 分段(pdf_text)
-        全部摘要 = " ".join(摘要(段落們))
         st.subheader("摘要結果")
-        st.write(全部摘要)
-# PDF 密碼移除
-elif page == "PDF 密碼移除":
-    st.title("🔑 PDF 密碼移除")
-    uploaded_file = st.file_uploader("選擇需要解鎖的 PDF 檔案", type=["pdf"])
-    password = st.text_input("請輸入 PDF 密碼", type="password")
-    if uploaded_file and password and st.button("移除密碼"):
-        output = 移除_pdf密碼(uploaded_file, password)
-        if isinstance(output, BytesIO):
-            st.success("密碼移除成功！")
-            st.download_button("下載已解鎖的 PDF", data=output, file_name="unlocked_pdf.pdf", mime="application/pdf")
         else:
-            st.error(f"錯誤：{output}")
-# 論文搜尋
-elif page == "論文搜尋":
-    st.title("🔍 論文搜尋（arXiv）")
-    query = st.text_input("輸入主題或關鍵字", placeholder="例如：人工智慧、量子計算")
-    max_results = st.slider("結果數量", 1, 50, 10)
     col1, col2 = st.columns(2)
     with col1:
-        start_year = st.number_input("起始年份", min_value=1900, max_value=datetime.now().year, value=2000)
     with col2:
-        end_year = st.number_input("結束年份", min_value=1900, max_value=datetime.now().year, value=datetime.now().year)
     if st.button("搜尋論文"):
-        papers = 抓取論文(query, max_results)
-        篩選後 = 篩選論文依年份(papers, start_year, end_year)
-        if 篩選後:
-            for idx, 論文 in enumerate(篩選後, start=1):
-                st.write(f"### {idx}. {論文['標題']}")
-                st.write(f"**作者**: {', '.join(論文['作者'])}")
-                st.write(f"**發表時間**: {論文['發表時間']}")
-                st.write(f"[閱讀全文]({論文['連結']})")
-                st.write("---")
         else:
-            st.warning("在所選年份範圍內沒有找到相關論文。")
-# PDF 合併
-elif page == "PDF 合併":
-    st.title("📎 多檔 PDF 合併")
-    uploaded_files = st.file_uploader("上傳多個 PDF 檔案", type=["pdf"], accept_multiple_files=True)
-    if uploaded_files and st.button("合併 PDF"):
-        pdf_writer = PdfWriter()
-        for file in uploaded_files:
-            pdf_reader = PdfReader(file)
-            for page in pdf_reader.pages:
-                pdf_writer.add_page(page)
-        output = BytesIO()
-        pdf_writer.write(output)
-        output.seek(0)
-        st.download_button("下載合併後的 PDF", data=output, file_name="merged.pdf", mime="application/pdf")
-# PDF 拆頁
-elif page == "PDF 拆頁":
-    st.title("✂️ PDF 拆頁")
-    uploaded_file = st.file_uploader("上傳一個 PDF", type=["pdf"])
-    if uploaded_file:
-        pdf_reader = PdfReader(uploaded_file)
-        for i, page in enumerate(pdf_reader.pages):
-            pdf_writer = PdfWriter()
-            pdf_writer.add_page(page)
-            output = BytesIO()
-            pdf_writer.write(output)
-            output.seek(0)
-            st.download_button(f"下載第 {i+1} 頁", data=output, file_name=f"page_{i+1}.pdf", mime="application/pdf")
-# PDF 轉純文字
-elif page == "PDF 轉純文字":
-    st.title("📜 PDF 轉純文字")
-    uploaded_file = st.file_uploader("上傳 PDF", type=["pdf"])
-    if uploaded_file:
-        pdf_text = 提取_pdf文字(uploaded_file)
-        st.text_area("擷取內容", pdf_text, height=300)

 import streamlit as st
+from textsumm import 摘要
+from pdfsum import pdf摘要
+from papersearch import 論文搜尋
+st.set_page_config(page_title="PDF 工具箱 (中文)", page_icon=":books:", layout="wide")
+st.sidebar.title("📑 PDF 工具箱")
+功能 = st.sidebar.radio(
+    "請選擇功能",
+    ["文字摘要", "PDF 摘要", "論文搜尋（arXiv）"],
+    index=0
 )
+st.sidebar.markdown("---")
+st.sidebar.markdown("本應用支援中文摘要（Pegasus 中文模型）")
+if 功能 == "文字摘要":
+    st.header("📝 文字摘要")
+    text = st.text_area("請輸入要摘要的文字")
+    if st.button("生成摘要"):
+        with st.spinner("AI 生成中..."):
+            summary = 摘要(text)
         st.subheader("摘要結果")
+        st.success(summary)
+elif 功能 == "PDF 摘要":
+    st.header("📄 PDF 摘要")
+    pdf_file = st.file_uploader("請上傳 PDF 檔案", type=["pdf"])
+    if st.button("產生 PDF 摘要"):
+        if pdf_file is not None:
+            with st.spinner("AI 解析中..."):
+                summary = pdf摘要(pdf_file)
+            st.subheader("PDF 摘要結果")
+            st.success(summary)
         else:
+            st.warning("請先上傳 PDF 檔案")
+elif 功能 == "論文搜尋（arXiv）":
+    st.header("🔎 論文搜尋（arXiv）")
+    關鍵字 = st.text_input("輸入主題或關鍵字")
+    max_results = st.slider("結果數量", 1, 30, 10)
     col1, col2 = st.columns(2)
     with col1:
+        start_year = st.number_input("起始年份", min_value=1991, max_value=2025, value=2011)
     with col2:
+        end_year = st.number_input("結束年份", min_value=1991, max_value=2025, value=2025)
     if st.button("搜尋論文"):
+        with st.spinner("搜尋中..."):
+            papers = 論文搜尋(關鍵字, max_results, start_year, end_year)
+        if not papers:
+            st.info("在所選年份範圍內沒有找到相關論文。")
         else:
+            for idx, p in enumerate(papers, 1):
+                with st.expander(f"📄 {idx}. {p['標題']}"):
+                    st.write(f"**作者：** {p['作者']}")
+                    st.write(f"**發表日期：** {p['發表日期']}")
+                    st.write(f"**摘要：** {p['摘要']}")
+                    st.write(f"[arXiv 連結]({p['arXiv 連結']})")

papersearch.py CHANGED Viewed

@@ -1,31 +1,20 @@
-import requests
-import xml.etree.ElementTree as ET
-from datetime import datetime
-def 抓取論文(關鍵字, 最大數量=10):
-    """
-    從 arXiv 依關鍵字搜尋論文（最新）
-    """
-    url = f"https://export.arxiv.org/api/query?search_query=all:{關鍵字}&start=0&max_results={最大數量}&sortBy=lastUpdatedDate"
-    res = requests.get(url)
-    root = ET.fromstring(res.content)
-    論文清單 = []
-    for entry in root.findall('{http://www.w3.org/2005/Atom}entry'):
-        論文清單.append({
-            "標題": entry.find('{http://www.w3.org/2005/Atom}title').text.strip(),
-            "作者": [author.find('{http://www.w3.org/2005/Atom}name').text for author in entry.findall('{http://www.w3.org/2005/Atom}author')],
-            "發表時間": entry.find('{http://www.w3.org/2005/Atom}published').text[:10],
-            "連結": entry.find('{http://www.w3.org/2005/Atom}id').text
         })
-    return 論文清單
-def 篩選論文依年份(論文清單, 起始, 結束):
-    """
-    依年份篩選論文（年分區間）
-    """
-    篩選 = []
-    for 論文 in 論文清單:
-        年份 = int(論文["發表時間"][:4])
-        if 起始 <= 年份 <= 結束:
-            篩選.append(論文)
-    return 篩選

+import arxiv
+def 論文搜尋(關鍵字, max_results=10, start_year=2000, end_year=2025):
+    search = arxiv.Search(
+        query=關鍵字,
+        max_results=max_results,
+        sort_by=arxiv.SortCriterion.SubmittedDate
+    )
+    papers = []
+    for result in search.results():
+        if not (start_year <= result.published.year <= end_year):
+            continue
+        papers.append({
+            "標題": result.title,
+            "作者": ", ".join([a.name for a in result.authors]),
+            "發表日期": str(result.published)[:10],
+            "摘要": result.summary,
+            "arXiv 連結": result.entry_id
         })
+    return papers

pdfsum.py CHANGED Viewed

@@ -1,32 +1,18 @@
-from PyPDF2 import PdfReader
-from transformers import pipeline
-# 這裡你也可以改成你要的中文 BART、T5 等 summarization 模型
-summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-def 提取_pdf文字(pdf檔案):
-    """
-    從 PDF 檔案讀取並合併所有頁面的內容為純文字
-    """
-    reader = PdfReader(pdf檔案)
-    內容 = ""
-    for 頁面 in reader.pages:
-        內容 += 頁面.extract_text()
-    return 內容
-def 分段(內容, 每段字數=2000):
-    """
-    將長文本切成多個段落（方便 AI 處理）
-    """
-    return [內容[i:i+每段字數] for i in range(0, len(內容), 每段字數)]
-def 摘要(段落們):
-    """
-    對每個段落做中文摘要，再合併回一份總結
-    """
-    結果 = []
-    for 段 in 段落們:
-        結果.append(
-            summarizer(段, max_length=130, min_length=30, do_sample=False)[0]["summary_text"]
-        )
-    return 結果

+import PyPDF2
+from textsumm import 摘要
+def pdf抽取文字(pdf_file):
+    # pdf_file 來自 st.file_uploader，為 BytesIO 物件
+    pdf_reader = PyPDF2.PdfReader(pdf_file)
+    all_text = ""
+    for page in pdf_reader.pages:
+        page_text = page.extract_text() or ""
+        all_text += page_text.strip() + "\n"
+    return all_text
+def pdf摘要(pdf_file):
+    內容 = pdf抽取文字(pdf_file)
+    if not 內容.strip():
+        return "⚠️ PDF 無可讀文字或為掃描檔，請上傳可解析之 PDF"
+    # 可依需求切分多頁逐一摘要
+    return 摘要(內容)

requirements.txt CHANGED Viewed

@@ -1,11 +1,6 @@
 streamlit
-openai
-pypdf
 transformers
 torch
-sentencepiece
-protobuf
-pikepdf
-requests
-tqdm
 PyPDF2

 streamlit
 transformers
 torch
 PyPDF2
+sentencepiece
+arxiv

textsumm.py CHANGED Viewed

@@ -1,31 +1,22 @@
-# textsumm.py
-# 中文化摘要模組，安裝 transformers 與 torch 即可使用
-from transformers import pipeline
-# 初始化摘要 pipeline
-summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-def 文字摘要(輸入文本, 最長長度=120, 最短長度=40):
-    """
-    輸入：一段文本
-    輸出：摘要（中文說明）
-    """
-    if len(輸入文本.strip()) == 0:
-        return "❗️ 請輸入需要摘要的內容。"
-    try:
-        結果 = summarizer(
-            輸入文本,
-            max_length=最長長度,
-            min_length=最短長度,
-            do_sample=False
-        )
-        return 結果[0]['summary_text']
-    except Exception as e:
-        return f"❌ 摘要生成失敗：{str(e)}"
-# 若你要測試，可以取消下面註解
-# if __name__ == "__main__":
-#     測試文本 = "人工智慧（AI）是研究如何讓電腦模擬人類智能行為的學科，包括學習、推理、規劃、自然語言處理、知覺等。AI 技術已廣泛應用於語音辨識、影像分析、自駕車等領域。"
-#     print(文字摘要(測試文本))

+from transformers import pipeline
+# 使用 Hugging Face 支援中文的 Pegasus 模型
+summarizer = pipeline(
+    "summarization",
+    model="IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese"
+)
+def 摘要(text, max_length=128, min_length=20):
+    if not text.strip():
+        return "⚠️ 請輸入要摘要的內容"
+    # 依據模型最大長度做裁剪
+    if len(text) > 1500:
+        text = text[:1500]
+    result = summarizer(text, max_length=max_length, min_length=min_length, do_sample=False)
+    # 處理不同模型回傳格式
+    if isinstance(result, list) and "summary_text" in result[0]:
+        return result[0]["summary_text"]
+    elif isinstance(result, str):
+        return result
+    else:
+        return str(result)