Spaces:

3a05chatgpt
/

pdf-summarizer-app

Sleeping

App Files Files Community

3a05chatgpt commited on Jul 11

Commit

4d9a0e6

verified ·

1 Parent(s): 9581815

Upload 5 files

Browse files

Files changed (5) hide show

README.md +35 -14
app.py +27 -60
gitattributes +39 -1
main.py +41 -0
requirements.txt +2 -5

README.md CHANGED Viewed

@@ -1,24 +1,45 @@
 ---
-title: PDF 工具箱
-emoji: 📄
-colorFrom: blue
-colorTo: green
-sdk: streamlit         # 如果你用 Gradio 請改成 gradio
-sdk_version: 1.23.0    # Gradio 可移除這行
 app_file: app.py
 pinned: false
 ---
-# 📄 PDF 工具箱
 ## 主要功能
-- **文字摘要**：支援中文長文摘要（Pegasus 模型）
-- **PDF 摘要**：PDF 自動抓取中文摘要
-- **論文搜尋**：arXiv 關鍵字查詢
-- 支援 Hugging Face Spaces，一鍵部署
-## 安裝需求
-```bash
-pip install -r requirements.txt

 ---
+title: Pdf 2 Summary
+emoji: 🌍
+colorFrom: red
+colorTo: purple
+sdk: streamlit
+sdk_version: 1.31.1
 app_file: app.py
 pinned: false
+license: mit
 ---
+# 進階 NLP PDF 摘要生成工具 🚀
+本工具可將冗長的 PDF 文件，透過最先進的自然語言處理（NLP）技術，快速提煉成條列式的重點摘要。
+以下為本應用的功能介紹與操作說明。
 ## 主要功能
+- **PDF 文字擷取**：利用 PyPDF2 有效讀取 PDF 文件內容，確保摘要過程不遺漏任何重點。
+- **高級文字前處理**：利用 spaCy 套件進行斷詞、詞形還原、停用字過濾等，使語料更精練、適合進一步分析。
+- **關鍵詞擷取**：從段落中自動擷取主題關鍵詞及專有名詞，精確找出文本核心內容。
+- **句子重要度評分**：根據關鍵詞出現及語意關聯性，動態計算句子分數，確保摘要涵蓋文章主旨。
+- **摘要比例調整**：可依需求調整摘要長度，百分比自訂，生成不同精簡度的重點摘要。
+## 使用說明
+1. **安裝需求**：請確保已安裝 Python 及所需套件（PyPDF2、spaCy、Streamlit）。
+2. **啟動應用**：終端機執行 `streamlit run app.py`，依照網址開啟網頁介面。
+3. **上傳 PDF**：於網頁上傳欲摘要之 PDF 檔案。
+4. **調整摘要比例**：可使用滑桿設定想要的摘要比例。
+5. **取得摘要結果**：系統自動處理，於下方呈現條列式重點摘要。
+## 貢獻與授權
+歡迎提出改進建議或 Bug 回報。
+本專案採用 MIT 授權。
+## 感謝
+- spaCy 團隊的 NLP 函式庫
+- PyPDF2 團隊的 PDF 處理能力
+- Streamlit 團隊的開發框架
+本工具為阿亮 老師製作，期待能提升您的工作與學習效率！

app.py CHANGED Viewed

@@ -1,66 +1,33 @@
-# app.py
 import streamlit as st
-from textsumm import 摘要
-from pdfsum import 提取_pdf摘要
-import requests
-st.set_page_config(page_title="PDF 工具箱", page_icon="📄", layout="wide")
-# 側邊欄
-st.sidebar.title("📄 PDF 工具箱")
-st.sidebar.write("請輸入 OpenAI API 金鑰（非必填）")
-api_key = st.sidebar.text_input("sk-...", type="password")
-# GPT 模型選擇
-model = st.sidebar.radio("選擇 GPT 模型", options=["gpt-4", "gpt-4.0", "gpt-4.1", "gpt-4.5"], index=0)
-# 工具選擇
-tool = st.sidebar.radio("選擇功能", options=["文字摘要", "PDF 摘要", "論文搜尋"])
-st.title("PDF 工具箱")
-if tool == "文字摘要":
-    st.header("📝 文字摘要")
-    user_text = st.text_area("請輸入要摘要的中文內容")
-    if st.button("生成摘要"):
-        with st.spinner("摘要生成中..."):
-            if user_text.strip():
-                summary = 摘要(user_text.strip())
-                st.success("摘要結果：")
-                st.write(summary)
-            else:
-                st.warning("請輸入內容！")
-elif tool == "PDF 摘要":
-    st.header("📄 PDF 摘要")
-    uploaded_file = st.file_uploader("上傳你的 PDF 文件", type=["pdf"])
-    if uploaded_file is not None and st.button("產生 PDF 摘要"):
-        with st.spinner("摘要生成中..."):
-            summary = 提取_pdf摘要(uploaded_file, 摘要)
-            st.success("摘要結果：")
-            st.write(summary)
-elif tool == "論文搜尋":
-    st.header("🔎 論文搜尋（arXiv）")
-    keyword = st.text_input("輸入主題或關鍵字", "量子")
-    max_results = st.slider("結果數量", 1, 20, 5)
-    start_year = st.number_input("起始年份", min_value=1990, max_value=2025, value=2019)
-    end_year = st.number_input("結束年份", min_value=1990, max_value=2025, value=2025)
-    if st.button("搜尋論文"):
-        st.info("搜尋中...")
-        url = f"http://export.arxiv.org/api/query?search_query=all:{keyword}&start=0&max_results={max_results}"
-        resp = requests.get(url)
-        if resp.ok:
-            import xml.etree.ElementTree as ET
-            root = ET.fromstring(resp.content)
-            found = False
-            for entry in root.findall("{http://www.w3.org/2005/Atom}entry"):
-                published = entry.find("{http://www.w3.org/2005/Atom}published").text[:4]
-                if start_year <= int(published) <= end_year:
-                    found = True
-                    title = entry.find("{http://www.w3.org/2005/Atom}title").text.strip()
-                    link = entry.find("{http://www.w3.org/2005/Atom}id").text.strip()
-                    st.markdown(f"**[{title}]({link})**（{published}）")
-            if not found:
-                st.warning("在所選年份範圍內沒有找到相關論文。")
-        else:
-            st.error("arXiv 查詢失敗")

 import streamlit as st
+from main import read_pdf, extract_key_phrases, score_sentences, summarize_text
+import io
+# 設定 Streamlit 應用標題
+st.title("PDF 條列重點摘要工具 🗟 🔏")
+# 上傳 PDF 檔案元件
+uploaded_file = st.file_uploader("請上傳您的 PDF 文件", type="pdf")
+# 摘要比例滑桿
+summary_scale = st.slider("請選擇摘要比例（%）", min_value=1, max_value=100, value=20)
+# 產生摘要按鈕
+submit_button = st.button("產生摘要")
+# 若按下按鈕且有上傳檔案
+if submit_button and uploaded_file is not None:
+    with st.spinner('正在處理，請稍候...'):
+        # 讀取 PDF 內容
+        text = read_pdf(io.BytesIO(uploaded_file.getvalue()))
+        # 擷取關鍵詞
+        key_phrases = extract_key_phrases(text)
+        # 句子評分
+        sentence_scores = score_sentences(text, key_phrases)
+        # 計算要顯示的重點句數
+        total_sentences = len(list(sentence_scores.keys()))
+        num_points = max(1, total_sentences * summary_scale // 100)
+        # 產生條列式摘要
+        summary = summarize_text(sentence_scores, num_points=num_points)
+        # 顯示摘要
+        st.subheader("摘要結果：")
+        st.markdown(summary)

gitattributes CHANGED Viewed

	@@ -1 +1,39 @@
1	- * text~~=auto~~

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text

main.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import PyPDF2
+import spacy
+from collections import Counter
+import heapq
+import io
+# 載入 spaCy 模型
+nlp = spacy.load("./en_core_web_sm-3.7.1")
+def read_pdf(file_stream):
+    """讀取 PDF 文字內容"""
+    text = ''
+    reader = PyPDF2.PdfReader(file_stream)
+    for page in reader.pages:
+        text += page.extract_text() + ' '
+    return text.strip()
+def extract_key_phrases(text):
+    """擷取關鍵詞及專有名詞"""
+    doc = nlp(text)
+    key_phrases = [chunk.text for chunk in doc.noun_chunks] + [ent.text for ent in doc.ents]
+    return key_phrases
+def score_sentences(text, key_phrases):
+    """根據關鍵詞出現次數給句子評分"""
+    sentence_scores = {}
+    doc = nlp(text)
+    for sent in doc.sents:
+        for phrase in key_phrases:
+            if phrase in sent.text:
+                if sent in sentence_scores:
+                    sentence_scores[sent] += 1
+                else:
+                    sentence_scores[sent] = 1
+    return sentence_scores
+def summarize_text(sentence_scores, num_points=5):
+    """依分數挑出重點句並條列化"""
+    summary_sentences = heapq.nlargest(num_points, sentence_scores, key=sentence_scores.get)
+    summary = '\n'.join([f"- {sent.text}" for sent in summary_sentences])
+    return summary

requirements.txt CHANGED Viewed

@@ -1,5 +1,2 @@
-transformers==4.41.1
-streamlit==1.35.0
-torch
-PyPDF2
-requests


1	+ PyPDF2
2	+ spacy==3.7.4