Spaces:

3a05chatgpt
/

pdf-summarizer-app

Sleeping

App Files Files Community

3a05chatgpt commited on 2 days ago

Commit

dd3daa8

verified ·

1 Parent(s): 503deed

Upload 5 files

Browse files

Files changed (5) hide show

.gitattributes +39 -36
README.md +25 -23
app.py +2 -2
main.py +10 -5
requirements.txt +1 -1

.gitattributes CHANGED Viewed

@@ -1,36 +1,39 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -10,36 +10,38 @@ pinned: false
 license: mit
 ---
-# 進階 NLP PDF 摘要生成工具 🚀
-本工具可將冗長的 PDF 文件，透過最先進的自然語言處理（NLP）技術，快速提煉成條列式的重點摘要。
-以下為本應用的功能介紹與操作說明。
-## 主要功能
-- **PDF 文字擷取**：利用 PyPDF2 有效讀取 PDF 文件內容，確保摘要過程不遺漏任何重點。
-- **高級文字前處理**：利用 spaCy 套件進行斷詞、詞形還原、停用字過濾等，使語料更精練、適合進一步分析。
-- **關鍵詞擷取**：從段落中自動擷取主題關鍵詞及專有名詞，精確找出文本核心內容。
-- **句子重要度評分**：根據關鍵詞出現及語意關聯性，動態計算句子分數，確保摘要涵蓋文章主旨。
-- **摘要比例調整**：可依需求調整摘要長度，百分比自訂，生成不同精簡度的重點摘要。
-## 使用說明
-1. **安裝需求**：請確保已安裝 Python 及所需套件（PyPDF2、spaCy、Streamlit）。
-2. **啟動應用**：終端機執行 `streamlit run app.py`，依照網址開啟網頁介面。
-3. **上傳 PDF**：於網頁上傳欲摘要之 PDF 檔案。
-4. **調整摘要比例**：可使用滑桿設定想要的摘要比例。
-5. **取得摘要結果**：系統自動處理，於下方呈現條列式重點摘要。
-## 貢獻與授權
-歡迎提出改進建議或 Bug 回報。
-本專案採用 MIT 授權。
-## 感謝
-- spaCy 團隊的 NLP 函式庫
-- PyPDF2 團隊的 PDF 處理能力
-- Streamlit 團隊的開發框架
-本工具為阿亮 老師製作，期待能提升您的工作與學習效率！

 license: mit
 ---
+# 進階 NLP PDF 條列式重點摘要工具 🚀
+本工具可以將冗長的 PDF 文件，透過先進的自然語言處理（NLP）技術，快速轉換為條列式、易讀的重點摘要。以下說明本應用的功能與操作方式，協助教師與學生輕鬆掌握大量資訊。
+## 功能特色
+- **PDF 文字擷取**：利用 PyPDF2 高效讀取 PDF 內容，確保摘要過程不遺漏任何資料。
+- **高級文字前處理**：結合 spaCy 斷詞、詞形還原、去除停用字，讓資料更精煉、更容易分析。
+- **關鍵詞擷取**：透過 NLP 技術找出文章最重要的關鍵詞與專有名詞，抓住主題核心。
+- **句子重要度評分**：自訂演算法根據關鍵詞分布與語意相關性，挑選出最能代表全文重點的句子。
+- **動態摘要調整**：可依需求調整摘要比例，彈性生成長短不一的重點摘要。
+## 操作說明
+1. **安裝套件**：請先安裝 Python 與必要函式庫（PyPDF2、spaCy、Streamlit）。
+2. **啟動應用程式**：在終端機執行 `streamlit run app.py`，依畫面指示開啟網頁介面。
+3. **上傳 PDF 檔案**：於網頁上傳欲摘要的 PDF 文件。
+4. **調整摘要比例**：用滑桿設定想要的摘要長度比例（%）。
+5. **查看條列摘要**：系統自動處理，於下方顯示條列式重點摘要。
+## 參與貢獻
+本專案採用 MIT 開源授權檔案。
+## 授權
+本專案採用 MIT 開源授權檔案。
+## 致謝
+- 感謝 NLP 函式庫
+- 感謝 PyPDF2  函式庫
+- 感謝 Streamlit 函式庫
+感謝您使用本工具，期待能幫助您在學習與工作上更有效率！

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from main import read_pdf, extract_key_phrases, score_sentences, summarize_text
 import io
 # 設定 Streamlit 應用標題
-st.title("PDF 條列重點摘要工具 🗟 🔏")
 # 上傳 PDF 檔案元件
 uploaded_file = st.file_uploader("請上傳您的 PDF 文件", type="pdf")
@@ -16,7 +16,7 @@ submit_button = st.button("產生摘要")
 # 若按下按鈕且有上傳檔案
 if submit_button and uploaded_file is not None:
-    with st.spinner('正在處理，請稍候...'):
         # 讀取 PDF 內容
         text = read_pdf(io.BytesIO(uploaded_file.getvalue()))
         # 擷取關鍵詞

 import io
 # 設定 Streamlit 應用標題
+st.title("PDF 條列式重點摘要工具 🗟 🔏")
 # 上傳 PDF 檔案元件
 uploaded_file = st.file_uploader("請上傳您的 PDF 文件", type="pdf")
 # 若按下按鈕且有上傳檔案
 if submit_button and uploaded_file is not None:
+    with st.spinner('正在處理中，請稍候...'):
         # 讀取 PDF 內容
         text = read_pdf(io.BytesIO(uploaded_file.getvalue()))
         # 擷取關鍵詞

main.py CHANGED Viewed

@@ -1,11 +1,16 @@
 import PyPDF2
 import spacy
 from collections import Counter
 import heapq
 import io
-# 載入 spaCy 模型
-nlp = spacy.load("./en_core_web_sm-3.7.1")
 def read_pdf(file_stream):
     """讀取 PDF 文字內容"""
@@ -16,13 +21,13 @@ def read_pdf(file_stream):
     return text.strip()
 def extract_key_phrases(text):
-    """擷取關鍵詞及專有名詞"""
     doc = nlp(text)
     key_phrases = [chunk.text for chunk in doc.noun_chunks] + [ent.text for ent in doc.ents]
     return key_phrases
 def score_sentences(text, key_phrases):
-    """根據關鍵詞出現次數給句子評分"""
     sentence_scores = {}
     doc = nlp(text)
     for sent in doc.sents:
@@ -35,7 +40,7 @@ def score_sentences(text, key_phrases):
     return sentence_scores
 def summarize_text(sentence_scores, num_points=5):
-    """依分數挑出重點句並條列化"""
     summary_sentences = heapq.nlargest(num_points, sentence_scores, key=sentence_scores.get)
     summary = '\n'.join([f"- {sent.text}" for sent in summary_sentences])
     return summary

 import PyPDF2
 import spacy
+import subprocess
 from collections import Counter
 import heapq
 import io
+# 自動檢查、下載 spaCy 語言模型（en_core_web_sm），避免 Space 缺模型報錯
+try:
+    nlp = spacy.load("en_core_web_sm")
+except OSError:
+    subprocess.run(["python", "-m", "spacy", "download", "en_core_web_sm"])
+    nlp = spacy.load("en_core_web_sm")
 def read_pdf(file_stream):
     """讀取 PDF 文字內容"""
     return text.strip()
 def extract_key_phrases(text):
+    """擷取文章中的關鍵詞與專有名詞"""
     doc = nlp(text)
     key_phrases = [chunk.text for chunk in doc.noun_chunks] + [ent.text for ent in doc.ents]
     return key_phrases
 def score_sentences(text, key_phrases):
+    """根據關鍵詞分數給每個句子計分"""
     sentence_scores = {}
     doc = nlp(text)
     for sent in doc.sents:
     return sentence_scores
 def summarize_text(sentence_scores, num_points=5):
+    """依據分數挑出重要句子並條列化輸出"""
     summary_sentences = heapq.nlargest(num_points, sentence_scores, key=sentence_scores.get)
     summary = '\n'.join([f"- {sent.text}" for sent in summary_sentences])
     return summary

requirements.txt CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- PyPDF2
2	spacy==3.7.4


1	+ PyPDF2
2	spacy==3.7.4