Spaces:

studyonly
/

PDF-Summarizer-studyonly

Sleeping

App Files Files Community

studyonly commited on Jul 13

Commit

789bf02

verified ·

1 Parent(s): dd6bc7a

PDF Summarizer version 1

Browse files

Files changed (5) hide show

README.md +47 -14
app.py +33 -0
gitattributes.txt +39 -0
main.py +46 -0
requirements.txt +2 -0

README.md CHANGED Viewed

@@ -1,14 +1,47 @@
----
-title: PDF Summarizer Studyonly
-emoji: 🌍
-colorFrom: pink
-colorTo: yellow
-sdk: gradio
-sdk_version: 5.36.2
-app_file: app.py
-pinned: false
-license: mit
-short_description: PDF Summarizer APP created by Alex
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: Pdf 2 Summary
+emoji: 🌍
+colorFrom: red
+colorTo: purple
+sdk: streamlit
+sdk_version: 1.31.1
+app_file: app.py
+pinned: false
+license: mit
+---
+# 進階 NLP PDF 條列式重點摘要工具 🚀
+本工具可以將冗長的 PDF 文件，透過先進的自然語言處理（NLP）技術，快速轉換為條列式、易讀的重點摘要。以下說明本應用的功能與操作方式，協助教師與學生輕鬆掌握大量資訊。
+## 功能特色
+- **PDF 文字擷取**：利用 PyPDF2 高效讀取 PDF 內容，確保摘要過程不遺漏任何資料。
+- **高級文字前處理**：結合 spaCy 斷詞、詞形還原、去除停用字，讓資料更精煉、更容易分析。
+- **關鍵詞擷取**：透過 NLP 技術找出文章最重要的關鍵詞與專有名詞，抓住主題核心。
+- **句子重要度評分**：自訂演算法根據關鍵詞分布與語意相關性，挑選出最能代表全文重點的句子。
+- **動態摘要調整**：可依需求調整摘要比例，彈性生成長短不一的重點摘要。
+## 操作說明
+1. **安裝套件**：請先安裝 Python 與必要函式庫（PyPDF2、spaCy、Streamlit）。
+2. **啟動應用程式**：在終端機執行 `streamlit run app.py`，依畫面指示開啟網頁介面。
+3. **上傳 PDF 檔案**：於網頁上傳欲摘要的 PDF 文件。
+4. **調整摘要比例**：用滑桿設定想要的摘要長度比例（%）。
+5. **查看條列摘要**：系統自動處理，於下方顯示條列式重點摘要。
+## 參與貢獻
+本專案採用 MIT 開源授權檔案。
+## 授權
+本專案採用 MIT 開源授權檔案。
+## 致謝
+- 感謝 NLP 函式庫
+- 感謝 PyPDF2  函式庫
+- 感謝 Streamlit 函式庫
+感謝您使用本工具，期待能幫助您在學習與工作上更有效率！

app.py ADDED Viewed

	@@ -0,0 +1,33 @@

+import streamlit as st
+from main import read_pdf, extract_key_phrases, score_sentences, summarize_text
+import io
+# 設定 Streamlit 應用標題
+st.title("PDF 條列式重點摘要工具 🗟 🔏")
+# 上傳 PDF 檔案元件
+uploaded_file = st.file_uploader("請上傳您的 PDF 文件", type="pdf")
+# 摘要比例滑桿
+summary_scale = st.slider("請選擇摘要比例（%）", min_value=1, max_value=100, value=20)
+# 產生摘要按鈕
+submit_button = st.button("產生摘要")
+# 若按下按鈕且有上傳檔案
+if submit_button and uploaded_file is not None:
+    with st.spinner('正在處理中，請稍候...'):
+        # 讀取 PDF 內容
+        text = read_pdf(io.BytesIO(uploaded_file.getvalue()))
+        # 擷取關鍵詞
+        key_phrases = extract_key_phrases(text)
+        # 句子評分
+        sentence_scores = score_sentences(text, key_phrases)
+        # 計算要顯示的重點句數
+        total_sentences = len(list(sentence_scores.keys()))
+        num_points = max(1, total_sentences * summary_scale // 100)
+        # 產生條列式摘要
+        summary = summarize_text(sentence_scores, num_points=num_points)
+        # 顯示摘要
+        st.subheader("摘要結果：")
+        st.markdown(summary)

gitattributes.txt ADDED Viewed

	@@ -0,0 +1,39 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm/en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/ner/model filter=lfs diff=lfs merge=lfs -text
+en_core_web_sm-3.7.1/tok2vec/model filter=lfs diff=lfs merge=lfs -text

main.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import PyPDF2
+import spacy
+import subprocess
+from collections import Counter
+import heapq
+import io
+# 自動檢查、下載 spaCy 語言模型（en_core_web_sm），避免 Space 缺模型報錯
+try:
+    nlp = spacy.load("en_core_web_sm")
+except OSError:
+    subprocess.run(["python", "-m", "spacy", "download", "en_core_web_sm"])
+    nlp = spacy.load("en_core_web_sm")
+def read_pdf(file_stream):
+    """讀取 PDF 文字內容"""
+    text = ''
+    reader = PyPDF2.PdfReader(file_stream)
+    for page in reader.pages:
+        text += page.extract_text() + ' '
+    return text.strip()
+def extract_key_phrases(text):
+    """擷取文章中的關鍵詞與專有名詞"""
+    doc = nlp(text)
+    key_phrases = [chunk.text for chunk in doc.noun_chunks] + [ent.text for ent in doc.ents]
+    return key_phrases
+def score_sentences(text, key_phrases):
+    """根據關鍵詞分數給每個句子計分"""
+    sentence_scores = {}
+    doc = nlp(text)
+    for sent in doc.sents:
+        for phrase in key_phrases:
+            if phrase in sent.text:
+                if sent in sentence_scores:
+                    sentence_scores[sent] += 1
+                else:
+                    sentence_scores[sent] = 1
+    return sentence_scores
+def summarize_text(sentence_scores, num_points=5):
+    """依據分數挑出重要句子並條列化輸出"""
+    summary_sentences = heapq.nlargest(num_points, sentence_scores, key=sentence_scores.get)
+    summary = '\n'.join([f"- {sent.text}" for sent in summary_sentences])
+    return summary

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ PyPDF2
2	+ spacy==3.7.4