Spaces:

3a05chatgpt
/

pdf-summarizer-app

Sleeping

pdf-summarizer-app / main.py

Upload 5 files

4d9a0e6 verified 3 days ago

1.32 kB

	import PyPDF2
	import spacy
	from collections import Counter
	import heapq
	import io

	# 載入 spaCy 模型
	nlp = spacy.load("./en_core_web_sm-3.7.1")

	def read_pdf(file_stream):
	"""讀取 PDF 文字內容"""
	text = ''
	reader = PyPDF2.PdfReader(file_stream)
	for page in reader.pages:
	text += page.extract_text() + ' '
	return text.strip()

	def extract_key_phrases(text):
	"""擷取關鍵詞及專有名詞"""
	doc = nlp(text)
	key_phrases = [chunk.text for chunk in doc.noun_chunks] + [ent.text for ent in doc.ents]
	return key_phrases

	def score_sentences(text, key_phrases):
	"""根據關鍵詞出現次數給句子評分"""
	sentence_scores = {}
	doc = nlp(text)
	for sent in doc.sents:
	for phrase in key_phrases:
	if phrase in sent.text:
	if sent in sentence_scores:
	sentence_scores[sent] += 1
	else:
	sentence_scores[sent] = 1
	return sentence_scores

	def summarize_text(sentence_scores, num_points=5):
	"""依分數挑出重點句並條列化"""
	summary_sentences = heapq.nlargest(num_points, sentence_scores, key=sentence_scores.get)
	summary = '\n'.join([f"- {sent.text}" for sent in summary_sentences])
	return summary