from PyPDF2 import PdfReader from transformers import pipeline # 這裡你也可以改成你要的中文 BART、T5 等 summarization 模型 summarizer = pipeline("summarization", model="facebook/bart-large-cnn") def 提取_pdf文字(pdf檔案): """ 從 PDF 檔案讀取並合併所有頁面的內容為純文字 """ reader = PdfReader(pdf檔案) 內容 = "" for 頁面 in reader.pages: 內容 += 頁面.extract_text() return 內容 def 分段(內容, 每段字數=2000): """ 將長文本切成多個段落(方便 AI 處理) """ return [內容[i:i+每段字數] for i in range(0, len(內容), 每段字數)] def 摘要(段落們): """ 對每個段落做中文摘要,再合併回一份總結 """ 結果 = [] for 段 in 段落們: 結果.append( summarizer(段, max_length=130, min_length=30, do_sample=False)[0]["summary_text"] ) return 結果