Spaces:

Tbb1111
/

pdfTranslate

Runtime error

Tbb1111 commited on May 2

Commit

7b6f181

verified ·

1 Parent(s): 3600037

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,10 +17,22 @@ def translate_pdf(pdf_file):
     for page in doc:
         text += page.get_text()
-    # 使用 T5 模型进行翻译
-    inputs = tokenizer.encode("translate English to Chinese: " + text, return_tensors="pt", max_length=512, truncation=True)
-    outputs = model.generate(inputs, max_length=1024, num_beams=4, early_stopping=True)
-    translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     # 创建翻译后的 PDF
     translated_pdf = FPDF()

     for page in doc:
         text += page.get_text()
+    # 为了避免输入超长，按段落拆分翻译
+    paragraphs = text.split("\n")
+    translated_paragraphs = []
+    # 分批翻译每一段
+    for paragraph in paragraphs:
+        if len(paragraph.strip()) == 0:
+            continue
+        # 使用 T5 模型进行翻译
+        inputs = tokenizer.encode("translate English to Chinese: " + paragraph, return_tensors="pt", max_length=512, truncation=True)
+        outputs = model.generate(inputs, max_length=1024, num_beams=4, early_stopping=True)
+        translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        translated_paragraphs.append(translated_text)
+    # 将所有翻译后的段落合并
+    translated_text = "\n".join(translated_paragraphs)
     # 创建翻译后的 PDF
     translated_pdf = FPDF()