Spaces:

yunuseduran
/

chatpdf

Running

App Files Files Community

yunuseduran commited on Apr 18

Commit

f94072f

verified ·

1 Parent(s): 3770605

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -136

app.py CHANGED Viewed

@@ -2,168 +2,111 @@ import gradio as gr
 import google.generativeai as genai
 import os
 import PyPDF2
-import markdown
 from docx import Document
-from bs4 import BeautifulSoup
-import tempfile
 from datetime import datetime
-# Hugging Face secret key ile API anahtarını doğrudan konfigüre et
 genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
-# PDF'den metin çıkarma
-def extract_text_from_pdf(pdf_path):
     try:
-        text = ""
-        with open(pdf_path, 'rb') as file:
-            pdf_reader = PyPDF2.PdfReader(file)
-            for page_num in range(len(pdf_reader.pages)):
-                text += pdf_reader.pages[page_num].extract_text() + "\n"
         return text
     except Exception as e:
-        return f"PDF okuma hatası: {str(e)}"
-# AI modelini kullanarak analiz yap
-def analyze_pdf_content(text, questions):
-    try:
-        generation_config = {
-            "temperature": 0.2,
-            "top_p": 0.95,
-            "top_k": 64,
-            "max_output_tokens": 8192,
-        }
-        model = genai.GenerativeModel(
-            model_name="gemini-1.5-flash",
-            generation_config=generation_config,
-        )
-        # Özetleme
-        prompt = f"""
-        Aşağıdaki belge metnini analiz edip özetler misin?
-        Belge:
-        {text[:15000]}
-        Kısa bir özet ver (1-2 paragraf):
-        """
-        response = model.generate_content(prompt)
-        summary = response.text
-        # Soru-Cevap kısmı
-        results = [summary]
-        for question in questions:
-            if not question.strip():
-                continue
-            prompt = f"""
-            Aşağıdaki belge metnine dayanarak soruyu cevapla:
-            Belge:
-            {text[:15000]}
-            Soru: {question}
-            Cevap:
-            """
-            response = model.generate_content(prompt)
-            results.append((question, response.text))
-        return summary, results
-    except Exception as e:
-        return f"Analiz hatası: {str(e)}", []
-# Markdown'ı HTML'e çevir
-def to_html(text):
-    return markdown.markdown(text)
-# Word raporu oluştur
-def create_word_document(summary, results):
     doc = Document()
-    doc.add_heading('PDF Belge Analiz Raporu', 0)
-    doc.add_paragraph(f'Oluşturulma Tarihi: {datetime.now().strftime("%d.%m.%Y %H:%M")}')
-    doc.add_heading('Belge Özeti', 1)
     doc.add_paragraph(summary)
-    doc.add_heading('Soru ve Cevaplar', 1)
-    for i, (question, answer) in enumerate(results, 1):
-        doc.add_heading(f'Soru {i}: {question}', 2)
         doc.add_paragraph(answer)
-    return doc
-# Ana işlem fonksiyonu
-def process_pdf(pdf_file, user_questions):
-    if not pdf_file:
-        return "Lütfen bir PDF dosyası yükleyin.", None
-    try:
-        # PDF'ten metin çıkar
-        text = extract_text_from_pdf(pdf_file)
-        if text.startswith("PDF okuma hatası"):
-            return text, None
-        # Soruları ayır
-        questions = [q.strip() for q in user_questions.split('\n') if q.strip()]
-        # AI ile analiz et
-        summary, results = analyze_pdf_content(text, questions)
-        if isinstance(summary, str) and summary.startswith("Analiz hatası"):
-            return summary, None
-        # HTML rapor oluştur
-        html_output = f"""
-        <div style="font-family: Arial, sans-serif; max-width: 800px; margin: 0 auto; padding: 20px;">
-            <h1>PDF Belge Analiz Raporu</h1>
-            <p><em>Oluşturulma tarihi: {datetime.now().strftime('%d.%m.%Y %H:%M')}</em></p>
-            <h2>Belge Özeti</h2>
-            <div>{to_html(summary)}</div>
-            <h2>Soru ve Cevaplar</h2>
-        """
-        for i, (question, answer) in enumerate(results[1:], 1):
-            html_output += f"""
-            <div style="margin-bottom: 20px; padding: 10px; border-left: 3px solid #ccc;">
-                <h3>Soru {i}: {question}</h3>
-                <div>{to_html(answer)}</div>
-            </div>
-            """
-        html_output += "</div>"
-        # Word belgesi kaydet
-        doc = create_word_document(summary, results[1:])
-        temp_dir = tempfile.gettempdir()
-        doc_path = os.path.join(temp_dir, f"PDF_Rapor_{datetime.now().strftime('%Y%m%d_%H%M%S')}.docx")
-        doc.save(doc_path)
-        return html_output, doc_path
-    except Exception as e:
-        error_message = f"<div style='color: red; font-weight: bold;'>İşlem sırasında bir hata oluştu: {str(e)}</div>"
-        return error_message, None
-# Varsayılan sorular
 default_questions = """Belgenin ana konusu nedir?
-Belgenin yazarları kimlerdir?
 Belgedeki önemli bulgular nelerdir?
-Kaç sayfa bulunmaktadır?
-Hangi tarihte yayınlanmıştır?"""
-# Gradio arayüzü
 demo = gr.Interface(
-    fn=process_pdf,
     inputs=[
-        gr.File(label="PDF Dosyası Yükleyin", file_types=[".pdf"]),
-        gr.Textbox(label="Sorularınız (Her satıra bir soru yazın)", value=default_questions, lines=10)
     ],
     outputs=[
-        gr.HTML(label="Rapor Sonucu"),
-        gr.File(label="Word Belgesi")
     ],
-    title="PDF Belgelerinden Soru-Cevap Raporu Oluşturma Aracı",
-    description="PDF belgelerinizi yükleyin ve istediğiniz soruları sorun. AI destekli sistem belgenizi analiz edip yanıtları içeren bir rapor hazırlayacaktır.",
     allow_flagging="never"
 )
-# Uygulamayı başlat
 if __name__ == "__main__":
-    demo.launch(share=True)

 import google.generativeai as genai
 import os
 import PyPDF2
 from docx import Document
+import markdown
 from datetime import datetime
+import tempfile
+# Gemini API anahtarını ortam değişkeninden al
 genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
+# PDF metni çıkar
+def extract_text_from_pdf(pdf_file):
+    text = ""
     try:
+        pdf_reader = PyPDF2.PdfReader(pdf_file)
+        for page in pdf_reader.pages:
+            text += page.extract_text() or ""
         return text
     except Exception as e:
+        return f"Hata: PDF okunamadı. {str(e)}"
+# Gemini ile analiz et
+def analyze(text, questions):
+    generation_config = {
+        "temperature": 0.2,
+        "top_p": 0.95,
+        "top_k": 64,
+        "max_output_tokens": 8192,
+    }
+    model = genai.GenerativeModel(
+        model_name="gemini-1.5-flash",
+        generation_config=generation_config
+    )
+    # Özet çıkar
+    summary_prompt = f"Aşağıdaki metni özetle:\n\n{text[:15000]}\n\nÖzet:"
+    summary = model.generate_content(summary_prompt).text
+    # Soruları cevapla
+    qna = []
+    for question in questions:
+        if question.strip() == "":
+            continue
+        prompt = f"Belge:\n{text[:15000]}\n\nSoru: {question}\nCevap:"
+        answer = model.generate_content(prompt).text
+        qna.append((question, answer))
+    return summary, qna
+# Word belgesi oluştur
+def create_doc(summary, qna):
     doc = Document()
+    doc.add_heading("PDF Raporu", 0)
+    doc.add_paragraph(f"Oluşturulma Tarihi: {datetime.now().strftime('%d.%m.%Y %H:%M')}")
+    doc.add_heading("Özet", level=1)
     doc.add_paragraph(summary)
+    doc.add_heading("Soru-Cevap", level=1)
+    for i, (question, answer) in enumerate(qna, 1):
+        doc.add_heading(f"Soru {i}: {question}", level=2)
         doc.add_paragraph(answer)
+    temp_dir = tempfile.gettempdir()
+    file_path = os.path.join(temp_dir, f"rapor_{datetime.now().strftime('%Y%m%d%H%M%S')}.docx")
+    doc.save(file_path)
+    return file_path
+# Gradio fonksiyonu
+def process(pdf_file, questions_text):
+    text = extract_text_from_pdf(pdf_file)
+    if text.startswith("Hata"):
+        return text, None
+    questions = questions_text.strip().split("\n")
+    summary, qna = analyze(text, questions)
+    html_output = f"""
+    <h2>Özet</h2><p>{markdown.markdown(summary)}</p>
+    <h2>Soru ve Cevaplar</h2>
+    """
+    for i, (q, a) in enumerate(qna, 1):
+        html_output += f"<b>Soru {i}:</b> {q}<br><b>Cevap:</b> {a}<br><br>"
+    doc_path = create_doc(summary, qna)
+    return html_output, doc_path
 default_questions = """Belgenin ana konusu nedir?
 Belgedeki önemli bulgular nelerdir?
+Yazarlar kimlerdir?
+Belge hangi tarihte yayınlanmıştır?"""
+# Gradio Arayüzü
 demo = gr.Interface(
+    fn=process,
     inputs=[
+        gr.File(label="PDF Yükle", file_types=[".pdf"]),
+        gr.Textbox(label="Sorular (her satıra bir soru)", value=default_questions, lines=6)
     ],
     outputs=[
+        gr.HTML(label="Cevaplar"),
+        gr.File(label="Word Raporu")
     ],
+    title="📄 PDF'ten Soru-Cevap ve Word Raporu",
+    description="Gemini API kullanarak PDF içeriğinden sorulara cevap verir ve rapor hazırlar.",
     allow_flagging="never"
 )
 if __name__ == "__main__":
+    demo.launch()