Spaces:

ludigija
/

crosscheck

Running

App Files Files Community

ludigija commited on Apr 1

Commit

446457d

verified ·

1 Parent(s): c1d1ac0

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -7

app.py CHANGED Viewed

@@ -44,8 +44,17 @@ def load_questions_short():
 def extract_text_from_pdf(uploaded_file):
     try:
         with pdfplumber.open(uploaded_file) as pdf:
-            text = "\n".join(page.extract_text() or "" for page in pdf.pages)
-            return text if text.strip() else ""
     except Exception as e:
         st.error(f"PDF extraction error: {str(e)}")
         return ""
@@ -110,7 +119,12 @@ def load_contract(file):
             if not content:
                 # Fallback to PyPDF4
                 pdfReader = PyPDF4.PdfFileReader(file)
-                content = '\n'.join([pdfReader.getPage(i).extractText() for i in range(pdfReader.numPages)])
         elif ext == 'docx':
             content = docx2txt.process(file)
         else:
@@ -161,12 +175,12 @@ def main():
     if uploaded_file1:
         doc1_display.text_area("Document 1 Content",
                             value=contract_text1,
-                            height=200,
                             key="area1")
     if uploaded_file2:
         doc2_display.text_area("Document 2 Content",
                             value=contract_text2,
-                            height=200,
                             key="area2")
     if not (uploaded_file1 and uploaded_file2):
@@ -208,10 +222,10 @@ def main():
             col1, col2 = st.columns(2)
             with col1:
                 st.markdown("### Original Document")
-                st.markdown(f'<div style="border:1px solid #ccc; padding:10px; white-space: pre-wrap; font-family: monospace; font-size: 0.9em;">{st.session_state.comparison_results["highlighted_diff1"]}</div>', unsafe_allow_html=True)
             with col2:
                 st.markdown("### Modified Document")
-                st.markdown(f'<div style="border:1px solid #ccc; padding:10px; white-space: pre-wrap; font-family: monospace; font-size: 0.9em;">{st.session_state.comparison_results["highlighted_diff2"]}</div>', unsafe_allow_html=True)
     # ===== QUESTION ANALYSIS SECTION =====

 def extract_text_from_pdf(uploaded_file):
     try:
         with pdfplumber.open(uploaded_file) as pdf:
+            full_text = ""
+            for page in pdf.pages:
+                try:
+                    text = page.extract_text_formatted()  # Try to get formatted text
+                except AttributeError:
+                    text = page.extract_text()
+                if text:
+                    full_text += text + "\n\n"  # Add page separator
+                else:
+                    full_text += page.extract_text() + "\n\n"
+            return full_text if full_text.strip() else ""
     except Exception as e:
         st.error(f"PDF extraction error: {str(e)}")
         return ""
             if not content:
                 # Fallback to PyPDF4
                 pdfReader = PyPDF4.PdfFileReader(file)
+                full_text = ""
+                for page in pdfReader.pages:
+                    text = page.extractText()
+                    if text:
+                        full_text += text + "\n\n"
+                content = full_text
         elif ext == 'docx':
             content = docx2txt.process(file)
         else:
     if uploaded_file1:
         doc1_display.text_area("Document 1 Content",
                             value=contract_text1,
+                            height=400,  # Increased height for larger display
                             key="area1")
     if uploaded_file2:
         doc2_display.text_area("Document 2 Content",
                             value=contract_text2,
+                            height=400, # Increased height for larger display
                             key="area2")
     if not (uploaded_file1 and uploaded_file2):
             col1, col2 = st.columns(2)
             with col1:
                 st.markdown("### Original Document")
+                st.markdown(f'<div style="border:1px solid #ccc; padding:10px; white-space: pre-wrap; font-family: monospace; font-size: 0.9em; max-height: 500px; overflow-y: auto;">{st.session_state.comparison_results["highlighted_diff1"]}</div>', unsafe_allow_html=True)
             with col2:
                 st.markdown("### Modified Document")
+                st.markdown(f'<div style="border:1px solid #ccc; padding:10px; white-space: pre-wrap; font-family: monospace; font-size: 0.9em; max-height: 500px; overflow-y: auto;">{st.session_state.comparison_results["highlighted_diff2"]}</div>', unsafe_allow_html=True)
     # ===== QUESTION ANALYSIS SECTION =====