Spaces:

EE21
/

ToS-Summarization

Sleeping

App Files Files Community

EmreYY20 commited on Dec 13, 2023

Commit

97f7d3e

1 Parent(s): 2a61e91

add metric

Browse files

Files changed (2) hide show

app.py +27 -1
extractive_model.py +2 -0

app.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import streamlit as st
 import PyPDF2
-from extractive_model import summarize_with_textrank  # Renamed function
 # Set page to wide mode
 st.set_page_config(layout="wide")
@@ -13,6 +15,14 @@ def load_pdf(file):
         pdf_text += pdf_reader.pages[page_num].extract_text() or ""
     return pdf_text
 # Main app
 def main():
     st.title("Terms of Service Summarizer")
@@ -33,6 +43,12 @@ def main():
             if uploaded_file and user_input:
                 st.warning("Please provide either text input or a PDF file, not both.")
                 return
             elif uploaded_file:
                 # Extract text from PDF
                 file_content = load_pdf(uploaded_file)
@@ -48,11 +64,21 @@ def main():
                 summary = summarize_with_textrank(file_content)
                 st.session_state.summary = summary
     # Right column: Displaying text after pressing 'Summarize'
     with col3:
         st.write("Summary:")
         if 'summary' in st.session_state:
             st.write(st.session_state.summary)
 if __name__ == "__main__":
     main()

 import streamlit as st
 import PyPDF2
+from extractive_model import summarize_with_textrank
+from nltk.tokenize import sent_tokenize
 # Set page to wide mode
 st.set_page_config(layout="wide")
         pdf_text += pdf_reader.pages[page_num].extract_text() or ""
     return pdf_text
+# Function to calculate overlap
+def calculate_overlap(original_text, summary_text):
+    original_sentences = set(sent_tokenize(original_text))
+    summary_sentences = set(sent_tokenize(summary_text))
+    overlap_count = sum(1 for sentence in summary_sentences if sentence in original_sentences)
+    overlap_percentage = (overlap_count / len(original_sentences)) * 100 if original_sentences else 0
+    return overlap_percentage
 # Main app
 def main():
     st.title("Terms of Service Summarizer")
             if uploaded_file and user_input:
                 st.warning("Please provide either text input or a PDF file, not both.")
                 return
+            # Perform overlap calculation
+            if 'summary' in st.session_state:
+                overlap = calculate_overlap(file_content, st.session_state.summary)
+                st.session_state.overlap = overlap
             elif uploaded_file:
                 # Extract text from PDF
                 file_content = load_pdf(uploaded_file)
                 summary = summarize_with_textrank(file_content)
                 st.session_state.summary = summary
+            # Perform extractive summarization
+            if radio_selection == "Abstractive":
+                None
+                #summary = summarize_with_textrank(file_content)
+                #st.session_state.summary = summary
     # Right column: Displaying text after pressing 'Summarize'
     with col3:
         st.write("Summary:")
         if 'summary' in st.session_state:
             st.write(st.session_state.summary)
+             # Display overlap percentage
+            if 'overlap' in st.session_state:
+                st.write(f"Overlap with Original Text: {st.session_state.overlap:.2f}%")
 if __name__ == "__main__":
     main()

extractive_model.py CHANGED Viewed

@@ -12,6 +12,8 @@ from sumy.utils import get_stop_words"""
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 import nltk
 nltk.download('punkt')

 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
+from sumy.summarizers.lsa import LsaSummarizer
+from sumy.summarizers.lex_rank import LexRankSummarizer
 import nltk
 nltk.download('punkt')