Spaces:

barunsaha
/

slide-deck-ai

Running

App Files Files Community

adibak commited on May 13

Commit

9c242be

1 Parent(s): 1e2c128

chat uploads, make slider work

Browse files

Files changed (2) hide show

app.py +32 -10
helpers/file_manager.py +15 -6

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ import httpx
 import huggingface_hub
 import json5
 import ollama
 import requests
 import streamlit as st
 from dotenv import load_dotenv
@@ -260,6 +261,9 @@ def set_up_chat_ui():
     Prepare the chat interface and related functionality.
     """
     print(f"slider={st.session_state["page_range_slider"][0], st.session_state["page_range_slider"][1]}")
     with st.expander('Usage Instructions'):
         st.markdown(GlobalConfig.CHAT_USAGE_INSTRUCTIONS)
@@ -287,19 +291,37 @@ def set_up_chat_ui():
         prompt_text = prompt.text or ''
         if prompt['files']:
             uploaded_pdf = prompt['files'][0]
-            # pdf_length = filem.get_pdf_length(uploaded_pdf)
-            # valid_pdf_length = min(50, pdf_length)
-            # st.session_state["page_range_slider"] = list(st.session_state["page_range_slider"])
-            # st.session_state["page_range_slider"][1] = valid_pdf_length
-            # print(f"length={pdf_length}, validated={valid_pdf_length}={st.session_state["page_range_slider"][-1]}")
-            # print(f"fname={uploaded_pdf.name}")
             # Apparently, Streamlit stores uploaded files in memory and clears on browser close
             # https://docs.streamlit.io/knowledge-base/using-streamlit/where-file-uploader-store-when-deleted
             st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(uploaded_pdf,
-                                                                        st.session_state["page_range_slider"])
-            print(f"extracting={st.session_state["page_range_slider"]}")
         provider, llm_name = llm_helper.get_provider_model(
             llm_provider_to_use,

 import huggingface_hub
 import json5
 import ollama
+from pypdf import PdfReader
 import requests
 import streamlit as st
 from dotenv import load_dotenv
     Prepare the chat interface and related functionality.
     """
     print(f"slider={st.session_state["page_range_slider"][0], st.session_state["page_range_slider"][1]}")
+    st.session_state["start_page"] = st.session_state["page_range_slider"][0]
+    st.session_state["end_page"] = st.session_state["page_range_slider"][1]
     with st.expander('Usage Instructions'):
         st.markdown(GlobalConfig.CHAT_USAGE_INSTRUCTIONS)
         prompt_text = prompt.text or ''
         if prompt['files']:
             uploaded_pdf = prompt['files'][0]
+            st.session_state["pdf_file"] = uploaded_pdf
             # Apparently, Streamlit stores uploaded files in memory and clears on browser close
             # https://docs.streamlit.io/knowledge-base/using-streamlit/where-file-uploader-store-when-deleted
+            # get validated page range
+            st.session_state["start_page"], st.session_state["end_page"] = filem.validate_page_range(uploaded_pdf,
+                                                                                                     st.session_state["start_page"],
+                                                                                                     st.session_state["end_page"])
+            # update sidebar text
+            with st.sidebar:
+                st.text(f"Extracting pages {st.session_state["start_page"]} to {st.session_state["end_page"]} in {uploaded_pdf.name}")
+            # get pdf contents
             st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(uploaded_pdf,
+                                                                        (st.session_state["start_page"],
+                                                                         st.session_state["end_page"]))
+        else:
+            # if we're using the same file (nothing new uploaded)
+            if "start_page" in st.session_state and "end_page" in st.session_state and "pdf_file" in st.session_state:
+                # validate the page range
+                st.session_state["start_page"], st.session_state["end_page"] = filem.validate_page_range(st.session_state["pdf_file"],
+                                                                                                    st.session_state["start_page"],
+                                                                                                    st.session_state["end_page"])
+                # update sidebar text
+                with st.sidebar:
+                    st.text(f"Extracting pages {st.session_state["start_page"]} to {st.session_state["end_page"]} in {st.session_state["pdf_file"].name}")
+                # get contents
+                st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(st.session_state["pdf_file"],
+                                                                            (st.session_state["start_page"], st.session_state["end_page"]))
         provider, llm_name = llm_helper.get_provider_model(
             llm_provider_to_use,

helpers/file_manager.py CHANGED Viewed

@@ -32,13 +32,9 @@ def get_pdf_contents(
     """
     reader = PdfReader(pdf_file)
-    n_pages = len(reader.pages)
     start, end = page_range                # set start and end per the range (user-specified values)
-    start = max(1, start)
-    end = min(n_pages, end)
-    if start >= end:
-        start = 1
     print(f"starting at {start}, ending {end}")
     text = ''
@@ -46,4 +42,17 @@ def get_pdf_contents(
         page = reader.pages[page_num]
         text += page.extract_text()
-    return text

     """
     reader = PdfReader(pdf_file)
     start, end = page_range                # set start and end per the range (user-specified values)
     print(f"starting at {start}, ending {end}")
     text = ''
         page = reader.pages[page_num]
         text += page.extract_text()
+    return text
+def validate_page_range(pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
+                        start:int, end:int) -> tuple[int, int]:
+    n_pages = len(PdfReader(pdf_file).pages)
+    #start, end = st.session_state["page_range_slider"]
+    start = max(1, start)
+    end = min(n_pages, end)
+    if start >= end:
+        start = 1
+    return (start, end)