Spaces:

alibidaran
/

PLAITO

Sleeping

App Files Files Community

alibidaran commited on 11 days ago

Commit

0a333a5

verified ·

1 Parent(s): 9be1f67

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +36 -8

src/streamlit_app.py CHANGED Viewed

@@ -4,7 +4,9 @@ import openai
 import os
 import time
 #from roles import *
-from langchain_community.document_loaders import PyPDFLoader
 import tempfile
 from RAG import load_graph,text_splitter
 import torch
@@ -180,18 +182,44 @@ uploaded_file = st.sidebar.file_uploader(
     label_visibility="collapsed"
 )
 upload_button=st.sidebar.button("Upload Document")
-if upload_button:
-    if uploaded_file is None:
-        st.warning("Please upload a PDF file.")
-        st.session_state.doc_flag = False
-    else:
-        file_text = get_text(uploaded_file)
         st.session_state.file_text = file_text
-        embeddings,chunks = embed_document(file_text)
         st.session_state.embeddings = embeddings
         st.session_state.chunks = chunks
         st.session_state.doc_flag = True
 st.sidebar.write("Before making the your faviorate charecter sound, authenicate your code")
 Authenication=st.sidebar.button('Authenicate')
 if Authenication:

 import os
 import time
 #from roles import *
+import io
+from pypdf import PdfReader
+#from langchain_community.document_loaders import PyPDFLoader
 import tempfile
 from RAG import load_graph,text_splitter
 import torch
     label_visibility="collapsed"
 )
 upload_button=st.sidebar.button("Upload Document")
+uploaded_file = st.sidebar.file_uploader(
+    "Upload your PDF",
+    type=["pdf"],
+    key="pdf_uploader",
+)
+def extract_pdf_text_from_bytes(file_bytes: bytes) -> str:
+    reader = PdfReader(io.BytesIO(file_bytes))
+    pages_text = []
+    for p in reader.pages:
+        txt = p.extract_text() or ""
+        pages_text.append(txt)
+    return "\n".join(pages_text)
+if uploaded_file is not None:
+    with st.spinner("Reading & embedding your PDF..."):
+        # Important: read bytes once on this rerun
+        file_bytes = uploaded_file.read()
+        # (Optional) if you ever re-use uploaded_file later, do: uploaded_file.seek(0)
+        # Extract text purely in-memory (no /tmp files, no PyPDFLoader)
+        file_text = extract_pdf_text_from_bytes(file_bytes)
+        # Persist to session state
         st.session_state.file_text = file_text
+        # Build embeddings (uses your existing text_splitter + encoder)
+        chunks = text_splitter.split_text(file_text)
+        embeddings = st.session_state.encoder.encode(
+            chunks, convert_to_tensor=True, show_progress_bar=True
+        ).cpu().numpy()
         st.session_state.embeddings = embeddings
         st.session_state.chunks = chunks
         st.session_state.doc_flag = True
+    st.success(f"Loaded: {uploaded_file.name} — {len(st.session_state.chunks)} chunks")
 st.sidebar.write("Before making the your faviorate charecter sound, authenicate your code")
 Authenication=st.sidebar.button('Authenicate')
 if Authenication: