Spaces:

notabaka
/

ASRtest

Runtime error

notabaka commited on Feb 23, 2024

Commit

d0e6bd5

1 Parent(s): 60eae40

ttt1

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,23 +29,28 @@ query = st.text_input("Enter search query")
 click = st.button("Search")
 def extract_text(doc):
-    if doc.type == 'text/plain':
-        return doc.getvalue().decode("utf-8")
-    if doc.type == "application/pdf":
-        with pdfplumber.open(doc) as pdf:
-            pages = [page.extract_text() for page in pdf.pages]
-            return "\n".join(pages)
-    if doc.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
-        return docx2txt.process(doc)
-    if doc.name.endswith(".xlsx"):
-        text = textract.process(doc)
-        return text.decode("utf-8")
-    return None
 if click and query:
     doc_contents = []

 click = st.button("Search")
 def extract_text(doc):
+    # Write temp file
+    with tempfile.TemporaryFile() as fp:
+        fp.write(doc.read())
+        if doc.type == 'text/plain':
+            fp.seek(0)
+            return fp.read().decode("utf-8")
+        # Rest of logic
+        if doc.name.endswith(".pdf"):
+            fp.seek(0)
+            with pdfplumber.open(fp) as pdf:
+                pages = [page.extract_text() for page in pdf.pages]
+                return "\n".join(pages)
+        if doc.name.endswith(".docx"):
+            fp.seek(0)
+            return docx2txt.process(fp)
+        # other cases
+    return None
 if click and query:
     doc_contents = []