restapitrial_vectordb

Sleeping

App Files Files Community

Redmind commited on Feb 13

Commit

4314dbc

verified ·

1 Parent(s): 6597a2e

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -37

app.py CHANGED Viewed

@@ -18,21 +18,6 @@ pptx_file="impalnt 1.pptx"
 collection = client.get_collection(name="knowledge_base")
-### Step 8: Process and Store from Files ###
-def process_and_store(pdf_path=None, pptx_path=None):
-    texts, images = [], []
-    if pdf_path:
-        print(f"Processing PDF: {pdf_path}")
-        texts.append(extract_text_from_pdf(pdf_path))
-        images.extend(extract_images_from_pdf(pdf_path))
-    if pptx_path:
-        print(f"Processing PPTX: {pptx_path}")
-        texts.append(extract_text_from_pptx(pptx_path))
-        images.extend(extract_images_from_pptx(pptx_path))
-    store_data(texts, images)
 # Initialize models
 text_model = SentenceTransformer('all-MiniLM-L6-v2')
@@ -42,28 +27,6 @@ clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
 # Folder for extracted images
 IMAGE_FOLDER = "/data/extracted_images"
 os.makedirs(IMAGE_FOLDER, exist_ok=True)
-process_and_store(pdf_path=pdf_file, pptx_path=pptx_file)
-@app.get("/")
-def greet_json():
-    return {"Hello": "World!"}
-@app.get("/test")
-def greet_json():
-    return {"Hello": "Redmind!"}
-@app.get("/search/")
-def search(query: str):
-    query_embedding = get_text_embedding(query)
-    results = collection.query(
-        query_embeddings=[query_embedding],
-        n_results=5
-    )
-    return {"results": results["documents"]}
 ### Step 1: Extract Text from PDF ###
 def extract_text_from_pdf(pdf_path):
     text = ""
@@ -146,4 +109,42 @@ def store_data(texts, image_paths):
     print("Data stored successfully!")

 collection = client.get_collection(name="knowledge_base")
 # Initialize models
 text_model = SentenceTransformer('all-MiniLM-L6-v2')
 # Folder for extracted images
 IMAGE_FOLDER = "/data/extracted_images"
 os.makedirs(IMAGE_FOLDER, exist_ok=True)
 ### Step 1: Extract Text from PDF ###
 def extract_text_from_pdf(pdf_path):
     text = ""
     print("Data stored successfully!")
+### Step 8: Process and Store from Files ###
+def process_and_store(pdf_path=None, pptx_path=None):
+    texts, images = [], []
+    if pdf_path:
+        print(f"Processing PDF: {pdf_path}")
+        texts.append(extract_text_from_pdf(pdf_path))
+        images.extend(extract_images_from_pdf(pdf_path))
+    if pptx_path:
+        print(f"Processing PPTX: {pptx_path}")
+        texts.append(extract_text_from_pptx(pptx_path))
+        images.extend(extract_images_from_pptx(pptx_path))
+    store_data(texts, images)
+process_and_store(pdf_path=pdf_file, pptx_path=pptx_file)
+@app.get("/")
+def greet_json():
+    return {"Hello": "World!"}
+@app.get("/test")
+def greet_json():
+    return {"Hello": "Redmind!"}
+@app.get("/search/")
+def search(query: str):
+    query_embedding = get_text_embedding(query)
+    results = collection.query(
+        query_embeddings=[query_embedding],
+        n_results=5
+    )
+    return {"results": results["documents"]}