CAI_Group12_chatbot

Sleeping

Niveytha27 commited on Mar 5

Commit

6fc2acb

verified ·

1 Parent(s): b35da19

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,8 +19,8 @@ DEFAULT_PDF_URLS = [
 ]
 def preload_data(pdf_urls):
-    embedding_model = SentenceTransformer("BAAI/bge-large-en")
     def download_pdf(url):
         response = requests.get(url, stream=True)
         response.raise_for_status()
@@ -40,7 +40,7 @@ def preload_data(pdf_urls):
         text = re.sub(r'\s+', ' ', text).strip()
         return text
-    def chunk_text(text, chunk_size=700, overlap_size=150):
         chunks = []
         start = 0
         text_length = len(text)
@@ -84,7 +84,6 @@ def preload_data(pdf_urls):
     return index, chunks
 index, chunks = preload_data(DEFAULT_PDF_URLS)
-embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
 accelerator = Accelerator()
 MODEL_NAME = "google/flan-t5-small"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
@@ -146,7 +145,7 @@ def generate_response(query, context):
 def process_query(query):
     retrieved_chunks = adaptive_retrieval(query, index, chunks)
-    merged_chunks = merge_chunks(retrieved_chunks, 150)
     reranked_chunks, similarities = rerank(query, merged_chunks)
     context = " ".join(reranked_chunks[:3])
     answer = generate_response(query, context)

 ]
 def preload_data(pdf_urls):
+    embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
     def download_pdf(url):
         response = requests.get(url, stream=True)
         response.raise_for_status()
         text = re.sub(r'\s+', ' ', text).strip()
         return text
+    def chunk_text(text, chunk_size=512, overlap_size=50):
         chunks = []
         start = 0
         text_length = len(text)
     return index, chunks
 index, chunks = preload_data(DEFAULT_PDF_URLS)
 accelerator = Accelerator()
 MODEL_NAME = "google/flan-t5-small"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 def process_query(query):
     retrieved_chunks = adaptive_retrieval(query, index, chunks)
+    merged_chunks = merge_chunks(retrieved_chunks, 50)
     reranked_chunks, similarities = rerank(query, merged_chunks)
     context = " ".join(reranked_chunks[:3])
     answer = generate_response(query, context)