Spaces:

gaur3009
/

rmrr

Sleeping

gaur3009 commited on May 16

Commit

05edc93

verified ·

1 Parent(s): b8699f4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,9 +31,35 @@ class PDFAnalyzer:
         return [text[i:i+500] for i in range(0, len(text), 500)]
     def query(self, question):
-        if not self.active_doc: return "Upload PDF first"
         ques_emb = self.model.encode(question)
-        return self.text_chunks[np.argmax(cosine_similarity([ques_emb], self.embeddings)[0])]
 def create_app():
     analyzer = PDFAnalyzer()

         return [text[i:i+500] for i in range(0, len(text), 500)]
     def query(self, question):
+        if not self.active_doc:
+            return "Please upload a PDF document first"
         ques_emb = self.model.encode(question)
+        best_idx = np.argmax(cosine_similarity([ques_emb], self.embeddings)[0])
+        full_answer = self.text_chunks[best_idx]
+        # Extract 100-word precise answer with context
+        words = full_answer.split()
+        question_words = set(question.lower().split())
+        # Find the most relevant sentence
+        sentences = re.split(r'(?<=[.!?]) +', full_answer)
+        best_sentence = max(sentences,
+                           key=lambda s: len(set(s.lower().split()) & question_words),
+                           default="")
+        # Get 50 words before and after the best sentence
+        all_words = ' '.join(sentences).split()
+        try:
+            start = max(0, all_words.index(best_sentence.split()[0]) - 50)
+            end = start + 100
+        except:
+            start = 0
+            end = 100
+        precise_answer = ' '.join(all_words[start:end]) + ("..." if end < len(all_words) else "")
+        return precise_answer
 def create_app():
     analyzer = PDFAnalyzer()