New_Final_Assignment

Sleeping

App Files Files Community

naman1102 commited on Jun 11

Commit

1ae0aa0

1 Parent(s): ebf7d5c

Arxiv

Browse files

Files changed (2) hide show

requirements.txt +11 -14
tools.py +33 -55

requirements.txt CHANGED Viewed

@@ -1,19 +1,16 @@
 gradio
-requests
-pillow
-pytesseract
-langgraph
 langchain
-openai
-pandas
-langchain_openai
 langchain_community
 openai
-duckduckgo-search
-regex
-pytesseract
 openpyxl
-duckduckgo-search
-wikipedia
-arxiv
-PyMuPDF

+arxiv
+duckduckgo-search
 gradio
 langchain
 langchain_community
+langchain_openai
+langgraph
 openai
 openpyxl
+pandas
+pillow
+PyMuPDF
+pytesseract
+regex
+requests
+wikipedia

tools.py CHANGED Viewed

@@ -10,6 +10,9 @@ import os
 from duckduckgo_search import DDGS
 from langchain_core.tools import tool
 from langchain_community.document_loaders import WikipediaLoader, ArxivLoader
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
@@ -272,7 +275,7 @@ def wikipedia_search_tool(wiki_query: str) -> str:
         return error_msg
 @tool
-def arxiv_search_tool(arxiv_query: str) -> str:
     """
     TOOL NAME: ArXiv Academic Search Tool
@@ -285,62 +288,37 @@ def arxiv_search_tool(arxiv_query: str) -> str:
     - "What are recent studies on climate change?"
     - "Search for papers on quantum computing"
     """
-    print(f"DEBUG: reached arxiv_search_tool with query: {arxiv_query}")
     try:
-        docs = ArxivLoader(query=arxiv_query, load_max_docs=3).load()  # Reduced from 5 to 3
-        print(f"DEBUG: ArxivLoader returned {len(docs)} documents")
-        result = ""
-        counter = 1
-        for doc in docs:
-            print(f"DEBUG: Processing document {counter}")
-            print(f"DEBUG: Document metadata: {doc.metadata}")
-            print(f"DEBUG: Document content length: {len(doc.page_content)}")
-            # Handle different metadata structures
-            title = "Unknown Title"
-            if hasattr(doc, 'metadata') and doc.metadata:
-                # Try different possible title keys
-                if 'title' in doc.metadata:
-                    title = doc.metadata['title']
-                elif 'Title' in doc.metadata:
-                    title = doc.metadata['Title']
-                elif 'entry_id' in doc.metadata:
-                    title = doc.metadata['entry_id']
-                elif 'summary' in doc.metadata:
-                    title = f"ArXiv Paper {counter}"
-                else:
-                    # Use first available key as title
-                    if doc.metadata:
-                        first_key = list(doc.metadata.keys())[0]
-                        title = f"{first_key}: {doc.metadata[first_key]}"
-            print(f"DEBUG: Using title: {title}")
-            # Trim content to key information only (reduced from 2000 to 800 characters)
-            content = doc.page_content[:800] if len(doc.page_content) > 800 else doc.page_content
-            # Add document but keep it concise
-            result += f"\n\nArXiv Result {counter}: {title}\nAbstract/Summary: {content}..."
-            counter += 1
-            # Stop after 2 documents to keep response manageable
-            if counter > 2:
-                break
-        if not result.strip():
-            return "No ArXiv results found for the given query. [END_OF_SEARCH]"
-        # Add clear end marker
-        result += "\n\n[END_OF_SEARCH] - ArXiv search complete. Use this information to answer the question."
-        print(f"DEBUG: Final ArXiv result length: {len(result)}")
-        return result
     except Exception as e:
-        error_msg = f"Error during Arxiv search: {str(e)} [END_OF_SEARCH]"
-        print(f"DEBUG: {error_msg}")
-        return error_msg
 from langchain_openai import ChatOpenAI

 from duckduckgo_search import DDGS
 from langchain_core.tools import tool
 from langchain_community.document_loaders import WikipediaLoader, ArxivLoader
+import arxiv
+import fitz  # PyMuPDF
+import tempfile
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
         return error_msg
 @tool
+def arxiv_search_tool(query: str) -> str:
     """
     TOOL NAME: ArXiv Academic Search Tool
     - "What are recent studies on climate change?"
     - "Search for papers on quantum computing"
     """
     try:
+        # Search arXiv for the top result
+        search = arxiv.Search(query=query, max_results=1, sort_by=arxiv.SortCriterion.Relevance)
+        result = next(search.results(), None)
+        if not result:
+            return "No results found. [END_OF_SEARCH]"
+        # Download PDF
+        pdf_url = result.pdf_url
+        response = requests.get(pdf_url)
+        response.raise_for_status()
+        # Save and open PDF
+        with tempfile.NamedTemporaryFile(suffix=".pdf", delete=True) as tmp:
+            tmp.write(response.content)
+            tmp.flush()
+            doc = fitz.open(tmp.name)
+            text = ""
+            for page in doc:
+                text += page.get_text()
+        # Clean and trim text
+        text = " ".join(text.split())
+        summary = text[:3000] + "..." if len(text) > 3000 else text
+        return f"Title: {result.title}\n\nSummary:\n{summary}\n\n[END_OF_SEARCH]"
     except Exception as e:
+        return f"Error fetching arXiv content: {e} [END_OF_SEARCH]"
 from langchain_openai import ChatOpenAI