Final_Assignment_Project

Sleeping

File size: 7,045 Bytes

03aebad
836d49c
26f5620
cd8de6f
cdbcd7d
26f5620
e7e6762
 
 
cdbcd7d
26f5620
cd8de6f
 
cdbcd7d
26f5620
2d14e5a
052f7ef
cdbcd7d
450a49d
cdbcd7d
fe25c9a
3970176
cdbcd7d
 
 
 
 
fe25c9a
cdbcd7d
fe25c9a
cdbcd7d
 
 
 
 
 
 
 
 
fe25c9a
cdbcd7d
 
 
 
 
 
 
 
 
fe25c9a
cdbcd7d
 
 
 
 
 
 
 
 
 
 
fe25c9a
cdbcd7d
 
 
 
 
 
 
 
 
7b1f7dd
26f5620
 
cdbcd7d
 
 
 
26f5620
 
 
cdbcd7d
26f5620
cdbcd7d
 
7df3234
26f5620
 
cdbcd7d
9af2eae
cdbcd7d
 
 
26f5620
 
 
 
7240bca
cdbcd7d
f03d005
26f5620
cdbcd7d
26f5620
1dfef0f
26f5620
 
 
 
 
 
 
 
cdbcd7d
95010ac
 
26f5620
 
 
 
 
 
 
 
dd8df2c
cdbcd7d
 
 
 
 
 
 
 
 
65f51b7
cdbcd7d
 
 
 
94dcdd5
0db0aa5
94e7570
dd8df2c
cdbcd7d
 
 
 
 
 
 
 
 
 
9b810cb
cdbcd7d
ab6c455
cdbcd7d
ab6c455
26f5620
cdbcd7d
ab6c455
 
 
 
 
 
26f5620
ab6c455
 
 
 
 
 
 
 
 
 
 
cdbcd7d
7622d0c
ab6c455
cdbcd7d
ab6c455
 
7240bca
ab6c455
26f5620
ab6c455
 
 
e7e6762
cdbcd7d
 
e7e6762
cdbcd7d
 
 
 
 
 
 
 
 
 
 
ad00d9c
cdbcd7d
7622d0c
cdbcd7d
7622d0c
 
cdbcd7d
 
7622d0c
cdbcd7d
 
 
 
 
23ba2f5
cdbcd7d
dd8df2c

import os
from dotenv import load_dotenv
from langgraph.graph import START, StateGraph, MessagesState
from langgraph.prebuilt import tools_condition
from langgraph.prebuilt import ToolNode
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_openai import ChatOpenAI
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_huggingface import ChatHuggingFace
from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint, HuggingFaceEmbeddings
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_community.document_loaders import WikipediaLoader
from langchain_community.document_loaders import ArxivLoader
from langchain_community.vectorstores import SupabaseVectorStore
from langchain_core.messages import SystemMessage, HumanMessage
from langchain_core.tools import tool
from langchain.tools.retriever import create_retriever_tool
from supabase.client import Client, create_client

load_dotenv()

@tool
def multiply(a: int, b: int) -> int:
    """Multiply two numbers.
    Args:
        a: first int
        b: second int
    """
    return a * b

@tool
def add(a: int, b: int) -> int:
    """Add two numbers.
    
    Args:
        a: first int
        b: second int
    """
    return a + b

@tool
def subtract(a: int, b: int) -> int:
    """Subtract two numbers.
    
    Args:
        a: first int
        b: second int
    """
    return a - b

@tool
def divide(a: int, b: int) -> int:
    """Divide two numbers.
    
    Args:
        a: first int
        b: second int
    """
    if b == 0:
        raise ValueError("Cannot divide by zero.")
    return a / b

@tool
def modulus(a: int, b: int) -> int:
    """Get the modulus of two numbers.
    
    Args:
        a: first int
        b: second int
    """
    return a % b

@tool
def wiki_search(query: str) -> str:
    """Search Wikipedia for a query and return maximum 2 results.
    
    Args:
        query: The search query."""
    search_docs = WikipediaLoader(query=query, load_max_docs=2).load()
    formatted_search_docs = "\n\n---\n\n".join(
        [
            f'<Document source="{doc.metadata["source"]}" page="{doc.metadata.get("page", "")}"/>\n{doc.page_content}\n</Document>'
            for doc in search_docs
        ])
    return {"wiki_results": formatted_search_docs}

@tool
def web_search(query: str) -> str:
    """Search Tavily for a query and return maximum 3 results.
    
    Args:
        query: The search query."""
    search_docs = TavilySearchResults(max_results=3).invoke(query=query)
    formatted_search_docs = "\n\n---\n\n".join(
        [
            f'<Document source="{doc.metadata["source"]}" page="{doc.metadata.get("page", "")}"/>\n{doc.page_content}\n</Document>'
            for doc in search_docs
        ])
    return {"web_results": formatted_search_docs}

@tool
def arvix_search(query: str) -> str:
    """Search Arxiv for a query and return maximum 3 result.
    
    Args:
        query: The search query."""
    search_docs = ArxivLoader(query=query, load_max_docs=3).load()
    formatted_search_docs = "\n\n---\n\n".join(
        [
            f'<Document source="{doc.metadata["source"]}" page="{doc.metadata.get("page", "")}"/>\n{doc.page_content[:1000]}\n</Document>'
            for doc in search_docs
        ])
    return {"arvix_results": formatted_search_docs}



# load the system prompt from the file
with open("system_prompt.txt", "r", encoding="utf-8") as f:
    system_prompt = f.read()

# System message
sys_msg = SystemMessage(content=system_prompt)

# build a retriever
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2") #  dim=768
supabase: Client = create_client(
    os.environ.get("SUPABASE_URL"), 
    os.environ.get("SUPABASE_SERVICE_KEY"))
vector_store = SupabaseVectorStore(
    client=supabase,
    embedding= embeddings,
    table_name="documents",
    query_name="match_documents_langchain",
)
create_retriever_tool = create_retriever_tool(
    retriever=vector_store.as_retriever(),
    name="Question Search",
    description="A tool to retrieve similar questions from a vector store.",
)



tools = [
    multiply,
    add,
    subtract,
    divide,
    modulus,
    wiki_search,
    web_search,
    arvix_search,
]

# Build graph function
def build_graph(provider: str = "huggingface", huggingface_model: str = "mistral"):
    """Build the graph"""

    if provider == "google":
        # Google Gemini
        llm = ChatGoogleGenerativeAI(
            model="gemini-2.0-flash",
            temperature=0,
            google_api_key=os.getenv("GOOGLE_API_KEY")
        )

    elif provider == "huggingface":
        # Choose between supported Hugging Face models
        if huggingface_model == "mistral":
            model_url = "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.1"
        elif huggingface_model == "llama":
            model_url = "https://api-inference.huggingface.co/models/Meta-DeepLearning/llama-2-7b-chat-hf"
        else:
            raise ValueError("Unsupported Hugging Face model")

        hf_token = os.getenv("HUGGINGFACE_API_TOKEN")
        headers = {"Authorization": f"Bearer {hf_token}"} if hf_token else {}

        llm = ChatHuggingFace(
            llm=HuggingFaceEndpoint(
                url=model_url,
                temperature=0,
                headers=headers
            )
        )

    else:
        raise ValueError("Invalid provider. Choose 'google' or 'huggingface'.")

    return llm
        
    # Bind tools to LLM
    llm_with_tools = llm.bind_tools(tools)
    return llm_with_tools

    # Node
    def assistant(state: MessagesState):
        """Assistant node"""
        return {"messages": [llm_with_tools.invoke(state["messages"])]}
    
    def retriever(state: MessagesState):
        """Retriever node"""
        similar_question = vector_store.similarity_search(state["messages"][0].content)
        example_msg = HumanMessage(
            content=f"Here I provide a similar question and answer for reference: \n\n{similar_question[0].page_content}",
        )
        return {"messages": [sys_msg] + state["messages"] + [example_msg]}

    builder = StateGraph(MessagesState)
    builder.add_node("retriever", retriever)
    builder.add_node("assistant", assistant)
    builder.add_node("tools", ToolNode(tools))
    builder.add_edge(START, "retriever")
    builder.add_edge("retriever", "assistant")
    builder.add_conditional_edges(
        "assistant",
        tools_condition,
    )
    builder.add_edge("tools", "assistant")

    # Compile graph
    return builder.compile()

# test
if __name__ == "__main__":
    question = "When was a picture of St. Thomas Aquinas first added to the Wikipedia page on the Principle of double effect?"
    # Build the graph
    graph = build_graph(provider="groq")
    # Run the graph
    messages = [HumanMessage(content=question)]
    messages = graph.invoke({"messages": messages})
    for m in messages["messages"]:
        m.pretty_print()