Final_Assignment_Project

Starting

App Files Files Community

wt002 commited on 4 days ago

Commit

aaf11bc

verified ·

1 Parent(s): 9b810cb

Update agent.csv

Browse files

Files changed (1) hide show

agent.py +34 -19

agent.py CHANGED Viewed

@@ -21,14 +21,15 @@ from langchain.embeddings.base import Embeddings
 from typing import List
 import numpy as np
-import json
 import uuid
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.schema import Document
-from langchain.tools.retriever import create_retriever_tool
 from sentence_transformers import SentenceTransformer
 load_dotenv()
 @tool
@@ -136,39 +137,53 @@ sys_msg = SystemMessage(content=system_prompt)
 # -------------------------------
-# Step 1: Load metadata.jsonl (max 165 docs)
 # -------------------------------
-docs = []
-with open("metadata.jsonl", "r", encoding="utf-8") as f:
-    for i, line in enumerate(f):
-        if i >= 165:
-            break
-        data = json.loads(line)
-        content = data.pop("content", "").strip()
-        if not content:
-            continue  # skip empty
-        data["id"] = str(uuid.uuid4())  # ensure each doc has unique ID
-        docs.append(Document(page_content=content, metadata=data))
 # -------------------------------
-# Step 2: Set up Embeddings + FAISS
 # -------------------------------
 embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
 vector_store = FAISS.from_documents(docs, embedding_model)
-# Save FAISS index locally (optional)
 vector_store.save_local("faiss_index")
 # -------------------------------
-# Step 3: Create Retriever Tool
 # -------------------------------
 retriever = vector_store.as_retriever()
-# Create retriever tool
 question_retriever_tool = create_retriever_tool(
     retriever=retriever,
     name="Question_Search",
-    description="Use this tool to retrieve documents related to a user's question."
 )

 from typing import List
 import numpy as np
+import pandas as pd
 import uuid
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.schema import Document
+from langchain.agents import create_retriever_tool
 from sentence_transformers import SentenceTransformer
 load_dotenv()
 @tool
 # -------------------------------
+# Step 1: Load documents from CSV file (max 165 rows)
 # -------------------------------
+csv_file_path = "/home/wendy/Downloads/documents.csv"  # Replace with your actual file path
+df = pd.read_csv(csv_file_path).head(165)
+# Check if 'content' column exists
+assert 'content' in df.columns, "'content' column is required in the CSV file."
+# Add 'id' and 'metadata' column
+df['id'] = [str(uuid.uuid4()) for _ in range(len(df))]
+if 'metadata' not in df.columns:
+    df['metadata'] = [{} for _ in range(len(df))]
+else:
+    # If metadata is a JSON string, convert it to dict
+    import json
+    df['metadata'] = df['metadata'].apply(lambda x: json.loads(x) if isinstance(x, str) else x)
+# Convert each row into a Document
+docs = [
+    Document(page_content=row['content'], metadata={'id': row['id'], **row['metadata']})
+    for _, row in df.iterrows()
+]
 # -------------------------------
+# Step 2: Set up HuggingFace Embeddings and FAISS VectorStore
 # -------------------------------
+# Initialize HuggingFace Embedding model
 embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
+# Create FAISS VectorStore from documents
 vector_store = FAISS.from_documents(docs, embedding_model)
+# Save the FAISS index locally
 vector_store.save_local("faiss_index")
+#print("✅ FAISS index created and saved locally.")
 # -------------------------------
+# Step 3: Create Retriever Tool (for use in LangChain)
 # -------------------------------
 retriever = vector_store.as_retriever()
+# Create the retriever tool
 question_retriever_tool = create_retriever_tool(
     retriever=retriever,
     name="Question_Search",
+    description="A tool to retrieve documents related to a user's question."
 )