RAG-PDF-Chatbot

Running

App Files Files Community

arjunanand13 commited on Nov 18, 2024

Commit

1d4a990

verified ·

1 Parent(s): 1596101

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -24

app.py CHANGED Viewed

@@ -3,10 +3,12 @@ import os
 from typing import List, Dict
 from ragas import evaluate
 from ragas.metrics import (
-    ContextRecall,
-    ContextRelevancy,
-    Faithfulness,
-    AnswerRelevancy
 )
 from datasets import load_dataset
 from langchain.text_splitter import (
@@ -87,12 +89,11 @@ def load_evaluation_dataset():
     dataset = load_dataset("explodinggradients/fiqa", split="test")
     return dataset
-def evaluate_rag_pipeline(qa_chain, dataset):
     # Sample a few examples for evaluation
     eval_samples = dataset.select(range(5))
-    # Prepare data for RAGAS evaluation
-    eval_data = []
     for sample in eval_samples:
         question = sample["question"]
@@ -102,33 +103,39 @@ def evaluate_rag_pipeline(qa_chain, dataset):
             "chat_history": []
         })
-        eval_data.append({
             "question": question,
             "answer": response["answer"],
-            "ground_truth": sample["answer"],
-            "contexts": [doc.page_content for doc in response["source_documents"]]
         })
-    # Initialize RAGAS metrics
-    metrics = [
-        ContextRecall(),
-        ContextRelevancy(),
-        Faithfulness(),
-        AnswerRelevancy()
-    ]
-    # Run evaluation
     results = evaluate(
-        eval_data,
-        metrics=metrics
     )
-    # Convert results to dictionary
     return {
-        "context_recall": float(results["context_recall"]),
-        "context_relevancy": float(results["context_relevancy"]),
         "faithfulness": float(results["faithfulness"]),
-        "answer_relevancy": float(results["answer_relevancy"])
     }
 # Initialize langchain LLM chain

 from typing import List, Dict
 from ragas import evaluate
 from ragas.metrics import (
+    answer_relevancy,
+    faithfulness,
+    context_recall,
+    context_precision,
+    answer_correctness,
+    answer_similarity
 )
 from datasets import load_dataset
 from langchain.text_splitter import (
     dataset = load_dataset("explodinggradients/fiqa", split="test")
     return dataset
+def prepare_ragas_dataset(qa_chain, dataset):
     # Sample a few examples for evaluation
     eval_samples = dataset.select(range(5))
+    ragas_dataset = []
     for sample in eval_samples:
         question = sample["question"]
             "chat_history": []
         })
+        ragas_dataset.append({
             "question": question,
             "answer": response["answer"],
+            "contexts": [doc.page_content for doc in response["source_documents"]],
+            "ground_truth": sample["answer"]
         })
+    return ragas_dataset
+def evaluate_rag_pipeline(qa_chain, dataset):
+    ragas_dataset = prepare_ragas_dataset(qa_chain, dataset)
+    # Run RAGAS evaluation
     results = evaluate(
+        ragas_dataset,
+        metrics=[
+            context_precision,
+            faithfulness,
+            answer_relevancy,
+            context_recall,
+            answer_correctness,
+            answer_similarity
+        ]
     )
+    # Convert results to a dictionary
     return {
+        "context_precision": float(results["context_precision"]),
         "faithfulness": float(results["faithfulness"]),
+        "answer_relevancy": float(results["answer_relevancy"]),
+        "context_recall": float(results["context_recall"]),
+        "answer_correctness": float(results["answer_correctness"]),
+        "answer_similarity": float(results["answer_similarity"])
     }
 # Initialize langchain LLM chain