Final_Assignment_Template

Sleeping

App Files Files Community

dawid-lorek commited on 10 days ago

Commit

dc1160b

verified ·

1 Parent(s): f8e24f8

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -18

app.py CHANGED Viewed

@@ -7,9 +7,10 @@ from smolagents import CodeAgent, DuckDuckGoSearchTool, OpenAIServerModel
 # Constants
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
-MAX_QUESTION_LENGTH = 4000  # to avoid GPT-4 8k token limit
-# --- Agent Definition using smolagents ---
 class SmartGAIAAgent:
     def __init__(self):
         self.api_key = os.getenv("OPENAI_API_KEY")
@@ -17,17 +18,19 @@ class SmartGAIAAgent:
             raise ValueError("Missing OPENAI_API_KEY")
         self.model = OpenAIServerModel(model_id="gpt-4", api_key=self.api_key)
-        # Agent with DuckDuckGo + built-in Python interpreter
         self.agent = CodeAgent(
             tools=[DuckDuckGoSearchTool()],
             model=self.model,
             add_base_tools=True
         )
     def __call__(self, question: str) -> str:
         try:
-            question = question[:MAX_QUESTION_LENGTH]
-            result = self.agent.run(question)
             return result.strip()
         except Exception as e:
             print(f"Agent error: {e}")
@@ -65,16 +68,20 @@ def run_and_submit_all(profile: gr.OAuthProfile | None):
     for item in questions_data:
         task_id = item.get("task_id")
-        question_text = item.get("question")
-        # Skip invalid or long/multimodal questions
         if not task_id or not question_text:
             continue
         if len(question_text) > MAX_QUESTION_LENGTH:
             print(f"Skipping long question: {task_id}")
             continue
-        if any(keyword in question_text.lower() for keyword in ['attached', '.mp3', '.wav', '.png', '.jpg', 'image']):
-            print(f"Skipping file/audio/image question: {task_id}")
             continue
         try:
@@ -106,29 +113,28 @@ def run_and_submit_all(profile: gr.OAuthProfile | None):
         response.raise_for_status()
         result_data = response.json()
         final_status = (
-            f"Submission Successful!\\n"
-            f"User: {result_data.get('username')}\\n"
             f"Score: {result_data.get('score')}% "
-            f"({result_data.get('correct_count')}/{result_data.get('total_attempted')})\\n"
             f"Message: {result_data.get('message')}"
         )
         return final_status, pd.DataFrame(results_log)
     except Exception as e:
         return f"Submission failed: {e}", pd.DataFrame(results_log)
-# --- Gradio Interface ---
 with gr.Blocks() as demo:
-    gr.Markdown("# GAIA Agent Evaluation")
     gr.Markdown("""
-    **Instructions:**
     1. Log in to Hugging Face
-    2. Click 'Run Evaluation' to generate and submit answers
-    3. Wait for the results
     """)
     gr.LoginButton()
     run_button = gr.Button("Run Evaluation & Submit All Answers")
     status_output = gr.Textbox(label="Submission Status", lines=5)
-    results_table = gr.DataFrame(label="Results")
     run_button.click(fn=run_and_submit_all, outputs=[status_output, results_table])

 # Constants
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
+MAX_QUESTION_LENGTH = 4000  # Character-based limit for questions
+MAX_WEBPAGE_CONTENT = 3000  # Character limit for visited pages (GPT-4 context safe)
+# --- Agent Definition ---
 class SmartGAIAAgent:
     def __init__(self):
         self.api_key = os.getenv("OPENAI_API_KEY")
             raise ValueError("Missing OPENAI_API_KEY")
         self.model = OpenAIServerModel(model_id="gpt-4", api_key=self.api_key)
         self.agent = CodeAgent(
             tools=[DuckDuckGoSearchTool()],
             model=self.model,
             add_base_tools=True
         )
+    def truncate_if_needed(self, question: str) -> str:
+        return question[:MAX_QUESTION_LENGTH]
     def __call__(self, question: str) -> str:
         try:
+            clean_question = self.truncate_if_needed(question)
+            result = self.agent.run(clean_question)
             return result.strip()
         except Exception as e:
             print(f"Agent error: {e}")
     for item in questions_data:
         task_id = item.get("task_id")
+        question_text = item.get("question", "")
+        # Skip problematic questions
+        skip_keywords = [
+            'attached', '.mp3', '.wav', '.png', '.jpg', '.jpeg',
+            'youtube', '.mp4', 'video', 'listen', 'watch'
+        ]
         if not task_id or not question_text:
             continue
         if len(question_text) > MAX_QUESTION_LENGTH:
             print(f"Skipping long question: {task_id}")
             continue
+        if any(keyword in question_text.lower() for keyword in skip_keywords):
+            print(f"Skipping unsupported question ({task_id}): {question_text[:60]}...")
             continue
         try:
         response.raise_for_status()
         result_data = response.json()
         final_status = (
+            f"Submission Successful!\n"
+            f"User: {result_data.get('username')}\n"
             f"Score: {result_data.get('score')}% "
+            f"({result_data.get('correct_count')}/{result_data.get('total_attempted')})\n"
             f"Message: {result_data.get('message')}"
         )
         return final_status, pd.DataFrame(results_log)
     except Exception as e:
         return f"Submission failed: {e}", pd.DataFrame(results_log)
+# --- Gradio UI ---
 with gr.Blocks() as demo:
+    gr.Markdown("# 🧠 GAIA Agent Evaluation")
     gr.Markdown("""
     1. Log in to Hugging Face
+    2. Click 'Run Evaluation & Submit All Answers'
+    3. View your score on the leaderboard
     """)
     gr.LoginButton()
     run_button = gr.Button("Run Evaluation & Submit All Answers")
     status_output = gr.Textbox(label="Submission Status", lines=5)
+    results_table = gr.DataFrame(label="Evaluation Results")
     run_button.click(fn=run_and_submit_all, outputs=[status_output, results_table])