Spaces:

jjvelezo
/

final-agent-course

Sleeping

App Files Files Community

jjvelezo commited on Apr 30

Commit

0d37642

verified ·

1 Parent(s): 10af3d7

Update agent.py

Browse files

Files changed (1) hide show

agent.py +175 -42

agent.py CHANGED Viewed

@@ -1,90 +1,112 @@
-from smolagents import Tool, DuckDuckGoSearchTool, GoogleSearchTool, VisitWebpageTool, WikipediaSearchTool, PythonInterpreterTool, FinalAnswerTool
 from tavily import TavilyClient
 from dotenv import load_dotenv
-import os
-load_dotenv()  # Cargar variables de entorno desde .env
-# Inicializar herramientas directamente en agent.py
-duck_search = DuckDuckGoSearchTool()
-google_search = GoogleSearchTool()
-visit_page = VisitWebpageTool()
-wiki_search = WikipediaSearchTool()
-do_python = PythonInterpreterTool()
 final_answer = FinalAnswerTool()
 tavily_search = TavilyClient()
-# Herramienta de transcripción de audio a texto
 speech_to_text_tool = Tool.from_space("hf-audio/whisper-large-v3-turbo",
                                       name="speech_to_text_tool",
-                                      description="""Convierte un archivo de audio a texto. Usa este comando:
-                                                     'speech_to_text_tool(filename)'""",
                                       api_name="/predict")
-# Herramienta de QA visual
 visual_qa_tool = Tool.from_space("sitammeur/PicQ",
-                                 name="visual_qa_tool",
-                                 description="""Responde preguntas sobre una imagen proporcionada.
-                                                Usa el comando: visual_qa_tool(question=<pregunta>, image=<nombre_de_imagen>)""",
                                  api_name="/predict")
-# Inicializar el modelo de Azure OpenAI
-from smolagents import AzureOpenAIServerModel
-import app_tokens
-model = AzureOpenAIServerModel(
-    model_id=app_tokens.AZURE_OPENAI_MODEL,
-    azure_endpoint=app_tokens.AZURE_OPENAI_ENDPOINT,
-    api_key=app_tokens.AZURE_OPENAI_API_KEY,
-    api_version=app_tokens.OPENAI_API_VERSION
-)
 class BasicAgent:
     def __init__(self):
-        # Agente de búsqueda en la web
         self.web_agent = CodeAgent(
-            model=model,
-            tools=[visit_page, wiki_search, google_search, final_answer],
             max_steps=8,
             name="web_agent",
-            description="Este agente realiza búsquedas en la web.",
             add_base_tools=True
         )
-        # Agente de conversión de audio a texto
         self.audio_agent = CodeAgent(
-            model=model,
             tools=[speech_to_text_tool, final_answer],
             max_steps=4,
             name="audio_agent",
-            description="Este agente convierte audio a texto.",
             add_base_tools=True
         )
-        # Agente para ejecución de código Python
         self.py_agent = CodeAgent(
-            model=model,
             tools=[do_python, final_answer],
             additional_authorized_imports=["json", "pandas", "numpy", "regex"],
             max_steps=8,
             name="python_code_agent",
-            description="Este agente ejecuta y valida código Python.",
             add_base_tools=True
         )
-        # Agente para análisis de imágenes
         self.visual_agent = CodeAgent(
-            model=model,
             tools=[visual_qa_tool, final_answer],
             max_steps=4,
             name="visual_qa_agent",
-            description="Este agente responde preguntas sobre imágenes.",
             add_base_tools=True
         )
-        # Agente principal que coordina otros agentes
         self.manager_agent = CodeAgent(
-            model=model,
             tools=[],
             managed_agents=[self.web_agent, self.audio_agent, self.py_agent, self.visual_agent],
             planning_interval=8,
@@ -99,3 +121,114 @@ class BasicAgent:
         else:
             result = self.manager_agent.run(question)
         return result

+import os
+import gradio as gr
+import requests
+from smolagents import Tool, CodeAgent, FinalAnswerTool, AzureOpenAIServerModel
 from tavily import TavilyClient
 from dotenv import load_dotenv
+load_dotenv()  # Cargar variables de entorno
+# Variables de entorno
+AZURE_OPENAI_MODEL = os.getenv("AZURE_OPENAI_MODEL")
+AZURE_OPENAI_ENDPOINT = os.getenv("AZURE_OPENAI_ENDPOINT")
+AZURE_OPENAI_API_KEY = os.getenv("AZURE_OPENAI_API_KEY")
+OPENAI_API_VERSION = os.getenv("OPENAI_API_VERSION")
+DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
+# Herramientas definidas
+duck_search = Tool.from_space("duckduckgo-search-v1", name="duck_search", description="Búsqueda en DuckDuckGo", api_name="/predict")
+google_search = Tool.from_space("google-search-v1", name="google_search", description="Búsqueda en Google", api_name="/predict")
+visit_page = Tool.from_space("visit-webpage-v1", name="visit_page", description="Visita páginas web", api_name="/predict")
+wiki_search = Tool.from_space("wikipedia-search-v1", name="wiki_search", description="Búsqueda en Wikipedia", api_name="/predict")
+do_python = Tool.from_space("python-interpreter-v1", name="do_python", description="Ejecuta código Python", api_name="/predict")
 final_answer = FinalAnswerTool()
+# Inicializar el cliente de Tavily
 tavily_search = TavilyClient()
 speech_to_text_tool = Tool.from_space("hf-audio/whisper-large-v3-turbo",
                                       name="speech_to_text_tool",
+                                      description="Convierte audio en texto proporcionando un archivo o URL.",
                                       api_name="/predict")
 visual_qa_tool = Tool.from_space("sitammeur/PicQ",
+                                 name="visual_qa_tool",
+                                 description="Responde preguntas sobre una imagen proporcionada.",
                                  api_name="/predict")
+# Agente básico
 class BasicAgent:
     def __init__(self):
+        # Agente para búsqueda web
         self.web_agent = CodeAgent(
+            model=AzureOpenAIServerModel(
+                model_id=AZURE_OPENAI_MODEL,
+                azure_endpoint=AZURE_OPENAI_ENDPOINT,
+                api_key=AZURE_OPENAI_API_KEY,
+                api_version=OPENAI_API_VERSION
+            ),
+            tools=[duck_search, google_search, wiki_search, visit_page, final_answer],
             max_steps=8,
             name="web_agent",
+            description="Realiza búsquedas web usando Google, DuckDuckGo y Wikipedia.",
             add_base_tools=True
         )
+        # Agente para convertir audio a texto
         self.audio_agent = CodeAgent(
+            model=AzureOpenAIServerModel(
+                model_id=AZURE_OPENAI_MODEL,
+                azure_endpoint=AZURE_OPENAI_ENDPOINT,
+                api_key=AZURE_OPENAI_API_KEY,
+                api_version=OPENAI_API_VERSION
+            ),
             tools=[speech_to_text_tool, final_answer],
             max_steps=4,
             name="audio_agent",
+            description="Convierte audio en texto.",
             add_base_tools=True
         )
+        # Agente para ejecutar código Python
         self.py_agent = CodeAgent(
+            model=AzureOpenAIServerModel(
+                model_id=AZURE_OPENAI_MODEL,
+                azure_endpoint=AZURE_OPENAI_ENDPOINT,
+                api_key=AZURE_OPENAI_API_KEY,
+                api_version=OPENAI_API_VERSION
+            ),
             tools=[do_python, final_answer],
             additional_authorized_imports=["json", "pandas", "numpy", "regex"],
             max_steps=8,
             name="python_code_agent",
+            description="Ejecuta y valida código Python.",
             add_base_tools=True
         )
+        # Agente para responder preguntas sobre imágenes
         self.visual_agent = CodeAgent(
+            model=AzureOpenAIServerModel(
+                model_id=AZURE_OPENAI_MODEL,
+                azure_endpoint=AZURE_OPENAI_ENDPOINT,
+                api_key=AZURE_OPENAI_API_KEY,
+                api_version=OPENAI_API_VERSION
+            ),
             tools=[visual_qa_tool, final_answer],
             max_steps=4,
             name="visual_qa_agent",
+            description="Responde preguntas sobre imágenes.",
             add_base_tools=True
         )
+        # Agente principal que maneja los subagentes
         self.manager_agent = CodeAgent(
+            model=AzureOpenAIServerModel(
+                model_id=AZURE_OPENAI_MODEL,
+                azure_endpoint=AZURE_OPENAI_ENDPOINT,
+                api_key=AZURE_OPENAI_API_KEY,
+                api_version=OPENAI_API_VERSION
+            ),
             tools=[],
             managed_agents=[self.web_agent, self.audio_agent, self.py_agent, self.visual_agent],
             planning_interval=8,
         else:
             result = self.manager_agent.run(question)
         return result
+# Función para ejecutar el flujo de trabajo completo
+def run_and_submit_all(profile: gr.OAuthProfile | None):
+    """
+    Obtiene todas las preguntas, ejecuta el BasicAgent sobre ellas, envía las respuestas y muestra los resultados.
+    """
+    space_id = os.getenv("SPACE_ID")  # Obtener el ID del espacio para enviar el enlace al código
+    if profile:
+        username = f"{profile.username}"
+        print(f"Usuario logueado: {username}")
+    else:
+        print("Usuario no logueado.")
+        return "Por favor, inicie sesión en Hugging Face.", None
+    api_url = DEFAULT_API_URL
+    questions_url = f"{api_url}/questions"
+    attachments_url = f"{api_url}/files/"
+    submit_url = f"{api_url}/submit"
+    try:
+        print("Iniciando agente...")
+        agent = BasicAgent()  # Aquí inicializamos el agente
+    except Exception as e:
+        print(f"Error al inicializar el agente: {e}")
+        return f"Error al inicializar el agente: {e}", None
+    # 2. Obtener preguntas
+    print(f"Obteniendo preguntas de: {questions_url}")
+    try:
+        response = requests.get(questions_url, timeout=15)
+        response.raise_for_status()
+        questions_data = response.json()
+        if not questions_data:
+            print("La lista de preguntas está vacía.")
+            return "La lista de preguntas está vacía o en formato incorrecto.", None
+        print(f"Obtenidas {len(questions_data)} preguntas.")
+        for q in questions_data:
+            file_name = q.get("file_name", "")
+            task_id = q.get("task_id")
+            if file_name and task_id:
+                try:
+                    att_response = requests.get(f"{attachments_url}{task_id}", timeout=15)
+                    att_response.raise_for_status()
+                    q["attachment_b64"] = att_response.text
+                except Exception as e:
+                    print(f"Error al obtener archivo adjunto para tarea {task_id}: {e}")
+                    q["attachment_b64"] = None
+    except requests.exceptions.RequestException as e:
+        print(f"Error al obtener preguntas: {e}")
+        return f"Error al obtener preguntas: {e}", None
+    # 3. Ejecutar agente sobre preguntas
+    results_log = []
+    answers_payload = []
+    print(f"Ejecutando agente sobre {len(questions_data)} preguntas...")
+    for item in questions_data:
+        task_id = item.get("task_id")
+        question_text = item.get("question", "")
+        attachment_b64 = item.get("attachment_b64", "")
+        if attachment_b64:
+            question_text = f"{question_text}\n\n[ATTACHMENT:]\n{attachment_b64}"
+        if not task_id or question_text is None:
+            print(f"Saltando elemento con task_id o pregunta faltante: {item}")
+            continue
+        try:
+            submitted_answer = agent.forward(question_text)  # Aquí ejecutamos el agente para obtener la respuesta
+            answers_payload.append({"task_id": task_id, "submitted_answer": submitted_answer})
+            results_log.append({"Task ID": task_id, "Question": question_text, "Submitted Answer": submitted_answer})
+        except Exception as e:
+            print(f"Error ejecutando agente sobre tarea {task_id}: {e}")
+            results_log.append({"Task ID": task_id, "Question": question_text, "Submitted Answer": f"ERROR AGENTE: {e}"})
+    if not answers_payload:
+        print("El agente no generó respuestas.")
+        return "El agente no generó respuestas.", None
+    # 4. Preparar la sumisión
+    submission_data = {"username": username.strip(), "answers": answers_payload}
+    print(f"Enviando respuestas para el usuario '{username}'...")
+    # 5. Enviar respuestas
+    try:
+        response = requests.post(submit_url, json=submission_data, timeout=60)
+        response.raise_for_status()
+        result_data = response.json()
+        final_status = (
+            f"¡Envío exitoso!\n"
+            f"Usuario: {result_data.get('username')}\n"
+            f"Puntuación total: {result_data.get('score', 'N/A')}% "
+            f"({result_data.get('correct_count', '?')}/{result_data.get('total_attempted', '?')} correctas)"
+        )
+        print("Envío exitoso.")
+        return final_status, results_log
+    except requests.exceptions.RequestException as e:
+        status_message = f"Error al enviar respuestas: {e}"
+        print(status_message)
+        return status_message, results_log
+# Interfaz de Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("# Evaluador de Agente Básico")
+    gr.LoginButton()
+    run_button = gr.Button("Ejecutar Evaluación y Enviar Todas las Respuestas")
+    status_output = gr.Textbox(label="Resultado de Ejecución / Envío", lines=5, interactive=False)
+    results_table = gr.DataFrame(label="Preguntas y Respuestas del Agente", wrap=True)
+    run_button.click(fn=run_and_submit_all, outputs=[status_output, results_table])
+if __name__ == "__main__":
+    demo.launch(debug=True, share=False)