Spaces:

BarcenasBots
/

PruebaBM

Running

App Files Files Community

Danielbrdz commited on Jul 29

Commit

168ef78

verified ·

1 Parent(s): 03016eb

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -13

app.py CHANGED Viewed

@@ -13,12 +13,12 @@ SUPABASE_KEY = os.environ.get("SUPABASE_KEY")
 SYSTEM_MESSAGE = os.environ.get("System_Prompt")
 GROQ_API_URL = "https://api.groq.com/openai/v1/chat/completions"
-MODEL_NAME = "meta-llama/llama-4-maverick-17b-128e-instruct"
-MAX_TOKENS = 4096
 TEMPERATURE = 0.7
 TOP_P = 0.95
-MAX_REQUESTS_PER_MINUTE = 25
 REQUEST_WINDOW = 60
 class RateLimiter:
@@ -86,11 +86,13 @@ def respond(message, history: list[tuple[str, str]]):
     messages = [{"role": "system", "content": SYSTEM_MESSAGE}]
-    for user_msg, assistant_msg in history:
         if user_msg:
             messages.append({"role": "user", "content": user_msg})
         if assistant_msg:
-            messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
@@ -160,15 +162,25 @@ def respond(message, history: list[tuple[str, str]]):
         except requests.exceptions.HTTPError as e:
             if e.response.status_code == 429:
-                if attempt < max_retries - 1:
-                    retry_after = e.response.headers.get('retry-after', '60')
-                    wait_time = min(int(retry_after), 60)
-                    yield f"Servidor ocupado. Reintentando en {wait_time} segundos..."
-                    time.sleep(wait_time)
-                    continue
                 else:
-                    yield "El servidor está muy ocupado. Inténtalo en unos minutos."
-                    break
             else:
                 print(f"HTTP Error: {e}")
                 yield f"Error del servidor: {e.response.status_code}. Inténtalo de nuevo."

 SYSTEM_MESSAGE = os.environ.get("System_Prompt")
 GROQ_API_URL = "https://api.groq.com/openai/v1/chat/completions"
+MODEL_NAME = "meta-llama/llama-4-scout-17b-16e-instruct"
+MAX_TOKENS = 2048
 TEMPERATURE = 0.7
 TOP_P = 0.95
+MAX_REQUESTS_PER_MINUTE = 15
 REQUEST_WINDOW = 60
 class RateLimiter:
     messages = [{"role": "system", "content": SYSTEM_MESSAGE}]
+    truncated_history = history[-5:] if len(history) > 5 else history
+    for user_msg, assistant_msg in truncated_history:
         if user_msg:
             messages.append({"role": "user", "content": user_msg})
         if assistant_msg:
+            messages.append({"role": "assistant", "content": assistant_msg[:1000]})
     messages.append({"role": "user", "content": message})
         except requests.exceptions.HTTPError as e:
             if e.response.status_code == 429:
+                error_text = e.response.text
+                if "TPM" in error_text or "tokens per minute" in error_text:
+                    if attempt < max_retries - 1:
+                        yield f"Límite de tokens por minuto alcanzado. Reintentando en 30 segundos..."
+                        time.sleep(30)
+                        continue
+                    else:
+                        yield "Límite de tokens por minuto excedido. Espera 1 minuto antes de continuar."
+                        break
                 else:
+                    if attempt < max_retries - 1:
+                        retry_after = e.response.headers.get('retry-after', '10')
+                        wait_time = min(int(retry_after), 30)
+                        yield f"Servidor ocupado. Reintentando en {wait_time} segundos..."
+                        time.sleep(wait_time)
+                        continue
+                    else:
+                        yield "El servidor está muy ocupado. Inténtalo en unos minutos."
+                        break
             else:
                 print(f"HTTP Error: {e}")
                 yield f"Error del servidor: {e.response.status_code}. Inténtalo de nuevo."