Spaces:

habulaj
/

newapi-clone

Paused

App Files Files Community

habulaj commited on Aug 14

Commit

ad868d1

verified ·

1 Parent(s): 47a6536

Update routers/inference.py

Browse files

Files changed (1) hide show

routers/inference.py +57 -119

routers/inference.py CHANGED Viewed

@@ -10,7 +10,7 @@ from datetime import datetime
 from zoneinfo import ZoneInfo
 import locale
 import re
-import time
 # Configurar logging
 logger = logging.getLogger(__name__)
@@ -19,7 +19,7 @@ router = APIRouter()
 class NewsRequest(BaseModel):
     content: str
-    sources_url: str  # URL do arquivo fontes.txt
 class NewsResponse(BaseModel):
     title: str
@@ -27,6 +27,9 @@ class NewsResponse(BaseModel):
     content: str
     sources: list[str]  # Lista de URLs/links utilizados
 def get_brazilian_date_string():
     """
     Retorna a data atual formatada em português brasileiro.
@@ -104,120 +107,61 @@ def get_brazilian_date_string():
         date_string = now.strftime("%d de %B de %Y")
         return date_string
-def download_sources_file(url: str) -> str:
     """
-    Baixa o arquivo fontes.txt da URL fornecida com retry e headers apropriados.
     """
-    max_retries = 3
-    base_timeout = 45
-    # Headers que simulam um navegador real
-    headers = {
-        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
-        'Accept': 'text/plain,text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
-        'Accept-Language': 'pt-BR,pt;q=0.9,en;q=0.8',
-        'Accept-Encoding': 'gzip, deflate, br',
-        'Connection': 'keep-alive',
-        'Upgrade-Insecure-Requests': '1',
-        'Sec-Fetch-Dest': 'document',
-        'Sec-Fetch-Mode': 'navigate',
-        'Sec-Fetch-Site': 'none',
-        'Cache-Control': 'max-age=0'
-    }
-    for attempt in range(max_retries):
-        try:
-            logger.info(f"Tentativa {attempt + 1} de download do arquivo: {url}")
-            # Timeout progressivo: 45s, 60s, 90s
-            timeout = base_timeout + (attempt * 15)
-            # Configuração de sessão com retry automático
-            session = requests.Session()
-            # Adapter com retry automático
-            from requests.adapters import HTTPAdapter
-            from urllib3.util.retry import Retry
-            retry_strategy = Retry(
-                total=2,
-                backoff_factor=1,
-                status_forcelist=[429, 500, 502, 503, 504],
-            )
-            adapter = HTTPAdapter(max_retries=retry_strategy)
-            session.mount("http://", adapter)
-            session.mount("https://", adapter)
-            # Fazer a requisição
-            response = session.get(
-                url,
-                headers=headers,
-                timeout=timeout,
-                allow_redirects=True,
-                stream=False  # Não usar stream para arquivos pequenos
             )
-            response.raise_for_status()
-            content = response.text
-            logger.info(f"Download bem-sucedido na tentativa {attempt + 1}. Tamanho: {len(content)} caracteres")
-            # Validação básica do conteúdo
-            if len(content.strip()) < 10:
-                raise ValueError("Conteúdo do arquivo muito pequeno ou vazio")
-            # Verifica se é um JSON válido (assumindo que o arquivo contém JSON)
-            try:
-                json.loads(content)
-                logger.info("Arquivo JSON válido confirmado")
-            except json.JSONDecodeError:
-                logger.warning("Arquivo não é um JSON válido, mas continuando...")
-            return content
-        except requests.exceptions.Timeout as e:
-            logger.warning(f"Timeout na tentativa {attempt + 1}: {e}")
-            if attempt == max_retries - 1:
-                raise HTTPException(
-                    status_code=408,
-                    detail=f"Timeout ao baixar arquivo após {max_retries} tentativas. O servidor pode estar sobrecarregado."
-                )
-        except requests.exceptions.ConnectionError as e:
-            logger.warning(f"Erro de conexão na tentativa {attempt + 1}: {e}")
-            if attempt == max_retries - 1:
-                raise HTTPException(
-                    status_code=503,
-                    detail=f"Erro de conexão após {max_retries} tentativas. Verifique se a URL está correta: {url}"
-                )
-        except requests.exceptions.HTTPError as e:
-            status_code = e.response.status_code if e.response else 500
-            logger.error(f"Erro HTTP {status_code} na tentativa {attempt + 1}: {e}")
-            if status_code == 404:
-                raise HTTPException(status_code=404, detail="Arquivo não encontrado. Verifique se a URL está correta.")
-            elif status_code in [500, 502, 503, 504]:
-                if attempt == max_retries - 1:
-                    raise HTTPException(status_code=status_code, detail=f"Erro do servidor ({status_code}) após {max_retries} tentativas.")
             else:
-                raise HTTPException(status_code=status_code, detail=f"Erro HTTP {status_code}: {str(e)}")
-        except ValueError as e:
-            logger.error(f"Erro de validação na tentativa {attempt + 1}: {e}")
-            raise HTTPException(status_code=422, detail=f"Conteúdo do arquivo inválido: {str(e)}")
-        except Exception as e:
-            logger.error(f"Erro inesperado na tentativa {attempt + 1}: {e}")
-            if attempt == max_retries - 1:
-                raise HTTPException(status_code=500, detail=f"Erro inesperado ao baixar arquivo: {str(e)}")
-        # Wait before retry (exponential backoff)
-        if attempt < max_retries - 1:
-            wait_time = (attempt + 1) * 2
-            logger.info(f"Aguardando {wait_time}s antes da próxima tentativa...")
-            time.sleep(wait_time)
 def extract_text_from_response(response):
     """
@@ -291,10 +235,8 @@ async def rewrite_news(news: NewsRequest):
         if not api_key:
             raise HTTPException(status_code=500, detail="API key não configurada")
-        # Baixar arquivo de fontes com retry melhorado
-        logger.info(f"Iniciando download do arquivo de fontes: {news.sources_url}")
-        sources_content = download_sources_file(news.sources_url)
-        logger.info("Download do arquivo de fontes concluído com sucesso")
         client = genai.Client(api_key=api_key)
         model = "gemini-2.5-pro"
@@ -393,7 +335,6 @@ News base: Ed Helms revealed in an interview that he was nervous about his paren
         ]
         # Gerar conteúdo
-        logger.info("Iniciando geração de conteúdo com Gemini...")
         response = client.models.generate_content(
             model=model,
             contents=contents,
@@ -403,8 +344,6 @@ News base: Ed Helms revealed in an interview that he was nervous about his paren
         # Extrair texto e fontes
         response_text = extract_text_from_response(response)
         sources = extract_sources_from_response(response)
-        logger.info("Conteúdo gerado com sucesso pelo Gemini")
         # Verificar se o texto está vazio
         if not response_text or response_text.strip() == "":
@@ -430,7 +369,6 @@ News base: Ed Helms revealed in an interview that he was nervous about his paren
             else:
                 content = "Conteúdo não encontrado"
-        logger.info("Processamento concluído com sucesso")
         return NewsResponse(title=title, subhead=subhead, content=content, sources=sources)
     except HTTPException:

 from zoneinfo import ZoneInfo
 import locale
 import re
+from pathlib import Path
 # Configurar logging
 logger = logging.getLogger(__name__)
 class NewsRequest(BaseModel):
     content: str
+    file_id: str  # ID do arquivo temporário ao invés da URL
 class NewsResponse(BaseModel):
     title: str
     content: str
     sources: list[str]  # Lista de URLs/links utilizados
+# Referência ao diretório de arquivos temporários (deve ser o mesmo do outro módulo)
+TEMP_DIR = Path("/tmp")
 def get_brazilian_date_string():
     """
     Retorna a data atual formatada em português brasileiro.
         date_string = now.strftime("%d de %B de %Y")
         return date_string
+def load_sources_file(file_id: str) -> str:
     """
+    Carrega o arquivo de fontes pelo ID do arquivo temporário.
     """
+    try:
+        # Constrói o caminho do arquivo
+        file_path = TEMP_DIR / f"fontes_{file_id}.txt"
+        # Verifica se o arquivo existe
+        if not file_path.exists():
+            raise HTTPException(
+                status_code=404,
+                detail=f"Arquivo temporário não encontrado ou expirado: {file_id}"
             )
+        # Lê o conteúdo do arquivo
+        with open(file_path, 'r', encoding='utf-8') as f:
+            file_content = f.read()
+        # Se for um JSON, extrai os dados; caso contrário, retorna o conteúdo direto
+        try:
+            data = json.loads(file_content)
+            # Se contém 'results', formata os dados para o Gemini
+            if 'results' in data and isinstance(data['results'], list):
+                formatted_content = ""
+                for idx, result in enumerate(data['results'], 1):
+                    formatted_content += f"\n--- FONTE {idx} ---\n"
+                    formatted_content += f"Termo: {result.get('term', 'N/A')}\n"
+                    formatted_content += f"URL: {result.get('url', 'N/A')}\n"
+                    formatted_content += f"Idade: {result.get('age', 'N/A')}\n"
+                    formatted_content += f"Conteúdo:\n{result.get('text', 'N/A')}\n"
+                    formatted_content += "-" * 50 + "\n"
+                return formatted_content
             else:
+                return file_content
+        except json.JSONDecodeError:
+            # Se não for JSON válido, retorna o conteúdo como texto
+            return file_content
+    except FileNotFoundError:
+        raise HTTPException(
+            status_code=404,
+            detail=f"Arquivo temporário não encontrado: {file_id}"
+        )
+    except PermissionError:
+        raise HTTPException(
+            status_code=500,
+            detail=f"Erro de permissão ao acessar arquivo: {file_id}"
+        )
+    except Exception as e:
+        logger.error(f"Erro ao carregar arquivo de fontes {file_id}: {e}")
+        raise HTTPException(
+            status_code=500,
+            detail=f"Erro ao carregar arquivo de fontes: {str(e)}"
+        )
 def extract_text_from_response(response):
     """
         if not api_key:
             raise HTTPException(status_code=500, detail="API key não configurada")
+        # Carregar arquivo de fontes pelo ID
+        sources_content = load_sources_file(news.file_id)
         client = genai.Client(api_key=api_key)
         model = "gemini-2.5-pro"
         ]
         # Gerar conteúdo
         response = client.models.generate_content(
             model=model,
             contents=contents,
         # Extrair texto e fontes
         response_text = extract_text_from_response(response)
         sources = extract_sources_from_response(response)
         # Verificar se o texto está vazio
         if not response_text or response_text.strip() == "":
             else:
                 content = "Conteúdo não encontrado"
         return NewsResponse(title=title, subhead=subhead, content=content, sources=sources)
     except HTTPException: