Spaces:

habulaj
/

newapi-clone

Running

App Files Files Community

habulaj commited on about 15 hours ago

Commit

187b405

verified ·

1 Parent(s): e6ffd02

Update routers/inference.py

Browse files

Files changed (1) hide show

routers/inference.py +124 -132

routers/inference.py CHANGED Viewed

@@ -2,7 +2,8 @@ import os
 import logging
 import json
 import requests
-import httpx
 from fastapi import APIRouter, HTTPException
 from pydantic import BaseModel
 from google import genai
@@ -11,7 +12,8 @@ from datetime import datetime
 from zoneinfo import ZoneInfo
 import locale
 import re
-from pathlib import Path
 # Configurar logging
 logger = logging.getLogger(__name__)
@@ -20,18 +22,87 @@ router = APIRouter()
 class NewsRequest(BaseModel):
     content: str
-    file_id: str = None  # Agora é opcional
 class NewsResponse(BaseModel):
     title: str
     subhead: str
     content: str
-    title_instagram: str  # Campo Instagram title
-    content_instagram: str  # Campo Instagram description
-# Referência ao diretório de arquivos temporários (deve ser o mesmo do outro módulo)
 TEMP_DIR = Path("/tmp")
 def get_brazilian_date_string():
     """
     Retorna a data atual formatada em português brasileiro.
@@ -109,58 +180,6 @@ def get_brazilian_date_string():
         date_string = now.strftime("%d de %B de %Y")
         return date_string
-async def generate_sources_from_content(content: str) -> str:
-    """
-    Chama o endpoint de busca de termos para gerar fontes baseadas no conteúdo.
-    Retorna o file_id do arquivo gerado.
-    """
-    try:
-        # Configurar a URL base - ajuste conforme sua configuração
-        base_url = os.getenv("BASE_URL", "http://localhost:8000")
-        search_url = f"{base_url}/search-terms"
-        # Fazer chamada HTTP para o endpoint de busca
-        payload = {"context": content}
-        async with httpx.AsyncClient(timeout=120.0) as client:
-            response = await client.post(search_url, json=payload)
-            if response.status_code != 200:
-                logger.error(f"Erro na busca de termos: {response.status_code} - {response.text}")
-                raise HTTPException(
-                    status_code=500,
-                    detail=f"Erro ao gerar fontes: {response.status_code}"
-                )
-            result = response.json()
-            file_info = result.get("file_info", {})
-            file_id = file_info.get("file_id")
-            if not file_id:
-                logger.error("File ID não encontrado na resposta da busca")
-                raise HTTPException(
-                    status_code=500,
-                    detail="Erro ao obter ID do arquivo de fontes"
-                )
-            logger.info(f"Fontes geradas com sucesso. File ID: {file_id}")
-            logger.info(f"Total de resultados encontrados: {result.get('total_results', 0)}")
-            return file_id
-    except httpx.RequestError as e:
-        logger.error(f"Erro de conexão ao gerar fontes: {str(e)}")
-        raise HTTPException(
-            status_code=503,
-            detail="Serviço de busca indisponível"
-        )
-    except Exception as e:
-        logger.error(f"Erro inesperado ao gerar fontes: {str(e)}")
-        raise HTTPException(
-            status_code=500,
-            detail=f"Erro interno ao gerar fontes: {str(e)}"
-        )
 def load_sources_file(file_id: str) -> str:
     """
     Carrega o arquivo de fontes pelo ID do arquivo temporário.
@@ -272,55 +291,13 @@ def extract_text_from_response(response):
                     except Exception as e:
                         logger.error(f"Erro ao processar parts do candidate {i}: {e}")
-    # Método 3: Tentar usar método _get_text() se existir
-    try:
-        if hasattr(response, '_get_text'):
-            text_content = response._get_text()
-            if text_content:
-                logger.info(f"Texto extraído via _get_text(): {len(text_content)} caracteres")
-                return text_content
-    except Exception as e:
-        logger.error(f"Erro ao usar _get_text(): {e}")
-    # Método 4: Debug - tentar inspecionar a estrutura real
-    try:
-        logger.info("Tentando debug da estrutura:")
-        if hasattr(response, 'candidates') and response.candidates:
-            candidate = response.candidates[0]
-            logger.info(f"Primeiro candidate: {type(candidate)}")
-            logger.info(f"Atributos do candidate: {dir(candidate)}")
-            if hasattr(candidate, 'content'):
-                content = candidate.content
-                logger.info(f"Content: {type(content)}")
-                logger.info(f"Atributos do content: {dir(content)}")
-                if hasattr(content, 'parts'):
-                    logger.info(f"Parts: {type(content.parts)}")
-                    try:
-                        parts_list = list(content.parts)
-                        if parts_list:
-                            first_part = parts_list[0]
-                            logger.info(f"Primeiro part: {type(first_part)}")
-                            logger.info(f"Atributos do part: {dir(first_part)}")
-                    except Exception as e:
-                        logger.error(f"Erro ao inspecionar parts: {e}")
-    except Exception as e:
-        logger.error(f"Erro no debug da estrutura: {e}")
     return ""
-def extract_sources_from_response(response):
-    """
-    Função removida - sources não são mais necessárias.
-    """
-    return []
 @router.post("/rewrite-news", response_model=NewsResponse)
 async def rewrite_news(news: NewsRequest):
     """
-    Endpoint para reescrever notícias usando o modelo Gemini com arquivo de fontes.
-    Se file_id não for fornecido, gera automaticamente as fontes baseadas no conteúdo.
     """
     try:
         # Verificar API key
@@ -328,17 +305,43 @@ async def rewrite_news(news: NewsRequest):
         if not api_key:
             raise HTTPException(status_code=500, detail="API key não configurada")
-        # Se file_id não foi fornecido, gera as fontes automaticamente
         if not news.file_id:
-            logger.info("File ID não fornecido. Gerando fontes automaticamente...")
-            file_id = await generate_sources_from_content(news.content)
-            logger.info(f"Fontes geradas automaticamente. File ID: {file_id}")
         else:
-            file_id = news.file_id
-            logger.info(f"Usando file_id fornecido: {file_id}")
-        # Carregar arquivo de fontes pelo ID
-        sources_content = load_sources_file(file_id)
         client = genai.Client(api_key=api_key)
         model = "gemini-2.5-pro"
@@ -346,6 +349,7 @@ async def rewrite_news(news: NewsRequest):
         # Obter data formatada
         date_string = get_brazilian_date_string()
         # Instruções do sistema
         SYSTEM_INSTRUCTIONS = f"""
 Você é um jornalista brasileiro, escrevendo para portais digitais. Sua missão é transformar notícias internacionais em matérias originais, detalhadas e atualizadas para o público brasileiro. Sempre use a notícia-base como ponto de partida, mas consulte o arquivo fontes.txt para extrair todas as informações relevantes, complementando fatos, contexto, dados e antecedentes. Não invente informações; na dúvida, não insira.
@@ -540,6 +544,13 @@ The 48th annual Kennedy Center Honors, set to air on the CBS network and stream
             config=config
         )
         logger.info("Resposta do modelo recebida com sucesso")
         # Extrair texto
@@ -547,20 +558,9 @@ The 48th annual Kennedy Center Honors, set to air on the CBS network and stream
         logger.info(f"Texto extraído: {len(response_text) if response_text else 0} caracteres")
-        # Log da resposta bruta completa para debug
-        logger.info("=== RESPOSTA BRUTA DA API ===")
-        logger.info(f"Resposta completa: {response_text}")
-        logger.info("=== FIM RESPOSTA BRUTA ===")
         # Verificar se o texto está vazio
         if not response_text or response_text.strip() == "":
             logger.error("Texto extraído está vazio")
-            # Debug adicional: tentar logar a resposta crua
-            try:
-                logger.error(f"Resposta crua (primeiros 500 chars): {str(response)[:500]}")
-            except:
-                logger.error("Não foi possível converter resposta para string")
             raise HTTPException(
                 status_code=500,
                 detail="Modelo não retornou conteúdo válido"
@@ -583,22 +583,13 @@ The 48th annual Kennedy Center Honors, set to air on the CBS network and stream
             else:
                 content = "Conteúdo não encontrado"
-        # Campos do Instagram com debug adicional
         insta_title_match = re.search(r"<instagram_title>(.*?)</instagram_title>", response_text, re.DOTALL)
         title_instagram = insta_title_match.group(1).strip() if insta_title_match else "Título Instagram não encontrado"
         insta_desc_match = re.search(r"<instagram_description>(.*?)</instagram_description>", response_text, re.DOTALL)
         content_instagram = insta_desc_match.group(1).strip() if insta_desc_match else "Descrição Instagram não encontrada"
-        # Debug específico para Instagram fields
-        logger.info(f"Instagram Title Match: {bool(insta_title_match)}")
-        logger.info(f"Instagram Description Match: {bool(insta_desc_match)}")
-        if insta_title_match:
-            logger.info(f"Instagram Title encontrado: {title_instagram[:100]}...")
-        if insta_desc_match:
-            logger.info(f"Instagram Description encontrado: {content_instagram[:100]}...")
         logger.info(f"Processamento concluído com sucesso - Título: {title[:50]}...")
         return NewsResponse(
@@ -606,7 +597,8 @@ The 48th annual Kennedy Center Honors, set to air on the CBS network and stream
             subhead=subhead,
             content=content,
             title_instagram=title_instagram,
-            content_instagram=content_instagram
         )
     except HTTPException:

 import logging
 import json
 import requests
+import importlib.util
+from pathlib import Path
 from fastapi import APIRouter, HTTPException
 from pydantic import BaseModel
 from google import genai
 from zoneinfo import ZoneInfo
 import locale
 import re
+import asyncio
+from typing import Optional, Dict, Any
 # Configurar logging
 logger = logging.getLogger(__name__)
 class NewsRequest(BaseModel):
     content: str
+    file_id: str = None  # Agora opcional
 class NewsResponse(BaseModel):
     title: str
     subhead: str
     content: str
+    title_instagram: str
+    content_instagram: str
+    sources_info: Optional[Dict[str, Any]] = None  # Informações das fontes geradas
+# Referência ao diretório de arquivos temporários
 TEMP_DIR = Path("/tmp")
+def load_searchterm_module():
+    """Carrega o módulo searchterm.py dinamicamente"""
+    try:
+        # Procura o arquivo searchterm.py em diferentes locais
+        searchterm_path = Path(__file__).parent / "searchterm.py"
+        if not searchterm_path.exists():
+            # Tenta outros caminhos possíveis
+            possible_paths = [
+                Path(__file__).parent.parent / "searchterm.py",
+                Path("./searchterm.py"),
+                Path("../searchterm.py")
+            ]
+            for path in possible_paths:
+                if path.exists():
+                    searchterm_path = path
+                    break
+            else:
+                logger.error("searchterm.py não encontrado em nenhum dos caminhos")
+                return None
+        spec = importlib.util.spec_from_file_location("searchterm", searchterm_path)
+        searchterm_module = importlib.util.module_from_spec(spec)
+        spec.loader.exec_module(searchterm_module)
+        logger.info(f"Módulo searchterm.py carregado com sucesso: {searchterm_path}")
+        return searchterm_module
+    except Exception as e:
+        logger.error(f"Erro ao carregar searchterm.py: {str(e)}")
+        return None
+# Carrega o módulo na inicialização
+searchterm_module = load_searchterm_module()
+async def generate_sources_from_content(content: str) -> Optional[str]:
+    """
+    Gera fontes usando o módulo searchterm baseado no conteúdo da notícia
+    """
+    try:
+        if not searchterm_module:
+            logger.error("Módulo searchterm não carregado")
+            return None
+        logger.info(f"Gerando fontes para conteúdo: {len(content)} caracteres")
+        # Prepara o payload para o searchterm
+        payload = {"context": content}
+        # Chama a função search_terms do módulo searchterm
+        # Simula uma requisição FastAPI criando um objeto com o método necessário
+        result = await searchterm_module.search_terms(payload)
+        if result and "file_info" in result:
+            file_id = result["file_info"]["file_id"]
+            logger.info(f"Fontes geradas com sucesso. File ID: {file_id}")
+            logger.info(f"Total de resultados: {result.get('total_results', 0)}")
+            logger.info(f"Termos gerados: {len(result.get('generated_terms', []))}")
+            return file_id
+        else:
+            logger.error("Resultado inválido do searchterm")
+            return None
+    except Exception as e:
+        logger.error(f"Erro ao gerar fontes: {str(e)}")
+        return None
 def get_brazilian_date_string():
     """
     Retorna a data atual formatada em português brasileiro.
         date_string = now.strftime("%d de %B de %Y")
         return date_string
 def load_sources_file(file_id: str) -> str:
     """
     Carrega o arquivo de fontes pelo ID do arquivo temporário.
                     except Exception as e:
                         logger.error(f"Erro ao processar parts do candidate {i}: {e}")
     return ""
 @router.post("/rewrite-news", response_model=NewsResponse)
 async def rewrite_news(news: NewsRequest):
     """
+    Endpoint para reescrever notícias usando o modelo Gemini.
+    Se file_id não for fornecido, gera automaticamente as fontes usando o conteúdo.
     """
     try:
         # Verificar API key
         if not api_key:
             raise HTTPException(status_code=500, detail="API key não configurada")
+        sources_info = None
+        # Se file_id não foi fornecido, gera fontes automaticamente
         if not news.file_id:
+            logger.info("File ID não fornecido, gerando fontes automaticamente...")
+            generated_file_id = await generate_sources_from_content(news.content)
+            if generated_file_id:
+                news.file_id = generated_file_id
+                sources_info = {
+                    "generated": True,
+                    "file_id": generated_file_id,
+                    "message": "Fontes geradas automaticamente a partir do conteúdo"
+                }
+                logger.info(f"Fontes geradas automaticamente. File ID: {generated_file_id}")
+            else:
+                logger.warning("Não foi possível gerar fontes automaticamente, prosseguindo sem fontes")
+                sources_info = {
+                    "generated": False,
+                    "message": "Não foi possível gerar fontes automaticamente"
+                }
         else:
+            sources_info = {
+                "generated": False,
+                "file_id": news.file_id,
+                "message": "Usando file_id fornecido"
+            }
+        # Carregar arquivo de fontes se disponível
+        sources_content = ""
+        if news.file_id:
+            try:
+                sources_content = load_sources_file(news.file_id)
+                logger.info(f"Fontes carregadas: {len(sources_content)} caracteres")
+            except HTTPException as e:
+                logger.warning(f"Erro ao carregar fontes: {e.detail}")
+                sources_content = ""
         client = genai.Client(api_key=api_key)
         model = "gemini-2.5-pro"
         # Obter data formatada
         date_string = get_brazilian_date_string()
+        # Instruções do sistema (suas instruções originais aqui)
         # Instruções do sistema
         SYSTEM_INSTRUCTIONS = f"""
 Você é um jornalista brasileiro, escrevendo para portais digitais. Sua missão é transformar notícias internacionais em matérias originais, detalhadas e atualizadas para o público brasileiro. Sempre use a notícia-base como ponto de partida, mas consulte o arquivo fontes.txt para extrair todas as informações relevantes, complementando fatos, contexto, dados e antecedentes. Não invente informações; na dúvida, não insira.
             config=config
         )
+        # Gerar conteúdo
+        response = client.models.generate_content(
+            model=model,
+            contents=contents,
+            config=config
+        )
         logger.info("Resposta do modelo recebida com sucesso")
         # Extrair texto
         logger.info(f"Texto extraído: {len(response_text) if response_text else 0} caracteres")
         # Verificar se o texto está vazio
         if not response_text or response_text.strip() == "":
             logger.error("Texto extraído está vazio")
             raise HTTPException(
                 status_code=500,
                 detail="Modelo não retornou conteúdo válido"
             else:
                 content = "Conteúdo não encontrado"
+        # Campos do Instagram
         insta_title_match = re.search(r"<instagram_title>(.*?)</instagram_title>", response_text, re.DOTALL)
         title_instagram = insta_title_match.group(1).strip() if insta_title_match else "Título Instagram não encontrado"
         insta_desc_match = re.search(r"<instagram_description>(.*?)</instagram_description>", response_text, re.DOTALL)
         content_instagram = insta_desc_match.group(1).strip() if insta_desc_match else "Descrição Instagram não encontrada"
         logger.info(f"Processamento concluído com sucesso - Título: {title[:50]}...")
         return NewsResponse(
             subhead=subhead,
             content=content,
             title_instagram=title_instagram,
+            content_instagram=content_instagram,
+            sources_info=sources_info
         )
     except HTTPException: