Spaces:

habulaj
/

newapi-clone

Running

File size: 15,003 Bytes

4ffe0a9
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bbbc107
 
 
 
 
 
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
bbbc107
 
 
 
4ffe0a9
bbbc107
 
 
4ffe0a9
bbbc107
 
4ffe0a9
 
 
bbbc107
4ffe0a9
 
 
 
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
bbbc107
4ffe0a9
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
 
 
 
bbbc107
 
 
4ffe0a9
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
bbbc107
4ffe0a9
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
bbbc107
 
 
4ffe0a9
 
 
 
 
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
 
 
bbbc107
 
4ffe0a9
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
bbbc107
4ffe0a9
 
 
bbbc107
 
4ffe0a9
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
bbbc107
4ffe0a9
 
 
 
 
 
 
bbbc107
4ffe0a9
 
bbbc107
4ffe0a9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bbbc107

import os
import logging
import json
import requests
from fastapi import APIRouter, HTTPException
from pydantic import BaseModel
from google import genai
from google.genai import types
from datetime import datetime
from zoneinfo import ZoneInfo
import locale
import re

# Configurar logging
logger = logging.getLogger(__name__)

router = APIRouter()

class NewsRequest(BaseModel):
    content: str
    sources_url: str  # URL do arquivo fontes.txt

class NewsResponse(BaseModel):
    title: str
    subhead: str
    content: str
    sources: list[str]  # Lista de URLs/links utilizados

def get_brazilian_date_string():
    """
    Retorna a data atual formatada em português brasileiro.
    Implementa fallbacks robustos para diferentes sistemas operacionais.
    """
    try:
        # Tenta configurar o locale brasileiro
        locale_variants = [
            'pt_BR.UTF-8',
            'pt_BR.utf8',
            'pt_BR',
            'Portuguese_Brazil.1252',
            'Portuguese_Brazil',
            'pt_BR.ISO8859-1',
        ]
        
        locale_set = False
        for loc in locale_variants:
            try:
                locale.setlocale(locale.LC_TIME, loc)
                locale_set = True
                break
            except locale.Error:
                continue
        
        if not locale_set:
            locale.setlocale(locale.LC_TIME, '')
        
        now = datetime.now(ZoneInfo("America/Sao_Paulo"))
        
        # Dicionários para tradução manual (fallback)
        meses = {
            1: 'janeiro', 2: 'fevereiro', 3: 'março', 4: 'abril',
            5: 'maio', 6: 'junho', 7: 'julho', 8: 'agosto',
            9: 'setembro', 10: 'outubro', 11: 'novembro', 12: 'dezembro'
        }
        
        dias_semana = {
            0: 'segunda-feira', 1: 'terça-feira', 2: 'quarta-feira', 
            3: 'quinta-feira', 4: 'sexta-feira', 5: 'sábado', 6: 'domingo'
        }
        
        try:
            if locale_set:
                try:
                    date_string = now.strftime("%-d de %B de %Y (%A)")
                except ValueError:
                    try:
                        date_string = now.strftime("%#d de %B de %Y (%A)")
                    except ValueError:
                        date_string = now.strftime("%d de %B de %Y (%A)")
                        if date_string.startswith('0'):
                            date_string = date_string[1:]
                
                date_string = date_string.replace(date_string.split('(')[1].split(')')[0], 
                                                date_string.split('(')[1].split(')')[0].lower())
            else:
                dia = now.day
                mes = meses[now.month]
                ano = now.year
                dia_semana = dias_semana[now.weekday()]
                date_string = f"{dia} de {mes} de {ano} ({dia_semana})"
                
        except Exception:
            dia = now.day
            mes = meses[now.month]
            ano = now.year
            dia_semana = dias_semana[now.weekday()]
            date_string = f"{dia} de {mes} de {ano} ({dia_semana})"
        
        return date_string
        
    except Exception:
        now = datetime.now(ZoneInfo("America/Sao_Paulo"))
        date_string = now.strftime("%d de %B de %Y")
        return date_string

def download_sources_file(url: str) -> str:
    """
    Baixa o arquivo fontes.txt da URL fornecida.
    """
    try:
        response = requests.get(url, timeout=30)
        response.raise_for_status()
        return response.text
    except Exception as e:
        logger.error(f"Erro ao baixar arquivo de fontes: {e}")
        raise HTTPException(status_code=400, detail=f"Erro ao baixar arquivo de fontes: {str(e)}")

def extract_text_from_response(response):
    """
    Extrai o texto da resposta de forma robusta.
    """
    response_text = ""
    
    if hasattr(response, 'text') and response.text:
        return response.text
    
    if hasattr(response, 'candidates') and response.candidates:
        for candidate in response.candidates:
            if not hasattr(candidate, 'content') or not candidate.content:
                continue
                
            content = candidate.content
            
            if not hasattr(content, 'parts') or content.parts is None:
                continue
                
            try:
                parts_list = list(content.parts) if content.parts else []
                
                for part in parts_list:
                    if hasattr(part, 'text') and part.text:
                        response_text += part.text
                        
            except Exception:
                continue
    
    return response_text

def extract_sources_from_response(response):
    """
    Extrai as fontes (URLs) do grounding metadata.
    """
    sources = []
    
    if not (hasattr(response, 'candidates') and response.candidates):
        return sources
    
    for candidate in response.candidates:
        if not (hasattr(candidate, 'grounding_metadata') and candidate.grounding_metadata):
            continue
        
        grounding_metadata = candidate.grounding_metadata
        
        if hasattr(grounding_metadata, 'grounding_chunks') and grounding_metadata.grounding_chunks:
            for chunk in grounding_metadata.grounding_chunks:
                try:
                    if (hasattr(chunk, 'web') and chunk.web and 
                        hasattr(chunk.web, 'uri') and chunk.web.uri):
                        
                        uri = chunk.web.uri
                        if uri and uri not in sources:
                            sources.append(uri)
                            
                except Exception:
                    continue
    
    return sources

@router.post("/rewrite-news", response_model=NewsResponse)
async def rewrite_news(news: NewsRequest):
    """
    Endpoint para reescrever notícias usando o modelo Gemini com arquivo de fontes.
    """
    try:
        # Verificar API key
        api_key = os.environ.get("GEMINI_API_KEY")
        if not api_key:
            raise HTTPException(status_code=500, detail="API key não configurada")
        
        # Baixar arquivo de fontes
        sources_content = download_sources_file(news.sources_url)
        
        client = genai.Client(api_key=api_key)
        model = "gemini-2.5-pro"
        
        # Obter data formatada
        date_string = get_brazilian_date_string()
        
        # Instruções do sistema
        SYSTEM_INSTRUCTIONS = f"""
Você é um jornalista brasileiro, escrevendo para portais digitais. Sua missão é transformar notícias internacionais em matérias originais, atualizadas e envolventes para o público brasileiro.

ESTILO DE ESCRITA:

- Tom natural, direto e conversacional, sem frases feitas ou jargões jornalísticos.
- Varie estruturas e conectivos para evitar robotização. Ou seja, sem frases redundantes, exemplo: "destacando como a experiência pode ser um divisor de águas profissional", "reafirma a força criativa do país no cenário global", "A revelação contextualizou não apenas sua performance na dança, mas também". É para noticiar a notícia de fato, sempre buscando mais informações que se conectam, e não opiniões pessoais.
- Sem linguagem militante ou juízos morais: mantenha tom informativo e predominantemente conservador / aspectro de Direita que o jornal tem.
- Evite opiniões genéricas; foque em fatos e contexto

CONTEÚDO, ESTRUTURA E ABORDAGEM:

- Use a notícia-base como ponto de partida, não como roteiro. Avalie o fontes.txt por completo e extraia absolutamente todas as coisas relevantes para formentar a notícia. Não traga informações falsas ou inventadas. Na dúvida, não insira.
- Sempre que possível, inclua títulos de obras em Português do Brasil.
- Termine com uma informação concreta (data, lançamento, próximos passos), nunca com opinião genérica. Ou seja, a conclusão da noticia deve ser com mais noticia, sem redundância genérica e robótica.
- Otimize para leitura digital e SEO (parágrafos bem segmentados, palavras chaves, etc)

FORMATO:

<headline>título aqui</headline>
<subhead>subtítulo aqui</subhead>
<body>conteúdo aqui</body>

Use <strong> para destaques e <em> para títulos de obras ou citações.

TÍTULOS:

- Padrão brasileiro: só a primeira palavra em maiúscula (exceto nomes próprios e títulos de filmes/séries/obras, etc.)
- Seja claro, direto e específico... Se houver, não inclua spoilers no título, apenas no body.

O resultado deve soar como uma matéria escrita por um profissional experiente, não por IA. Seja preciso, atual e interessante. Sempre complete a notícia com acontecimentos que se ligam, sempre contextualize tudo para o leitor. A data de hoje é {date_string}
"""

        # Exemplos (mantidos os mesmos do código original)
        EXAMPLE_INPUT_1 = """
News base: Ed Helms revealed in an interview that he was nervous about his parents' reaction to the film The Hangover, but in the end everything worked out and her mother loved the movie. The article is out of date, more information is needed.
"""

        EXAMPLE_OUTPUT_1 = """<headline>"Se Beber, Não Case!": Ed Helms, o Dr. Stuart, revela medo do que os pais iriam pensar, mas tudo deu certo</headline>
<subhead>Em uma carreira repleta de surpresas e sucesso internacional, o ator relembra o nervosismo que antecedeu a estreia da comédia que o tornou famoso.</subhead>
<body>
<p><strong>Ed Helms</strong> nunca escondeu o fato de que sua participação em <strong>Se Beber, Não Case!</strong> foi um choque cultural, especialmente para seus pais. Em uma entrevista recente ao podcast de <strong>Ted Danson</strong>, <em>Where Everybody Knows Your Name</em>, o ator falou sobre a ansiedade que sentiu ao imaginar a reação da família à comédia para maiores que o transformou em astro de cinema.</p>
<p>Helms, que foi criado em um lar sulista com valores socialmente conservadores, revelou que, embora o ambiente fosse politicamente progressista, algumas situações, como dentes arrancados, casamentos embriagados e até tigres no banheiro, eram muito diferentes do que seus pais consideravam apropriado. O ator brincou: <em>"Não foi pra isso que me criaram"</em>, fazendo alusão ao enredo caótico do filme de 2009. Ele acrescentou que, embora seus pais já tivessem assistido a algumas de suas performances em programas como <em>The Daily Show</em> e <em>The Office</em>, o que ajudou a criar certa tolerância, o filme ainda o deixava nervoso.</p>
<p>Estrelando sua primeira grande produção, Helms levou os pais para a estreia quando tinha 35 anos. No entanto, foi surpreendido ao ver sua mãe chorando quando as luzes se acenderam. <em>"Pensei: 'Pronto. Acabei de partir o coração da minha mãe'"</em>, recordou. O momento de tensão, porém, durou pouco: ela o tranquilizou dizendo que o filme havia sido hilário.</p>
<p><strong>Se Beber, Não Case!</strong>, dirigido por <strong>Todd Phillips</strong>, foi um sucesso comercial, arrecadando aproximadamente <strong>469 milhões de dólares</strong> em todo o mundo e se tornando a comédia para maiores de classificação indicativa de maior bilheteria até então. A popularidade do filme resultou em duas sequências, lançadas em 2011 e 2013, e consolidou o "bando de lobos" formado por <strong>Helms</strong>, <strong>Bradley Cooper</strong> e <strong>Zach Galifianakis</strong> como um dos times cômicos mais icônicos do cinema moderno.</p>
<p>Sobre a possibilidade de um quarto filme, <strong>Bradley Cooper</strong> afirmou em 2023 que toparia participar sem hesitar, principalmente pela chance de reencontrar colegas e diretor. Ainda assim, reconheceu que o projeto é improvável, já que <strong>Phillips</strong> está atualmente focado em empreendimentos de maior escala, como a série de filmes <em>Coringa</em>.</p>
</body>"""

        # Configuração da ferramenta de pesquisa
        grounding_tool = types.Tool(
            google_search=types.GoogleSearch()
        )

        config = types.GenerateContentConfig(
            system_instruction=SYSTEM_INSTRUCTIONS,
            thinking_config=types.ThinkingConfig(
                thinking_budget=-1,
            ),
            tools=[grounding_tool],
            response_mime_type="text/plain",
            max_output_tokens=4096,
            temperature=0.8,
        )

        # Conteúdo da conversa
        contents = [
            # Exemplo
            types.Content(
                role="user",
                parts=[
                    types.Part.from_text(text=EXAMPLE_INPUT_1)
                ]
            ),
            types.Content(
                role="model",
                parts=[
                    types.Part.from_text(text=EXAMPLE_OUTPUT_1)
                ]
            ),
            # Notícia atual com arquivo de fontes
            types.Content(
                role="user",
                parts=[
                    types.Part.from_text(text=f"News base: {news.content}. The article is out of date, more information is needed."),
                    types.Part.from_text(text=f"Fontes adicionais disponíveis:\n\n{sources_content}")
                ]
            )
        ]

        # Gerar conteúdo
        response = client.models.generate_content(
            model=model,
            contents=contents,
            config=config
        )

        # Extrair texto e fontes
        response_text = extract_text_from_response(response)
        sources = extract_sources_from_response(response)

        # Verificar se o texto está vazio
        if not response_text or response_text.strip() == "":
            raise HTTPException(
                status_code=500, 
                detail="Modelo não retornou conteúdo válido"
            )

        # Extração do título, subtítulo e conteúdo
        title_match = re.search(r"<headline>(.*?)</headline>", response_text, re.DOTALL)
        title = title_match.group(1).strip() if title_match else "Título não encontrado"

        subhead_match = re.search(r"<subhead>(.*?)</subhead>", response_text, re.DOTALL)
        subhead = subhead_match.group(1).strip() if subhead_match else "Subtítulo não encontrado"

        body_match = re.search(r"<body>(.*?)</body>", response_text, re.DOTALL)
        if body_match:
            content = body_match.group(1).strip()
        else:
            body_start_match = re.search(r"<body>(.*)", response_text, re.DOTALL)
            if body_start_match:
                content = body_start_match.group(1).strip()
            else:
                content = "Conteúdo não encontrado"

        return NewsResponse(title=title, subhead=subhead, content=content, sources=sources)

    except HTTPException:
        raise
    except Exception as e:
        logger.error(f"Erro na reescrita: {str(e)}")
        raise HTTPException(status_code=500, detail=str(e))