Spaces:

DHEIVER
/

rag_trescal

Sleeping

App Files Files Community

DHEIVER commited on Jun 9

Commit

be1ab03

verified ·

1 Parent(s): 37f3bb4

Update app.py

Browse files

Files changed (1) hide show

app.py +108 -83

app.py CHANGED Viewed

@@ -1,20 +1,16 @@
 import gradio as gr
 import torch
 from sentence_transformers import SentenceTransformer, util
-# Usaremos AutoTokenizer e AutoModelForCausalLM para o novo modelo
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from pypdf import PdfReader
 import os
-import re # MÓDULO ADICIONADO para Expressões Regulares
 # --- 1. Carregamento dos Modelos ---
-# Modelo de recuperação não muda, ele é excelente para essa tarefa.
-print("Carregando o modelo de recuperação (Sentence Transformer)...")
 retriever_model = SentenceTransformer('all-MiniLM-L6-v2')
-# Carregando o modelo de geração DeepSeek
-print("Carregando o modelo de geração (DeepSeek)...")
-# Nota: "trust_remote_code=True" é necessário para carregar a arquitetura do DeepSeek
 generator_tokenizer = AutoTokenizer.from_pretrained(
     'deepseek-ai/deepseek-coder-1.3b-instruct',
     trust_remote_code=True
@@ -25,12 +21,14 @@ generator_model = AutoModelForCausalLM.from_pretrained(
 )
 print("Modelos carregados com sucesso!")
-# --- 2. Função para Processar Arquivos Enviados (COM CHUNKING ESTRUTURADO) ---
 def process_files(files):
     if not files:
-        return None, "Por favor, envie um ou mais arquivos."
     knowledge_text = ""
     for file in files:
         file_path = file.name
         if file_path.endswith(".pdf"):
             try:
@@ -38,138 +36,165 @@ def process_files(files):
                 for page in reader.pages:
                     page_text = page.extract_text()
                     if page_text:
-                        # Adiciona um espaço extra entre as páginas para garantir a separação
                         knowledge_text += page_text + "\n\n"
             except Exception as e:
-                return None, f"Erro ao ler o arquivo PDF {os.path.basename(file_path)}: {e}"
         elif file_path.endswith(".txt"):
             try:
                 with open(file_path, 'r', encoding='utf-8') as f:
                     knowledge_text += f.read() + "\n\n"
             except Exception as e:
-                return None, f"Erro ao ler o arquivo TXT {os.path.basename(file_path)}: {e}"
     if not knowledge_text.strip():
-        return None, "Não foi possível extrair texto dos arquivos fornecidos."
-    # MUDANÇA PRINCIPAL: Extrator Estruturado usando Regex
-    # Este padrão de regex divide o texto ANTES de uma linha que parece um cabeçalho de seção
-    # (Ex: "1. CLIENTE", "8. PADRÕES"). Isso mantém a seção inteira em um único chunk.
-    # O `(?m)` ativa o modo multiline, fazendo `^` corresponder ao início de cada linha.
     chunk_pattern = r"(?m)(^\d+\..*)"
-    # Divide o texto em chunks usando o padrão e remove os vazios
     text_chunks = [chunk.strip() for chunk in re.split(chunk_pattern, knowledge_text) if chunk.strip()]
-    # Reagrupa o cabeçalho com seu conteúdo
     structured_chunks = []
     i = 0
     while i < len(text_chunks):
         if re.match(chunk_pattern, text_chunks[i]) and i + 1 < len(text_chunks):
-            # Junta o cabeçalho (ex: "1. CLIENTE") com o conteúdo seguinte
             structured_chunks.append(text_chunks[i] + "\n" + text_chunks[i+1])
             i += 2
         else:
-            # Adiciona conteúdo que não corresponde a um cabeçalho
             structured_chunks.append(text_chunks[i])
             i += 1
     if not structured_chunks:
         return None, "O texto extraído não continha blocos de texto válidos para processamento."
-    print(f"Processando {len(structured_chunks)} chunks estruturados dos arquivos...")
     knowledge_base_embeddings = retriever_model.encode(structured_chunks, convert_to_tensor=True, show_progress_bar=True)
-    print("Base de conhecimento criada a partir dos arquivos.")
-    return (structured_chunks, knowledge_base_embeddings), f"✅ Sucesso! {len(files)} arquivo(s) processado(s), gerando {len(structured_chunks)} chunks estruturados."
-# --- 3. A Função Principal do RAG (sem alterações) ---
-def answer_question(question, knowledge_state):
-    if not question:
-        return "Por favor, insira uma pergunta."
-    if not knowledge_state or not knowledge_state[0] or knowledge_state[1] is None:
-        return "⚠️ A base de conhecimento está vazia. Por favor, processe alguns arquivos primeiro."
     knowledge_base, knowledge_base_embeddings = knowledge_state
-    # Etapa de Recuperação
     question_embedding = retriever_model.encode(question, convert_to_tensor=True)
     cosine_scores = util.cos_sim(question_embedding, knowledge_base_embeddings)
-    # Aumentado para 7 para mais contexto
-    top_k = min(7, len(knowledge_base))
     top_results = torch.topk(cosine_scores, k=top_k, dim=-1)
     retrieved_context = "\n---\n".join([knowledge_base[i] for i in top_results.indices[0]])
-    if not retrieved_context.strip():
-        return "Não foi possível encontrar um contexto relevante nos documentos para responder a esta pergunta."
-    print(f"\n--- Nova Pergunta de Auditoria ---")
-    print(f"Pergunta: {question}")
-    print(f"Contexto Recuperado (Top {top_k}):\n{retrieved_context}")
-    # Prompt com regras explícitas de extração de entidades
-    prompt = f"""### Instruction:
-Você é um assistente de IA especialista em extrair informações de documentos técnicos. Analise o 'Contexto' para responder à 'Pergunta' seguindo estas regras rigorosamente:
-**Regras de Extração:**
-1.  **Use APENAS a informação do 'Contexto'.** Não adicione informações externas.
-2.  **Para perguntas sobre 'cliente':** Procure por linhas que comecem com "Cliente:", "Contratante:", ou um nome de empresa claro. Ignore frases genéricas sobre escopo ou lotes.
-3.  **Para perguntas sobre 'instrumento':** Procure por linhas que comecem com "Instrumento:", "Descrição:", "Objeto:", "TAG:", ou um modelo específico. Ignore descrições de métodos de calibração.
-4.  **Para perguntas sobre 'título' ou 'resumo':** Resuma os dados principais, como o tipo de documento (ex: Certificado de Calibração), o nome do cliente e o instrumento calibrado.
-**Contexto:**
-{retrieved_context}
-**Pergunta:**
-{question}
-### Response:
 """
-    input_ids = generator_tokenizer(prompt, return_tensors="pt").input_ids
-    input_length = input_ids.shape[1]
-    # Ajuste nos parâmetros de geração
-    outputs = generator_model.generate(
-        input_ids,
-        # Aumentado para permitir respostas mais detalhadas
-        max_new_tokens=350,
-        do_sample=False,
-        eos_token_id=generator_tokenizer.eos_token_id,
-        pad_token_id=generator_tokenizer.eos_token_id
-    )
-    # Decodificação correta para modelos Causal LM
-    generated_tokens = outputs[0, input_length:]
-    answer = generator_tokenizer.decode(generated_tokens, skip_special_tokens=True)
-    return answer
-# --- 4. Interface Gráfica (sem alterações na estrutura) ---
 with gr.Blocks(theme=gr.themes.Soft()) as interface:
     knowledge_state = gr.State()
     gr.Markdown(
         """
-        # 🤖 RAG - Auditor de Documentos (v9 - Chunking Estruturado)
-        **1. Carregue seus arquivos**: Envie um ou mais certificados ou documentos nos formatos `.pdf` ou `.txt`.
-        **2. Processe os arquivos**: Clique no botão para criar a base de conhecimento.
-        **3. Faça perguntas**: Após o processamento, faça perguntas sobre o conteúdo dos documentos.
         """
     )
     with gr.Row():
         with gr.Column(scale=1):
-            file_uploader = gr.File(label="Carregar Certificados (.pdf, .txt)", file_count="multiple", file_types=[".pdf", ".txt"])
-            process_button = gr.Button("Processar Arquivos", variant="primary")
             status_box = gr.Textbox(label="Status do Processamento", interactive=False)
         with gr.Column(scale=2):
-            question_box = gr.Textbox(label="Faça sua pergunta aqui", placeholder="Ex: Qual o resultado da calibração do instrumento PI-101?")
-            submit_button = gr.Button("Obter Resposta", variant="primary")
-            answer_box = gr.Textbox(label="Resposta Baseada nos Documentos", interactive=False, lines=5)
     process_button.click(fn=process_files, inputs=[file_uploader], outputs=[knowledge_state, status_box])
-    submit_button.click(fn=answer_question, inputs=[question_box, knowledge_state], outputs=[answer_box])
-# --- 5. Lançamento do App ---
 if __name__ == "__main__":
     interface.launch()

 import gradio as gr
 import torch
 from sentence_transformers import SentenceTransformer, util
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from pypdf import PdfReader
 import os
+import re
 # --- 1. Carregamento dos Modelos ---
+print("A carregar o modelo de recuperação (Sentence Transformer)...")
 retriever_model = SentenceTransformer('all-MiniLM-L6-v2')
+print("A carregar o modelo de geração (DeepSeek)...")
 generator_tokenizer = AutoTokenizer.from_pretrained(
     'deepseek-ai/deepseek-coder-1.3b-instruct',
     trust_remote_code=True
 )
 print("Modelos carregados com sucesso!")
+# --- 2. Função de Processamento de Ficheiros (Chunking Estruturado) ---
 def process_files(files):
     if not files:
+        return None, "Por favor, envie um ou mais ficheiros."
     knowledge_text = ""
     for file in files:
+        # ... (código de extração de texto de PDF/TXT permanece o mesmo) ...
         file_path = file.name
         if file_path.endswith(".pdf"):
             try:
                 for page in reader.pages:
                     page_text = page.extract_text()
                     if page_text:
                         knowledge_text += page_text + "\n\n"
             except Exception as e:
+                return None, f"Erro ao ler o ficheiro PDF {os.path.basename(file_path)}: {e}"
         elif file_path.endswith(".txt"):
             try:
                 with open(file_path, 'r', encoding='utf-8') as f:
                     knowledge_text += f.read() + "\n\n"
             except Exception as e:
+                return None, f"Erro ao ler o ficheiro TXT {os.path.basename(file_path)}: {e}"
     if not knowledge_text.strip():
+        return None, "Não foi possível extrair texto dos ficheiros fornecidos."
     chunk_pattern = r"(?m)(^\d+\..*)"
     text_chunks = [chunk.strip() for chunk in re.split(chunk_pattern, knowledge_text) if chunk.strip()]
     structured_chunks = []
     i = 0
     while i < len(text_chunks):
         if re.match(chunk_pattern, text_chunks[i]) and i + 1 < len(text_chunks):
             structured_chunks.append(text_chunks[i] + "\n" + text_chunks[i+1])
             i += 2
         else:
             structured_chunks.append(text_chunks[i])
             i += 1
     if not structured_chunks:
         return None, "O texto extraído não continha blocos de texto válidos para processamento."
+    print(f"A processar {len(structured_chunks)} chunks estruturados dos ficheiros...")
     knowledge_base_embeddings = retriever_model.encode(structured_chunks, convert_to_tensor=True, show_progress_bar=True)
+    print("Base de conhecimento criada a partir dos ficheiros.")
+    return (structured_chunks, knowledge_base_embeddings), f"✅ Sucesso! {len(files)} ficheiro(s) processado(s), gerando {len(structured_chunks)} chunks estruturados."
+# --- 3. A FERRAMENTA PRINCIPAL DO AGENTE: find_info ---
+def find_info(question, knowledge_state):
+    """Esta função atua como a 'ferramenta de busca' do agente. Ela não dá a resposta final,
+       apenas extrai a informação bruta pedida."""
     knowledge_base, knowledge_base_embeddings = knowledge_state
     question_embedding = retriever_model.encode(question, convert_to_tensor=True)
     cosine_scores = util.cos_sim(question_embedding, knowledge_base_embeddings)
+    top_k = min(5, len(knowledge_base)) # Reduzido para ser mais focado
     top_results = torch.topk(cosine_scores, k=top_k, dim=-1)
     retrieved_context = "\n---\n".join([knowledge_base[i] for i in top_results.indices[0]])
+    prompt = f"### Instruction:\nExtraia a informação exata para responder à pergunta com base no contexto. Seja direto.\n\nContexto:\n{retrieved_context}\n\nPergunta:\n{question}\n\n### Response:"
+    input_ids = generator_tokenizer(prompt, return_tensors="pt").input_ids
+    outputs = generator_model.generate(input_ids, max_new_tokens=100, do_sample=False, pad_token_id=generator_tokenizer.eos_token_id)
+    answer = generator_tokenizer.decode(outputs[0, input_ids.shape[1]:], skip_special_tokens=True)
+    return answer.strip()
+# --- 4. O CÉREBRO DO AGENTE: evaluate_document ---
+def evaluate_document(task, knowledge_state):
+    """Esta é a função principal do agente. Ela orquestra as chamadas à ferramenta 'find_info'
+       para construir um relatório de avaliação completo."""
+    if not task:
+        return "Por favor, forneça uma tarefa de avaliação.", ""
+    if not knowledge_state or not knowledge_state[0] or knowledge_state[1] is None:
+        return "⚠️ A base de conhecimento está vazia. Por favor, processe alguns ficheiros primeiro.", ""
+    thought_process = "Iniciando a avaliação do documento...\n"
+    # Passo 1: Identificação
+    thought_process += "Passo 1: A identificar o cliente e o instrumento...\n"
+    client_info = find_info("Qual o nome do cliente ou contratante?", knowledge_state)
+    instrument_info = find_info("Qual é a descrição, TAG ou modelo do instrumento calibrado?", knowledge_state)
+    thought_process += f"  - Cliente Encontrado: {client_info}\n"
+    thought_process += f"  - Instrumento Encontrado: {instrument_info}\n\n"
+    # Passo 2: Resultado e Incerteza
+    thought_process += "Passo 2: A verificar o resultado da calibração e a incerteza...\n"
+    result_info = find_info("Qual foi o resultado final da calibração (ex: Aprovado, Reprovado)?", knowledge_state)
+    uncertainty_info = find_info("Qual é a incerteza de medição reportada?", knowledge_state)
+    thought_process += f"  - Resultado: {result_info}\n"
+    thought_process += f"  - Incerteza: {uncertainty_info}\n\n"
+    # Passo 3: Validade
+    thought_process += "Passo 3: A verificar as datas...\n"
+    calibration_date = find_info("Qual foi a data em que a calibração foi realizada?", knowledge_state)
+    due_date = find_info("Qual a data de vencimento ou próxima calibração?", knowledge_state)
+    thought_process += f"  - Data da Calibração: {calibration_date}\n"
+    thought_process += f"  - Data de Vencimento: {due_date}\n\n"
+    # Passo 4: Geração do Relatório Final
+    thought_process += "Passo 4: A compilar o relatório final...\n"
+    final_prompt = f"""### Instruction:
+Você é um auditor de metrologia a escrever um relatório de avaliação. Com base nos 'Dados Recolhidos' abaixo, escreva um parecer técnico conciso e estruturado.
+**Dados Recolhidos:**
+- Cliente: {client_info}
+- Instrumento: {instrument_info}
+- Resultado da Calibração: {result_info}
+- Incerteza de Medição: {uncertainty_info}
+- Data da Execução: {calibration_date}
+- Próxima Calibração: {due_date}
+### Response:
+**Relatório de Avaliação do Certificado**
+**1. Identificação:**
+   - **Cliente:** [Preencha com o cliente]
+   - **Instrumento:** [Preencha com o instrumento]
+**2. Análise Técnica:**
+   - **Resultado:** [Preencha com o resultado]
+   - **Incerteza:** [Preencha com a incerteza]
+   - **Conformidade:** [Comente brevemente se o resultado 'Aprovado' é consistente com os dados]
+**3. Validade:**
+   - **Data da Calibração:** [Preencha com a data]
+   - **Validade:** [Preencha com a data de vencimento]
+**4. Parecer Final:**
+   - [Escreva uma frase de conclusão sobre a validade e aceitabilidade do certificado com base nos dados.]
 """
+    input_ids = generator_tokenizer(final_prompt, return_tensors="pt").input_ids
+    outputs = generator_model.generate(input_ids, max_new_tokens=400, do_sample=False, pad_token_id=generator_tokenizer.eos_token_id)
+    final_report = generator_tokenizer.decode(outputs[0, input_ids.shape[1]:], skip_special_tokens=True)
+    thought_process += "Avaliação concluída."
+    return thought_process, final_report
+# --- 5. Interface Gráfica (Atualizada para o Agente) ---
 with gr.Blocks(theme=gr.themes.Soft()) as interface:
     knowledge_state = gr.State()
     gr.Markdown(
         """
+        # 🤖 Agente de Avaliação de Documentos de Metrologia
+        **1. Carregue um documento**: Envie um certificado de calibração em `.pdf` ou `.txt`.
+        **2. Processe o documento**: Clique no botão para criar a base de conhecimento.
+        **3. Inicie a Avaliação**: Dê uma tarefa ao agente (ex: "Avalie este certificado") e clique em "Iniciar Avaliação".
         """
     )
     with gr.Row():
         with gr.Column(scale=1):
+            file_uploader = gr.File(label="Carregar Documento (.pdf, .txt)", file_count="multiple", file_types=[".pdf", ".txt"])
+            process_button = gr.Button("Processar Documento", variant="primary")
             status_box = gr.Textbox(label="Status do Processamento", interactive=False)
         with gr.Column(scale=2):
+            task_box = gr.Textbox(label="Tarefa de Avaliação", placeholder='Ex: Avalie este certificado de calibração.')
+            submit_button = gr.Button("Iniciar Avaliação", variant="primary")
+    with gr.Row():
+        with gr.Column():
+            thought_box = gr.Textbox(label="Passos do Agente", interactive=False, lines=15)
+        with gr.Column():
+            report_box = gr.Textbox(label="Relatório Final de Avaliação", interactive=False, lines=15)
     process_button.click(fn=process_files, inputs=[file_uploader], outputs=[knowledge_state, status_box])
+    submit_button.click(fn=evaluate_document, inputs=[task_box, knowledge_state], outputs=[thought_box, report_box])
+# --- 6. Lançamento do App ---
 if __name__ == "__main__":
     interface.launch()