Spaces:

DHEIVER
/

rag_trescal

Sleeping

App Files Files Community

DHEIVER commited on Jun 9

Commit

37f3bb4

verified ·

1 Parent(s): 5558e3e

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -11

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from sentence_transformers import SentenceTransformer, util
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from pypdf import PdfReader
 import os
 # --- 1. Carregamento dos Modelos ---
 # Modelo de recuperação não muda, ele é excelente para essa tarefa.
@@ -24,7 +25,7 @@ generator_model = AutoModelForCausalLM.from_pretrained(
 )
 print("Modelos carregados com sucesso!")
-# --- 2. Função para Processar Arquivos Enviados (sem alterações) ---
 def process_files(files):
     if not files:
         return None, "Por favor, envie um ou mais arquivos."
@@ -37,30 +38,53 @@ def process_files(files):
                 for page in reader.pages:
                     page_text = page.extract_text()
                     if page_text:
-                        knowledge_text += page_text + "\n"
             except Exception as e:
                 return None, f"Erro ao ler o arquivo PDF {os.path.basename(file_path)}: {e}"
         elif file_path.endswith(".txt"):
             try:
                 with open(file_path, 'r', encoding='utf-8') as f:
-                    knowledge_text += f.read() + "\n"
             except Exception as e:
                 return None, f"Erro ao ler o arquivo TXT {os.path.basename(file_path)}: {e}"
     if not knowledge_text.strip():
         return None, "Não foi possível extrair texto dos arquivos fornecidos."
-    text_chunks = [chunk.strip() for chunk in knowledge_text.split('\n') if chunk.strip() and len(chunk) > 10]
-    if not text_chunks:
         return None, "O texto extraído não continha blocos de texto válidos para processamento."
-    print(f"Processando {len(text_chunks)} blocos de texto dos arquivos...")
-    knowledge_base_embeddings = retriever_model.encode(text_chunks, convert_to_tensor=True, show_progress_bar=True)
     print("Base de conhecimento criada a partir dos arquivos.")
-    return (text_chunks, knowledge_base_embeddings), f"✅ Sucesso! {len(files)} arquivo(s) processado(s), gerando {len(text_chunks)} blocos de texto."
-# --- 3. A Função Principal do RAG (com prompt e decodificação ajustados) ---
 def answer_question(question, knowledge_state):
     if not question:
         return "Por favor, insira uma pergunta."
@@ -84,7 +108,7 @@ def answer_question(question, knowledge_state):
     print(f"Pergunta: {question}")
     print(f"Contexto Recuperado (Top {top_k}):\n{retrieved_context}")
-    # MUDANÇA PRINCIPAL: Prompt com regras explícitas de extração de entidades
     prompt = f"""### Instruction:
 Você é um assistente de IA especialista em extrair informações de documentos técnicos. Analise o 'Contexto' para responder à 'Pergunta' seguindo estas regras rigorosamente:
@@ -127,7 +151,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as interface:
     knowledge_state = gr.State()
     gr.Markdown(
         """
-        # 🤖 RAG - Auditor de Documentos (v8 - Extração de Entidades)
         **1. Carregue seus arquivos**: Envie um ou mais certificados ou documentos nos formatos `.pdf` ou `.txt`.
         **2. Processe os arquivos**: Clique no botão para criar a base de conhecimento.
         **3. Faça perguntas**: Após o processamento, faça perguntas sobre o conteúdo dos documentos.

 from transformers import AutoTokenizer, AutoModelForCausalLM
 from pypdf import PdfReader
 import os
+import re # MÓDULO ADICIONADO para Expressões Regulares
 # --- 1. Carregamento dos Modelos ---
 # Modelo de recuperação não muda, ele é excelente para essa tarefa.
 )
 print("Modelos carregados com sucesso!")
+# --- 2. Função para Processar Arquivos Enviados (COM CHUNKING ESTRUTURADO) ---
 def process_files(files):
     if not files:
         return None, "Por favor, envie um ou mais arquivos."
                 for page in reader.pages:
                     page_text = page.extract_text()
                     if page_text:
+                        # Adiciona um espaço extra entre as páginas para garantir a separação
+                        knowledge_text += page_text + "\n\n"
             except Exception as e:
                 return None, f"Erro ao ler o arquivo PDF {os.path.basename(file_path)}: {e}"
         elif file_path.endswith(".txt"):
             try:
                 with open(file_path, 'r', encoding='utf-8') as f:
+                    knowledge_text += f.read() + "\n\n"
             except Exception as e:
                 return None, f"Erro ao ler o arquivo TXT {os.path.basename(file_path)}: {e}"
     if not knowledge_text.strip():
         return None, "Não foi possível extrair texto dos arquivos fornecidos."
+    # MUDANÇA PRINCIPAL: Extrator Estruturado usando Regex
+    # Este padrão de regex divide o texto ANTES de uma linha que parece um cabeçalho de seção
+    # (Ex: "1. CLIENTE", "8. PADRÕES"). Isso mantém a seção inteira em um único chunk.
+    # O `(?m)` ativa o modo multiline, fazendo `^` corresponder ao início de cada linha.
+    chunk_pattern = r"(?m)(^\d+\..*)"
+    # Divide o texto em chunks usando o padrão e remove os vazios
+    text_chunks = [chunk.strip() for chunk in re.split(chunk_pattern, knowledge_text) if chunk.strip()]
+    # Reagrupa o cabeçalho com seu conteúdo
+    structured_chunks = []
+    i = 0
+    while i < len(text_chunks):
+        if re.match(chunk_pattern, text_chunks[i]) and i + 1 < len(text_chunks):
+            # Junta o cabeçalho (ex: "1. CLIENTE") com o conteúdo seguinte
+            structured_chunks.append(text_chunks[i] + "\n" + text_chunks[i+1])
+            i += 2
+        else:
+            # Adiciona conteúdo que não corresponde a um cabeçalho
+            structured_chunks.append(text_chunks[i])
+            i += 1
+    if not structured_chunks:
         return None, "O texto extraído não continha blocos de texto válidos para processamento."
+    print(f"Processando {len(structured_chunks)} chunks estruturados dos arquivos...")
+    knowledge_base_embeddings = retriever_model.encode(structured_chunks, convert_to_tensor=True, show_progress_bar=True)
     print("Base de conhecimento criada a partir dos arquivos.")
+    return (structured_chunks, knowledge_base_embeddings), f"✅ Sucesso! {len(files)} arquivo(s) processado(s), gerando {len(structured_chunks)} chunks estruturados."
+# --- 3. A Função Principal do RAG (sem alterações) ---
 def answer_question(question, knowledge_state):
     if not question:
         return "Por favor, insira uma pergunta."
     print(f"Pergunta: {question}")
     print(f"Contexto Recuperado (Top {top_k}):\n{retrieved_context}")
+    # Prompt com regras explícitas de extração de entidades
     prompt = f"""### Instruction:
 Você é um assistente de IA especialista em extrair informações de documentos técnicos. Analise o 'Contexto' para responder à 'Pergunta' seguindo estas regras rigorosamente:
     knowledge_state = gr.State()
     gr.Markdown(
         """
+        # 🤖 RAG - Auditor de Documentos (v9 - Chunking Estruturado)
         **1. Carregue seus arquivos**: Envie um ou mais certificados ou documentos nos formatos `.pdf` ou `.txt`.
         **2. Processe os arquivos**: Clique no botão para criar a base de conhecimento.
         **3. Faça perguntas**: Após o processamento, faça perguntas sobre o conteúdo dos documentos.