Spaces:

DHEIVER
/

rag_trescal

Sleeping

App Files Files Community

DHEIVER commited on Jun 9

Commit

9962ed4

verified ·

1 Parent(s): e0164c8

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -5

app.py CHANGED Viewed

@@ -72,7 +72,8 @@ def answer_question(question, knowledge_state):
     # Etapa de Recuperação (sem alterações)
     question_embedding = retriever_model.encode(question, convert_to_tensor=True)
     cosine_scores = util.cos_sim(question_embedding, knowledge_base_embeddings)
-    top_k = min(5, len(knowledge_base)) # Aumentado para 5 para mais contexto
     top_results = torch.topk(cosine_scores, k=top_k, dim=-1)
     retrieved_context = "\n---\n".join([knowledge_base[i] for i in top_results.indices[0]])
@@ -84,9 +85,13 @@ def answer_question(question, knowledge_state):
     print(f"Pergunta: {question}")
     print(f"Contexto Recuperado (Top {top_k}):\n{retrieved_context}")
-    # MUDANÇA PRINCIPAL: Prompt muito mais direto para forçar o uso do contexto
     prompt = f"""### Instruction:
-Use estritamente a informação fornecida no 'Contexto' para responder à 'Pergunta'. Não adicione informações externas. Se a pergunta for sobre explicar o documento, resuma os pontos principais do contexto.
 **Contexto:**
 {retrieved_context}
@@ -103,7 +108,8 @@ Use estritamente a informação fornecida no 'Contexto' para responder à 'Pergu
     # Ajuste nos parâmetros de geração
     outputs = generator_model.generate(
         input_ids,
-        max_new_tokens=300,  # Aumentado para permitir resumos mais longos
         do_sample=False,
         eos_token_id=generator_tokenizer.eos_token_id,
         pad_token_id=generator_tokenizer.eos_token_id
@@ -120,7 +126,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as interface:
     knowledge_state = gr.State()
     gr.Markdown(
         """
-        # 🤖 RAG - Auditor de Documentos (v6 - Prompt Corrigido)
         **1. Carregue seus arquivos**: Envie um ou mais certificados ou documentos nos formatos `.pdf` ou `.txt`.
         **2. Processe os arquivos**: Clique no botão para criar a base de conhecimento.
         **3. Faça perguntas**: Após o processamento, faça perguntas sobre o conteúdo dos documentos.

     # Etapa de Recuperação (sem alterações)
     question_embedding = retriever_model.encode(question, convert_to_tensor=True)
     cosine_scores = util.cos_sim(question_embedding, knowledge_base_embeddings)
+    # MUDANÇA: Aumentado para 7 para mais contexto
+    top_k = min(7, len(knowledge_base))
     top_results = torch.topk(cosine_scores, k=top_k, dim=-1)
     retrieved_context = "\n---\n".join([knowledge_base[i] for i in top_results.indices[0]])
     print(f"Pergunta: {question}")
     print(f"Contexto Recuperado (Top {top_k}):\n{retrieved_context}")
+    # MUDANÇA PRINCIPAL: Prompt mais inteligente para interpretar documentos técnicos
     prompt = f"""### Instruction:
+Você é um assistente de IA especialista em análise de documentos técnicos. Sua tarefa é analisar o 'Contexto' para responder à 'Pergunta'.
+Regras importantes:
+1.  Use APENAS a informação do 'Contexto'. Não invente nada.
+2.  Não use cabeçalhos de tabelas ou definições de siglas (como 'VI' ou 'VRef') como respostas. Encontre os valores reais associados a eles no texto.
+3.  Responda de forma direta e concisa.
 **Contexto:**
 {retrieved_context}
     # Ajuste nos parâmetros de geração
     outputs = generator_model.generate(
         input_ids,
+        # MUDANÇA: Aumentado para permitir respostas mais detalhadas
+        max_new_tokens=350,
         do_sample=False,
         eos_token_id=generator_tokenizer.eos_token_id,
         pad_token_id=generator_tokenizer.eos_token_id
     knowledge_state = gr.State()
     gr.Markdown(
         """
+        # 🤖 RAG - Auditor de Documentos (v7 - Prompt Inteligente)
         **1. Carregue seus arquivos**: Envie um ou mais certificados ou documentos nos formatos `.pdf` ou `.txt`.
         **2. Processe os arquivos**: Clique no botão para criar a base de conhecimento.
         **3. Faça perguntas**: Após o processamento, faça perguntas sobre o conteúdo dos documentos.