Spaces:

aldohenrique
/

portalprogramando

Running

App Files Files Community

aldohenrique commited on Jun 10

Commit

b26ce6a

verified ·

1 Parent(s): dde9030

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -17

app.py CHANGED Viewed

@@ -5,8 +5,6 @@ import os
 # Modelos leves recomendados
 MODEL_OPTIONS = {
     "Qwen2.5:3B": "Qwen/Qwen2.5-3B-Instruct",
-    "Qwen2.5:1.5B": "Qwen/Qwen2.5-1.5B-Instruct",
-    "Qwen2.5:0.5B": "Qwen/Qwen2.5-0.5B-Instruct",
     "GPT-2 Médio": "gpt2-medium",
     "BLOOM (560M)": "bigscience/bloom-560m"
 }
@@ -15,9 +13,11 @@ MODEL_OPTIONS = {
 MODEL_NAME = MODEL_OPTIONS["Qwen2.5:3B"]
 def load_model():
-    global MODEL_NAME  # Declaração global no início da função
     try:
         return pipeline(
             "text-generation",
             model=MODEL_NAME,
@@ -25,13 +25,13 @@ def load_model():
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
-            device_map="auto",  # Para otimização automática
-            torch_dtype="auto",  # Para usar precisão otimizada
             token=os.getenv("HF_TOKEN")
         )
     except Exception as e:
-        # Fallback para modelo menor se houver problema de memória
-        print(f"Erro com {MODEL_NAME}, tentando modelo menor...")
         try:
             MODEL_NAME = MODEL_OPTIONS["Qwen2.5:0.5B"]
             return pipeline(
@@ -41,43 +41,89 @@ def load_model():
                 temperature=0.7,
                 top_p=0.9,
                 do_sample=True,
-                device_map="auto",
-                torch_dtype="auto",
                 token=os.getenv("HF_TOKEN")
             )
         except Exception as e2:
-            raise gr.Error(f"Erro ao carregar modelo: {str(e2)}")
 gerador = load_model()
 def responder_como_aldo(pergunta):
-    # Prompt otimizado para Qwen2.5
-    prompt = f"""<|im_start|>system
 Você é o professor Dr. Aldo Henrique, especialista em programação C, Java, desenvolvimento web e inteligência artificial. Responda com clareza, profundidade e tom acadêmico, como um professor experiente e didático.
 <|im_end|>
 <|im_start|>user
 {pergunta}
 <|im_end|>
 <|im_start|>assistant"""
     try:
         resposta = gerador(
             prompt,
-            max_new_tokens=300,
             pad_token_id=gerador.tokenizer.eos_token_id,
-            eos_token_id=gerador.tokenizer.eos_token_id
         )[0]["generated_text"]
         # Extrair apenas a resposta do assistente
-        if "<|im_start|>assistant" in resposta:
             resposta_limpa = resposta.split("<|im_start|>assistant")[-1]
             resposta_limpa = resposta_limpa.split("<|im_end|>")[0] if "<|im_end|>" in resposta_limpa else resposta_limpa
             return resposta_limpa.strip()
         else:
-            return resposta.split(prompt)[-1].strip()
     except Exception as e:
-        return f"Erro ao gerar resposta: {str(e)}"
 # Interface melhorada
 with gr.Blocks(

 # Modelos leves recomendados
 MODEL_OPTIONS = {
     "Qwen2.5:3B": "Qwen/Qwen2.5-3B-Instruct",
     "GPT-2 Médio": "gpt2-medium",
     "BLOOM (560M)": "bigscience/bloom-560m"
 }
 MODEL_NAME = MODEL_OPTIONS["Qwen2.5:3B"]
 def load_model():
+    global MODEL_NAME  # Declarar global no início da função
+    # Tentar carregar com configurações otimizadas primeiro
     try:
+        print(f"Tentando carregar modelo: {MODEL_NAME}")
         return pipeline(
             "text-generation",
             model=MODEL_NAME,
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
             token=os.getenv("HF_TOKEN")
         )
     except Exception as e:
+        print(f"Erro com {MODEL_NAME}: {str(e)}")
+        # Fallback 1: Tentar modelo menor
+        print("Tentando modelo Qwen2.5:0.5B...")
         try:
             MODEL_NAME = MODEL_OPTIONS["Qwen2.5:0.5B"]
             return pipeline(
                 temperature=0.7,
                 top_p=0.9,
                 do_sample=True,
                 token=os.getenv("HF_TOKEN")
             )
         except Exception as e2:
+            print(f"Erro com Qwen2.5:0.5B: {str(e2)}")
+            # Fallback 2: GPT-2 Medium (mais compatível)
+            print("Tentando GPT-2 Medium...")
+            try:
+                MODEL_NAME = MODEL_OPTIONS["GPT-2 Médio"]
+                return pipeline(
+                    "text-generation",
+                    model=MODEL_NAME,
+                    max_new_tokens=256,
+                    temperature=0.7,
+                    top_p=0.9,
+                    do_sample=True
+                )
+            except Exception as e3:
+                print(f"Erro com GPT-2: {str(e3)}")
+                # Fallback 3: BLOOM (último recurso)
+                print("Tentando BLOOM...")
+                try:
+                    MODEL_NAME = MODEL_OPTIONS["BLOOM (560M)"]
+                    return pipeline(
+                        "text-generation",
+                        model=MODEL_NAME,
+                        max_new_tokens=256,
+                        temperature=0.7,
+                        top_p=0.9,
+                        do_sample=True
+                    )
+                except Exception as e4:
+                    raise gr.Error(f"Falha ao carregar qualquer modelo. Último erro: {str(e4)}")
 gerador = load_model()
 def responder_como_aldo(pergunta):
+    # Adaptar prompt baseado no modelo carregado
+    if "Qwen" in MODEL_NAME:
+        # Prompt otimizado para Qwen2.5
+        prompt = f"""<|im_start|>system
 Você é o professor Dr. Aldo Henrique, especialista em programação C, Java, desenvolvimento web e inteligência artificial. Responda com clareza, profundidade e tom acadêmico, como um professor experiente e didático.
 <|im_end|>
 <|im_start|>user
 {pergunta}
 <|im_end|>
 <|im_start|>assistant"""
+    else:
+        # Prompt genérico para outros modelos
+        prompt = f"""Você é o professor Dr. Aldo Henrique, especialista em programação C, Java, desenvolvimento web e inteligência artificial. Responda com clareza, profundidade e tom acadêmico.
+Pergunta: {pergunta}
+Resposta:"""
     try:
+        # Configurar parâmetros baseados no modelo
+        max_tokens = 300 if "Qwen" in MODEL_NAME else 200
         resposta = gerador(
             prompt,
+            max_new_tokens=max_tokens,
             pad_token_id=gerador.tokenizer.eos_token_id,
+            eos_token_id=gerador.tokenizer.eos_token_id,
+            truncation=True
         )[0]["generated_text"]
         # Extrair apenas a resposta do assistente
+        if "Qwen" in MODEL_NAME and "<|im_start|>assistant" in resposta:
             resposta_limpa = resposta.split("<|im_start|>assistant")[-1]
             resposta_limpa = resposta_limpa.split("<|im_end|>")[0] if "<|im_end|>" in resposta_limpa else resposta_limpa
             return resposta_limpa.strip()
+        elif "Resposta:" in resposta:
+            resposta_limpa = resposta.split("Resposta:")[-1]
+            return resposta_limpa.strip()
         else:
+            # Fallback: pegar texto após o prompt
+            resposta_limpa = resposta.replace(prompt, "").strip()
+            return resposta_limpa if resposta_limpa else "Desculpe, não consegui gerar uma resposta adequada."
     except Exception as e:
+        return f"Erro ao gerar resposta: {str(e)}. Tente reformular sua pergunta."
 # Interface melhorada
 with gr.Blocks(