Spaces:

Dorian2B
/

Vera-Chat

Sleeping

App Files Files Community

Dorian2B commited on Apr 8

Commit

99c5b7f

verified ·

1 Parent(s): fbf9b68

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -19

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import torch
 from llama_cpp import Llama
 import os
 from huggingface_hub import hf_hub_download
@@ -19,7 +20,8 @@ def load_model():
     model = Llama(
         model_path=model_path,
         n_ctx=4096,  # Taille du contexte
-        n_gpu_layers=-1  # Utilise tous les layers disponibles sur GPU si possible
     )
     return model
@@ -38,31 +40,60 @@ def format_prompt(message, history):
     return prompt
-# Fonction d'inférence
 def generate_response(message, history):
     if not hasattr(generate_response, "model"):
         generate_response.model = load_model()
-    prompt = format_prompt(message, history)
-    # Génération de la réponse
-    response = generate_response.model.create_completion(
         prompt,
         max_tokens=2048,
         temperature=0.7,
         top_p=0.95,
         stop=["</s>", "<|user|>", "<|system|>"],
-        echo=False
-    )
-    return response['choices'][0]['text']
 # Fonction pour réinitialiser la conversation
 def reset_conversation():
     return [], ""
 # Interface Gradio
-with gr.Blocks(css="footer {visibility: hidden}") as demo:
     gr.Markdown("""
     # 🌟 Assistant Vera-v1.5-Instruct
@@ -73,10 +104,13 @@ with gr.Blocks(css="footer {visibility: hidden}") as demo:
     with gr.Row():
         with gr.Column(scale=4):
             chatbot = gr.Chatbot(
-                height=500,
                 show_copy_button=True,
                 avatar_images=("👤", "🤖"),
                 bubble_full_width=False,
             )
     with gr.Row():
@@ -84,20 +118,25 @@ with gr.Blocks(css="footer {visibility: hidden}") as demo:
             message = gr.Textbox(
                 placeholder="Entrez votre message ici...",
                 lines=2,
-                container=False,
                 scale=4,
             )
         with gr.Column(scale=1):
             with gr.Row():
                 submit_btn = gr.Button("Envoyer", variant="primary", scale=2)
                 reset_btn = gr.Button("Réinitialiser", variant="secondary", scale=1)
-    gr.Markdown("""
-    ### À propos du modèle
-    Ce modèle est basé sur **Vera-v1.5-Instruct-GGUF** de [Dorian2B](https://huggingface.co/Dorian2B/Vera-v1.5-Instruct-GGUF).
-    Le modèle est optimisé pour les conversations en français.
-    """)
     # Configuration des événements
     submit_btn.click(
@@ -128,4 +167,4 @@ with gr.Blocks(css="footer {visibility: hidden}") as demo:
 # Lancement de l'interface
 if __name__ == "__main__":
     demo.queue()
-    demo.launch()

 import gradio as gr
 import torch
+import time
 from llama_cpp import Llama
 import os
 from huggingface_hub import hf_hub_download
     model = Llama(
         model_path=model_path,
         n_ctx=4096,  # Taille du contexte
+        n_gpu_layers=-1,  # Utilise tous les layers disponibles sur GPU si possible
+        verbose=False  # Désactive les logs verbeaux
     )
     return model
     return prompt
+# Fonction d'inférence avec streaming
 def generate_response(message, history):
     if not hasattr(generate_response, "model"):
         generate_response.model = load_model()
+    # Ajout du message utilisateur à l'historique
+    history = history + [(message, "")]
+    prompt = format_prompt(message, history[:-1])
+    response_text = ""
+    # Utilise le stream pour générer la réponse progressivement
+    for token in generate_response.model.create_completion(
         prompt,
         max_tokens=2048,
         temperature=0.7,
         top_p=0.95,
         stop=["</s>", "<|user|>", "<|system|>"],
+        stream=True,
+    ):
+        response_text += token["choices"][0]["text"]
+        # Mise à jour du message en cours de génération
+        history[-1] = (message, response_text)
+        time.sleep(0.01)  # Légère pause pour un affichage fluide
+        yield history
 # Fonction pour réinitialiser la conversation
 def reset_conversation():
     return [], ""
+# CSS personnalisé pour améliorer l'esthétique
+custom_css = """
+footer {visibility: hidden}
+.gradio-container {
+    background-color: #f8f9fa;
+}
+.chatbot-container {
+    border-radius: 15px;
+    box-shadow: 0 4px 6px rgba(0, 0, 0, 0.1);
+}
+.chatbot .user-message {
+    background: linear-gradient(135deg, #6e8efb, #a777e3);
+    color: white;
+    border-radius: 15px 15px 0 15px;
+}
+.chatbot .bot-message {
+    background: #f0f2f5;
+    border-radius: 15px 15px 15px 0;
+}
+"""
 # Interface Gradio
+with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # 🌟 Assistant Vera-v1.5-Instruct
     with gr.Row():
         with gr.Column(scale=4):
             chatbot = gr.Chatbot(
+                height=550,
                 show_copy_button=True,
                 avatar_images=("👤", "🤖"),
                 bubble_full_width=False,
+                elem_id="chatbot",
+                container=True,
+                elem_classes="chatbot-container",
             )
     with gr.Row():
             message = gr.Textbox(
                 placeholder="Entrez votre message ici...",
                 lines=2,
+                container=True,
                 scale=4,
+                autofocus=True,
             )
         with gr.Column(scale=1):
             with gr.Row():
                 submit_btn = gr.Button("Envoyer", variant="primary", scale=2)
                 reset_btn = gr.Button("Réinitialiser", variant="secondary", scale=1)
+    with gr.Accordion("À propos du modèle", open=False):
+        gr.Markdown("""
+        Ce modèle est basé sur **Vera-v1.5-Instruct-GGUF** de [Dorian2B](https://huggingface.co/Dorian2B/Vera-v1.5-Instruct-GGUF).
+        Le modèle est optimisé pour les conversations en français.
+        **Paramètres du modèle:**
+        - Température: 0.7
+        - Top-p: 0.95
+        - Contexte: 4096 tokens
+        """)
     # Configuration des événements
     submit_btn.click(
 # Lancement de l'interface
 if __name__ == "__main__":
     demo.queue()
+    demo.launch(share=True, show_error=True)