Spaces:

khadijaaao
/

Chatbot_RAG_ver

Sleeping

App Files Files Community

khadijaaao commited on Jun 16

Commit

52eea35

verified ·

1 Parent(s): fcc2ce9

Upload 2 files

Browse files

Files changed (2) hide show

requirements.txt +8 -3
streamlit_app.py.py +80 -0

requirements.txt CHANGED Viewed

@@ -1,3 +1,8 @@
-altair
-pandas
-streamlit

+langchain
+langchain-community
+faiss-cpu
+sentence-transformers
+# Pour le support GPU (NVIDIA), installez avec la commande ci-dessous. Sinon, utilisez la version CPU.
+# pip install llama-cpp-python --prefer-binary --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121
+llama-cpp-python

streamlit_app.py.py ADDED Viewed

	@@ -0,0 +1,80 @@

+import streamlit as st
+import os
+from llama_cpp import Llama
+from langchain_community.vectorstores import FAISS
+from langchain_community.embeddings import HuggingFaceEmbeddings
+# --- Configuration de la page Streamlit ---
+st.set_page_config(page_title="Wize, votre Coach RAG", layout="wide")
+st.title("🤖 Wize - Votre Coach Expert")
+st.write("Posez une question sur vos documents, et je vous répondrai en me basant sur leur contenu.")
+# --- Fonctions de chargement mises en cache ---
+# @st.cache_resource est CRUCIAL pour que Streamlit ne recharge pas les modèles à chaque interaction
+@st.cache_resource
+def load_llm(model_path):
+    print("Chargement du modèle LLM...")
+    return Llama(model_path=model_path, n_gpu_layers=-1, n_ctx=4096, verbose=False, chat_format="llama-3")
+@st.cache_resource
+def load_retriever(faiss_path, embeddings_path):
+    print("Chargement du modèle d'embeddings et de FAISS...")
+    embeddings_model = HuggingFaceEmbeddings(model_name=embeddings_path, model_kwargs={'device': 'cpu'}) # Utiliser le CPU sur les serveurs gratuits
+    vectorstore = FAISS.load_local(faiss_path, embeddings_model, allow_dangerous_deserialization=True)
+    return vectorstore.as_retriever(search_kwargs={"k": 5})
+# --- Chemins d'accès (relatifs) ---
+DOSSIER_PROJET = os.path.dirname(__file__)
+CHEMIN_MODELE_GGUF = os.path.join(DOSSIER_PROJET, "Meta-Llama-3-8B-Instruct.Q4_K_M.gguf") # Assurez-vous que le nom correspond
+CHEMIN_INDEX_FAISS = os.path.join(DOSSIER_PROJET, "faiss_index_wize")
+CHEMIN_MODELE_EMBEDDINGS = os.path.join(DOSSIER_PROJET, "embedding_model")
+# --- Chargement des modèles via Streamlit ---
+try:
+    llm = load_llm(CHEMIN_MODELE_GGUF)
+    retriever = load_retriever(CHEMIN_INDEX_FAISS, CHEMIN_MODELE_EMBEDDINGS)
+    st.success("Les modèles sont chargés et prêts !")
+except Exception as e:
+    st.error(f"Erreur lors du chargement des modèles : {e}")
+    st.stop()
+# --- Initialisation de l'historique de chat ---
+if "messages" not in st.session_state:
+    st.session_state.messages = []
+# Afficher les messages de l'historique
+for message in st.session_state.messages:
+    with st.chat_message(message["role"]):
+        st.markdown(message["content"])
+# --- Logique de Chat ---
+if prompt := st.chat_input("Posez votre question ici..."):
+    # Ajouter le message de l'utilisateur à l'historique
+    st.session_state.messages.append({"role": "user", "content": prompt})
+    with st.chat_message("user"):
+        st.markdown(prompt)
+    # Générer la réponse de l'assistant
+    with st.chat_message("assistant"):
+        with st.spinner("Je réfléchis..."):
+            # 1. Récupérer le contexte
+            docs = retriever.invoke(prompt)
+            context = "\n".join([doc.page_content for doc in docs])
+            # 2. Créer le prompt pour le LLM
+            system_prompt = "Vous êtes Wize. Répondez à la question en vous basant uniquement sur le contexte fourni."
+            full_prompt = f"""
+            <|begin_of_text|><|start_header_id|>system<|end_header_id|>
+            {system_prompt}
+            Contexte : {context}<|eot_id|><|start_header_id|>user<|end_header_id|>
+            Question : {prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+            """
+            # 3. Générer la réponse
+            response = llm(full_prompt, max_tokens=1500, stop=["<|eot_id|>"], echo=False)
+            answer = response['choices'][0]['text'].strip()
+            st.markdown(answer)
+    # Ajouter la réponse de l'assistant à l'historique
+    st.session_state.messages.append({"role": "assistant", "content": answer})