Spaces:

Loversofdeath
/

lepidus

Sleeping

App Files Files Community

Loversofdeath commited on Apr 10

Commit

05647e2

verified ·

1 Parent(s): 2012aa4

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -48

app.py CHANGED Viewed

@@ -1,55 +1,57 @@
 import gradio as gr
 import re
-# Загружаем текстовые данные из файлов лора
-def load_lore_files():
-    lore_data = {}
-    for filename in ["vampires.txt"]:
-        with open(filename, "r", encoding="utf-8") as file:
-            lore_data[filename] = file.read()
-    return lore_data
-lore_data = load_lore_files()
-# Функция для очистки текста от нежелательных символов
 def clean_text(text):
-    # Убираем все символы, кроме букв и пробелов
-    return re.sub(r'[^a-zA-Zа-яА-ЯёЁ\s]', '', text.lower())
-# Функция поиска ответа
-def chatbot(message, history, system_message, max_tokens, temperature, top_p):
-    # Приводим запрос к стандартному виду
-    cleaned_message = clean_text(message)
-    response = ""
-    for filename, text in lore_data.items():
-        cleaned_text = clean_text(text)
-        if cleaned_message in cleaned_text:
-            response += f"В файле {filename} есть что-то похожее на ваш запрос!\n"
-    if response == "":
-        return "Извините, ничего не нашёл по вашему запросу."
-    # Добавляем ответ в историю
-    history.append((message, response))
-    return response, history
-# Интерфейс чата с Gradio
-demo = gr.ChatInterface(
-    chatbot,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+import os
 import re
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.llms import HuggingFaceHub
+# Убираем спецсимволы (кроме базовой пунктуации)
 def clean_text(text):
+    return re.sub(r"[^\w\s.,!?–—:;()«»\"'-]", "", text, flags=re.UNICODE)
+# Собираем весь лор из нескольких файлов
+def load_all_lore_texts(folder="."):
+    texts = []
+    for filename in os.listdir(folder):
+        if filename.startswith("lore") and filename.endswith(".txt"):
+            with open(os.path.join(folder, filename), "r", encoding="utf-8") as f:
+                content = clean_text(f.read())
+                texts.append(content)
+    return "\n".join(texts)
+# Загрузка и разбиение текста
+full_lore = load_all_lore_texts()
+splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+chunks = splitter.split_text(full_lore)
+# Векторизация
+embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")  # поддерживает русский
+db = FAISS.from_texts(chunks, embeddings)
+retriever = db.as_retriever()
+# Русскоязычная LLM
+llm = HuggingFaceHub(
+    repo_id="cointegrated/rugpt3large_based_on_gpt2",
+    model_kwargs={"temperature":0.6, "max_new_tokens":300}
+)
+qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
+# Ответ бота
+def ask_bot(question):
+    cleaned_question = clean_text(question)
+    return qa_chain.run(cleaned_question)
+# Интерфейс
+iface = gr.Interface(
+    fn=ask_bot,
+    inputs=gr.Textbox(lines=2, placeholder="Спроси что-нибудь по лору..."),
+    outputs="text",
+    title="ЛорБот",
+    description="Задавайте вопросы о вселенной. Поддерживается русский язык."
 )
+iface.launch()