Spaces:

Loversofdeath
/

lepidus

Sleeping

App Files Files Community

Loversofdeath commited on Apr 10

Commit

a7aa125

verified ·

1 Parent(s): cb163f3

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -138

app.py CHANGED Viewed

@@ -1,151 +1,68 @@
-import gradio as gr
 import os
-from langdetect import detect
-from sentence_transformers import SentenceTransformer
 import numpy as np
-import re
-import random
-# Загрузка и предварительная обработка текстовых файлов
-def load_and_preprocess_files():
-    files = {
-        "vampires": "vampires.txt"
-    }
-    knowledge_base = {}
-    for category, filename in files.items():
-        try:
-            with open(filename, 'r', encoding='utf-8') as file:
-                content = file.read()
-                # Разбиваем на осмысленные блоки (абзацы)
-                paragraphs = [p.strip() for p in content.split('\n\n') if p.strip()]
-                knowledge_base[category] = paragraphs
-        except FileNotFoundError:
-            print(f"Файл {filename} не найден")
-            knowledge_base[category] = []
-    return knowledge_base
-# Инициализация модели для семантического поиска
-def initialize_search_model():
-    return SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
-# Поиск релевантной информации
-def find_relevant_info(question, knowledge_base, model, top_k=3):
-    all_fragments = []
-    for category, paragraphs in knowledge_base.items():
-        for para in paragraphs:
-            all_fragments.append((para, category))
-    if not all_fragments:
-        return []
-    texts = [f[0] for f in all_fragments]
-    embeddings = model.encode(texts)
-    question_embedding = model.encode([question])
-    similarities = np.dot(embeddings, question_embedding.T).flatten()
-    top_indices = similarities.argsort()[-top_k:][::-1]
-    return [all_fragments[i] for i in top_indices]
-# Генерация естественного ответа
-def generate_natural_response(question, relevant_info):
-    if not relevant_info:
-        return "Извините, не нашел информации по вашему вопросу. Попробуйте переформулировать."
-    question_type = "о них"
-    if "вампир" in question.lower():
-        question_type = "о вампирах"
-    elif "оборотн" in question.lower() or "волколак" in question.lower():
-        question_type = "об оборотнях"
-    elif "человек" in question.lower() or "люди" in question.lower():
-        question_type = "о людях"
-    unique_info = []
-    seen = set()
-    for para, category in relevant_info:
-        if para not in seen:
-            unique_info.append((para, category))
-            seen.add(para)
-    response = f"Вот что мне известно {question_type}:\n\n"
-    for i, (para, category) in enumerate(unique_info, 1):
-        if para.startswith("- "):
-            para = para.replace("\n- ", "\n• ").replace("- ", "• ")
-        if len(set(c for _, c in unique_info)) > 1:
-            response += f"{i}. ({category.capitalize()}) {para}\n\n"
-        else:
-            response += f"{i}. {para}\n\n"
-    endings = [
-        "Надеюсь, эта информация была полезной!",
-        "Если хотите узнать больше деталей, уточните вопрос.",
-        "Могу уточнить какие-то моменты, если нужно.",
-        "Это основные сведения, которые у меня есть."
-    ]
-    response += random.choice(endings)
     return response
-# Обработка вопроса
-def process_question(question, history):
-    try:
-        if detect(question) != 'ru':
-            return "Пожалуйста, задавайте вопросы на русском языке.", history
-    except:
-        pass
-    if not hasattr(process_question, 'knowledge_base'):
-        process_question.knowledge_base = load_and_preprocess_files()
-    if not hasattr(process_question, 'search_model'):
-        process_question.search_model = initialize_search_model()
-    relevant_info = find_relevant_info(question, process_question.knowledge_base, process_question.search_model)
-    answer = generate_natural_response(question, relevant_info)
-    history.append((question, answer))
-    return "", history
-# Создание интерфейса
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("""<h1 style='text-align: center'>🧛‍♂️ Мир сверхъестественного 🐺</h1>""")
-    gr.Markdown("""<div style='text-align: center'>Задавайте вопросы о вампирах, оборотнях и людях на русском языке</div>""")
-    # Сначала определяем элементы ввода
-    msg = gr.Textbox(
-        label="Ваш вопрос",
-        placeholder="Введите вопрос и нажмите Enter...",
-        container=False
-    )
-    # Затем определяем примеры, которые используют msg
-    examples = gr.Examples(
         examples=[
-            "Какие слабости у вампиров?",
-            "Как защититься от оборотней?",
-            "Чем люди отличаются от других существ?",
-            "Расскажи подробнее о вампирах"
         ],
-        inputs=[msg],
-        label="Примеры вопросов:"
-    )
-    # Затем определяем чат
-    chatbot = gr.Chatbot(
-        label="Диалог",
-        height=500
     )
-    with gr.Row():
-        submit = gr.Button("Отправить", variant="primary")
-        clear = gr.Button("Очистить историю")
-    submit.click(process_question, [msg, chatbot], [msg, chatbot])
-    msg.submit(process_question, [msg, chatbot], [msg, chatbot])
-    clear.click(lambda: None, None, chatbot, queue=False)
-demo.launch()

 import os
+import glob
+import gradio as gr
 import numpy as np
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+# Загружаем модель эмбеддингов
+model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+# Путь к папке с лором
+LORE_DIR = "./lore"
+# Параметры нарезки текста
+CHUNK_SIZE = 500  # длина куска в символах
+CHUNK_OVERLAP = 100  # перекрытие для плавности
+# Загружаем и разбиваем текст на кусочки
+def load_lore_chunks():
+    chunks = []
+    files = glob.glob(os.path.join(LORE_DIR, "*.txt"))
+    if not files:
+        print(f"В папке {LORE_DIR} нет файлов.")
+    for file_path in files:
+        with open(file_path, "r", encoding="utf-8") as file:
+            text = file.read()
+            text = ''.join(c if 0x20 <= ord(c) <= 0xFFFF else ' ' for c in text)  # чистим мусор
+            for i in range(0, len(text), CHUNK_SIZE - CHUNK_OVERLAP):
+                chunk = text[i:i+CHUNK_SIZE].strip()
+                if chunk:
+                    chunks.append(chunk)
+    return chunks
+# Загружаем все куски и эмбеддим
+print("🚀 Загружаем лор...")
+lore_chunks = load_lore_chunks()
+if not lore_chunks:
+    print("⚠️ Внимание: нет данных для поиска.")
+lore_embeddings = model.encode(lore_chunks)
+print(f"✅ Загружено {len(lore_chunks)} кусков текста.")
+# Поиск лучшего ответа
+def find_best_answer(question):
+    question_embedding = model.encode([question])[0]
+    similarities = cosine_similarity([question_embedding], lore_embeddings)[0]
+    best_indices = similarities.argsort()[-3:][::-1]  # Топ-3 самых похожих
+    best_chunks = [lore_chunks[idx] for idx in best_indices]
+    response = "\n\n".join(best_chunks)
     return response
+# Gradio интерфейс
+with gr.Blocks() as demo:
+    gr.Markdown("## 🧛‍♂️ ЛОР-БОТ: задавай вопросы о мире!")
+    chat = gr.ChatInterface(
+        fn=lambda message, history: (find_best_answer(message), history),
         examples=[
+            ["Какие кланы есть у вампиров?"],
+            ["Чем оборотни отличаются от ликантропов?"],
+            ["Где находится замок теней?"]
         ],
+        title="Лор-бот",
+        theme="soft"
     )
+# Для запуска локально:
+if __name__ == "__main__":
+    demo.launch()