Spaces:

Loversofdeath
/

lepidus

Sleeping

App Files Files Community

Loversofdeath commited on Apr 10

Commit

404755d

verified ·

1 Parent(s): ef98ae8

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -117

app.py CHANGED Viewed

@@ -1,14 +1,15 @@
 import gradio as gr
-from sentence_transformers import SentenceTransformer
-import chromadb
-from chromadb.utils import embedding_functions
 import os
 from langdetect import detect
-# Проверяем наличие текстовых файлов и читаем их
 def load_text_files():
     files = {
-        "vampires": "vampires.txt"
     }
     loaded_data = {}
@@ -22,138 +23,90 @@ def load_text_files():
     return loaded_data
-# Инициализация модели для эмбеддингов
-def initialize_embedding_model():
-    return embedding_functions.SentenceTransformerEmbeddingFunction(
-        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
-    )
-# Создание базы знаний
-def create_knowledge_base(text_data, embed_fn):
-    client = chromadb.Client()
-    try:
-        collection = client.get_collection(name="knowledge_base")
-    except:
-        collection = client.create_collection(
-            name="knowledge_base",
-            embedding_function=embed_fn
-        )
-    # Добавляем документы в коллекцию
-    documents = []
-    metadatas = []
-    ids = []
-    for category, text in text_data.items():
-        if text:  # только если текст не пустой
-            # Разбиваем текст на предложения или абзацы
-            paragraphs = [p for p in text.split('\n') if p.strip()]
-            for i, paragraph in enumerate(paragraphs):
-                documents.append(paragraph)
-                metadatas.append({"category": category})
-                ids.append(f"{category}_{i}")
-    if documents:
-        collection.add(
-            documents=documents,
-            metadatas=metadatas,
-            ids=ids
-        )
-    return collection
-# Инициализация модели для ответов (упрощенная версия)
-def initialize_llm_model():
-    from transformers import pipeline
-    # Используем меньшую модель для Hugging Face Spaces
-    return pipeline(
-        "text-generation",
-        model="IlyaGusev/saiga_llama3_8b",
-        device_map="auto"
-    )
-# Поиск релевантной информации
-def find_relevant_info(question, collection, embed_fn, n_results=3):
-    results = collection.query(
-        query_texts=[question],
-        n_results=n_results
-    )
-    context = "\n\n".join(results['documents'][0])
-    return context
-# Генерация ответа
-def generate_response(question, context, llm_pipe):
-    system_prompt = """Ты - помощник, который отвечает на вопросы пользователя, используя предоставленную информацию.
-    Отвечай только на основе предоставленного контекста. Если ответа нет в контексте, скажи, что не знаешь.
-    Отвечай на русском языке."""
-    prompt = f"""<s>{system_prompt}
-    Контекст: {context}
-    Вопрос: {question}
-    Ответ:"""
-    output = llm_pipe(
-        prompt,
-        max_new_tokens=256,
-        do_sample=True,
-        temperature=0.7,
-        top_p=0.9,
-        repetition_penalty=1.2
-    )
-    return output[0]["generated_text"][len(prompt):].strip()
-# Основная функция для обработки запросов
-def answer_question(question, history):
-    # Определяем язык вопроса
     try:
-        lang = detect(question)
-        if lang != 'ru':
-            return "Пожалуйста, задавайте вопросы на русском языке."
     except:
         pass
-    # Загружаем данные (если еще не загружены)
-    if not hasattr(answer_question, 'text_data'):
-        answer_question.text_data = load_text_files()
-    # Инициализируем модели (если еще не инициализированы)
-    if not hasattr(answer_question, 'embed_fn'):
-        answer_question.embed_fn = initialize_embedding_model()
-    if not hasattr(answer_question, 'collection'):
-        answer_question.collection = create_knowledge_base(answer_question.text_data, answer_question.embed_fn)
-    if not hasattr(answer_question, 'llm_pipe'):
-        answer_question.llm_pipe = initialize_llm_model()
-    # Находим релевантный контекст
-    context = find_relevant_info(question, answer_question.collection, answer_question.embed_fn)
-    # Генерируем ответ
-    response = generate_response(question, context, answer_question.llm_pipe)
-    return response
-# Создаем интерфейс Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("## Чат-бот с доступом к текстовым файлам")
-    gr.Markdown("Задавайте вопросы о вампирах, оборотнях или людях на русском языке")
-    chatbot = gr.Chatbot(label="Диалог")
-    msg = gr.Textbox(label="Ваш вопрос")
-    clear = gr.Button("Очистить")
-    def respond(message, chat_history):
-        bot_message = answer_question(message, chat_history)
-        chat_history.append((message, bot_message))
-        return "", chat_history
-    msg.submit(respond, [msg, chatbot], [msg, chatbot])
     clear.click(lambda: None, None, chatbot, queue=False)
-demo.launch()

 import gradio as gr
 import os
 from langdetect import detect
+from sentence_transformers import SentenceTransformer
+import numpy as np
+# Загрузка текстовых файлов
 def load_text_files():
     files = {
+        "vampires": "vampires.txt",
+        "werewolves": "werewolves.txt",
+        "humans": "humans.txt"
     }
     loaded_data = {}
     return loaded_data
+# Инициализация модели для поиска (легковесная)
+def initialize_search_model():
+    return SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+# Поиск наиболее релевантных фрагментов
+def find_relevant_text(question, text_data, model, top_k=3):
+    # Разбиваем тексты на предложения
+    sentences = []
+    sources = []
+    for category, text in text_data.items():
+        if text:
+            for sentence in text.split('\n'):
+                if sentence.strip():
+                    sentences.append(sentence.strip())
+                    sources.append(category)
+    if not sentences:
+        return "Нет данных для анализа"
+    # Эмбеддинги для предложений и вопроса
+    sentence_embeddings = model.encode(sentences)
+    question_embedding = model.encode([question])
+    # Поиск наиболее похожих предложений
+    similarities = np.dot(sentence_embeddings, question_embedding.T).flatten()
+    top_indices = similarities.argsort()[-top_k:][::-1]
+    # Формируем контекст
+    context = "Контекст:\n"
+    for idx in top_indices:
+        context += f"[Из {sources[idx]}]: {sentences[idx]}\n"
+    return context
+# Генерация ответа (упрощенная)
+def generate_answer(question, context):
+    # Простейшая логика ответа без LLM
+    if not context.strip():
+        return "Извините, не могу найти информацию по вашему вопросу."
+    return f"""На основе имеющейся информации:
+{context}
+Это все, что я могу сказать по данному вопросу. Если вам нужны более подробные сведения, уточните вопрос."""
+# Основная функция обработки
+def process_question(question, history):
+    # Проверка языка
     try:
+        if detect(question) != 'ru':
+            return "Пожалуйста, задавайте вопросы на русском языке.", history
     except:
         pass
+    # Ленивая загрузка данных и модели
+    if not hasattr(process_question, 'text_data'):
+        process_question.text_data = load_text_files()
+    if not hasattr(process_question, 'search_model'):
+        process_question.search_model = initialize_search_model()
+    # Поиск релевантной информации
+    context = find_relevant_text(question, process_question.text_data, process_question.search_model)
+    # Формирование ответа
+    answer = generate_answer(question, context)
+    # Обновление истории
+    history.append((question, answer))
+    return "", history
+# Создание интерфейса
 with gr.Blocks() as demo:
+    gr.Markdown("## 📚 Чат-бот с доступом к текстовым файлам")
+    gr.Markdown("Задавайте вопросы о вампирах, оборотнях или людях")
+    chatbot = gr.Chatbot(label="Диалог", height=400)
+    msg = gr.Textbox(label="Ваш вопрос", placeholder="Введите вопрос на русском языке...")
+    clear = gr.Button("Очистить чат")
+    msg.submit(process_question, [msg, chatbot], [msg, chatbot])
     clear.click(lambda: None, None, chatbot, queue=False)
+# Запуск приложения с ограничением ресурсов
+demo.launch(server_name="0.0.0.0", server_port=7860, show_error=True)