Spaces:

shao3d
/

my-tlite-rag-chat

Runtime error

App Files Files Community

shao3d commited on Mar 5

Commit

0ba7013

verified ·

1 Parent(s): 16211d5

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -23

app.py CHANGED Viewed

@@ -3,40 +3,38 @@ import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-# Загружаем базовую модель и токенизатор
-base_model_name = "t-tech/T-lite-it-1.0"
-lora_repo = "shao3d/my-t-lite-qlora"  # Замени на твой логин
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
-    device_map="cpu",  # Используем CPU для бесплатного Space
-    torch_dtype=torch.float16  # FP16 для экономии памяти
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
-model.eval()  # Переключаем в режим предсказания
-def generate_response(history):
-    # Если history пустой, берем последнее сообщение из текстового поля (msg)
-    # Но в данном случае Gradio передаёт history, поэтому используем его
-    if not history:
-        raise gr.Error("Пожалуйста, введите сообщение в текстовое поле перед отправкой.")  # Проверка на случай, если сообщение не введено
-    # Берем последний вопрос пользователя
-    user_message = history[-1][0] if history else None  # Если history пуст, возвращаем None (добавим позже логику с msg)
-    if user_message is None:
         raise gr.Error("Пожалуйста, введите сообщение в текстовое поле перед отправкой.")
-    # Генерируем ответ
-    inputs = tokenizer(user_message, return_tensors="pt").to("cpu")
     outputs = model.generate(
         **inputs,
-        max_new_tokens=50,  # Уменьшили для скорости
-        temperature=0.1,    # Сделали ответы точнее и быстрее
-        top_p=0.5,          # Уменьшили для скорости
-        do_sample=True      # Оставляем для разнообразия
     )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Возвращаем обновлённую историю: добавляем пару [вопрос, ответ]
-    return history + [[user_message, response[len(user_message):].strip()]]
 # Создаём интерфейс Gradio
 with gr.Blocks() as demo:
@@ -44,7 +42,9 @@ with gr.Blocks() as demo:
     chatbot = gr.Chatbot()
     msg = gr.Textbox(placeholder="Напиши сообщение для модели...")
     clear = gr.Button("Очистить чат")
-    msg.submit(generate_response, inputs=[chatbot], outputs=chatbot)  # Указываем, что входные данные — это chatbot
     clear.click(lambda: [], None, chatbot)
 demo.launch()

 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+# Загружаем модель и токенизатор
+base_model_name = "t-tech/T-lite-it-1.0"  # Базовая модель T-Lite
+lora_repo = "shao3d/my-t-lite-qlora"      # Твой репозиторий с LoRA-адаптером
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
+    device_map="cpu",  # Бесплатный Space использует CPU
+    torch_dtype=torch.float16  # Экономим память
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
+model.eval()  # Режим предсказания
+def generate_response(history, message):
+    # Проверяем, что пользователь ввёл сообщение
+    if not message or message.strip() == "":
         raise gr.Error("Пожалуйста, введите сообщение в текстовое поле перед отправкой.")
+    # Генерируем ответ от модели
+    inputs = tokenizer(message, return_tensors="pt").to("cpu")
     outputs = model.generate(
         **inputs,
+        max_new_tokens=50,  # Ограничиваем длину для скорости
+        temperature=0.7,    # Баланс между точностью и разнообразием
+        do_sample=True      # Включаем разнообразие ответов
     )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Обновляем историю: добавляем [вопрос, ответ]
+    if history is None:
+        history = []
+    return history + [[message, response]]
 # Создаём интерфейс Gradio
 with gr.Blocks() as demo:
     chatbot = gr.Chatbot()
     msg = gr.Textbox(placeholder="Напиши сообщение для модели...")
     clear = gr.Button("Очистить чат")
+    # Связываем ввод с функцией
+    msg.submit(generate_response, inputs=[chatbot, msg], outputs=chatbot)
     clear.click(lambda: [], None, chatbot)
 demo.launch()