Spaces:

shao3d
/

my-tlite-rag-chat

Runtime error

App Files Files Community

shao3d commited on Mar 5

Commit

80fabf4

verified ·

1 Parent(s): 216ac5c

Update app.py

Browse files

Исправил формат Gradio для чата

Files changed (1) hide show

app.py +18 -11

app.py CHANGED Viewed

@@ -3,36 +3,43 @@ import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 base_model_name = "t-tech/T-lite-it-1.0"
-lora_repo = "shao3d/my-t-lite-qlora"  # Замени на твой логин
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
-    device_map="cpu",  # Используем CPU вместо "auto"
-    torch_dtype=torch.float16  # FP16 для экономии памяти на CPU
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
 model.eval()  # Переключаем в режим предсказания
-def generate_response(prompt):
-    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")  # Используем CPU
     outputs = model.generate(
         **inputs,
-        max_new_tokens=200,
-        temperature=0.7,
-        top_p=0.9,
-        do_sample=True
     )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return response[len(prompt):].strip()
 with gr.Blocks() as demo:
     gr.Markdown("# Тест дообученной T-Lite")
     chatbot = gr.Chatbot()
     msg = gr.Textbox(placeholder="Напиши сообщение для модели...")
     clear = gr.Button("Очистить чат")
-    msg.submit(generate_response, msg, chatbot)
     clear.click(lambda: [], None, chatbot)
 demo.launch()

 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+# Загружаем базовую модель и токенизатор
 base_model_name = "t-tech/T-lite-it-1.0"
+lora_repo = "sha03d/my-t-lite-qlora"  # Замени на твой логин
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
+    device_map="cpu",  # Используем CPU для бесплатного Space
+    torch_dtype=torch.float16  # FP16 для экономии памяти
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
 model.eval()  # Переключаем в режим предсказания
+def generate_response(history):
+    # history — это список пар [пользовательское_сообщение, ответ_модели]
+    # Берем последний вопрос пользователя
+    user_message = history[-1][0]  # Последнее сообщение пользователя
+    # Генерируем ответ
+    inputs = tokenizer(user_message, return_tensors="pt").to("cpu")
     outputs = model.generate(
         **inputs,
+        max_new_tokens=50,  # Уменьшили для скорости
+        temperature=0.1,    # Сделали ответы точнее и быстрее
+        top_p=0.5,          # Уменьшили для скорости
+        do_sample=True      # Оставляем для разнообразия
     )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Возвращаем обновлённую историю: добавляем пару [вопрос, ответ]
+    return history + [[user_message, response[len(user_message):].strip()]]
+# Создаём интерфейс Gradio
 with gr.Blocks() as demo:
     gr.Markdown("# Тест дообученной T-Lite")
     chatbot = gr.Chatbot()
     msg = gr.Textbox(placeholder="Напиши сообщение для модели...")
     clear = gr.Button("Очистить чат")
+    msg.submit(generate_response, inputs=chatbot, outputs=chatbot)
     clear.click(lambda: [], None, chatbot)
 demo.launch()