Spaces:

shao3d
/

my-tlite-rag-chat

Runtime error

shao3d commited on Mar 5

Commit

216ac5c

verified ·

1 Parent(s): bc6163e

Update app.py

Переключил модель на CPU без 8-bit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,19 +4,19 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 base_model_name = "t-tech/T-lite-it-1.0"
-lora_repo = "shao3d/my-t-lite-qlora"
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
-    device_map="auto",
-    load_in_8bit=True,
-    torch_dtype=torch.float16
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
-model.eval()
 def generate_response(prompt):
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda" if torch.cuda.is_available() else "cpu")
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,

 from peft import PeftModel
 base_model_name = "t-tech/T-lite-it-1.0"
+lora_repo = "shao3d/my-t-lite-qlora"  # Замени на твой логин
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
+    device_map="cpu",  # Используем CPU вместо "auto"
+    torch_dtype=torch.float16  # FP16 для экономии памяти на CPU
 )
 model = PeftModel.from_pretrained(base_model, lora_repo)
+model.eval()  # Переключаем в режим предсказания
 def generate_response(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")  # Используем CPU
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,