Spaces:

mewton
/

LLM-Finance-QnA-Test

Sleeping

mewton commited on Mar 12

Commit

978a720

verified ·

1 Parent(s): ec83e9a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,14 +6,14 @@ from peft import PeftModel
 # Load base model & tokenizer
 base_model = "vilsonrodrigues/falcon-7b-instruct-sharded"
 tokenizer = AutoTokenizer.from_pretrained(base_model)
-model = AutoModelForCausalLM.from_pretrained(base_model, torch_dtype=torch.float16, device_map="auto")
 # Load LoRA adapter
 adapter_path = "./model"
 model = PeftModel.from_pretrained(model, adapter_path)
 def generate_response(prompt):
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     with torch.no_grad():
         outputs = model.generate(**inputs, max_length=200)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)

 # Load base model & tokenizer
 base_model = "vilsonrodrigues/falcon-7b-instruct-sharded"
 tokenizer = AutoTokenizer.from_pretrained(base_model)
+model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cpu", torch_dtype=torch.float32)
 # Load LoRA adapter
 adapter_path = "./model"
 model = PeftModel.from_pretrained(model, adapter_path)
 def generate_response(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
     with torch.no_grad():
         outputs = model.generate(**inputs, max_length=200)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)