Centaur

Running on Zero

marcelbinz commited on Jul 1

Commit

298c3b7

verified ·

1 Parent(s): 475a64e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,8 +2,10 @@ import spaces
 import gradio as gr
 import torch
 from transformers import pipeline, BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
 MODEL_ID = "unsloth/Meta-Llama-3.1-70B-bnb-4bit"
 bnb_4bit_config = BitsAndBytesConfig(
     load_in_4bit=True,
@@ -13,13 +15,15 @@ bnb_4bit_config = BitsAndBytesConfig(
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="auto",
     attn_implementation="flash_attention_2",
     quantization_config=bnb_4bit_config,
 )
 pipe = pipeline(
     "text-generation",
     model=model,

 import gradio as gr
 import torch
 from transformers import pipeline, BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
 MODEL_ID = "unsloth/Meta-Llama-3.1-70B-bnb-4bit"
+ADAPTER_ID = "marcelbinz/Llama-3.1-Centaur-70B-adapter"
 bnb_4bit_config = BitsAndBytesConfig(
     load_in_4bit=True,
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model_base = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="auto",
     attn_implementation="flash_attention_2",
     quantization_config=bnb_4bit_config,
 )
+model = PeftModel.from_pretrained(model_base, ADAPTER, device_map="auto")
 pipe = pipeline(
     "text-generation",
     model=model,