Spaces:

arjunanand13
/

llama_4bit

Runtime error

arjunanand13 commited on Nov 15, 2024

Commit

96ffa43

verified ·

1 Parent(s): 677d60b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,23 +2,25 @@ import torch
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from transformers import BitsAndBytesConfig
-# Function to load a quantized model
 def load_quantized_model():
-    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
     config = BitsAndBytesConfig.from_dict({"load_in_4bit": True})
-    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct", quantization_config=config)
     return model, tokenizer
 model, tokenizer = load_quantized_model()
-# Simple prediction function for Gradio
 def generate_response(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(**inputs)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# Gradio interface
 iface = gr.Interface(
     fn=generate_response,
     inputs="text",

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from transformers import BitsAndBytesConfig
+import os
+token = os.getenv("HUGGINGFACE_TOKEN")
 def load_quantized_model():
+    """ Function to load a quantized model"""
+    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct",token=token)
     config = BitsAndBytesConfig.from_dict({"load_in_4bit": True})
+    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct", quantization_config=config,token=token)
     return model, tokenizer
 model, tokenizer = load_quantized_model()
 def generate_response(prompt):
+    """Simple prediction function for Gradio"""
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(**inputs)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 iface = gr.Interface(
     fn=generate_response,
     inputs="text",