Spaces:

david-thrower
/

3B-Param-Basic-Chatbot

Build error

david-thrower commited on 16 days ago

Commit

e102b08

verified ·

1 Parent(s): 8140d5a

Update app.py

Debug model import and quantization...

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,19 +36,27 @@ from optimum.onnxruntime.configuration import AutoQuantizationConfig
 MODEL_NAME = "HuggingFaceTB/SmolLM3-3B"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 qconfig = AutoQuantizationConfig.avx512_vnni(is_static=False, per_channel=True)
-quantizer = ORTQuantizer.from_pretrained(MODEL_NAME)
 # Step 4: Perform quantization saving output in a new directory
 quantized_model_dir = "./quantized_model"
 print("Starting quantization...")
 quantizer.quantize(save_dir=quantized_model_dir, quantization_config=qconfig)
 del(quantizer)
 del(qconfig)
 # Run garbage collection again to release memory from quantizer objects
 gc.collect()
@@ -56,11 +64,11 @@ gc.collect()
 # Step 5: Load the quantized ONNX model for inference
 print("Loading quantized ONNX model for inference...")
 model = ORTModelForCausalLM.from_pretrained(quantized_model_dir)
 # Garbage collection again after final loading
 gc.collect()
 #########
 # print("Loading tokenizer & model…")

 MODEL_NAME = "HuggingFaceTB/SmolLM3-3B"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = ORTModelForCausalLM.from_pretrained(MODEL_NAME, export=True)
+print("Creating quant config")
 qconfig = AutoQuantizationConfig.avx512_vnni(is_static=False, per_channel=True)
+print("Creating quant config successful")
+print("Creating quantizer")
+quantizer = ORTQuantizer.from_pretrained(model)
+print("Creating quantizer successful")
 # Step 4: Perform quantization saving output in a new directory
 quantized_model_dir = "./quantized_model"
 print("Starting quantization...")
 quantizer.quantize(save_dir=quantized_model_dir, quantization_config=qconfig)
+print("Quantization was successful. Garbage collecting...")
 del(quantizer)
 del(qconfig)
+del(model)
 # Run garbage collection again to release memory from quantizer objects
 gc.collect()
 # Step 5: Load the quantized ONNX model for inference
 print("Loading quantized ONNX model for inference...")
 model = ORTModelForCausalLM.from_pretrained(quantized_model_dir)
+print("Loading model was succcessful. Garbage collecting.")
 # Garbage collection again after final loading
 gc.collect()
 #########
 # print("Loading tokenizer & model…")