SLM-RAG-Arena

Running on Zero

oliver-aizip commited on May 9

Commit

b41b93b

1 Parent(s): 211ca67

switch to applying chat template

Files changed (1) hide show

utils/models.py CHANGED Viewed

@@ -112,7 +112,6 @@ def run_inference(model_name, context, question):
     if "qwen3" in model_name.lower():
         print(f"Recognized {model_name} as a Qwen3 model. Setting enable_thinking=False.")
         tokenizer_kwargs["enable_thinking"] = False
-        generation_kwargs["enable_thinking"] = False
     try:
         if model_name in tokenizer_cache:
@@ -138,6 +137,7 @@ def run_inference(model_name, context, question):
         if generation_interrupt.is_set():
             return ""
         pipe = pipeline(
             "text-generation",
             model=model_name,
@@ -148,6 +148,13 @@ def run_inference(model_name, context, question):
         )
         text_input = format_rag_prompt(question, context, accepts_sys)
         # Check interrupt before generation
         if generation_interrupt.is_set():

     if "qwen3" in model_name.lower():
         print(f"Recognized {model_name} as a Qwen3 model. Setting enable_thinking=False.")
         tokenizer_kwargs["enable_thinking"] = False
     try:
         if model_name in tokenizer_cache:
         if generation_interrupt.is_set():
             return ""
         pipe = pipeline(
             "text-generation",
             model=model_name,
         )
         text_input = format_rag_prompt(question, context, accepts_sys)
+        formatted = tokenizer.apply_chat_template(
+            text_input,
+            tokenize=False,
+            **tokenizer_kwargs,
+        )
         # Check interrupt before generation
         if generation_interrupt.is_set():