Spaces:

hsuwill000
/

DeepSeek-R1-Distill-Qwen-1.5B-openvino

Running

hsuwill000 commited on Feb 3

Commit

f906bd4

verified ·

1 Parent(s): c9ac48b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,36 +13,36 @@ pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
 def respond(message):
     try:
-        # Record the start time
         start_time = time.time()
-        # 修改 prompt：在對話中加入指令，要求只輸出最終答案，不顯示推理過程
-        instruction = "請只輸出最終答案，不要展示任何中間推理過程。"
-        input_text = f"User: {message}\nAssistant: {instruction}\nAssistant:"
-        # Generate response
         response = pipe(
-            input_text,
-            max_length=1024,
             truncation=True,
             num_return_sequences=1,
-            temperature=0.2,  # 控制生成多样性
-            top_p=0.1,        # 控制生成质量
         )
         generated_text = response[0]['generated_text'].strip()
-        # 提取模型輸出中最後一次出現 "Assistant:" 之後的部分（假設模型按照格式輸出）
-        # 若模型輸出格式不同，可根據實際情況進行調整
         if "Assistant:" in generated_text:
             reply = generated_text.split("Assistant:")[-1].strip()
         else:
             reply = generated_text
-        # Calculate inference time
         inference_time = time.time() - start_time
         print(f"Inference time: {inference_time:.4f} seconds")
-        # Return as a tuple (user message, bot reply)
         return [(message, reply)]
     except Exception as e:

 def respond(message):
     try:
         start_time = time.time()
+        # 強化 Prompt 讓模型輸出更合理
+        instruction = (
+            "請用簡單、準確的語言回答問題，避免冗長和重複內容。\n"
+            "User: " + message + "\n"
+            "Assistant: "
+        )
+        # Generate response with improved settings
         response = pipe(
+            instruction,
+            max_length=200,  # 限制最大輸出長度，防止無限重複
             truncation=True,
             num_return_sequences=1,
+            temperature=0.3,  # 保持一定創意但減少胡言亂語
+            top_p=0.8,  # 增加答案多樣性，減少無意義重複
+            repetition_penalty=1.5,  # 降低重複字詞的機率
         )
         generated_text = response[0]['generated_text'].strip()
+        # 提取 "Assistant:" 之後的部分
         if "Assistant:" in generated_text:
             reply = generated_text.split("Assistant:")[-1].strip()
         else:
             reply = generated_text
         inference_time = time.time() - start_time
         print(f"Inference time: {inference_time:.4f} seconds")
         return [(message, reply)]
     except Exception as e: