Spaces:

hsuwill000
/

DeepSeek-R1-Distill-Qwen-1.5B-openvino

Running

App Files Files Community

hsuwill000 commited on Feb 10

Commit

76cb536

verified ·

1 Parent(s): 155b74f

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -26

app.py CHANGED Viewed

@@ -1,15 +1,20 @@
 import gradio as gr
-from transformers import AutoTokenizer
 from optimum.intel import OVModelForCausalLM
-# 模型與標記器載入（你的原始代碼）
 model_id = "hsuwill000/DeepSeek-R1-Distill-Qwen-1.5B-openvino"
 print("Loading model...")
 model = OVModelForCausalLM.from_pretrained(model_id, device_map="auto")
 print("Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
 def respond(prompt, history):
     messages = [
         {"role": "system", "content": "使用中文。"},
         {"role": "user", "content": prompt}
@@ -19,7 +24,9 @@ def respond(prompt, history):
         tokenize=False,
         add_generation_prompt=True
     )
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
     generated_ids = model.generate(
         **model_inputs,
         max_new_tokens=4096,
@@ -27,39 +34,35 @@ def respond(prompt, history):
         top_p=0.9,
         do_sample=True
     )
     generated_ids = [
         output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
     ]
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
     response = response.replace("<think>", "**THINK**").replace("</think>", "**THINK**").strip()
     return response
-def maxtest(prompt):
-    return prompt
-# 使用 Blocks 同時建立聊天接口和 API 接口
 with gr.Blocks() as demo:
-    gr.Markdown("# DeepSeek-R1-Distill-Qwen-1.5B-openvino")
-    with gr.Tabs():
-        with gr.TabItem("聊天"):
-            chat = gr.ChatInterface(
-                fn=respond,
-                title="聊天介面",
-                description="DeepSeek-R1-Distill-Qwen-1.5B-openvino 聊天接口"
-            )
-        with gr.TabItem("MaxTest API"):
-            # 這個接口會被暴露為 /run/maxtest
-            api = gr.Interface(
-                fn=maxtest,
-                inputs=gr.Textbox(label="Prompt"),
-                outputs="text",
-                api_name="/maxtest",
-                title="MaxTest API",
-                description="回傳輸入內容的測試 API"
-            )
-            # 可以選擇將該接口放在單獨的 tab 內，也可以直接顯示
 if __name__ == "__main__":
     print("Launching Gradio app...")
-    # 啟動應用（如果你想使用 share=True 讓外網訪問也可加上該參數）
     demo.launch(server_name="0.0.0.0", server_port=7860, share=True)

 import gradio as gr
+from huggingface_hub import InferenceClient
 from optimum.intel import OVModelForCausalLM
+from transformers import AutoTokenizer
+# 載入模型和標記器
 model_id = "hsuwill000/DeepSeek-R1-Distill-Qwen-1.5B-openvino"
 print("Loading model...")
 model = OVModelForCausalLM.from_pretrained(model_id, device_map="auto")
 print("Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
+def maxtest(prompt):
+    return prompt
 def respond(prompt, history):
+    # 構建聊天模板
     messages = [
         {"role": "system", "content": "使用中文。"},
         {"role": "user", "content": prompt}
         tokenize=False,
         add_generation_prompt=True
     )
+    print("Chat template text:", text)
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    print("Model inputs:", model_inputs)
     generated_ids = model.generate(
         **model_inputs,
         max_new_tokens=4096,
         top_p=0.9,
         do_sample=True
     )
+    print("Generated IDs:", generated_ids)
     generated_ids = [
         output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
     ]
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    print("Decoded response:", response)
     response = response.replace("<think>", "**THINK**").replace("</think>", "**THINK**").strip()
     return response
 with gr.Blocks() as demo:
+    # 主要顯示的聊天界面
+    chat = gr.ChatInterface(
+        fn=respond,
+        title="DeepSeek-R1-Distill-Qwen-1.5B-openvino",
+        description="DeepSeek-R1-Distill-Qwen-1.5B-openvino 聊天接口"
+    )
+    # 隱藏的 API 接口（不在 UI 中呈現，但仍被註冊）
+    hidden_api = gr.Interface(
+        fn=maxtest,
+        inputs=gr.Textbox(label="Prompt"),
+        outputs="text",
+        api_name="/maxtest",
+        title="MaxTest API",
+        description="回傳輸入內容的測試 API",
+        visible=False  # 設為 False 使其不顯示在 UI 上
+    )
+    # 將隱藏 API 加入到 Blocks 中，但不作為 UI 呈現
+    demo.append(hidden_api)
 if __name__ == "__main__":
     print("Launching Gradio app...")
     demo.launch(server_name="0.0.0.0", server_port=7860, share=True)