Spaces:

hsuwill000
/

DeepSeek-R1-Distill-Qwen-1.5B-openvino

Running

App Files Files Community

hsuwill000 commited on Feb 10

Commit

155b74f

verified ·

1 Parent(s): 094f0d1

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -33

app.py CHANGED Viewed

@@ -1,66 +1,65 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
 from optimum.intel import OVModelForCausalLM
-from transformers import AutoTokenizer, pipeline
-# 載入模型和標記器
 model_id = "hsuwill000/DeepSeek-R1-Distill-Qwen-1.5B-openvino"
 print("Loading model...")
 model = OVModelForCausalLM.from_pretrained(model_id, device_map="auto")
 print("Loading tokenizer...")
-tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True,)
-def maxtest(prompt):
-    return prompt
 def respond(prompt, history):
-    # 構建聊天模板
     messages = [
         {"role": "system", "content": "使用中文。"},
         {"role": "user", "content": prompt}
-    ]
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
-    print("Chat template text:", text)
-    # 將文本轉換為模型輸入
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    print("Model inputs:", model_inputs)
-    # 生成回應
     generated_ids = model.generate(
         **model_inputs,
         max_new_tokens=4096,
-        temperature=0.7,  # 降低隨機性
-        top_p=0.9,        # 限制生成的多樣性
-        do_sample=True    # 啟用採樣
     )
-    print("Generated IDs:", generated_ids)
-    # 解碼生成的 token IDs
     generated_ids = [
         output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
     ]
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    print("Decoded response:", response)
-    # **去除 `<think>` 及其他無用內容**
     response = response.replace("<think>", "**THINK**").replace("</think>", "**THINK**").strip()
-    # 返回回應
     return response
-# 設定 Gradio 的聊天界面
-demo = gr.ChatInterface(
-    fn=respond,
-    title="DeepSeek-R1-Distill-Qwen-1.5B-openvino",
-    description="DeepSeek-R1-Distill-Qwen-1.5B-openvino"
-)
 if __name__ == "__main__":
     print("Launching Gradio app...")
-    #demo.launch(server_name="0.0.0.0", server_port=7860)
     demo.launch(server_name="0.0.0.0", server_port=7860, share=True)

 import gradio as gr
+from transformers import AutoTokenizer
 from optimum.intel import OVModelForCausalLM
+# 模型與標記器載入（你的原始代碼）
 model_id = "hsuwill000/DeepSeek-R1-Distill-Qwen-1.5B-openvino"
 print("Loading model...")
 model = OVModelForCausalLM.from_pretrained(model_id, device_map="auto")
 print("Loading tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
 def respond(prompt, history):
     messages = [
         {"role": "system", "content": "使用中文。"},
         {"role": "user", "content": prompt}
+    ]
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
     generated_ids = model.generate(
         **model_inputs,
         max_new_tokens=4096,
+        temperature=0.7,
+        top_p=0.9,
+        do_sample=True
     )
     generated_ids = [
         output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
     ]
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
     response = response.replace("<think>", "**THINK**").replace("</think>", "**THINK**").strip()
     return response
+def maxtest(prompt):
+    return prompt
+# 使用 Blocks 同時建立聊天接口和 API 接口
+with gr.Blocks() as demo:
+    gr.Markdown("# DeepSeek-R1-Distill-Qwen-1.5B-openvino")
+    with gr.Tabs():
+        with gr.TabItem("聊天"):
+            chat = gr.ChatInterface(
+                fn=respond,
+                title="聊天介面",
+                description="DeepSeek-R1-Distill-Qwen-1.5B-openvino 聊天接口"
+            )
+        with gr.TabItem("MaxTest API"):
+            # 這個接口會被暴露為 /run/maxtest
+            api = gr.Interface(
+                fn=maxtest,
+                inputs=gr.Textbox(label="Prompt"),
+                outputs="text",
+                api_name="/maxtest",
+                title="MaxTest API",
+                description="回傳輸入內容的測試 API"
+            )
+            # 可以選擇將該接口放在單獨的 tab 內，也可以直接顯示
 if __name__ == "__main__":
     print("Launching Gradio app...")
+    # 啟動應用（如果你想使用 share=True 讓外網訪問也可加上該參數）
     demo.launch(server_name="0.0.0.0", server_port=7860, share=True)