Spaces:

hsuwill000
/

qwen3_test

Running

hsuwill000 commited on Jun 16

Commit

7c5f0ef

verified ·

1 Parent(s): 1e44aa5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import huggingface_hub as hf_hub
 import openvino_genai as ov_genai
 import gradio as gr
-import re
 # 下載模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
@@ -15,35 +14,37 @@ pipe = ov_genai.LLMPipeline(model_path, device)
 tokenizer = pipe.get_tokenizer()
 tokenizer.set_chat_template(tokenizer.chat_template)
-# 修改 generate_response 函數以支持流式輸出
 def generate_response(prompt):
     try:
         response = ""
-        tokens_per_sec = "N/A"  # 預設值
-        # 定義流式處理回呼函數
         def streamer(subword):
-            nonlocal response
-            response += subword  # 拼接輸出
-            print(subword, end='', flush=True)  # 日誌輸出到控制台以便即時檢查
             return ov_genai.StreamingStatus.RUNNING
-        # 啟動流式生成
         pipe.start_chat()
-        pipe.generate(prompt, streamer=streamer, max_new_tokens=100)
         pipe.finish_chat()
-        # 根據性能指標計算 tokens/sec
-        tokens_per_sec = f"{pipe.get_throughput():.2f}"
-        return tokens_per_sec, response
     except Exception as e:
         return "N/A", f"生成回應時發生錯誤：{e}"
-# 建立 Gradio 介面（保持不變）
 demo = gr.Interface(
     fn=generate_response,
-    inputs=gr.Textbox(lines=1, label="輸入提示 (Prompt)"),
     outputs=[
         gr.Textbox(label="tokens/sec"),
         gr.Textbox(label="回應")

 import huggingface_hub as hf_hub
 import openvino_genai as ov_genai
 import gradio as gr
 # 下載模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
 tokenizer = pipe.get_tokenizer()
 tokenizer.set_chat_template(tokenizer.chat_template)
+# 流式處理的 generate_response 函數
 def generate_response(prompt):
     try:
         response = ""
+        # 定義流式處理的回調函數
         def streamer(subword):
+            nonlocal response  # 引用外部變數 `response`
+            response += subword  # 拼接生成的輸出
+            print(subword, end='', flush=True)  # 輸出到控制台，便於觀察
             return ov_genai.StreamingStatus.RUNNING
+        # 使用流式生成
         pipe.start_chat()
+        generated = pipe.generate([prompt], streamer=streamer, max_length=1024)
         pipe.finish_chat()
+        # 計算每秒生成的 Tokens 數量
+        token_per_sec = f'{generated.perf_metrics.get_throughput().mean:.2f}'
+        # 返回性能指標和完整的生成結果
+        return token_per_sec, response
     except Exception as e:
+        # 錯誤處理
         return "N/A", f"生成回應時發生錯誤：{e}"
+# Gradio 介面（保持不變）
 demo = gr.Interface(
     fn=generate_response,
+    inputs=gr.Textbox(lines=5, label="輸入提示 (Prompt)"),
     outputs=[
         gr.Textbox(label="tokens/sec"),
         gr.Textbox(label="回應")