Spaces:

hsuwill000
/

maxtest01

Running

App Files Files Community

hsuwill000 commited on Jun 30

Commit

d45acbf

verified ·

1 Parent(s): 5ae289b

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -33

app.py CHANGED Viewed

@@ -1,24 +1,20 @@
 import gradio as gr
 import openvino_genai as ov_genai
 import huggingface_hub as hf_hub
-import threading
 import queue
 import time
 # 初始化 OpenVINO 模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
 model_path = "Qwen3-0.6B-int4-ov"
 hf_hub.snapshot_download(model_id, local_dir=model_path)
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.start_chat()
-def respond(message, history, system_message, max_tokens, temperature, top_p):
-    prompt = system_message + "\n"
-    for user_msg, bot_msg in history:
-        prompt += f"<|user|>\n{user_msg}\n<|assistant|>\n{bot_msg}\n"
-    prompt += f"<|user|>\n{message}\n<|assistant|>\n"
-    # 使用 Queue 與 Thread 進行串流
     q = queue.Queue()
     def streamer(subword):
@@ -26,35 +22,31 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
         return ov_genai.StreamingStatus.RUNNING
     def worker():
-        pipe.generate(
-            [prompt],
-            streamer=streamer,
-            max_new_tokens=max_tokens,
-            temperature=temperature,
-            top_p=top_p
-        )
-        q.put(None)  # 標記結束
     threading.Thread(target=worker).start()
-    response = ""
     while True:
         token = q.get()
         if token is None:
             break
-        response += token
-        yield response  # Gradio 逐步回傳給 UI
-# Gradio 介面
-demo = gr.ChatInterface(
-    fn=respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a helpful assistant.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
-    ],
-)
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 import openvino_genai as ov_genai
 import huggingface_hub as hf_hub
 import queue
+import threading
 import time
 # 初始化 OpenVINO 模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
 model_path = "Qwen3-0.6B-int4-ov"
 hf_hub.snapshot_download(model_id, local_dir=model_path)
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.start_chat()
+# 建立推論函式：使用 streamer 並回傳 generator 結果
+def generate_stream(prompt):
     q = queue.Queue()
     def streamer(subword):
         return ov_genai.StreamingStatus.RUNNING
     def worker():
+        # 在背景 thread 中做推論
+        pipe.generate([prompt], streamer=streamer, max_new_tokens=512)
+        q.put(None)  # 結束符號
     threading.Thread(target=worker).start()
+    result = ""
     while True:
         token = q.get()
         if token is None:
             break
+        result += token
+        yield result  # 把逐步結果傳給 output textbox
+with gr.Blocks() as demo:
+    gr.Markdown("## 🧠 OpenVINO Streaming Demo with Gradio Textbox")
+    textbox_input = gr.Textbox(label="Prompt", lines=3, placeholder="Enter prompt here...")
+    textbox_output = gr.Textbox(label="Output", lines=10)
+    # 按鈕控制觸發推論
+    button = gr.Button("Submit")
+    # 當按鈕被按下時，呼叫 generate_stream 並更新 textbox_output
+    button.click(fn=generate_stream, inputs=textbox_input, outputs=textbox_output)
+demo.launch()