Spaces:

hsuwill000
/

maxtest01

Running

App Files Files Community

hsuwill000 commited on Jun 30

Commit

6bda22b

verified ·

1 Parent(s): 1353c4b

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -58

app.py CHANGED Viewed

@@ -1,86 +1,52 @@
-import huggingface_hub as hf_hub
 import gradio as gr
 import openvino_genai as ov_genai
 import time
-# 載入 OpenVINO 模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
 model_path = "Qwen3-0.6B-int4-ov"
 hf_hub.snapshot_download(model_id, local_dir=model_path)
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.start_chat()
-# 這個會在 token 產生時被呼叫
-def build_streamer(callback):
-    def streamer(subword):
-        callback(subword)
-        return ov_genai.StreamingStatus.RUNNING
-    return streamer
-# 對話處理函式
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
     prompt = system_message + "\n"
     for user_msg, bot_msg in history:
         prompt += f"<|user|>\n{user_msg}\n<|assistant|>\n{bot_msg}\n"
     prompt += f"<|user|>\n{message}\n<|assistant|>\n"
-    response = ""
-    # 使用 generator 包裝 streamer
-    def generator():
-        nonlocal response
-        start_time = time.time()
-        def collect_output(subword):
-            nonlocal response
-            response += subword
-            yield_fn.send(subword)  # 把 token 傳給外部 generator
-        yield_fn = yield  # 讓第一個 yield 傳入收集函式
-        # 執行生成
-        gen_result = pipe.generate(
             [prompt],
-            streamer=build_streamer(collect_output),
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p
         )
-        elapsed = time.time() - start_time
-        tps = gen_result.perf_metrics.get_throughput().mean
-        print(f"\n--- TPS --- {tps:.2f} tokens/s --- {elapsed:.2f} sec")
-        yield_fn.close()  # 關閉 generator
-    # 建立 streaming generator
-    def streaming_generator():
-        gen = generator()
-        try:
-            next(gen)  # 啟動 generator
-            while True:
-                token = (yield)
-                gen.send(token)
-                yield token
-        except StopIteration:
-            return
-    # Streaming to Gradio
-    stream = streaming_generator()
-    next(stream)  # 啟動 stream
-    for token in stream:
-        yield response
-# 建立 Gradio Chat Interface
 demo = gr.ChatInterface(
-    respond,
     additional_inputs=[
         gr.Textbox(value="You are a helpful assistant.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),

 import gradio as gr
 import openvino_genai as ov_genai
+import threading
+import queue
 import time
+# 初始化 OpenVINO 模型
 model_id = "OpenVINO/Qwen3-0.6B-int4-ov"
 model_path = "Qwen3-0.6B-int4-ov"
 hf_hub.snapshot_download(model_id, local_dir=model_path)
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.start_chat()
+def respond(message, history, system_message, max_tokens, temperature, top_p):
     prompt = system_message + "\n"
     for user_msg, bot_msg in history:
         prompt += f"<|user|>\n{user_msg}\n<|assistant|>\n{bot_msg}\n"
     prompt += f"<|user|>\n{message}\n<|assistant|>\n"
+    # 使用 Queue 與 Thread 進行串流
+    q = queue.Queue()
+    def streamer(subword):
+        q.put(subword)
+        return ov_genai.StreamingStatus.RUNNING
+    def worker():
+        pipe.generate(
             [prompt],
+            streamer=streamer,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p
         )
+        q.put(None)  # 標記結束
+    threading.Thread(target=worker).start()
+    response = ""
+    while True:
+        token = q.get()
+        if token is None:
+            break
+        response += token
+        yield response  # Gradio 逐步回傳給 UI
+# Gradio 介面
 demo = gr.ChatInterface(
+    fn=respond,
     additional_inputs=[
         gr.Textbox(value="You are a helpful assistant.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),