Spaces:

hsuwill000
/

qwen3_test

Running

App Files Files Community

hsuwill000 commited on Jun 26

Commit

058ff15

verified ·

1 Parent(s): 82fc211

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -38

app.py CHANGED Viewed

@@ -7,29 +7,12 @@ import gradio as gr
 import re
 import gc
-# 下載模型
-# 修正 download 路徑使用
-model_ids = [
-    "OpenVINO/Qwen3-0.6B-int4-ov",
-    "OpenVINO/Qwen3-1.7B-int4-ov",
-    "OpenVINO/Qwen3-8B-int4-ov",
-    "OpenVINO/Qwen3-14B-int4-ov",
-]
-model_name_to_full_id = {model_id.split("/")[-1]: model_id for model_id in model_ids}
-for model_id in model_ids:
-    model_path = model_id.split("/")[-1]
-    try:
-        hf_hub.snapshot_download(repo_id=model_id, local_dir=model_path, local_dir_use_symlinks=False)
-        print(f"Downloaded {model_id} to {model_path}")
-    except Exception as e:
-        print(f"Download error: {e}")
 # 初始化模型
 device = "CPU"
-InUsed_model_name = "Qwen3-0.6B-int4-ov"
 model_path = f"./{InUsed_model_name}"  # 加上目錄路徑
 pipe = ov_genai.LLMPipeline(model_path, device)
 tokenizer = pipe.get_tokenizer()
@@ -37,23 +20,14 @@ config = ov_genai.GenerationConfig(max_new_tokens=4096)
 # 推理函式
 def generate_response(prompt, model_name):
-    global pipe, tokenizer, InUsed_model_name
-    if InUsed_model_name != model_name:
-        del pipe
-        gc.collect()
-        model_path = f"./{model_name}"  # 指定正確本機資料夾
-        pipe = ov_genai.LLMPipeline(model_path, device)
-        tokenizer = pipe.get_tokenizer()
-        InUsed_model_name = model_name
-    try:
-        generated = pipe.generate([prompt], config, streamer)
-        tokenpersec = f'{generated.perf_metrics.get_throughput().mean:.2f}'
-        print(f"\nModel:{model_name} TPS:{tokenpersec}\n")
-        return tokenpersec, generated.text
-    except Exception as e:
-        return "錯誤", f"生成失敗：{e}"
 # 建立 Gradio 介面
 model_choices = list(model_name_to_full_id.keys())
@@ -61,8 +35,7 @@ model_choices = list(model_name_to_full_id.keys())
 demo = gr.Interface(
     fn=generate_response,
     inputs=[
-        gr.Textbox(lines=5, label="輸入提示 (Prompt)"),
-        gr.Dropdown(choices=model_choices, value=InUsed_model_name, label="選擇模型") # Added dropdown
     ],
     outputs=[
         gr.Textbox(label="tokens/sec"),

 import re
 import gc
+hf_hub.snapshot_download(repo_id="hsuwill000/Llama-3.1-TAIDE-LX-8B-Chat_int4_ov", local_dir="ov", local_dir_use_symlinks=False)
 # 初始化模型
 device = "CPU"
+InUsed_model_name = "ov"
 model_path = f"./{InUsed_model_name}"  # 加上目錄路徑
 pipe = ov_genai.LLMPipeline(model_path, device)
 tokenizer = pipe.get_tokenizer()
 # 推理函式
 def generate_response(prompt, model_name):
+    global pipe, tokenizer
+    pipe = ov_genai.LLMPipeline("ov", device)
+    tokenizer = pipe.get_tokenizer()
+    generated = pipe.generate([prompt], config, streamer)
+    tokenpersec = f'{generated.perf_metrics.get_throughput().mean:.2f}'
+    print(f"\nModel:{model_name} TPS:{tokenpersec}\n")
+    return tokenpersec, generated.text
 # 建立 Gradio 介面
 model_choices = list(model_name_to_full_id.keys())
 demo = gr.Interface(
     fn=generate_response,
     inputs=[
+        gr.Textbox(lines=5, label="輸入提示 (Prompt)")
     ],
     outputs=[
         gr.Textbox(label="tokens/sec"),