Spaces:

yzhuang
/

MixtureOfInputs

Sleeping

yzhuang commited on May 22

Commit

9bb13ea

verified ·

1 Parent(s): 81f72df

Update server.py

Files changed (1) hide show

server.py CHANGED Viewed

@@ -20,8 +20,8 @@ def launch_vllm_server(beta=1.0):
         "Qwen/Qwen3-4B",
         "--tensor-parallel-size", "1",
         "--enforce-eager",
-        "--max-model-len", "2048",
-        "--max-seq-len-to-capture", "2048",
         "--max-num-seqs", "36",
         "--host", "0.0.0.0",
         "--port", "8000",

         "Qwen/Qwen3-4B",
         "--tensor-parallel-size", "1",
         "--enforce-eager",
+        "--max-model-len", "4096",
+        "--max-seq-len-to-capture", "4096",
         "--max-num-seqs", "36",
         "--host", "0.0.0.0",
         "--port", "8000",