Spaces:

omaryasserhassan
/

qwen-planner-api

Sleeping

App Files Files Community

omaryasserhassan commited on 15 days ago

Commit

e8ed38e

verified ·

1 Parent(s): 5c64481

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -12

app.py CHANGED Viewed

@@ -4,19 +4,23 @@ from pydantic import BaseModel
 from huggingface_hub import snapshot_download
 from llama_cpp import Llama
-# ---- Writable cache/weights dirs (HF Spaces) ----
-DATA_DIR = os.getenv("DATA_DIR", "/data")
-HF_HOME = os.path.join(DATA_DIR, "hf")
 os.environ["HF_HOME"] = HF_HOME
-os.environ["HF_HUB_CACHE"] = os.path.join(HF_HOME, "cache")
-os.makedirs(DATA_DIR, exist_ok=True)
-# ---- Model selection (can override in Settings → Variables) ----
 MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-3B-Instruct-GGUF")
 MODEL_FILE = os.getenv("MODEL_FILE", "qwen2.5-3b-instruct-q4_k_m.gguf")
-# Inference knobs (tune if memory tight)
-N_CTX  = int(os.getenv("N_CTX", 2048))
 N_BATCH = int(os.getenv("N_BATCH", 64))
 N_THREADS = os.cpu_count() or 2
@@ -26,18 +30,16 @@ llm = None
 model_loaded = False
 def ensure_model():
-    """Lazy-load the model into /data so server starts instantly."""
     global llm, model_loaded
     if llm is not None:
         return
     local_dir = snapshot_download(
         repo_id=MODEL_REPO,
         allow_patterns=[MODEL_FILE],
-        local_dir=os.path.join(DATA_DIR, "models"),
         local_dir_use_symlinks=False,
     )
     model_path = os.path.join(local_dir, MODEL_FILE)
-    # Load GGUF with llama.cpp
     llm = Llama(
         model_path=model_path,
         n_ctx=N_CTX,
@@ -58,7 +60,7 @@ class ChatReq(BaseModel):
 @app.post("/chat")
 def chat(req: ChatReq):
-    ensure_model()  # loads on first request
     full_prompt = f"<|system|>\n{SYSTEM_PROMPT}\n</|system|>\n<|user|>\n{req.prompt}\n</|user|>\n"
     out = llm(prompt=full_prompt, temperature=0.2, top_p=0.9, max_tokens=256, stop=["</s>"])
     return {"response": out["choices"][0]["text"].strip()}

 from huggingface_hub import snapshot_download
 from llama_cpp import Llama
+# -------- Writable cache/weights dirs (HF Docker Spaces) --------
+HOME = os.path.expanduser("~") or "/home/user"
+BASE_DIR = os.getenv("SPACE_CACHE_DIR", os.path.join(HOME, ".cache"))
+HF_HOME = os.path.join(BASE_DIR, "huggingface")
+MODELS_DIR = os.path.join(BASE_DIR, "models")
 os.environ["HF_HOME"] = HF_HOME
+os.environ["HF_HUB_CACHE"] = os.path.join(HF_HOME, "hub")
+os.makedirs(HF_HOME, exist_ok=True)
+os.makedirs(MODELS_DIR, exist_ok=True)
+# ---- Model selection (override in Settings → Variables if needed) ----
 MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-3B-Instruct-GGUF")
 MODEL_FILE = os.getenv("MODEL_FILE", "qwen2.5-3b-instruct-q4_k_m.gguf")
+# Inference knobs
+N_CTX   = int(os.getenv("N_CTX", 2048))
 N_BATCH = int(os.getenv("N_BATCH", 64))
 N_THREADS = os.cpu_count() or 2
 model_loaded = False
 def ensure_model():
     global llm, model_loaded
     if llm is not None:
         return
     local_dir = snapshot_download(
         repo_id=MODEL_REPO,
         allow_patterns=[MODEL_FILE],
+        local_dir=MODELS_DIR,
         local_dir_use_symlinks=False,
     )
     model_path = os.path.join(local_dir, MODEL_FILE)
     llm = Llama(
         model_path=model_path,
         n_ctx=N_CTX,
 @app.post("/chat")
 def chat(req: ChatReq):
+    ensure_model()  # lazy load on first call
     full_prompt = f"<|system|>\n{SYSTEM_PROMPT}\n</|system|>\n<|user|>\n{req.prompt}\n</|user|>\n"
     out = llm(prompt=full_prompt, temperature=0.2, top_p=0.9, max_tokens=256, stop=["</s>"])
     return {"response": out["choices"][0]["text"].strip()}