Spaces:

AlphaPhoenix
/

MATRIX

Sleeping

App Files Files Community

laserbeam2045 commited on May 4

Commit

9736832

1 Parent(s): a9bf179

fix

Browse files

Files changed (2) hide show

app.py +27 -21
requirements.txt +0 -2

app.py CHANGED Viewed

@@ -9,37 +9,44 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 # 設定
 # -----------------------------------------------------------------------------
 MODEL_ID = "google/gemma-3-4b-it"
-# Hugging Face token が必要な場合は環境変数 HUGGINGFACE_TOKEN をセット
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 # -----------------------------------------------------------------------------
-# デバイス設定（Spaces の無料枠では CPU のみです）
 # -----------------------------------------------------------------------------
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # -----------------------------------------------------------------------------
-# トークナイザーとモデルのロード
 # -----------------------------------------------------------------------------
-tokenizer = AutoTokenizer.from_pretrained(
     MODEL_ID,
     token=HF_TOKEN,
     trust_remote_code=True,
     torch_dtype=torch.float32,
     low_cpu_mem_usage=True
-)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    token=HF_TOKEN,
-    torch_dtype=torch.float32,    # CPU 環境では float32
-    device_map="auto" if torch.cuda.is_available() else None
 )
-model.to(device)
 # -----------------------------------------------------------------------------
-# FastAPI 定義
 # -----------------------------------------------------------------------------
-app = FastAPI(title="Gemma3-4B-IT API")
 class GenerationRequest(BaseModel):
     prompt: str
@@ -50,16 +57,15 @@ class GenerationRequest(BaseModel):
 @app.post("/generate")
 async def generate(req: GenerationRequest):
     if not req.prompt:
-        raise HTTPException(status_code=400, detail="prompt は必須です。")
-    # トークナイズ
     inputs = tokenizer(
         req.prompt,
         return_tensors="pt",
-        padding=True,
         truncation=True,
-    ).to(device)
-    # 生成
-    generation_output = model.generate(
         **inputs,
         max_new_tokens=req.max_new_tokens,
         temperature=req.temperature,
@@ -67,7 +73,7 @@ async def generate(req: GenerationRequest):
         do_sample=True,
         pad_token_id=tokenizer.eos_token_id
     )
-    text = tokenizer.decode(generation_output[0], skip_special_tokens=True)
     return {"generated_text": text}
 # -----------------------------------------------------------------------------

 # 設定
 # -----------------------------------------------------------------------------
 MODEL_ID = "google/gemma-3-4b-it"
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
+DEVICE   = torch.device("cpu")  # 無料枠は CPU のみ
 # -----------------------------------------------------------------------------
+# トークナイザーのロード
 # -----------------------------------------------------------------------------
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_ID,
+    token=HF_TOKEN,
+    trust_remote_code=True
+)
 # -----------------------------------------------------------------------------
+# モデルのロード＋低メモリモード
 # -----------------------------------------------------------------------------
+model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     token=HF_TOKEN,
     trust_remote_code=True,
     torch_dtype=torch.float32,
     low_cpu_mem_usage=True
+).to(DEVICE)
+# -----------------------------------------------------------------------------
+# 動的量子化の適用
+# -----------------------------------------------------------------------------
+# - {torch.nn.Linear} を INT8 化
+# - dtype=torch.qint8 で重みのみ量子化
+model = torch.quantization.quantize_dynamic(
+    model,
+    {torch.nn.Linear},
+    dtype=torch.qint8
 )
 # -----------------------------------------------------------------------------
+# FastAPI サーバー定義
 # -----------------------------------------------------------------------------
+app = FastAPI(title="Gemma3-4B-IT with Dynamic Quantization")
 class GenerationRequest(BaseModel):
     prompt: str
 @app.post("/generate")
 async def generate(req: GenerationRequest):
     if not req.prompt:
+        raise HTTPException(status_code=400, detail="`prompt` は必須です。")
+    # トークナイズして推論
     inputs = tokenizer(
         req.prompt,
         return_tensors="pt",
         truncation=True,
+        padding=True
+    ).to(DEVICE)
+    output_ids = model.generate(
         **inputs,
         max_new_tokens=req.max_new_tokens,
         temperature=req.temperature,
         do_sample=True,
         pad_token_id=tokenizer.eos_token_id
     )
+    text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     return {"generated_text": text}
 # -----------------------------------------------------------------------------

requirements.txt CHANGED Viewed

@@ -2,5 +2,3 @@ fastapi
 uvicorn[standard]
 transformers>=4.50.0.dev0
 torch
-accelerate>=0.9.0
-safetensors

 uvicorn[standard]
 transformers>=4.50.0.dev0
 torch