Spaces:

UcsTurkey
/

test-oncu

Paused

App Files Files Community

ciyidogan commited on May 30

Commit

8687d10

verified ·

1 Parent(s): 6f0b2c8

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -9

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import traceback
 from datetime import datetime
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
-from transformers import AutoTokenizer, AutoModelForCausalLM
 from contextlib import asynccontextmanager
 # === Ortam değişkenleri
@@ -33,13 +33,18 @@ async def lifespan(app: FastAPI):
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         tokenizer.pad_token = tokenizer.eos_token
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
             device_map="auto",
-            load_in_8bit=True  # ✅ 8-bit quantization
         )
-        log("✅ Model ve tokenizer başarıyla hazır (8-bit quantized).")
         yield  # Uygulama burada çalışır
     except Exception as e:
@@ -57,19 +62,22 @@ class UserInputRequest(BaseModel):
 @app.post("/generate")
 def generate(req: UserInputRequest):
     try:
-        start_time = time.time()
         log(f"💬 Kullanıcı isteği alındı: {req.user_input}")
         messages = [
             {"role": "system", "content": req.system_prompt},
             {"role": "user", "content": req.user_input}
         ]
         chat_input = tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
             return_tensors="pt"
         ).to(model.device)
         input_len = chat_input.shape[-1]
         total_ctx = model.config.max_position_embeddings if hasattr(model.config, 'max_position_embeddings') else 4096
@@ -77,23 +85,30 @@ def generate(req: UserInputRequest):
         log(f"ℹ️ Input uzunluğu: {input_len}, max_new_tokens ayarlandı: {max_new_tokens}")
         terminators = [
             tokenizer.eos_token_id,
             tokenizer.convert_tokens_to_ids("<|eot_id|>") if "<|eot_id|>" in tokenizer.get_vocab() else tokenizer.eos_token_id
         ]
         outputs = model.generate(
             input_ids=chat_input,
             max_new_tokens=max_new_tokens,
             eos_token_id=terminators
         )
         response = outputs[0][input_len:]
         answer = tokenizer.decode(response, skip_special_tokens=True)
-        end_time = time.time()
-        elapsed = end_time - start_time
-        log(f"✅ Yanıt süresi: {elapsed:.2f} saniye")
         return {"response": answer}

 from datetime import datetime
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from contextlib import asynccontextmanager
 # === Ortam değişkenleri
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         tokenizer.pad_token = tokenizer.eos_token
+        quant_config = BitsAndBytesConfig(
+            load_in_8bit=True,  # ✅ 8-bit quantization (modern yöntem)
+            llm_int8_threshold=6.0
+        )
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
             device_map="auto",
+            quantization_config=quant_config
         )
+        log("✅ Model ve tokenizer başarıyla hazır (8-bit quantized, BitsAndBytesConfig).")
         yield  # Uygulama burada çalışır
     except Exception as e:
 @app.post("/generate")
 def generate(req: UserInputRequest):
     try:
+        overall_start = time.time()
         log(f"💬 Kullanıcı isteği alındı: {req.user_input}")
+        # === Apply chat template
+        t0 = time.time()
         messages = [
             {"role": "system", "content": req.system_prompt},
             {"role": "user", "content": req.user_input}
         ]
         chat_input = tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
             return_tensors="pt"
         ).to(model.device)
+        t1 = time.time()
+        log(f"⏱️ apply_chat_template süresi: {t1 - t0:.2f} saniye")
         input_len = chat_input.shape[-1]
         total_ctx = model.config.max_position_embeddings if hasattr(model.config, 'max_position_embeddings') else 4096
         log(f"ℹ️ Input uzunluğu: {input_len}, max_new_tokens ayarlandı: {max_new_tokens}")
+        # === Generate
+        t2 = time.time()
         terminators = [
             tokenizer.eos_token_id,
             tokenizer.convert_tokens_to_ids("<|eot_id|>") if "<|eot_id|>" in tokenizer.get_vocab() else tokenizer.eos_token_id
         ]
         outputs = model.generate(
             input_ids=chat_input,
             max_new_tokens=max_new_tokens,
             eos_token_id=terminators
         )
+        t3 = time.time()
+        log(f"⏱️ generate süresi: {t3 - t2:.2f} saniye")
+        # === Decode
+        t4 = time.time()
         response = outputs[0][input_len:]
         answer = tokenizer.decode(response, skip_special_tokens=True)
+        t5 = time.time()
+        log(f"⏱️ decode süresi: {t5 - t4:.2f} saniye")
+        overall_end = time.time()
+        overall_elapsed = overall_end - overall_start
+        log(f"✅ Toplam yanıt süresi: {overall_elapsed:.2f} saniye")
         return {"response": answer}