Spaces:

UcsTurkey
/

test-oncu

Paused

App Files Files Community

ciyidogan commited on May 30

Commit

e68dc63

verified ·

1 Parent(s): 8687d10

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -13

app.py CHANGED Viewed

@@ -34,7 +34,7 @@ async def lifespan(app: FastAPI):
         tokenizer.pad_token = tokenizer.eos_token
         quant_config = BitsAndBytesConfig(
-            load_in_8bit=True,  # ✅ 8-bit quantization (modern yöntem)
             llm_int8_threshold=6.0
         )
@@ -45,7 +45,7 @@ async def lifespan(app: FastAPI):
         )
         log("✅ Model ve tokenizer başarıyla hazır (8-bit quantized, BitsAndBytesConfig).")
-        yield  # Uygulama burada çalışır
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
@@ -71,40 +71,53 @@ def generate(req: UserInputRequest):
             {"role": "system", "content": req.system_prompt},
             {"role": "user", "content": req.user_input}
         ]
-        chat_input = tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
-            return_tensors="pt"
-        ).to(model.device)
         t1 = time.time()
         log(f"⏱️ apply_chat_template süresi: {t1 - t0:.2f} saniye")
-        input_len = chat_input.shape[-1]
         total_ctx = model.config.max_position_embeddings if hasattr(model.config, 'max_position_embeddings') else 4096
         max_new_tokens = min(512, max(1, total_ctx - input_len))
         log(f"ℹ️ Input uzunluğu: {input_len}, max_new_tokens ayarlandı: {max_new_tokens}")
         # === Generate
-        t2 = time.time()
         terminators = [
             tokenizer.eos_token_id,
             tokenizer.convert_tokens_to_ids("<|eot_id|>") if "<|eot_id|>" in tokenizer.get_vocab() else tokenizer.eos_token_id
         ]
         outputs = model.generate(
-            input_ids=chat_input,
             max_new_tokens=max_new_tokens,
             eos_token_id=terminators
         )
-        t3 = time.time()
-        log(f"⏱️ generate süresi: {t3 - t2:.2f} saniye")
         # === Decode
-        t4 = time.time()
         response = outputs[0][input_len:]
         answer = tokenizer.decode(response, skip_special_tokens=True)
-        t5 = time.time()
-        log(f"⏱️ decode süresi: {t5 - t4:.2f} saniye")
         overall_end = time.time()
         overall_elapsed = overall_end - overall_start

         tokenizer.pad_token = tokenizer.eos_token
         quant_config = BitsAndBytesConfig(
+            load_in_8bit=True,  # ✅ 8-bit quantization (modern BitsAndBytesConfig)
             llm_int8_threshold=6.0
         )
         )
         log("✅ Model ve tokenizer başarıyla hazır (8-bit quantized, BitsAndBytesConfig).")
+        yield
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
             {"role": "system", "content": req.system_prompt},
             {"role": "user", "content": req.user_input}
         ]
+        chat_template_str = tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
+            return_tensors=None
+        )
         t1 = time.time()
         log(f"⏱️ apply_chat_template süresi: {t1 - t0:.2f} saniye")
+        # === Tokenizer ile input_ids + attention_mask hazırla
+        t2 = time.time()
+        tokenized_inputs = tokenizer(
+            chat_template_str,
+            return_tensors="pt",
+            padding=True
+        ).to(model.device)
+        input_ids = tokenized_inputs['input_ids']
+        attention_mask = tokenized_inputs['attention_mask']
+        t3 = time.time()
+        log(f"⏱️ tokenize süresi: {t3 - t2:.2f} saniye")
+        input_len = input_ids.shape[-1]
         total_ctx = model.config.max_position_embeddings if hasattr(model.config, 'max_position_embeddings') else 4096
         max_new_tokens = min(512, max(1, total_ctx - input_len))
         log(f"ℹ️ Input uzunluğu: {input_len}, max_new_tokens ayarlandı: {max_new_tokens}")
         # === Generate
+        t4 = time.time()
         terminators = [
             tokenizer.eos_token_id,
             tokenizer.convert_tokens_to_ids("<|eot_id|>") if "<|eot_id|>" in tokenizer.get_vocab() else tokenizer.eos_token_id
         ]
         outputs = model.generate(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
             max_new_tokens=max_new_tokens,
             eos_token_id=terminators
         )
+        t5 = time.time()
+        log(f"⏱️ generate süresi: {t5 - t4:.2f} saniye")
         # === Decode
+        t6 = time.time()
         response = outputs[0][input_len:]
         answer = tokenizer.decode(response, skip_special_tokens=True)
+        t7 = time.time()
+        log(f"⏱️ decode süresi: {t7 - t6:.2f} saniye")
         overall_end = time.time()
         overall_elapsed = overall_end - overall_start