Update app.py
Browse files
app.py
CHANGED
@@ -58,12 +58,13 @@ async def generate(request: Request):
|
|
58 |
try:
|
59 |
log("🧩 Input preparation başlatılıyor...")
|
60 |
prep_start = time.time()
|
61 |
-
|
62 |
messages,
|
63 |
add_generation_prompt=True,
|
64 |
return_tensors="pt"
|
65 |
).to(model.device)
|
66 |
-
|
|
|
67 |
|
68 |
terminators = [
|
69 |
tokenizer.eos_token_id,
|
@@ -73,7 +74,8 @@ async def generate(request: Request):
|
|
73 |
log("🧠 Generate çağrısı başlatılıyor...")
|
74 |
gen_start = time.time()
|
75 |
outputs = model.generate(
|
76 |
-
|
|
|
77 |
max_new_tokens=256,
|
78 |
eos_token_id=terminators,
|
79 |
do_sample=True,
|
@@ -82,7 +84,7 @@ async def generate(request: Request):
|
|
82 |
)
|
83 |
log(f"✅ Generate tamamlandı. Süre: {time.time() - gen_start:.2f} sn")
|
84 |
|
85 |
-
response = outputs[0][
|
86 |
decoded_output = tokenizer.decode(response, skip_special_tokens=True)
|
87 |
log("✅ Cevap başarıyla decode edildi.")
|
88 |
return {"response": decoded_output}
|
|
|
58 |
try:
|
59 |
log("🧩 Input preparation başlatılıyor...")
|
60 |
prep_start = time.time()
|
61 |
+
inputs = tokenizer.apply_chat_template(
|
62 |
messages,
|
63 |
add_generation_prompt=True,
|
64 |
return_tensors="pt"
|
65 |
).to(model.device)
|
66 |
+
attention_mask = torch.ones(inputs.shape, dtype=torch.long, device=model.device)
|
67 |
+
log(f"✅ Input ve attention mask hazırlandı. Süre: {time.time() - prep_start:.2f} sn")
|
68 |
|
69 |
terminators = [
|
70 |
tokenizer.eos_token_id,
|
|
|
74 |
log("🧠 Generate çağrısı başlatılıyor...")
|
75 |
gen_start = time.time()
|
76 |
outputs = model.generate(
|
77 |
+
inputs,
|
78 |
+
attention_mask=attention_mask,
|
79 |
max_new_tokens=256,
|
80 |
eos_token_id=terminators,
|
81 |
do_sample=True,
|
|
|
84 |
)
|
85 |
log(f"✅ Generate tamamlandı. Süre: {time.time() - gen_start:.2f} sn")
|
86 |
|
87 |
+
response = outputs[0][inputs.shape[-1]:]
|
88 |
decoded_output = tokenizer.decode(response, skip_special_tokens=True)
|
89 |
log("✅ Cevap başarıyla decode edildi.")
|
90 |
return {"response": decoded_output}
|