Spaces:

UcsTurkey
/

test-oncu

Paused

App Files Files Community

ciyidogan commited on May 30

Commit

eb8847f

verified ·

1 Parent(s): c7a5eec

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -29

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import traceback
 from datetime import datetime
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 # === Ortam değişkenleri
 os.environ.setdefault("HF_HOME", "/app/.cache")
@@ -19,11 +19,12 @@ def log(message):
 # === FastAPI başlat
 app = FastAPI()
-pipe = None
 @app.on_event("startup")
 def load_model():
-    global pipe
     try:
         model_name = "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1"
         log(f"⬇️ Model yükleme başlatılıyor: {model_name}")
@@ -31,12 +32,11 @@ def load_model():
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
-            device_map="auto",
-            torch_dtype="auto"
         )
-        pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")
-        log("✅ Model ve pipeline başarıyla hazır.")
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
@@ -53,34 +53,34 @@ def generate(req: UserInputRequest):
         start_time = time.time()
         log(f"💬 Kullanıcı isteği alındı: {req.user_input}")
-        # Kısa ve net system prompt, okunabilir bölünmüş
-        concise_system_prompt = (
-            f"{req.system_prompt}\n"
-            "❗ Cevaplarını sadece aşağıdaki formatta döndür, fazladan açıklama yazma, örnek ekleme:\n"
-            "#ANSWER: <cevap>\n"
-            "#INTENT: <intent>\n"
-            "#PARAMS: {...}\n"
-            "#MISSING: [...]\n"
-            "#ACTION_JSON: {...}\n"
-            "Şimdi sadece kullanıcının sorusunu bekliyorsun ve formatlı cevap veriyorsun."
-        )
-        # Role separation: System, User, Assistant blokları
-        full_prompt = (
-            f"### System:\n{concise_system_prompt}\n\n"
-            f"### User:\n{req.user_input}\n\n"
-            f"### Assistant:"
-        )
-        result = pipe(
-            full_prompt,
             max_new_tokens=200,
             temperature=0.0,
             top_p=1.0,
-            repetition_penalty=1.0,
-            do_sample=False
         )
-        answer = result[0]["generated_text"]
         end_time = time.time()
         elapsed = end_time - start_time

 from datetime import datetime
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM
 # === Ortam değişkenleri
 os.environ.setdefault("HF_HOME", "/app/.cache")
 # === FastAPI başlat
 app = FastAPI()
+tokenizer = None
+model = None
 @app.on_event("startup")
 def load_model():
+    global tokenizer, model
     try:
         model_name = "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1"
         log(f"⬇️ Model yükleme başlatılıyor: {model_name}")
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
+            torch_dtype="auto",  # A100 için bf16
+            device_map="auto"
         )
+        log("✅ Model ve tokenizer başarıyla hazır.")
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
         start_time = time.time()
         log(f"💬 Kullanıcı isteği alındı: {req.user_input}")
+        messages = [
+            {"role": "system", "content": req.system_prompt},
+            {"role": "user", "content": req.user_input}
+        ]
+        input_ids = tokenizer.apply_chat_template(
+            messages,
+            add_generation_prompt=True,
+            return_tensors="pt"
+        ).to(model.device)
+        terminators = [
+            tokenizer.eos_token_id,
+            tokenizer.convert_tokens_to_ids("<|eot_id|>")
+        ]
+        outputs = model.generate(
+            input_ids,
             max_new_tokens=200,
+            eos_token_id=terminators,
+            do_sample=False,
             temperature=0.0,
             top_p=1.0,
+            repetition_penalty=1.0
         )
+        response = outputs[0][input_ids.shape[-1]:]
+        answer = tokenizer.decode(response, skip_special_tokens=True)
         end_time = time.time()
         elapsed = end_time - start_time