Spaces:

UcsTurkey
/

fine-tune-inference-test

Paused

App Files Files Community

ciyidogan commited on May 14

Commit

2149bc7

verified ·

1 Parent(s): 174b70a

Update fine_tune_inference_test.py

Browse files

Files changed (1) hide show

fine_tune_inference_test.py +44 -51

fine_tune_inference_test.py CHANGED Viewed

@@ -5,7 +5,6 @@ from fastapi import FastAPI
 from fastapi.responses import HTMLResponse, JSONResponse
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM
-from datasets import load_dataset
 from peft import PeftModel
 import torch
 from huggingface_hub import hf_hub_download
@@ -13,14 +12,21 @@ import zipfile
 from datetime import datetime
 import random
 # ✅ Sabitler
 HF_TOKEN = os.environ.get("HF_TOKEN")
 MODEL_BASE = "UcsTurkey/kanarya-750m-fixed"
 FINE_TUNE_ZIP = "trained_model_002_005.zip"
 FINE_TUNE_REPO = "UcsTurkey/trained-zips"
-RAG_DATA_FILE = "merged_dataset_000_100.parquet"
-RAG_DATA_REPO = "UcsTurkey/turkish-general-culture-tokenized"
-USE_RAG = False
 CONFIDENCE_THRESHOLD = -1.5
 FALLBACK_ANSWERS = [
     "Bu konuda maalesef bilgim yok.",
@@ -28,20 +34,14 @@ FALLBACK_ANSWERS = [
     "Bu soruya şu an yanıt veremiyorum."
 ]
-class Message(BaseModel):
-    user_input: str
-# ✅ Zamanlı log fonksiyonu (flush destekli)
-def log(message):
-    timestamp = datetime.now().strftime("%H:%M:%S")
-    print(f"[{timestamp}] {message}")
-    os.sys.stdout.flush()
 app = FastAPI()
 chat_history = []
 model = None
 tokenizer = None
 def detect_environment():
     device = "cuda" if torch.cuda.is_available() else "cpu"
     supports_bfloat16 = False
@@ -87,7 +87,7 @@ def root():
     <html>
     <head><title>Fine-Tune Chat</title></head>
     <body>
-        <h2>\U0001f4d8 Fine-tune Chat Test</h2>
         <textarea id=\"input\" rows=\"4\" cols=\"60\" placeholder=\"Bir şeyler yaz...\"></textarea><br><br>
         <button onclick=\"send()\">Gönder</button>
         <pre id=\"output\"></pre>
@@ -110,10 +110,10 @@ def root():
 @app.post("/chat")
 def chat(msg: Message):
     try:
-        log(f"\U0001f4e6 Kullanıcı mesajı alındı: {msg}")
         global model, tokenizer
         if model is None or tokenizer is None:
-            log("\u274c Hata: Model henüz yüklenmedi.")
             return {"error": "Model yüklenmedi. Lütfen birkaç saniye sonra tekrar deneyin."}
         user_input = msg.user_input.strip()
@@ -121,13 +121,13 @@ def chat(msg: Message):
             return {"error": "Boş giriş"}
         full_prompt = f"SORU: {user_input}\nCEVAP:"
-        log(f"\U0001f4e8 Prompt: {full_prompt}")
         inputs = tokenizer(full_prompt, return_tensors="pt")
         inputs = {k: v.to(model.device) for k, v in inputs.items()}
-        log(f"\U0001f522 Tokenizer input_ids: {inputs['input_ids']}")
-        log(f"\U0001f4cf input shape: {inputs['input_ids'].shape}")
         try:
             with torch.no_grad():
@@ -143,10 +143,10 @@ def chat(msg: Message):
                     suppress_tokens=[tokenizer.pad_token_id] if tokenizer.pad_token_id is not None else None
                 )
         except Exception as e:
-            log("\u274c generate() sırasında istisna oluştu, input dump ediliyor...")
-            log(f"\u274c input_ids: {inputs['input_ids']}")
-            log(f"\u274c attention_mask: {inputs.get('attention_mask', 'yok')}")
-            log(f"\u274c Hata tipi: {type(e).__name__} → {e}")
             fallback = random.choice(FALLBACK_ANSWERS)
             return {"answer": fallback, "chat_history": chat_history}
@@ -157,30 +157,29 @@ def chat(msg: Message):
         if output.scores and len(output.scores) > 0:
             first_token_logit = output.scores[0][0]
             if torch.isnan(first_token_logit).any() or torch.isinf(first_token_logit).any():
-                log("⚠️ Geçersiz logit (NaN/Inf) tespit edildi, fallback cevabı gönderiliyor.")
                 fallback = random.choice(FALLBACK_ANSWERS)
-                answer = fallback
-                return {"answer": answer, "chat_history": chat_history}
             top_logit_score = torch.max(first_token_logit).item()
-            log(f"🔎 İlk token logit skoru: {top_logit_score:.4f}")
             if top_logit_score < CONFIDENCE_THRESHOLD:
                 fallback = random.choice(FALLBACK_ANSWERS)
-                log(f"⚠️ Düşük güven: fallback cevabı gönderiliyor: {fallback}")
                 answer = fallback
         chat_history.append({"user": user_input, "bot": answer})
-        log(f"\U0001f5e8️ Soru: {user_input} → Yanıt: {answer[:60]}...")
         return {"answer": answer, "chat_history": chat_history}
     except Exception as e:
-        log(f"\u274c /chat sırasında hata oluştu: {e}")
         return {"error": str(e)}
 def setup_model():
     try:
         global model, tokenizer
-        log("\U0001f4e6 Fine-tune zip indiriliyor...")
         zip_path = hf_hub_download(
             repo_id=FINE_TUNE_REPO,
             filename=FINE_TUNE_ZIP,
@@ -193,9 +192,9 @@ def setup_model():
         with zipfile.ZipFile(zip_path, "r") as zip_ref:
             zip_ref.extractall(extract_dir)
-        log("\ud83d\udcc2 Zip başarıyla açıldı.")
-        log("\ud83d\udd01 Tokenizer yükleniyor...")
         tokenizer = AutoTokenizer.from_pretrained(os.path.join(extract_dir, "output"))
         if tokenizer.pad_token is None:
@@ -205,28 +204,21 @@ def setup_model():
         device = env["device"]
         dtype = torch.bfloat16 if env["supports_bfloat16"] else (torch.float16 if device == "cuda" else torch.float32)
-        log(f"\U0001f9ea Ortam: GPU = {env['gpu_name']}, Device = {device}, bfloat16 destekleniyor mu: {env['supports_bfloat16']}")
-        log(f"\ud83d\udcc0 Model {device.upper()} üzerinde {dtype} precision ile yüklenecek.")
-        if device != "cuda":
-            log("⚠️ CUDA bulunamadı → CPU + float32 ile düşük performans modu")
-        elif not env["supports_bfloat16"]:
-            log("⚠️ CUDA mevcut ama bfloat16 desteklenmiyor → float16 ile çalışılıyor, hassasiyet kaybı yaşanabilir")
-        else:
-            log("🚀 CUDA + bfloat16 destekleniyor → yüksek performans modu")
-        log("ℹ️ Beklenen minimum sistem konfigürasyonu:")
         log(f"- GPU: {env['expected_config']['gpu']}")
         log(f"- GPU Bellek: {env['expected_config']['min_vram']}")
         log(f"- CPU: {env['expected_config']['cpu']}")
-        log("🧠 Base model indiriliyor...")
         base_model = AutoModelForCausalLM.from_pretrained(
             MODEL_BASE,
             torch_dtype=dtype
         ).to(device)
-        log("➕ LoRA adapter uygulanıyor...")
         peft_model = PeftModel.from_pretrained(
             base_model,
             os.path.join(extract_dir, "output")
@@ -235,21 +227,22 @@ def setup_model():
         model = peft_model.model.to(device)
         model.eval()
-        log(f"✅ Model başarıyla yüklendi. dtype={next(model.parameters()).dtype}, device={next(model.parameters()).device}")
     except Exception as e:
-        log(f"❌ setup_model() sırasında hata oluştu: {e}")
 def run_server():
-    log("🚀 Uvicorn sunucusu başlatılıyor...")
     uvicorn.run(app, host="0.0.0.0", port=7860)
 threading.Thread(target=setup_model, daemon=True).start()
 threading.Thread(target=run_server, daemon=True).start()
-log("⌛ Model yükleniyor, istekler ve API sunucusu hazırlanıyor...")
 while True:
     try:
         import time
         time.sleep(60)
     except Exception as e:
-        log(f"❌ Ana bekleme döngüsünde hata: {e}")

 from fastapi.responses import HTMLResponse, JSONResponse
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 import torch
 from huggingface_hub import hf_hub_download
 from datetime import datetime
 import random
+# 🕒 Zamanlı log fonksiyonu (emoji'siz ve güvenli)
+def log(message):
+    timestamp = datetime.now().strftime("%H:%M:%S")
+    try:
+        print(f"[{timestamp}] {message}")
+    except UnicodeEncodeError:
+        safe_message = message.encode("utf-8", errors="replace").decode("utf-8", errors="ignore")
+        print(f"[{timestamp}] {safe_message}")
+    os.sys.stdout.flush()
 # ✅ Sabitler
 HF_TOKEN = os.environ.get("HF_TOKEN")
 MODEL_BASE = "UcsTurkey/kanarya-750m-fixed"
 FINE_TUNE_ZIP = "trained_model_002_005.zip"
 FINE_TUNE_REPO = "UcsTurkey/trained-zips"
 CONFIDENCE_THRESHOLD = -1.5
 FALLBACK_ANSWERS = [
     "Bu konuda maalesef bilgim yok.",
     "Bu soruya şu an yanıt veremiyorum."
 ]
 app = FastAPI()
 chat_history = []
 model = None
 tokenizer = None
+class Message(BaseModel):
+    user_input: str
 def detect_environment():
     device = "cuda" if torch.cuda.is_available() else "cpu"
     supports_bfloat16 = False
     <html>
     <head><title>Fine-Tune Chat</title></head>
     <body>
+        <h2>Fine-tune Chat Test</h2>
         <textarea id=\"input\" rows=\"4\" cols=\"60\" placeholder=\"Bir şeyler yaz...\"></textarea><br><br>
         <button onclick=\"send()\">Gönder</button>
         <pre id=\"output\"></pre>
 @app.post("/chat")
 def chat(msg: Message):
     try:
+        log(f"Kullanıcı mesajı alındı: {msg}")
         global model, tokenizer
         if model is None or tokenizer is None:
+            log("Hata: Model henüz yüklenmedi.")
             return {"error": "Model yüklenmedi. Lütfen birkaç saniye sonra tekrar deneyin."}
         user_input = msg.user_input.strip()
             return {"error": "Boş giriş"}
         full_prompt = f"SORU: {user_input}\nCEVAP:"
+        log(f"Prompt: {full_prompt}")
         inputs = tokenizer(full_prompt, return_tensors="pt")
         inputs = {k: v.to(model.device) for k, v in inputs.items()}
+        log(f"Tokenizer input_ids: {inputs['input_ids']}")
+        log(f"input shape: {inputs['input_ids'].shape}")
         try:
             with torch.no_grad():
                     suppress_tokens=[tokenizer.pad_token_id] if tokenizer.pad_token_id is not None else None
                 )
         except Exception as e:
+            log("generate() sırasında istisna oluştu, input dump ediliyor...")
+            log(f"input_ids: {inputs['input_ids']}")
+            log(f"attention_mask: {inputs.get('attention_mask', 'yok')}")
+            log(f"Hata tipi: {type(e).__name__} → {e}")
             fallback = random.choice(FALLBACK_ANSWERS)
             return {"answer": fallback, "chat_history": chat_history}
         if output.scores and len(output.scores) > 0:
             first_token_logit = output.scores[0][0]
             if torch.isnan(first_token_logit).any() or torch.isinf(first_token_logit).any():
+                log("Geçersiz logit (NaN/Inf) tespit edildi, fallback cevabı gönderiliyor.")
                 fallback = random.choice(FALLBACK_ANSWERS)
+                return {"answer": fallback, "chat_history": chat_history}
             top_logit_score = torch.max(first_token_logit).item()
+            log(f"İlk token logit skoru: {top_logit_score:.4f}")
             if top_logit_score < CONFIDENCE_THRESHOLD:
                 fallback = random.choice(FALLBACK_ANSWERS)
+                log(f"Düşük güven: fallback cevabı gönderiliyor: {fallback}")
                 answer = fallback
         chat_history.append({"user": user_input, "bot": answer})
+        log(f"Soru: {user_input} → Yanıt: {answer[:60]}...")
         return {"answer": answer, "chat_history": chat_history}
     except Exception as e:
+        log(f"/chat sırasında hata oluştu: {e}")
         return {"error": str(e)}
 def setup_model():
     try:
         global model, tokenizer
+        log("Fine-tune zip indiriliyor...")
         zip_path = hf_hub_download(
             repo_id=FINE_TUNE_REPO,
             filename=FINE_TUNE_ZIP,
         with zipfile.ZipFile(zip_path, "r") as zip_ref:
             zip_ref.extractall(extract_dir)
+        log("Zip başarıyla açıldı.")
+        log("Tokenizer yükleniyor...")
         tokenizer = AutoTokenizer.from_pretrained(os.path.join(extract_dir, "output"))
         if tokenizer.pad_token is None:
         device = env["device"]
         dtype = torch.bfloat16 if env["supports_bfloat16"] else (torch.float16 if device == "cuda" else torch.float32)
+        log(f"Ortam: GPU = {env['gpu_name']}, Device = {device}, bfloat16 destekleniyor mu: {env['supports_bfloat16']}")
+        log(f"Model {device.upper()} üzerinde {dtype} precision ile yüklenecek.")
+        log("Beklenen minimum sistem konfigürasyonu:")
         log(f"- GPU: {env['expected_config']['gpu']}")
         log(f"- GPU Bellek: {env['expected_config']['min_vram']}")
         log(f"- CPU: {env['expected_config']['cpu']}")
+        log("Base model indiriliyor...")
         base_model = AutoModelForCausalLM.from_pretrained(
             MODEL_BASE,
             torch_dtype=dtype
         ).to(device)
+        log("LoRA adapter uygulanıyor...")
         peft_model = PeftModel.from_pretrained(
             base_model,
             os.path.join(extract_dir, "output")
         model = peft_model.model.to(device)
         model.eval()
+        log(f"Model başarıyla yüklendi. dtype={next(model.parameters()).dtype}, device={next(model.parameters()).device}")
     except Exception as e:
+        log(f"setup_model() sırasında hata oluştu: {e}")
 def run_server():
+    log("Uvicorn sunucusu başlatılıyor...")
     uvicorn.run(app, host="0.0.0.0", port=7860)
+# Başlangıç
+log("===== Application Startup =====")
 threading.Thread(target=setup_model, daemon=True).start()
 threading.Thread(target=run_server, daemon=True).start()
+log("Model yükleniyor, istekler ve API sunucusu hazırlanıyor...")
 while True:
     try:
         import time
         time.sleep(60)
     except Exception as e:
+        log(f"Ana bekleme döngüsünde hata: {e}")