Spaces:

sentiric
/

llm-service-test

Sleeping

App Files Files Community

azmisahin commited on 16 days ago

Commit

301cc78

verified ·

1 Parent(s): 716480d

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -43

app.py CHANGED Viewed

@@ -3,74 +3,62 @@ from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import logging
-from functools import lru_cache
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-# Model ayarları
-MODEL_NAME = "redrussianarmy/gpt2-turkish-cased"
-ALTERNATIVE_MODEL = "savasy/bert-base-turkish-uncased"  # Yedek model
-CACHE_DIR = "/app/cache"  # Dockerfile ile uyumlu
-@lru_cache(maxsize=1)
 def load_model():
-    logger.info("Model yükleniyor...")
     try:
-        # Önce ana modeli dene
-        tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)
-        model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)
-        logger.info("Ana model başarıyla yüklendi")
         return model, tokenizer
     except Exception as e:
-        logger.error(f"Ana model hatası: {str(e)}")
-        try:
-            # Yedek modeli dene
-            logger.info("Yedek model deniyor...")
-            tokenizer = AutoTokenizer.from_pretrained(ALTERNATIVE_MODEL, cache_dir=CACHE_DIR)
-            model = AutoModelForCausalLM.from_pretrained(ALTERNATIVE_MODEL, cache_dir=CACHE_DIR)
-            logger.info("Yedek model başarıyla yüklendi")
-            return model, tokenizer
-        except Exception as alt_e:
-            logger.error(f"Yedek model hatası: {str(alt_e)}")
-            raise RuntimeError("Hiçbir model yüklenemedi")
-@app.route('/health')
-def health_check():
-    try:
-        model, _ = load_model()
-        return jsonify({"status": "healthy", "model": MODEL_NAME if model else ALTERNATIVE_MODEL})
-    except Exception as e:
-        return jsonify({"status": "unhealthy", "error": str(e)}), 500
 @app.route('/generate', methods=['POST'])
 def generate():
     try:
         data = request.get_json()
-        prompt = data.get('prompt', '')
         if not prompt:
             return jsonify({"error": "Prompt gereklidir"}), 400
         model, tokenizer = load_model()
-        inputs = tokenizer(prompt, return_tensors="pt")
-        with torch.no_grad():
-            outputs = model.generate(
-                inputs.input_ids,
-                max_length=100,
-                do_sample=True,
-                top_k=50,
-                top_p=0.95,
-                temperature=0.7
-            )
         result = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return jsonify({"result": result})
     except Exception as e:
-        logger.error(f"Generate hatası: {str(e)}")
-        return jsonify({"error": str(e)}), 500
 if __name__ == '__main__':
-    app.run(host='0.0.0.0', port=7860)

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import logging
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+# Daha küçük bir Türkçe model seçimi (CPU dostu)
+MODEL_NAME = "savasy/turkish-gpt2"  # 300MB boyutunda
 def load_model():
     try:
+        logger.info("Küçük Türkçe model yükleniyor...")
+        tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+        model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
+        # CPU optimizasyonu
+        model = model.to('cpu')
+        torch.set_num_threads(1)  # Tek çekirdek kullan
+        logger.info("Model başarıyla yüklendi")
         return model, tokenizer
     except Exception as e:
+        logger.error(f"Model yükleme hatası: {str(e)}")
+        raise RuntimeError("Model yüklenemedi")
+@app.route('/')
+def home():
+    return "Türkçe GPT-2 API Çalışıyor"
 @app.route('/generate', methods=['POST'])
 def generate():
     try:
         data = request.get_json()
+        prompt = data.get('prompt', '')[:500]  # 500 karakterle sınırla
         if not prompt:
             return jsonify({"error": "Prompt gereklidir"}), 400
         model, tokenizer = load_model()
+        inputs = tokenizer(prompt, return_tensors="pt").to('cpu')
+        # CPU için optimize edilmiş üretim
+        outputs = model.generate(
+            inputs.input_ids,
+            max_length=100,  # Daha kısa çıktı
+            do_sample=True,
+            top_k=40,
+            temperature=0.7,
+            pad_token_id=tokenizer.eos_token_id
+        )
         result = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return jsonify({"result": result})
     except Exception as e:
+        logger.error(f"Hata: {str(e)}")
+        return jsonify({"error": "İşlem sırasında hata oluştu"}), 500
 if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=7860, threaded=False)  # threaded=False CPU için daha iyi