Spaces:

EnzGamers
/

smallagent

Sleeping

App Files Files Community

EnzGamers commited on 14 days ago

Commit

4aedab8

verified ·

1 Parent(s): 16578c7

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -10

app.py CHANGED Viewed

@@ -9,8 +9,10 @@ import json
 from typing import Optional, List, Union, Dict, Any
 import asyncio
-# --- Configuration ---
-MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
 DEVICE = "cpu"
 # --- Chargement du modèle ---
@@ -22,7 +24,7 @@ model = AutoModelForCausalLM.from_pretrained(
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-# On s'assure que le tokenizer a un token de padding.
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
@@ -32,7 +34,7 @@ print("Modèle et tokenizer chargés avec succès sur le CPU.")
 # --- Création de l'application API ---
 app = FastAPI()
-# --- Modèles de données (inchangés) ---
 class ContentPart(BaseModel):
     type: str
     text: str
@@ -81,18 +83,15 @@ async def list_models():
 async def create_chat_completion(request: ChatCompletionRequest):
     """Endpoint principal qui gère la génération de texte en streaming."""
-    # --- LA CORRECTION EST ICI ---
-    # On convertit les messages de la requête en un format que le tokenizer peut utiliser.
-    # C'est plus simple et plus robuste que de chercher le prompt manuellement.
     messages_for_model = [msg.dict() for msg in request.messages]
-    # On applique le template. Le tokenizer de Qwen sait comment gérer cette structure.
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
-    # On tokenize le texte pour obtenir explicitement input_ids ET attention_mask
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
-    # On passe les inputs au modèle en utilisant ** pour déballer le dictionnaire
     outputs = model.generate(**inputs, max_new_tokens=250, do_sample=True, temperature=0.2, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)

 from typing import Optional, List, Union, Dict, Any
 import asyncio
+# --- LA SEULE LIGNE À MODIFIER ---
+MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct" # Ou "deepseek-ai/deepseek-coder-1.3b-instruct", etc.
+# ------------------------------------
 DEVICE = "cpu"
 # --- Chargement du modèle ---
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+# --- Standardisation : Gestion automatique du padding ---
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
 # --- Création de l'application API ---
 app = FastAPI()
+# --- Modèles de données standards pour la compatibilité OpenAI ---
 class ContentPart(BaseModel):
     type: str
     text: str
 async def create_chat_completion(request: ChatCompletionRequest):
     """Endpoint principal qui gère la génération de texte en streaming."""
+    # --- Standardisation : On ne fait aucune supposition sur le format du message ---
+    # On passe la liste complète des messages au tokenizer.
     messages_for_model = [msg.dict() for msg in request.messages]
+    # La fonction apply_chat_template gère automatiquement le "dialecte" de chaque modèle.
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
     outputs = model.generate(**inputs, max_new_tokens=250, do_sample=True, temperature=0.2, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)