Spaces:

EnzGamers
/

smallagent

Sleeping

App Files Files Community

EnzGamers commited on 28 days ago

Commit

a4d044a

verified ·

1 Parent(s): 289cf5a

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -20

app.py CHANGED Viewed

@@ -21,6 +21,9 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map=DEVICE
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
@@ -30,7 +33,7 @@ print("Modèle et tokenizer chargés avec succès sur le CPU.")
 # --- Création de l'application API ---
 app = FastAPI()
-# --- Modèles de données ---
 class ContentPart(BaseModel):
     type: str
     text: str
@@ -43,13 +46,6 @@ class ChatCompletionRequest(BaseModel):
     model: Optional[str] = None
     messages: List[ChatMessage]
     stream: Optional[bool] = False
-    max_tokens: Optional[int] = 512 # Augmenté pour des réponses plus longues
-    # --- LES NOUVEAUX CHAMPS SONT ICI ---
-    # Ajout des paramètres de génération avec des valeurs par défaut.
-    temperature: Optional[float] = 0.4
-    top_p: Optional[float] = 0.95
-    top_k: Optional[int] = 50
     class Config:
         extra = Extra.ignore
@@ -80,10 +76,13 @@ class ModelList(BaseModel):
 @app.get("/models", response_model=ModelList)
 async def list_models():
     return ModelList(data=[ModelData(id=MODEL_ID)])
 @app.post("/chat/completions")
 async def create_chat_completion(request: ChatCompletionRequest):
     user_prompt = ""
     last_message = request.messages[-1]
     if isinstance(last_message.content, list):
@@ -97,21 +96,17 @@ async def create_chat_completion(request: ChatCompletionRequest):
         return {"error": "Prompt non trouvé."}
     messages_for_model = [{'role': 'user', 'content': user_prompt}]
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
-    # --- LA MISE À JOUR EST ICI ---
-    # On utilise maintenant les paramètres de la requête pour la génération.
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=request.max_tokens,
-        do_sample=True, # do_sample doit être True pour que temp, top_p et top_k aient un effet
-        temperature=request.temperature,
-        top_p=request.top_p,
-        top_k=request.top_k,
-        eos_token_id=tokenizer.eos_token_id
-    )
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     async def stream_generator():
@@ -133,4 +128,4 @@ async def create_chat_completion(request: ChatCompletionRequest):
 @app.get("/")
 def root():
-    return {"status": "API compatible OpenAI en ligne (avec streaming et paramètres dynamiques)", "model_id": MODEL_ID}

     device_map=DEVICE
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+# --- LA CORRECTION EST ICI (Partie 1) ---
+# On s'assure que le tokenizer a un token de padding. S'il n'en a pas, on utilise le token de fin de phrase.
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
 # --- Création de l'application API ---
 app = FastAPI()
+# --- Modèles de données (inchangés) ---
 class ContentPart(BaseModel):
     type: str
     text: str
     model: Optional[str] = None
     messages: List[ChatMessage]
     stream: Optional[bool] = False
     class Config:
         extra = Extra.ignore
 @app.get("/models", response_model=ModelList)
 async def list_models():
+    """Répond à la requête GET /models pour satisfaire l'extension."""
     return ModelList(data=[ModelData(id=MODEL_ID)])
 @app.post("/chat/completions")
 async def create_chat_completion(request: ChatCompletionRequest):
+    """Endpoint principal qui gère la génération de texte en streaming."""
     user_prompt = ""
     last_message = request.messages[-1]
     if isinstance(last_message.content, list):
         return {"error": "Prompt non trouvé."}
     messages_for_model = [{'role': 'user', 'content': user_prompt}]
+    # --- LA CORRECTION EST ICI (Partie 2) ---
+    # 1. On applique le template pour obtenir le texte brut
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
+    # 2. On tokenize le texte pour obtenir explicitement input_ids ET attention_mask
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
+    # 3. On passe les inputs au modèle en utilisant ** pour déballer le dictionnaire (qui contient input_ids et attention_mask)
+    outputs = model.generate(**inputs, max_new_tokens=250, do_sample=True, temperature=0.2, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
+    # On doit maintenant décoder à partir des bons tokens
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     async def stream_generator():
 @app.get("/")
 def root():
+    return {"status": "API compatible OpenAI en ligne (avec streaming)", "model_id": MODEL_ID}