Spaces:

EnzGamers
/

smallagent

Sleeping

App Files Files Community

EnzGamers commited on 14 days ago

Commit

16578c7

verified ·

1 Parent(s): 297c4f7

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -22

app.py CHANGED Viewed

@@ -22,8 +22,7 @@ model = AutoModelForCausalLM.from_pretrained(
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-# --- LA CORRECTION EST ICI (Partie 1) ---
-# On s'assure que le tokenizer a un token de padding. S'il n'en a pas, on utilise le token de fin de phrase.
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
@@ -50,7 +49,6 @@ class ChatCompletionRequest(BaseModel):
     class Config:
         extra = Extra.ignore
-# ... (le reste des modèles de données est inchangé) ...
 class ChatCompletionResponseChoice(BaseModel):
     index: int = 0
     message: ChatMessage
@@ -83,30 +81,20 @@ async def list_models():
 async def create_chat_completion(request: ChatCompletionRequest):
     """Endpoint principal qui gère la génération de texte en streaming."""
-    user_prompt = ""
-    last_message = request.messages[-1]
-    if isinstance(last_message.content, list):
-        for part in last_message.content:
-            if part.type == 'text':
-                user_prompt += part.text + "\n"
-    elif isinstance(last_message.content, str):
-        user_prompt = last_message.content
-    if not user_prompt:
-        return {"error": "Prompt non trouvé."}
-    messages_for_model = [{'role': 'user', 'content': user_prompt}]
-    # --- LA CORRECTION EST ICI (Partie 2) ---
-    # 1. On applique le template pour obtenir le texte brut
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
-    # 2. On tokenize le texte pour obtenir explicitement input_ids ET attention_mask
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
-    # 3. On passe les inputs au modèle en utilisant ** pour déballer le dictionnaire (qui contient input_ids et attention_mask)
     outputs = model.generate(**inputs, max_new_tokens=250, do_sample=True, temperature=0.2, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
-    # On doit maintenant décoder à partir des bons tokens
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     async def stream_generator():

 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+# On s'assure que le tokenizer a un token de padding.
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     print("Le pad_token a été défini sur eos_token.")
     class Config:
         extra = Extra.ignore
 class ChatCompletionResponseChoice(BaseModel):
     index: int = 0
     message: ChatMessage
 async def create_chat_completion(request: ChatCompletionRequest):
     """Endpoint principal qui gère la génération de texte en streaming."""
+    # --- LA CORRECTION EST ICI ---
+    # On convertit les messages de la requête en un format que le tokenizer peut utiliser.
+    # C'est plus simple et plus robuste que de chercher le prompt manuellement.
+    messages_for_model = [msg.dict() for msg in request.messages]
+    # On applique le template. Le tokenizer de Qwen sait comment gérer cette structure.
     text_prompt = tokenizer.apply_chat_template(messages_for_model, tokenize=False, add_generation_prompt=True)
+    # On tokenize le texte pour obtenir explicitement input_ids ET attention_mask
     inputs = tokenizer(text_prompt, return_tensors="pt", padding=True).to(DEVICE)
+    # On passe les inputs au modèle en utilisant ** pour déballer le dictionnaire
     outputs = model.generate(**inputs, max_new_tokens=250, do_sample=True, temperature=0.2, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
     response_text = tokenizer.decode(outputs[0, inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     async def stream_generator():