Spaces:

AbstractPhil
/

GPT-OSS-20B-Mirel

Running on Zero

App Files Files Community

AbstractPhil commited on 21 days ago

Commit

23ca4d8

1 Parent(s): 53d9a8e

yes

Browse files

Files changed (1) hide show

app.py +25 -1

app.py CHANGED Viewed

@@ -189,7 +189,15 @@ def create_harmony_prompt(messages: List[Dict[str, str]], reasoning_effort: str
                 )
         convo = Conversation.from_messages(harmony_messages)
-        return harmony_encoding.render_conversation_for_completion(convo, Role.ASSISTANT)
     # Fallback: tokenizer chat template -> string prompt
     if not messages or messages[0].get("role") != "system":
@@ -341,6 +349,18 @@ def zerogpu_generate(full_prompt,
             sc = StoppingCriteriaList([StopOnTokens(HARMONY_STOP_IDS)])
         # Generate
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
@@ -349,6 +369,8 @@ def zerogpu_generate(full_prompt,
             top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             logits_processor=logits_processor,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.2)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 8)),
@@ -437,6 +459,8 @@ def zerogpu_generate_debug(full_prompt, gen_kwargs: Dict[str, Any]) -> Dict[str,
             top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),

                 )
         convo = Conversation.from_messages(harmony_messages)
+        rendered = harmony_encoding.render_conversation_for_completion(convo, Role.ASSISTANT)
+        # Ensure assistant header includes a final channel + message start to avoid 'assistantassistant...' loops
+        try:
+            _tail = tokenizer.decode(list(rendered)[-64:], skip_special_tokens=False)
+            if '<|channel|>final<|message|>' not in _tail:
+                rendered = list(rendered) + tokenizer.encode('<|channel|>final<|message|>', add_special_tokens=False)
+        except Exception:
+            rendered = list(rendered)
+        return rendered
     # Fallback: tokenizer chat template -> string prompt
     if not messages or messages[0].get("role") != "system":
             sc = StoppingCriteriaList([StopOnTokens(HARMONY_STOP_IDS)])
         # Generate
+        # Disallow degenerate header loops
+        bad_words_ids = None
+        try:
+            _B = []
+            for s in ("assistantassistant", "assistant", "<|assistant|>"):
+                ids = tokenizer.encode(s, add_special_tokens=False)
+                if ids:
+                    _B.append(ids)
+            bad_words_ids = _B if _B else None
+        except Exception:
+            pass
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
             top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            bad_words_ids=bad_words_ids,
             logits_processor=logits_processor,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.2)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 8)),
             top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            bad_words_ids=bad_words_ids,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),