Spaces:

AbstractPhil
/

GPT-OSS-20B-Mirel

Building on Zero

App Files Files Community

AbstractPhil commited on 23 days ago

Commit

4b732ce

1 Parent(s): 3d65633

yes

Browse files

Files changed (1) hide show

app.py +14 -8

app.py CHANGED Viewed

@@ -73,8 +73,8 @@ def _hf_login() -> None:
     else:
         print("[HF Auth] No token found in environment variables")
-# Login before loading any models
-_hf_login()
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
@@ -364,12 +364,17 @@ def zerogpu_generate(full_prompt,
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
-            temperature=float(gen_kwargs.get("temperature", 0.7)),
-            top_p=float(gen_kwargs.get("top_p", 0.9)),
-            top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
             logits_processor=logits_processor,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.2)),
@@ -424,7 +429,7 @@ def zerogpu_generate(full_prompt,
 # Simple (non-Harmony) GPU path — matches your minimal example
 # -----------------------
 @spaces.GPU(duration=120)
-def zerogpu_generate_simple(prompt_str: str, gen_kwargs: Dict[str, Any], rose_map: Optional[Dict[str, float]], rose_alpha: float, seed: Optional[int]) -> Dict[str, str]:
     """Straight chat_template path. No Harmony tokens. Slices completion from prompt_len.
     Mirrors the minimal HF example and avoids header loops entirely."""
     model = None
@@ -445,7 +450,8 @@ def zerogpu_generate_simple(prompt_str: str, gen_kwargs: Dict[str, Any], rose_ma
         logits_processor = None
         if rose_map:
             bias = build_bias_from_tokens(tokenizer, rose_map).to(device)
-            logits_processor = [RoseGuidedLogits(bias, float(rose_alpha))]
         out_ids = model.generate(
             **inputs,
@@ -512,7 +518,6 @@ def zerogpu_generate_debug(full_prompt, gen_kwargs: Dict[str, Any]) -> Dict[str,
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            bad_words_ids=bad_words_ids,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
@@ -653,6 +658,7 @@ def generate_response(message: str, history: List[List[str]], system_prompt: str
                 },
                 rose_map,
                 float(rose_alpha),
                 int(seed) if seed is not None else None,
             )
         else:

     else:
         print("[HF Auth] No token found in environment variables")
+# Login is handled by Space OAuth/session; avoid explicit CLI login here to prevent OAuth var errors
+# _hf_login()
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
+            temperature=float(gen_kwargs.get("temperature", 0.6)),
+            top_p=(float(gen_kwargs.get("top_p")) if gen_kwargs.get("top_p") is not None else None),
+            top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.1)),
+            no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
+            logits_processor=logits_processor,
+        )
+            eos_token_id=tokenizer.eos_token_id,
             logits_processor=logits_processor,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.2)),
 # Simple (non-Harmony) GPU path — matches your minimal example
 # -----------------------
 @spaces.GPU(duration=120)
+def zerogpu_generate_simple(prompt_str: str, gen_kwargs: Dict[str, Any], rose_map: Optional[Dict[str, float]], rose_alpha: float, rose_score: Optional[float], seed: Optional[int]) -> Dict[str, str]:
     """Straight chat_template path. No Harmony tokens. Slices completion from prompt_len.
     Mirrors the minimal HF example and avoids header loops entirely."""
     model = None
         logits_processor = None
         if rose_map:
             bias = build_bias_from_tokens(tokenizer, rose_map).to(device)
+            eff_alpha = float(rose_alpha) * (float(rose_score) if rose_score is not None else 1.0)
+            logits_processor = [RoseGuidedLogits(bias, eff_alpha)]
         out_ids = model.generate(
             **inputs,
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
                 },
                 rose_map,
                 float(rose_alpha),
+                float(rose_score) if rose_score is not None else None,
                 int(seed) if seed is not None else None,
             )
         else: