Spaces:

husseinelsaadi
/

ai-interviewer-demo

Paused

husseinelsaadi commited on Jul 16

Commit

ba4fd9a

verified ·

1 Parent(s): 146709e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1484,33 +1484,33 @@ bark_voice_preset = "v2/en_speaker_5"
 def bark_tts(text):
     print(f"🔁 Synthesizing TTS for: {text}")
     inputs = processor_bark(text, return_tensors="pt", voice_preset=bark_voice_preset)
     input_ids = inputs["input_ids"].to(model_bark.device)
-    attention_mask = inputs.get("attention_mask", None)
-    if attention_mask is not None:
-        attention_mask = attention_mask.to(model_bark.device)
     start = time.time()
-    # ✅ DO NOT use **inputs here to avoid duplicate keys
-    generate_args = {
-    "input_ids": input_ids,
-    "attention_mask": attention_mask,
-    "pad_token_id": model_bark.config.eos_token_id,
-    "max_new_tokens": 100
-    }
-    # Remove conflicting keys if already in processor output
-    for key in ["max_new_tokens", "pad_token_id"]:
-        if key in inputs:
-            del inputs[key]
-    speech_values = model_bark.generate(**generate_args)
     print(f"✅ Bark finished in {round(time.time() - start, 2)}s")
     speech = speech_values.cpu().numpy().squeeze()
     speech = (speech * 32767).astype(np.int16)
     temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     wavfile.write(temp_wav.name, 22050, speech)
     return temp_wav.name

 def bark_tts(text):
     print(f"🔁 Synthesizing TTS for: {text}")
+    # Process the text
     inputs = processor_bark(text, return_tensors="pt", voice_preset=bark_voice_preset)
+    # Move tensors to device
     input_ids = inputs["input_ids"].to(model_bark.device)
     start = time.time()
+    # Generate speech with only the required parameters
+    with torch.no_grad():
+        speech_values = model_bark.generate(
+            input_ids=input_ids,
+            do_sample=True,
+            fine_temperature=0.4,
+            coarse_temperature=0.8
+        )
     print(f"✅ Bark finished in {round(time.time() - start, 2)}s")
+    # Convert to audio
     speech = speech_values.cpu().numpy().squeeze()
     speech = (speech * 32767).astype(np.int16)
     temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     wavfile.write(temp_wav.name, 22050, speech)
     return temp_wav.name