Spaces:

wasmdashai
/

wasm-speeker-sa

Sleeping

ASG Models commited on Jul 18, 2024

Commit

d65ec35

verified ·

1 Parent(s): 13829b0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -88,7 +88,9 @@ def _inference_forward_stream(
         spectrogram = latents * output_padding_mask
         for i in range(0, spectrogram.size(-1), chunk_size):
-              yield self.decoder(spectrogram[:,:,i : i + chunk_size] ,speaker_embeddings)
@@ -126,7 +128,7 @@ def generate_audio(text,name_model,speaker_id=None):
     #torch.cuda.empty_cache()
     with torch.no_grad():
         for chunk in _inference_forward_stream(model,input_ids=inputs.input_ids,attention_mask=inputs.attention_mask,speaker_embeddings= speaker_embeddings,chunk_size=64):
-            yield  16000,chunk.squeeze().cpu().numpy()#.astype(np.int16).tobytes()
 def generate_audio_ai(text,name_model):
     text_answer = get_answer_ai(text)
     text_answer = remove_extra_spaces(text_answer)
@@ -137,7 +139,7 @@ def generate_audio_ai(text,name_model):
     #torch.cuda.empty_cache()
     with torch.no_grad():
         for chunk in _inference_forward_stream(model,input_ids=inputs.input_ids,attention_mask=inputs.attention_mask,speaker_embeddings= speaker_embeddings,chunk_size=64):
-            yield  16000,chunk.cpu().numpy().squeeze()#.astype(np.int16).tobytes()
     # yield generate_audio(text_answer,name_model)
 def remove_extra_spaces(text):

         spectrogram = latents * output_padding_mask
         for i in range(0, spectrogram.size(-1), chunk_size):
+            with torch.no_grad():
+                wav=self.decoder(spectrogram[:,:,i : i + chunk_size] ,speaker_embeddings)
+            yield wav.squeeze().cpu().numpy()
     #torch.cuda.empty_cache()
     with torch.no_grad():
         for chunk in _inference_forward_stream(model,input_ids=inputs.input_ids,attention_mask=inputs.attention_mask,speaker_embeddings= speaker_embeddings,chunk_size=64):
+            yield  16000,chunk#.squeeze().cpu().numpy()#.astype(np.int16).tobytes()
 def generate_audio_ai(text,name_model):
     text_answer = get_answer_ai(text)
     text_answer = remove_extra_spaces(text_answer)
     #torch.cuda.empty_cache()
     with torch.no_grad():
         for chunk in _inference_forward_stream(model,input_ids=inputs.input_ids,attention_mask=inputs.attention_mask,speaker_embeddings= speaker_embeddings,chunk_size=64):
+            yield  16000,chunk#.cpu().numpy().squeeze()#.astype(np.int16).tobytes()
     # yield generate_audio(text_answer,name_model)
 def remove_extra_spaces(text):