kevinwang676
/

GPT-SoVITS-v3-api

kevinwang676 commited on Mar 30

Commit

b0e461f

verified ·

1 Parent(s): 946de3e

Update GPT_SoVITS/TTS_infer_pack/TTS.py

Files changed (1) hide show

GPT_SoVITS/TTS_infer_pack/TTS.py CHANGED Viewed

@@ -655,8 +655,8 @@ class TTS:
         )
         with torch.no_grad():
             wav16k, sr = librosa.load(ref_wav_path, sr=16000)
-            if (wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000):
-                raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
             wav16k = torch.from_numpy(wav16k)
             zero_wav_torch = torch.from_numpy(zero_wav)
             wav16k = wav16k.to(self.configs.device)
@@ -1230,7 +1230,13 @@ class TTS:
         else:
             audio = audio.cpu().numpy()
-        audio = (audio * 32768).astype(np.int16)
         # try:
         #     if speed_factor != 1.0:
@@ -1296,4 +1302,4 @@ class TTS:
             wav_gen = self.bigvgan_model(cmf_res)
             audio=wav_gen[0][0]#.cpu().detach().numpy()
-        return audio

         )
         with torch.no_grad():
             wav16k, sr = librosa.load(ref_wav_path, sr=16000)
+            if (wav16k.shape[0] > 240000 or wav16k.shape[0] < 48000):
+                raise OSError(i18n("参考音频在3~15秒范围外，请更换！"))
             wav16k = torch.from_numpy(wav16k)
             zero_wav_torch = torch.from_numpy(zero_wav)
             wav16k = wav16k.to(self.configs.device)
         else:
             audio = audio.cpu().numpy()
+        if hasattr(audio, 'cpu'):
+            # If audio is a tensor, convert it to a NumPy array
+            audio = (audio * 32768).cpu().numpy()
+        else:
+            audio = audio * 32768
+        audio = audio.astype(np.int16)
         # try:
         #     if speed_factor != 1.0:
             wav_gen = self.bigvgan_model(cmf_res)
             audio=wav_gen[0][0]#.cpu().detach().numpy()
+        return audio