Seed-VC

Running

Plachta commited on Sep 3, 2024

Commit

5e11f7a

verified ·

1 Parent(s): 742c575

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -77,8 +77,8 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
     ref_audio = librosa.load(target, sr=sr)[0]
     # Process audio
-    source_audio = torch.tensor(source_audio[:sr * 30]).unsqueeze(0).float()
-    ref_audio = torch.tensor(ref_audio[:sr * 30]).unsqueeze(0).float()
     # Resample
     source_waves_16k = torchaudio.functional.resample(source_audio, sr, 16000)
@@ -88,8 +88,8 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
     S_alt = cosyvoice_frontend.extract_speech_token(source_waves_16k)[0]
     S_ori = cosyvoice_frontend.extract_speech_token(ref_waves_16k)[0]
-    mel = to_mel(source_audio.float())
-    mel2 = to_mel(ref_audio.float())
     target_lengths = torch.LongTensor([int(mel.size(2) * length_adjust)]).to(mel.device)
     target2_lengths = torch.LongTensor([mel2.size(2)]).to(mel2.device)

     ref_audio = librosa.load(target, sr=sr)[0]
     # Process audio
+    source_audio = torch.tensor(source_audio[:sr * 30]).unsqueeze(0).float().to(device)
+    ref_audio = torch.tensor(ref_audio[:sr * 30]).unsqueeze(0).float().to(device)
     # Resample
     source_waves_16k = torchaudio.functional.resample(source_audio, sr, 16000)
     S_alt = cosyvoice_frontend.extract_speech_token(source_waves_16k)[0]
     S_ori = cosyvoice_frontend.extract_speech_token(ref_waves_16k)[0]
+    mel = to_mel(source_audio.to(device).float())
+    mel2 = to_mel(ref_audio.to(device).float())
     target_lengths = torch.LongTensor([int(mel.size(2) * length_adjust)]).to(mel.device)
     target2_lengths = torch.LongTensor([mel2.size(2)]).to(mel2.device)