Spaces:

zhouzhou363
/

f5-tts

Configuration error

SWivid commited on Oct 20, 2024

Commit

2c09243

1 Parent(s): 5600d90

add sanity check ensuring mono audio input for training

Files changed (1) hide show

model/dataset.py CHANGED Viewed

@@ -103,6 +103,8 @@ class CustomDataset(Dataset):
         else:
             audio, source_sample_rate = torchaudio.load(audio_path)
             if duration > 30 or duration < 0.3:
                 return self.__getitem__((index + 1) % len(self.data))

         else:
             audio, source_sample_rate = torchaudio.load(audio_path)
+            if audio.shape[0] > 1:
+                audio = torch.mean(audio, dim=0, keepdim=True)
             if duration > 30 or duration < 0.3:
                 return self.__getitem__((index + 1) % len(self.data))