Spaces:

suprimedev
/

cloner

Sleeping

suprimedev commited on Jun 5

Commit

94c2b30

verified ·

1 Parent(s): fb8848d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -251,18 +251,8 @@ def voice_clone(text_audio_path, voice_audio_path):
             speaker_embeddings = speaker_embeddings.to("cuda")
         print("Generating speech...")
-        🐸 SpeechT5 doesn't provide a direct way to extract x-vectors from an arbitrary audio file.
-        The 'speaker_embeddings' in examples are usually pre_extracted or comes from dataset
-        FOR A ROBUST SOLUTION using custom audio, you need a separate model like pyannote.audio or SpeechBrain
-        This part of the code assumes that you have already extracted *speaker_embeddings* (x-vector) from the second audio file,
-        which contains the voice you want to clone. If not, it will use a a generic pre-defined embedding or raise error.
-        This is the trickiest part for direct voice cloning with arbitrary audio using SpeechT5.
-        For this demo, we'll implement both:
-          1. Basic version with predefined speaker embedding (simpler, less true cloning).
-          2. Advanced version with SpeechBrain for speaker embedding extraction (more accurate cloning).
-        Let's go with the advanced version to meet the "low error" requirement for cloning.
-        ```
         # Generate speech
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)

             speaker_embeddings = speaker_embeddings.to("cuda")
         print("Generating speech...")
         # Generate speech
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)