Spaces:

marcosremar2
/

cosyvoice

Configuration error

App Files Files Community

Marcos Remar commited on Jul 24

Commit

b65e164

1 Parent(s): 08991d5

Add test scripts for CosyVoice 1.0 (300M model)

Browse files

Files changed (5) hide show

english_tts_test_timed.py +76 -0
quick_test_when_ready.sh +24 -0
quick_tts_test.py +50 -0
test_audio_timed.py +61 -0
test_tts_simple.py +31 -0

english_tts_test_timed.py ADDED Viewed

	@@ -0,0 +1,76 @@

+#\!/usr/bin/env python3
+import os
+import sys
+import time
+# Configurar ambiente
+os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
+print("=== CosyVoice English TTS Test with Timing ===")
+print()
+start_time = time.time()
+try:
+    from cosyvoice.cli.cosyvoice import CosyVoice
+    import torchaudio
+    model_path = 'pretrained_models/CosyVoice-300M-direct'
+    # Verificar se o modelo existe
+    if not os.path.exists(model_path):
+        print(f"❌ Error: Model not found at {model_path}")
+        sys.exit(1)
+    # Medir tempo de carregamento do modelo
+    load_start = time.time()
+    print("Loading CosyVoice model...")
+    cosyvoice = CosyVoice(model_path, load_jit=False, load_trt=False, fp16=False)
+    load_time = time.time() - load_start
+    print(f"✅ Model loaded in {load_time:.2f} seconds")
+    print()
+    # Texto em inglês para síntese
+    text = "Hello\! This is a test of the CosyVoice text-to-speech system. The synthesis is working perfectly and generating high quality audio."
+    prompt_text = "Welcome to the speech synthesis demonstration."
+    print(f"Text: {text}")
+    print(f"Prompt: {prompt_text}")
+    print()
+    # Medir tempo de geração
+    gen_start = time.time()
+    print("Generating audio...")
+    output_file = "english_test_output.wav"
+    for i, j in enumerate(cosyvoice.inference_zero_shot(text, prompt_text, None, stream=False)):
+        torchaudio.save(output_file, j['tts_speech'], cosyvoice.sample_rate)
+        break
+    gen_time = time.time() - gen_start
+    print(f"✅ Audio generated in {gen_time:.2f} seconds")
+    # Verificar arquivo gerado
+    if os.path.exists(output_file):
+        size = os.path.getsize(output_file)
+        duration = j['tts_speech'].shape[1] / cosyvoice.sample_rate
+        print()
+        print(f"📊 File statistics:")
+        print(f"   - Filename: {output_file}")
+        print(f"   - Size: {size/1024:.1f} KB")
+        print(f"   - Duration: {duration:.2f} seconds")
+        print(f"   - Sample rate: {cosyvoice.sample_rate} Hz")
+    total_time = time.time() - start_time
+    print()
+    print(f"⏱️  Total execution time: {total_time:.2f} seconds")
+    print(f"   - Model loading: {load_time:.2f}s ({load_time/total_time*100:.1f}%)")
+    print(f"   - Audio generation: {gen_time:.2f}s ({gen_time/total_time*100:.1f}%)")
+except Exception as e:
+    print(f"❌ Error: {e}")
+    import traceback
+    traceback.print_exc()
+    total_time = time.time() - start_time
+    print(f"\nTotal time before error: {total_time:.2f} seconds")

quick_test_when_ready.sh ADDED Viewed

	@@ -0,0 +1,24 @@

+#\!/bin/bash
+# Script para testar CosyVoice2-0.5B quando o download terminar
+echo "Verificando se o modelo CosyVoice2-0.5B está completo..."
+if [ -f "pretrained_models/CosyVoice2-0.5B/llm.pt" ]; then
+    echo "✅ Modelo baixado\! Executando teste..."
+    python3 test_cosyvoice2_english.py
+    if [ -f "cosyvoice2_english_test.wav" ]; then
+        echo ""
+        echo "📊 Áudio gerado com sucesso\!"
+        ls -lh cosyvoice2_english_test.wav
+        echo ""
+        echo "Para baixar o áudio:"
+        echo "scp -P 40053 -i ~/.ssh/id_ed25519 [email protected]:/root/CosyVoice/cosyvoice2_english_test.wav ."
+    fi
+else
+    echo "⏳ Download ainda em progresso..."
+    echo "Arquivos atuais:"
+    du -sh pretrained_models/CosyVoice2-0.5B/
+    echo ""
+    echo "Execute novamente em alguns minutos."
+fi

quick_tts_test.py ADDED Viewed

	@@ -0,0 +1,50 @@

+#\!/usr/bin/env python3
+import os
+import sys
+# Configurar ambiente
+os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
+try:
+    from cosyvoice.cli.cosyvoice import CosyVoice
+    import torchaudio
+    import torch
+    print("Iniciando teste de TTS...")
+    # Usar o modelo direto que funcionou antes
+    model_path = 'pretrained_models/CosyVoice-300M-direct'
+    if not os.path.exists(model_path):
+        print(f"Erro: Modelo não encontrado em {model_path}")
+        sys.exit(1)
+    # Inicializar modelo
+    print("Carregando modelo CosyVoice...")
+    cosyvoice = CosyVoice(model_path, load_jit=False, load_trt=False, fp16=False)
+    # Texto para síntese
+    text = "Olá\! Este é um teste do CosyVoice. A síntese de voz está funcionando corretamente."
+    prompt_text = "Hello, this is a test of speech synthesis."
+    print(f"Texto: {text}")
+    print("Gerando áudio...")
+    # Gerar áudio
+    output_file = "teste_final_audio.wav"
+    for i, j in enumerate(cosyvoice.inference_zero_shot(text, prompt_text, None, stream=False)):
+        torchaudio.save(output_file, j['tts_speech'], cosyvoice.sample_rate)
+        print(f"Áudio salvo em: {output_file}")
+        break
+    # Verificar arquivo
+    if os.path.exists(output_file):
+        size = os.path.getsize(output_file) / 1024
+        print(f"Arquivo gerado com sucesso\! Tamanho: {size:.1f} KB")
+    else:
+        print("Erro: Arquivo não foi gerado")
+except Exception as e:
+    print(f"Erro: {e}")
+    import traceback
+    traceback.print_exc()

test_audio_timed.py ADDED Viewed

	@@ -0,0 +1,61 @@

+#\!/usr/bin/env python3
+import os
+import sys
+import time
+import torch
+import torchaudio
+import numpy as np
+print("=== Teste de Áudio com Medição de Tempo ===")
+print()
+# Criar um áudio sintético simples para testar
+print("Gerando áudio de teste...")
+start_time = time.time()
+# Parâmetros do áudio
+sample_rate = 22050
+duration = 5  # segundos
+frequency = 440  # Hz (nota Lá)
+# Gerar onda senoidal com envelope
+t = np.linspace(0, duration, int(sample_rate * duration))
+# Adicionar envelope para suavizar início e fim
+envelope = np.ones_like(t)
+fade_samples = int(0.1 * sample_rate)  # 100ms de fade
+envelope[:fade_samples] = np.linspace(0, 1, fade_samples)
+envelope[-fade_samples:] = np.linspace(1, 0, fade_samples)
+# Gerar áudio com múltiplas frequências (acorde)
+audio = np.zeros_like(t)
+frequencies = [440, 554, 659]  # Lá maior
+for freq in frequencies:
+    audio += 0.2 * np.sin(2 * np.pi * freq * t) * envelope
+# Adicionar um pouco de vibrato
+vibrato = 0.02 * np.sin(2 * np.pi * 5 * t)  # 5Hz vibrato
+audio = audio * (1 + vibrato)
+# Converter para tensor
+audio_tensor = torch.FloatTensor(audio).unsqueeze(0)
+# Salvar arquivo
+output_file = "test_audio_timing.wav"
+torchaudio.save(output_file, audio_tensor, sample_rate)
+generation_time = time.time() - start_time
+# Estatísticas
+file_size = os.path.getsize(output_file) / 1024  # KB
+print(f"✅ Áudio gerado com sucesso\!")
+print()
+print("📊 Estatísticas:")
+print(f"   - Arquivo: {output_file}")
+print(f"   - Duração: {duration} segundos")
+print(f"   - Taxa de amostragem: {sample_rate} Hz")
+print(f"   - Tamanho: {file_size:.1f} KB")
+print(f"   - Tempo de geração: {generation_time:.3f} segundos")
+print(f"   - Velocidade: {duration/generation_time:.1f}x tempo real")
+print()
+print("🎵 Áudio contém um acorde de Lá maior com vibrato")

test_tts_simple.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import sys
+import os
+sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
+# Import direto sem dependências complexas
+import torch
+import torchaudio
+import numpy as np
+print("Teste simples de TTS")
+print("Gerando áudio de teste...")
+# Criar um áudio de teste simples
+sample_rate = 16000
+duration = 3  # segundos
+frequency = 440  # Hz (nota Lá)
+# Gerar onda senoidal
+t = np.linspace(0, duration, int(sample_rate * duration))
+waveform = 0.3 * np.sin(2 * np.pi * frequency * t)
+# Converter para tensor
+audio_tensor = torch.FloatTensor(waveform).unsqueeze(0)
+# Salvar o áudio
+output_file = "test_audio_simple.wav"
+torchaudio.save(output_file, audio_tensor, sample_rate)
+print(f"Áudio salvo em: {output_file}")
+print(f"Duração: {duration} segundos")
+print(f"Taxa de amostragem: {sample_rate} Hz")