Spaces:

zhouzhou363
/

f5-tts

Configuration error

App Files Files Community

SWivid commited on Oct 15, 2024

Commit

bc63315

1 Parent(s): 423fe4a

split pkgs only for eval usage address #97; clean-up

Browse files

Files changed (5) hide show

README.md +6 -0
gradio_app.py +0 -2
model/utils.py +6 -7
requirements.txt +1 -8
requirements_eval.txt +5 -0

README.md CHANGED Viewed

@@ -148,6 +148,12 @@ bash scripts/eval_infer_batch.sh
 ### Objective Evaluation
 **Some Notes**
 For faster-whisper with CUDA 11:

 ### Objective Evaluation
+Install packages for evaluation:
+```bash
+pip install -r requirements_eval.txt
+```
 **Some Notes**
 For faster-whisper with CUDA 11:

gradio_app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import os
 import re
 import torch
 import torchaudio
@@ -17,7 +16,6 @@ from model.utils import (
     save_spectrogram,
 )
 from transformers import pipeline
-import librosa
 import click
 import soundfile as sf

 import re
 import torch
 import torchaudio
     save_spectrogram,
 )
 from transformers import pipeline
 import click
 import soundfile as sf

model/utils.py CHANGED Viewed

@@ -22,12 +22,6 @@ from einops import rearrange, reduce
 import jieba
 from pypinyin import lazy_pinyin, Style
-import zhconv
-from zhon.hanzi import punctuation
-from jiwer import compute_measures
-from funasr import AutoModel
-from faster_whisper import WhisperModel
 from model.ecapa_tdnn import ECAPA_TDNN_SMALL
 from model.modules import MelSpec
@@ -432,6 +426,7 @@ def get_librispeech_test(metalst, gen_wav_dir, gpus, librispeech_test_clean_path
 def load_asr_model(lang, ckpt_dir = ""):
     if lang == "zh":
         model = AutoModel(
             model = os.path.join(ckpt_dir, "paraformer-zh"),
             # vad_model = os.path.join(ckpt_dir, "fsmn-vad"),
@@ -440,6 +435,7 @@ def load_asr_model(lang, ckpt_dir = ""):
             disable_update=True,
             )  # following seed-tts setting
     elif lang == "en":
         model_size = "large-v3" if ckpt_dir == "" else ckpt_dir
         model = WhisperModel(model_size, device="cuda", compute_type="float16")
     return model
@@ -451,6 +447,7 @@ def run_asr_wer(args):
     rank, lang, test_set, ckpt_dir = args
     if lang == "zh":
         torch.cuda.set_device(rank)
     elif lang == "en":
         os.environ["CUDA_VISIBLE_DEVICES"] = str(rank)
@@ -458,10 +455,12 @@ def run_asr_wer(args):
         raise NotImplementedError("lang support only 'zh' (funasr paraformer-zh), 'en' (faster-whisper-large-v3), for now.")
     asr_model = load_asr_model(lang, ckpt_dir = ckpt_dir)
     punctuation_all = punctuation + string.punctuation
     wers = []
     for gen_wav, prompt_wav, truth in tqdm(test_set):
         if lang == "zh":
             res = asr_model.generate(input=gen_wav, batch_size_s=300, disable_pbar=True)

 import jieba
 from pypinyin import lazy_pinyin, Style
 from model.ecapa_tdnn import ECAPA_TDNN_SMALL
 from model.modules import MelSpec
 def load_asr_model(lang, ckpt_dir = ""):
     if lang == "zh":
+        from funasr import AutoModel
         model = AutoModel(
             model = os.path.join(ckpt_dir, "paraformer-zh"),
             # vad_model = os.path.join(ckpt_dir, "fsmn-vad"),
             disable_update=True,
             )  # following seed-tts setting
     elif lang == "en":
+        from faster_whisper import WhisperModel
         model_size = "large-v3" if ckpt_dir == "" else ckpt_dir
         model = WhisperModel(model_size, device="cuda", compute_type="float16")
     return model
     rank, lang, test_set, ckpt_dir = args
     if lang == "zh":
+        import zhconv
         torch.cuda.set_device(rank)
     elif lang == "en":
         os.environ["CUDA_VISIBLE_DEVICES"] = str(rank)
         raise NotImplementedError("lang support only 'zh' (funasr paraformer-zh), 'en' (faster-whisper-large-v3), for now.")
     asr_model = load_asr_model(lang, ckpt_dir = ckpt_dir)
+    from zhon.hanzi import punctuation
     punctuation_all = punctuation + string.punctuation
     wers = []
+    from jiwer import compute_measures
     for gen_wav, prompt_wav, truth in tqdm(test_set):
         if lang == "zh":
             res = asr_model.generate(input=gen_wav, batch_size_s=300, disable_pbar=True)

requirements.txt CHANGED Viewed

@@ -5,11 +5,8 @@ datasets
 einops>=0.8.0
 einx>=0.3.0
 ema_pytorch>=0.5.2
-faster_whisper
-funasr
 gradio
 jieba
-jiwer
 librosa
 matplotlib
 numpy<=1.26.4
@@ -17,14 +14,10 @@ pydub
 pypinyin
 safetensors
 soundfile
-# torch>=2.0
-# torchaudio>=2.3.0
 torchdiffeq
 tqdm>=4.65.0
 transformers
 vocos
 wandb
 x_transformers>=1.31.14
-zhconv
-zhon
-tomli

 einops>=0.8.0
 einx>=0.3.0
 ema_pytorch>=0.5.2
 gradio
 jieba
 librosa
 matplotlib
 numpy<=1.26.4
 pypinyin
 safetensors
 soundfile
+tomli
 torchdiffeq
 tqdm>=4.65.0
 transformers
 vocos
 wandb
 x_transformers>=1.31.14

requirements_eval.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+faster_whisper
+funasr
+jiwer
+zhconv
+zhon