Spaces:

jhansss
/

SingingSDS

Sleeping

App Files Files Community

jhansss commited on Jun 30

Commit

50dd0bc

1 Parent(s): c6ab4e9

Add CLI functionality and restructure configuration files

Browse files

Files changed (7) hide show

app.py +2 -1
cli.py +46 -0
config/cli/limei_default.yaml +16 -0
config/cli/yaoyin_default.yaml +16 -0
config/{default.yaml → interface/default.yaml} +0 -0
config/interface/options.yaml +63 -0
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -3,7 +3,8 @@ from interface import GradioInterface
 def main():
     demo = GradioInterface(
-        options_config="config/options.yaml", default_config="config/default.yaml"
     ).create_interface()
     demo.launch()

 def main():
     demo = GradioInterface(
+        options_config="config/interface/options.yaml",
+        default_config="config/interface/default.yaml",
     ).create_interface()
     demo.launch()

cli.py ADDED Viewed

	@@ -0,0 +1,46 @@

+from argparse import ArgumentParser
+from logging import getLogger
+import soundfile as sf
+import yaml
+from characters import CHARACTERS
+from pipeline import SingingDialoguePipeline
+logger = getLogger(__name__)
+def get_parser():
+    parser = ArgumentParser()
+    parser.add_argument("--query_audio", type=str, required=True)
+    parser.add_argument("--config_path", type=str, required=True)
+    parser.add_argument("--output_audio", type=str, required=True)
+    return parser
+def load_config(config_path: str):
+    with open(config_path, "r") as f:
+        config = yaml.safe_load(f)
+    return config
+def main():
+    parser = get_parser()
+    args = parser.parse_args()
+    config = load_config(args.config_path)
+    pipeline = SingingDialoguePipeline(config)
+    speaker = config["speaker"]
+    language = config["language"]
+    character_name = config["prompt_template_character"]
+    character = CHARACTERS[character_name]
+    prompt_template = character.prompt
+    results = pipeline.run(args.query_audio, language, prompt_template, speaker)
+    logger.info(
+        f"Input: {args.query_audio}, Output: {args.output_audio}, ASR results: {results['asr_text']}, LLM results: {results['llm_text']}"
+    )
+    svs_audio, svs_sample_rate = results["svs_audio"]
+    sf.write(args.output_audio, svs_audio, svs_sample_rate)
+if __name__ == "__main__":
+    main()

config/cli/limei_default.yaml ADDED Viewed

	@@ -0,0 +1,16 @@

+asr_model: openai/whisper-large-v3-turbo
+llm_model: google/gemma-2-2b
+svs_model: espnet/aceopencpop_svs_visinger2_40singer_pretrain
+melody_source: sample-lyric-kising
+language: mandarin
+prompt_template_character: Limei
+speaker: 5
+cache_dir: .cache
+track_latency: True
+evaluators:
+  svs:
+    - singmos
+    - per
+    - melody
+    - aesthetic

config/cli/yaoyin_default.yaml ADDED Viewed

	@@ -0,0 +1,16 @@

+asr_model: openai/whisper-large-v3-turbo
+llm_model: google/gemma-2-2b
+svs_model: espnet/aceopencpop_svs_visinger2_40singer_pretrain
+melody_source: sample-lyric-kising
+language: mandarin
+prompt_template_character: Yaoyin
+speaker: 9
+cache_dir: .cache
+track_latency: True
+evaluators:
+  svs:
+    - singmos
+    - per
+    - melody
+    - aesthetic

config/{default.yaml → interface/default.yaml} RENAMED Viewed

File without changes

config/interface/options.yaml ADDED Viewed

	@@ -0,0 +1,63 @@

+asr_models:
+  - id: openai/whisper-large-v3-turbo
+    name: Whisper large-v3-turbo
+  - id: openai/whisper-large-v3
+    name: Whisper large-v3
+  - id: openai/whisper-medium
+    name: Whisper medium
+  - id: sanchit-gandhi/whisper-small-dv
+    name: Whisper small-dv
+  - id: facebook/wav2vec2-base-960h
+    name: Wav2Vec2-Base-960h
+llm_models:
+  - id: google/gemma-2-2b
+    name: Gemma 2 2B
+  - id: MiniMaxAI/MiniMax-M1-80k
+    name: MiniMax M1 80k
+svs_models:
+  - id: mandarin-espnet/mixdata_svs_visinger2_spkemb_lang_pretrained
+    name: Visinger2 (Bilingual)-zh
+    model_path: espnet/mixdata_svs_visinger2_spkemb_lang_pretrained
+    lang: mandarin
+    voices:
+      voice1: resource/singer/singer_embedding_ace-2.npy
+      voice2: resource/singer/singer_embedding_ace-8.npy
+      voice3: resource/singer/singer_embedding_itako.npy
+      voice4: resource/singer/singer_embedding_kising_orange.npy
+      voice5: resource/singer/singer_embedding_m4singer_Alto-4.npy
+  - id: japanese-espnet/mixdata_svs_visinger2_spkemb_lang_pretrained
+    name: Visinger2 (Bilingual)-jp
+    model_path: espnet/mixdata_svs_visinger2_spkemb_lang_pretrained
+    lang: japanese
+    voices:
+      voice1: resource/singer/singer_embedding_ace-2.npy
+      voice2: resource/singer/singer_embedding_ace-8.npy
+      voice3: resource/singer/singer_embedding_itako.npy
+      voice4: resource/singer/singer_embedding_kising_orange.npy
+      voice5: resource/singer/singer_embedding_m4singer_Alto-4.npy
+  - id: mandarin-espnet/aceopencpop_svs_visinger2_40singer_pretrain
+    name: Visinger2 (Chinese)
+    model_path: espnet/aceopencpop_svs_visinger2_40singer_pretrain
+    lang: mandarin
+    voices:
+      voice1: 5
+      voice2: 8
+      voice3: 12
+      voice4: 15
+      voice5: 29
+melody_sources:
+  - id: gen-random-none
+    name: Random Generation
+    desc: "Melody is generated without any structure or reference."
+  - id: sample-note-kising
+    name: Sampled Melody (KiSing)
+    desc: "Melody is retrieved from KiSing dataset."
+  - id: sample-note-touhou
+    name: Sampled Melody (Touhou)
+    desc: "Melody is retrieved from Touhou dataset."
+  - id: sample-lyric-kising
+    name: Sampled Melody with Lyrics (Kising)
+    desc: "Melody with aligned lyrics are sampled from Kising dataset."

requirements.txt CHANGED Viewed

@@ -17,3 +17,4 @@ zhconv
 git+https://github.com/sea-turt1e/kanjiconv
 soundfile
 PyYAML

 git+https://github.com/sea-turt1e/kanjiconv
 soundfile
 PyYAML
+gradio