Spaces:

jhansss
/

SingingSDS

Sleeping

jhansss commited on Jul 1

Commit

b5e825c

1 Parent(s): 1a42cf5

support output file path in pipeline.py

Files changed (3) hide show

cli.py CHANGED Viewed

@@ -2,7 +2,6 @@ from argparse import ArgumentParser
 from logging import getLogger
 from pathlib import Path
-import soundfile as sf
 import yaml
 from characters import CHARACTERS
@@ -37,13 +36,16 @@ def main():
     character_name = config["prompt_template_character"]
     character = CHARACTERS[character_name]
     prompt_template = character.prompt
-    results = pipeline.run(args.query_audio, language, prompt_template, speaker)
     logger.info(
         f"Input: {args.query_audio}, Output: {args.output_audio}, ASR results: {results['asr_text']}, LLM results: {results['llm_text']}"
     )
-    svs_audio, svs_sample_rate = results["svs_audio"]
-    args.output_audio.parent.mkdir(parents=True, exist_ok=True)
-    sf.write(args.output_audio, svs_audio, svs_sample_rate)
 if __name__ == "__main__":

 from logging import getLogger
 from pathlib import Path
 import yaml
 from characters import CHARACTERS
     character_name = config["prompt_template_character"]
     character = CHARACTERS[character_name]
     prompt_template = character.prompt
+    results = pipeline.run(
+        args.query_audio,
+        language,
+        prompt_template,
+        speaker,
+        output_audio_path=args.output_audio,
+    )
     logger.info(
         f"Input: {args.query_audio}, Output: {args.output_audio}, ASR results: {results['asr_text']}, LLM results: {results['llm_text']}"
     )
 if __name__ == "__main__":

interface.py CHANGED Viewed

@@ -1,3 +1,6 @@
 import gradio as gr
 import yaml
@@ -201,29 +204,29 @@ class GradioInterface:
         return gr.update(value=self.current_melody_source)
     def update_voice(self, voice):
-        self.current_voice = self.svs_model_map[self.current_svs_model]["voices"][
-            voice
-        ]
         return gr.update(value=voice)
     def run_pipeline(self, audio_path):
         if not audio_path:
             return gr.update(value=""), gr.update(value="")
         results = self.pipeline.run(
             audio_path,
             self.svs_model_map[self.current_svs_model]["lang"],
             self.character_info[self.current_character].prompt,
             self.current_voice,
-            max_new_tokens=100,
         )
         formatted_logs = f"ASR: {results['asr_text']}\nLLM: {results['llm_text']}"
-        return gr.update(value=formatted_logs), gr.update(value=results["svs_audio"])
     def update_metrics(self, audio_path):
         if not audio_path:
             return gr.update(value="")
         results = self.pipeline.evaluate(audio_path)
-        formatted_metrics = "\n".join(
-            [f"{k}: {v}" for k, v in results.items()]
-        )
         return gr.update(value=formatted_metrics)

+import time
+import uuid
 import gradio as gr
 import yaml
         return gr.update(value=self.current_melody_source)
     def update_voice(self, voice):
+        self.current_voice = self.svs_model_map[self.current_svs_model]["voices"][voice]
         return gr.update(value=voice)
     def run_pipeline(self, audio_path):
         if not audio_path:
             return gr.update(value=""), gr.update(value="")
+        tmp_file = f"audio_{int(time.time())}_{uuid.uuid4().hex[:8]}.wav"
         results = self.pipeline.run(
             audio_path,
             self.svs_model_map[self.current_svs_model]["lang"],
             self.character_info[self.current_character].prompt,
             self.current_voice,
+            output_audio_path=tmp_file,
+            max_new_tokens=50,
         )
         formatted_logs = f"ASR: {results['asr_text']}\nLLM: {results['llm_text']}"
+        return gr.update(value=formatted_logs), gr.update(
+            value=results["output_audio_path"]
+        )
     def update_metrics(self, audio_path):
         if not audio_path:
             return gr.update(value="")
         results = self.pipeline.evaluate(audio_path)
+        formatted_metrics = "\n".join([f"{k}: {v}" for k, v in results.items()])
         return gr.update(value=formatted_metrics)

pipeline.py CHANGED Viewed

@@ -1,6 +1,11 @@
-import torch
 import time
 import librosa
 from modules.asr import get_asr_model
 from modules.llm import get_llm_model
@@ -57,7 +62,8 @@ class SingingDialoguePipeline:
         language,
         prompt_template,
         speaker,
-        max_new_tokens=100,
     ):
         if self.track_latency:
             asr_start_time = time.time()
@@ -76,7 +82,9 @@ class SingingDialoguePipeline:
         if self.track_latency:
             llm_end_time = time.time()
             llm_latency = llm_end_time - llm_start_time
-        llm_response = clean_llm_output(output, language=language, max_sentences=self.max_sentences)
         score = self.melody_controller.generate_score(llm_response, language)
         if self.track_latency:
             svs_start_time = time.time()
@@ -89,8 +97,12 @@ class SingingDialoguePipeline:
         results = {
             "asr_text": asr_result,
             "llm_text": llm_response,
-            "svs_audio": (singing_audio, sample_rate),
         }
         if self.track_latency:
             results["metrics"] = {
                 "asr_latency": asr_latency,

+from __future__ import annotations
 import time
+from pathlib import Path
 import librosa
+import soundfile as sf
+import torch
 from modules.asr import get_asr_model
 from modules.llm import get_llm_model
         language,
         prompt_template,
         speaker,
+        output_audio_path: Path | str = None,
+        max_new_tokens=50,
     ):
         if self.track_latency:
             asr_start_time = time.time()
         if self.track_latency:
             llm_end_time = time.time()
             llm_latency = llm_end_time - llm_start_time
+        llm_response = clean_llm_output(
+            output, language=language, max_sentences=self.max_sentences
+        )
         score = self.melody_controller.generate_score(llm_response, language)
         if self.track_latency:
             svs_start_time = time.time()
         results = {
             "asr_text": asr_result,
             "llm_text": llm_response,
+            "svs_audio": (sample_rate, singing_audio),
         }
+        if output_audio_path:
+            Path(output_audio_path).parent.mkdir(parents=True, exist_ok=True)
+            sf.write(output_audio_path, singing_audio, sample_rate)
+            results["output_audio_path"] = output_audio_path
         if self.track_latency:
             results["metrics"] = {
                 "asr_latency": asr_latency,