xtts-v2

Paused

App Files Files Community

kevinwang676 commited on Apr 5, 2024

Commit

511178e

verified ·

1 Parent(s): 2ca6f14

Update app_srt.py

Browse files

Files changed (1) hide show

app_srt.py +66 -9

app_srt.py CHANGED Viewed

@@ -8,6 +8,38 @@ import time
 import torch
 import torchaudio
 import gradio as gr
 #download for mecab
 os.system('python -m unidic download')
@@ -478,7 +510,7 @@ def trim_audio(intervals, input_file_path, output_file_path):
         segment = audio[start_time*1000:end_time*1000]
         # construct the output file path
-        output_file_path_i = f"{output_file_path}_{i}.wav"
         # export the segment to a file
         segment.export(output_file_path_i, format='wav')
@@ -507,14 +539,37 @@ def merge_audios(input_dir):
     combined.export(output_file, format="wav")
     return "AI配音版.wav"
-def convert_from_srt(filename, audio_full, language):
     subtitle_list = read_srt(filename)
-    for i in subtitle_list:
-        os.makedirs("output", exist_ok=True)
-        print(f"正在合成第{i.index}条语音")
-        print(f"语音内容：{i.text}")
-        trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
-        predict(i.text, language, f"sliced_audio_{i.index}_0.wav", i.text + " " + str(i.index))
     return merge_audios("output")
 with gr.Blocks() as app:
@@ -549,11 +604,13 @@ with gr.Blocks() as app:
                 max_choices=1,
                 value="en",
             )
             btn = gr.Button("一键开启AI配音吧💕", variant="primary")
         with gr.Column():
             out1 = gr.Audio(label="为您生成的AI完整配音")
-        btn.click(convert_from_srt, [inp1, inp2, inp3], [out1])
     gr.Markdown("### <center>注意❗：请不要生成会对任何个人或组织造成侵害的内容。</center>")
     gr.HTML('''

 import torch
 import torchaudio
 import gradio as gr
+import shutil
+# mp4 to wav and denoising
+import ffmpeg
+import urllib.request
+urllib.request.urlretrieve("https://download.openxlab.org.cn/models/Kevin676/rvc-models/weight/UVR-HP2.pth", "uvr5/uvr_model/UVR-HP2.pth")
+urllib.request.urlretrieve("https://download.openxlab.org.cn/models/Kevin676/rvc-models/weight/UVR-HP5.pth", "uvr5/uvr_model/UVR-HP5.pth")
+from uvr5.vr import AudioPre
+weight_uvr5_root = "uvr5/uvr_model"
+uvr5_names = []
+for name in os.listdir(weight_uvr5_root):
+    if name.endswith(".pth") or "onnx" in name:
+        uvr5_names.append(name.replace(".pth", ""))
+func = AudioPre
+pre_fun_hp2 = func(
+  agg=int(10),
+  model_path=os.path.join(weight_uvr5_root, "UVR-HP2.pth"),
+  device="cuda",
+  is_half=True,
+)
+pre_fun_hp5 = func(
+  agg=int(10),
+  model_path=os.path.join(weight_uvr5_root, "UVR-HP5.pth"),
+  device="cuda",
+  is_half=True,
+)
+# mp4 to wav and denoising ending
 #download for mecab
 os.system('python -m unidic download')
         segment = audio[start_time*1000:end_time*1000]
         # construct the output file path
+        output_file_path_i = f"./sliced/{output_file_path}_{i}.wav"
         # export the segment to a file
         segment.export(output_file_path_i, format='wav')
     combined.export(output_file, format="wav")
     return "AI配音版.wav"
+def convert_from_srt(filename, video_full, language, split_model, multilingual):
     subtitle_list = read_srt(filename)
+    ffmpeg.input(video_full).output("audio_full.wav", ac=2, ar=44100).run()
+    if split_model=="UVR-HP2":
+        pre_fun = pre_fun_hp2
+    else:
+        pre_fun = pre_fun_hp5
+    pre_fun._path_audio_("audio_full.wav", f"./denoised/{split_model}/{filename}/", f"./denoised/{split_model}/{filename}/", "wav")
+    shutil.rmtree("output")
+    shutil.rmtree("sliced")
+    if multilingual==False:
+        for i in subtitle_list:
+            os.makedirs("output", exist_ok=True)
+            os.makedirs("sliced", exist_ok=True)
+            trim_audio([[i.start_time, i.end_time]], f"./denoised/{split_model}/{filename}/vocal_{filename}.wav_10.wav", f"./sliced/sliced_audio_{i.index}")
+            print(f"正在合成第{i.index}条语音")
+            print(f"语音内容：{i.text}")
+            predict(i.text, language, f"./sliced/sliced_audio_{i.index}_0.wav", i.text + " " + str(i.index))
+    else:
+        for i in subtitle_list:
+            os.makedirs("output", exist_ok=True)
+            os.makedirs("sliced", exist_ok=True)
+            trim_audio([[i.start_time, i.end_time]], f"./denoised/{split_model}/{filename}/vocal_{filename}.wav_10.wav", f"./sliced/sliced_audio_{i.index}")
+            print(f"正在合成第{i.index}条语音")
+            print(f"语音内容：{i.text.splitlines()[1]}")
+            predict(i.text.splitlines()[1], language, f"./sliced/sliced_audio_{i.index}_0.wav", i.text.splitlines()[1] + " " + str(i.index))
     return merge_audios("output")
 with gr.Blocks() as app:
                 max_choices=1,
                 value="en",
             )
+            inp4 = gr.Dropdown(label="请选择用于分离伴奏的模型", info="UVR-HP5去除背景音乐效果更好，但会对人声造成一定的损伤", choices=["UVR-HP2", "UVR-HP5"], value="UVR-HP5")
+            inp5 = gr.Checkbox(label="SRT文件是否为双语字幕", info="若为双语字幕，请打勾选择")
             btn = gr.Button("一键开启AI配音吧💕", variant="primary")
         with gr.Column():
             out1 = gr.Audio(label="为您生成的AI完整配音")
+        btn.click(convert_from_srt, [inp1, inp2, inp3, inp4, inp5], [out1])
     gr.Markdown("### <center>注意❗：请不要生成会对任何个人或组织造成侵害的内容。</center>")
     gr.HTML('''