Spaces:

lalalic
/

xtts

Sleeping

App Files Files Community

lalalic commited on Mar 28, 2024

Commit

1056749

verified ·

1 Parent(s): 49be9bd

Update xtts.py

Browse files

Files changed (1) hide show

xtts.py +26 -48

xtts.py CHANGED Viewed

@@ -1,27 +1,12 @@
-import re, io, os, stat, logging
-import tempfile, subprocess
 import requests
 import torch
 import traceback
-import numpy as np
-import scipy
 from TTS.api import TTS
-import torch
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
-from qili import upload, upload_bytes
-# def upload_bytes(bytes, ext=".wav"):
-#     return bytes
-# def upload(file):
-#     return file
-# if __name__ == "__main__":
-#     app = Flask(__name__)
-# else:
-#     app = Blueprint("xtts", __name__)
 tts=None
 model=None
@@ -34,6 +19,13 @@ if not os.path.exists(sample_root):
 default_sample=f'{os.path.dirname(os.path.abspath(__file__))}/sample.wav', f'{sample_root}/sample.pt'
 ffmpeg=f'{os.path.dirname(os.path.abspath(__file__))}/ffmpeg'
 def predict(text, sample=None, language="zh"):
     get_tts()
     global tts
@@ -41,29 +33,14 @@ def predict(text, sample=None, language="zh"):
     try:
         text= re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)",r"\1 \2\2",text)
         output=tempfile.mktemp(suffix=".wav")
-        wav = tts.tts_to_file(
             text,
             language=language if language is not None else "zh",
             speaker_wav=sample if sample is not None else default_sample[0],
             file_path=output
         )
         output=to_mp3(output)
         return upload(output)[0]
-        with io.BytesIO() as wav_buffer:
-            if torch.is_tensor(wav):
-                wav = wav.cpu().numpy()
-            if isinstance(wav, list):
-                wav = np.array(wav)
-            wav_norm = wav * (32767 / max(0.01, np.max(np.abs(wav))))
-            wav_norm = wav_norm.astype(np.int16)
-            scipy.io.wavfile.write(wav_buffer, tts.synthesizer.output_sample_rate, wav_norm)
-            wav_bytes = wav_buffer.getvalue()
-            url= upload_bytes(wav_bytes, ext=".wav")
-            logging.debug(f'wav is at {url}')
-            return url
     except Exception as e:
         traceback.print_exc()
         return str(e)
@@ -131,6 +108,8 @@ def trim_sample_audio(speaker_wav):
             capture_output=False,
             text=True,
             check=True,
         )
         return out_filename
     except:
@@ -147,12 +126,18 @@ def to_mp3(wav):
             capture_output=False,
             text=True,
             check=True,
         )
         return mp3
     except:
         traceback.print_exc()
         return wav
 from flask import Flask, request
 app = Flask(__name__)
@@ -161,17 +146,11 @@ def convert():
     text = request.args.get('text')
     sample = request.args.get('sample')
     language = request.args.get('language')
-# from fastapi import FastAPI as App, Query
-# app=App()
-# @app.get("/url")
-# def convert(text: str=Query(None), sample: str=Query(None), language: str=Query('zh')):
     if text is None:
         return 'text is missing', 400
     return predict(text, sample, language)
-# @app.get("/play")
-# def play(text: str=Query(None), sample: str=Query(None), language: str=Query('zh')):
 @app.route("/tts/play")
 def tts_play():
     url=convert()
@@ -183,17 +162,16 @@ def get_tts():
     global tts
     global model
     if tts is None:
-        model_dir=os.environ.get("MODEL_DIR")
-        model_path=model_dir
-        config_path=f'{model_dir}/config.json'
-        vocoder_config_path=f'{model_dir}/vocab.json'
         model_name="tts_models/multilingual/multi-dataset/xtts_v2"
         logging.info(f"loading model {model_name} ...")
         tts = TTS(
-            # model_name,
-            model_path=model_path,
-            config_path=config_path,
-            vocoder_config_path=vocoder_config_path,
             progress_bar=True
         )
         model=tts.synthesizer.tts_model

+import re, os, logging, tempfile, subprocess
 import requests
 import torch
 import traceback
 from TTS.api import TTS
+bLOCAL=not bool(os.environ.get('api'))
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 tts=None
 model=None
 default_sample=f'{os.path.dirname(os.path.abspath(__file__))}/sample.wav', f'{sample_root}/sample.pt'
 ffmpeg=f'{os.path.dirname(os.path.abspath(__file__))}/ffmpeg'
+if bLOCAL:
+    def upload(file):
+        return file
+else:
+    from qili import upload
 def predict(text, sample=None, language="zh"):
     get_tts()
     global tts
     try:
         text= re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)",r"\1 \2\2",text)
         output=tempfile.mktemp(suffix=".wav")
+        tts.tts_to_file(
             text,
             language=language if language is not None else "zh",
             speaker_wav=sample if sample is not None else default_sample[0],
             file_path=output
         )
         output=to_mp3(output)
         return upload(output)[0]
     except Exception as e:
         traceback.print_exc()
         return str(e)
             capture_output=False,
             text=True,
             check=True,
+            stdout=subprocess.DEVNULL,
+            stderr=subprocess.DEVNULL,
         )
         return out_filename
     except:
             capture_output=False,
             text=True,
             check=True,
+            stdout=subprocess.DEVNULL,
+            stderr=subprocess.DEVNULL,
         )
         return mp3
     except:
         traceback.print_exc()
         return wav
+# if __name__ == "__main__":
+#     app = Flask(__name__)
+# else:
+#     app = Blueprint("xtts", __name__)
 from flask import Flask, request
 app = Flask(__name__)
     text = request.args.get('text')
     sample = request.args.get('sample')
     language = request.args.get('language')
     if text is None:
         return 'text is missing', 400
     return predict(text, sample, language)
 @app.route("/tts/play")
 def tts_play():
     url=convert()
     global tts
     global model
     if tts is None:
+        model_path=os.environ.get("MODEL_DIR")
+        config_path=f'{model_path}/config.json'
+        vocoder_config_path=f'{model_path}/vocab.json'
         model_name="tts_models/multilingual/multi-dataset/xtts_v2"
         logging.info(f"loading model {model_name} ...")
         tts = TTS(
+            model_name if bLOCAL else None,
+            model_path=model_path if not bLOCAL else None,
+            config_path=config_path if not bLOCAL else None,
+            vocoder_config_path=vocoder_config_path if not bLOCAL else None,
             progress_bar=True
         )
         model=tts.synthesizer.tts_model