Kokoro-API-2

Sleeping

App Files Files Community

Yaron Koresh commited on Jan 21

Commit

bf9773d

verified ·

1 Parent(s): aa7cc5b

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -12

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
-# built-in
 from collections import namedtuple
 from inspect import signature
 import os
@@ -555,7 +554,7 @@ def get_tensor_length(tensor):
         ret = ret * num
     return ret
-def summarize_text(
     text, max_len=20, min_len=10
 ):
     log(f'CALL summarize_text')
@@ -564,12 +563,12 @@ def summarize_text(
     while get_tensor_length(inputs) > max_len:
         print(f'DBG summarize_text 1 {i}')
         outputs = model.generate(
-            inputs[:512],
-            max_length=max_len,
-            min_length=min_len,
             length_penalty=2.0,
-            num_beams=4,
-            early_stopping=True
         )
         inputs = torch.tensor([[*list(outputs[0]), *list(inputs[0][512:])]])
         i = i + 1
@@ -631,6 +630,25 @@ def all_pipes(pos,neg,artist,song):
     return imgs
 @spaces.GPU(duration=300)
 def handle_generation(artist,song,genre,lyrics):
@@ -644,11 +662,11 @@ def handle_generation(artist,song,genre,lyrics):
     pos_genre = ' '.join(word[0].upper() + word[1:] for word in pos_genre.split())
     pos_lyrics = re.sub(f'[{punctuation}]', '', re.sub("([ \t\n]){1,}", " ", lyrics)).lower().strip()
-    pos_lyrics_sum = pos_lyrics if pos_lyrics == "" else summarize_text(pos_lyrics)
     neg = f"Sexuality, Humanity, Textual, Labeled, Distorted, Discontinuous, Blurry, Doll-Like, Overly Plastic, Low-Quality, Painted, Smoothed, Artificial, Phony, Gaudy, Digital Effects."
     q = "\""
-    pos = f'HQ Hyper-realistic { pos_genre } song "{ pos_song }"{ pos_lyrics_sum if pos_lyrics_sum == "" else ": " + pos_lyrics_sum }.'
     print(f"""
         Positive: {pos}
@@ -693,13 +711,13 @@ if __name__ == "__main__":
                         max_lines=1
                 )
                 genre = gr.Textbox(
-                        placeholder="Genre (English)",
                         value="",
                         container=False,
                         max_lines=1
                 )
                 lyrics = gr.Textbox(
-                    placeholder="Lyrics (English)",
                     value="",
                     container=False,
                     max_lines=1

+from langdetect import detect as get_language
 from collections import namedtuple
 from inspect import signature
 import os
         ret = ret * num
     return ret
+def summarize(
     text, max_len=20, min_len=10
 ):
     log(f'CALL summarize_text')
     while get_tensor_length(inputs) > max_len:
         print(f'DBG summarize_text 1 {i}')
         outputs = model.generate(
+            inputs[0][:512],
             length_penalty=2.0,
+            num_beams=max(8,get_tensor_length(inputs)),
+            early_stopping=True,
+            max_length=max( get_tensor_length(inputs) // 4 , max_len ),
+            min_length=min_len
         )
         inputs = torch.tensor([[*list(outputs[0]), *list(inputs[0][512:])]])
         i = i + 1
     return imgs
+def translate(txt,to_lang="en",from_lang=False):
+    log(f'CALL translate')
+    if not from_lang:
+        from_lang = get_language(txt)
+    if(from_lang == to_lang):
+        log(f'RET translate with txt as {txt}')
+        return txt
+    inputs = tokenizer.encode(f"translate {from_lang} to {to_lang}: " + text, return_tensors="pt", max_length=float('inf'), truncation=False)
+    chunks_length = math.ceil(get_tensor_length(inputs) / 512):
+    ret = ""
+    for index in range(chunks_length):
+        ret = ret + ("" if ret == "" else " ") + tokenizer.decode(
+            model.generate(
+                inputs[0][ index*512:index*512+512 ]
+            )[0]
+        )
+    log(f'RET translate with ret as {ret}')
+    return ret
 @spaces.GPU(duration=300)
 def handle_generation(artist,song,genre,lyrics):
     pos_genre = ' '.join(word[0].upper() + word[1:] for word in pos_genre.split())
     pos_lyrics = re.sub(f'[{punctuation}]', '', re.sub("([ \t\n]){1,}", " ", lyrics)).lower().strip()
+    pos_lyrics_sum = pos_lyrics if pos_lyrics == "" else summarize(pos_lyrics)
     neg = f"Sexuality, Humanity, Textual, Labeled, Distorted, Discontinuous, Blurry, Doll-Like, Overly Plastic, Low-Quality, Painted, Smoothed, Artificial, Phony, Gaudy, Digital Effects."
     q = "\""
+    pos = f'HQ Hyper-realistic { translate(pos_genre) } song "{ translate(pos_song) }"{ pos_lyrics_sum if pos_lyrics_sum == "" else ": " + translate(pos_lyrics_sum) }.'
     print(f"""
         Positive: {pos}
                         max_lines=1
                 )
                 genre = gr.Textbox(
+                        placeholder="Genre",
                         value="",
                         container=False,
                         max_lines=1
                 )
                 lyrics = gr.Textbox(
+                    placeholder="Lyrics",
                     value="",
                     container=False,
                     max_lines=1