Kokoro-API-5

Sleeping

Yaron Koresh commited on Jan 21

Commit

f62d95d

verified ·

1 Parent(s): ede445b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -561,7 +561,7 @@ def summarize(
     words = text.split()
-    if get_tensor_length(words) < 5:
         print("Summarization Error: Text is too short, 5 words minimum!")
         return text
@@ -571,7 +571,7 @@ def summarize(
     for index in range(math.ceil( len(words) / 512 )):
         chunk = " ".join(words[ index*512:(index+1)*512 ])
-        inputs = tokenizer.encode( prefix + chunk, return_tensors="pt", max_length=float('inf'), truncation=False)
         while get_tensor_length(inputs) > max_len:
@@ -587,7 +587,7 @@ def summarize(
         toks = tokenizer.decode(inputs[0], skip_special_tokens=True)
         ret = ret + ("" if ret == "" else " ") + toks
-    inputs = tokenizer.encode( prefix + ret, return_tensors="pt", max_length=float('inf'), truncation=False)
     gen = model.generate(
         inputs,
         length_penalty=1.0,
@@ -723,9 +723,10 @@ def translate(txt,to_lang="en",from_lang=False):
     words = txt.split()
     ret = ""
     for index in range(math.ceil( len(words) / 512 )):
-        chunk = " ".join(words[ index*512:(index+1)*512 ])
-        inputs = tokenizer.encode(prefix+chunk, return_tensors="pt", max_length=float('inf'), truncation=False)
-        gen = model.generate(inputs)
         toks = tokenizer.decode(gen[0], skip_special_tokens=True)
         ret = ret + ("" if ret == "" else " ") + toks
     log(f'RET translate with ret as {ret}')

     words = text.split()
+    if len(words) < 5:
         print("Summarization Error: Text is too short, 5 words minimum!")
         return text
     for index in range(math.ceil( len(words) / 512 )):
         chunk = " ".join(words[ index*512:(index+1)*512 ])
+        inputs = tokenizer.encode( prefix + chunk, return_tensors="pt", truncation=False)
         while get_tensor_length(inputs) > max_len:
         toks = tokenizer.decode(inputs[0], skip_special_tokens=True)
         ret = ret + ("" if ret == "" else " ") + toks
+    inputs = tokenizer.encode( prefix + ret, return_tensors="pt", truncation=False)
     gen = model.generate(
         inputs,
         length_penalty=1.0,
     words = txt.split()
     ret = ""
     for index in range(math.ceil( len(words) / 512 )):
+        chunk = " ".join(words[index*512:(index+1)*512])
+        log(f'DBG translate chunk is {chunk}')
+        inputs = tokenizer.encode(prefix+chunk, return_tensors="pt", truncation=False)
+        gen = model.generate(inputs,num_beams=3)
         toks = tokenizer.decode(gen[0], skip_special_tokens=True)
         ret = ret + ("" if ret == "" else " ") + toks
     log(f'RET translate with ret as {ret}')