Spaces:

LangTech-MT
/

document-translator

Sleeping

App Files Files Community

mjuvilla commited on Apr 29

Commit

0b349b6

1 Parent(s): 164a644

added language dropdown menus to document translation tab

Browse files

Files changed (2) hide show

gradio_app.py +23 -12
src/translate_any_doc.py +1 -1

gradio_app.py CHANGED Viewed

@@ -1,37 +1,48 @@
 import gradio as gr
-from src.translate_any_doc import translate_document, translate
 from src.aligner import Aligner
 from nltk.tokenize.treebank import TreebankWordDetokenizer
-ip='10.192.31.127'
 config_folder = 'fast_align_config'
-source_lang = 'en'
-target_lang = 'ca'
 temp_folder = 'tmp'
-aligner = Aligner(config_folder, source_lang, target_lang, temp_folder)
 detokenizer = TreebankWordDetokenizer()
-def upload_file(filepath):
-    translated_file_name = translate_document(filepath, source_lang, target_lang, aligner, detokenizer, ip)
-    return [gr.UploadButton(visible=False), gr.DownloadButton(label=f"Download {translated_file_name}", value=translated_file_name, visible=True)]
 def download_file():
     return [gr.UploadButton(visible=True), gr.DownloadButton(visible=False)]
 with gr.Blocks() as demo:
     with gr.Tab("Text"):
-        gr.Interface(fn=translate, inputs=["text","text","text"], outputs="text")
     with gr.Tab("Docx documents"):
         gr.Markdown("First upload a file and and then you'll be able download it (but only once!)")
         with gr.Row():
             u = gr.UploadButton("Upload a file", file_count="single")
             d = gr.DownloadButton("Download the file", visible=False)
-        u.upload(upload_file, u, [u, d])
         d.click(download_file, None, [u, d])
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+from src.translate_any_doc import translate_document
+from src.salamandraTA7b_translator import SalamandraTA7bTranslator
+from src.mtuoc_aina_translator import MTUOCAinaTranslator
 from src.aligner import Aligner
 from nltk.tokenize.treebank import TreebankWordDetokenizer
 config_folder = 'fast_align_config'
 temp_folder = 'tmp'
+hf_token = ""
 detokenizer = TreebankWordDetokenizer()
+translator = SalamandraTA7bTranslator(hf_token)
+# ip = ''
+# port = ''
+# translator = MTUOCAinaTranslator(ip, port)
+def upload_file(filepath, source_lang, target_lang):
+    aligner = Aligner(config_folder, source_lang, target_lang, temp_folder)
+    translated_file_name = translate_document(filepath, source_lang, target_lang, translator, aligner, detokenizer)
+    return [gr.UploadButton(visible=False),
+            gr.DownloadButton(label=f"Download {translated_file_name}", value=translated_file_name, visible=True)]
 def download_file():
     return [gr.UploadButton(visible=True), gr.DownloadButton(visible=False)]
 with gr.Blocks() as demo:
     with gr.Tab("Text"):
+        gr.Interface(fn=translator.translate, inputs=["text", "text", "text"], outputs="text")
     with gr.Tab("Docx documents"):
+        with gr.Row():
+            dropdown1 = gr.Dropdown(label="Source language", choices=["en", "ca"], value=None,
+                                    interactive=True)
+            dropdown2 = gr.Dropdown(label="Target language", choices=["en", "ca"], value=None, interactive=True)
         gr.Markdown("First upload a file and and then you'll be able download it (but only once!)")
         with gr.Row():
             u = gr.UploadButton("Upload a file", file_count="single")
             d = gr.DownloadButton("Download the file", visible=False)
+        u.upload(upload_file, [u, dropdown1, dropdown2], [u, d])
         d.click(download_file, None, [u, d])
 if __name__ == "__main__":
     demo.launch()

src/translate_any_doc.py CHANGED Viewed

@@ -44,7 +44,7 @@ def doc_to_plain_text(input_file: str, source_lang: str, target_lang: str, tikal
     return os.path.join(original_xliff_file_path + f".{source_lang}")
-def get_runs_from_paragraph(text: str, paragraph_index: int) -> list[dict[str, str]]:
     """
     Given some text that may or may not contain some chunks tagged with something like <g id=1> </g>, extract each
     of the runs of text and convert them into dictionaries to keep this information

     return os.path.join(original_xliff_file_path + f".{source_lang}")
+def get_runs_from_paragraph(text: str, paragraph_index: int) ->  list[dict[str, str | tuple[str, ...]]]:
     """
     Given some text that may or may not contain some chunks tagged with something like <g id=1> </g>, extract each
     of the runs of text and convert them into dictionaries to keep this information