Spaces:

VIDraft
/

voice-trans

Running on Zero

File size: 9,517 Bytes

effad1c
6b6f26e
 
 
 
 
 
 
 
 
effad1c
 
b3067c5
6b6f26e
6bdc489
6b6f26e
 
b3067c5
6b6f26e
6bdc489
 
 
a609646
 
6bdc489
32b3c75
a609646
 
 
32b3c75
5897b48
392a5eb
 
 
5897b48
effad1c
fd022eb
6b6f26e
 
fd022eb
6b6f26e
 
effad1c
 
6b6f26e
392a5eb
6b6f26e
a609646
 
 
392a5eb
6b6f26e
 
392a5eb
a609646
effad1c
5897b48
a609646
 
6b6f26e
 
5897b48
392a5eb
5897b48
 
6b6f26e
 
a609646
 
6b6f26e
fd022eb
6b6f26e
 
 
 
a609646
6b6f26e
 
 
a609646
6b6f26e
 
 
 
 
 
 
 
 
 
fd022eb
6b6f26e
 
 
 
 
fd022eb
6b6f26e
 
 
 
 
 
 
 
fd022eb
6b6f26e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7cce69a
 
6b6f26e
392a5eb
6b6f26e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
392a5eb
6b6f26e
 
 
 
 
 
 
 
 
 
 
392a5eb
 
6b6f26e
 
 
 
 
 
 
 
 
 
 
 
b3067c5
6b6f26e

"""
SMARTok 실시간 다국어 데모 (완전 수정본)
────────────────────────────────────────────
• 탭1  🎙️ 오디오 번역            : 마이크/파일 → 번역 + TTS
• 탭2  📄 문서·이미지 번역        : PDF / 이미지(OCR) → 번역
• 탭3  ⏱️ 실시간 1언어 번역       : 마이크 → 1개 언어 실시간 자막
• 탭4  🌏 실시간 4개 언어 번역    : 마이크 → 영·중·태·러 동시 자막
────────────────────────────────────────────
필수 apt  : tesseract-ocr libtesseract-dev ocrmypdf ffmpeg
필수 pip  : gradio>=5.33 openai python-dotenv pdfplumber ocrmypdf pillow
"""

import gradio as gr
import openai, os, io, tempfile, mimetypes, json, uuid
from dotenv import load_dotenv
import pdfplumber, ocrmypdf
from PIL import Image

# ────────────── 0. 공통 초기화 ────────────────────────────────────
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
if not api_key:
    raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
client = openai.OpenAI(api_key=api_key)

LANGUAGES = [
    "Korean", "English", "Japanese", "Chinese",
    "Thai", "Russian", "Vietnamese",
    "Spanish", "French"
]
LANG_CODE = {
    "Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
    "Thai":"th","Russian":"ru","Vietnamese":"vi",
    "Spanish":"es","French":"fr"
}
VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
         for l in LANGUAGES}
FOUR = ["English","Chinese","Thai","Russian"]
STREAM_SEC = 4   # Whisper 호출 주기

# ────────────── 1. 유틸 함수 ─────────────────────────────────────
def _safe(v):
    if v is None:
        return None
    return v["name"] if isinstance(v, dict) else v

def _gpt(text, src, tgt):
    rsp = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role":"system",
             "content":f"Translate the following {src} text to {tgt}. "
                        "Return only the translation."},
            {"role":"user","content":text}
        ],
        temperature=0.3,max_tokens=4096
    )
    return rsp.choices[0].message.content.strip()

def _tts(text, lang):
    rsp = client.audio.speech.create(
        model="tts-1",
        voice=VOICE.get(lang,"alloy"),
        input=text[:4096]
    )
    tmp = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
    tmp.write(rsp.content); tmp.close()
    return tmp.name

# ────────────── 2. 오디오(단건) 번역 ─────────────────────────────
def translate_audio(audio_in, src, tgt):
    p = _safe(audio_in)
    if not p or not os.path.exists(p):
        return "⚠️ 음성 파일 필요", "", None
    with open(p,"rb") as f:
        stt = client.audio.transcriptions.create(
            model="whisper-1", file=f, language=LANG_CODE.get(src))
    orig = stt.text.strip()
    if not orig:
        return "⚠️ 음성 인식 실패", "", None
    trans = _gpt(orig, src, tgt)
    return orig, trans, _tts(trans, tgt)

# ────────────── 3. 문서 / 이미지 번역 ────────────────────────────
def translate_doc(file_in, src, tgt):
    p = _safe(file_in)
    if not p or not os.path.exists(p):
        return "⚠️ PDF/이미지 업로드", ""
    ext = os.path.splitext(p)[1].lower()
    mime = mimetypes.guess_type(p)[0] or ""
    try:
        # PDF 그대로
        if ext==".pdf" or "pdf" in mime:
            with pdfplumber.open(p) as pdf:
                txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages[:5])
        # 이미지 → OCR PDF
        else:
            img_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            Image.open(p).save(img_pdf,"PDF")
            ocr_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            ocrmypdf.ocr(img_pdf, ocr_pdf,
                         lang=LANG_CODE.get(src,"eng"),
                         deskew=True,optimize=0,progress_bar=False)
            with pdfplumber.open(ocr_pdf) as pdf:
                txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages)
    except Exception as e:
        return f"❌ 추출 오류: {e}", ""
    txt = txt.strip()
    if not txt:
        return "⚠️ 텍스트 추출 실패", ""
    return txt, _gpt(txt, src, tgt)

# ────────────── 4. 실시간 1언어 ──────────────────────────────────
def stream_single(audio_path, src, tgt, state):
    state = state or {"orig":"", "trans":""}
    if not audio_path or not os.path.exists(audio_path):
        return state["orig"], state["trans"], state
    with open(audio_path,"rb") as f:
        stt = client.audio.transcriptions.create(
            model="whisper-1", file=f, language=LANG_CODE.get(src))
    full = stt.text.strip()
    new = full[len(state["orig"]):]
    if new:
        state["orig"] = full
        state["trans"] += " " + _gpt(new, src, tgt)
    return state["orig"], state["trans"].strip(), state

# ────────────── 5. 실시간 4언어 ──────────────────────────────────
def stream_multi(audio_path, src, state):
    state = state or {k:"" for k in ["orig"]+FOUR}
    if not audio_path or not os.path.exists(audio_path):
        return state["orig"],state["English"],state["Chinese"],state["Thai"],state["Russian"],state
    with open(audio_path,"rb") as f:
        stt = client.audio.transcriptions.create(
            model="whisper-1", file=f, language=LANG_CODE.get(src))
    full = stt.text.strip()
    new = full[len(state["orig"]):]
    if new:
        state["orig"] = full
        for lang in FOUR:
            state[lang] += " " + _gpt(new, src, lang)
    return (state["orig"].strip(),
            state["English"].strip(),
            state["Chinese"].strip(),
            state["Thai"].strip(),
            state["Russian"].strip(),
            state)

# ────────────── 6. Gradio UI ───────────────────────────────────
with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
    with gr.Tabs():
        # 탭 1
        with gr.TabItem("🎙️ 오디오 번역"):
            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
            aud1 = gr.Audio(sources=["microphone","upload"],type="filepath")
            res1 = gr.Button("번역")
            o1   = gr.Textbox(label="원문",lines=5)
            t1   = gr.Textbox(label="번역",lines=5)
            a1   = gr.Audio(label="TTS",type="filepath",autoplay=True)
            res1.click(translate_audio,[aud1,src1,tgt1],[o1,t1,a1])

        # 탭 2
        with gr.TabItem("📄 문서·이미지 번역"):
            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
            file2= gr.File(label="PDF/이미지 업로드",
                           file_types=[".pdf",".png",".jpg",".jpeg",
                                       ".bmp",".tiff",".gif"])
            doc2 = gr.Button("번역")
            o2   = gr.Textbox(label="추출 원문",lines=15)
            t2   = gr.Textbox(label="번역 결과",lines=15)
            doc2.click(translate_doc,[file2,src2,tgt2],[o2,t2])

        # 탭 3
        with gr.TabItem("⏱️ 실시간 1언어"):
            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
            mic3 = gr.Audio(sources=["microphone"],streaming=True)
            o3   = gr.Textbox(label="원문(실시간)",lines=8)
            t3   = gr.Textbox(label="번역(실시간)",lines=8)
            st3  = gr.State()
            mic3.stream(stream_single,
                        inputs=[src3,tgt3,st3],
                        outputs=[o3,t3,st3])

        # 탭 4
        with gr.TabItem("🌏 실시간 4개 언어"):
            src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
            mic4 = gr.Audio(sources=["microphone"],streaming=True)
            o4   = gr.Textbox(label="원문",lines=8)
            e4   = gr.Textbox(label="English",lines=8)
            c4   = gr.Textbox(label="Chinese(简体)",lines=8)
            th4  = gr.Textbox(label="Thai",lines=8)
            r4   = gr.Textbox(label="Russian",lines=8)
            st4  = gr.State()
            mic4.stream(stream_multi,
                        inputs=[src4,st4],
                        outputs=[o4,e4,c4,th4,r4,st4])

# ────────────── 7. 실행 ───────────────────────────────────────
if __name__ == "__main__":
    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)