Spaces:

VIDraft
/

voice-trans

Running on Zero

File size: 17,058 Bytes

"""
SMARTok Demo – Stable Build (2025-06-09)
────────────────────────────────────────
Tabs
 1) 🎙️ 오디오 번역
 2) 📄 문서·이미지 번역
 3) ⏱️ 실시간 1언어
 4) 🌏 실시간 4언어 (영·중간·태·러)
────────────────────────────────────────
필수 apt  : packages.txt 참고
필수 pip  : requirements.txt 참고
"""

import gradio as gr, openai, os, io, mimetypes, tempfile
from dotenv import load_dotenv
from PIL import Image
import pdfplumber, ocrmypdf, pytesseract

# ───── 0. Init ──────────────────────────────────────────────────
load_dotenv()
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY", ""))

LANG = ["Korean","English","Japanese","Chinese","Thai","Russian",
        "Vietnamese","Spanish","French"]
LC   = {               # tesseract lang codes
    "Korean":"kor","English":"eng","Japanese":"jpn","Chinese":"chi_sim",
    "Thai":"tha","Russian":"rus","Vietnamese":"vie","Spanish":"spa","French":"fra"
}
VOICE = {l:("nova" if l in ["Korean","Japanese","Chinese"] else "alloy") for l in LANG}
FOUR  = ["English","Chinese","Thai","Russian"]
CHUNK = 4   # sec – 실시간 청크 길이

# ───── 1. helpers ───────────────────────────────────────────────
def _path(v):
    return None if v is None else (v["name"] if isinstance(v,dict) else v)

def _gpt(txt, src, tgt):
    rsp = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role":"system",
             "content":f"Translate the following {src} text to {tgt}. "
                        "Return only the translated text."},
            {"role":"user","content":txt}],
        temperature=0.3,max_tokens=4096)
    return rsp.choices[0].message.content.strip()

def _tts(txt, lang):
    res = client.audio.speech.create(model="tts-1",voice=VOICE[lang],input=txt[:4096])
    f = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
    f.write(res.content); f.close(); return f.name

# ───── 2. audio → 번역 + TTS ────────────────────────────────────
def trans_audio(audio, src, tgt):
    p=_path(audio)
    if not p or not os.path.exists(p): return "⚠️ 음성 파일 필요","",None
    with open(p,"rb") as f:
        stt = client.audio.transcriptions.create(model="whisper-1",file=f,
                                                 language=LC.get(src,"eng"))
    orig = stt.text.strip()
    if not orig: return "⚠️ 음성 인식 실패","",None
    trans = _gpt(orig,src,tgt)
    return orig, trans, _tts(trans,tgt)

# ───── 3. PDF / Image OCR → 번역 ────────────────────────────────
def trans_doc(file, src, tgt):
    p=_path(file)
    if not p or not os.path.exists(p): return "⚠️ 파일 업로드",""
    ext = os.path.splitext(p)[1].lower()
    mime= mimetypes.guess_type(p)[0] or ""
    txt = ""
    try:
        # PDF
        if ext==".pdf" or "pdf" in mime:
            with pdfplumber.open(p) as pdf:
                txt="\n".join(pg.extract_text() or "" for pg in pdf.pages[:5])
        # 이미지
        else:
            tmp_pdf=tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            Image.open(p).save(tmp_pdf,"PDF")
            ocr_pdf=tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            try:
                ocrmypdf.ocr(tmp_pdf, ocr_pdf,
                             lang=f"{LC.get(src,'eng')}+eng",
                             deskew=True,optimize=0,progress_bar=False)
                with pdfplumber.open(ocr_pdf) as pdf:
                    txt="\n".join(pg.extract_text() or "" for pg in pdf.pages)
            except Exception:
                txt = pytesseract.image_to_string(
                    Image.open(p), lang=LC.get(src,"eng"))
    except Exception as e:
        return f"❌ 추출 오류: {e}",""
    txt = txt.strip()
    if not txt: return "⚠️ 텍스트 추출 실패",""
    return txt, _gpt(txt,src,tgt)

# ───── 4. 실시간 1언어 스트림 ──────────────────────────────────
def stream_one(path, src, tgt, st):
    st = st or {"o":"","t":""}
    if not path or not os.path.exists(path): return st["o"],st["t"],st
    with open(path,"rb") as f:
        stt=client.audio.transcriptions.create(model="whisper-1",file=f,
                                               language=LC.get(src,"eng"))
    full=stt.text.strip(); new=full[len(st["o"]):]
    if new:
        st["o"]=full
        st["t"]+=" "+_gpt(new,src,tgt)
    return st["o"],st["t"].strip(),st

# ───── 5. 실시간 4언어 스트림 ──────────────────────────────────
def stream_four(path, src, st):
    st = st or {k:"" for k in ["o"]+FOUR}
    if not path or not os.path.exists(path):
        return st["o"],st["English"],st["Chinese"],st["Thai"],st["Russian"],st
    with open(path,"rb") as f:
        stt=client.audio.transcriptions.create(model="whisper-1",file=f,
                                               language=LC.get(src,"eng"))
    full=stt.text.strip(); new=full[len(st["o"]):]
    if new:
        st["o"]=full
        for l in FOUR:
            st[l]+=" "+_gpt(new,src,l)
    return (st["o"].strip(),st["English"].strip(),st["Chinese"].strip(),
            st["Thai"].strip(),st["Russian"].strip(),st)

# ───── 6. UI ───────────────────────────────────────────────────
with gr.Blocks(title="SMARTok Demo",theme=gr.themes.Soft()) as app:
    with gr.Tabs():
        # ① 오디오 번역
        with gr.TabItem("🎙️ 오디오 번역"):
            s1=gr.Dropdown(LANG,value="Korean",label="입력")
            t1=gr.Dropdown(LANG,value="English",label="출력")
            a1=gr.Audio(sources=["microphone","upload"],type="filepath")
            btn1=gr.Button("번역")
            o1=gr.Textbox(label="원문",lines=5); tr1=gr.Textbox(label="번역",lines=5)
            aud1=gr.Audio(label="TTS",type="filepath",autoplay=True)
            btn1.click(trans_audio,[a1,s1,t1],[o1,tr1,aud1])

        # ② 문서·이미지 번역
        with gr.TabItem("📄 문서·이미지 번역"):
            s2=gr.Dropdown(LANG,value="Korean",label="입력")
            t2=gr.Dropdown(LANG,value="English",label="출력")
            f2=gr.File(file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
            btn2=gr.Button("번역")
            o2=gr.Textbox(label="추출 원문",lines=15); tr2=gr.Textbox(label="번역",lines=15)
            btn2.click(trans_doc,[f2,s2,t2],[o2,tr2])

        # ③ 실시간 1언어
        with gr.TabItem("⏱️ 실시간 1언어"):
            s3=gr.Dropdown(LANG,value="Korean",label="입력")
            t3=gr.Dropdown(LANG,value="English",label="출력")
            mic3=gr.Audio(sources=["microphone"],streaming=True)
            o3=gr.Textbox(label="원문(실시간)",lines=8); tr3=gr.Textbox(label="번역(실시간)",lines=8)
            st3=gr.State()
            mic3.stream(stream_one,inputs=[s3,t3,st3],outputs=[o3,tr3,st3])

        # ④ 실시간 4언어
        with gr.TabItem("🌏 실시간 4언어"):
            s4=gr.Dropdown(LANG,value="Korean",label="입력 언어")
            mic4=gr.Audio(sources=["microphone"],streaming=True)
            o4=gr.Textbox(label="원문",lines=8)
            e4=gr.Textbox(label="English",lines=8)
            c4=gr.Textbox(label="Chinese(简体)",lines=8)
            th4=gr.Textbox(label="Thai",lines=8)
            r4=gr.Textbox(label="Russian",lines=8)
            st4=gr.State()
            mic4.stream(stream_four,inputs=[s4,st4],
                        outputs=[o4,e4,c4,th4,r4,st4])

# ───── 7. Launch ───────────────────────────────────────────────
if __name__=="__main__":
    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)
"""
SMARTok Demo – Stable Build (2025-06-09)
────────────────────────────────────────
Tabs
 1) 🎙️ 오디오 번역
 2) 📄 문서·이미지 번역
 3) ⏱️ 실시간 1언어
 4) 🌏 실시간 4언어 (영·중간·태·러)
────────────────────────────────────────
필수 apt  : packages.txt 참고
필수 pip  : requirements.txt 참고
"""

import gradio as gr, openai, os, io, mimetypes, tempfile
from dotenv import load_dotenv
from PIL import Image
import pdfplumber, ocrmypdf, pytesseract

# ───── 0. Init ──────────────────────────────────────────────────
load_dotenv()
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY", ""))

LANG = ["Korean","English","Japanese","Chinese","Thai","Russian",
        "Vietnamese","Spanish","French"]
LC   = {               # tesseract lang codes
    "Korean":"kor","English":"eng","Japanese":"jpn","Chinese":"chi_sim",
    "Thai":"tha","Russian":"rus","Vietnamese":"vie","Spanish":"spa","French":"fra"
}
VOICE = {l:("nova" if l in ["Korean","Japanese","Chinese"] else "alloy") for l in LANG}
FOUR  = ["English","Chinese","Thai","Russian"]
CHUNK = 4   # sec – 실시간 청크 길이

# ───── 1. helpers ───────────────────────────────────────────────
def _path(v):
    return None if v is None else (v["name"] if isinstance(v,dict) else v)

def _gpt(txt, src, tgt):
    rsp = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role":"system",
             "content":f"Translate the following {src} text to {tgt}. "
                        "Return only the translated text."},
            {"role":"user","content":txt}],
        temperature=0.3,max_tokens=4096)
    return rsp.choices[0].message.content.strip()

def _tts(txt, lang):
    res = client.audio.speech.create(model="tts-1",voice=VOICE[lang],input=txt[:4096])
    f = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
    f.write(res.content); f.close(); return f.name

# ───── 2. audio → 번역 + TTS ────────────────────────────────────
def trans_audio(audio, src, tgt):
    p=_path(audio)
    if not p or not os.path.exists(p): return "⚠️ 음성 파일 필요","",None
    with open(p,"rb") as f:
        stt = client.audio.transcriptions.create(model="whisper-1",file=f,
                                                 language=LC.get(src,"eng"))
    orig = stt.text.strip()
    if not orig: return "⚠️ 음성 인식 실패","",None
    trans = _gpt(orig,src,tgt)
    return orig, trans, _tts(trans,tgt)

# ───── 3. PDF / Image OCR → 번역 ────────────────────────────────
def trans_doc(file, src, tgt):
    p=_path(file)
    if not p or not os.path.exists(p): return "⚠️ 파일 업로드",""
    ext = os.path.splitext(p)[1].lower()
    mime= mimetypes.guess_type(p)[0] or ""
    txt = ""
    try:
        # PDF
        if ext==".pdf" or "pdf" in mime:
            with pdfplumber.open(p) as pdf:
                txt="\n".join(pg.extract_text() or "" for pg in pdf.pages[:5])
        # 이미지
        else:
            tmp_pdf=tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            Image.open(p).save(tmp_pdf,"PDF")
            ocr_pdf=tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
            try:
                ocrmypdf.ocr(tmp_pdf, ocr_pdf,
                             lang=f"{LC.get(src,'eng')}+eng",
                             deskew=True,optimize=0,progress_bar=False)
                with pdfplumber.open(ocr_pdf) as pdf:
                    txt="\n".join(pg.extract_text() or "" for pg in pdf.pages)
            except Exception:
                txt = pytesseract.image_to_string(
                    Image.open(p), lang=LC.get(src,"eng"))
    except Exception as e:
        return f"❌ 추출 오류: {e}",""
    txt = txt.strip()
    if not txt: return "⚠️ 텍스트 추출 실패",""
    return txt, _gpt(txt,src,tgt)

# ───── 4. 실시간 1언어 스트림 ──────────────────────────────────
def stream_one(path, src, tgt, st):
    st = st or {"o":"","t":""}
    if not path or not os.path.exists(path): return st["o"],st["t"],st
    with open(path,"rb") as f:
        stt=client.audio.transcriptions.create(model="whisper-1",file=f,
                                               language=LC.get(src,"eng"))
    full=stt.text.strip(); new=full[len(st["o"]):]
    if new:
        st["o"]=full
        st["t"]+=" "+_gpt(new,src,tgt)
    return st["o"],st["t"].strip(),st

# ───── 5. 실시간 4언어 스트림 ──────────────────────────────────
def stream_four(path, src, st):
    st = st or {k:"" for k in ["o"]+FOUR}
    if not path or not os.path.exists(path):
        return st["o"],st["English"],st["Chinese"],st["Thai"],st["Russian"],st
    with open(path,"rb") as f:
        stt=client.audio.transcriptions.create(model="whisper-1",file=f,
                                               language=LC.get(src,"eng"))
    full=stt.text.strip(); new=full[len(st["o"]):]
    if new:
        st["o"]=full
        for l in FOUR:
            st[l]+=" "+_gpt(new,src,l)
    return (st["o"].strip(),st["English"].strip(),st["Chinese"].strip(),
            st["Thai"].strip(),st["Russian"].strip(),st)

# ───── 6. UI ───────────────────────────────────────────────────
with gr.Blocks(title="SMARTok Demo",theme=gr.themes.Soft()) as app:
    with gr.Tabs():
        # ① 오디오 번역
        with gr.TabItem("🎙️ 오디오 번역"):
            s1=gr.Dropdown(LANG,value="Korean",label="입력")
            t1=gr.Dropdown(LANG,value="English",label="출력")
            a1=gr.Audio(sources=["microphone","upload"],type="filepath")
            btn1=gr.Button("번역")
            o1=gr.Textbox(label="원문",lines=5); tr1=gr.Textbox(label="번역",lines=5)
            aud1=gr.Audio(label="TTS",type="filepath",autoplay=True)
            btn1.click(trans_audio,[a1,s1,t1],[o1,tr1,aud1])

        # ② 문서·이미지 번역
        with gr.TabItem("📄 문서·이미지 번역"):
            s2=gr.Dropdown(LANG,value="Korean",label="입력")
            t2=gr.Dropdown(LANG,value="English",label="출력")
            f2=gr.File(file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
            btn2=gr.Button("번역")
            o2=gr.Textbox(label="추출 원문",lines=15); tr2=gr.Textbox(label="번역",lines=15)
            btn2.click(trans_doc,[f2,s2,t2],[o2,tr2])

        # ③ 실시간 1언어
        with gr.TabItem("⏱️ 실시간 1언어"):
            s3=gr.Dropdown(LANG,value="Korean",label="입력")
            t3=gr.Dropdown(LANG,value="English",label="출력")
            mic3=gr.Audio(sources=["microphone"],streaming=True)
            o3=gr.Textbox(label="원문(실시간)",lines=8); tr3=gr.Textbox(label="번역(실시간)",lines=8)
            st3=gr.State()
            mic3.stream(stream_one,inputs=[s3,t3,st3],outputs=[o3,tr3,st3])

        # ④ 실시간 4언어
        with gr.TabItem("🌏 실시간 4언어"):
            s4=gr.Dropdown(LANG,value="Korean",label="입력 언어")
            mic4=gr.Audio(sources=["microphone"],streaming=True)
            o4=gr.Textbox(label="원문",lines=8)
            e4=gr.Textbox(label="English",lines=8)
            c4=gr.Textbox(label="Chinese(简体)",lines=8)
            th4=gr.Textbox(label="Thai",lines=8)
            r4=gr.Textbox(label="Russian",lines=8)
            st4=gr.State()
            mic4.stream(stream_four,inputs=[s4,st4],
                        outputs=[o4,e4,c4,th4,r4,st4])

# ───── 7. Launch ───────────────────────────────────────────────
if __name__=="__main__":
    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)