Spaces:

VIDraft
/

voice-trans

Running on Zero

File size: 11,691 Bytes

effad1c
 
 
 
 
 
 
 
 
 
 
b3067c5
fd022eb
6bdc489
b3067c5
effad1c
6bdc489
 
 
a609646
 
6bdc489
32b3c75
a609646
 
 
32b3c75
5897b48
392a5eb
 
 
5897b48
effad1c
fd022eb
 
effad1c
 
 
 
392a5eb
effad1c
 
 
392a5eb
 
effad1c
 
a609646
 
 
392a5eb
 
fd022eb
392a5eb
a609646
effad1c
5897b48
a609646
 
effad1c
 
5897b48
 
392a5eb
5897b48
 
 
effad1c
 
a609646
 
effad1c
fd022eb
 
 
effad1c
fd022eb
392a5eb
a609646
 
 
5897b48
 
a609646
 
 
5897b48
a609646
392a5eb
a609646
 
effad1c
fd022eb
 
 
effad1c
fd022eb
effad1c
fd022eb
392a5eb
fd022eb
 
 
 
 
effad1c
 
fd022eb
effad1c
 
 
 
 
 
 
fd022eb
392a5eb
fd022eb
 
 
 
 
 
 
 
effad1c
392a5eb
 
 
a609646
2adfcbe
effad1c
 
 
 
392a5eb
 
 
 
 
a609646
effad1c
 
392a5eb
 
effad1c
392a5eb
 
 
 
a609646
392a5eb
5897b48
effad1c
392a5eb
 
effad1c
fd022eb
392a5eb
 
effad1c
 
 
 
392a5eb
 
 
 
 
 
 
 
 
 
 
 
effad1c
392a5eb
 
effad1c
392a5eb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
effad1c
392a5eb
 
effad1c
392a5eb
 
 
 
 
effad1c
7cce69a
 
effad1c
392a5eb
 
 
 
 
 
5897b48
 
 
392a5eb
effad1c
a609646
effad1c
fd022eb
392a5eb
 
 
effad1c
a609646
392a5eb
 
 
 
effad1c
392a5eb
 
 
 
effad1c
 
392a5eb
 
effad1c
392a5eb
effad1c
392a5eb
effad1c
392a5eb
 
effad1c
 
 
 
 
 
 
 
392a5eb
 
effad1c
b3067c5
392a5eb

"""
SMARTok 핵심 데모
──────────────────────────────────────────────
✓ 탭 1 : 오디오(녹음·파일) 단건 번역 + TTS 재생
✓ 탭 2 : PDF / 이미지 번역 (Tesseract 없으면 PDF만 안내)
✓ 탭 3 : 실시간 1개 언어(선택형) 번역
✓ 탭 4 : 실시간 4개 언어(영·중(간)·태·러) 동시 번역
──────────────────────────────────────────────
Python ≥3.10, Gradio 4.x, OpenAI Python SDK 필요
"""

import gradio as gr
import openai, os, io, tempfile, mimetypes
from dotenv import load_dotenv

# ─────────────────── 0. 공통 초기화 ──────────────────────────
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
if not api_key:
    raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
client = openai.OpenAI(api_key=api_key)

LANGUAGES = [
    "Korean", "English", "Japanese", "Chinese",
    "Thai", "Russian", "Vietnamese",
    "Spanish", "French"
]
LANG_CODE = {
    "Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
    "Thai":"th","Russian":"ru","Vietnamese":"vi",
    "Spanish":"es","French":"fr"
}
VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
         for l in LANGUAGES}

FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]  # 실시간 동시 번역용
STREAM_SEC = 4  # Whisper 호출 간격(초) – 3~4 초 정도 지연

# ─────────────────── 1. 유틸 함수 ───────────────────────────
def _safe_path(v):
    """Gradio File/Audio 입력 → 실제 경로 추출"""
    if v is None:
        return None
    return v.get("name") if isinstance(v, dict) else v

def _gpt_translate(text: str, src: str, tgt: str) -> str:
    """GPT-3.5-turbo 번역 (설명 없이 결과만)"""
    rsp = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role":"system",
             "content":f"You are a professional translator. Translate the following {src} text to {tgt}. "
                        f"Only provide the translated text."},
            {"role":"user","content":text}
        ],
        temperature=0.3,max_tokens=4096
    )
    return rsp.choices[0].message.content.strip()

def _tts(text: str, lang: str) -> str:
    """OpenAI TTS-1 ⇒ MP3 파일 경로 반환"""
    out = client.audio.speech.create(
        model="tts-1",
        voice=VOICE.get(lang,"alloy"),
        input=text[:4096]
    )
    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
    tmp.write(out.content)
    tmp.close()
    return tmp.name

# ─────────────────── 2. 단건 오디오 번역 ───────────────────────
def translate_audio(audio_in, src, tgt):
    path = _safe_path(audio_in)
    if not path or not os.path.exists(path):
        return "⚠️ 음성 파일을 녹음-업로드하세요.", "", None

    with open(path,"rb") as f:
        stt = client.audio.transcriptions.create(
            model="whisper-1",
            file=f,
            language=LANG_CODE.get(src)
        )
    original = stt.text.strip()
    if not original:
        return "⚠️ 음성 인식 실패", "", None

    translated = _gpt_translate(original, src, tgt)
    tts_path   = _tts(translated, tgt)
    return original, translated, tts_path

# ─────────────────── 3. PDF / 이미지 번역 ─────────────────────
def translate_document(file_in, src, tgt):
    path = _safe_path(file_in)
    if not path or not os.path.exists(path):
        return "⚠️ PDF(또는 이미지) 파일을 업로드하세요.", ""

    ext  = os.path.splitext(path)[1].lower()
    mime = mimetypes.guess_type(path)[0] or ""
    text = ""

    try:
        if ext == ".pdf" or "pdf" in mime:
            import pdfplumber
            with pdfplumber.open(path) as pdf:
                pages = pdf.pages[:5]  # 데모: 5쪽 제한
                text  = "\n".join(p.extract_text() or "" for p in pages)
        else:
            # 이미지의 경우 Tesseract 필요
            try:
                from PIL import Image
                import pytesseract
                text = pytesseract.image_to_string(Image.open(path))
            except Exception:
                return "⚠️ 서버에 Tesseract OCR가 없어서 이미지 OCR은 지원되지 않습니다. PDF만 사용하세요.", ""
    except Exception as e:
        return f"❌ 텍스트 추출 실패: {e}", ""

    text = text.strip()
    if not text:
        return "⚠️ 텍스트가 추출되지 않았습니다.", ""

    translated = _gpt_translate(text, src, tgt)
    return text, translated

# ─────────────────── 4. 실시간 1개 언어 번역 ──────────────────
def stream_single(mic_stream, src, tgt):
    buf, header = io.BytesIO(), None
    o_acc, t_acc = "", ""
    while True:
        chunk = mic_stream.recv()
        if chunk is None:
            break
        if header is None:
            header = chunk[:44]
        buf.write(chunk)
        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
            wav = header + buf.getvalue()
            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                tmp.write(wav); tmp.close()
                o, t, _ = translate_audio(tmp.name, src, tgt)
            o_acc += " " + o
            t_acc += " " + t
            yield o_acc.strip(), t_acc.strip()
            buf = io.BytesIO()

    if buf.getbuffer().nbytes:
        wav = header + buf.getvalue()
        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
            tmp.write(wav); tmp.close()
            o, t, _ = translate_audio(tmp.name, src, tgt)
        yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()

# ─────────────────── 5. 실시간 4개 언어 번역 ──────────────────
def stream_multi(mic_stream, src):
    buf, header = io.BytesIO(), None
    acc = {lang:"" for lang in ["orig"]+FOUR_LANGS}

    while True:
        chunk = mic_stream.recv()
        if chunk is None:
            break
        if header is None:
            header = chunk[:44]
        buf.write(chunk)
        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
            wav = header + buf.getvalue()
            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                tmp.write(wav); tmp.close()
                with open(tmp.name,"rb") as f:
                    stt = client.audio.transcriptions.create(
                        model="whisper-1", file=f,
                        language=LANG_CODE.get(src)
                    )
            orig = stt.text.strip()
            if orig:
                acc["orig"] += " " + orig
                for lang in FOUR_LANGS:
                    acc[lang] += " " + _gpt_translate(orig, src, lang)
            yield (acc["orig"].strip(),
                   acc["English"].strip(),
                   acc["Chinese"].strip(),
                   acc["Thai"].strip(),
                   acc["Russian"].strip())
            buf = io.BytesIO()

    if buf.getbuffer().nbytes:
        wav = header + buf.getvalue()
        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
            tmp.write(wav); tmp.close()
            with open(tmp.name,"rb") as f:
                stt = client.audio.transcriptions.create(
                    model="whisper-1", file=f,
                    language=LANG_CODE.get(src)
                )
        orig = stt.text.strip()
        if orig:
            acc["orig"] += " " + orig
            for lang in FOUR_LANGS:
                acc[lang] += " " + _gpt_translate(orig, src, lang)
    yield (acc["orig"].strip(),
           acc["English"].strip(),
           acc["Chinese"].strip(),
           acc["Thai"].strip(),
           acc["Russian"].strip())

# ─────────────────── 6. Gradio UI ────────────────────────────
with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
    with gr.Tabs():
        # 탭 1 ─ 오디오 번역
        with gr.TabItem("🎙️ 오디오 번역"):
            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
            aud1 = gr.Audio(sources=["microphone","upload"],
                            type="filepath",
                            label="녹음 또는 오디오 파일 업로드")
            btn1 = gr.Button("번역")
            stt1 = gr.Textbox(label="원문", lines=5)
            tlt1 = gr.Textbox(label="번역", lines=5)
            out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
            btn1.click(translate_audio,[aud1,src1,tgt1],[stt1,tlt1,out1])

        # 탭 2 ─ 문서/이미지 번역
        with gr.TabItem("📄 문서/이미지 번역"):
            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
            file2= gr.File(label="PDF 또는 이미지 업로드",
                           file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
            btn2 = gr.Button("번역")
            org2 = gr.Textbox(label="추출 원문",lines=15)
            trs2 = gr.Textbox(label="번역 결과",lines=15)
            btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])

        # 탭 3 ─ 실시간 1언어 번역
        with gr.TabItem("⏱️ 실시간 1언어"):
            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
            mic3 = gr.Audio(sources=["microphone"],
                            streaming=True,
                            label="실시간 마이크")
            stt3 = gr.Textbox(label="원문(실시간)",lines=8)
            tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
            mic3.stream(stream_single,inputs=[src3,tgt3],outputs=[stt3,tlt3])

        # 탭 4 ─ 실시간 4개 언어 번역
        with gr.TabItem("🌏 실시간 4개 언어"):
            gr.Markdown("마이크 입력을 3-4 초 간격으로 **English / Chinese(简体) / Thai / Russian** 4개 언어로 동시 번역합니다.")
            src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
            mic4 = gr.Audio(sources=["microphone"],
                            streaming=True,
                            label="실시간 마이크")
            o4  = gr.Textbox(label="원문",lines=8)
            e4  = gr.Textbox(label="English",lines=8)
            z4  = gr.Textbox(label="Chinese(简体)",lines=8)
            t4  = gr.Textbox(label="Thai",lines=8)
            r4  = gr.Textbox(label="Russian",lines=8)
            mic4.stream(stream_multi,inputs=[src4],
                        outputs=[o4,e4,z4,t4,r4])

# ─────────────────── 7. 실행 ────────────────────────────────
if __name__ == "__main__":
    app.launch(server_name="0.0.0.0",
               server_port=7860,
               share=False,
               debug=True)