Private-AI

Running

App Files Files Community

seawolf2357 commited on 16 days ago

Commit

ae55ef4

verified ·

1 Parent(s): 0232d6f

Update app.py

Browse files

Files changed (1) hide show

app.py +388 -269

app.py CHANGED Viewed

@@ -252,6 +252,46 @@ HTML_CONTENT = """<!DOCTYPE html>
             resize: vertical;
             min-height: 80px;
         }
         .chat-container {
             border-radius: 12px;
             background-color: var(--card-bg);
@@ -320,13 +360,66 @@ HTML_CONTENT = """<!DOCTYPE html>
         }
         .message.assistant.interpretation {
             background: linear-gradient(135deg, #1a5a3e, #2e7d32);
-            font-style: italic;
         }
         .interpretation-arrow {
             color: #4caf50;
             font-weight: bold;
             margin: 0 10px;
         }
         .controls {
             text-align: center;
             margin-top: auto;
@@ -513,11 +606,6 @@ HTML_CONTENT = """<!DOCTYPE html>
             background-color: var(--secondary-color);
             border-radius: 50%;
         }
-        .language-info {
-            font-size: 12px;
-            color: #888;
-            margin-left: 5px;
-        }
     </style>
 </head>
@@ -593,47 +681,22 @@ HTML_CONTENT = """<!DOCTYPE html>
                                 <div class="toggle-slider"></div>
                             </div>
                         </div>
-                        <div class="setting-item" id="interpretation-language-container" style="display: none;">
-                            <span class="setting-label">통역 언어</span>
-                            <select id="interpretation-language-select">
-                                <option value="">언어 선택</option>
-                                <option value="ko">한국어 (Korean)</option>
-                                <option value="en">English</option>
-                                <option value="es">Español (Spanish)</option>
-                                <option value="fr">Français (French)</option>
-                                <option value="de">Deutsch (German)</option>
-                                <option value="it">Italiano (Italian)</option>
-                                <option value="pt">Português (Portuguese)</option>
-                                <option value="ru">Русский (Russian)</option>
-                                <option value="ja">日本語 (Japanese)</option>
-                                <option value="zh">中文 (Chinese)</option>
-                                <option value="ar">العربية (Arabic)</option>
-                                <option value="hi">हिन्दी (Hindi)</option>
-                                <option value="nl">Nederlands (Dutch)</option>
-                                <option value="pl">Polski (Polish)</option>
-                                <option value="tr">Türkçe (Turkish)</option>
-                                <option value="vi">Tiếng Việt (Vietnamese)</option>
-                                <option value="th">ไทย (Thai)</option>
-                                <option value="id">Bahasa Indonesia</option>
-                                <option value="sv">Svenska (Swedish)</option>
-                                <option value="da">Dansk (Danish)</option>
-                                <option value="no">Norsk (Norwegian)</option>
-                                <option value="fi">Suomi (Finnish)</option>
-                                <option value="he">עברית (Hebrew)</option>
-                                <option value="uk">Українська (Ukrainian)</option>
-                                <option value="cs">Čeština (Czech)</option>
-                                <option value="el">Ελληνικά (Greek)</option>
-                                <option value="ro">Română (Romanian)</option>
-                                <option value="hu">Magyar (Hungarian)</option>
-                                <option value="ms">Bahasa Melayu (Malay)</option>
-                            </select>
                         </div>
                     </div>
                     <div class="interpretation-info" id="interpretation-info" style="display: none;">
                         <strong>통역 모드 안내:</strong><br>
-                        • 음성으로 말하면 선택한 언어로 자동 통역됩니다<br>
-                        • Whisper + GPT-4o-mini + TTS를 사용합니다<br>
-                        • 말을 마치고 잠시 기다리면 통역이 시작됩니다
                     </div>
                     <div class="text-input-section">
                         <label for="system-prompt" class="setting-label">시스템 프롬프트:</label>
@@ -668,7 +731,7 @@ HTML_CONTENT = """<!DOCTYPE html>
         let webSearchEnabled = false;
         let selectedLanguage = "";
         let interpretationMode = false;
-        let interpretationLanguage = "";
         let systemPrompt = "You are a helpful assistant. Respond in a friendly and professional manner.";
         const audioOutput = document.getElementById('audio-output');
         const startButton = document.getElementById('start-button');
@@ -679,17 +742,112 @@ HTML_CONTENT = """<!DOCTYPE html>
         const searchToggle = document.getElementById('search-toggle');
         const languageSelect = document.getElementById('language-select');
         const interpretationToggle = document.getElementById('interpretation-toggle');
-        const interpretationLanguageSelect = document.getElementById('interpretation-language-select');
-        const interpretationLanguageContainer = document.getElementById('interpretation-language-container');
         const interpretationInfo = document.getElementById('interpretation-info');
         const systemPromptInput = document.getElementById('system-prompt');
         const textInput = document.getElementById('text-input');
         let audioLevel = 0;
         let animationFrame;
         let audioContext, analyser, audioSource;
         let dataChannel = null;
         let isVoiceActive = false;
         // Web search toggle functionality
         searchToggle.addEventListener('click', () => {
             webSearchEnabled = !webSearchEnabled;
@@ -707,23 +865,48 @@ HTML_CONTENT = """<!DOCTYPE html>
         interpretationToggle.addEventListener('click', () => {
             if (!interpretationMode) {
                 // Turning ON interpretation mode
-                interpretationLanguageContainer.style.display = 'flex';
                 interpretationInfo.style.display = 'block';
-                // Show language selector first
-                showError('통역 언어를 선택해주세요.');
-                interpretationToggle.classList.remove('active');
-                // Don't actually enable interpretation mode until language is selected
-                return;
             } else {
                 // Turning OFF interpretation mode
                 interpretationMode = false;
                 interpretationToggle.classList.remove('active');
-                interpretationLanguageContainer.style.display = 'none';
                 interpretationInfo.style.display = 'none';
-                interpretationLanguage = '';
-                interpretationLanguageSelect.value = '';
                 // Re-enable other features
                 languageSelect.disabled = false;
@@ -748,41 +931,6 @@ HTML_CONTENT = """<!DOCTYPE html>
             console.log('Interpretation mode:', interpretationMode);
         });
-        // Interpretation language selection
-        interpretationLanguageSelect.addEventListener('change', () => {
-            interpretationLanguage = interpretationLanguageSelect.value;
-            console.log('Interpretation language:', interpretationLanguage);
-            if (interpretationLanguage && !interpretationMode) {
-                // Now actually enable interpretation mode
-                interpretationMode = true;
-                interpretationToggle.classList.add('active');
-                // Disable other features
-                languageSelect.value = '';
-                selectedLanguage = '';
-                languageSelect.disabled = true;
-                searchToggle.classList.remove('active');
-                webSearchEnabled = false;
-                searchToggle.style.opacity = '0.5';
-                searchToggle.style.pointerEvents = 'none';
-                textInput.disabled = true;
-                textInput.placeholder = '통역 모드에서는 텍스트 입력이 지원되지 않습니다';
-                sendButton.style.display = 'none';
-                console.log('Interpretation mode enabled with language:', interpretationLanguage);
-                // If already connected, restart the connection with new settings
-                if (peerConnection && peerConnection.connectionState === 'connected') {
-                    showError('통역 모드 설정을 적용하기 위해 연결을 다시 시작합니다.');
-                    stop();
-                    setTimeout(() => {
-                        setupWebRTC();
-                    }, 500);
-                }
-            }
-        });
         // System prompt update
         systemPromptInput.addEventListener('input', () => {
             systemPrompt = systemPromptInput.value || "You are a helpful assistant. Respond in a friendly and professional manner.";
@@ -1020,7 +1168,7 @@ HTML_CONTENT = """<!DOCTYPE html>
                     target_language: selectedLanguage,
                     system_prompt: systemPrompt,
                     interpretation_mode: interpretationMode,
-                    interpretation_language: interpretationLanguage
                 });
                 const response = await fetch('/webrtc/offer', {
@@ -1034,7 +1182,7 @@ HTML_CONTENT = """<!DOCTYPE html>
                         target_language: selectedLanguage,
                         system_prompt: systemPrompt,
                         interpretation_mode: interpretationMode,
-                        interpretation_language: interpretationLanguage
                     })
                 });
                 const serverResponse = await response.json();
@@ -1055,28 +1203,21 @@ HTML_CONTENT = """<!DOCTYPE html>
                     if (interpretationMode) {
                         console.log('[INTERPRETATION OUTPUT]', {
                             content: content,
-                            language: eventJson.language,
                             mode: eventJson.mode,
-                            expectedLanguage: interpretationLanguage
                         });
                     }
                     if (selectedLanguage && eventJson.language) {
                         content += ` <span class="language-info">[${eventJson.language}]</span>`;
-                    } else if (interpretationMode && eventJson.language) {
-                        // In interpretation mode, show the translation process
-                        if (content.includes('→')) {
-                            // Format: "Korean text → English text"
-                            const parts = content.split('→');
-                            if (parts.length === 2) {
-                                content = `<span style="color: #999;">${parts[0].trim()}</span>` +
-                                         `<span class="interpretation-arrow">→</span>` +
-                                         `<strong>${parts[1].trim()}</strong>`;
-                            }
                         }
-                        content += ` <span class="language-info">[통역: ${eventJson.language}]</span>`;
                     }
-                    addMessage("assistant", content);
                 });
                 eventSource.addEventListener("search", (event) => {
                     const eventJson = JSON.parse(event.data);
@@ -1095,11 +1236,6 @@ HTML_CONTENT = """<!DOCTYPE html>
             const messageDiv = document.createElement('div');
             messageDiv.classList.add('message', role);
-            // Check if it's an interpretation message
-            if (interpretationMode && role === 'assistant' && content.includes('→')) {
-                messageDiv.classList.add('interpretation');
-            }
             if (content.includes('<span')) {
                 messageDiv.innerHTML = content;
             } else {
@@ -1108,6 +1244,45 @@ HTML_CONTENT = """<!DOCTYPE html>
             chatMessages.appendChild(messageDiv);
             chatMessages.scrollTop = chatMessages.scrollHeight;
         }
         function stop() {
             if (animationFrame) {
                 cancelAnimationFrame(animationFrame);
@@ -1149,9 +1324,10 @@ HTML_CONTENT = """<!DOCTYPE html>
             }
         });
-        // Initialize send button visibility on page load
         window.addEventListener('DOMContentLoaded', () => {
             sendButton.style.display = 'block';
         });
     </script>
 </body>
@@ -1227,18 +1403,6 @@ def update_chatbot(chatbot: list[dict], response: ResponseAudioTranscriptDoneEve
     return chatbot
-def get_translation_instructions(target_language: str) -> str:
-    """Get instructions for translation based on target language"""
-    if not target_language:
-        return ""
-    language_name = SUPPORTED_LANGUAGES.get(target_language, target_language)
-    return (
-        f"\n\nIMPORTANT: You must respond in {language_name} ({target_language}). "
-        f"Translate all your responses to {language_name}."
-    )
 async def process_text_chat(message: str, web_search_enabled: bool, target_language: str,
                           system_prompt: str) -> Dict[str, str]:
     """Process text chat using GPT-4o-mini model"""
@@ -1343,7 +1507,7 @@ async def process_text_chat(message: str, web_search_enabled: bool, target_langu
 class OpenAIHandler(AsyncStreamHandler):
     def __init__(self, web_search_enabled: bool = False, target_language: str = "",
                  system_prompt: str = "", webrtc_id: str = None,
-                 interpretation_mode: bool = False, interpretation_language: str = "") -> None:
         super().__init__(
             expected_layout="mono",
             output_sample_rate=SAMPLE_RATE,
@@ -1361,7 +1525,7 @@ class OpenAIHandler(AsyncStreamHandler):
         self.target_language = target_language
         self.system_prompt = system_prompt
         self.interpretation_mode = interpretation_mode
-        self.interpretation_language = interpretation_language
         # For interpretation mode
         self.audio_buffer = []
@@ -1372,7 +1536,7 @@ class OpenAIHandler(AsyncStreamHandler):
         print(f"Handler created with web_search_enabled={web_search_enabled}, "
               f"target_language={target_language}, webrtc_id={webrtc_id}, "
-              f"interpretation_mode={interpretation_mode}, interpretation_language={interpretation_language}")
     def copy(self):
         # Get the most recent settings
@@ -1390,7 +1554,7 @@ class OpenAIHandler(AsyncStreamHandler):
                     system_prompt=settings.get('system_prompt', ''),
                     webrtc_id=recent_id,
                     interpretation_mode=settings.get('interpretation_mode', False),
-                    interpretation_language=settings.get('interpretation_language', '')
                 )
         print(f"Handler.copy() called - creating new handler with default settings")
@@ -1430,8 +1594,8 @@ class OpenAIHandler(AsyncStreamHandler):
             await self.connection.response.create()
     async def process_interpretation(self):
-        """Process audio buffer for interpretation"""
-        if not self.audio_buffer or not self.interpretation_language:
             return
         try:
@@ -1465,38 +1629,50 @@ class OpenAIHandler(AsyncStreamHandler):
             if not user_text:
                 return
-            # 2. Translate with GPT-4o-mini
-            target_lang_name = SUPPORTED_LANGUAGES.get(self.interpretation_language, self.interpretation_language)
-            # Create very explicit translation examples
-            translation_examples = {
-                "en": {
-                    "안녕하세요": "Hello",
-                    "감사합니다": "Thank you",
-                    "오늘 날씨가 좋네요": "The weather is nice today"
-                },
-                "ja": {
-                    "안녕하세요": "こんにちは",
-                    "감사합니다": "ありがとうございます",
-                    "오늘 날씨가 좋네요": "今日はいい天気ですね"
-                },
-                "zh": {
-                    "안녕하세요": "你好",
-                    "감사합니다": "谢谢",
-                    "오늘 날씨가 좋네요": "今天天气很好"
-                },
-                "es": {
-                    "안녕하세요": "Hola",
-                    "감사합니다": "Gracias",
-                    "오늘 날씨가 좋네요": "El clima está agradable hoy"
                 }
-            }
-            examples = translation_examples.get(self.interpretation_language, translation_examples["en"])
-            examples_text = "\n".join([f'"{k}" → "{v}"' for k, v in examples.items()])
-            # Ultra-specific prompt
-            system_prompt = f"""You are a Korean to {target_lang_name} translator.
 STRICT RULES:
 1. Output ONLY the {target_lang_name} translation
@@ -1509,105 +1685,48 @@ Examples:
 {examples_text}
 Now translate the Korean text to {target_lang_name}. Output ONLY the translation in {target_lang_name}:"""
-            print(f"[INTERPRETATION] Translating to {target_lang_name}...")
-            print(f"[INTERPRETATION] System prompt: {system_prompt}")
-            translation_response = await self.client.chat.completions.create(
-                model="gpt-4o-mini",
-                messages=[
-                    {
-                        "role": "system",
-                        "content": system_prompt
-                    },
-                    {
-                        "role": "user",
-                        "content": f"Translate this Korean to {target_lang_name}: {user_text}"
-                    }
-                ],
-                temperature=0.1,  # Very low temperature
-                max_tokens=200
-            )
-            translated_text = translation_response.choices[0].message.content.strip()
-            # Remove any Korean characters if they accidentally appear
-            import re
-            if re.search(r'[가-힣]', translated_text):
-                print(f"[INTERPRETATION] WARNING: Korean characters detected in translation: {translated_text}")
-                # Try to extract only non-Korean parts
-                translated_text = re.sub(r'[가-힣\s]+', ' ', translated_text).strip()
-            print(f"[INTERPRETATION] Translated: {translated_text}")
-            # 3. Generate speech with TTS
-            print(f"[INTERPRETATION] Generating speech for text: {translated_text}")
-            # Select appropriate voice and ensure it speaks the target language
-            voice_map = {
-                "en": "alloy",     # Alloy is native English speaker
-                "es": "nova",      # Nova handles Spanish well
-                "fr": "shimmer",   # Shimmer handles French well
-                "de": "echo",      # Echo handles German well
-                "ja": "nova",      # Nova can handle Japanese
-                "zh": "nova",      # Nova can handle Chinese
-                "ko": "nova",      # Nova can handle Korean
-            }
-            selected_voice = voice_map.get(self.interpretation_language, "nova")
-            print(f"[INTERPRETATION] Using voice: {selected_voice} for language: {self.interpretation_language}")
-            # For some languages, we might need to add pronunciation hints
-            if self.interpretation_language == "en" and re.search(r'[가-힣]', translated_text):
-                print("[INTERPRETATION] ERROR: Korean characters in English translation!")
-                translated_text = "Translation error occurred"
-            try:
-                tts_response = await self.client.audio.speech.create(
-                    model="tts-1",
-                    voice=selected_voice,
-                    input=translated_text,
-                    response_format="pcm",  # PCM format for direct playback
-                    speed=1.0
-                )
-            except Exception as tts_error:
-                print(f"[INTERPRETATION] TTS Error: {tts_error}")
-                # If TTS fails, try with a different voice
-                tts_response = await self.client.audio.speech.create(
-                    model="tts-1",
-                    voice="alloy",  # Fallback to alloy
-                    input=translated_text,
-                    response_format="pcm",
-                    speed=1.0
                 )
-            # Convert response to bytes
-            audio_bytes = b""
-            async for chunk in tts_response.iter_bytes(1024):
-                audio_bytes += chunk
-            # Convert PCM to numpy array (TTS outputs at 24kHz)
-            audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
-            # Send audio in chunks
-            if len(audio_array) > 0:
-                # Split audio into chunks and send
-                chunk_size = 480  # Match our frame size
-                for i in range(0, len(audio_array), chunk_size):
-                    chunk = audio_array[i:i + chunk_size]
-                    if len(chunk) < chunk_size:
-                        # Pad the last chunk if necessary
-                        chunk = np.pad(chunk, (0, chunk_size - len(chunk)), 'constant')
-                    await self.output_queue.put((SAMPLE_RATE, chunk.reshape(1, -1)))
-            # Send transcript event
             output_data = {
                 "event": type('Event', (), {
-                    'transcript': f"{user_text} → {translated_text}"
                 })(),
-                "language": target_lang_name,
-                "mode": "interpretation"
             }
             await self.output_queue.put(AdditionalOutputs(output_data))
@@ -1621,7 +1740,6 @@ Now translate the Korean text to {target_lang_name}. Output ONLY the translation
                 "event": type('Event', (), {
                     'transcript': f"통역 오류: {str(e)}"
                 })(),
-                "language": "",
                 "mode": "error"
             }
             await self.output_queue.put(AdditionalOutputs(error_data))
@@ -1657,25 +1775,24 @@ Now translate the Korean text to {target_lang_name}. Output ONLY the translation
                 self.target_language = settings.get('target_language', '')
                 self.system_prompt = settings.get('system_prompt', '')
                 self.interpretation_mode = settings.get('interpretation_mode', False)
-                self.interpretation_language = settings.get('interpretation_language', '')
                 self.webrtc_id = recent_id
                 print(f"start_up: Updated settings from storage - webrtc_id={self.webrtc_id}, "
                       f"web_search_enabled={self.web_search_enabled}, target_language={self.target_language}, "
                       f"interpretation_mode={self.interpretation_mode}")
-                print(f"Handler interpretation settings: mode={self.interpretation_mode}, language={self.interpretation_language}")
         print(f"Starting up handler with web_search_enabled={self.web_search_enabled}, "
               f"target_language={self.target_language}, interpretation_mode={self.interpretation_mode}, "
-              f"interpretation_language={self.interpretation_language}")
         self.client = openai.AsyncOpenAI()
         # If in interpretation mode, don't connect to Realtime API
         if self.interpretation_mode:
-            print(f"[INTERPRETATION MODE] Active - using Whisper + GPT-4o-mini + TTS")
-            print(f"[INTERPRETATION MODE] Target language: {self.interpretation_language}")
             # Just keep the handler ready to process audio
-            # Don't use infinite loop here - the handler will be called by the framework
             self.client = openai.AsyncOpenAI()
             return
@@ -2044,11 +2161,11 @@ async def custom_offer(request: Request):
     target_language = body.get("target_language", "")
     system_prompt = body.get("system_prompt", "")
     interpretation_mode = body.get("interpretation_mode", False)
-    interpretation_language = body.get("interpretation_language", "")
     print(f"Custom offer - webrtc_id: {webrtc_id}, web_search_enabled: {web_search_enabled}, "
           f"target_language: {target_language}, interpretation_mode: {interpretation_mode}, "
-          f"interpretation_language: {interpretation_language}")
     # Store settings with timestamp
     if webrtc_id:
@@ -2057,7 +2174,7 @@ async def custom_offer(request: Request):
             'target_language': target_language,
             'system_prompt': system_prompt,
             'interpretation_mode': interpretation_mode,
-            'interpretation_language': interpretation_language,
             'timestamp': asyncio.get_event_loop().time()
         }
@@ -2130,13 +2247,15 @@ async def outputs(webrtc_id: str):
                     yield f"event: search\ndata: {json.dumps(output.args[0])}\n\n"
                 # Regular transcript event with language info
                 elif isinstance(output.args[0], dict) and 'event' in output.args[0]:
-                    event = output.args[0]['event']
-                    if hasattr(event, 'transcript'):
                         data = {
                             "role": "assistant",
-                            "content": event.transcript,
-                            "language": output.args[0].get('language', ''),
-                            "mode": output.args[0].get('mode', 'normal')
                         }
                         yield f"event: output\ndata: {json.dumps(data)}\n\n"

             resize: vertical;
             min-height: 80px;
         }
+        /* Multi-language selection */
+        .language-selection-grid {
+            display: grid;
+            grid-template-columns: repeat(2, 1fr);
+            gap: 10px;
+            margin-top: 10px;
+            max-height: 200px;
+            overflow-y: auto;
+            padding: 10px;
+            background-color: var(--dark-bg);
+            border-radius: 6px;
+            border: 1px solid var(--border-color);
+        }
+        .language-checkbox {
+            display: flex;
+            align-items: center;
+            gap: 8px;
+            font-size: 13px;
+            cursor: pointer;
+            padding: 5px;
+            border-radius: 4px;
+            transition: background-color 0.2s;
+        }
+        .language-checkbox:hover {
+            background-color: rgba(111, 66, 193, 0.1);
+        }
+        .language-checkbox input[type="checkbox"] {
+            width: 16px;
+            height: 16px;
+            cursor: pointer;
+        }
+        .language-checkbox.default {
+            font-weight: 500;
+            color: var(--primary-color);
+        }
+        .selected-languages {
+            margin-top: 10px;
+            font-size: 12px;
+            color: #999;
+        }
         .chat-container {
             border-radius: 12px;
             background-color: var(--card-bg);
         }
         .message.assistant.interpretation {
             background: linear-gradient(135deg, #1a5a3e, #2e7d32);
+            font-style: normal;
+        }
+        .interpretation-result {
+            background: linear-gradient(135deg, #1e3a5f, #2c5282);
+            padding: 15px;
+            margin: 10px 0;
+            border-radius: 8px;
+            border: 1px solid rgba(66, 153, 225, 0.3);
+        }
+        .interpretation-header {
+            font-weight: bold;
+            color: #90cdf4;
+            margin-bottom: 10px;
+            display: flex;
+            align-items: center;
+            gap: 10px;
+        }
+        .interpretation-original {
+            font-size: 14px;
+            color: #cbd5e0;
+            margin-bottom: 15px;
+            padding: 10px;
+            background-color: rgba(0, 0, 0, 0.2);
+            border-radius: 4px;
+        }
+        .interpretation-translations {
+            display: flex;
+            flex-direction: column;
+            gap: 8px;
+        }
+        .translation-item {
+            display: flex;
+            align-items: baseline;
+            gap: 10px;
+            padding: 8px 12px;
+            background-color: rgba(255, 255, 255, 0.05);
+            border-radius: 4px;
+            border-left: 3px solid var(--primary-color);
+        }
+        .translation-lang {
+            font-weight: 500;
+            color: var(--primary-color);
+            min-width: 80px;
+            font-size: 13px;
+        }
+        .translation-text {
+            flex: 1;
+            color: var(--text-color);
+            font-size: 14px;
         }
         .interpretation-arrow {
             color: #4caf50;
             font-weight: bold;
             margin: 0 10px;
         }
+        .language-info {
+            font-size: 12px;
+            color: #888;
+            margin-left: 5px;
+        }
         .controls {
             text-align: center;
             margin-top: auto;
             background-color: var(--secondary-color);
             border-radius: 50%;
         }
     </style>
 </head>
                                 <div class="toggle-slider"></div>
                             </div>
                         </div>
+                        <div id="interpretation-languages-container" style="display: none;">
+                            <div class="setting-label" style="margin-bottom: 5px;">통역 언어 선택 (최대 4개)</div>
+                            <div class="language-selection-grid" id="language-selection-grid">
+                                <!-- Languages will be populated by JavaScript -->
+                            </div>
+                            <div class="selected-languages" id="selected-languages-display">
+                                선택된 언어: 없음
+                            </div>
                         </div>
                     </div>
                     <div class="interpretation-info" id="interpretation-info" style="display: none;">
                         <strong>통역 모드 안내:</strong><br>
+                        • 음성으로 말하면 선택한 언어들로 자동 통역됩니다<br>
+                        • Whisper + GPT-4o-mini를 사용합니다<br>
+                        • 말을 마치고 잠시 기다리면 통역이 시작됩니다<br>
+                        • 번역된 텍스트만 화면에 표시됩니다
                     </div>
                     <div class="text-input-section">
                         <label for="system-prompt" class="setting-label">시스템 프롬프트:</label>
         let webSearchEnabled = false;
         let selectedLanguage = "";
         let interpretationMode = false;
+        let interpretationLanguages = [];
         let systemPrompt = "You are a helpful assistant. Respond in a friendly and professional manner.";
         const audioOutput = document.getElementById('audio-output');
         const startButton = document.getElementById('start-button');
         const searchToggle = document.getElementById('search-toggle');
         const languageSelect = document.getElementById('language-select');
         const interpretationToggle = document.getElementById('interpretation-toggle');
+        const interpretationLanguagesContainer = document.getElementById('interpretation-languages-container');
         const interpretationInfo = document.getElementById('interpretation-info');
         const systemPromptInput = document.getElementById('system-prompt');
         const textInput = document.getElementById('text-input');
+        const languageSelectionGrid = document.getElementById('language-selection-grid');
+        const selectedLanguagesDisplay = document.getElementById('selected-languages-display');
         let audioLevel = 0;
         let animationFrame;
         let audioContext, analyser, audioSource;
         let dataChannel = null;
         let isVoiceActive = false;
+        // Available languages for interpretation
+        const INTERPRETATION_LANGUAGES = {
+            "en": { name: "English", default: true },
+            "zh": { name: "中文 (Chinese)", default: true },
+            "th": { name: "ไทย (Thai)", default: true },
+            "ru": { name: "Русский (Russian)", default: true },
+            "ja": { name: "日本語 (Japanese)", default: false },
+            "es": { name: "Español (Spanish)", default: false },
+            "fr": { name: "Français (French)", default: false },
+            "de": { name: "Deutsch (German)", default: false },
+            "pt": { name: "Português (Portuguese)", default: false },
+            "ar": { name: "العربية (Arabic)", default: false },
+            "hi": { name: "हिन्दी (Hindi)", default: false },
+            "vi": { name: "Tiếng Việt (Vietnamese)", default: false },
+            "id": { name: "Bahasa Indonesia", default: false },
+            "it": { name: "Italiano (Italian)", default: false },
+            "nl": { name: "Nederlands (Dutch)", default: false },
+            "pl": { name: "Polski (Polish)", default: false },
+            "tr": { name: "Türkçe (Turkish)", default: false },
+            "sv": { name: "Svenska (Swedish)", default: false },
+            "da": { name: "Dansk (Danish)", default: false },
+            "no": { name: "Norsk (Norwegian)", default: false },
+            "fi": { name: "Suomi (Finnish)", default: false },
+            "he": { name: "עברית (Hebrew)", default: false },
+            "uk": { name: "Українська (Ukrainian)", default: false },
+            "cs": { name: "Čeština (Czech)", default: false },
+            "el": { name: "Ελληνικά (Greek)", default: false },
+            "ro": { name: "Română (Romanian)", default: false },
+            "hu": { name: "Magyar (Hungarian)", default: false },
+            "ms": { name: "Bahasa Melayu (Malay)", default: false }
+        };
+        // Initialize language selection grid
+        function initializeLanguageSelection() {
+            languageSelectionGrid.innerHTML = '';
+            // Sort languages: defaults first, then alphabetically
+            const sortedLanguages = Object.entries(INTERPRETATION_LANGUAGES).sort((a, b) => {
+                if (a[1].default && !b[1].default) return -1;
+                if (!a[1].default && b[1].default) return 1;
+                return a[1].name.localeCompare(b[1].name);
+            });
+            sortedLanguages.forEach(([code, lang]) => {
+                const label = document.createElement('label');
+                label.className = 'language-checkbox' + (lang.default ? ' default' : '');
+                const checkbox = document.createElement('input');
+                checkbox.type = 'checkbox';
+                checkbox.value = code;
+                checkbox.checked = lang.default;
+                checkbox.addEventListener('change', onLanguageCheckboxChange);
+                const text = document.createElement('span');
+                text.textContent = lang.name;
+                label.appendChild(checkbox);
+                label.appendChild(text);
+                languageSelectionGrid.appendChild(label);
+            });
+            // Initialize with default languages
+            updateSelectedLanguages();
+        }
+        function onLanguageCheckboxChange() {
+            const checkedBoxes = languageSelectionGrid.querySelectorAll('input[type="checkbox"]:checked');
+            // Limit to 4 languages
+            if (checkedBoxes.length > 4) {
+                this.checked = false;
+                showError('최대 4개 언어까지 선택할 수 있습니다.');
+                return;
+            }
+            updateSelectedLanguages();
+        }
+        function updateSelectedLanguages() {
+            const checkedBoxes = languageSelectionGrid.querySelectorAll('input[type="checkbox"]:checked');
+            interpretationLanguages = Array.from(checkedBoxes).map(cb => cb.value);
+            if (interpretationLanguages.length === 0) {
+                selectedLanguagesDisplay.textContent = '선택된 언어: 없음';
+            } else {
+                const langNames = interpretationLanguages.map(code =>
+                    INTERPRETATION_LANGUAGES[code].name
+                ).join(', ');
+                selectedLanguagesDisplay.textContent = `선택된 언어 (${interpretationLanguages.length}/4): ${langNames}`;
+            }
+            console.log('Selected interpretation languages:', interpretationLanguages);
+        }
         // Web search toggle functionality
         searchToggle.addEventListener('click', () => {
             webSearchEnabled = !webSearchEnabled;
         interpretationToggle.addEventListener('click', () => {
             if (!interpretationMode) {
                 // Turning ON interpretation mode
+                interpretationLanguagesContainer.style.display = 'block';
                 interpretationInfo.style.display = 'block';
+                // Check if any languages are selected
+                if (interpretationLanguages.length === 0) {
+                    showError('통역 언어를 선택해주세요.');
+                    interpretationToggle.classList.remove('active');
+                    return;
+                }
+                // Enable interpretation mode
+                interpretationMode = true;
+                interpretationToggle.classList.add('active');
+                // Disable other features
+                languageSelect.value = '';
+                selectedLanguage = '';
+                languageSelect.disabled = true;
+                searchToggle.classList.remove('active');
+                webSearchEnabled = false;
+                searchToggle.style.opacity = '0.5';
+                searchToggle.style.pointerEvents = 'none';
+                textInput.disabled = true;
+                textInput.placeholder = '통역 모드에서는 텍스트 입력이 지원되지 않습니다';
+                sendButton.style.display = 'none';
+                console.log('Interpretation mode enabled with languages:', interpretationLanguages);
+                // If connected, restart to apply interpretation mode
+                if (peerConnection && peerConnection.connectionState === 'connected') {
+                    showError('통역 모드 설정을 적용하기 위해 연결을 다시 시작합니다.');
+                    stop();
+                    setTimeout(() => {
+                        setupWebRTC();
+                    }, 500);
+                }
             } else {
                 // Turning OFF interpretation mode
                 interpretationMode = false;
                 interpretationToggle.classList.remove('active');
+                interpretationLanguagesContainer.style.display = 'none';
                 interpretationInfo.style.display = 'none';
                 // Re-enable other features
                 languageSelect.disabled = false;
             console.log('Interpretation mode:', interpretationMode);
         });
         // System prompt update
         systemPromptInput.addEventListener('input', () => {
             systemPrompt = systemPromptInput.value || "You are a helpful assistant. Respond in a friendly and professional manner.";
                     target_language: selectedLanguage,
                     system_prompt: systemPrompt,
                     interpretation_mode: interpretationMode,
+                    interpretation_languages: interpretationLanguages
                 });
                 const response = await fetch('/webrtc/offer', {
                         target_language: selectedLanguage,
                         system_prompt: systemPrompt,
                         interpretation_mode: interpretationMode,
+                        interpretation_languages: interpretationLanguages
                     })
                 });
                 const serverResponse = await response.json();
                     if (interpretationMode) {
                         console.log('[INTERPRETATION OUTPUT]', {
                             content: content,
                             mode: eventJson.mode,
+                            translations: eventJson.translations
                         });
                     }
                     if (selectedLanguage && eventJson.language) {
                         content += ` <span class="language-info">[${eventJson.language}]</span>`;
+                    } else if (interpretationMode && eventJson.mode === 'interpretation') {
+                        // Handle interpretation mode output
+                        if (eventJson.original && eventJson.translations) {
+                            addInterpretationResult(eventJson.original, eventJson.translations);
                         }
+                    } else {
+                        addMessage("assistant", content);
                     }
                 });
                 eventSource.addEventListener("search", (event) => {
                     const eventJson = JSON.parse(event.data);
             const messageDiv = document.createElement('div');
             messageDiv.classList.add('message', role);
             if (content.includes('<span')) {
                 messageDiv.innerHTML = content;
             } else {
             chatMessages.appendChild(messageDiv);
             chatMessages.scrollTop = chatMessages.scrollHeight;
         }
+        function addInterpretationResult(original, translations) {
+            const resultDiv = document.createElement('div');
+            resultDiv.className = 'interpretation-result';
+            // Header
+            const headerDiv = document.createElement('div');
+            headerDiv.className = 'interpretation-header';
+            headerDiv.innerHTML = `
+                <span>🌐</span>
+                <span>자동 통역 결과</span>
+            `;
+            resultDiv.appendChild(headerDiv);
+            // Original text
+            const originalDiv = document.createElement('div');
+            originalDiv.className = 'interpretation-original';
+            originalDiv.innerHTML = `<strong>원문:</strong> ${original}`;
+            resultDiv.appendChild(originalDiv);
+            // Translations
+            const translationsDiv = document.createElement('div');
+            translationsDiv.className = 'interpretation-translations';
+            translations.forEach(trans => {
+                const transItem = document.createElement('div');
+                transItem.className = 'translation-item';
+                transItem.innerHTML = `
+                    <span class="translation-lang">${trans.language}:</span>
+                    <span class="translation-text">${trans.text}</span>
+                `;
+                translationsDiv.appendChild(transItem);
+            });
+            resultDiv.appendChild(translationsDiv);
+            chatMessages.appendChild(resultDiv);
+            chatMessages.scrollTop = chatMessages.scrollHeight;
+        }
         function stop() {
             if (animationFrame) {
                 cancelAnimationFrame(animationFrame);
             }
         });
+        // Initialize on page load
         window.addEventListener('DOMContentLoaded', () => {
             sendButton.style.display = 'block';
+            initializeLanguageSelection();
         });
     </script>
 </body>
     return chatbot
 async def process_text_chat(message: str, web_search_enabled: bool, target_language: str,
                           system_prompt: str) -> Dict[str, str]:
     """Process text chat using GPT-4o-mini model"""
 class OpenAIHandler(AsyncStreamHandler):
     def __init__(self, web_search_enabled: bool = False, target_language: str = "",
                  system_prompt: str = "", webrtc_id: str = None,
+                 interpretation_mode: bool = False, interpretation_languages: List[str] = None) -> None:
         super().__init__(
             expected_layout="mono",
             output_sample_rate=SAMPLE_RATE,
         self.target_language = target_language
         self.system_prompt = system_prompt
         self.interpretation_mode = interpretation_mode
+        self.interpretation_languages = interpretation_languages or []
         # For interpretation mode
         self.audio_buffer = []
         print(f"Handler created with web_search_enabled={web_search_enabled}, "
               f"target_language={target_language}, webrtc_id={webrtc_id}, "
+              f"interpretation_mode={interpretation_mode}, interpretation_languages={interpretation_languages}")
     def copy(self):
         # Get the most recent settings
                     system_prompt=settings.get('system_prompt', ''),
                     webrtc_id=recent_id,
                     interpretation_mode=settings.get('interpretation_mode', False),
+                    interpretation_languages=settings.get('interpretation_languages', [])
                 )
         print(f"Handler.copy() called - creating new handler with default settings")
             await self.connection.response.create()
     async def process_interpretation(self):
+        """Process audio buffer for interpretation - text only output"""
+        if not self.audio_buffer or not self.interpretation_languages:
             return
         try:
             if not user_text:
                 return
+            # 2. Translate to all selected languages
+            translations = []
+            for lang_code in self.interpretation_languages:
+                target_lang_name = SUPPORTED_LANGUAGES.get(lang_code, lang_code)
+                # Create very explicit translation prompt
+                translation_examples = {
+                    "en": {
+                        "안녕하세요": "Hello",
+                        "감사합니다": "Thank you",
+                        "오늘 날씨가 좋네요": "The weather is nice today"
+                    },
+                    "ja": {
+                        "안녕하세요": "こんにちは",
+                        "감사합니다": "ありがとうございます",
+                        "오늘 날씨가 좋네요": "今日はいい天気ですね"
+                    },
+                    "zh": {
+                        "안녕하세요": "你好",
+                        "감사합니다": "谢谢",
+                        "오늘 날씨가 좋네요": "今天天气很好"
+                    },
+                    "es": {
+                        "안녕하세요": "Hola",
+                        "감사합니다": "Gracias",
+                        "오늘 날씨가 좋네요": "El clima está agradable hoy"
+                    },
+                    "ru": {
+                        "안녕하세요": "Привет",
+                        "감사합니다": "Спасибо",
+                        "오늘 날씨가 좋네요": "Сегодня хорошая погода"
+                    },
+                    "th": {
+                        "안녕하세요": "สวัสดี",
+                        "감사합니다": "ขอบคุณ",
+                        "오늘 날씨가 좋네요": "วันนี้อากาศดี"
+                    }
                 }
+                examples = translation_examples.get(lang_code, translation_examples.get("en", {}))
+                examples_text = "\n".join([f'"{k}" → "{v}"' for k, v in examples.items()])
+                system_prompt = f"""You are a Korean to {target_lang_name} translator.
 STRICT RULES:
 1. Output ONLY the {target_lang_name} translation
 {examples_text}
 Now translate the Korean text to {target_lang_name}. Output ONLY the translation in {target_lang_name}:"""
+                print(f"[INTERPRETATION] Translating to {target_lang_name}...")
+                translation_response = await self.client.chat.completions.create(
+                    model="gpt-4o-mini",
+                    messages=[
+                        {
+                            "role": "system",
+                            "content": system_prompt
+                        },
+                        {
+                            "role": "user",
+                            "content": f"Translate this Korean to {target_lang_name}: {user_text}"
+                        }
+                    ],
+                    temperature=0.1,
+                    max_tokens=200
                 )
+                translated_text = translation_response.choices[0].message.content.strip()
+                # Remove any Korean characters if they accidentally appear
+                import re
+                if re.search(r'[가-힣]', translated_text):
+                    print(f"[INTERPRETATION] WARNING: Korean characters detected in {target_lang_name} translation")
+                    translated_text = re.sub(r'[가-힣\s]+', ' ', translated_text).strip()
+                translations.append({
+                    "language": target_lang_name,
+                    "text": translated_text
+                })
+                print(f"[INTERPRETATION] {target_lang_name}: {translated_text}")
+            # Send interpretation result (text only)
             output_data = {
                 "event": type('Event', (), {
+                    'transcript': f"통역 완료"  # Simple notification
                 })(),
+                "mode": "interpretation",
+                "original": user_text,
+                "translations": translations
             }
             await self.output_queue.put(AdditionalOutputs(output_data))
                 "event": type('Event', (), {
                     'transcript': f"통역 오류: {str(e)}"
                 })(),
                 "mode": "error"
             }
             await self.output_queue.put(AdditionalOutputs(error_data))
                 self.target_language = settings.get('target_language', '')
                 self.system_prompt = settings.get('system_prompt', '')
                 self.interpretation_mode = settings.get('interpretation_mode', False)
+                self.interpretation_languages = settings.get('interpretation_languages', [])
                 self.webrtc_id = recent_id
                 print(f"start_up: Updated settings from storage - webrtc_id={self.webrtc_id}, "
                       f"web_search_enabled={self.web_search_enabled}, target_language={self.target_language}, "
                       f"interpretation_mode={self.interpretation_mode}")
+                print(f"Handler interpretation settings: mode={self.interpretation_mode}, languages={self.interpretation_languages}")
         print(f"Starting up handler with web_search_enabled={self.web_search_enabled}, "
               f"target_language={self.target_language}, interpretation_mode={self.interpretation_mode}, "
+              f"interpretation_languages={self.interpretation_languages}")
         self.client = openai.AsyncOpenAI()
         # If in interpretation mode, don't connect to Realtime API
         if self.interpretation_mode:
+            print(f"[INTERPRETATION MODE] Active - using Whisper + GPT-4o-mini (text only)")
+            print(f"[INTERPRETATION MODE] Target languages: {self.interpretation_languages}")
             # Just keep the handler ready to process audio
             self.client = openai.AsyncOpenAI()
             return
     target_language = body.get("target_language", "")
     system_prompt = body.get("system_prompt", "")
     interpretation_mode = body.get("interpretation_mode", False)
+    interpretation_languages = body.get("interpretation_languages", [])
     print(f"Custom offer - webrtc_id: {webrtc_id}, web_search_enabled: {web_search_enabled}, "
           f"target_language: {target_language}, interpretation_mode: {interpretation_mode}, "
+          f"interpretation_languages: {interpretation_languages}")
     # Store settings with timestamp
     if webrtc_id:
             'target_language': target_language,
             'system_prompt': system_prompt,
             'interpretation_mode': interpretation_mode,
+            'interpretation_languages': interpretation_languages,
             'timestamp': asyncio.get_event_loop().time()
         }
                     yield f"event: search\ndata: {json.dumps(output.args[0])}\n\n"
                 # Regular transcript event with language info
                 elif isinstance(output.args[0], dict) and 'event' in output.args[0]:
+                    event_data = output.args[0]
+                    if 'event' in event_data and hasattr(event_data['event'], 'transcript'):
                         data = {
                             "role": "assistant",
+                            "content": event_data['event'].transcript,
+                            "language": event_data.get('language', ''),
+                            "mode": event_data.get('mode', 'normal'),
+                            "original": event_data.get('original', ''),
+                            "translations": event_data.get('translations', [])
                         }
                         yield f"event: output\ndata: {json.dumps(data)}\n\n"