Spaces:
Runtime error
Runtime error
Jeongsoo1975
Initial commit: Gradio text-based speaker separation app for Hugging Face Spaces
ae9ec05
| title: 2인 대화 화자 분리기 (AI) | |
| emoji: 💬 | |
| colorFrom: blue | |
| colorTo: purple | |
| sdk: gradio | |
| sdk_version: 4.44.0 | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| # 2인 대화 화자 분리기 (AI) | |
| Gemini 2.0 Flash AI를 사용하여 텍스트 대화를 화자별로 자동 분리하고 맞춤법을 교정하는 웹 애플리케이션입니다. | |
| ## 🎯 주요 기능 | |
| 1. **WAV 파일 업로드**: 웹 인터페이스를 통한 간편한 파일 업로드 | |
| 2. **고정밀 음성 인식**: OpenAI Whisper를 사용한 음성-텍스트 변환 | |
| 3. **AI 화자 분리**: Google Gemini를 사용한 텍스트 기반 2인 대화 분리 | |
| 4. **실시간 결과**: 웹에서 즉시 결과 확인 및 다운로드 | |
| ## 🛠 기술 스택 | |
| - **UI Framework**: Gradio (웹 인터페이스) | |
| - **음성 인식**: OpenAI Whisper | |
| - **AI 화자 분리**: Google Gemini Pro | |
| - **호스팅**: Hugging Face Spaces | |
| ## 📝 사용 방법 | |
| 1. WAV 파일을 업로드하세요 | |
| 2. "처리 시작" 버튼을 클릭하세요 | |
| 3. 처리 완료 후 결과를 확인하세요: | |
| - 원본 텍스트 | |
| - 화자별 분리 결과 | |
| - 맞춤법 교정 결과 | |
| ## ⚙️ API 설정 | |
| 이 애플리케이션은 Google AI API를 사용합니다. Hugging Face Spaces의 Settings에서 다음 환경 변수를 설정해야 합니다: | |
| - `GOOGLE_API_KEY`: Google AI Studio에서 발급받은 API 키 | |
| ## 🎤 화자 분리 정확도 | |
| Gemini AI의 텍스트 기반 화자 분리는 다음 요소들을 분석합니다: | |
| - **대화 맥락**: 질문과 답변의 패턴 | |
| - **말투 변화**: 존댓말/반말, 어조 변화 | |
| - **주제 전환**: 화자별 관심사나 역할 | |
| - **언어 패턴**: 개인별 표현 습관 | |
| ## ⚠️ 주의사항 | |
| - WAV 형식의 오디오 파일만 지원됩니다 | |
| - 2인 대화에 최적화되어 있습니다 | |
| - 처리 시간은 파일 길이에 따라 달라집니다 | |
| - Google AI API 사용량에 따라 제한이 있을 수 있습니다 |