Spaces:
Runtime error
Runtime error
title: 2인 대화 화자 분리기 (AI) | |
emoji: 🎤 | |
colorFrom: blue | |
colorTo: purple | |
sdk: gradio | |
sdk_version: 4.44.0 | |
app_file: app.py | |
pinned: false | |
license: mit | |
short_description: Whisper + Gemini 2.0 Flash AI를 사용한 음성 인식, 화자 분리 및 맞춤법 교정 | |
# 🎤 2인 대화 화자 분리기 (AI) | |
**Whisper + Gemini 2.0 Flash AI를 사용한 음성 인식, 화자 분리 및 맞춤법 교정 서비스** | |
## 🚀 주요 기능 | |
- **🎤 음성 인식**: OpenAI Whisper를 활용한 고정밀 다국어 음성-텍스트 변환 | |
- **🎯 정확한 화자 분리**: Google Gemini 2.0 Flash를 활용한 고정밀 화자 구분 | |
- **✏️ 맞춤법 교정**: AI 기반 한국어 맞춤법 및 오타 교정 | |
- **📊 결과 비교**: 원본, 화자 분리, 교정본 단계별 비교 가능 | |
- **👥 개별 화자 추출**: 각 화자의 발언만 따로 추출하여 분석 가능 | |
- **🌐 웹 인터페이스**: 사용하기 쉬운 Gradio 기반 웹 UI | |
- **📝 텍스트 입력**: 오디오 없이 텍스트만으로도 화자 분리 가능 | |
## 📖 사용법 | |
### 🎤 오디오 파일 처리 | |
1. **오디오 업로드**: WAV, MP3, MP4 등의 오디오 파일을 업로드 | |
2. **처리 시작**: '🚀 오디오 처리 시작' 버튼 클릭 | |
3. **자동 처리**: 음성 인식 → 화자 분리 → 맞춤법 교정 순으로 자동 처리 | |
4. **결과 확인**: 탭별로 다음 결과 확인: | |
- 📝 원본 텍스트 (음성 인식 결과) | |
- 👥 화자 분리 (원본) | |
- ✏️ 화자 분리 (교정) | |
- 👤 화자1 대화 | |
- 👤 화자2 대화 | |
### 📝 텍스트 직접 입력 | |
1. **텍스트 입력**: 2인 대화 텍스트를 입력창에 붙여넣기 | |
2. **처리 시작**: '🚀 텍스트 처리 시작' 버튼 클릭 | |
3. **결과 확인**: 화자 분리 및 맞춤법 교정 결과 확인 | |
## ⚙️ 기술 스택 | |
- **음성 인식**: OpenAI Whisper (다국어 지원) | |
- **AI 모델**: Google Gemini 2.0 Flash | |
- **웹 프레임워크**: Gradio | |
- **언어**: Python | |
- **최적화**: 한국어 2인 대화 | |
## 🎯 사용 예시 | |
### 입력 (오디오 또는 텍스트) | |
``` | |
안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요? | |
``` | |
### 출력 결과 | |
``` | |
[화자1] 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. | |
[화자2] 네, 안녕하세요. 준비된 자료가 있나요? | |
[화자1] 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요? | |
``` | |
## 📁 지원 형식 | |
### 오디오 형식 | |
- **WAV**: 무손실 고품질 (권장) | |
- **MP3**: 일반적인 압축 형식 | |
- **MP4**: 비디오에서 오디오 추출 | |
- **M4A**: Apple 기본 형식 | |
- **FLAC**: 무손실 압축 형식 | |
### 권장 오디오 품질 | |
- **샘플레이트**: 16kHz 이상 | |
- **비트레이트**: 128kbps 이상 | |
- **채널**: 모노 또는 스테레오 | |
- **길이**: 30초 ~ 30분 (최적: 2-10분) | |
## ⚠️ 주의사항 | |
- 처리 시간은 오디오 길이에 따라 1-5분 소요 | |
- Google AI API 사용량 제한 있음 | |
- 2인 대화에 최적화됨 | |
- 음질이 좋을수록 더 정확한 결과 | |
- 배경 소음이 적고 화자 구분이 명확한 오디오 권장 | |
- 너무 긴 오디오는 처리 시간이 오래 걸릴 수 있음 | |
## 🔧 환경 설정 | |
### 필요한 API 키 | |
- `GOOGLE_API_KEY`: Google AI (Gemini) API 키 | |
### 의존성 | |
``` | |
python-dotenv==1.0.0 | |
google-generativeai==0.8.3 | |
gradio==4.44.0 | |
openai-whisper==20240930 | |
torch==2.0.1 | |
torchaudio==2.0.2 | |
``` | |
## 📝 License | |
MIT License | |
## 🤝 Contributing | |
이슈나 개선사항이 있으시면 언제든 말씀해주세요! | |
--- | |
**Made with ❤️ using OpenAI Whisper + Google Gemini 2.0 Flash** | |