Spaces:

jeongsoo
/

audio_summarizer

Runtime error

App Files Files Community

Jeongsoo1975 commited on Jun 18

Commit

d0b3084

1 Parent(s): 94d3c15

feat: Hugging Face Spaces 배포 준비

Browse files

Files changed (2) hide show

README.md +60 -33
requirements.txt +3 -4

README.md CHANGED Viewed

@@ -8,53 +8,80 @@ sdk_version: 4.44.0
 app_file: app.py
 pinned: false
 license: mit
 ---
-# 2인 대화 화자 분리기 (AI)
-Gemini 2.0 Flash AI를 사용하여 텍스트 대화를 화자별로 자동 분리하고 맞춤법을 교정하는 웹 애플리케이션입니다.
-## 🎯 주요 기능
-1. **WAV 파일 업로드**: 웹 인터페이스를 통한 간편한 파일 업로드
-2. **고정밀 음성 인식**: OpenAI Whisper를 사용한 음성-텍스트 변환
-3. **AI 화자 분리**: Google Gemini를 사용한 텍스트 기반 2인 대화 분리
-4. **실시간 결과**: 웹에서 즉시 결과 확인 및 다운로드
-## 🛠 기술 스택
-- **UI Framework**: Gradio (웹 인터페이스)
-- **음성 인식**: OpenAI Whisper
-- **AI 화자 분리**: Google Gemini Pro
-- **호스팅**: Hugging Face Spaces
-## 📝 사용 방법
-1. WAV 파일을 업로드하세요
-2. "처리 시작" 버튼을 클릭하세요
-3. 처리 완료 후 결과를 확인하세요:
-   - 원본 텍스트
-   - 화자별 분리 결과
-   - 맞춤법 교정 결과
-## ⚙️ API 설정
-이 애플리케이션은 Google AI API를 사용합니다. Hugging Face Spaces의 Settings에서 다음 환경 변수를 설정해야 합니다:
-- `GOOGLE_API_KEY`: Google AI Studio에서 발급받은 API 키
-## 🎤 화자 분리 정확도
-Gemini AI의 텍스트 기반 화자 분리는 다음 요소들을 분석합니다:
-- **대화 맥락**: 질문과 답변의 패턴
-- **말투 변화**: 존댓말/반말, 어조 변화
-- **주제 전환**: 화자별 관심사나 역할
-- **언어 패턴**: 개인별 표현 습관
-## ⚠️ 주의사항
-- WAV 형식의 오디오 파일만 지원됩니다
-- 2인 대화에 최적화되어 있습니다
-- 처리 시간은 파일 길이에 따라 달라집니다
-- Google AI API 사용량에 따라 제한이 있을 수 있습니다

 app_file: app.py
 pinned: false
 license: mit
+short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및 맞춤법 교정
 ---
+# 💬 2인 대화 화자 분리기 (AI)
+**Gemini 2.0 Flash AI를 사용한 한국어 2인 대화 텍스트 화자 분리 및 맞춤법 교정 서비스**
+## 🚀 주요 기능
+- **🎯 정확한 화자 분리**: Google Gemini 2.0 Flash를 활용한 고정밀 화자 구분
+- **✏️ 맞춤법 교정**: AI 기반 한국어 맞춤법 및 오타 교정
+- **📊 결과 비교**: 원본, 화자 분리, 교정본 단계별 비교 가능
+- **👥 개별 화자 추출**: 각 화자의 발언만 따로 추출하여 분석 가능
+- **🌐 웹 인터페이스**: 사용하기 쉬운 Gradio 기반 웹 UI
+## 📖 사용법
+1. **텍스트 입력**: 2인 대화 텍스트를 입력창에 붙여넣기
+2. **처리 시작**: '🚀 처리 시작' 버튼 클릭
+3. **결과 확인**: 탭별로 다음 결과 확인:
+   - 📝 원본 텍스트
+   - 👥 화자 분리 (원본)
+   - ✏️ 화자 분리 (교정)
+   - 👤 화자1 대화
+   - 👤 화자2 대화
+## ⚙️ 기술 스택
+- **AI 모델**: Google Gemini 2.0 Flash
+- **웹 프레임워크**: Gradio
+- **언어**: Python
+- **최적화**: 한국어 2인 대화
+## 🎯 사용 예시
+### 입력 텍스트
+```
+안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
+```
+### 출력 결과
+```
+[화자1] 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다.
+[화자2] 네, 안녕하세요. 준비된 자료가 있나요?
+[화자1] 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
+```
+## ⚠️ 주의사항
+- 처리 시간은 텍스트 길이에 따라 30초~2분 소요
+- Google AI API 사용량 제한 있음
+- 2인 대화에 최적화됨
+- 대화 맥락이 명확할수록 정확도 향상
+## 🔧 환경 설정
+### 필요한 API 키
+- `GOOGLE_API_KEY`: Google AI (Gemini) API 키
+### 의존성
+```
+python-dotenv
+google-generativeai
+gradio
+```
+## 📝 License
+MIT License
+## 🤝 Contributing
+이슈나 개선사항이 있으시면 언제든 말씀해주세요!
+---
+**Made with ❤️ using Google Gemini 2.0 Flash**

requirements.txt CHANGED Viewed

@@ -1,4 +1,3 @@
-python-dotenv
-google-generativeai
-gradio
-spaces

+python-dotenv==1.0.0
+google-generativeai==0.8.3
+gradio==4.44.0