Jeongsoo1975 commited on
Commit
d0b3084
·
1 Parent(s): 94d3c15

feat: Hugging Face Spaces 배포 준비

Browse files
Files changed (2) hide show
  1. README.md +60 -33
  2. requirements.txt +3 -4
README.md CHANGED
@@ -8,53 +8,80 @@ sdk_version: 4.44.0
8
  app_file: app.py
9
  pinned: false
10
  license: mit
 
11
  ---
12
 
13
- # 2인 대화 화자 분리기 (AI)
14
 
15
- Gemini 2.0 Flash AI를 사용하여 텍스트 대화를 화자별로 자동 분리하고 맞춤법을 교정하는 애플리케이션입니다.
16
 
17
- ## 🎯 주요 기능
18
 
19
- 1. **WAV 파일 업로드**: 인터페이스를 통한 간편한 파일 업로드
20
- 2. **고정밀 음성 인식**: OpenAI Whisper를 사용한 음성-텍스트 변환
21
- 3. **AI 화자 분리**: Google Gemini를 사용한 텍스트 기반 2인 대화 분리
22
- 4. **실시간 결과**: 웹에서 즉시 결과 확인 다운로드
 
23
 
24
- ## 🛠 기술 스택
25
 
26
- - **UI Framework**: Gradio (웹 인터페이스)
27
- - **음성 인식**: OpenAI Whisper
28
- - **AI 화자 분리**: Google Gemini Pro
29
- - **호스팅**: Hugging Face Spaces
 
 
 
 
30
 
31
- ## 📝 사용 방법
32
 
33
- 1. WAV 파일을 업로드하세요
34
- 2. "처리 시작" 버튼을 클릭하세요
35
- 3. 처리 완료 후 결과를 확인하세요:
36
- - 원본 텍스트
37
- - 화자별 분리 결과
38
- - 맞춤법 교정 결과
39
 
40
- ## ⚙️ API 설정
41
 
42
- 애플리케이션은 Google AI API를 사용합니다. Hugging Face Spaces의 Settings에서 다음 환경 변수를 설정해야 합니다:
 
 
 
43
 
44
- - `GOOGLE_API_KEY`: Google AI Studio에서 발급받은 API 키
 
 
 
 
 
45
 
46
- ## 🎤 화자 분리 정확도
47
 
48
- Gemini AI의 텍스트 기반 화자 분리는 다음 요소들을 분석합니다:
 
 
 
49
 
50
- - **대화 맥락**: 질문과 답변의 패턴
51
- - **말투 변화**: 존댓말/반말, 어조 변화
52
- - **주제 전환**: 화자별 관심사나 역할
53
- - **언어 패턴**: 개인별 표현 습관
54
 
55
- ## ⚠️ 주의사항
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
56
 
57
- - WAV 형식의 오디오 파일만 지원됩니다
58
- - 2인 대화에 최적화되어 있습니다
59
- - 처리 시간은 파일 길이에 따라 달라집니다
60
- - Google AI API 사용량에 따라 제한이 있을 수 있습니다
 
8
  app_file: app.py
9
  pinned: false
10
  license: mit
11
+ short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및 맞춤법 교정
12
  ---
13
 
14
+ # 💬 2인 대화 화자 분리기 (AI)
15
 
16
+ **Gemini 2.0 Flash AI를 사용한 한국어 2인 대화 텍스트 화자 분리 맞춤법 교정 서비스**
17
 
18
+ ## 🚀 주요 기능
19
 
20
+ - **🎯 정확한 화자 분리**: Google Gemini 2.0 Flash를 활용한 고정밀 화자 구분
21
+ - **✏️ 맞춤법 교정**: AI 기반 한국어 맞춤법 및 오타 교정
22
+ - **📊 결과 비교**: 원본, 화자 분리, 교정본 단계별 비교 가능
23
+ - **👥 개별 화자 추출**: 화자의 발언만 따로 추출하여 분석 가능
24
+ - **🌐 웹 인터페이스**: 사용하기 쉬운 Gradio 기반 웹 UI
25
 
26
+ ## 📖 사용법
27
 
28
+ 1. **텍스트 입력**: 2인 대화 텍스트를 입력창에 붙여넣기
29
+ 2. **처리 시작**: '🚀 처리 시작' 버튼 클릭
30
+ 3. **결과 확인**: 탭별로 다음 결과 확인:
31
+ - 📝 원본 텍스트
32
+ - 👥 화자 분리 (원본)
33
+ - ✏️ 화자 분리 (교정)
34
+ - 👤 화자1 대화
35
+ - 👤 화자2 대화
36
 
37
+ ## ⚙️ 기술 스택
38
 
39
+ - **AI 모델**: Google Gemini 2.0 Flash
40
+ - **웹 프레임워크**: Gradio
41
+ - **언어**: Python
42
+ - **최적화**: 한국어 2인 대화
 
 
43
 
44
+ ## 🎯 사용 예시
45
 
46
+ ### 입력 텍스트
47
+ ```
48
+ 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
49
+ ```
50
 
51
+ ### 출력 결과
52
+ ```
53
+ [화자1] 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다.
54
+ [화자2] 네, 안녕하세요. 준비된 자료가 있나요?
55
+ [화자1] 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
56
+ ```
57
 
58
+ ## ⚠️ 주의사항
59
 
60
+ - 처리 시간은 텍스트 길이에 따라 30초~2분 소요
61
+ - Google AI API 사용량 제한 있음
62
+ - 2인 대화에 최적화됨
63
+ - 대화 맥락이 명확할수록 정확도 향상
64
 
65
+ ## 🔧 환경 설정
 
 
 
66
 
67
+ ### 필요한 API 키
68
+ - `GOOGLE_API_KEY`: Google AI (Gemini) API 키
69
+
70
+ ### 의존성
71
+ ```
72
+ python-dotenv
73
+ google-generativeai
74
+ gradio
75
+ ```
76
+
77
+ ## 📝 License
78
+
79
+ MIT License
80
+
81
+ ## 🤝 Contributing
82
+
83
+ 이슈나 개선사항이 있으시면 언제든 말씀해주세요!
84
+
85
+ ---
86
 
87
+ **Made with ❤️ using Google Gemini 2.0 Flash**
 
 
 
requirements.txt CHANGED
@@ -1,4 +1,3 @@
1
- python-dotenv
2
- google-generativeai
3
- gradio
4
- spaces
 
1
+ python-dotenv==1.0.0
2
+ google-generativeai==0.8.3
3
+ gradio==4.44.0