Spaces:

jeongsoo
/

audio_summarizer

Runtime error

App Files Files Community

Jeongsoo1975 commited on Jun 18

Commit

ad0eadb

1 Parent(s): d0b3084

feat: 오디오 업로드 기능 추가

Browse files

Files changed (3) hide show

README.md +45 -15
app.py +172 -42
requirements.txt +3 -0

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: 2인 대화 화자 분리기 (AI)
-emoji: 💬
 colorFrom: blue
 colorTo: purple
 sdk: gradio
@@ -8,34 +8,44 @@ sdk_version: 4.44.0
 app_file: app.py
 pinned: false
 license: mit
-short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및 맞춤법 교정
 ---
-# 💬 2인 대화 화자 분리기 (AI)
-**Gemini 2.0 Flash AI를 사용한 한국어 2인 대화 텍스트 화자 분리 및 맞춤법 교정 서비스**
 ## 🚀 주요 기능
 - **🎯 정확한 화자 분리**: Google Gemini 2.0 Flash를 활용한 고정밀 화자 구분
 - **✏️ 맞춤법 교정**: AI 기반 한국어 맞춤법 및 오타 교정
 - **📊 결과 비교**: 원본, 화자 분리, 교정본 단계별 비교 가능
 - **👥 개별 화자 추출**: 각 화자의 발언만 따로 추출하여 분석 가능
 - **🌐 웹 인터페이스**: 사용하기 쉬운 Gradio 기반 웹 UI
 ## 📖 사용법
-1. **텍스트 입력**: 2인 대화 텍스트를 입력창에 붙여넣기
-2. **처리 시작**: '🚀 처리 시작' 버튼 클릭
-3. **결과 확인**: 탭별로 다음 결과 확인:
-   - 📝 원본 텍스트
    - 👥 화자 분리 (원본)
    - ✏️ 화자 분리 (교정)
    - 👤 화자1 대화
    - 👤 화자2 대화
 ## ⚙️ 기술 스택
 - **AI 모델**: Google Gemini 2.0 Flash
 - **웹 프레임워크**: Gradio
 - **언어**: Python
@@ -43,7 +53,7 @@ short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및
 ## 🎯 사용 예시
-### 입력 텍스트
 ```
 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
 ```
@@ -55,12 +65,29 @@ short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및
 [화자1] 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
 ```
 ## ⚠️ 주의사항
-- 처리 시간은 텍스트 길이에 따라 30초~2분 소요
 - Google AI API 사용량 제한 있음
 - 2인 대화에 최적화됨
-- 대화 맥락이 명확할수록 정확도 향상
 ## 🔧 환경 설정
@@ -69,9 +96,12 @@ short_description: Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및
 ### 의존성
 ```
-python-dotenv
-google-generativeai
-gradio
 ```
 ## 📝 License
@@ -84,4 +114,4 @@ MIT License
 ---
-**Made with ❤️ using Google Gemini 2.0 Flash**

 ---
 title: 2인 대화 화자 분리기 (AI)
+emoji: 🎤
 colorFrom: blue
 colorTo: purple
 sdk: gradio
 app_file: app.py
 pinned: false
 license: mit
+short_description: Whisper + Gemini 2.0 Flash AI를 사용한 음성 인식, 화자 분리 및 맞춤법 교정
 ---
+# 🎤 2인 대화 화자 분리기 (AI)
+**Whisper + Gemini 2.0 Flash AI를 사용한 음성 인식, 화자 분리 및 맞춤법 교정 서비스**
 ## 🚀 주요 기능
+- **🎤 음성 인식**: OpenAI Whisper를 활용한 고정밀 다국어 음성-텍스트 변환
 - **🎯 정확한 화자 분리**: Google Gemini 2.0 Flash를 활용한 고정밀 화자 구분
 - **✏️ 맞춤법 교정**: AI 기반 한국어 맞춤법 및 오타 교정
 - **📊 결과 비교**: 원본, 화자 분리, 교정본 단계별 비교 가능
 - **👥 개별 화자 추출**: 각 화자의 발언만 따로 추출하여 분석 가능
 - **🌐 웹 인터페이스**: 사용하기 쉬운 Gradio 기반 웹 UI
+- **📝 텍스트 입력**: 오디오 없이 텍스트만으로도 화자 분리 가능
 ## 📖 사용법
+### 🎤 오디오 파일 처리
+1. **오디오 업로드**: WAV, MP3, MP4 등의 오디오 파일을 업로드
+2. **처리 시작**: '🚀 오디오 처리 시작' 버튼 클릭
+3. **자동 처리**: 음성 인식 → 화자 분리 → 맞춤법 교정 순으로 자동 처리
+4. **결과 확인**: 탭별로 다음 결과 확인:
+   - 📝 원본 텍스트 (음성 인식 결과)
    - 👥 화자 분리 (원본)
    - ✏️ 화자 분리 (교정)
    - 👤 화자1 대화
    - 👤 화자2 대화
+### 📝 텍스트 직접 입력
+1. **텍스트 입력**: 2인 대화 텍스트를 입력창에 붙여넣기
+2. **처리 시작**: '🚀 텍스트 처리 시작' 버튼 클릭
+3. **결과 확인**: 화자 분리 및 맞춤법 교정 결과 확인
 ## ⚙️ 기술 스택
+- **음성 인식**: OpenAI Whisper (다국어 지원)
 - **AI 모델**: Google Gemini 2.0 Flash
 - **웹 프레임워크**: Gradio
 - **언어**: Python
 ## 🎯 사용 예시
+### 입력 (오디오 또는 텍스트)
 ```
 안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
 ```
 [화자1] 네, 프레젠테이션 자료를 준비했습니다. 그럼 시작해볼까요?
 ```
+## 📁 지원 형식
+### 오디오 형식
+- **WAV**: 무손실 고품질 (권장)
+- **MP3**: 일반적인 압축 형식
+- **MP4**: 비디오에서 오디오 추출
+- **M4A**: Apple 기본 형식
+- **FLAC**: 무손실 압축 형식
+### 권장 오디오 품질
+- **샘플레이트**: 16kHz 이상
+- **비트레이트**: 128kbps 이상
+- **채널**: 모노 또는 스테레오
+- **길이**: 30초 ~ 30분 (최적: 2-10분)
 ## ⚠️ 주의사항
+- 처리 시간은 오디오 길이에 따라 1-5분 소요
 - Google AI API 사용량 제한 있음
 - 2인 대화에 최적화됨
+- 음질이 좋을수록 더 정확한 결과
+- 배경 소음이 적고 화자 구분이 명확한 오디오 권장
+- 너무 긴 오디오는 처리 시간이 오래 걸릴 수 있음
 ## 🔧 환경 설정
 ### 의존성
 ```
+python-dotenv==1.0.0
+google-generativeai==0.8.3
+gradio==4.44.0
+openai-whisper==20240930
+torch==2.0.1
+torchaudio==2.0.2
 ```
 ## 📝 License
 ---
+**Made with ❤️ using OpenAI Whisper + Google Gemini 2.0 Flash**

app.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import gradio as gr
 import os
 import logging
 from datetime import datetime
 from stt_processor import TextProcessor
@@ -16,10 +18,11 @@ logger = logging.getLogger(__name__)
 # 전역 변수
 text_processor = None
-def initialize_processor():
-    """텍스트 프로세서를 초기화합니다."""
-    global text_processor
     try:
         # 환경 변수 또는 Hugging Face Secrets에서 API 키 읽기
         google_api_key = os.getenv("GOOGLE_API_KEY")
@@ -27,13 +30,106 @@ def initialize_processor():
         if not google_api_key:
             return False, "❌ Google API 키가 설정되지 않았습니다. Hugging Face Spaces의 Settings에서 GOOGLE_API_KEY를 설정해주세요."
         text_processor = TextProcessor(google_api_key)
-        return True, "✅ 텍스트 프로세서가 초기화되었습니다."
     except Exception as e:
-        logger.error(f"텍스트 프로세서 초기화 실패: {e}")
         return False, f"❌ 초기화 실패: {str(e)}"
 def process_text_input(input_text, progress=gr.Progress()):
     """
     입력된 텍스트를 처리합니다.
@@ -51,10 +147,10 @@ def process_text_input(input_text, progress=gr.Progress()):
         return "❌ 처리할 텍스트를 입력해주세요.", "", "", "", "", ""
     try:
-        # 텍스트 프로세서 초기화 (필요한 경우)
         if text_processor is None:
             progress(0.1, desc="텍스트 프로세서 초기화 중...")
-            success, message = initialize_processor()
             if not success:
                 return message, "", "", "", "", ""
@@ -89,7 +185,7 @@ def process_text_input(input_text, progress=gr.Progress()):
         progress(1.0, desc="처리 완료!")
         status_message = f"""
-✅ **처리 완료!**
 - 텍스트명: {result['text_name']}
 - 처리 시간: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
 - 화자1 발언 수: {len(conversations.get('화자1', []))}개
@@ -127,31 +223,45 @@ def create_interface():
         # 헤더
         gr.HTML("""
         <div class="main-header">
-            <h1>💬 2인 대화 화자 분리기 (AI)</h1>
-            <p>Gemini 2.0 Flash AI를 사용한 텍스트 화자 분리 및 맞춤법 교정</p>
         </div>
         """)
         with gr.Row():
             with gr.Column(scale=1):
-                # 텍스트 입력 섹션
-                gr.Markdown("### 📝 텍스트 입력")
-                text_input = gr.Textbox(
-                    label="2인 대화 텍스트를 입력하세요",
-                    placeholder="두 명이 나누는 대화 내용을 여기에 붙여넣기하세요...\n\n예시:\n안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다.",
-                    lines=8,
-                    max_lines=15
-                )
-                process_btn = gr.Button(
-                    "🚀 처리 시작",
-                    variant="primary",
-                    size="lg"
-                )
                 # 상태 표시
                 status_output = gr.Markdown(
-                    "### 📊 처리 상태\n준비 완료. 2인 대화 텍스트를 입력하고 '처리 시작' 버튼을 클릭하세요.",
                     elem_classes=["status-box"]
                 )
@@ -160,7 +270,7 @@ def create_interface():
                 with gr.Tabs():
                     with gr.TabItem("📝 원본 텍스���"):
                         original_output = gr.Textbox(
-                            label="입력된 원본 텍스트",
                             lines=10,
                             max_lines=20,
                             placeholder="처리 후 원본 텍스트가 여기에 표시됩니다..."
@@ -201,35 +311,55 @@ def create_interface():
         # 사용법 안내
         gr.Markdown("""
         ### 📖 사용법
         1. **텍스트 입력**: 2인 대화 텍스트를 입력란에 붙여넣기하세요
-        2. **처리 시작**: '🚀 처리 시작' 버튼을 클릭하여 화자 분리를 시작하세요
-        3. **결과 확인**: 각 탭에서 원본 텍스트, 화자 분리 결과, 개별 화자 대화를 확인하세요
         ### ⚙️ 기술 정보
         - **화자 분리**: Google Gemini 2.0 Flash
         - **맞춤법 교정**: 고급 AI 기반 한국어 교정
-        - **지원 언어**: 한국어 최적화
-        - **최적 환경**: 2인 대화, 명확한 문맥
         ### ⚠️ 주의사항
-        - 처리 시간은 텍스트 길이에 따라 달라집니다 (보통 30초-2분)
         - Google AI API 사용량 제한이 있을 수 있습니다
         - 2인 대화에 최적화되어 있습니다
-        - 대화 맥락이 명확할수록 분리 정확도가 높아집니다
         """)
         # 이벤트 연결
-        process_btn.click(
             fn=process_text_input,
             inputs=[text_input],
-            outputs=[
-                status_output,
-                original_output,
-                separated_output,
-                corrected_output,
-                speaker1_output,
-                speaker2_output
-            ],
             show_progress=True
         )
@@ -243,4 +373,4 @@ if __name__ == "__main__":
     app = create_interface()
     # 앱 실행 (Hugging Face Spaces용)
-    app.launch()

 import gradio as gr
 import os
 import logging
+import tempfile
+import whisper
 from datetime import datetime
 from stt_processor import TextProcessor
 # 전역 변수
 text_processor = None
+whisper_model = None
+def initialize_models():
+    """모델들을 초기화합니다."""
+    global text_processor, whisper_model
     try:
         # 환경 변수 또는 Hugging Face Secrets에서 API 키 읽기
         google_api_key = os.getenv("GOOGLE_API_KEY")
         if not google_api_key:
             return False, "❌ Google API 키가 설정되지 않았습니다. Hugging Face Spaces의 Settings에서 GOOGLE_API_KEY를 설정해주세요."
+        # Whisper 모델 로드
+        logger.info("Whisper 모델을 로딩합니다...")
+        whisper_model = whisper.load_model("base")
+        logger.info("Whisper 모델 로딩 완료")
+        # 텍스트 프로세서 초기화
         text_processor = TextProcessor(google_api_key)
+        return True, "✅ 모든 모델이 초기화되었습니다."
     except Exception as e:
+        logger.error(f"모델 초기화 실패: {e}")
         return False, f"❌ 초기화 실패: {str(e)}"
+def process_audio_file(audio_file, progress=gr.Progress()):
+    """
+    업로드된 오디오 파일을 처리합니다.
+    Args:
+        audio_file: 업로드된 오디오 파일
+        progress: Gradio 진행률 객체
+    Returns:
+        tuple: (처리 상태, 원본 텍스트, 화자 분리 결과, 교정 결과, 화자1 대화, 화자2 대화)
+    """
+    global text_processor, whisper_model
+    if audio_file is None:
+        return "❌ 오디오 파일을 업로드해주세요.", "", "", "", "", ""
+    try:
+        # 모델 초기화 (필요한 경우)
+        if whisper_model is None or text_processor is None:
+            progress(0.05, desc="모델 초기화 중...")
+            success, message = initialize_models()
+            if not success:
+                return message, "", "", "", "", ""
+        # 오디오 파일 경로 확인
+        audio_path = audio_file.name if hasattr(audio_file, 'name') else audio_file
+        logger.info(f"오디오 파일 처리 시작: {audio_path}")
+        # 1단계: Whisper로 음성 인식
+        progress(0.1, desc="음성을 텍스트로 변환 중...")
+        logger.info("Whisper를 통한 음성 인식 시작")
+        result = whisper_model.transcribe(audio_path)
+        full_text = result['text'].strip()
+        if not full_text:
+            return "❌ 오디오에서 텍스트를 추출할 수 없습니다.", "", "", "", "", ""
+        language = result.get('language', 'unknown')
+        logger.info(f"음성 인식 완료. 언어: {language}, 텍스트 길이: {len(full_text)}")
+        # 2단계: AI 모델 로딩
+        progress(0.3, desc="AI 모델 로딩 중...")
+        if not text_processor.models_loaded:
+            text_processor.load_models()
+        # 진행 상황 콜백 함수
+        def progress_callback(status, current, total):
+            progress_value = 0.3 + (current / total) * 0.6  # 0.3~0.9 범위
+            progress(progress_value, desc=f"{status} ({current}/{total})")
+        # 3단계: 텍스트 처리 (화자 분리 + 맞춤법 교정)
+        progress(0.4, desc="AI 화자 분리 및 맞춤법 교정 중...")
+        text_result = text_processor.process_text(full_text, progress_callback=progress_callback)
+        if not text_result.get("success", False):
+            return f"❌ 텍스트 처리 실패: {text_result.get('error', 'Unknown error')}", full_text, "", "", "", ""
+        # 결과 추출
+        progress(0.95, desc="결과 정리 중...")
+        original_text = text_result["original_text"]
+        separated_text = text_result["separated_text"]
+        corrected_text = text_result["corrected_text"]
+        # 화자별 대화 추출
+        conversations = text_result["conversations_by_speaker_corrected"]
+        speaker1_text = "\n\n".join([f"{i+1}. {utterance}" for i, utterance in enumerate(conversations.get("화자1", []))])
+        speaker2_text = "\n\n".join([f"{i+1}. {utterance}" for i, utterance in enumerate(conversations.get("화자2", []))])
+        progress(1.0, desc="처리 완료!")
+        status_message = f"""
+✅ **오디오 처리 완료!**
+- 파일명: {os.path.basename(audio_path)}
+- 처리 시간: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
+- 감지된 언어: {language}
+- 텍스트 길이: {len(full_text)}자
+- 화자1 발언 수: {len(conversations.get('화자1', []))}개
+- 화자2 발언 수: {len(conversations.get('화자2', []))}개
+"""
+        return status_message, original_text, separated_text, corrected_text, speaker1_text, speaker2_text
+    except Exception as e:
+        logger.error(f"오디오 파일 처리 중 오류: {e}")
+        return f"❌ 처리 중 오류가 발생했습니다: {str(e)}", "", "", "", "", ""
 def process_text_input(input_text, progress=gr.Progress()):
     """
     입력된 텍스트를 처리합니다.
         return "❌ 처리할 텍스트를 입력해주세요.", "", "", "", "", ""
     try:
+        # 모델 초기화 (필요한 경우)
         if text_processor is None:
             progress(0.1, desc="텍스트 프로세서 초기화 중...")
+            success, message = initialize_models()
             if not success:
                 return message, "", "", "", "", ""
         progress(1.0, desc="처리 완료!")
         status_message = f"""
+✅ **텍스트 처리 완료!**
 - 텍스트명: {result['text_name']}
 - 처리 시간: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
 - 화자1 발언 수: {len(conversations.get('화자1', []))}개
         # 헤더
         gr.HTML("""
         <div class="main-header">
+            <h1>🎤 2인 대화 화자 분리기 (AI)</h1>
+            <p>Whisper + Gemini 2.0 Flash AI를 사용한 음성 인식, 화자 분리 및 맞춤법 교정</p>
         </div>
         """)
         with gr.Row():
             with gr.Column(scale=1):
+                # 입력 섹션
+                with gr.Tabs():
+                    with gr.TabItem("🎤 오디오 업로드"):
+                        gr.Markdown("### 🎤 오디오 파일 업로드")
+                        audio_input = gr.Audio(
+                            label="2인 대화 오디오 파일을 업로드하세요",
+                            type="filepath",
+                            format="wav"
+                        )
+                        audio_process_btn = gr.Button(
+                            "🚀 오디오 처리 시작",
+                            variant="primary",
+                            size="lg"
+                        )
+                    with gr.TabItem("📝 텍스트 입력"):
+                        gr.Markdown("### 📝 텍스트 직접 입력")
+                        text_input = gr.Textbox(
+                            label="2인 대화 텍스트를 입력하세요",
+                            placeholder="두 명이 나누는 대화 내용을 여기에 붙여넣기하세요...\n\n예시:\n안녕하세요, 오늘 회의에 참석해주셔서 감사합니다. 네, 안녕하세요. 준비된 자료가 있나요? 네, 프레젠테이션 자료를 준비했습니다.",
+                            lines=8,
+                            max_lines=15
+                        )
+                        text_process_btn = gr.Button(
+                            "🚀 텍스트 처리 시작",
+                            variant="primary",
+                            size="lg"
+                        )
                 # 상태 표시
                 status_output = gr.Markdown(
+                    "### 📊 처리 상태\n준비 완료. 오디오 파일을 업로드하거나 텍스트를 입력하고 처리 버튼을 클릭하세요.",
                     elem_classes=["status-box"]
                 )
                 with gr.Tabs():
                     with gr.TabItem("📝 원본 텍스���"):
                         original_output = gr.Textbox(
+                            label="추출/입력된 원본 텍스트",
                             lines=10,
                             max_lines=20,
                             placeholder="처리 후 원본 텍스트가 여기에 표시됩니다..."
         # 사용법 안내
         gr.Markdown("""
         ### 📖 사용법
+        **🎤 오디오 파일 처리:**
+        1. **오디오 업로드**: WAV, MP3, MP4 등의 오디오 파일을 업로드하세요
+        2. **처리 시작**: '🚀 오디오 처리 시작' 버튼을 클릭하세요
+        3. **결과 확인**: 음성 인식 → 화자 분리 → 맞춤법 교정 순으로 처리됩니다
+        **📝 텍스트 직접 입력:**
         1. **텍스트 입력**: 2인 대화 텍스트를 입력란에 붙여넣기하세요
+        2. **처리 시작**: '🚀 텍스트 처리 시작' 버튼을 클릭하세요
+        3. **결과 확인**: 각 탭에서 화자 분리 결과를 확인하세요
         ### ⚙️ 기술 정보
+        - **음성 인식**: OpenAI Whisper (다국어 지원)
         - **화자 분리**: Google Gemini 2.0 Flash
         - **맞춤법 교정**: 고급 AI 기반 한국어 교정
+        - **지원 형식**: WAV, MP3, MP4, M4A 등
+        - **최적 환경**: 2인 대화, 명확한 음질
         ### ⚠️ 주의사항
+        - 처리 시간은 오디오 길이에 따라 달라집니다 (보통 1-5분)
         - Google AI API 사용량 제한이 있을 수 있습니다
         - 2인 대화에 최적화되어 있습니다
+        - 음질이 좋을수록 더 정확한 결과를 얻을 수 있습니다
+        - 배경 소음이 적고 화자 구분이 명확한 오디오를 권장합니다
         """)
         # 이벤트 연결
+        outputs = [
+            status_output,
+            original_output,
+            separated_output,
+            corrected_output,
+            speaker1_output,
+            speaker2_output
+        ]
+        # 오디오 처리 이벤트
+        audio_process_btn.click(
+            fn=process_audio_file,
+            inputs=[audio_input],
+            outputs=outputs,
+            show_progress=True
+        )
+        # 텍스트 처리 이벤트
+        text_process_btn.click(
             fn=process_text_input,
             inputs=[text_input],
+            outputs=outputs,
             show_progress=True
         )
     app = create_interface()
     # 앱 실행 (Hugging Face Spaces용)
+    app.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,6 @@
 python-dotenv==1.0.0
 google-generativeai==0.8.3
 gradio==4.44.0

 python-dotenv==1.0.0
 google-generativeai==0.8.3
 gradio==4.44.0
+openai-whisper==20240930
+torch==2.0.1
+torchaudio==2.0.2