Spaces:

jeongsoo
/

audio_summarizer

Runtime error

App Files Files Community

audio_summarizer / README.md

Jeongsoo1975

Initial commit: Gradio text-based speaker separation app for Hugging Face Spaces

ae9ec05 6 months ago

preview code

raw

history blame

1.93 kB

	---
	title: 2인 대화 화자 분리기 (AI)
	emoji: 💬
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdk_version: 4.44.0
	app_file: app.py
	pinned: false
	license: mit
	---

	# 2인 대화 화자 분리기 (AI)

	Gemini 2.0 Flash AI를 사용하여 텍스트 대화를 화자별로 자동 분리하고 맞춤법을 교정하는 웹 애플리케이션입니다.

	## 🎯 주요 기능

	1. WAV 파일 업로드: 웹 인터페이스를 통한 간편한 파일 업로드
	2. 고정밀 음성 인식: OpenAI Whisper를 사용한 음성-텍스트 변환
	3. AI 화자 분리: Google Gemini를 사용한 텍스트 기반 2인 대화 분리
	4. 실시간 결과: 웹에서 즉시 결과 확인 및 다운로드

	## 🛠 기술 스택

	- UI Framework: Gradio (웹 인터페이스)
	- 음성 인식: OpenAI Whisper
	- AI 화자 분리: Google Gemini Pro
	- 호스팅: Hugging Face Spaces

	## 📝 사용 방법

	1. WAV 파일을 업로드하세요
	2. "처리 시작" 버튼을 클릭하세요
	3. 처리 완료 후 결과를 확인하세요:
	- 원본 텍스트
	- 화자별 분리 결과
	- 맞춤법 교정 결과

	## ⚙️ API 설정

	이 애플리케이션은 Google AI API를 사용합니다. Hugging Face Spaces의 Settings에서 다음 환경 변수를 설정해야 합니다:

	- `GOOGLE_API_KEY`: Google AI Studio에서 발급받은 API 키

	## 🎤 화자 분리 정확도

	Gemini AI의 텍스트 기반 화자 분리는 다음 요소들을 분석합니다:

	- 대화 맥락: 질문과 답변의 패턴
	- 말투 변화: 존댓말/반말, 어조 변화
	- 주제 전환: 화자별 관심사나 역할
	- 언어 패턴: 개인별 표현 습관

	## ⚠️ 주의사항

	- WAV 형식의 오디오 파일만 지원됩니다
	- 2인 대화에 최적화되어 있습니다
	- 처리 시간은 파일 길이에 따라 달라집니다
	- Google AI API 사용량에 따라 제한이 있을 수 있습니다