Spaces:
Running
on
Zero
Running
on
Zero
A newer version of the Gradio SDK is available:
5.45.0
metadata
title: Whisper V3 - Energy Based SRT
emoji: 🎧
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.36.1
app_file: app.py
pinned: false
Whisper Large V3 - Energy Based Subtitle Generator
本 Space 使用 openai/whisper-large-v3 进行语音识别,
并基于 音频能量 (RMS → dB) 自动检测静音段切分字幕。
特点:
- ✅ 自动识别长音频(分块推理)
- ✅ 静音检测切分(非依赖标点,停顿 ≥ 0.2 秒自动分段)
- ✅ 输出标准
.srt
文件(无编号,更适合编辑) - ✅ 兼容 GPU / CPU / ZeroGPU 环境,避免 AcceleratorError
🚀 使用方法
- 上传音频文件(支持 mp3, wav, flac 等常见格式)。
- 选择任务模式:
transcribe
:原语言转写translate
:翻译为英文
- 点击提交,等待处理完成。
- 在下方:
- 预览区可查看字幕(SRT 格式,无编号)。
- 点击下载按钮可获取
.srt
文件。
⚙️ 参数说明
SILENCE_MIN_LEN = 0.20
→ 停顿 ≥ 0.2s 判定为静音段DB_DROP = 25.0
→ 静音阈值:最大能量 -25dB 以下PCTL_FLOOR = 20.0
→ 能量分位数阈值(避免底噪过低)MIN_SEG_DUR = 0.30
→ 每段最短显示 0.3s,避免闪烁
可根据需要在 app.py
中调节这些参数。
📦 依赖 (requirements.txt)
torch>=2.3.0
torchaudio>=2.3.0
transformers>=4.43.0
accelerate>=0.32.0
huggingface_hub>=0.23.0
datasets>=2.19.0
gradio>=4.36.1
librosa>=0.10.1
soundfile>=0.12.1
numpy>=1.24.0
scipy>=1.12.0