Spaces:
Running
on
Zero
Running
on
Zero
Update README.md
Browse files
README.md
CHANGED
@@ -1,14 +1,60 @@
|
|
1 |
---
|
2 |
-
title: Whisper
|
3 |
-
emoji:
|
4 |
-
colorFrom:
|
5 |
-
colorTo:
|
6 |
sdk: gradio
|
7 |
-
sdk_version: 4.
|
8 |
app_file: app.py
|
9 |
pinned: false
|
10 |
-
tags:
|
11 |
-
- whisper-event
|
12 |
---
|
13 |
|
14 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
title: Whisper V3 - Energy Based SRT
|
3 |
+
emoji: 🎧
|
4 |
+
colorFrom: blue
|
5 |
+
colorTo: purple
|
6 |
sdk: gradio
|
7 |
+
sdk_version: "4.36.1"
|
8 |
app_file: app.py
|
9 |
pinned: false
|
|
|
|
|
10 |
---
|
11 |
|
12 |
+
# Whisper Large V3 - Energy Based Subtitle Generator
|
13 |
+
|
14 |
+
本 Space 使用 **[openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3)** 进行语音识别,
|
15 |
+
并基于 **音频能量 (RMS → dB)** 自动检测静音段切分字幕。
|
16 |
+
|
17 |
+
特点:
|
18 |
+
- ✅ 自动识别长音频(分块推理)
|
19 |
+
- ✅ 静音检测切分(非依赖标点,停顿 ≥ 0.2 秒自动分段)
|
20 |
+
- ✅ 输出标准 `.srt` 文件(无编号,更适合编辑)
|
21 |
+
- ✅ 兼容 **GPU / CPU / ZeroGPU** 环境,避免 AcceleratorError
|
22 |
+
|
23 |
+
---
|
24 |
+
|
25 |
+
## 🚀 使用方法
|
26 |
+
1. 上传音频文件(支持 mp3, wav, flac 等常见格式)。
|
27 |
+
2. 选择任务模式:
|
28 |
+
- `transcribe`:原语言转写
|
29 |
+
- `translate`:翻译为英文
|
30 |
+
3. 点击提交,等待处理完成。
|
31 |
+
4. 在下方:
|
32 |
+
- 预览区可查看字幕(SRT 格式,无编号)。
|
33 |
+
- 点击下载按钮可获取 `.srt` 文件。
|
34 |
+
|
35 |
+
---
|
36 |
+
|
37 |
+
## ⚙️ 参数说明
|
38 |
+
- `SILENCE_MIN_LEN = 0.20` → 停顿 ≥ 0.2s 判定为静音段
|
39 |
+
- `DB_DROP = 25.0` → 静音阈值:最大能量 -25dB 以下
|
40 |
+
- `PCTL_FLOOR = 20.0` → 能量分位数阈值(避免底噪过低)
|
41 |
+
- `MIN_SEG_DUR = 0.30` → 每段最短显示 0.3s,避免闪烁
|
42 |
+
|
43 |
+
可根据需要在 **`app.py`** 中调节这些参数。
|
44 |
+
|
45 |
+
---
|
46 |
+
|
47 |
+
## 📦 依赖 (requirements.txt)
|
48 |
+
|
49 |
+
```txt
|
50 |
+
torch>=2.3.0
|
51 |
+
torchaudio>=2.3.0
|
52 |
+
transformers>=4.43.0
|
53 |
+
accelerate>=0.32.0
|
54 |
+
huggingface_hub>=0.23.0
|
55 |
+
datasets>=2.19.0
|
56 |
+
gradio>=4.36.1
|
57 |
+
librosa>=0.10.1
|
58 |
+
soundfile>=0.12.1
|
59 |
+
numpy>=1.24.0
|
60 |
+
scipy>=1.12.0
|