datxy commited on
Commit
0c59afa
·
verified ·
1 Parent(s): 1433841

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +54 -8
README.md CHANGED
@@ -1,14 +1,60 @@
1
  ---
2
- title: Whisper Large V3
3
- emoji: 🤫
4
- colorFrom: indigo
5
- colorTo: red
6
  sdk: gradio
7
- sdk_version: 4.37.2
8
  app_file: app.py
9
  pinned: false
10
- tags:
11
- - whisper-event
12
  ---
13
 
14
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: Whisper V3 - Energy Based SRT
3
+ emoji: 🎧
4
+ colorFrom: blue
5
+ colorTo: purple
6
  sdk: gradio
7
+ sdk_version: "4.36.1"
8
  app_file: app.py
9
  pinned: false
 
 
10
  ---
11
 
12
+ # Whisper Large V3 - Energy Based Subtitle Generator
13
+
14
+ 本 Space 使用 **[openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3)** 进行语音识别,
15
+ 并基于 **音频能量 (RMS → dB)** 自动检测静音段切分字幕。
16
+
17
+ 特点:
18
+ - ✅ 自动识别长音频(分块推理)
19
+ - ✅ 静音检测切分(非依赖标点,停顿 ≥ 0.2 秒自动分段)
20
+ - ✅ 输出标准 `.srt` 文件(无编号,更适合编辑)
21
+ - ✅ 兼容 **GPU / CPU / ZeroGPU** 环境,避免 AcceleratorError
22
+
23
+ ---
24
+
25
+ ## 🚀 使用方法
26
+ 1. 上传音频文件(支持 mp3, wav, flac 等常见格式)。
27
+ 2. 选择任务模式:
28
+ - `transcribe`:原语言转写
29
+ - `translate`:翻译为英文
30
+ 3. 点击提交,等待处理完成。
31
+ 4. 在下方:
32
+ - 预览区可查看字幕(SRT 格式,无编号)。
33
+ - 点击下载按钮可获取 `.srt` 文件。
34
+
35
+ ---
36
+
37
+ ## ⚙️ 参数说明
38
+ - `SILENCE_MIN_LEN = 0.20` → 停顿 ≥ 0.2s 判定为静音段
39
+ - `DB_DROP = 25.0` → 静音阈值:最大能量 -25dB 以下
40
+ - `PCTL_FLOOR = 20.0` → 能量分位数阈值(避免底噪过低)
41
+ - `MIN_SEG_DUR = 0.30` → 每段最短显示 0.3s,避免闪烁
42
+
43
+ 可根据需要在 **`app.py`** 中调节这些参数。
44
+
45
+ ---
46
+
47
+ ## 📦 依赖 (requirements.txt)
48
+
49
+ ```txt
50
+ torch>=2.3.0
51
+ torchaudio>=2.3.0
52
+ transformers>=4.43.0
53
+ accelerate>=0.32.0
54
+ huggingface_hub>=0.23.0
55
+ datasets>=2.19.0
56
+ gradio>=4.36.1
57
+ librosa>=0.10.1
58
+ soundfile>=0.12.1
59
+ numpy>=1.24.0
60
+ scipy>=1.12.0