Spaces:

DeepLearning101
/

Speech-Quality-Inspection_Meta-Denoiser

Running

App Files Files Community

DeepLearning101 commited on May 4

Commit

631422a

·

verified ·

1 Parent(s): 2e23895

Update app.py

Files changed (1) hide show

app.py +16 -4

app.py CHANGED Viewed

@@ -12,16 +12,28 @@ modelpath = './denoiser/master64.th'
 def transcribe(file_upload, microphone):
     file = microphone if microphone is not None else file_upload
     model = Demucs(hidden=64)
     state_dict = torch.load(modelpath, map_location='cpu')
     model.load_state_dict(state_dict)
-    demucs = model
-    x, sr = torchaudio.load(file)
-    out = demucs(x[None])[0]
     out = out / max(out.abs().max().item(), 1)
     torchaudio.save('enhanced.wav', out, sr)
-    enhanced = AudioSegment.from_wav('enhanced.wav') # 只有去完噪的需要降 bitrate 再做語音識別
     enhanced.export('enhanced.wav', format="wav", bitrate="256k")
     return "enhanced.wav"
 # import os

 def transcribe(file_upload, microphone):
     file = microphone if microphone is not None else file_upload
+    # 載入模型
     model = Demucs(hidden=64)
     state_dict = torch.load(modelpath, map_location='cpu')
     model.load_state_dict(state_dict)
+    # 載入音訊並強制轉單聲道
+    x, sr = torchaudio.load(file, channels_first=True)  # 確保通道優先格式
+    if x.shape[0] > 1:
+        x = torch.mean(x, dim=0, keepdim=True)  # 平均所有通道轉單聲道
+    # 執行降噪
+    out = model(x[None])[0]  # 增加batch維度
+    # 後處理
     out = out / max(out.abs().max().item(), 1)
     torchaudio.save('enhanced.wav', out, sr)
+    # 降低位元率（僅供語音辨識使用）
+    enhanced = AudioSegment.from_wav('enhanced.wav')
     enhanced.export('enhanced.wav', format="wav", bitrate="256k")
     return "enhanced.wav"
 # import os