Spaces:

TaiYouWeb
/

funasr-svsmall

Runtime error

App Files Files Community

TaiYouWeb commited on Oct 4, 2024

Commit

47af204

verified ·

1 Parent(s): 889a5cc

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -43

app.py CHANGED Viewed

@@ -9,61 +9,40 @@ import json
 from typing import Optional
 import torch
-from fastapi import FastAPI, File, Form, UploadFile, HTTPException
-from fastapi.responses import StreamingResponse, Response
 from config import model_config
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 model_dir = snapshot_download(model_config['model_dir'])
-class SynthesizeResponse(Response):
-    media_type = 'text/plain'
-app = FastAPI()
-@app.post('/asr', response_class=SynthesizeResponse)
-async def generate(
-    file: UploadFile = File(...),
-    vad_model: str = Form("fsmn-vad"),
-    vad_kwargs: str = Form('{"max_single_segment_time": 30000}'),
-    ncpu: int = Form(4),
-    batch_size: int = Form(1),
-    language: str = Form("auto"),
-    use_itn: bool = Form(True),
-    batch_size_s: int = Form(60),
-    merge_vad: bool = Form(True),
-    merge_length_s: int = Form(15),
-    batch_size_threshold_s: int = Form(50),
-    hotword: Optional[str] = Form(" "),
-    spk_model: str = Form("cam++"),
-    ban_emo_unk: bool = Form(False),
-) -> StreamingResponse:
     try:
         # 将字符串转换为字典
         vad_kwargs = json.loads(vad_kwargs)
         # 创建临时文件并保存上传的音频文件
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_file:
             temp_file_path = temp_file.name
-            input_wav_bytes = await file.read()
-            temp_file.write(input_wav_bytes)
         try:
-            # 初始化模型
-            model = AutoModel(
-                model=model_dir,
-                trust_remote_code=False,
-                remote_code="./model.py",
-                vad_model=vad_model,
-                vad_kwargs=vad_kwargs,
-                ncpu=ncpu,
-                batch_size=batch_size,
-                hub="ms",
-                device=device,
-            )
             # 生成结果
             res = model.generate(
                 input=temp_file_path,  # 使用临时文件路径作为输入
@@ -82,8 +61,7 @@ async def generate(
             # 处理结果
             text = rich_transcription_postprocess(res[0]["text"])
-            # 返回结果
-            return StreamingResponse(io.BytesIO(text.encode('utf-8')), media_type="text/plain")
         finally:
             # 确保在处理完毕后删除临时文件
@@ -91,4 +69,31 @@ async def generate(
                 os.remove(temp_file_path)
     except Exception as e:
-        raise HTTPException(status_code=500, detail=str(e))

 from typing import Optional
 import torch
+import gradio as gr  # 添加Gradio库
 from config import model_config
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 model_dir = snapshot_download(model_config['model_dir'])
+# 初始化模型
+model = AutoModel(
+    model=model_dir,
+    trust_remote_code=False,
+    remote_code="./model.py",
+    vad_model="fsmn-vad",
+    vad_kwargs={"max_single_segment_time": 30000},
+    ncpu=4,
+    batch_size=1,
+    hub="ms",
+    device=device,
+)
+def transcribe_audio(file, vad_model="fsmn-vad", vad_kwargs='{"max_single_segment_time": 30000}',
+                     ncpu=4, batch_size=1, language="auto", use_itn=True, batch_size_s=60,
+                     merge_vad=True, merge_length_s=15, batch_size_threshold_s=50,
+                     hotword=" ", spk_model="cam++", ban_emo_unk=False):
     try:
         # 将字符串转换为字典
         vad_kwargs = json.loads(vad_kwargs)
         # 创建临时文件并保存上传的音频文件
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_file:
             temp_file_path = temp_file.name
+            temp_file.write(file.read())
         try:
             # 生成结果
             res = model.generate(
                 input=temp_file_path,  # 使用临时文件路径作为输入
             # 处理结果
             text = rich_transcription_postprocess(res[0]["text"])
+            return text
         finally:
             # 确保在处理完毕后删除临时文件
                 os.remove(temp_file_path)
     except Exception as e:
+        return str(e)
+# 创建Gradio界面
+inputs = [
+    gr.Audio(source="upload", type="file"),  # 上传音频
+    gr.Textbox(value="fsmn-vad", label="VAD Model"),
+    gr.Textbox(value='{"max_single_segment_time": 30000}', label="VAD Kwargs"),
+    gr.Slider(1, 8, value=4, step=1, label="NCPU"),
+    gr.Slider(1, 10, value=1, step=1, label="Batch Size"),
+    gr.Textbox(value="auto", label="Language"),
+    gr.Checkbox(value=True, label="Use ITN"),
+    gr.Slider(30, 120, value=60, step=1, label="Batch Size (seconds)"),
+    gr.Checkbox(value=True, label="Merge VAD"),
+    gr.Slider(5, 60, value=15, step=1, label="Merge Length (seconds)"),
+    gr.Slider(10, 100, value=50, step=1, label="Batch Size Threshold (seconds)"),
+    gr.Textbox(value=" ", label="Hotword"),
+    gr.Textbox(value="cam++", label="Speaker Model"),
+    gr.Checkbox(value=False, label="Ban Emotional Unknown"),
+]
+outputs = gr.Textbox(label="Transcription")
+gr.Interface(
+    fn=transcribe_audio,
+    inputs=inputs,
+    outputs=outputs,
+    title="ASR Transcription with FunASR"
+).launch()