Spaces:

rmayormartins
/

speech-accent-es-classifier

Running

App Files Files Community

rmayormartins commited on Aug 7, 2024

Commit

5ffd823

1 Parent(s): 5e37164

Subindo arquivos371

Browse files

Files changed (1) hide show

app.py +9 -16

app.py CHANGED Viewed

@@ -1,32 +1,26 @@
 import gradio as gr
 import torch
 import numpy as np
 from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
 from safetensors.torch import load_file
-# Carregar o modelo e o processador salvos
-model_name = "results"
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 # Carregar o modelo do arquivo safetensors
-state_dict = load_file("results/model.safetensors")
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name, state_dict=state_dict)
 def classify_accent(audio):
     if audio is None:
         return "Error: No se recibió audio"
-    # Verificar o tipo de entrada de áudio
-    print(f"Tipo de entrada de audio: {type(audio)}")
-    # Verificar a estrutura do áudio
-    print(f"Entrada de audio recibida: {audio}")
     try:
-        # Se o áudio vier como uma tupla, vamos lidar com isso
-        if isinstance(audio, tuple):
-            audio_array = np.array(audio[0])  # O áudio no primeiro elemento da tupla
-            sample_rate = audio[1]  # A taxa de amostragem no segundo elemento da tupla
         else:
             raise ValueError("Formato de áudio inesperado.")
@@ -37,7 +31,6 @@ def classify_accent(audio):
         # Resample para 16kHz, se necessário
         if sample_rate != 16000:
-            import librosa
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
         input_values = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_values
@@ -63,10 +56,10 @@ description_html = """
 # Interface do Gradio
 interface = gr.Interface(
     fn=classify_accent,
-    inputs=gr.Audio(type="numpy"),
     outputs="label",
     title="Clasificador de Sotaques (Español vs Otro)",
     description=description_html
 )
-interface.launch()

 import gradio as gr
 import torch
 import numpy as np
+import librosa
 from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
 from safetensors.torch import load_file
+# Caminho para o modelo e processador
+model_name = 'results'
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 # Carregar o modelo do arquivo safetensors
+state_dict = load_file(f"{model_name}/model.safetensors")
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name, state_dict=state_dict)
 def classify_accent(audio):
     if audio is None:
         return "Error: No se recibió audio"
     try:
+        # Verificar se o áudio é um caminho de arquivo
+        if isinstance(audio, str):
+            audio_array, sample_rate = librosa.load(audio, sr=None)
         else:
             raise ValueError("Formato de áudio inesperado.")
         # Resample para 16kHz, se necessário
         if sample_rate != 16000:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
         input_values = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_values
 # Interface do Gradio
 interface = gr.Interface(
     fn=classify_accent,
+    inputs=gr.Audio(type="filepath"),
     outputs="label",
     title="Clasificador de Sotaques (Español vs Otro)",
     description=description_html
 )
+interface.launch(debug=True)