Spaces:

soiz
/

voice-to-pth

Running

soiz commited on Nov 11, 2024

Commit

f586543

verified ·

1 Parent(s): 3eb82c2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,30 +1,29 @@
 import torch
 import torchaudio
-import gradio as gr
-def process_audio_file(audio):
-    # 音声ファイルの読み込み
-    waveform, sample_rate = torchaudio.load(audio)
-    # Melスペクトログラム特徴量の抽出
-    transform = torchaudio.transforms.MelSpectrogram(sample_rate=sample_rate)
-    mel_spec = transform(waveform)
-    # 特徴量を .pth ファイルに保存
-    pth_file_path = "audio_features.pth"
-    torch.save(mel_spec, pth_file_path)
-    # pthファイルのパスを返す
-    return pth_file_path
-# Gradioインターフェースの作成
-interface = gr.Interface(
-    fn=process_audio_file,
-    inputs=gr.Audio(type="filepath"),  # source="upload" を削除
-    outputs=gr.File(label="Download .pth File"),
-    title="Audio to .pth Converter",
-    description="Upload an audio file to convert it into a .pth file containing Mel Spectrogram features."
 )
-# アプリの実行
-interface.launch()

+import gradio as gr
 import torch
 import torchaudio
+import librosa
+import numpy as np
+def audio_to_pth(audio):
+    # 音声ファイル（ファイルパス）を読み込む
+    y, sr = librosa.load(audio, sr=None)
+    # 音声データをテンソルに変換
+    tensor = torch.tensor(y)
+    # テンソルを .pth ファイルに保存
+    output_path = "audio_features.pth"
+    torch.save(tensor, output_path)
+    return output_path
+# Gradio インターフェースの設定
+iface = gr.Interface(
+    fn=audio_to_pth,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    outputs="file",
+    title="Audio to .PTH Converter",
+    description="Upload an audio file to convert it to a .pth file containing audio features."
 )
+iface.launch()