Spaces:

yunuseduran
/

speechtotext

Sleeping

App Files Files Community

yunuseduran commited on Mar 4

Commit

4d47729

verified ·

1 Parent(s): 8183e5e

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -110

app.py CHANGED Viewed

@@ -1,110 +1,113 @@
-import gradio as gr
-import whisper
-import os
-import asyncio
-import shutil
-import tempfile
-import uuid
-import torch
-# Whisper modeli yükleme
-MODEL_SIZE = os.getenv("MODEL_SIZE", "small")
-device = "cuda" if torch.cuda.is_available() else "cpu"
-print(f"Kullanılan cihaz: {device}")  # Cihaz bilgisi
-model = whisper.load_model(MODEL_SIZE).to(device)
-# Dosya sınırları
-MAX_FILE_SIZE_MB = int(os.getenv("MAX_FILE_SIZE_MB", 25))  # Maksimum 25MB
-ALLOWED_FORMATS = {"mp3", "wav", "m4a", "ogg"}
-def delete_audio_file(file_path, retries=3, wait_time=1):
-    """
-    Ses dosyasını silme işlemi (tekrar deneme mekanizmalı)
-    """
-    for attempt in range(retries):
-        try:
-            if file_path and os.path.exists(file_path):
-                os.remove(file_path)
-                print(f"Dosya başarıyla silindi: {file_path}")
-                return True
-        except Exception as e:
-            print(f"Dosya silme başarısız (Deneme {attempt + 1}/{retries}): {file_path} - {e}")
-    return False
-def format_text(text: str) -> str:
-    """Cümleleri satır satır düzenler"""
-    noktalama_isaretleri = [".", "?", "!", "…"]
-    for nokta in noktalama_isaretleri:
-        text = text.replace(nokta, nokta + "\n")
-    return "\n".join(filter(bool, text.split("\n")))
-async def process_and_transcribe(audio_path):
-    """
-    Ses dosyasını işleyip metne çevirir.
-    """
-    if not audio_path or not os.path.exists(audio_path):
-        return "", "❌ Ses dosyası yüklenmedi."
-    file_extension = os.path.splitext(audio_path)[-1].lower().lstrip(".")
-    if file_extension not in ALLOWED_FORMATS:
-        return "", f"❌ Desteklenen formatlar: {', '.join(ALLOWED_FORMATS)} (Yüklenen: {file_extension})."
-    temp_audio_path = os.path.join(tempfile.gettempdir(), f"{uuid.uuid4()}.{file_extension}")
-    shutil.copy(audio_path, temp_audio_path)
-    try:
-        file_size_mb = os.path.getsize(temp_audio_path) / (1024 * 1024)
-        if file_size_mb > MAX_FILE_SIZE_MB:
-            delete_audio_file(temp_audio_path)
-            return "", f"❌ Dosya boyutu {MAX_FILE_SIZE_MB}MB'ı geçemez (Yüklenen: {file_size_mb:.2f}MB)."
-        text = await transcribe_audio(temp_audio_path)
-        formatted = format_text(text)
-        return formatted, "✅ Transkript başarıyla oluşturuldu."
-    except Exception as e:
-        return "", f"⚠️ Hata oluştu: {str(e)}"
-    finally:
-        delete_audio_file(temp_audio_path)
-async def transcribe_audio(audio_path):
-    """
-    Whisper ile transkript oluşturma
-    """
-    result = await asyncio.to_thread(
-        model.transcribe,
-        audio_path,
-        language="tr",
-        temperature=0.0,
-        beam_size=5,
-        fp16=False  # CPU kullanımında hata önlemek için
-    )
-    return result["text"]
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎤 Türkçe Ses Transkript Aracı")
-    gr.Markdown("""
-         **Türkçe sesleri yazıya döken araç**. **Maksimum 25MB** boyutunda ses dosyaları yükleyebilirsiniz.
-         """)
-    with gr.Row():
-        audio_input = gr.Audio(
-            label="Ses dosyasını yükleyin veya kaydedin",
-            type="filepath",
-            autoplay=False,
-        )
-    transcribe_btn = gr.Button("Transkript oluştur")
-    status_text = gr.Textbox(label="Durum", interactive=False)
-    with gr.Row():
-        output_text = gr.Textbox(label="Transkript Sonucu")
-    transcribe_btn.click(
-        fn=process_and_transcribe,
-        inputs=[audio_input],
-        outputs=[output_text, status_text],
-    )
-demo.launch()

+import gradio as gr
+import whisper
+import os
+import asyncio
+import shutil
+import tempfile
+import uuid
+import torch
+# Whisper modeli yükleme
+MODEL_SIZE = os.getenv("MODEL_SIZE", "small")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Kullanılan cihaz: {device}")  # Cihaz bilgisi
+yerel_model = whisper.load_model(MODEL_SIZE).to(device)
+# Kısıtlamalar
+MAX_DOSYA_BOYUTU_MB = int(os.getenv("MAX_FILE_SIZE_MB", 25))  # 25MB sınırı
+DESTEKLENEN_FORMATLAR = {"mp3", "wav", "m4a", "ogg"}
+def dosya_sil(dosya_yolu, deneme=3, bekleme=1):
+    """
+    Ses dosyasını güvenli bir şekilde silme fonksiyonu.
+    """
+    for i in range(deneme):
+        try:
+            if dosya_yolu and os.path.exists(dosya_yolu):
+                os.remove(dosya_yolu)
+                print(f"Dosya başarıyla silindi: {dosya_yolu}")
+                return True
+        except Exception as e:
+            print(f"Dosya silme hatası (Deneme {i+1}/{deneme}): {e}")
+    return False
+def metin_formatla(metin: str) -> str:
+    """Metni okunaklı hale getirme"""
+    noktalama_isaretleri = [".", "?", "!", "。", "．", "？", "！"]
+    for isaret in noktalama_isaretleri:
+        metin = metin.replace(isaret, isaret + "\n")
+    return "\n".join(filter(bool, metin.split("\n")))
+async def ses_cozasync(ses_dosyasi, dil):
+    """
+    Ses kaydını asenkron olarak yazıya döken fonksiyon
+    """
+    return await ses_isle_ve_coz(ses_dosyasi, dil)
+async def ses_isle_ve_coz(ses_yolu, dil):
+    """
+    Ses dosyasını işleyip yazıya dökme
+    """
+    if not ses_yolu or not os.path.exists(ses_yolu):
+        return "", "❌ Ses dosyası yüklenmedi."
+    dosya_uzantisi = os.path.splitext(ses_yolu)[-1].lower().lstrip(".")
+    if dosya_uzantisi not in DESTEKLENEN_FORMATLAR:
+        return "", f"❌ Desteklenen formatlar: {', '.join(DESTEKLENEN_FORMATLAR)} (Mevcut: {dosya_uzantisi})"
+    gecici_ses_yolu = os.path.join(tempfile.gettempdir(), f"{uuid.uuid4()}.{dosya_uzantisi}")
+    shutil.copy(ses_yolu, gecici_ses_yolu)
+    try:
+        dosya_boyutu_mb = os.path.getsize(gecici_ses_yolu) / (1024 * 1024)
+        if dosya_boyutu_mb > MAX_DOSYA_BOYUTU_MB:
+            dosya_sil(gecici_ses_yolu)
+            return "", f"❌ Dosya boyutu sınırı {MAX_DOSYA_BOYUTU_MB} MB (Mevcut: {dosya_boyutu_mb:.2f} MB)"
+        metin = await ses_yazıya_dok(gecici_ses_yolu, dil)
+        duzenlenmis_metin = metin_formatla(metin)
+        return duzenlenmis_metin, "✅ Yazıya dökme tamamlandı."
+    except Exception as e:
+        return "", f"⚠️ Hata oluştu: {str(e)}"
+    finally:
+        if gecici_ses_yolu and os.path.exists(gecici_ses_yolu):
+            dosya_sil(gecici_ses_yolu)
+async def ses_yazıya_dok(ses_yolu, dil):
+    """
+    Whisper kullanarak sesi yazıya döken fonksiyon
+    """
+    ayarlar = {"Türkçe": {"language": "tr", "temperature": 0.0, "beam_size": 5, "best_of": 5}}
+    secilen_ayar = ayarlar.get(dil, ayarlar["Türkçe"])
+    sonuc = await asyncio.to_thread(
+        yerel_model.transcribe,
+        ses_yolu,
+        language=secilen_ayar["language"],
+        temperature=secilen_ayar["temperature"],
+        beam_size=secilen_ayar["beam_size"],
+        fp16=False
+    )
+    return sonuc["text"]
+with gr.Blocks() as uygulama:
+    gr.Markdown("## 🎤 Türkçe Ses Kayıtlarını Yazıya Dökme Aracı")
+    gr.Markdown("""
+        Ses kaydı yükleyin veya mikrofon ile kaydedin. **25MB'tan büyük dosyalar desteklenmez.**
+    """)
+    with gr.Row():
+        ses_girdisi = gr.Audio(label="Ses kaydı yükleyin veya kaydedin", type="filepath")
+    with gr.Row():
+        dil_girdisi = gr.Radio(choices=["Türkçe"], label="Dil", value="Türkçe")
+    cevir_buton = gr.Button("Çevir")
+    durum_yazisi = gr.Textbox(label="Durum", interactive=False)
+    with gr.Row():
+        sonuc_metin = gr.Textbox(label="Çıktı")
+    cevir_buton.click(fn=ses_isle_ve_coz, inputs=[ses_girdisi, dil_girdisi], outputs=[sonuc_metin, durum_yazisi])
+uygulama.launch()