Spaces:

suprimedev
/

talk-dial

Running

File size: 11,782 Bytes

319ea69
c296f8a
cd88e5f
39ac26a
7271ac7
 
319ea69
defad0a
 
 
 
cd88e5f
defad0a
 
9ddae4b
defad0a
7271ac7
cd88e5f
 
defad0a
 
cd88e5f
defad0a
 
cd88e5f
 
defad0a
cd88e5f
defad0a
cd88e5f
defad0a
 
cd88e5f
defad0a
 
 
7271ac7
 
1c4f949
7271ac7
1c4f949
 
defad0a
 
 
 
7271ac7
defad0a
 
c296f8a
defad0a
 
319ea69
defad0a
 
7271ac7
defad0a
7271ac7
 
1c4f949
 
 
 
 
cd88e5f
defad0a
cd88e5f
defad0a
1c4f949
cd88e5f
1c4f949
 
cd88e5f
defad0a
 
cd88e5f
1c4f949
defad0a
 
 
 
 
 
cd88e5f
defad0a
 
cd88e5f
defad0a
 
 
 
 
 
 
1c4f949
 
 
 
 
 
 
7271ac7
 
1c4f949
 
 
 
 
7271ac7
1c4f949
 
 
 
 
 
 
 
 
7271ac7
 
 
1c4f949
7271ac7
1c4f949
 
7271ac7
 
 
1c4f949
7271ac7
 
 
 
ad2dfc2
7271ac7
 
 
 
1c4f949
 
7271ac7
1c4f949
7271ac7
1c4f949
7271ac7
1c4f949
 
7271ac7
1c4f949
7271ac7
1c4f949
7271ac7
1c4f949
 
 
 
 
 
7271ac7
1c4f949
 
defad0a
 
 
 
1c4f949
 
 
 
 
 
defad0a
 
1c4f949
 
 
 
 
 
 
 
 
 
 
defad0a
1c4f949
7271ac7
1c4f949
 
 
 
 
 
 
7271ac7
 
1c4f949
 
 
 
defad0a
1c4f949
 
 
 
 
 
 
 
 
 
defad0a
1c4f949
 
 
 
 
 
 
 
 
 
 
 
 
 
defad0a
cd88e5f
3a12f33
7271ac7

import gradio as gr
from pydub import AudioSegment
import requests
import os
import uuid # برای تولید نام فایل منحصر به فرد
import re # برای تجزیه متن

# مسیر ذخیره فایل‌های موقت
TEMP_DIR = "temp_audio"
if not os.path.exists(TEMP_DIR):
    os.makedirs(TEMP_DIR)

def download_file(url, output_path):
    """فایل را از یک URL دانلود می‌کند."""
    try:
        response = requests.get(url, stream=True)
        response.raise_for_status()  # خطایی رخ داد، آن را بالا ببر
        with open(output_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        return True
    except requests.exceptions.RequestException as e:
        print(f"Error downloading {url}: {e}")
        return False
    except Exception as e:
        print(f"An unexpected error occurred during download of {url}: {e}")
        return False

def get_audio_from_input(input_source):
    """
    منبع ورودی را پردازش کرده و یک شی AudioSegment برمی‌گرداند.
    می‌تواند یک فایل محلی یا یک URL باشد.
    """
    unique_filename = os.path.join(TEMP_DIR, str(uuid.uuid4()))
    
    if input_source.startswith("http://") or input_source.startswith("https://"):
        # این یک URL است، دانلودش کن
        # سعی می کنیم پسوند فایل را از URL تشخیص دهیم، در غیر این صورت از .mp3 استفاده می کنیم.
        file_extension = os.path.splitext(input_source.split('?')[0])[1]
        if not file_extension: # اگر پسوندی در URL نباشد (مثلا برای APIها)
            file_extension = ".mp3" 
        temp_filepath = unique_filename + "_downloaded" + file_extension
        if not download_file(input_source, temp_filepath):
            return None, f"خطا در دانلود فایل از لینک: {input_source}"
        audio_path = temp_filepath
    else:
        # فرض می‌شود یک مسیر فایل محلی است
        audio_path = input_source
    
    try:
        audio = AudioSegment.from_file(audio_path)
        return audio, None
    except Exception as e:
        return None, f"خطا در بارگذاری فایل صوتی ({audio_path}): {e}. مطمئن شوید فایل MP3 یا WAV معتبر است."
    finally:
        # اگر فایل از URL دانلود شده بود، آن را پاک کن
        if 'temp_filepath' in locals() and os.path.exists(temp_filepath):
            # اگر فایل بعداً توسط pydub پردازش و لود شده باشد، می‌توانیم آن را حذف کنیم.
            # در غیر این صورت، ممکن است در حال استفاده باشد.
            try:
                os.remove(temp_filepath)
            except OSError as e:
                print(f"Error removing temporary file {temp_filepath}: {e}")


def merge_audio_files(input_sources):
    """
    چندین فایل صوتی را (از لینک یا فایل) ادغام می‌کند و یک فایل MP3 خروجی می‌دهد.
    input_sources: یک لیست از URLها یا مسیرهای فایل‌ها.
    """
    if not input_sources:
        return None, "لیست ورودی‌های صوتی خالی است."

    combined_audio = AudioSegment.empty()
    errors = []

    for source in input_sources:
        audio_segment, error = get_audio_from_input(source)
        if audio_segment:
            combined_audio += audio_segment
        else:
            errors.append(error)
            print(f"Skipping {source} due to error: {error}") # برای debugging کنسول

    if not combined_audio.duration_seconds > 0:
        return None, "هیچ فایل صوتی معتبری برای ادغام پیدا نشد. " + "\n".join(errors) if errors else ""

    output_filename = os.path.join(TEMP_DIR, f"merged_audio_{uuid.uuid4()}.mp3")
    try:
        combined_audio.export(output_filename, format="mp3")
        return output_filename, "عملیات موفقیت آمیز بود!"
    except Exception as e:
        return None, f"خطا در ذخیره فایل خروجی: {e}"

def tts_and_merge(text_input):
    """
    متن ورودی را تجزیه می‌کند، با Talkbot API صدا تولید می‌کند و سپس آن‌ها را ادغام می‌کند.
    """
    if not text_input.strip():
        return None, "لطفاً متنی برای پردازش وارد کنید."

    # الگو برای تشخیص شماره و متن پرانتزی: (شماره)متن
    # این الگو همچنین newline را برای پردازش خط به خط در نظر می‌گیرد.
    lines = text_input.strip().split('\n')
    
    audio_urls_to_merge = []
    errors = []

    for line in lines:
        match = re.match(r'^\s*\((\d+)\)(.*)$', line)
        if match:
            speaker_number = match.group(1)
            text_for_tts = match.group(2).strip()

            if not text_for_tts:
                errors.append(f"خطا: متن خالی برای گوینده {speaker_number} در خط '{line}'")
                continue

            # ساخت URL برای Talkbot API
            # متن باید URL-encoded شود، اما requests.get این کار را به طور خودکار برای پارامترها انجام می‌دهد.
            tts_url = f"https://talkbot.ir/api/TTS-S{speaker_number}?text={text_for_tts}"
            
            print(f"درخواست TTS برای گوینده {speaker_number}: {tts_url}") # برای debugging

            try:
                # درخواست به Talkbot API
                response = requests.get(tts_url)
                response.raise_for_status() # برای خطاهای HTTP
                
                # فرض بر این است که پاسخ مستقیم لینک MP3 است
                # اگر API لینک را در JSON برمی‌گرداند، باید آن را parse کنید.
                # در مثال شما، فرض می‌شود پاسخ مستقیم لینک MP3 است.
                audio_link = response.text.strip() 
                
                if audio_link.startswith("http"): # مطمئن شوید لینک معتبر است
                    audio_urls_to_merge.append(audio_link)
                else:
                    errors.append(f"API برای گوینده {speaker_number} لینک معتبری برنگرداند: '{audio_link}'")

            except requests.exceptions.RequestException as e:
                errors.append(f"خطا در ارتباط با Talkbot API برای گوینده {speaker_number}: {e}")
            except Exception as e:
                errors.append(f"خطای غیرمنتظره در پردازش Talkbot API برای گوینده {speaker_number}: {e}")
        else:
            if line.strip(): # اگر خط خالی نباشد، اما مطابق الگو نباشد
                errors.append(f"فرمت نامعتبر در خط: '{line}'. انتظار می‌رود (شماره)متن.")


    if not audio_urls_to_merge:
        return None, "هیچ فایل صوتی برای ادغام تولید نشد." + "\n".join(errors) if errors else ""

    # حالا لینک‌های تولید شده را به تابع merge_audio_files اصلی می‌فرستیم
    merged_output_path, merge_message = merge_audio_files(audio_urls_to_merge)

    final_message = merge_message
    if errors:
        final_message += "\n\nخطاهای رخ داده:\n" + "\n".join(errors)

    return merged_output_path, final_message


# ایجاد رابط کاربری Gradio
with gr.Blocks() as demo:
    gr.Markdown(
        """
        # ابزار ادغام فایل‌های صوتی (MP3/WAV) و تولید صدا از متن
        در اینجا دو بخش اصلی وجود دارد:
        1. **ادغام فایل‌های صوتی موجود:** می‌توانید لینک‌های فایل‌های صوتی (MP3/WAV) را وارد کنید.
        2. **تولید صدا از متن با Talkbot API و ادغام:** متنی را با فرمت `(شماره)متن` وارد کنید. 
           (مثال: `(1)سلام\n(2)بله`)
           این بخش با استفاده از Talkbot API صدا تولید کرده و آن‌ها را ادغام می‌کند.
        """
    )
    
    with gr.Tab("ادغام فایل‌های صوتی موجود"):
        gr.Markdown("## ادغام فایل‌های صوتی موجود (از لینک یا فایل محلی)")
        audio_links_input = gr.Textbox(
            label="لینک یا مسیر فایل‌های صوتی (هر کدام در یک خط جدید)",
            placeholder="مثال:\nhttps://example.com/audio1.mp3\n./local_audio.wav\nhttps://example.com/audio2.wav",
            lines=10
        )
        audio_merge_output_message = gr.Textbox(label="پیام", interactive=False)
        audio_merge_output_audio = gr.Audio(label="فایل صوتی ادغام شده", type="filepath")
        merge_button = gr.Button("ادغام فایل‌های صوتی")

        merge_button.click(
            fn=lambda x: merge_audio_files([s.strip() for s in x.split('\n') if s.strip()]), # تبدیل ورودی رشته‌ای به لیست برای تابع
            inputs=[audio_links_input],
            outputs=[audio_merge_output_audio, audio_merge_output_message]
        )
        
        gr.Examples(
            examples=[
                ["https://www.soundhelix.com/examples/mp3/SoundHelix-Song-1.mp3\nhttps://www.soundhelix.com/examples/mp3/SoundHelix-Song-2.mp3"],
                # اگر فایل‌های واقعی داشته باشید، می‌توانید این خط را فعال کنید:
                # ["./path/to/your/local_audio.mp3\n./path/to/another/local_audio.wav"]
            ],
            inputs=audio_links_input,
            label="نمونه‌ها"
        )

    with gr.Tab("تولید صدا از متن (Talkbot API) و ادغام"):
        gr.Markdown("## تولید صدا با Talkbot API و ادغام فایل‌ها")
        tts_text_input = gr.Textbox(
            label="متن برای تولید صدا (فرمت: (شماره)متن - هر پرسوناژ در یک خط جدید)",
            placeholder="(1)سلام این تست صحبت اولین نفر است.\n(2)سلام، بله این هم یک تست است و من کاراکتر دوم هستم.\n(1)خب از کجا شروع کنیم\n(2)بهتره از اول شروع کنیم",
            lines=10
        )
        tts_output_message = gr.Textbox(label="پیام", interactive=False)
        tts_output_audio = gr.Audio(label="فایل صوتی تولید و ادغام شده", type="filepath")
        tts_merge_button = gr.Button("تولید و ادغام صدا")

        tts_merge_button.click(
            fn=tts_and_merge,
            inputs=[tts_text_input],
            outputs=[tts_output_audio, tts_output_message]
        )

        gr.Examples(
            examples=[
                ["(1)سلام این تست صحبت اولین نفر است.\n(2)سلام، بله این هم یک تست است و من کاراکتر دوم هستم."],
                ["(1)امروز هوا چطوره؟\n(2)فکر کنم آفتابیه."]
            ],
            inputs=tts_text_input,
            label="نمونه‌ها"
        )


if __name__ == "__main__":
    demo.launch() # برای اجرا در لوکال
    # demo.launch(share=True) # برای اشتراک‌گذاری موقت در یک لینک عمومی (برای هوش مصنوعی)