Spaces:

yongyeol
/

imagetoaudio

Runtime error

File size: 2,820 Bytes

343dde8
6748e07
78ea8dc
d2e22b1
bfbdf81
343dde8
 
 
 
 
 
d2e22b1
 
343dde8
 
 
 
 
 
 
 
 
d2e22b1
78ea8dc
343dde8
 
 
 
 
 
 
 
 
87e6f23
6748e07
343dde8
6748e07
20017db
343dde8
 
 
 
 
 
 
4b414b1
343dde8
 
 
4b414b1
 
 
343dde8
 
 
 
 
 
 
d2e22b1
2b108d4
8e74b09

import os, tempfile, soundfile as sf
import gradio as gr
from PIL import Image
from transformers import pipeline

# ────────────────────────────────────────────────
# 1. 파이프라인 로드 (CPU: device=-1)
# ────────────────────────────────────────────────
CAPTION_ID = "Salesforce/blip-image-captioning-base"   # 용량↓: blip-image-captioning
MUSIC_ID   = "facebook/musicgen-melody"                # 용량↓: musicgen-small

caption_pipe = pipeline(
    "image-to-text",
    model=CAPTION_ID,
    device=-1
)

music_pipe = pipeline(
    "text-to-audio",
    model=MUSIC_ID,
    device=-1,
    generate_kwargs={"duration": 10}   # 초 단위
)

# ────────────────────────────────────────────────
# 2. 유틸 함수
# ────────────────────────────────────────────────
def generate_caption(img: Image.Image) -> str:
    return caption_pipe(img)[0]["generated_text"]

def generate_music(prompt: str) -> str:
    result = music_pipe(prompt, forward_params={"do_sample": True})[0]
    audio, sr = result["audio"], result["sampling_rate"]

    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
    sf.write(tmp.name, audio, sr)
    return tmp.name

# ────────────────────────────────────────────────
# 3. 전체 파이프라인
# ────────────────────────────────────────────────
def process(image):
    caption = generate_caption(image)
    audio   = generate_music(f"A cheerful melody inspired by: {caption}")
    return caption, audio

# ────────────────────────────────────────────────
# 4. Gradio UI
# ────────────────────────────────────────────────
demo = gr.Interface(
    fn=process,
    inputs=gr.Image(type="pil"),
    outputs=[
        gr.Text(label="AI가 생성한 그림 설명"),
        gr.Audio(label="생성된 AI 음악 (MusicGen)")
    ],
    title="🎨 로컬 BLIP-base + MusicGen-melody",
    description="이미지를 업로드하면 BLIP-base가 설명을 생성하고, "
                "그 설명으로 MusicGen-melody가 10초 음악을 만듭니다."
).queue()

if __name__ == "__main__":
    demo.launch()