Spaces:

yongyeol
/

imagetoaudio

Runtime error

File size: 4,160 Bytes

06f6c9e
 
 
 
 
bfbdf81
06f6c9e
4ae4657
06f6c9e
bfbdf81
06f6c9e
4ae4657
 
 
 
06f6c9e
87e6f23
06f6c9e
87e6f23
 
 
4ae4657
 
06f6c9e
 
4ae4657
87e6f23
c3cf7db
4b414b1
 
20017db
4b414b1
 
8e74b09
06f6c9e
ad5c75b
9472531
06f6c9e
 
ad5c75b
4b414b1
 
 
06f6c9e
20017db
06f6c9e
20017db
06f6c9e
 
4b414b1
8e74b09
06f6c9e
4b414b1
06f6c9e
 
 
20017db
 
 
 
4b414b1
06f6c9e
 
4b414b1
8e74b09
20017db
 
4b414b1
06f6c9e
4b414b1
 
 
8e74b09
 
 
 
06f6c9e
 
4b414b1
 
8e74b09

import os
import sys
import types
import subprocess
import tempfile

# ── 환경 변수 설정 ──────────────────────────────────────────────
os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
os.environ["XFORMERS_FORCE_DISABLE"] = "1"      # xformers 비활성화

# ── ✨ xformers 더미 모듈 삽입 ──────────────────────────────────
dummy = types.ModuleType("xformers")
dummy.ops = types.ModuleType("xformers.ops")    # audiocraft가 ops 하위모듈도 찾음
sys.modules["xformers"] = dummy
sys.modules["xformers.ops"] = dummy.ops
# ───────────────────────────────────────────────────────────────

# ── audiocraft 동적 설치 ───────────────────────────────────────
try:
    from audiocraft.models import MusicGen
except ModuleNotFoundError:
    subprocess.check_call([
        sys.executable, "-m", "pip", "install",
        "git+https://github.com/facebookresearch/audiocraft@main",
        "--use-pep517"                      # 의존성 포함 설치
    ])
    from audiocraft.models import MusicGen

import gradio as gr
from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
from audiocraft.data.audio import audio_write
from PIL import Image
import torch

# ───── 이미지 캡셔닝 모델 로딩 ─────────────────────────────────
caption_model = VisionEncoderDecoderModel.from_pretrained(
    "nlpconnect/vit-gpt2-image-captioning",
    use_safetensors=True,
    low_cpu_mem_usage=True
)
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

# ───── MusicGen 모델 로딩 ─────────────────────────────────────
musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
musicgen.set_generation_params(duration=10)  # 생성 음악 길이(초)

# ───── 이미지 → 설명 문장 생성 함수 ────────────────────────────
def generate_caption(image: Image.Image) -> str:
    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
    output_ids = caption_model.generate(pixel_values, max_length=50)
    return tokenizer.decode(output_ids[0], skip_special_tokens=True)

# ───── 설명 → 음악 생성 함수 ──────────────────────────────────
def generate_music(prompt: str) -> str:
    wav = musicgen.generate([prompt])  # batch size = 1
    tmp_dir = tempfile.mkdtemp()
    audio_path = os.path.join(tmp_dir, "musicgen_output.wav")
    audio_write(audio_path, wav[0], musicgen.sample_rate, strategy="loudness")
    return audio_path

# ───── 전체 파이프라인 ────────────────────────────────────────
def process(image: Image.Image):
    caption = generate_caption(image)
    prompt = f"A cheerful melody inspired by: {caption}"
    audio_path = generate_music(prompt)
    return caption, audio_path

# ───── Gradio 인터페이스 ─────────────────────────────────────
demo = gr.Interface(
    fn=process,
    inputs=gr.Image(type="pil"),
    outputs=[
        gr.Text(label="AI가 생성한 그림 설명"),
        gr.Audio(label="생성된 AI 음악 (MusicGen)")
    ],
    title="🎨 AI 그림-음악 생성기",
    description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 음악을 생성해 들려줍니다."
)

if __name__ == "__main__":
    demo.launch()