Spaces:

yongyeol
/

imagetoaudio

Runtime error

File size: 6,889 Bytes

0725a88
 
 
 
 
78ea8dc
bfbdf81
2a55caa
 
 
4ae4657
0725a88
bfbdf81
2a55caa
 
 
4ae4657
78ea8dc
 
 
2a55caa
78ea8dc
 
 
 
82191e2
2a55caa
 
 
78ea8dc
 
4ae4657
78ea8dc
87e6f23
2a55caa
82191e2
 
 
2a55caa
82191e2
2a55caa
 
 
 
 
 
87e6f23
 
0725a88
2a55caa
4ae4657
 
06f6c9e
0725a88
4ae4657
2a55caa
82191e2
 
87e6f23
0725a88
8e74b09
2a55caa
 
 
faca888
ad5c75b
9472531
faca888
 
 
 
0836597
0725a88
 
 
 
 
ad5c75b
4b414b1
07cf72c
2a55caa
82191e2
2a55caa
20017db
82191e2
20017db
2a55caa
 
 
06f6c9e
d7b41a8
 
 
07cf72c
4b414b1
0836597
d7b41a8
06f6c9e
2a55caa
0725a88
 
 
 
4b414b1
06f6c9e
4b414b1
2a55caa
0725a88
4b414b1
2a55caa
 
 
4b414b1
 
 
8e74b09
 
 
 
2a55caa
 
4b414b1
 
8e74b09

import os, sys, types, subprocess, tempfile
import torch, gradio as gr
from transformers import (
    VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
)
from PIL import Image

# ─────────────────────────────────────────────────────────────
# 0. 환경 변수
# ─────────────────────────────────────────────────────────────
os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
os.environ["XFORMERS_FORCE_DISABLE"] = "1"    # audiocraft 내부 플래그

# ─────────────────────────────────────────────────────────────
# 1. xformers 더미 모듈 주입 (GPU 종속 제거)
# ─────────────────────────────────────────────────────────────
dummy = types.ModuleType("xformers")
dummy.__version__ = "0.0.0"
ops = types.ModuleType("xformers.ops")

def _fake_mea(q, k, v, *_, dropout_p: float = 0.0, **__):
    return torch.nn.functional.scaled_dot_product_attention(
        q, k, v, dropout_p=dropout_p, is_causal=False
    )

class _FakeLowerTriangularMask:  # audiocraft가 존재 여부만 확인
    pass

ops.memory_efficient_attention = _fake_mea
ops.LowerTriangularMask = _FakeLowerTriangularMask
dummy.ops = ops
sys.modules["xformers"] = dummy
sys.modules["xformers.ops"] = ops

# ─────────────────────────────────────────────────────────────
# 2. (선택) 설치하지 않은 모듈만 안전망으로 스텁 처리 ★
#    - 이미 requirements.txt에서 설치한 모듈(librosa, av 등)은
#      스텁 대상에서 제거합니다.
# ─────────────────────────────────────────────────────────────
for name in ("pesq", "pystoi", "soxr"):   # ★ 필요시만 남김
    if name not in sys.modules:
        sys.modules[name] = types.ModuleType(name)

# ─────────────────────────────────────────────────────────────
# 3. audiocraft (MusicGen) 불러오기
# ─────────────────────────────────────────────────────────────
try:
    from audiocraft.models import MusicGen
    from audiocraft.data.audio import audio_write
except ModuleNotFoundError:
    subprocess.check_call([
        sys.executable, "-m", "pip", "install",
        "git+https://github.com/facebookresearch/audiocraft@main",
        "--no-deps", "--use-pep517"
    ])
    subprocess.check_call([sys.executable, "-m", "pip", "install",
                           "encodec", "librosa", "av", "torchdiffeq",
                           "torchmetrics", "num2words"])
    from audiocraft.models import MusicGen
    from audiocraft.data.audio import audio_write

# ─────────────────────────────────────────────────────────────
# 4. 이미지 캡셔닝 모델
# ─────────────────────────────────────────────────────────────
# 4. 이미지 캡셔닝 모델 ------------------------------------
caption_model = VisionEncoderDecoderModel.from_pretrained(
    "nlpconnect/vit-gpt2-image-captioning",
    use_safetensors=True,        # 그대로
    low_cpu_mem_usage=False,     # ← meta 로딩 비활성화
    device_map=None              # ← Accelerate 자동 분할 끄기
).eval()                         # 평가 모드

feature_extractor = ViTImageProcessor.from_pretrained(
    "nlpconnect/vit-gpt2-image-captioning"
)
tokenizer = AutoTokenizer.from_pretrained(
    "nlpconnect/vit-gpt2-image-captioning"
)


# ─────────────────────────────────────────────────────────────
# 5. MusicGen 모델
# ─────────────────────────────────────────────────────────────
musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
musicgen.set_generation_params(duration=10)

# ─────────────────────────────────────────────────────────────
# 6. 파이프라인 함수
# ─────────────────────────────────────────────────────────────
def generate_caption(image: Image.Image) -> str:
    with torch.no_grad():
        pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
        output_ids = caption_model.generate(pixel_values, max_length=50)
    return tokenizer.decode(output_ids[0], skip_special_tokens=True)



def generate_music(prompt: str) -> str:
    wav = musicgen.generate([prompt])           # batch size = 1
    tmpdir = tempfile.mkdtemp()
    path = os.path.join(tmpdir, "musicgen.wav")
    audio_write(path, wav[0], musicgen.sample_rate, strategy="loudness")
    return path

def process(image: Image.Image):
    caption = generate_caption(image)
    path    = generate_music(f"A cheerful melody inspired by: {caption}")
    return caption, path

# ─────────────────────────────────────────────────────────────
# 7. Gradio UI
# ─────────────────────────────────────────────────────────────
demo = gr.Interface(
    fn=process,
    inputs=gr.Image(type="pil"),
    outputs=[
        gr.Text(label="AI가 생성한 그림 설명"),
        gr.Audio(label="생성된 AI 음악 (MusicGen)")
    ],
    title="🎨 AI 그림-음악 생성기",
    description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 10초 길이의 음악을 생성해 들려줍니다."
)

if __name__ == "__main__":
    demo.launch()