Spaces:

yongyeol
/

imagetoaudio

Runtime error

App Files Files Community

yongyeol commited on Jul 8

Commit

06f6c9e

verified ·

1 Parent(s): 4ae4657

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -26

app.py CHANGED Viewed

@@ -1,70 +1,72 @@
-import os, sys, types, subprocess
 os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
-os.environ["XFORMERS_FORCE_DISABLE"] = "1"      # 그래도 import는 발생 → 가짜 모듈 주입
-# ── ✨ xformers 더미 모듈 삽입 ─────────────────────────
 dummy = types.ModuleType("xformers")
 dummy.ops = types.ModuleType("xformers.ops")    # audiocraft가 ops 하위모듈도 찾음
 sys.modules["xformers"] = dummy
 sys.modules["xformers.ops"] = dummy.ops
-# ─────────────────────────────────────────────────────
-# ── audiocraft 동적 설치 ──
 try:
     from audiocraft.models import MusicGen
 except ModuleNotFoundError:
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
-        "git+https://github.com/facebookresearch/audiocraft@main", "--no-deps"
     ])
     from audiocraft.models import MusicGen
 import gradio as gr
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
-from audiocraft.models import MusicGen
 from audiocraft.data.audio import audio_write
 from PIL import Image
 import torch
-import tempfile
-# ───── 이미지 캡셔닝 모델 로딩 ─────
 caption_model = VisionEncoderDecoderModel.from_pretrained(
     "nlpconnect/vit-gpt2-image-captioning",
-    use_safetensors=True,                 # ✅ 올바른 옵션명
-    low_cpu_mem_usage=True               # (옵션) 메모리 절약
 )
 feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-# ───── MusicGen 모델 로딩 ─────
 musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
-musicgen.set_generation_params(duration=10)  # 생성할 음악 길이 (초)
-# ───── 이미지 → 설명 문장 생성 ─────
-def generate_caption(image):
     pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     output_ids = caption_model.generate(pixel_values, max_length=50)
-    caption = tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    return caption
-# ───── 설명 → 음악 생성 ─────
-def generate_music(prompt):
-    wav = musicgen.generate([prompt])  # batch size 1
     tmp_dir = tempfile.mkdtemp()
     audio_path = os.path.join(tmp_dir, "musicgen_output.wav")
     audio_write(audio_path, wav[0], musicgen.sample_rate, strategy="loudness")
     return audio_path
-# ───── 전체 파이프라인 연결 ─────
-def process(image):
     caption = generate_caption(image)
     prompt = f"A cheerful melody inspired by: {caption}"
     audio_path = generate_music(prompt)
     return caption, audio_path
-# ───── Gradio 인터페이스 구성 ─────
 demo = gr.Interface(
     fn=process,
     inputs=gr.Image(type="pil"),
@@ -72,8 +74,8 @@ demo = gr.Interface(
         gr.Text(label="AI가 생성한 그림 설명"),
         gr.Audio(label="생성된 AI 음악 (MusicGen)")
     ],
-    title="🎨 AI 그림 음악 생성기",
-    description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 음악을 만들어 들려줍니다."
 )
 if __name__ == "__main__":

+import os
+import sys
+import types
+import subprocess
+import tempfile
+# ── 환경 변수 설정 ──────────────────────────────────────────────
 os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
+os.environ["XFORMERS_FORCE_DISABLE"] = "1"      # xformers 비활성화
+# ── ✨ xformers 더미 모듈 삽입 ──────────────────────────────────
 dummy = types.ModuleType("xformers")
 dummy.ops = types.ModuleType("xformers.ops")    # audiocraft가 ops 하위모듈도 찾음
 sys.modules["xformers"] = dummy
 sys.modules["xformers.ops"] = dummy.ops
+# ───────────────────────────────────────────────────────────────
+# ── audiocraft 동적 설치 ───────────────────────────────────────
 try:
     from audiocraft.models import MusicGen
 except ModuleNotFoundError:
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
+        "git+https://github.com/facebookresearch/audiocraft@main",
+        "--use-pep517"                      # 의존성 포함 설치
     ])
     from audiocraft.models import MusicGen
 import gradio as gr
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 from audiocraft.data.audio import audio_write
 from PIL import Image
 import torch
+# ───── 이미지 캡셔닝 모델 로딩 ─────────────────────────────────
 caption_model = VisionEncoderDecoderModel.from_pretrained(
     "nlpconnect/vit-gpt2-image-captioning",
+    use_safetensors=True,
+    low_cpu_mem_usage=True
 )
 feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+# ───── MusicGen 모델 로딩 ─────────────────────────────────────
 musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
+musicgen.set_generation_params(duration=10)  # 생성 음악 길이(초)
+# ───── 이미지 → 설명 문장 생성 함수 ────────────────────────────
+def generate_caption(image: Image.Image) -> str:
     pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     output_ids = caption_model.generate(pixel_values, max_length=50)
+    return tokenizer.decode(output_ids[0], skip_special_tokens=True)
+# ───── 설명 → 음악 생성 함수 ──────────────────────────────────
+def generate_music(prompt: str) -> str:
+    wav = musicgen.generate([prompt])  # batch size = 1
     tmp_dir = tempfile.mkdtemp()
     audio_path = os.path.join(tmp_dir, "musicgen_output.wav")
     audio_write(audio_path, wav[0], musicgen.sample_rate, strategy="loudness")
     return audio_path
+# ───── 전체 파이프라인 ────────────────────────────────────────
+def process(image: Image.Image):
     caption = generate_caption(image)
     prompt = f"A cheerful melody inspired by: {caption}"
     audio_path = generate_music(prompt)
     return caption, audio_path
+# ───── Gradio 인터페이스 ─────────────────────────────────────
 demo = gr.Interface(
     fn=process,
     inputs=gr.Image(type="pil"),
         gr.Text(label="AI가 생성한 그림 설명"),
         gr.Audio(label="생성된 AI 음악 (MusicGen)")
     ],
+    title="🎨 AI 그림-음악 생성기",
+    description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 음악을 생성해 들려줍니다."
 )
 if __name__ == "__main__":