Spaces:

yongyeol
/

imagetoaudio

Runtime error

App Files Files Community

yongyeol commited on Jul 8

Commit

78ea8dc

verified ·

1 Parent(s): 159859d

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -21

app.py CHANGED Viewed

@@ -3,36 +3,56 @@ import sys
 import types
 import subprocess
 import tempfile
-# ── 환경 변수 설정 ──────────────────────────────────────────────
 os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
-os.environ["XFORMERS_FORCE_DISABLE"] = "1"      # xformers 비활성화
-# ── ✨ xformers 더미 모듈 삽입 ──────────────────────────────────
 dummy = types.ModuleType("xformers")
-dummy.ops = types.ModuleType("xformers.ops")    # audiocraft가 ops 하위모듈도 찾음
 sys.modules["xformers"] = dummy
-sys.modules["xformers.ops"] = dummy.ops
-# ───────────────────────────────────────────────────────────────
-# ── audiocraft 동적 설치 ───────────────────────────────────────
 try:
     from audiocraft.models import MusicGen
 except ModuleNotFoundError:
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
         "git+https://github.com/facebookresearch/audiocraft@main",
-        "--use-pep517"                      # 의존성 포함 설치
     ])
     from audiocraft.models import MusicGen
-import gradio as gr
-from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 from audiocraft.data.audio import audio_write
-from PIL import Image
-import torch
-# ───── 이미지 캡셔닝 모델 로딩 ─────────────────────────────────
 caption_model = VisionEncoderDecoderModel.from_pretrained(
     "nlpconnect/vit-gpt2-image-captioning",
     use_safetensors=True,
@@ -41,32 +61,30 @@ caption_model = VisionEncoderDecoderModel.from_pretrained(
 feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-# ───── MusicGen 모델 로딩 ─────────────────────────────────────
 musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
-musicgen.set_generation_params(duration=10)  # 생성 음악 길이(초)
-# ───── 이미지 → 설명 문장 생성 함수 ────────────────────────────
 def generate_caption(image: Image.Image) -> str:
     pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     output_ids = caption_model.generate(pixel_values, max_length=50)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
-# ───── 설명 → 음악 생성 함수 ──────────────────────────────────
 def generate_music(prompt: str) -> str:
-    wav = musicgen.generate([prompt])  # batch size = 1
     tmp_dir = tempfile.mkdtemp()
     audio_path = os.path.join(tmp_dir, "musicgen_output.wav")
     audio_write(audio_path, wav[0], musicgen.sample_rate, strategy="loudness")
     return audio_path
-# ───── 전체 파이프라인 ────────────────────────────────────────
 def process(image: Image.Image):
     caption = generate_caption(image)
     prompt = f"A cheerful melody inspired by: {caption}"
     audio_path = generate_music(prompt)
     return caption, audio_path
-# ───── Gradio 인터페이스 ─────────────────────────────────────
 demo = gr.Interface(
     fn=process,
     inputs=gr.Image(type="pil"),
@@ -74,7 +92,7 @@ demo = gr.Interface(
         gr.Text(label="AI가 생성한 그림 설명"),
         gr.Audio(label="생성된 AI 음악 (MusicGen)")
     ],
-    title="🎨 AI 그림-음악 생성기",
     description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 음악을 생성해 들려줍니다."
 )

 import types
 import subprocess
 import tempfile
+import torch
+import gradio as gr
+from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
+from PIL import Image
+# ── 환경 변수 ────────────────────────────────────────────────
 os.environ["HF_FORCE_SAFE_SERIALIZATION"] = "1"
+os.environ["XFORMERS_FORCE_DISABLE"] = "1"      # 실제 xformers 비활성화
+# ── ✨ xformers 더미 모듈 삽입 ─────────────────────────────────
 dummy = types.ModuleType("xformers")
+dummy.__version__ = "0.0.0"
+# 하위 모듈 xformers.ops
+ops = types.ModuleType("xformers.ops")
+def _fake_memory_efficient_attention(q, k, v, *_, dropout_p: float = 0.0, **__):
+    """
+    xformers.memory_efficient_attention 대체 구현.
+    PyTorch 2.x 기본 S-DPA로 처리해 속도는 느리지만 CPU에서도 동작합니다.
+    """
+    return torch.nn.functional.scaled_dot_product_attention(
+        q, k, v, dropout_p=dropout_p, is_causal=False
+    )
+class _FakeLowerTriangularMask:  # audiocraft 내부 타입 체크용 더미
+    pass
+ops.memory_efficient_attention = _fake_memory_efficient_attention
+ops.LowerTriangularMask = _FakeLowerTriangularMask
+dummy.ops = ops
 sys.modules["xformers"] = dummy
+sys.modules["xformers.ops"] = ops
+# ────────────────────────────────────────────────────────────
+# ── audiocraft 동적 설치 ─────────────────────────────────────
 try:
     from audiocraft.models import MusicGen
 except ModuleNotFoundError:
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
         "git+https://github.com/facebookresearch/audiocraft@main",
+        "--use-pep517"
     ])
     from audiocraft.models import MusicGen
 from audiocraft.data.audio import audio_write
+# ── 이미지 캡셔닝 모델 ─────────────────────────────────────
 caption_model = VisionEncoderDecoderModel.from_pretrained(
     "nlpconnect/vit-gpt2-image-captioning",
     use_safetensors=True,
 feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+# ── MusicGen ───────────────────────────────────────────────
 musicgen = MusicGen.get_pretrained("facebook/musicgen-small")
+musicgen.set_generation_params(duration=10)  # 10초 음악
+# ── 유틸 함수들 ─────────────────────────────────────────────
 def generate_caption(image: Image.Image) -> str:
     pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     output_ids = caption_model.generate(pixel_values, max_length=50)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
 def generate_music(prompt: str) -> str:
+    wav = musicgen.generate([prompt])          # batch size = 1
     tmp_dir = tempfile.mkdtemp()
     audio_path = os.path.join(tmp_dir, "musicgen_output.wav")
     audio_write(audio_path, wav[0], musicgen.sample_rate, strategy="loudness")
     return audio_path
 def process(image: Image.Image):
     caption = generate_caption(image)
     prompt = f"A cheerful melody inspired by: {caption}"
     audio_path = generate_music(prompt)
     return caption, audio_path
+# ── Gradio UI ──────────────────────────────────────────────
 demo = gr.Interface(
     fn=process,
     inputs=gr.Image(type="pil"),
         gr.Text(label="AI가 생성한 그림 설명"),
         gr.Audio(label="생성된 AI 음악 (MusicGen)")
     ],
+    title="🎨 AI 그림‑음악 생성기",
     description="그림을 업로드하면 AI가 설명을 만들고, 설명을 바탕으로 음악을 생성해 들려줍니다."
 )