Spaces:

JoannaKOKO
/

StoryTelling_with_image_input

Sleeping

JoannaKOKO commited on Mar 3

Commit

808ca72

verified ·

1 Parent(s): 07da160

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import streamlit as st
-from transformers import AutoProcessor, AutoModelForCausalLM, pipeline
 import torch
 from PIL import Image
 import io
@@ -9,8 +9,8 @@ from kokoro import KPipeline  # For text-to-speech
 # Load models globally to avoid reloading them repeatedly
 # Image-to-Text model
-processor = AutoProcessor.from_pretrained("Ertugrul/Qwen2-VL-7B-Captioner-Relaxed")
-caption_model = AutoModelForCausalLM.from_pretrained("Ertugrul/Qwen2-VL-7B-Captioner-Relaxed")
 # Text-to-Story model
 story_generator = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-14B")
@@ -52,7 +52,7 @@ def generate_audio(story):
     concatenated_audio = np.concatenate(audio_segments)
     # Write to a BytesIO buffer instead of saving to disk
     audio_buffer = io.BytesIO()
-    #sf.write(audio_buffer, concatenated_audio, 24000, format='WAV')
     audio_buffer.seek(0)
     return audio_buffer

 import streamlit as st
+from transformers import AutoProcessor, AutoModelForImageTextToText, pipeline
 import torch
 from PIL import Image
 import io
 # Load models globally to avoid reloading them repeatedly
 # Image-to-Text model
+processor = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+caption_model = AutoModelForImageTextToText.from_pretrained("Salesforce/blip-image-captioning-large")
 # Text-to-Story model
 story_generator = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-14B")
     concatenated_audio = np.concatenate(audio_segments)
     # Write to a BytesIO buffer instead of saving to disk
     audio_buffer = io.BytesIO()
+    sf.write(audio_buffer, concatenated_audio, 24000, format='WAV')
     audio_buffer.seek(0)
     return audio_buffer