Voff

Sleeping

App Files Files Community

TDN-M commited on Feb 13

Commit

c60ab48

verified ·

1 Parent(s): 0b45667

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -12

app.py CHANGED Viewed

@@ -15,8 +15,7 @@ from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
 from langchain_community.llms import HuggingFacePipeline
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-from diffusers import StableDiffusionPipeline
-from PIL import Image
 import cv2
 from moviepy.editor import AudioFileClip, ImageSequenceClip
 import gc
@@ -73,12 +72,6 @@ llm_chain = caption_chain.chain(llm=local_llm)
 sum_llm_chain = tag_chain.chain(llm=local_llm)
 pexels_api_key = os.getenv('pexels_api_key')
-# Initialize Stable Diffusion Pipeline with TDN-M/East-asian-beauty
-image_gen_model_id = "TDN-M/East-asian-beauty"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-image_generator = StableDiffusionPipeline.from_pretrained(image_gen_model_id, torch_dtype=torch.float16)
-image_generator = image_generator.to(device)
 def normalize_vietnamese_text(text):
     text = (
         TTSnorm(text, unknown=False, lower=False, rule=True)
@@ -134,13 +127,22 @@ def truncate_prompt(prompt, tokenizer, max_length=512):
         prompt = tokenizer.convert_tokens_to_string(tokens)
     return prompt
-def generate_images_from_sentences(sentences, image_generator, folder_path):
     try:
         for i, sentence in enumerate(sentences):
             print(f"Generating image for sentence {i + 1}: {sentence}")
-            image = image_generator(sentence, guidance_scale=7.5).images[0]
             image_path = os.path.join(folder_path, f"image_{i + 1}.png")
-            image.save(image_path)
             print(f"Saved image at {image_path}")
     except Exception as e:
         print("Error! Failed generating images")
@@ -238,7 +240,7 @@ def predict(
         sentences = [x.strip() for x in re.split(r'[.!?]', prompt) if len(x.strip()) > 6]
         # Tạo ảnh minh họa cho từng câu
-        images = generate_images_from_sentences(sentences, image_generator, folder_path)
         # Tạo video từ file audio và các ảnh
         video_path = os.path.join(folder_name, "Final_Ad_Video.mp4")

 from vinorm import TTSnorm
 from langchain_community.llms import HuggingFacePipeline
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+from gradio_client import Client
 import cv2
 from moviepy.editor import AudioFileClip, ImageSequenceClip
 import gc
 sum_llm_chain = tag_chain.chain(llm=local_llm)
 pexels_api_key = os.getenv('pexels_api_key')
 def normalize_vietnamese_text(text):
     text = (
         TTSnorm(text, unknown=False, lower=False, rule=True)
         prompt = tokenizer.convert_tokens_to_string(tokens)
     return prompt
+def generate_images_from_sentences(sentences):
     try:
+        client = Client("ByteDance/Hyper-FLUX-8Steps-LoRA")
         for i, sentence in enumerate(sentences):
             print(f"Generating image for sentence {i + 1}: {sentence}")
+            result = client.predict(
+                height=1024,
+                width=1024,
+                steps=8,
+                scales=3.5,
+                prompt=sentence,
+                seed=3413,
+                api_name="/process_image"
+            )
             image_path = os.path.join(folder_path, f"image_{i + 1}.png")
+            result.save(image_path)
             print(f"Saved image at {image_path}")
     except Exception as e:
         print("Error! Failed generating images")
         sentences = [x.strip() for x in re.split(r'[.!?]', prompt) if len(x.strip()) > 6]
         # Tạo ảnh minh họa cho từng câu
+        images = generate_images_from_sentences(sentences)
         # Tạo video từ file audio và các ảnh
         video_path = os.path.join(folder_name, "Final_Ad_Video.mp4")