videodiffusion

Running on Zero

App Files Files Community

QinOwen commited on Jul 19, 2024

Commit

20a2d44

1 Parent(s): 2ad9d00

fix-bug

Browse files

Files changed (4) hide show

.gitignore +1 -0
VADER-VideoCrafter/scripts/main/train_t2v_lora.py +19 -11
app.py +5 -4
requirements.txt +0 -2

.gitignore CHANGED Viewed

@@ -7,6 +7,7 @@
 HPSv2
 **/HPSv2
 wandb
 # VADER-VideoCrafter
 VADER-VideoCrafter/.DS_Store

 HPSv2
 **/HPSv2
 wandb
+gradio_cached_examples
 # VADER-VideoCrafter
 VADER-VideoCrafter/.DS_Store

VADER-VideoCrafter/scripts/main/train_t2v_lora.py CHANGED Viewed

@@ -27,7 +27,6 @@ from Core.compression_scorer import JpegCompressionScorer, jpeg_compressibility
 import Core.prompts as prompts_file
 from hpsv2.src.open_clip import create_model_and_transforms, get_tokenizer
 import hpsv2
-import bitsandbytes as bnb
 from accelerate import Accelerator
 from accelerate.utils import gather_object
 import torch.distributed as dist
@@ -727,7 +726,6 @@ def run_training(args, model, **kwargs):
     peft_model = peft.get_peft_model(model, config)
-    peft_model.print_trainable_parameters()
     # load the pretrained LoRA model
     if args.lora_ckpt_path != "Base Model":
@@ -751,13 +749,6 @@ def run_training(args, model, **kwargs):
     if args.inference_only:
         peft_model = accelerator.prepare(peft_model)
-        print("precision: ", peft_model.dtype)
-        # precision of first_stage_model
-        print("precision of first_stage_model: ", peft_model.first_stage_model.dtype)
-        print("peft_model device: ", peft_model.device)
         # sample shape
         assert (args.height % 16 == 0) and (args.width % 16 == 0), "Error: image size [h,w] should be multiples of 16!"
         # latent noise shape
@@ -824,8 +815,8 @@ def run_training(args, model, **kwargs):
             dir_name = os.path.join(output_dir, "samples")
             # filenames should be related to the gpu index
             # get timestamps for filenames to avoid overwriting
-            # current_time = datetime.datetime.now().strftime("%Y%m%d%H%M%S")
-            filenames = [f"temporal"] # only one sample
             # if dir_name is not exists, create it
             os.makedirs(dir_name, exist_ok=True)
@@ -855,6 +846,12 @@ def run_training(args, model, **kwargs):
             # video = get_videos(batch_samples)
             # # read the video from the saved path
             video_path = os.path.join(dir_name[0], filenames[0]+".mp4")
@@ -898,6 +895,16 @@ def setup_model():
     return model
 def main_fn(prompt, lora_model, lora_rank, seed=200, height=320, width=512, unconditional_guidance_scale=12, ddim_steps=25, ddim_eta=1.0,
          frames=24, savefps=10, model=None):
@@ -920,6 +927,7 @@ def main_fn(prompt, lora_model, lora_rank, seed=200, height=320, width=512, unco
     args.savefps = savefps
     seed_everything(args.seed)
     video_path = run_training(args, model)

 import Core.prompts as prompts_file
 from hpsv2.src.open_clip import create_model_and_transforms, get_tokenizer
 import hpsv2
 from accelerate import Accelerator
 from accelerate.utils import gather_object
 import torch.distributed as dist
     peft_model = peft.get_peft_model(model, config)
     # load the pretrained LoRA model
     if args.lora_ckpt_path != "Base Model":
     if args.inference_only:
         peft_model = accelerator.prepare(peft_model)
         # sample shape
         assert (args.height % 16 == 0) and (args.width % 16 == 0), "Error: image size [h,w] should be multiples of 16!"
         # latent noise shape
             dir_name = os.path.join(output_dir, "samples")
             # filenames should be related to the gpu index
             # get timestamps for filenames to avoid overwriting
+            current_time = datetime.datetime.now().strftime("%Y%m%d%H%M%S")
+            filenames = [f"temporal_{current_time}"] # only one sample
             # if dir_name is not exists, create it
             os.makedirs(dir_name, exist_ok=True)
             # video = get_videos(batch_samples)
+            # if the number of the video is more than 20, remove the oldest one
+            if len(os.listdir(dir_name[0])) > 20:
+                # get the oldest video
+                oldest_video = min(os.listdir(dir_name[0]), key=os.path.getctime)
+                os.remove(os.path.join(dir_name[0], oldest_video))
             # # read the video from the saved path
             video_path = os.path.join(dir_name[0], filenames[0]+".mp4")
     return model
+def seed_everything_self(TORCH_SEED):
+	random.seed(TORCH_SEED)
+	os.environ['PYTHONHASHSEED'] = str(TORCH_SEED)
+	np.random.seed(TORCH_SEED)
+	torch.manual_seed(TORCH_SEED)
+	torch.cuda.manual_seed_all(TORCH_SEED)
+	torch.backends.cudnn.deterministic = True
+	torch.backends.cudnn.benchmark = False
 def main_fn(prompt, lora_model, lora_rank, seed=200, height=320, width=512, unconditional_guidance_scale=12, ddim_steps=25, ddim_eta=1.0,
          frames=24, savefps=10, model=None):
     args.savefps = savefps
     seed_everything(args.seed)
+    seed_everything_self(args.seed)
     video_path = run_training(args, model)

app.py CHANGED Viewed

@@ -67,6 +67,8 @@ custom_css = """
     #centered {
         display: flex;
         justify-content: center;
     }
     .column-centered {
         display: flex;
@@ -119,7 +121,6 @@ with gr.Blocks(css=custom_css) as demo:
                         text-decoration: none !important;
                         color: black !important;
                     }
                 </style>
                 <body>
                 <div style="font-size: 1.4em; margin-bottom: 0.5em; ">
@@ -182,7 +183,7 @@ with gr.Blocks(css=custom_css) as demo:
             )
     with gr.Row(elem_id="centered"):
-        with gr.Column(scale=0.3, elem_id="params"):
             lora_model = gr.Dropdown(
                 label="VADER Model",
                 choices=["huggingface-pickscore", "huggingface-hps-aesthetic", "Base Model"],
@@ -193,11 +194,11 @@ with gr.Blocks(css=custom_css) as demo:
                                 value="A mermaid with flowing hair and a shimmering tail discovers a hidden underwater kingdom adorned with coral palaces, glowing pearls, and schools of colorful fish, encountering both wonders and dangers along the way.")
             run_btn = gr.Button("Run Inference")
-        with gr.Column(scale=0.3):
             output_video = gr.Video(elem_id="image-upload")
     with gr.Row(elem_id="centered"):
-        with gr.Column(scale=0.6):
             seed = gr.Slider(minimum=0, maximum=65536, label="Seed", step = 1, value=200)

     #centered {
         display: flex;
         justify-content: center;
+        width: 60%;
+        margin: 0 auto;
     }
     .column-centered {
         display: flex;
                         text-decoration: none !important;
                         color: black !important;
                     }
                 </style>
                 <body>
                 <div style="font-size: 1.4em; margin-bottom: 0.5em; ">
             )
     with gr.Row(elem_id="centered"):
+        with gr.Column(elem_id="params"):
             lora_model = gr.Dropdown(
                 label="VADER Model",
                 choices=["huggingface-pickscore", "huggingface-hps-aesthetic", "Base Model"],
                                 value="A mermaid with flowing hair and a shimmering tail discovers a hidden underwater kingdom adorned with coral palaces, glowing pearls, and schools of colorful fish, encountering both wonders and dangers along the way.")
             run_btn = gr.Button("Run Inference")
+        with gr.Column():
             output_video = gr.Video(elem_id="image-upload")
     with gr.Row(elem_id="centered"):
+        with gr.Column():
             seed = gr.Slider(minimum=0, maximum=65536, label="Seed", step = 1, value=200)

requirements.txt CHANGED Viewed

@@ -13,14 +13,12 @@ tqdm>=4.66.3
 transformers==4.25.1
 moviepy==1.0.3
 av==12.2.0
-gradio
 timm==1.0.7
 scikit-learn==1.5.0
 open_clip_torch==2.22.0
 kornia==0.7.3
 albumentations==1.3.1
 peft==0.11.1
-bitsandbytes==0.42.0
 accelerate==0.31.0
 inflect==7.3.0
 wandb==0.17.3

 transformers==4.25.1
 moviepy==1.0.3
 av==12.2.0
 timm==1.0.7
 scikit-learn==1.5.0
 open_clip_torch==2.22.0
 kornia==0.7.3
 albumentations==1.3.1
 peft==0.11.1
 accelerate==0.31.0
 inflect==7.3.0
 wandb==0.17.3