CogVideoX-5B-Space

Runtime error

svjack commited on Oct 24, 2024

Commit

8fd1034

verified ·

1 Parent(s): 7b1b3c4

Upload 3 files

Files changed (3) hide show

i2v_app_t4.py CHANGED Viewed

@@ -123,6 +123,7 @@ def infer(
     if seed == -1:
         seed = random.randint(0, 2**8 - 1)
     pipe_image = CogVideoXImageToVideoPipeline.from_pretrained(
         "THUDM/CogVideoX-5b-I2V",
         transformer=transformer,
@@ -132,6 +133,16 @@ def infer(
         text_encoder=text_encoder,
         torch_dtype=torch.float16
     ).to(device)
     image_input = Image.fromarray(image_input).resize(size=(720, 480))  # Convert to PIL
     image = load_image(image_input)
     video_pt = pipe_image(
@@ -144,7 +155,7 @@ def infer(
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
-    pipe_image.to("cpu")
     del pipe_image
     gc.collect()
     torch.cuda.empty_cache()

     if seed == -1:
         seed = random.randint(0, 2**8 - 1)
+    '''
     pipe_image = CogVideoXImageToVideoPipeline.from_pretrained(
         "THUDM/CogVideoX-5b-I2V",
         transformer=transformer,
         text_encoder=text_encoder,
         torch_dtype=torch.float16
     ).to(device)
+    '''
+    pipe_image = CogVideoXImageToVideoPipeline.from_pretrained(
+            "THUDM/CogVideoX-5b-I2V",
+            transformer=transformer,
+            vae=vae,
+            scheduler=pipe.scheduler,
+            tokenizer=pipe.tokenizer,
+            text_encoder=text_encoder,
+            torch_dtype=torch.float16
+        )
     image_input = Image.fromarray(image_input).resize(size=(720, 480))  # Convert to PIL
     image = load_image(image_input)
     video_pt = pipe_image(
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
+    #pipe_image.to("cpu")
     del pipe_image
     gc.collect()
     torch.cuda.empty_cache()

t2v_app_t4.py CHANGED Viewed

@@ -121,7 +121,7 @@ def infer(
     if seed == -1:
         seed = random.randint(0, 2**8 - 1)
-    pipe.to(device)
     video_pt = pipe(
         prompt=prompt,
         num_videos_per_prompt=1,
@@ -132,7 +132,7 @@ def infer(
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
-    pipe.to("cpu")
     gc.collect()
     torch.cuda.empty_cache()
     return (video_pt, seed)

     if seed == -1:
         seed = random.randint(0, 2**8 - 1)
+    #pipe.to(device)
     video_pt = pipe(
         prompt=prompt,
         num_videos_per_prompt=1,
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
+    #pipe.to("cpu")
     gc.collect()
     torch.cuda.empty_cache()
     return (video_pt, seed)

v2v_app_t4.py CHANGED Viewed

@@ -127,6 +127,7 @@ def infer(
         seed = random.randint(0, 2**8 - 1)
     video = load_video(video_input)[:49]  # Limit to 49 frames
     pipe_video = CogVideoXVideoToVideoPipeline.from_pretrained(
         "THUDM/CogVideoX-5b",
         transformer=transformer,
@@ -136,6 +137,16 @@ def infer(
         text_encoder=text_encoder,
         torch_dtype=torch.float16
     ).to(device)
     video_pt = pipe_video(
         video=video,
         prompt=prompt,
@@ -147,7 +158,7 @@ def infer(
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
-    pipe_video.to("cpu")
     del pipe_video
     gc.collect()
     torch.cuda.empty_cache()

         seed = random.randint(0, 2**8 - 1)
     video = load_video(video_input)[:49]  # Limit to 49 frames
+    '''
     pipe_video = CogVideoXVideoToVideoPipeline.from_pretrained(
         "THUDM/CogVideoX-5b",
         transformer=transformer,
         text_encoder=text_encoder,
         torch_dtype=torch.float16
     ).to(device)
+    '''
+    pipe_video = CogVideoXVideoToVideoPipeline.from_pretrained(
+        "THUDM/CogVideoX-5b",
+        transformer=transformer,
+        vae=vae,
+        scheduler=pipe.scheduler,
+        tokenizer=pipe.tokenizer,
+        text_encoder=text_encoder,
+        torch_dtype=torch.float16
+    )
     video_pt = pipe_video(
         video=video,
         prompt=prompt,
         guidance_scale=7.0,
         generator=torch.Generator(device="cpu").manual_seed(seed),
     ).frames
+    #pipe_video.to("cpu")
     del pipe_video
     gc.collect()
     torch.cuda.empty_cache()