Spaces:

Staticaliza
/

Sense

Running

App Files Files Community

Staticaliza commited on May 28

Commit

e6f4055

verified ·

1 Parent(s): 842b1c3

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -1

app.py CHANGED Viewed

@@ -87,6 +87,28 @@ def generate(input, instruction=DEFAULT_INPUT, sampling=False, temperature=0.7,
     elif filetype == "GIF":
         frames = encode_gif(input)
         content.extend(frames)
     elif filetype == "Video":
         frames = encode_video(input)
         content.extend(frames)
@@ -97,7 +119,8 @@ def generate(input, instruction=DEFAULT_INPUT, sampling=False, temperature=0.7,
         content.append(audio)
     else:
         return "Unsupported file type."
     filename = os.path.basename(input)
     prefix = input_prefixes[filetype].replace("█", filename)
     content.append(prefix + instruction)

     elif filetype == "GIF":
         frames = encode_gif(input)
         content.extend(frames)
+    elif filetype == "Video":
+        vr = VideoReader(input, ctx=cpu(0))
+        fps = round(vr.get_avg_fps())
+        raw_idxs = list(range(0, len(vr), fps))
+        idxs = raw_idxs if len(raw_idxs) <= MAX_FRAMES else uniform_sample(raw_idxs, MAX_FRAMES)
+        frames_np = vr.get_batch(idxs).asnumpy()
+        audio_np, sample_rate = librosa.load(input, sr=16000, mono=True)
+        for idx, frame_np in zip(idxs, frames_np):
+            image = Image.fromarray(frame_np.astype("uint8")).convert("RGB")
+            content.append(image)
+            sec = idx // fps
+            start = sec * sample_rate
+            end = start + sample_rate
+            chunk_np = audio_np[start:end]
+            chunk_tensor = torch.from_numpy(chunk_np).float().to(DEVICE)
+            content.append({"array": chunk_tensor, "sampling_rate": sample_rate})
+    elif filetype == "Audio":
+        audio_np, sample_rate = librosa.load(input, sr=16000, mono=True)
+        chunk_tensor = torch.from_numpy(audio_np).float().to(DEVICE)
+        content.append({"array": chunk_tensor, "sampling_rate": sample_rate})
+    """
     elif filetype == "Video":
         frames = encode_video(input)
         content.extend(frames)
         content.append(audio)
     else:
         return "Unsupported file type."
+    """
     filename = os.path.basename(input)
     prefix = input_prefixes[filetype].replace("█", filename)
     content.append(prefix + instruction)