DenseAV-Lowell

Sleeping

App Files Files Community

lorocksUMD commited on Mar 26

Commit

9c1f1cf

verified ·

1 Parent(s): 908c4e4

Upload 32 files

Browse files

Files changed (9) hide show

DenseAV/denseav/aggregators.py +1 -1
DenseAV/denseav/aligners.py +1 -1
DenseAV/denseav/data/AVDatasets.py +7 -3
DenseAV/denseav/data/make_tarballs.py +3 -2
DenseAV/denseav/eval_utils.py +1 -1
DenseAV/denseav/evaluate.py +2 -2
DenseAV/denseav/plotting.py +1 -1
DenseAV/denseav/shared.py +15 -15
DenseAV/denseav/train.py +5 -5

DenseAV/denseav/aggregators.py CHANGED Viewed

@@ -6,7 +6,7 @@ import torch.nn as nn
 import torch.nn.functional as F
 from tqdm import tqdm
-from denseav.constants import *
 @torch.jit.script

 import torch.nn.functional as F
 from tqdm import tqdm
+from constants import *
 @torch.jit.script

DenseAV/denseav/aligners.py CHANGED Viewed

@@ -4,7 +4,7 @@ import torch
 import torch.nn.functional as F
 from torch.nn import ModuleList
-from denseav.featurizers.DINO import Block
 class ChannelNorm(torch.nn.Module):

 import torch.nn.functional as F
 from torch.nn import ModuleList
+from featurizers.DINO import Block
 class ChannelNorm(torch.nn.Module):

DenseAV/denseav/data/AVDatasets.py CHANGED Viewed

@@ -18,9 +18,13 @@ from PIL import Image
 from torch.utils.data import Dataset, DataLoader, default_collate, Subset, ConcatDataset
 from tqdm import tqdm
-from denseav.constants import AUDIO_MASK, AUDIO_POS_MASK, IMAGE_MASK, IMAGE_INPUT
-from denseav.data.make_tarballs import untar_all
-from denseav.shared import norm, prep_waveform
 def sample_choice(choices, probs):

 from torch.utils.data import Dataset, DataLoader, default_collate, Subset, ConcatDataset
 from tqdm import tqdm
+import sys
+sys.path.append('../constants')
+sys.path.append('../shared')
+from constants import AUDIO_MASK, AUDIO_POS_MASK, IMAGE_MASK, IMAGE_INPUT
+from make_tarballs import untar_all
+from shared import norm, prep_waveform
 def sample_choice(choices, probs):

DenseAV/denseav/data/make_tarballs.py CHANGED Viewed

@@ -9,11 +9,12 @@ from torch.utils.data import Dataset, DataLoader
 from tqdm import tqdm
 from pathlib import Path
-from denseav.shared import batch
 import tempfile
 import shutil
 class Tarballer(Dataset):

 from tqdm import tqdm
 from pathlib import Path
 import tempfile
 import shutil
+import sys
+sys.path.append('../shared')
+from shared import batch
 class Tarballer(Dataset):

DenseAV/denseav/eval_utils.py CHANGED Viewed

@@ -9,7 +9,7 @@ from torchmetrics.functional.classification import binary_average_precision
 from tqdm import tqdm
 from constants import *
-from denseav.shared import unnorm, remove_axes
 def prep_heatmap(sims, masks, h, w):

 from tqdm import tqdm
 from constants import *
+from shared import unnorm, remove_axes
 def prep_heatmap(sims, masks, h, w):

DenseAV/denseav/evaluate.py CHANGED Viewed

@@ -4,8 +4,8 @@ from omegaconf import DictConfig, OmegaConf
 from pytorch_lightning import Trainer
 from pytorch_lightning import seed_everything
 from pytorch_lightning.loggers import TensorBoardLogger
-from denseav.data.AVDatasets import AVDataModule
-from denseav.shared import load_trained_model
 @hydra.main(config_path="configs", config_name="av_align.yaml")

 from pytorch_lightning import Trainer
 from pytorch_lightning import seed_everything
 from pytorch_lightning.loggers import TensorBoardLogger
+from data.AVDatasets import AVDataModule
+from shared import load_trained_model
 @hydra.main(config_path="configs", config_name="av_align.yaml")

DenseAV/denseav/plotting.py CHANGED Viewed

@@ -10,7 +10,7 @@ import torch.nn.functional as F
 import torchvision
 from moviepy.editor import VideoFileClip, AudioFileClip
 from base64 import b64encode
-from denseav.shared import pca
 def write_video_with_audio(video_frames, audio_array, video_fps, audio_fps, output_path):

 import torchvision
 from moviepy.editor import VideoFileClip, AudioFileClip
 from base64 import b64encode
+from shared import pca
 def write_video_with_audio(video_frames, audio_array, video_fps, audio_fps, output_path):

DenseAV/denseav/shared.py CHANGED Viewed

@@ -90,37 +90,37 @@ def get_image_featurizer(name, token_type="key", **kwargs):
     name = name.lower()
     if name == "vit":
-        from denseav.featurizers.DINO import DINOFeaturizer
         patch_size = 16
         model = DINOFeaturizer("vit_small_patch16_224", patch_size, token_type)
         dim = 384
     elif name == "dino16":
-        from denseav.featurizers.DINO import DINOFeaturizer
         patch_size = 16
         model = DINOFeaturizer("dino_vits16", patch_size, token_type)
         dim = 384
     elif name == "dino8":
-        from denseav.featurizers.DINO import DINOFeaturizer
         patch_size = 8
         model = DINOFeaturizer("dino_vits8", patch_size, token_type)
         dim = 384
     elif name == "clip":
-        from denseav.featurizers.CLIP import CLIPFeaturizer
         patch_size = 16
         model = CLIPFeaturizer()
         dim = 512
     elif name == "cavmae":
-        from denseav.featurizers.CAVMAE import CAVMAEImageFeaturizer
         model = CAVMAEImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 768
         patch_size = 16
     elif name == "fnac":
-        from denseav.featurizers.FNACAVL import FNACImageFeaturizer
         model = FNACImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 512
         patch_size = 16
     elif name == "imagebind":
-        from denseav.featurizers.ImageBind import ImageBindImageFeaturizer
         model = ImageBindImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 1024
         patch_size = 16
@@ -131,12 +131,12 @@ def get_image_featurizer(name, token_type="key", **kwargs):
         patch_size = 1
         dim = 2048
     elif name == "davenet":
-        from fdenseav.eaturizers.DAVENet import DavenetImageFeaturizer
         model = DavenetImageFeaturizer()
         patch_size = 1
         dim = 1024
     elif name == "dinov2":
-        from denseav.featurizers.DINOv2 import DINOv2Featurizer
         model = DINOv2Featurizer()
         patch_size = 14
         dim = 768
@@ -147,29 +147,29 @@ def get_image_featurizer(name, token_type="key", **kwargs):
 def get_audio_featurizer(name, **kwargs):
     if name == "davenet":
-        from denseav.featurizers.DAVENet import DavenetAudioFeaturizer
         model = DavenetAudioFeaturizer()
         dim = 1024
     elif name == "dino8":
         model, _, dim = get_image_featurizer("dino8")
     elif name == "hubert":
-        from denseav.featurizers.Hubert import Hubert
         model = Hubert()
         dim = 1024
     elif name == "cavmae":
-        from denseav.featurizers.CAVMAE import CAVMAEAudioFeaturizer
         model = CAVMAEAudioFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 768
     elif name == "imagebind":
-        from denseav.featurizers.ImageBind import ImageBindAudioFeaturizer
         model = ImageBindAudioFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 1024
     elif name == "audiomae":
-        from denseav.featurizers.AudioMAE import AudioMAE
         model = AudioMAE(kwargs["output_root"], False)
         dim = 768
     elif name == "audiomae-finetuned":
-        from denseav.featurizers.AudioMAE import AudioMAE
         model = AudioMAE(kwargs["output_root"], True)
         dim = 768
     else:

     name = name.lower()
     if name == "vit":
+        from featurizers.DINO import DINOFeaturizer
         patch_size = 16
         model = DINOFeaturizer("vit_small_patch16_224", patch_size, token_type)
         dim = 384
     elif name == "dino16":
+        from featurizers.DINO import DINOFeaturizer
         patch_size = 16
         model = DINOFeaturizer("dino_vits16", patch_size, token_type)
         dim = 384
     elif name == "dino8":
+        from featurizers.DINO import DINOFeaturizer
         patch_size = 8
         model = DINOFeaturizer("dino_vits8", patch_size, token_type)
         dim = 384
     elif name == "clip":
+        from featurizers.CLIP import CLIPFeaturizer
         patch_size = 16
         model = CLIPFeaturizer()
         dim = 512
     elif name == "cavmae":
+        from featurizers.CAVMAE import CAVMAEImageFeaturizer
         model = CAVMAEImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 768
         patch_size = 16
     elif name == "fnac":
+        from featurizers.FNACAVL import FNACImageFeaturizer
         model = FNACImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 512
         patch_size = 16
     elif name == "imagebind":
+        from featurizers.ImageBind import ImageBindImageFeaturizer
         model = ImageBindImageFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 1024
         patch_size = 16
         patch_size = 1
         dim = 2048
     elif name == "davenet":
+        from featurizers.DAVENet import DavenetImageFeaturizer
         model = DavenetImageFeaturizer()
         patch_size = 1
         dim = 1024
     elif name == "dinov2":
+        from featurizers.DINOv2 import DINOv2Featurizer
         model = DINOv2Featurizer()
         patch_size = 14
         dim = 768
 def get_audio_featurizer(name, **kwargs):
     if name == "davenet":
+        from featurizers.DAVENet import DavenetAudioFeaturizer
         model = DavenetAudioFeaturizer()
         dim = 1024
     elif name == "dino8":
         model, _, dim = get_image_featurizer("dino8")
     elif name == "hubert":
+        from featurizers.Hubert import Hubert
         model = Hubert()
         dim = 1024
     elif name == "cavmae":
+        from featurizers.CAVMAE import CAVMAEAudioFeaturizer
         model = CAVMAEAudioFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 768
     elif name == "imagebind":
+        from featurizers.ImageBind import ImageBindAudioFeaturizer
         model = ImageBindAudioFeaturizer(kwargs["output_root"], model=kwargs.get("model"))
         dim = 1024
     elif name == "audiomae":
+        from featurizers.AudioMAE import AudioMAE
         model = AudioMAE(kwargs["output_root"], False)
         dim = 768
     elif name == "audiomae-finetuned":
+        from featurizers.AudioMAE import AudioMAE
         model = AudioMAE(kwargs["output_root"], True)
         dim = 768
     else:

DenseAV/denseav/train.py CHANGED Viewed

@@ -21,11 +21,11 @@ from torchmetrics.functional.classification import binary_average_precision
 from huggingface_hub import PyTorchModelHubMixin
-from denseav.aggregators import get_aggregator
-from denseav.aligners import get_aligner, ProgressiveGrowing
-from denseav.constants import *
-from denseav.data.AVDatasets import AVDataModule
-from denseav.shared import flatten_preds, GatherLayer, \
     get_image_featurizer, get_audio_featurizer, RollingAvg, create_model_from_cfg
 torch.multiprocessing.set_sharing_strategy('file_system')

 from huggingface_hub import PyTorchModelHubMixin
+from aggregators import get_aggregator
+from aligners import get_aligner, ProgressiveGrowing
+from constants import *
+from data.AVDatasets import AVDataModule
+from shared import flatten_preds, GatherLayer, \
     get_image_featurizer, get_audio_featurizer, RollingAvg, create_model_from_cfg
 torch.multiprocessing.set_sharing_strategy('file_system')