Spaces:

jev-aleks
/

SceneDINO

Running on Zero

App Files Files Community

SceneDINO / scenedino /common /sampling_strategies.py

jev-aleks

scenedino init

9e15541 16 days ago

raw

history blame contribute delete

13.4 kB

	from random import shuffle
	import random
	from typing import Callable, Optional
	import numpy as np

	import torch


	EncoderSamplingStrategy = Callable[[int], list[int]]
	LossSamplingStrategy = Callable[[int], tuple[list[int], list[int], Optional[list[list[bool]]]]]


	# ============================================ ENCODING SAMPLING STRATEGIES ============================================
	def default_encoder_sampler() -> EncoderSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> list[int]:
	return [0]

	return _sampling_strategy


	def kitti_360_full_encoder_sampler(
	num_encoder_frames: int, always_use_base_frame: bool = True
	) -> EncoderSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> list[int]:
	if always_use_base_frame:
	encoder_perm = (torch.randperm(num_frames - 1) + 1)[
	: num_encoder_frames - 1
	].tolist()
	ids_encoder = [0]
	ids_encoder.extend(encoder_perm)
	else:
	ids_encoder = (torch.randperm(num_frames - 1) + 1)[
	:num_encoder_frames
	].tolist()
	return ids_encoder

	return _sampling_strategy


	def kitti_360_stereo_encoder_sampler(
	num_encoder_frames: int, num_stereo_frames: int, always_use_base_frame: bool = True
	) -> EncoderSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> list[int]:
	num_frames = min(num_frames, num_stereo_frames)

	if always_use_base_frame:
	encoder_perm = (torch.randperm(num_frames - 1) + 1)[
	: num_encoder_frames - 1
	].tolist()
	ids_encoder = [0]
	ids_encoder.extend(encoder_perm)
	else:
	ids_encoder = (torch.randperm(num_frames - 1) + 1)[
	:num_encoder_frames
	].tolist()
	return ids_encoder

	return _sampling_strategy


	def get_encoder_sampling(config) -> EncoderSamplingStrategy:
	strategy = config.get("name", None)
	match strategy:
	case "kitti_360_full":
	return kitti_360_full_encoder_sampler(**config["args"])
	case "kitti_360_stereo":
	return kitti_360_stereo_encoder_sampler(**config["args"])
	case _:
	return default_encoder_sampler()


	# =============================================== LOSS SAMPLING STRATEGIES =============================================
	def single_view_loss_sampler(
	shuffle_frames: bool = False, all_frames: bool = False
	) -> LossSamplingStrategy:
	if all_frames:
	starting_frame = 0
	else:
	starting_frame = 1

	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	frames = [id for id in range(num_frames)]
	if shuffle_frames:
	shuffle(frames)
	return frames[0:1], frames[starting_frame:], None

	return _sampling_strategy


	def single_view_renderer_sampler(
	shuffle_frames: bool = False, all_frames: bool = False
	) -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	frames = [id for id in range(num_frames)]
	if shuffle_frames:
	shuffle(frames)
	if all_frames:
	return frames, frames[0:1], None
	else:
	return frames[0:-1], frames[0:1], None

	return _sampling_strategy


	def stereo_view_loss_sampler(shuffle_frames: bool = False) -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	all_frames = [id for id in range(num_frames)]
	if shuffle_frames:
	shuffle(all_frames)
	if all_frames[0] < num_frames // 2:
	ids_loss = list(range(num_frames // 2))
	ids_renderer = list(range(num_frames // 2, num_frames))
	else:
	ids_renderer = list(range(num_frames // 2))
	ids_loss = list(range(num_frames // 2, num_frames))

	return ids_loss, ids_renderer, None

	return _sampling_strategy


	def kitti_360_loss_sampler() -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	ids_loss: list[int] = []
	ids_renderer: list[int] = []
	for cam_pair_base_id in range(0, num_frames, 2):
	if random.randint(0, 2):
	ids_loss.append(cam_pair_base_id)
	ids_renderer.append(cam_pair_base_id + 1)
	else:
	ids_loss.append(cam_pair_base_id + 1)
	ids_renderer.append(cam_pair_base_id)

	return ids_loss, ids_renderer, None

	return _sampling_strategy


	def kitti_360_loss_sampler() -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	ids_loss: list[int] = []
	ids_renderer: list[int] = []
	for cam_pair_base_id in range(0, num_frames, 2):
	if random.randint(0, 2):
	ids_loss.append(cam_pair_base_id)
	ids_renderer.append(cam_pair_base_id + 1)
	else:
	ids_loss.append(cam_pair_base_id + 1)
	ids_renderer.append(cam_pair_base_id)

	return ids_loss, ids_renderer, None

	return _sampling_strategy


	def kitti_360_with_mapping_loss_sampler() -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	ids_loss: list[int] = []
	ids_renderer: list[int] = []
	mapping = []
	for cam_pair_base_id in range(0, num_frames, 2):
	if random.randint(0, 2):
	ids_loss.append(cam_pair_base_id)
	ids_renderer.append(cam_pair_base_id + 1)
	mapping.append([len(ids_renderer) - 1])
	else:
	ids_loss.append(cam_pair_base_id + 1)
	ids_renderer.append(cam_pair_base_id)
	mapping.append([len(ids_renderer) - 1])

	mapping = np.array(mapping, dtype=np.int64)

	return ids_loss, ids_renderer, mapping

	return _sampling_strategy


	def waymo_with_mapping_loss_sampler() -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	ids_loss: list[int] = []
	ids_renderer: list[int] = []
	mapping = []
	for cam_pair_base_id in range(0, num_frames, 2):
	if random.randint(0, 2):
	ids_loss.append(cam_pair_base_id)
	ids_renderer.append(cam_pair_base_id + 1)
	mapping.extend([[len(ids_renderer) - 1], [len(ids_renderer) - 1]])
	else:
	ids_loss.append(cam_pair_base_id + 1)
	ids_renderer.append(cam_pair_base_id)
	mapping.extend([[len(ids_renderer) - 1], [len(ids_renderer) - 1]])

	mapping = np.array(mapping, dtype=np.int64)

	return ids_loss, ids_renderer, mapping

	return _sampling_strategy


	def alternate_loss_sampler() -> LossSamplingStrategy:
	def _sampling_strategy(num_frames: int) -> tuple[list[int], list[int]]:
	frames = [id for id in range(num_frames)]
	if random.randint(0, 2):
	return list(range(0, num_frames, 2)), list(range(1, num_frames, 2)), None
	else:
	return list(range(1, num_frames, 2)), list(range(0, num_frames, 2)), None

	return _sampling_strategy


	def get_loss_renderer_sampling(config) -> EncoderSamplingStrategy:
	strategy = config.get("name", None)
	match strategy:
	case "single_loss":
	return single_view_loss_sampler(**config.get("args", {}))
	case "single_renderer":
	return single_view_renderer_sampler(**config.get("args", {}))
	case "stereo_loss":
	return stereo_view_loss_sampler(**config.get("args", {}))
	case "kitti_360":
	return kitti_360_loss_sampler()
	case "kitti_360_with_mapping":
	return kitti_360_with_mapping_loss_sampler()
	case "waymo_with_mapping":
	return waymo_with_mapping_loss_sampler()
	case "alternate":
	return alternate_loss_sampler()
	case _:
	return single_view_loss_sampler(False)


	# old sampling strategies

	# if self.training:
	# frame_perm = torch.randperm(v)
	# else:
	# frame_perm = torch.arange(v) ## eval

	# if self.enc_style == "random": ## encoded views
	# encoder_perm = (torch.randperm(v - 1) + 1)[
	# : self.nv_ - 1
	# ].tolist() ## nv-1 for mono [0] idx
	# ids_encoder = [0] ## always starts sampling from mono cam
	# ids_encoder.extend(encoder_perm) ## add more cam_views randomly incl. fe
	# elif self.enc_style == "default":
	# ids_encoder = [
	# v_ for v_ in range(self.nv_)
	# ] ## iterating view(v_) over num_views(nv_)
	# elif self.enc_style == "stereo":
	# if self.training:
	# # if v < 8: raise RuntimeError(f"__number of views should be more than 4 when excluding fisheye views")
	# # if v < 8: raise RuntimeError(f"__number of views should be more than 4 when excluding fisheye views")
	# encoder_perm = (torch.randperm(v - (1 + 4)) + 1)[
	# : self.nv_ - 1
	# ].tolist()
	# ids_encoder = [0]
	# ids_encoder.extend(encoder_perm)
	# else:
	# ids_encoder = [0]
	# else:
	# raise NotImplementedError(f"__unrecognized enc_style: {self.enc_style}")
	# ## default: ids_encoder = [0,1,2,3] <=> front stereo for 1st + 2nd time stamps

	# if (
	# not self.training and self.ids_enc_viz_eval
	# ): ## when eval in viz to be standardized with test: it's eval from line 354, base_trainer.py
	# ids_encoder = self.ids_enc_viz_eval ## fixed during eval

	# ids_render = torch.sort(
	# frame_perm[[i for i in self.frames_render if i < v]]
	# ).values ## ? ### tensor([0, 4])

	# combine_ids = None

	# if self.training:
	# if self.frame_sample_mode == "only":
	# ids_loss = [0]
	# ids_render = ids_render[ids_render != 0]

	# elif self.frame_sample_mode == "not":
	# frame_perm = torch.randperm(v - 1) + 1
	# ids_loss = torch.sort(
	# frame_perm[[i for i in self.frames_render if i < v - 1]]
	# ).values
	# ids_render = [i for i in range(v) if i not in ids_loss]

	# elif self.frame_sample_mode == "stereo":
	# if frame_perm[0] < v // 2:
	# ids_loss = list(range(v // 2))
	# ids_render = list(range(v // 2, v))
	# else:
	# ids_loss = list(range(v // 2, v))
	# ids_render = list(range(v // 2))

	# elif self.frame_sample_mode == "mono":
	# split_i = v // 2
	# if frame_perm[0] < v // 2:
	# ids_loss = list(range(0, split_i, 2)) + list(
	# range(split_i + 1, v, 2)
	# )
	# ids_render = list(range(1, split_i, 2)) + list(range(split_i, v, 2))
	# else:
	# ids_loss = list(range(1, split_i, 2)) + list(range(split_i, v, 2))
	# ids_render = list(range(0, split_i, 2)) + list(
	# range(split_i + 1, v, 2)
	# )

	# elif self.frame_sample_mode == "kitti360-mono":
	# steps = v // 4
	# start_from = 0 if frame_perm[0] < v // 2 else 1

	# ids_loss, ids_render = [], []

	# for cam in range(
	# 4
	# ): ## stereo cam sampled for each time ## ! c.f. paper: N_{render}, N_{loss}
	# ids_loss += [cam * steps + i for i in range(start_from, steps, 2)]
	# ids_render += [
	# cam * steps + i for i in range(1 - start_from, steps, 2)
	# ]
	# start_from = 1 - start_from

	# if self.enc_style == "test":
	# ids_encoder = ids_loss[: self.nv_]

	# elif self.frame_sample_mode.startswith("waymo"):
	# num_views = int(self.frame_sample_mode.split("-")[-1])
	# steps = v // num_views
	# split = steps // 2

	# # Predict features from half-left, center, half-right
	# ids_encoder = [0, steps, steps * 2]

	# # Combine all frames half-left, center, half-right for efficiency reasons
	# combine_ids = [(i, steps + i, steps * 2 + i) for i in range(steps)]

	# if self.training:
	# step_perm = torch.randperm(steps)
	# else:
	# step_perm = torch.arange(steps) ## eval
	# step_perm = step_perm.tolist()

	# ids_loss = sum(
	# [
	# [i + j * steps for j in range(num_views)]
	# for i in step_perm[:split]
	# ],
	# [],
	# )
	# ids_render = sum(
	# [
	# [i + j * steps for j in range(num_views)]
	# for i in step_perm[split:]
	# ],
	# [],
	# )

	# elif self.frame_sample_mode == "default":
	# ids_loss = frame_perm[
	# [i for i in range(v) if frame_perm[i] not in ids_render]
	# ]
	# else:
	# raise NotImplementedError

	# else: ## eval (!= self.training)
	# ids_loss = torch.arange(v)
	# ids_render = [0]

	# if self.frame_sample_mode.startswith("waymo"):
	# num_views = int(self.frame_sample_mode.split("-")[-1])
	# steps = v // num_views
	# split = steps // 2
	# # Predict features from half-left, center, half-right
	# ids_encoder = [0, steps, steps * 2]
	# ids_render = [0, steps, steps * 2]
	# combine_ids = [(i, steps + i, steps * 2 + i) for i in range(steps)]