Spaces:

aharley
/

alltracker

Running on Zero

App Files Files Community

alltracker / nets /blocks.py

aharley

added basics

77a88de 13 days ago

raw

history blame

48.9 kB

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch import nn, Tensor
	from itertools import repeat
	import collections
	from typing import Any, Callable, Dict, List, NamedTuple, Optional, Sequence
	from functools import partial
	import einops
	import math
	from torchvision.ops.misc import Conv2dNormActivation, Permute
	from torchvision.ops.stochastic_depth import StochasticDepth

	def _ntuple(n):
	def parse(x):
	if isinstance(x, collections.abc.Iterable) and not isinstance(x, str):
	return tuple(x)
	return tuple(repeat(x, n))
	return parse

	def exists(val):
	return val is not None

	def default(val, d):
	return val if exists(val) else d

	to_2tuple = _ntuple(2)

	class InputPadder:
	""" Pads images such that dimensions are divisible by a certain stride """
	def __init__(self, dims, mode='sintel'):
	self.ht, self.wd = dims[-2:]
	pad_ht = (((self.ht // 64) + 1) * 64 - self.ht) % 64
	pad_wd = (((self.wd // 64) + 1) * 64 - self.wd) % 64
	if mode == 'sintel':
	self._pad = [pad_wd//2, pad_wd - pad_wd//2, pad_ht//2, pad_ht - pad_ht//2]
	else:
	self._pad = [pad_wd//2, pad_wd - pad_wd//2, 0, pad_ht]

	def pad(self, *inputs):
	return [F.pad(x, self._pad, mode='replicate') for x in inputs]

	def unpad(self, x):
	ht, wd = x.shape[-2:]
	c = [self._pad[2], ht-self._pad[3], self._pad[0], wd-self._pad[1]]
	return x[..., c[0]:c[1], c[2]:c[3]]

	def bilinear_sampler(
	input, coords,
	align_corners=True,
	padding_mode="border",
	normalize_coords=True):
	# func from mattie (oct9)
	if input.ndim not in [4, 5]:
	raise ValueError("input must be 4D or 5D.")

	if input.ndim == 4 and not coords.ndim == 4:
	raise ValueError("input is 4D, but coords is not 4D.")

	if input.ndim == 5 and not coords.ndim == 5:
	raise ValueError("input is 5D, but coords is not 5D.")

	if coords.ndim == 5:
	coords = coords[..., [1, 2, 0]] # t x y -> x y t to match what grid_sample() expects.

	if normalize_coords:
	if align_corners:
	# Normalize coordinates from [0, W/H - 1] to [-1, 1].
	coords = (
	coords
	* torch.tensor([2 / max(size - 1, 1) for size in reversed(input.shape[2:])], device=coords.device)
	- 1
	)
	else:
	# Normalize coordinates from [0, W/H] to [-1, 1].
	coords = coords * torch.tensor([2 / size for size in reversed(input.shape[2:])], device=coords.device) - 1

	return F.grid_sample(input, coords, align_corners=align_corners, padding_mode=padding_mode)


	class CorrBlock:
	def __init__(self, fmap1, fmap2, corr_levels, corr_radius):
	self.num_levels = corr_levels
	self.radius = corr_radius
	self.corr_pyramid = []
	# all pairs correlation
	for i in range(self.num_levels):
	corr = CorrBlock.corr(fmap1, fmap2, 1)
	batch, h1, w1, dim, h2, w2 = corr.shape
	corr = corr.reshape(batchh1w1, dim, h2, w2)
	fmap2 = F.interpolate(fmap2, scale_factor=0.5, mode='area')
	# print('corr', corr.shape)
	self.corr_pyramid.append(corr)

	def __call__(self, coords, dilation=None):
	r = self.radius
	coords = coords.permute(0, 2, 3, 1)
	batch, h1, w1, _ = coords.shape

	if dilation is None:
	dilation = torch.ones(batch, 1, h1, w1, device=coords.device)

	out_pyramid = []
	for i in range(self.num_levels):
	corr = self.corr_pyramid[i]
	device = coords.device
	dx = torch.linspace(-r, r, 2*r+1, device=device)
	dy = torch.linspace(-r, r, 2*r+1, device=device)
	delta = torch.stack(torch.meshgrid(dy, dx), axis=-1)
	delta_lvl = delta.view(1, 2r+1, 2r+1, 2)
	delta_lvl = delta_lvl * dilation.view(batch * h1 * w1, 1, 1, 1)
	centroid_lvl = coords.reshape(batchh1w1, 1, 1, 2) / 2**i
	coords_lvl = centroid_lvl + delta_lvl
	corr = bilinear_sampler(corr, coords_lvl)
	corr = corr.view(batch, h1, w1, -1)
	out_pyramid.append(corr)

	out = torch.cat(out_pyramid, dim=-1)
	out = out.permute(0, 3, 1, 2).contiguous().float()
	return out

	@staticmethod
	def corr(fmap1, fmap2, num_head):
	batch, dim, h1, w1 = fmap1.shape
	h2, w2 = fmap2.shape[2:]
	fmap1 = fmap1.view(batch, num_head, dim // num_head, h1*w1)
	fmap2 = fmap2.view(batch, num_head, dim // num_head, h2*w2)
	corr = fmap1.transpose(2, 3) @ fmap2
	corr = corr.reshape(batch, num_head, h1, w1, h2, w2).permute(0, 2, 3, 1, 4, 5)
	return corr / torch.sqrt(torch.tensor(dim).float())

	def conv1x1(in_planes, out_planes, stride=1):
	"""1x1 convolution without padding"""
	return nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride, padding=0)

	def conv3x3(in_planes, out_planes, stride=1):
	"""3x3 convolution with padding"""
	return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride, padding=1)

	class LayerNorm2d(nn.LayerNorm):
	def forward(self, x: Tensor) -> Tensor:
	x = x.permute(0, 2, 3, 1)
	x = F.layer_norm(x, self.normalized_shape, self.weight, self.bias, self.eps)
	x = x.permute(0, 3, 1, 2)
	return x

	class CNBlock1d(nn.Module):
	def __init__(
	self,
	dim,
	output_dim,
	layer_scale: float = 1e-6,
	stochastic_depth_prob: float = 0,
	norm_layer: Optional[Callable[..., nn.Module]] = None,
	dense=True,
	use_attn=True,
	use_mixer=False,
	use_conv=False,
	use_convb=False,
	use_layer_scale=True,
	) -> None:
	super().__init__()
	self.dense = dense
	self.use_attn = use_attn
	self.use_mixer = use_mixer
	self.use_conv = use_conv
	self.use_layer_scale = use_layer_scale

	if use_attn:
	assert not use_mixer
	assert not use_conv
	assert not use_convb

	if norm_layer is None:
	norm_layer = partial(nn.LayerNorm, eps=1e-6)

	if use_attn:
	num_heads = 8
	self.block = AttnBlock(
	hidden_size=dim,
	num_heads=num_heads,
	mlp_ratio=4,
	attn_class=Attention,
	)
	elif use_mixer:
	self.block = MLPMixerBlock(
	S=16,
	dim=dim,
	depth=1,
	expansion_factor=2,
	)
	elif use_conv:
	self.block = nn.Sequential(
	nn.Conv1d(dim, dim, kernel_size=7, padding=3, groups=dim, bias=True, padding_mode='zeros'),
	Permute([0, 2, 1]),
	norm_layer(dim),
	nn.Linear(in_features=dim, out_features=4 * dim, bias=True),
	nn.GELU(),
	nn.Linear(in_features=4 * dim, out_features=dim, bias=True),
	Permute([0, 2, 1]),
	)
	elif use_convb:
	self.block = nn.Sequential(
	nn.Conv1d(dim, dim, kernel_size=3, padding=1, bias=True, padding_mode='zeros'),
	Permute([0, 2, 1]),
	norm_layer(dim),
	nn.Linear(in_features=dim, out_features=4 * dim, bias=True),
	nn.GELU(),
	nn.Linear(in_features=4 * dim, out_features=dim, bias=True),
	Permute([0, 2, 1]),
	)
	else:
	assert(False) # choose attn, mixer, or conv please

	if self.use_layer_scale:
	self.layer_scale = nn.Parameter(torch.ones(dim, 1) * layer_scale)
	else:
	self.layer_scale = 1.0

	self.stochastic_depth = StochasticDepth(stochastic_depth_prob, "row")

	if output_dim != dim:
	self.final = nn.Conv1d(dim, output_dim, kernel_size=1, padding=0)
	else:
	self.final = nn.Identity()

	def forward(self, input, S=None):
	if self.dense:
	assert S is not None
	BS,C,H,W = input.shape
	B = BS//S

	input = einops.rearrange(input, '(b s) c h w -> (b h w) c s', b=B, s=S, c=C, h=H, w=W)

	if self.use_mixer or self.use_attn:
	# mixer/transformer blocks want B,S,C
	result = self.layer_scale * self.block(input.permute(0,2,1)).permute(0,2,1)
	else:
	result = self.layer_scale * self.block(input)
	result = self.stochastic_depth(result)
	result += input
	result = self.final(result)

	result = einops.rearrange(result, '(b h w) c s -> (b s) c h w', b=B, s=S, c=C, h=H, w=W)
	else:
	B,S,C = input.shape

	if S<7:
	return input

	input = einops.rearrange(input, 'b s c -> b c s', b=B, s=S, c=C)

	result = self.layer_scale * self.block(input)
	result = self.stochastic_depth(result)
	result += input

	result = self.final(result)

	result = einops.rearrange(result, 'b c s -> b s c', b=B, s=S, c=C)

	return result

	class CNBlock2d(nn.Module):
	def __init__(
	self,
	dim,
	output_dim,
	layer_scale: float = 1e-6,
	stochastic_depth_prob: float = 0,
	norm_layer: Optional[Callable[..., nn.Module]] = None,
	use_layer_scale=True,
	) -> None:
	super().__init__()
	self.use_layer_scale = use_layer_scale
	if norm_layer is None:
	norm_layer = partial(nn.LayerNorm, eps=1e-6)

	self.block = nn.Sequential(
	nn.Conv2d(dim, dim, kernel_size=7, padding=3, groups=dim, bias=True, padding_mode='zeros'),
	Permute([0, 2, 3, 1]),
	norm_layer(dim),
	nn.Linear(in_features=dim, out_features=4 * dim, bias=True),
	nn.GELU(),
	nn.Linear(in_features=4 * dim, out_features=dim, bias=True),
	Permute([0, 3, 1, 2]),
	)
	if self.use_layer_scale:
	self.layer_scale = nn.Parameter(torch.ones(dim, 1, 1) * layer_scale)
	else:
	self.layer_scale = 1.0
	self.stochastic_depth = StochasticDepth(stochastic_depth_prob, "row")

	if output_dim != dim:
	self.final = nn.Conv2d(dim, output_dim, kernel_size=1, padding=0)
	else:
	self.final = nn.Identity()

	def forward(self, input, S=None):
	result = self.layer_scale * self.block(input)
	result = self.stochastic_depth(result)
	result += input
	result = self.final(result)
	return result

	class CNBlockConfig:
	# Stores information listed at Section 3 of the ConvNeXt paper
	def __init__(
	self,
	input_channels: int,
	out_channels: Optional[int],
	num_layers: int,
	downsample: bool,
	) -> None:
	self.input_channels = input_channels
	self.out_channels = out_channels
	self.num_layers = num_layers
	self.downsample = downsample

	def __repr__(self) -> str:
	s = self.__class__.__name__ + "("
	s += "input_channels={input_channels}"
	s += ", out_channels={out_channels}"
	s += ", num_layers={num_layers}"
	s += ", downsample={downsample}"
	s += ")"
	return s.format(**self.__dict__)

	class ConvNeXt(nn.Module):
	def __init__(
	self,
	block_setting: List[CNBlockConfig],
	stochastic_depth_prob: float = 0.0,
	layer_scale: float = 1e-6,
	num_classes: int = 1000,
	block: Optional[Callable[..., nn.Module]] = None,
	norm_layer: Optional[Callable[..., nn.Module]] = None,
	init_weights=True):
	super().__init__()

	self.init_weights = init_weights

	if not block_setting:
	raise ValueError("The block_setting should not be empty")
	elif not (isinstance(block_setting, Sequence) and all([isinstance(s, CNBlockConfig) for s in block_setting])):
	raise TypeError("The block_setting should be List[CNBlockConfig]")

	if block is None:
	block = CNBlock2d

	if norm_layer is None:
	norm_layer = partial(LayerNorm2d, eps=1e-6)

	layers: List[nn.Module] = []

	# Stem
	firstconv_output_channels = block_setting[0].input_channels
	layers.append(
	Conv2dNormActivation(
	3,
	firstconv_output_channels,
	kernel_size=4,
	stride=4,
	padding=0,
	norm_layer=norm_layer,
	activation_layer=None,
	bias=True,
	)
	)

	total_stage_blocks = sum(cnf.num_layers for cnf in block_setting)
	stage_block_id = 0
	for cnf in block_setting:
	# Bottlenecks
	stage: List[nn.Module] = []
	for _ in range(cnf.num_layers):
	# adjust stochastic depth probability based on the depth of the stage block
	sd_prob = stochastic_depth_prob * stage_block_id / (total_stage_blocks - 1.0)
	stage.append(block(cnf.input_channels, cnf.input_channels, layer_scale, sd_prob))
	stage_block_id += 1
	layers.append(nn.Sequential(*stage))
	if cnf.out_channels is not None:
	if cnf.downsample:
	layers.append(
	nn.Sequential(
	norm_layer(cnf.input_channels),
	nn.Conv2d(cnf.input_channels, cnf.out_channels, kernel_size=2, stride=2),
	)
	)
	else:
	# we convert the 2x2 downsampling layer into a 3x3 with dilation2 and replicate padding.
	# replicate padding compensates for the fact that this kernel never saw zero-padding.
	layers.append(
	nn.Sequential(
	norm_layer(cnf.input_channels),
	nn.Conv2d(cnf.input_channels, cnf.out_channels, kernel_size=3, stride=1, padding=2, dilation=2, padding_mode='zeros'),
	)
	)

	self.features = nn.Sequential(*layers)

	# self.final_conv = conv1x1(block_setting[-1].input_channels, output_dim)

	for m in self.modules():
	if isinstance(m, (nn.Conv2d, nn.Linear)):
	nn.init.trunc_normal_(m.weight, std=0.02)
	if m.bias is not None:
	nn.init.zeros_(m.bias)

	if self.init_weights:
	from torchvision.models import convnext_tiny, ConvNeXt_Tiny_Weights
	pretrained_dict = convnext_tiny(weights=ConvNeXt_Tiny_Weights.DEFAULT).state_dict()
	# from torchvision.models import convnext_base, ConvNeXt_Base_Weights
	# pretrained_dict = convnext_base(weights=ConvNeXt_Base_Weights.DEFAULT).state_dict()
	model_dict = self.state_dict()
	pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}

	for k, v in pretrained_dict.items():
	if k == 'features.4.1.weight': # this is the layer normally in charge of 2x2 downsampling
	# convert to 3x3 filter
	pretrained_dict[k] = F.interpolate(v, (3, 3), mode='bicubic', align_corners=True) * (4/9.0)

	model_dict.update(pretrained_dict)
	self.load_state_dict(model_dict, strict=False)


	def _forward_impl(self, x: Tensor) -> Tensor:
	x = self.features(x)
	# x = self.final_conv(x)
	return x

	def forward(self, x: Tensor) -> Tensor:
	return self._forward_impl(x)

	class Mlp(nn.Module):
	"""MLP as used in Vision Transformer, MLP-Mixer and related networks"""

	def __init__(
	self,
	in_features,
	hidden_features=None,
	out_features=None,
	act_layer=nn.GELU,
	norm_layer=None,
	bias=True,
	drop=0.0,
	use_conv=False,
	):
	super().__init__()
	out_features = out_features or in_features
	hidden_features = hidden_features or in_features
	bias = to_2tuple(bias)
	drop_probs = to_2tuple(drop)
	linear_layer = partial(nn.Conv2d, kernel_size=1) if use_conv else nn.Linear

	self.fc1 = linear_layer(in_features, hidden_features, bias=bias[0])
	self.act = act_layer()
	self.drop1 = nn.Dropout(drop_probs[0])
	self.norm = (
	norm_layer(hidden_features) if norm_layer is not None else nn.Identity()
	)
	self.fc2 = linear_layer(hidden_features, out_features, bias=bias[1])
	self.drop2 = nn.Dropout(drop_probs[1])

	def forward(self, x):
	x = self.fc1(x)
	x = self.act(x)
	x = self.drop1(x)
	x = self.fc2(x)
	x = self.drop2(x)
	return x

	class Attention(nn.Module):
	def __init__(
	self, query_dim, context_dim=None, num_heads=8, dim_head=48, qkv_bias=False
	):
	super().__init__()
	inner_dim = dim_head * num_heads
	context_dim = default(context_dim, query_dim)
	self.scale = dim_head**-0.5
	self.heads = num_heads
	self.to_q = nn.Linear(query_dim, inner_dim, bias=qkv_bias)
	self.to_kv = nn.Linear(context_dim, inner_dim * 2, bias=qkv_bias)
	self.to_out = nn.Linear(inner_dim, query_dim)

	def forward(self, x, context=None, attn_bias=None):
	B, N1, C = x.shape
	H = self.heads
	q = self.to_q(x)
	context = default(context, x)
	k, v = self.to_kv(context).chunk(2, dim=-1)
	q, k, v = map(lambda t: einops.rearrange(t, 'b n (h d) -> b h n d', h=self.heads), (q, k, v))
	x = F.scaled_dot_product_attention(q, k, v) # scale default is already dim^-0.5
	x = einops.rearrange(x, 'b h n d -> b n (h d)')
	return self.to_out(x)

	class CrossAttnBlock(nn.Module):
	def __init__(
	self, hidden_size, context_dim, num_heads=1, mlp_ratio=4.0, **block_kwargs
	):
	super().__init__()
	self.norm1 = nn.LayerNorm(hidden_size, elementwise_affine=False, eps=1e-6)
	self.norm_context = nn.LayerNorm(hidden_size)
	self.cross_attn = Attention(
	hidden_size,
	context_dim=context_dim,
	num_heads=num_heads,
	qkv_bias=True,
	**block_kwargs
	)

	self.norm2 = nn.LayerNorm(hidden_size, elementwise_affine=False, eps=1e-6)
	mlp_hidden_dim = int(hidden_size * mlp_ratio)
	approx_gelu = lambda: nn.GELU(approximate="tanh")
	self.mlp = Mlp(
	in_features=hidden_size,
	hidden_features=mlp_hidden_dim,
	act_layer=approx_gelu,
	drop=0,
	)

	def forward(self, x, context, mask=None):
	attn_bias = None
	if mask is not None:
	if mask.shape[1] == x.shape[1]:
	mask = mask[:, None, :, None].expand(
	-1, self.cross_attn.heads, -1, context.shape[1]
	)
	else:
	mask = mask[:, None, None].expand(
	-1, self.cross_attn.heads, x.shape[1], -1
	)

	max_neg_value = -torch.finfo(x.dtype).max
	attn_bias = (~mask) * max_neg_value
	x = x + self.cross_attn(
	self.norm1(x), context=self.norm_context(context), attn_bias=attn_bias
	)
	x = x + self.mlp(self.norm2(x))
	return x

	class AttnBlock(nn.Module):
	def __init__(
	self,
	hidden_size,
	num_heads,
	attn_class: Callable[..., nn.Module] = Attention,
	mlp_ratio=4.0,
	**block_kwargs
	):
	super().__init__()
	self.norm1 = nn.LayerNorm(hidden_size, elementwise_affine=False, eps=1e-6)
	self.attn = attn_class(hidden_size, num_heads=num_heads, qkv_bias=True, dim_head=hidden_size//num_heads)
	self.norm2 = nn.LayerNorm(hidden_size, elementwise_affine=False, eps=1e-6)
	mlp_hidden_dim = int(hidden_size * mlp_ratio)
	approx_gelu = lambda: nn.GELU(approximate="tanh")
	self.mlp = Mlp(
	in_features=hidden_size,
	hidden_features=mlp_hidden_dim,
	act_layer=approx_gelu,
	drop=0,
	)

	def forward(self, x, mask=None):
	attn_bias = mask
	if mask is not None:
	mask = (
	(mask[:, None] * mask[:, :, None])
	.unsqueeze(1)
	.expand(-1, self.attn.num_heads, -1, -1)
	)
	max_neg_value = -torch.finfo(x.dtype).max
	attn_bias = (~mask) * max_neg_value

	x = x + self.attn(self.norm1(x), attn_bias=attn_bias)
	x = x + self.mlp(self.norm2(x))
	return x


	class ResidualBlock(nn.Module):
	def __init__(self, in_planes, planes, norm_fn="group", stride=1):
	super(ResidualBlock, self).__init__()

	self.conv1 = nn.Conv2d(
	in_planes,
	planes,
	kernel_size=3,
	padding=1,
	stride=stride,
	padding_mode="zeros",
	)
	self.conv2 = nn.Conv2d(
	planes, planes, kernel_size=3, padding=1, padding_mode="zeros"
	)
	self.relu = nn.ReLU(inplace=True)

	num_groups = planes // 8

	if norm_fn == "group":
	self.norm1 = nn.GroupNorm(num_groups=num_groups, num_channels=planes)
	self.norm2 = nn.GroupNorm(num_groups=num_groups, num_channels=planes)
	if not stride == 1:
	self.norm3 = nn.GroupNorm(num_groups=num_groups, num_channels=planes)

	elif norm_fn == "batch":
	self.norm1 = nn.BatchNorm2d(planes)
	self.norm2 = nn.BatchNorm2d(planes)
	if not stride == 1:
	self.norm3 = nn.BatchNorm2d(planes)

	elif norm_fn == "instance":
	self.norm1 = nn.InstanceNorm2d(planes)
	self.norm2 = nn.InstanceNorm2d(planes)
	if not stride == 1:
	self.norm3 = nn.InstanceNorm2d(planes)

	elif norm_fn == "none":
	self.norm1 = nn.Sequential()
	self.norm2 = nn.Sequential()
	if not stride == 1:
	self.norm3 = nn.Sequential()

	if stride == 1:
	self.downsample = None

	else:
	self.downsample = nn.Sequential(
	nn.Conv2d(in_planes, planes, kernel_size=1, stride=stride), self.norm3
	)

	def forward(self, x):
	y = x
	y = self.relu(self.norm1(self.conv1(y)))
	y = self.relu(self.norm2(self.conv2(y)))

	if self.downsample is not None:
	x = self.downsample(x)

	return self.relu(x + y)


	class BasicEncoder(nn.Module):
	def __init__(self, input_dim=3, output_dim=128, stride=4):
	super(BasicEncoder, self).__init__()
	self.stride = stride
	self.norm_fn = "instance"
	self.in_planes = output_dim // 2
	self.norm1 = nn.InstanceNorm2d(self.in_planes)
	self.norm2 = nn.InstanceNorm2d(output_dim * 2)

	self.conv1 = nn.Conv2d(
	input_dim,
	self.in_planes,
	kernel_size=7,
	stride=2,
	padding=3,
	padding_mode="zeros",
	)
	self.relu1 = nn.ReLU(inplace=True)
	self.layer1 = self._make_layer(output_dim // 2, stride=1)
	self.layer2 = self._make_layer(output_dim // 4 * 3, stride=2)
	self.layer3 = self._make_layer(output_dim, stride=2)
	self.layer4 = self._make_layer(output_dim, stride=2)

	self.conv2 = nn.Conv2d(
	output_dim * 3 + output_dim // 4,
	output_dim * 2,
	kernel_size=3,
	padding=1,
	padding_mode="zeros",
	)
	self.relu2 = nn.ReLU(inplace=True)
	self.conv3 = nn.Conv2d(output_dim * 2, output_dim, kernel_size=1)
	for m in self.modules():
	if isinstance(m, nn.Conv2d):
	nn.init.kaiming_normal_(m.weight, mode="fan_out", nonlinearity="relu")
	elif isinstance(m, (nn.InstanceNorm2d)):
	if m.weight is not None:
	nn.init.constant_(m.weight, 1)
	if m.bias is not None:
	nn.init.constant_(m.bias, 0)

	def _make_layer(self, dim, stride=1):
	layer1 = ResidualBlock(self.in_planes, dim, self.norm_fn, stride=stride)
	layer2 = ResidualBlock(dim, dim, self.norm_fn, stride=1)
	layers = (layer1, layer2)

	self.in_planes = dim
	return nn.Sequential(*layers)

	def forward(self, x):
	_, _, H, W = x.shape

	x = self.conv1(x)
	x = self.norm1(x)
	x = self.relu1(x)

	a = self.layer1(x)
	b = self.layer2(a)
	c = self.layer3(b)
	d = self.layer4(c)

	def _bilinear_intepolate(x):
	return F.interpolate(
	x,
	(H // self.stride, W // self.stride),
	mode="bilinear",
	align_corners=True,
	)

	a = _bilinear_intepolate(a)
	b = _bilinear_intepolate(b)
	c = _bilinear_intepolate(c)
	d = _bilinear_intepolate(d)

	x = self.conv2(torch.cat([a, b, c, d], dim=1))
	x = self.norm2(x)
	x = self.relu2(x)
	x = self.conv3(x)
	return x

	class EfficientUpdateFormer(nn.Module):
	"""
	Transformer model that updates track estimates.
	"""

	def __init__(
	self,
	space_depth=6,
	time_depth=6,
	input_dim=320,
	hidden_size=384,
	num_heads=8,
	output_dim=130,
	mlp_ratio=4.0,
	num_virtual_tracks=64,
	add_space_attn=True,
	linear_layer_for_vis_conf=False,
	use_time_conv=False,
	use_time_mixer=False,
	):
	super().__init__()
	self.out_channels = 2
	self.num_heads = num_heads
	self.hidden_size = hidden_size
	self.input_transform = torch.nn.Linear(input_dim, hidden_size, bias=True)
	if linear_layer_for_vis_conf:
	self.flow_head = torch.nn.Linear(hidden_size, output_dim - 2, bias=True)
	self.vis_conf_head = torch.nn.Linear(hidden_size, 2, bias=True)
	else:
	self.flow_head = torch.nn.Linear(hidden_size, output_dim, bias=True)
	self.num_virtual_tracks = num_virtual_tracks
	self.virual_tracks = nn.Parameter(
	torch.randn(1, num_virtual_tracks, 1, hidden_size)
	)
	self.add_space_attn = add_space_attn
	self.linear_layer_for_vis_conf = linear_layer_for_vis_conf

	if use_time_conv:
	self.time_blocks = nn.ModuleList(
	[
	CNBlock1d(hidden_size, hidden_size, dense=False)
	for _ in range(time_depth)
	]
	)
	elif use_time_mixer:
	self.time_blocks = nn.ModuleList(
	[
	MLPMixerBlock(
	S=16,
	dim=hidden_size,
	depth=1,
	)
	for _ in range(time_depth)
	]
	)
	else:
	self.time_blocks = nn.ModuleList(
	[
	AttnBlock(
	hidden_size,
	num_heads,
	mlp_ratio=mlp_ratio,
	attn_class=Attention,
	)
	for _ in range(time_depth)
	]
	)

	if add_space_attn:
	self.space_virtual_blocks = nn.ModuleList(
	[
	AttnBlock(
	hidden_size,
	num_heads,
	mlp_ratio=mlp_ratio,
	attn_class=Attention,
	)
	for _ in range(space_depth)
	]
	)
	self.space_point2virtual_blocks = nn.ModuleList(
	[
	CrossAttnBlock(
	hidden_size, hidden_size, num_heads, mlp_ratio=mlp_ratio
	)
	for _ in range(space_depth)
	]
	)
	self.space_virtual2point_blocks = nn.ModuleList(
	[
	CrossAttnBlock(
	hidden_size, hidden_size, num_heads, mlp_ratio=mlp_ratio
	)
	for _ in range(space_depth)
	]
	)
	assert len(self.time_blocks) >= len(self.space_virtual2point_blocks)
	self.initialize_weights()

	def initialize_weights(self):
	def _basic_init(module):
	if isinstance(module, nn.Linear):
	torch.nn.init.xavier_uniform_(module.weight)
	if module.bias is not None:
	nn.init.constant_(module.bias, 0)
	torch.nn.init.trunc_normal_(self.flow_head.weight, std=0.001)
	if self.linear_layer_for_vis_conf:
	torch.nn.init.trunc_normal_(self.vis_conf_head.weight, std=0.001)

	def _trunc_init(module):
	"""ViT weight initialization, original timm impl (for reproducibility)"""
	if isinstance(module, nn.Linear):
	torch.nn.init.trunc_normal_(module.weight, std=0.02)
	if module.bias is not None:
	nn.init.zeros_(module.bias)

	self.apply(_basic_init)

	def forward(self, input_tensor, mask=None, add_space_attn=True):
	tokens = self.input_transform(input_tensor)

	B, _, T, _ = tokens.shape
	virtual_tokens = self.virual_tracks.repeat(B, 1, T, 1)
	tokens = torch.cat([tokens, virtual_tokens], dim=1)

	_, N, _, _ = tokens.shape
	j = 0
	layers = []
	for i in range(len(self.time_blocks)):
	time_tokens = tokens.contiguous().view(B * N, T, -1) # B N T C -> (B N) T C
	time_tokens = self.time_blocks[i](time_tokens)

	tokens = time_tokens.view(B, N, T, -1) # (B N) T C -> B N T C
	if (
	add_space_attn
	and hasattr(self, "space_virtual_blocks")
	and (i % (len(self.time_blocks) // len(self.space_virtual_blocks)) == 0)
	):
	space_tokens = (
	tokens.permute(0, 2, 1, 3).contiguous().view(B * T, N, -1)
	) # B N T C -> (B T) N C

	point_tokens = space_tokens[:, : N - self.num_virtual_tracks]
	virtual_tokens = space_tokens[:, N - self.num_virtual_tracks :]

	virtual_tokens = self.space_virtual2point_blocks[j](
	virtual_tokens, point_tokens, mask=mask
	)

	virtual_tokens = self.space_virtual_blocks[j](virtual_tokens)
	point_tokens = self.space_point2virtual_blocks[j](
	point_tokens, virtual_tokens, mask=mask
	)

	space_tokens = torch.cat([point_tokens, virtual_tokens], dim=1)
	tokens = space_tokens.view(B, T, N, -1).permute(
	0, 2, 1, 3
	) # (B T) N C -> B N T C
	j += 1
	tokens = tokens[:, : N - self.num_virtual_tracks]

	flow = self.flow_head(tokens)
	if self.linear_layer_for_vis_conf:
	vis_conf = self.vis_conf_head(tokens)
	flow = torch.cat([flow, vis_conf], dim=-1)

	return flow


	class MMPreNormResidual(nn.Module):
	def __init__(self, dim, fn):
	super().__init__()
	self.fn = fn
	self.norm = nn.LayerNorm(dim)

	def forward(self, x):
	return self.fn(self.norm(x)) + x

	def MMFeedForward(dim, expansion_factor=4, dropout=0., dense=nn.Linear):
	return nn.Sequential(
	dense(dim, dim * expansion_factor),
	nn.GELU(),
	nn.Dropout(dropout),
	dense(dim * expansion_factor, dim),
	nn.Dropout(dropout)
	)

	def MLPMixer(S, input_dim, dim, output_dim, depth=6, expansion_factor=4, dropout=0., do_reduce=False):
	# input is coming in as B,S,C, as standard for mlp and transformer
	# chan_first treats S as the channel dim, and transforms it to a new S
	# chan_last treats C as the channel dim, and transforms it to a new C
	chan_first, chan_last = partial(nn.Conv1d, kernel_size=1), nn.Linear
	if do_reduce:
	return nn.Sequential(
	nn.Linear(input_dim, dim),
	*[nn.Sequential(
	MMPreNormResidual(dim, MMFeedForward(S, expansion_factor, dropout, chan_first)),
	MMPreNormResidual(dim, MMFeedForward(dim, expansion_factor, dropout, chan_last))
	) for _ in range(depth)],
	nn.LayerNorm(dim),
	Reduce('b n c -> b c', 'mean'),
	nn.Linear(dim, output_dim)
	)
	else:
	return nn.Sequential(
	nn.Linear(input_dim, dim),
	*[nn.Sequential(
	MMPreNormResidual(dim, MMFeedForward(S, expansion_factor, dropout, chan_first)),
	MMPreNormResidual(dim, MMFeedForward(dim, expansion_factor, dropout, chan_last))
	) for _ in range(depth)],
	)

	def MLPMixerBlock(S, dim, depth=1, expansion_factor=4, dropout=0., do_reduce=False):
	# input is coming in as B,S,C, as standard for mlp and transformer
	# chan_first treats S as the channel dim, and transforms it to a new S
	# chan_last treats C as the channel dim, and transforms it to a new C
	chan_first, chan_last = partial(nn.Conv1d, kernel_size=1), nn.Linear
	return nn.Sequential(
	*[nn.Sequential(
	MMPreNormResidual(dim, MMFeedForward(S, expansion_factor, dropout, chan_first)),
	MMPreNormResidual(dim, MMFeedForward(dim, expansion_factor, dropout, chan_last))
	) for _ in range(depth)],
	)


	class MlpUpdateFormer(nn.Module):
	"""
	Transformer model that updates track estimates.
	"""

	def __init__(
	self,
	space_depth=6,
	time_depth=6,
	input_dim=320,
	hidden_size=384,
	num_heads=8,
	output_dim=130,
	mlp_ratio=4.0,
	num_virtual_tracks=64,
	add_space_attn=True,
	linear_layer_for_vis_conf=False,
	):
	super().__init__()
	self.out_channels = 2
	self.num_heads = num_heads
	self.hidden_size = hidden_size
	self.input_transform = torch.nn.Linear(input_dim, hidden_size, bias=True)
	if linear_layer_for_vis_conf:
	self.flow_head = torch.nn.Linear(hidden_size, output_dim - 2, bias=True)
	self.vis_conf_head = torch.nn.Linear(hidden_size, 2, bias=True)
	else:
	self.flow_head = torch.nn.Linear(hidden_size, output_dim, bias=True)
	self.num_virtual_tracks = num_virtual_tracks
	self.virual_tracks = nn.Parameter(
	torch.randn(1, num_virtual_tracks, 1, hidden_size)
	)
	self.add_space_attn = add_space_attn
	self.linear_layer_for_vis_conf = linear_layer_for_vis_conf
	self.time_blocks = nn.ModuleList(
	[
	MLPMixer(
	S=16,
	input_dim=hidden_size,
	dim=hidden_size,
	output_dim=hidden_size,
	depth=1,
	)
	for _ in range(time_depth)
	]
	)

	if add_space_attn:
	self.space_virtual_blocks = nn.ModuleList(
	[
	AttnBlock(
	hidden_size,
	num_heads,
	mlp_ratio=mlp_ratio,
	attn_class=Attention,
	)
	for _ in range(space_depth)
	]
	)
	self.space_point2virtual_blocks = nn.ModuleList(
	[
	CrossAttnBlock(
	hidden_size, hidden_size, num_heads, mlp_ratio=mlp_ratio
	)
	for _ in range(space_depth)
	]
	)
	self.space_virtual2point_blocks = nn.ModuleList(
	[
	CrossAttnBlock(
	hidden_size, hidden_size, num_heads, mlp_ratio=mlp_ratio
	)
	for _ in range(space_depth)
	]
	)
	assert len(self.time_blocks) >= len(self.space_virtual2point_blocks)
	self.initialize_weights()

	def initialize_weights(self):
	def _basic_init(module):
	if isinstance(module, nn.Linear):
	torch.nn.init.xavier_uniform_(module.weight)
	if module.bias is not None:
	nn.init.constant_(module.bias, 0)
	torch.nn.init.trunc_normal_(self.flow_head.weight, std=0.001)
	if self.linear_layer_for_vis_conf:
	torch.nn.init.trunc_normal_(self.vis_conf_head.weight, std=0.001)

	def _trunc_init(module):
	"""ViT weight initialization, original timm impl (for reproducibility)"""
	if isinstance(module, nn.Linear):
	torch.nn.init.trunc_normal_(module.weight, std=0.02)
	if module.bias is not None:
	nn.init.zeros_(module.bias)

	self.apply(_basic_init)

	def forward(self, input_tensor, mask=None, add_space_attn=True):
	tokens = self.input_transform(input_tensor)

	B, _, T, _ = tokens.shape
	virtual_tokens = self.virual_tracks.repeat(B, 1, T, 1)
	tokens = torch.cat([tokens, virtual_tokens], dim=1)

	_, N, _, _ = tokens.shape
	j = 0
	layers = []
	for i in range(len(self.time_blocks)):
	time_tokens = tokens.contiguous().view(B * N, T, -1) # B N T C -> (B N) T C
	time_tokens = self.time_blocks[i](time_tokens)

	tokens = time_tokens.view(B, N, T, -1) # (B N) T C -> B N T C
	if (
	add_space_attn
	and hasattr(self, "space_virtual_blocks")
	and (i % (len(self.time_blocks) // len(self.space_virtual_blocks)) == 0)
	):
	space_tokens = (
	tokens.permute(0, 2, 1, 3).contiguous().view(B * T, N, -1)
	) # B N T C -> (B T) N C

	point_tokens = space_tokens[:, : N - self.num_virtual_tracks]
	virtual_tokens = space_tokens[:, N - self.num_virtual_tracks :]

	virtual_tokens = self.space_virtual2point_blocks[j](
	virtual_tokens, point_tokens, mask=mask
	)

	virtual_tokens = self.space_virtual_blocks[j](virtual_tokens)
	point_tokens = self.space_point2virtual_blocks[j](
	point_tokens, virtual_tokens, mask=mask
	)

	space_tokens = torch.cat([point_tokens, virtual_tokens], dim=1)
	tokens = space_tokens.view(B, T, N, -1).permute(
	0, 2, 1, 3
	) # (B T) N C -> B N T C
	j += 1
	tokens = tokens[:, : N - self.num_virtual_tracks]

	flow = self.flow_head(tokens)
	if self.linear_layer_for_vis_conf:
	vis_conf = self.vis_conf_head(tokens)
	flow = torch.cat([flow, vis_conf], dim=-1)

	return flow

	class BasicMotionEncoder(nn.Module):
	def __init__(self, corr_channel, dim=128, pdim=2):
	super(BasicMotionEncoder, self).__init__()
	self.pdim = pdim
	self.convc1 = nn.Conv2d(corr_channel, dim*4, 1, padding=0)
	self.convc2 = nn.Conv2d(dim*4, dim+dim//2, 3, padding=1)
	if pdim==2 or pdim==4:
	self.convf1 = nn.Conv2d(pdim, dim*2, 5, padding=2)
	self.convf2 = nn.Conv2d(dim*2, dim//2, 3, padding=1)
	self.conv = nn.Conv2d(dim*2, dim-pdim, 3, padding=1)
	else:
	self.conv = nn.Conv2d(dim+dim//2+pdim, dim, 3, padding=1)

	def forward(self, flow, corr):
	cor = F.relu(self.convc1(corr))
	cor = F.relu(self.convc2(cor))
	if self.pdim==2 or self.pdim==4:
	flo = F.relu(self.convf1(flow))
	flo = F.relu(self.convf2(flo))
	cor_flo = torch.cat([cor, flo], dim=1)
	out = F.relu(self.conv(cor_flo))
	return torch.cat([out, flow], dim=1)
	else:
	# the flow is already encoded to something nice
	cor_flo = torch.cat([cor, flow], dim=1)
	return F.relu(self.conv(cor_flo))
	# return torch.cat([out, flow], dim=1)

	def conv133_encoder(input_dim, dim, expansion_factor=4):
	return nn.Sequential(
	nn.Conv2d(input_dim, dim*expansion_factor, kernel_size=1),
	nn.GELU(),
	nn.Conv2d(dimexpansion_factor, dimexpansion_factor, kernel_size=3, padding=1),
	nn.GELU(),
	nn.Conv2d(dim*expansion_factor, dim, kernel_size=3, padding=1),
	)

	class BasicUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, hdim=128, cdim=128):
	# flowfeat is hdim; ctxfeat is dim. typically hdim==cdim.
	super(BasicUpdateBlock, self).__init__()
	self.encoder = BasicMotionEncoder(corr_channel, dim=cdim)
	self.compressor = conv1x1(2*cdim+hdim, hdim)

	self.refine = []
	for i in range(num_blocks):
	self.refine.append(CNBlock1d(hdim, hdim))
	self.refine.append(CNBlock2d(hdim, hdim))
	self.refine = nn.ModuleList(self.refine)

	def forward(self, flowfeat, ctxfeat, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S

	# with torch.no_grad():
	motion_features = self.encoder(flow, corr)
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, motion_features], dim=1))

	for blk in self.refine:
	flowfeat = blk(flowfeat, S)
	return flowfeat

	class FullUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, hdim=128, cdim=128, pdim=2, use_attn=False):
	# flowfeat is hdim; ctxfeat is dim. typically hdim==cdim.
	super(FullUpdateBlock, self).__init__()
	self.encoder = BasicMotionEncoder(corr_channel, dim=cdim, pdim=pdim)

	# note we have hdim==cdim
	# compressor chans:
	# dim for flowfeat
	# dim for ctxfeat
	# dim for motion_features
	# pdim for flow (if p 2, like if we give sincos(relflow))
	# 2 for visconf

	if pdim==2:
	# hdim==cdim
	# dim for flowfeat
	# dim for ctxfeat
	# dim for motion_features
	# 2 for visconf
	self.compressor = conv1x1(2*cdim+hdim+2, hdim)
	else:
	# we concatenate the flow info again, to not lose it (e.g., from the relu)
	self.compressor = conv1x1(2*cdim+hdim+2+pdim, hdim)

	self.refine = []
	for i in range(num_blocks):
	self.refine.append(CNBlock1d(hdim, hdim, use_attn=use_attn))
	self.refine.append(CNBlock2d(hdim, hdim))
	self.refine = nn.ModuleList(self.refine)

	def forward(self, flowfeat, ctxfeat, visconf, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S
	motion_features = self.encoder(flow, corr)
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, motion_features, visconf], dim=1))
	for blk in self.refine:
	flowfeat = blk(flowfeat, S)
	return flowfeat

	class MixerUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, hdim=128, cdim=128):
	# flowfeat is hdim; ctxfeat is dim. typically hdim==cdim.
	super(MixerUpdateBlock, self).__init__()
	self.encoder = BasicMotionEncoder(corr_channel, dim=cdim)
	self.compressor = conv1x1(2*cdim+hdim, hdim)

	self.refine = []
	for i in range(num_blocks):
	self.refine.append(CNBlock1d(hdim, hdim, use_mixer=True))
	self.refine.append(CNBlock2d(hdim, hdim))
	self.refine = nn.ModuleList(self.refine)

	def forward(self, flowfeat, ctxfeat, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S

	# with torch.no_grad():
	motion_features = self.encoder(flow, corr)
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, motion_features], dim=1))

	for ii, blk in enumerate(self.refine):
	flowfeat = blk(flowfeat, S)
	return flowfeat

	class FacUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, hdim=128, cdim=128, pdim=84, use_attn=False):
	super(FacUpdateBlock, self).__init__()
	self.corr_encoder = conv133_encoder(corr_channel, cdim)
	# note we have hdim==cdim
	# compressor chans:
	# dim for flowfeat
	# dim for ctxfeat
	# dim for corr
	# pdim for flow
	# 2 for visconf
	self.compressor = conv1x1(2*cdim+hdim+2+pdim, hdim)
	self.refine = []
	for i in range(num_blocks):
	self.refine.append(CNBlock1d(hdim, hdim, use_attn=use_attn))
	self.refine.append(CNBlock2d(hdim, hdim))
	self.refine = nn.ModuleList(self.refine)

	def forward(self, flowfeat, ctxfeat, visconf, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S
	corr = self.corr_encoder(corr)
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, corr, visconf, flow], dim=1))
	for blk in self.refine:
	flowfeat = blk(flowfeat, S)
	return flowfeat

	class CleanUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, cdim=128, hdim=256, pdim=84, use_attn=False, use_layer_scale=True):
	super(CleanUpdateBlock, self).__init__()
	self.corr_encoder = conv133_encoder(corr_channel, cdim)
	# compressor chans:
	# cdim for flowfeat
	# cdim for ctxfeat
	# cdim for corrfeat
	# pdim for flow
	# 2 for visconf
	self.compressor = conv1x1(3*cdim+pdim+2, hdim)
	self.refine = []
	for i in range(num_blocks):
	self.refine.append(CNBlock1d(hdim, hdim, use_attn=use_attn, use_layer_scale=use_layer_scale))
	self.refine.append(CNBlock2d(hdim, hdim, use_layer_scale=use_layer_scale))
	self.refine = nn.ModuleList(self.refine)
	self.final_conv = conv1x1(hdim, cdim)

	def forward(self, flowfeat, ctxfeat, visconf, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S
	corrfeat = self.corr_encoder(corr)
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, corrfeat, flow, visconf], dim=1))
	for blk in self.refine:
	flowfeat = blk(flowfeat, S)
	flowfeat = self.final_conv(flowfeat)
	return flowfeat

	class RelUpdateBlock(nn.Module):
	def __init__(self, corr_channel, num_blocks, cdim=128, hdim=128, pdim=4, use_attn=True, use_mixer=False, use_conv=False, use_convb=False, use_layer_scale=True, no_time=False, no_space=False, no_ctx=False):
	super(RelUpdateBlock, self).__init__()
	self.motion_encoder = BasicMotionEncoder(corr_channel, dim=hdim, pdim=pdim) # B,hdim,H,W
	self.no_ctx = no_ctx
	if no_ctx:
	self.compressor = conv1x1(cdim+hdim+2, hdim)
	else:
	self.compressor = conv1x1(2*cdim+hdim+2, hdim)
	self.refine = []
	for i in range(num_blocks):
	if not no_time:
	self.refine.append(CNBlock1d(hdim, hdim, use_attn=use_attn, use_mixer=use_mixer, use_conv=use_conv, use_convb=use_convb, use_layer_scale=use_layer_scale))
	if not no_space:
	self.refine.append(CNBlock2d(hdim, hdim, use_layer_scale=use_layer_scale))
	self.refine = nn.ModuleList(self.refine)
	self.final_conv = conv1x1(hdim, cdim)

	def forward(self, flowfeat, ctxfeat, visconf, corr, flow, S, upsample=True):
	BS,C,H,W = flowfeat.shape
	B = BS//S
	motion_features = self.motion_encoder(flow, corr)
	if self.no_ctx:
	flowfeat = self.compressor(torch.cat([flowfeat, motion_features, visconf], dim=1))
	else:
	flowfeat = self.compressor(torch.cat([flowfeat, ctxfeat, motion_features, visconf], dim=1))
	for blk in self.refine:
	flowfeat = blk(flowfeat, S)
	flowfeat = self.final_conv(flowfeat)
	return flowfeat