Spaces:

zerchen
/

HORT

Running on Zero

App Files Files Community

HORT / hort /models /tgs /data.py

zerchen

init test without models

717b269 4 months ago

raw

history blame

10.5 kB

	import json
	import math
	from dataclasses import dataclass, field

	import os
	import imageio
	import numpy as np
	import torch
	import torch.nn.functional as F
	from PIL import Image
	from torch.utils.data import Dataset

	from tgs.utils.config import parse_structured
	from tgs.utils.ops import get_intrinsic_from_fov, get_ray_directions, get_rays
	from tgs.utils.typing import *


	def _parse_scene_list_single(scene_list_path: str):
	if scene_list_path.endswith(".json"):
	with open(scene_list_path) as f:
	all_scenes = json.loads(f.read())
	elif scene_list_path.endswith(".txt"):
	with open(scene_list_path) as f:
	all_scenes = [p.strip() for p in f.readlines()]
	else:
	all_scenes = [scene_list_path]

	return all_scenes


	def _parse_scene_list(scene_list_path: Union[str, List[str]]):
	all_scenes = []
	if isinstance(scene_list_path, str):
	scene_list_path = [scene_list_path]
	for scene_list_path_ in scene_list_path:
	all_scenes += _parse_scene_list_single(scene_list_path_)
	return all_scenes

	@dataclass
	class CustomImageDataModuleConfig:
	image_list: Any = ""
	background_color: Tuple[float, float, float] = field(
	default_factory=lambda: (1.0, 1.0, 1.0)
	)

	relative_pose: bool = False
	cond_height: int = 512
	cond_width: int = 512
	cond_camera_distance: float = 1.6
	cond_fovy_deg: float = 40.0
	cond_elevation_deg: float = 0.0
	cond_azimuth_deg: float = 0.0
	num_workers: int = 16

	eval_height: int = 512
	eval_width: int = 512
	eval_batch_size: int = 1
	eval_elevation_deg: float = 0.0
	eval_camera_distance: float = 1.6
	eval_fovy_deg: float = 40.0
	n_test_views: int = 120
	num_views_output: int = 120
	only_3dgs: bool = False

	class CustomImageOrbitDataset(Dataset):
	def __init__(self, cfg: Any) -> None:
	super().__init__()
	self.cfg: CustomImageDataModuleConfig = parse_structured(CustomImageDataModuleConfig, cfg)

	self.n_views = self.cfg.n_test_views
	assert self.n_views % self.cfg.num_views_output == 0

	self.all_scenes = _parse_scene_list(self.cfg.image_list)

	azimuth_deg: Float[Tensor, "B"] = torch.linspace(0, 360.0, self.n_views + 1)[
	: self.n_views
	]
	elevation_deg: Float[Tensor, "B"] = torch.full_like(
	azimuth_deg, self.cfg.eval_elevation_deg
	)
	camera_distances: Float[Tensor, "B"] = torch.full_like(
	elevation_deg, self.cfg.eval_camera_distance
	)

	elevation = elevation_deg * math.pi / 180
	azimuth = azimuth_deg * math.pi / 180

	# convert spherical coordinates to cartesian coordinates
	# right hand coordinate system, x back, y right, z up
	# elevation in (-90, 90), azimuth from +x to +y in (-180, 180)
	camera_positions: Float[Tensor, "B 3"] = torch.stack(
	[
	camera_distances * torch.cos(elevation) * torch.cos(azimuth),
	camera_distances * torch.cos(elevation) * torch.sin(azimuth),
	camera_distances * torch.sin(elevation),
	],
	dim=-1,
	)

	# default scene center at origin
	center: Float[Tensor, "B 3"] = torch.zeros_like(camera_positions)
	# default camera up direction as +z
	up: Float[Tensor, "B 3"] = torch.as_tensor([0, 0, 1], dtype=torch.float32)[
	None, :
	].repeat(self.n_views, 1)

	fovy_deg: Float[Tensor, "B"] = torch.full_like(
	elevation_deg, self.cfg.eval_fovy_deg
	)
	fovy = fovy_deg * math.pi / 180

	lookat: Float[Tensor, "B 3"] = F.normalize(center - camera_positions, dim=-1)
	right: Float[Tensor, "B 3"] = F.normalize(torch.cross(lookat, up), dim=-1)
	up = F.normalize(torch.cross(right, lookat), dim=-1)
	c2w3x4: Float[Tensor, "B 3 4"] = torch.cat(
	[torch.stack([right, up, -lookat], dim=-1), camera_positions[:, :, None]],
	dim=-1,
	)
	c2w: Float[Tensor, "B 4 4"] = torch.cat(
	[c2w3x4, torch.zeros_like(c2w3x4[:, :1])], dim=1
	)
	c2w[:, 3, 3] = 1.0

	# get directions by dividing directions_unit_focal by focal length
	focal_length: Float[Tensor, "B"] = (
	0.5 * self.cfg.eval_height / torch.tan(0.5 * fovy)
	)
	directions_unit_focal = get_ray_directions(
	H=self.cfg.eval_height,
	W=self.cfg.eval_width,
	focal=1.0,
	)
	directions: Float[Tensor, "B H W 3"] = directions_unit_focal[
	None, :, :, :
	].repeat(self.n_views, 1, 1, 1)
	directions[:, :, :, :2] = (
	directions[:, :, :, :2] / focal_length[:, None, None, None]
	)
	# must use normalize=True to normalize directions here
	rays_o, rays_d = get_rays(directions, c2w, keepdim=True)

	intrinsic: Float[Tensor, "B 3 3"] = get_intrinsic_from_fov(
	self.cfg.eval_fovy_deg * math.pi / 180,
	H=self.cfg.eval_height,
	W=self.cfg.eval_width,
	bs=self.n_views,
	)
	intrinsic_normed: Float[Tensor, "B 3 3"] = intrinsic.clone()
	intrinsic_normed[..., 0, 2] /= self.cfg.eval_width
	intrinsic_normed[..., 1, 2] /= self.cfg.eval_height
	intrinsic_normed[..., 0, 0] /= self.cfg.eval_width
	intrinsic_normed[..., 1, 1] /= self.cfg.eval_height

	self.rays_o, self.rays_d = rays_o, rays_d
	self.intrinsic = intrinsic
	self.intrinsic_normed = intrinsic_normed
	self.c2w = c2w
	self.camera_positions = camera_positions

	self.background_color = torch.as_tensor(self.cfg.background_color)

	# condition
	self.intrinsic_cond = get_intrinsic_from_fov(
	np.deg2rad(self.cfg.cond_fovy_deg),
	H=self.cfg.cond_height,
	W=self.cfg.cond_width,
	)
	self.intrinsic_normed_cond = self.intrinsic_cond.clone()
	self.intrinsic_normed_cond[..., 0, 2] /= self.cfg.cond_width
	self.intrinsic_normed_cond[..., 1, 2] /= self.cfg.cond_height
	self.intrinsic_normed_cond[..., 0, 0] /= self.cfg.cond_width
	self.intrinsic_normed_cond[..., 1, 1] /= self.cfg.cond_height


	if self.cfg.relative_pose:
	self.c2w_cond = torch.as_tensor(
	[
	[0, 0, 1, self.cfg.cond_camera_distance],
	[1, 0, 0, 0],
	[0, 1, 0, 0],
	[0, 0, 0, 1],
	]
	).float()
	else:
	cond_elevation = self.cfg.cond_elevation_deg * math.pi / 180
	cond_azimuth = self.cfg.cond_azimuth_deg * math.pi / 180
	cond_camera_position: Float[Tensor, "3"] = torch.as_tensor(
	[
	self.cfg.cond_camera_distance * np.cos(cond_elevation) * np.cos(cond_azimuth),
	self.cfg.cond_camera_distance * np.cos(cond_elevation) * np.sin(cond_azimuth),
	self.cfg.cond_camera_distance * np.sin(cond_elevation),
	], dtype=torch.float32
	)

	cond_center: Float[Tensor, "3"] = torch.zeros_like(cond_camera_position)
	cond_up: Float[Tensor, "3"] = torch.as_tensor([0, 0, 1], dtype=torch.float32)
	cond_lookat: Float[Tensor, "3"] = F.normalize(cond_center - cond_camera_position, dim=-1)
	cond_right: Float[Tensor, "3"] = F.normalize(torch.cross(cond_lookat, cond_up), dim=-1)
	cond_up = F.normalize(torch.cross(cond_right, cond_lookat), dim=-1)
	cond_c2w3x4: Float[Tensor, "3 4"] = torch.cat(
	[torch.stack([cond_right, cond_up, -cond_lookat], dim=-1), cond_camera_position[:, None]],
	dim=-1,
	)
	cond_c2w: Float[Tensor, "4 4"] = torch.cat(
	[cond_c2w3x4, torch.zeros_like(cond_c2w3x4[:1])], dim=0
	)
	cond_c2w[3, 3] = 1.0
	self.c2w_cond = cond_c2w

	def __len__(self):
	if self.cfg.only_3dgs:
	return len(self.all_scenes)
	else:
	return len(self.all_scenes) * self.n_views // self.cfg.num_views_output

	def __getitem__(self, index):
	if self.cfg.only_3dgs:
	scene_index = index
	view_index = [0]
	else:
	scene_index = index * self.cfg.num_views_output // self.n_views
	view_start = index % (self.n_views // self.cfg.num_views_output)
	view_index = list(range(self.n_views))[view_start * self.cfg.num_views_output :
	(view_start + 1) * self.cfg.num_views_output]

	img_path = self.all_scenes[scene_index]
	img_cond = torch.from_numpy(
	np.asarray(
	Image.fromarray(imageio.v2.imread(img_path))
	.convert("RGBA")
	.resize((self.cfg.cond_width, self.cfg.cond_height))
	)
	/ 255.0
	).float()
	mask_cond: Float[Tensor, "Hc Wc 1"] = img_cond[:, :, -1:]
	rgb_cond: Float[Tensor, "Hc Wc 3"] = img_cond[
	:, :, :3
	] * mask_cond + self.background_color[None, None, :] * (1 - mask_cond)

	out = {
	"rgb_cond": rgb_cond.unsqueeze(0),
	"c2w_cond": self.c2w_cond.unsqueeze(0),
	"mask_cond": mask_cond.unsqueeze(0),
	"intrinsic_cond": self.intrinsic_cond.unsqueeze(0),
	"intrinsic_normed_cond": self.intrinsic_normed_cond.unsqueeze(0),
	"view_index": torch.as_tensor(view_index),
	"rays_o": self.rays_o[view_index],
	"rays_d": self.rays_d[view_index],
	"intrinsic": self.intrinsic[view_index],
	"intrinsic_normed": self.intrinsic_normed[view_index],
	"c2w": self.c2w[view_index],
	"camera_positions": self.camera_positions[view_index],
	}
	out["c2w"][..., :3, 1:3] *= -1
	out["c2w_cond"][..., :3, 1:3] *= -1
	instance_id = os.path.split(img_path)[-1].split('.')[0]
	out["index"] = torch.as_tensor(scene_index)
	out["background_color"] = self.background_color
	out["instance_id"] = instance_id
	return out

	def collate(self, batch):
	batch = torch.utils.data.default_collate(batch)
	batch.update({"height": self.cfg.eval_height, "width": self.cfg.eval_width})
	return batch