Spaces:

roll-ai
/

RealCam-I2V

Runtime error

App Files Files Community

RealCam-I2V / finetune /demo /preview.py

roll-ai

Upload 333 files

e8bdafd verified 4 days ago

raw

history blame contribute delete

8.43 kB

	import sys
	import os
	import numpy as np
	import open3d as o3d
	import torch
	from mmengine import Config
	from pyvirtualdisplay import Display
	from tqdm import tqdm

	sys.path.append("Metric3D")


	def display_wrapper(func):
	def inner(args, *kwargs):
	with Display(visible=False, size=(1920, 1080)):
	return func(args, *kwargs)

	return inner


	def relative_pose(rt: np.ndarray, mode: str, ref_index: int = 0) -> np.ndarray:
	if mode == "left":
	rt = np.linalg.inv(rt[ref_index]) @ rt
	elif mode == "right":
	rt = rt @ np.linalg.inv(rt[ref_index])
	return rt


	def project_point_cloud(
	frame: np.ndarray,
	depth: np.ndarray,
	intrinsics: list[float],
	remove_outliers: bool = True,
	voxel_size: float = None,
	) -> o3d.geometry.PointCloud:
	from mono.utils.unproj_pcd import reconstruct_pcd

	points = reconstruct_pcd(depth, *intrinsics).reshape(-1, 3)
	colors = frame.reshape(-1, 3) / 255

	pcd = o3d.geometry.PointCloud()
	pcd.points = o3d.utility.Vector3dVector(points.astype(np.double))
	pcd.colors = o3d.utility.Vector3dVector(colors.astype(np.double))
	if remove_outliers:
	cl, ind = pcd.remove_statistical_outlier(nb_neighbors=12, std_ratio=3.0)
	pcd = pcd.select_by_index(ind)
	if voxel_size is not None:
	pcd = pcd.voxel_down_sample(voxel_size=0.5)

	return pcd


	def create_camera_frustum(
	frame: np.ndarray,
	intrinsic: o3d.camera.PinholeCameraIntrinsic,
	c2w: np.ndarray,
	frustum_scale: float = 0.5,
	):
	W, H = intrinsic.width, intrinsic.height
	fx, fy = intrinsic.get_focal_length()
	cx, cy = intrinsic.get_principal_point()
	z = frustum_scale
	x = (W - cx) * z / fx
	y = (H - cy) * z / fy

	points = [[0, 0, 0], [-x, -y, z], [x, -y, z], [x, y, z], [-x, y, z]]
	lines = [[0, 1], [0, 2], [0, 3], [0, 4], [1, 2], [2, 3], [3, 4], [4, 1]]
	line_set = o3d.geometry.LineSet(
	points=o3d.utility.Vector3dVector(points),
	lines=o3d.utility.Vector2iVector(lines),
	)
	line_set.paint_uniform_color([0.8, 0.2, 0.2])
	line_set.transform(c2w)

	vertices = [points[i] for i in [1, 2, 3, 4]]
	triangles = [[0, 1, 2], [0, 2, 3]]
	img_plane = o3d.geometry.TriangleMesh(
	vertices=o3d.utility.Vector3dVector(vertices),
	triangles=o3d.utility.Vector3iVector(triangles),
	)
	img_plane.triangle_uvs = o3d.utility.Vector2dVector(
	np.array([[0, 1], [1, 1], [1, 0], [0, 1], [1, 0], [0, 0]])
	)
	img_plane.transform(c2w)

	material = o3d.visualization.rendering.MaterialRecord()
	material.shader = "defaultUnlit"
	material.albedo_img = o3d.geometry.Image(frame)

	return line_set, img_plane, material


	class Previewer:
	def __init__(self, model_path: str = "pretrained/metric_depth_vit_large_800k.pth"):
	self.model_path = model_path
	self.depth_predictor = None

	def init_depth_predictor(self):
	from mono.model.monodepth_model import get_configured_monodepth_model
	from mono.utils.running import load_ckpt

	self.config = Config.fromfile(
	"Metric3D/mono/configs/HourglassDecoder/vit.raft5.large.py"
	)
	model = get_configured_monodepth_model(self.config)
	model = torch.nn.DataParallel(model).cuda().eval().requires_grad_(False)
	model, _, _, _ = load_ckpt(self.model_path, model, strict_match=False)
	self.depth_predictor = model

	def estimate_depths(
	self, frames: np.ndarray, intrinsics: list[float]
	) -> np.ndarray:
	"""
	:param frames: `np.ndarray` of shape (B, H, W, C) and range (0, 255)
	:param intrinsics: list of [fx, fy, cx, cy]
	:return depths: `np.ndarray` of shape (B, H, W) and range (0, 300)
	"""

	from mono.utils.do_test import transform_test_data_scalecano

	if self.depth_predictor is None:
	self.init_depth_predictor()

	B, H, W, C = frames.shape
	rgb_inputs, pads = [], []
	for frame in frames:
	rgb_input, _, pad, label_scale_factor = transform_test_data_scalecano(
	frame, intrinsics, self.config.data_basic
	)
	rgb_inputs.append(rgb_input)
	pads.append(pad)

	with torch.inference_mode(), torch.autocast("cuda"): # b c h w
	depths, _, _ = self.depth_predictor.module.inference(
	{"input": torch.stack(rgb_inputs).cuda(), "pad_info": pads}
	)

	_, _, h, w = depths.shape
	depths = depths[..., pad[0] : h - pad[1], pad[2] : w - pad[3]]
	depths = depths * self.config.data_basic.depth_range[-1] / label_scale_factor
	depths = torch.nn.functional.interpolate(depths, (H, W), mode="bilinear")

	return depths.clamp(0, 300).squeeze(1).cpu().numpy()

	@display_wrapper
	def render_previews(
	self,
	frame: np.ndarray,
	depth: np.ndarray,
	intrinsics: list[float],
	w2cs: np.ndarray,
	):
	"""
	:param frame: `np.ndarray` of shape (H, W, C) and range (0, 255)
	:param depth: `np.ndarray` of shape (H, W) and range (0, 300)
	:param intrinsics: list of [fx, fy, cx, cy]
	:param w2cs: `np.ndarray` of shape (4, 4)
	:return: previews: `np.ndarray of shape (B, H, W, C) and range (0, 255)`
	"""

	H, W, _ = frame.shape
	K = o3d.camera.PinholeCameraIntrinsic(W, H, *intrinsics)
	pcd = project_point_cloud(frame, depth, intrinsics)

	mat = o3d.visualization.rendering.MaterialRecord()
	mat.shader = "defaultUnlit"
	mat.point_size = 2

	renderer = o3d.visualization.rendering.OffscreenRenderer(W, H)
	renderer.scene.set_background(np.array([1.0, 1.0, 1.0, 1.0]))
	renderer.scene.view.set_post_processing(False)
	renderer.scene.clear_geometry()
	renderer.scene.add_geometry("point cloud", pcd, mat)

	previews = []
	for w2c in tqdm(relative_pose(w2cs, mode="left")):
	renderer.setup_camera(K, w2c)
	previews.append(renderer.render_to_image())

	return np.stack(previews)

	@display_wrapper
	def render_4d_scene(
	self,
	frames: np.ndarray,
	depths: np.ndarray,
	intrinsics: list[float],
	w2cs: np.ndarray,
	):
	"""
	:param frames: `np.ndarray` of shape (B, H, W, C) and range (0, 255)
	:param depths: `np.ndarray` of shape (B, H, W) and range (0, 300)
	:param intrinsics: list of [fx, fy, cx, cy]
	:param w2cs: `np.ndarray` of shape (4, 4)
	:return: renderings: `np.ndarray of shape (B, H, W, C) and range (0, 255)`
	"""

	F, H, W, _ = frames.shape
	K = o3d.camera.PinholeCameraIntrinsic(W, H, *intrinsics)

	renderer = o3d.visualization.rendering.OffscreenRenderer(W, H)
	renderer.scene.set_background(np.array([1.0, 1.0, 1.0, 1.0]))
	renderer.scene.view.set_post_processing(False)

	c2w_0 = np.linalg.inv(w2cs[0])
	eye_pos_world = (c2w_0 @ np.array([0.3, -0.5, -0.5, 1]))[:3]
	center_pos_world = (c2w_0 @ np.array([0, 0, 2, 1]))[:3]
	up_vector_world = np.array([0, -1, 0])
	renderer.scene.camera.look_at(center_pos_world, eye_pos_world, up_vector_world)

	point_material = o3d.visualization.rendering.MaterialRecord()
	point_material.shader = "defaultUnlit"
	point_material.point_size = 2

	line_material = o3d.visualization.rendering.MaterialRecord()
	line_material.shader = "unlitLine"
	line_material.line_width = 3

	renderings = []
	for frame, depth, w2c in tqdm(zip(frames, depths, w2cs), total=F):
	c2w = np.linalg.inv(w2c)
	pcd = project_point_cloud(frame, depth, intrinsics)
	pcd.transform(c2w)

	wire_frame, frustum, frustum_material = create_camera_frustum(frame, K, c2w)

	renderer.scene.clear_geometry()
	renderer.scene.add_geometry("point cloud", pcd, point_material)
	renderer.scene.add_geometry("wire frame", wire_frame, line_material)
	renderer.scene.add_geometry("frustum", frustum, frustum_material)

	renderings.append(renderer.render_to_image())

	return np.stack(renderings)

	if __name__ == "__main__":
	with Display(visible=False, size=(512, 320)):
	o3d.visualization.rendering.OffscreenRenderer(512, 320)