Spaces:

seawolf2357
/

LangScene-X

Running

App Files Files Community

LangScene-X / field_construction /scene /dataset_readers.py

seawolf2357

Upload folder using huggingface_hub

684943d verified about 1 month ago

raw

history blame contribute delete

16.7 kB

	#
	# Copyright (C) 2023, Inria
	# GRAPHDECO research group, https://team.inria.fr/graphdeco
	# All rights reserved.
	#
	# This software is free for non-commercial, research and evaluation use
	# under the terms of the LICENSE.md file.
	#
	# For inquiries contact [email protected]
	#

	import json
	import os
	import sys
	from pathlib import Path
	from typing import NamedTuple

	import numpy as np
	import open3d as o3d
	from PIL import Image
	from plyfile import PlyData, PlyElement
	from scipy.spatial.transform import Rotation as R

	from field_construction.scene.colmap_loader import (Camera, Image, qvec2rotmat,
	read_extrinsics_binary,
	read_extrinsics_text,
	read_intrinsics_binary,
	read_intrinsics_text,
	read_points3D_binary,
	read_points3D_text)
	from field_construction.scene.gaussian_model import BasicPointCloud
	from field_construction.utils.graphics_utils import (focal2fov, fov2focal,
	getWorld2View2)
	from field_construction.utils.sh_utils import SH2RGB


	class CameraInfo(NamedTuple):
	uid: int
	global_id: int
	R: np.array
	T: np.array
	FovY: np.array
	FovX: np.array
	image_path: str
	image_name: str
	width: int
	height: int
	fx: float
	fy: float

	class SceneInfo(NamedTuple):
	point_cloud: BasicPointCloud
	train_cameras: list
	test_cameras: list
	nerf_normalization: dict
	ply_path: str

	def getNerfppNorm(cam_info):
	def get_center_and_diag(cam_centers):
	cam_centers = np.hstack(cam_centers)
	avg_cam_center = np.mean(cam_centers, axis=1, keepdims=True)
	center = avg_cam_center
	dist = np.linalg.norm(cam_centers - center, axis=0, keepdims=True)
	diagonal = np.max(dist)
	return center.flatten(), diagonal

	cam_centers = []

	for cam in cam_info:
	W2C = getWorld2View2(cam.R, cam.T)
	C2W = np.linalg.inv(W2C)
	cam_centers.append(C2W[:3, 3:4])

	center, diagonal = get_center_and_diag(cam_centers)
	radius = diagonal * 1.1

	translate = -center

	return {"translate": translate, "radius": radius}

	def load_poses(pose_path, num):
	poses = []
	with open(pose_path, "r") as f:
	lines = f.readlines()
	for i in range(num):
	line = lines[i]
	c2w = np.array(list(map(float, line.split()))).reshape(4, 4)
	c2w[:3,3] = c2w[:3,3] * 10.0
	w2c = np.linalg.inv(c2w)
	w2c = w2c
	poses.append(w2c)
	poses = np.stack(poses, axis=0)
	return poses

	def readColmapCameras(cam_extrinsics, cam_intrinsics, images_folder):
	cam_infos = []
	for idx, key in enumerate(cam_extrinsics):
	sys.stdout.write('\r')
	# the exact output you're looking for:
	sys.stdout.write("Reading camera {}/{}".format(idx+1, len(cam_extrinsics)))
	sys.stdout.flush()

	extr = cam_extrinsics[key]
	intr = cam_intrinsics[extr.camera_id]
	height = intr.height
	width = intr.width

	uid = intr.id
	R = np.transpose(qvec2rotmat(extr.qvec))
	T = np.array(extr.tvec)

	if intr.model=="SIMPLE_PINHOLE":
	focal_length_x = intr.params[0]
	FovY = focal2fov(focal_length_x, height)
	FovX = focal2fov(focal_length_x, width)
	elif intr.model=="PINHOLE":
	focal_length_x = intr.params[0]
	focal_length_y = intr.params[1]
	FovY = focal2fov(focal_length_y, height)
	FovX = focal2fov(focal_length_x, width)
	else:
	assert False, "Colmap camera model not handled: only undistorted datasets (PINHOLE or SIMPLE_PINHOLE cameras) supported!"

	image_path = os.path.join(images_folder, os.path.basename(extr.name))
	image_name = os.path.basename(image_path).split(".")[0]

	cam_info = CameraInfo(uid=uid, global_id=idx, R=R, T=T, FovY=FovY, FovX=FovX,
	image_path=image_path, image_name=image_name,
	width=width, height=height, fx=focal_length_x, fy=focal_length_y)
	cam_infos.append(cam_info)
	sys.stdout.write('\n')
	return cam_infos

	def fetchPly_o3d(path):
	pcd = o3d.io.read_point_cloud(path)
	positions = np.asarray(pcd.points)
	colors = np.asarray(pcd.colors)
	normals = np.zeros_like(positions)
	return BasicPointCloud(points=positions, colors=colors, normals=normals)

	def fetchPly(path):
	plydata = PlyData.read(path)
	vertices = plydata['vertex']
	positions = np.vstack([vertices['x'], vertices['y'], vertices['z']]).T
	colors = np.vstack([vertices['red'], vertices['green'], vertices['blue']]).T / 255.0
	normals = np.vstack([vertices['nx'], vertices['ny'], vertices['nz']]).T
	return BasicPointCloud(points=positions, colors=colors, normals=normals)

	def storePly(path, xyz, rgb):
	# Define the dtype for the structured array
	dtype = [('x', 'f4'), ('y', 'f4'), ('z', 'f4'),
	('nx', 'f4'), ('ny', 'f4'), ('nz', 'f4'),
	('red', 'u1'), ('green', 'u1'), ('blue', 'u1')]

	normals = np.zeros_like(xyz)

	elements = np.empty(xyz.shape[0], dtype=dtype)
	attributes = np.concatenate((xyz, normals, rgb), axis=1)
	elements[:] = list(map(tuple, attributes))

	# Create the PlyData object and write to file
	vertex_element = PlyElement.describe(elements, 'vertex')
	ply_data = PlyData([vertex_element])
	ply_data.write(path)

	def readColmapSceneInfo(path, images, eval, llffhold=10, loaded_iter=None):
	try:
	cameras_extrinsic_file = os.path.join(path, "sparse/0", "images.txt")
	cameras_intrinsic_file = os.path.join(path, "sparse/0", "cameras.txt")
	cam_extrinsics = read_extrinsics_text(cameras_extrinsic_file)
	cam_intrinsics = read_intrinsics_text(cameras_intrinsic_file)
	except:
	cameras_extrinsic_file = os.path.join(path, "sparse/0", "images.bin")
	cameras_intrinsic_file = os.path.join(path, "sparse/0", "cameras.bin")
	cam_extrinsics = read_extrinsics_binary(cameras_extrinsic_file)
	cam_intrinsics = read_intrinsics_binary(cameras_intrinsic_file)

	reading_dir = "input" if images == None else images
	cam_infos_unsorted = readColmapCameras(cam_extrinsics=cam_extrinsics, cam_intrinsics=cam_intrinsics, images_folder=os.path.join(path, reading_dir))
	# cam_infos = sorted(cam_infos_unsorted.copy(), key = lambda x : int(x.image_name.split('_')[-1]))
	cam_infos = sorted(cam_infos_unsorted.copy(), key = lambda x : x.image_name)

	js_file = f"{path}/split.json"
	train_list = None
	test_list = None
	if os.path.exists(js_file):
	with open(js_file) as file:
	meta = json.load(file)
	train_list = meta["train"]
	test_list = meta["test"]
	print(f"train_list {len(train_list)}, test_list {len(test_list)}")

	if train_list is not None:
	train_cam_infos = [c for idx, c in enumerate(cam_infos) if c.image_name in train_list]
	test_cam_infos = [c for idx, c in enumerate(cam_infos) if c.image_name in test_list]
	print(f"train_cam_infos {len(train_cam_infos)}, test_cam_infos {len(test_cam_infos)}")
	elif eval:
	train_cam_infos = [c for idx, c in enumerate(cam_infos) if idx % llffhold != 0]
	test_cam_infos = [c for idx, c in enumerate(cam_infos) if idx % llffhold == 0]
	print("train_cam_infos: ", len(train_cam_infos))
	print("test_cam_infos: ", len(test_cam_infos))
	else:
	train_cam_infos = cam_infos
	test_cam_infos = []
	print("only train_cam_infos: ", len(train_cam_infos))
	nerf_normalization = getNerfppNorm(train_cam_infos)

	ply_path = os.path.join(path, "sparse/0/points3D.ply")
	bin_path = os.path.join(path, "sparse/0/points3D.bin")
	txt_path = os.path.join(path, "sparse/0/points3D.txt")
	if not loaded_iter:
	if not os.path.exists(ply_path):
	print("Converting point3d.bin to .ply, will happen only the first time you open the scene.")
	try:
	xyz, rgb, _ = read_points3D_binary(bin_path)
	print(f"xyz {xyz.shape}")
	except:
	xyz, rgb, _ = read_points3D_text(txt_path)
	storePly(ply_path, xyz, rgb)
	try:
	pcd = fetchPly(ply_path)
	except:
	pcd = None
	else:
	pcd = None

	scene_info = SceneInfo(point_cloud=pcd,
	train_cameras=train_cam_infos,
	test_cameras=test_cam_infos,
	nerf_normalization=nerf_normalization,
	ply_path=ply_path)
	return scene_info

	def read_camera_npz(camera_dir):
	images = {}
	cameras = {}
	for file_name in sorted(os.listdir(camera_dir)):
	if not file_name.endswith(".npz"):
	continue

	file_path = os.path.join(camera_dir, file_name)
	data = np.load(file_path)
	pose = data["pose"]
	intrinsics = data["intrinsics"]

	R_c2w = pose[:3, :3]
	t_c2w = pose[:3, 3]
	R_w2c = R_c2w.T
	t_w2c = - R_w2c @ t_c2w

	rotation = R.from_matrix(R_w2c)
	quat = rotation.as_quat()
	qvec = np.array([quat[3], quat[0], quat[1], quat[2]])
	tvec = t_w2c

	fx = intrinsics[0, 0]
	fy = intrinsics[1, 1]
	cx = intrinsics[0, 2]
	cy = intrinsics[1, 2]

	model_name = 'PINHOLE'
	params = np.array([fx, fy, cx, cy], dtype=np.float64)

	width = int(cx * 2)
	height = int(cy * 2)

	try:
	image_id = int(os.path.splitext(file_name)[0])
	except:
	image_id = int(os.path.splitext(file_name.split("_")[1])[0])

	camera_id = image_id

	cameras[camera_id] = Camera(
	id=camera_id,
	model=model_name,
	width=width,
	height=height,
	params=params
	)

	image_name = os.path.splitext(file_name)[0] + ".png"
	images[image_id] = Image(
	id=image_id,
	qvec=qvec,
	tvec=tvec,
	camera_id=camera_id,
	name=image_name,
	xys=np.zeros((0, 2)),
	point3D_ids=np.zeros(0, dtype=int)
	)

	return images, cameras


	def readCUT3RInfo(path, images, eval, llffhold=10, loaded_iter=None):
	cameras_file = os.path.join(path, "camera")
	extrinsics, intrinsics = read_camera_npz(cameras_file)
	reading_dir = "input"
	cam_infos_unsorted = readColmapCameras(cam_extrinsics=extrinsics, cam_intrinsics=intrinsics, images_folder=os.path.join(path, reading_dir))
	# cam_infos = sorted(cam_infos_unsorted.copy(), key = lambda x : int(x.image_name.split('_')[-1]))
	cam_infos = sorted(cam_infos_unsorted.copy(), key = lambda x : x.image_name)

	js_file = f"{path}/split.json"
	train_list = None
	test_list = None
	if os.path.exists(js_file):
	with open(js_file) as file:
	meta = json.load(file)
	train_list = meta["train"]
	test_list = meta["test"]
	print(f"train_list {len(train_list)}, test_list {len(test_list)}")

	if train_list is not None:
	train_cam_infos = [c for idx, c in enumerate(cam_infos) if c.image_name in train_list]
	test_cam_infos = [c for idx, c in enumerate(cam_infos) if c.image_name in test_list]
	print(f"train_cam_infos {len(train_cam_infos)}, test_cam_infos {len(test_cam_infos)}")
	elif eval:
	train_cam_infos = [c for idx, c in enumerate(cam_infos) if idx % llffhold != 0]
	test_cam_infos = [c for idx, c in enumerate(cam_infos) if idx % llffhold == 0]
	print("train_cam_infos: ", len(train_cam_infos))
	print("test_cam_infos: ", len(test_cam_infos))
	else:
	train_cam_infos = cam_infos
	test_cam_infos = []
	print("only train_cam_infos: ", len(train_cam_infos))
	nerf_normalization = getNerfppNorm(train_cam_infos)

	ply_path = os.path.join(path, "points3D.ply")
	bin_path = os.path.join(path, "points3D.bin")
	txt_path = os.path.join(path, "points3D.txt")
	if not loaded_iter:
	if not os.path.exists(ply_path):
	print("Converting point3d.bin to .ply, will happen only the first time you open the scene.")
	try:
	xyz, rgb, _ = read_points3D_binary(bin_path)
	print(f"xyz {xyz.shape}")
	except:
	xyz, rgb, _ = read_points3D_text(txt_path)
	storePly(ply_path, xyz, rgb)
	try:
	pcd = fetchPly_o3d(ply_path)
	except:
	pcd = None
	else:
	pcd = None

	scene_info = SceneInfo(point_cloud=pcd,
	train_cameras=train_cam_infos,
	test_cameras=test_cam_infos,
	nerf_normalization=nerf_normalization,
	ply_path=ply_path)
	return scene_info



	def readCamerasFromTransforms(path, transformsfile, white_background, extension=".png"):
	cam_infos = []

	with open(os.path.join(path, transformsfile)) as json_file:
	contents = json.load(json_file)
	fovx = contents["camera_angle_x"]

	frames = contents["frames"]
	for idx, frame in enumerate(frames):
	cam_name = os.path.join(path, frame["file_path"] + extension)

	# NeRF 'transform_matrix' is a camera-to-world transform
	c2w = np.array(frame["transform_matrix"])
	# change from OpenGL/Blender camera axes (Y up, Z back) to COLMAP (Y down, Z forward)
	c2w[:3, 1:3] *= -1

	# get the world-to-camera transform and set R, T
	w2c = np.linalg.inv(c2w)
	R = np.transpose(w2c[:3,:3]) # R is stored transposed due to 'glm' in CUDA code
	T = w2c[:3, 3]

	image_path = os.path.join(path, cam_name)
	image_name = Path(cam_name).stem
	image = Image.open(image_path)

	im_data = np.array(image.convert("RGBA"))

	bg = np.array([1,1,1]) if white_background else np.array([0, 0, 0])

	norm_data = im_data / 255.0
	arr = norm_data[:,:,:3] * norm_data[:, :, 3:4] + bg * (1 - norm_data[:, :, 3:4])
	image = Image.fromarray(np.array(arr*255.0, dtype=np.byte), "RGB")

	fovy = focal2fov(fov2focal(fovx, image.size[0]), image.size[1])
	FovY = fovy
	FovX = fovx

	cam_infos.append(CameraInfo(uid=idx, global_id=idx, R=R, T=T, FovY=FovY, FovX=FovX, image=image,
	image_path=image_path, image_name=image_name, width=image.size[0], height=image.size[1]))

	return cam_infos

	def readNerfSyntheticInfo(path, white_background, eval, extension=".png"):
	print("Reading Training Transforms")
	train_cam_infos = readCamerasFromTransforms(path, "transforms_train.json", white_background, extension)
	print("Reading Test Transforms")
	test_cam_infos = readCamerasFromTransforms(path, "transforms_test.json", white_background, extension)
	if not eval:
	train_cam_infos.extend(test_cam_infos)
	test_cam_infos = []

	nerf_normalization = getNerfppNorm(train_cam_infos)

	ply_path = os.path.join(path, "points3d.ply")
	if not os.path.exists(ply_path):
	# Since this data set has no colmap data, we start with random points
	num_pts = 100_000
	print(f"Generating random point cloud ({num_pts})...")

	# We create random points inside the bounds of the synthetic Blender scenes
	xyz = np.random.random((num_pts, 3)) * 2.6 - 1.3
	shs = np.random.random((num_pts, 3)) / 255.0
	pcd = BasicPointCloud(points=xyz, colors=SH2RGB(shs), normals=np.zeros((num_pts, 3)))

	storePly(ply_path, xyz, SH2RGB(shs) * 255)
	try:
	pcd = fetchPly(ply_path)
	except:
	pcd = None

	scene_info = SceneInfo(point_cloud=pcd,
	train_cameras=train_cam_infos,
	test_cameras=test_cam_infos,
	nerf_normalization=nerf_normalization,
	ply_path=ply_path)
	return scene_info

	sceneLoadTypeCallbacks = {
	"Colmap": readColmapSceneInfo,
	"Blender" : readNerfSyntheticInfo,
	"CUT3R": readCUT3RInfo
	}