tight-inversion-pulid-demo

Runtime error

App Files Files Community

tight-inversion-pulid-demo / app.py

openfree

Update app.py

a24f281 verified 19 days ago

raw

history blame

10.7 kB

	import time
	import gradio as gr
	import torch
	from einops import rearrange, repeat
	from PIL import Image
	import numpy as np

	from flux.sampling import denoise, get_noise, get_schedule, prepare, rf_denoise, rf_inversion, unpack
	from flux.util import (
	SamplingOptions,
	load_ae,
	load_clip,
	load_flow_model,
	load_t5,
	)
	from pulid.pipeline_flux import PuLIDPipeline
	from pulid.utils import resize_numpy_image_long, seed_everything

	# 간단한 인용 정보 추가
	_CITE_ = """PuLID: Person-under-Language Image Diffusion Model"""

	# GPU 사용 가능 여부 확인 및 장치 설정
	def get_device():
	if torch.cuda.is_available():
	return torch.device('cuda')
	else:
	print("CUDA GPU를 찾을 수 없습니다. CPU를 사용합니다.")
	return torch.device('cpu')

	def get_models(name: str, device, offload: bool):
	print(f"모델을 {device}에 로드합니다.")
	t5 = load_t5(device, max_length=128)
	clip_model = load_clip(device)
	model = load_flow_model(name, device="cpu" if offload else device)
	model.eval()
	ae = load_ae(name, device="cpu" if offload else device)
	return model, ae, t5, clip_model


	class FluxGenerator:
	def __init__(self):
	# GPU 사용 가능 여부에 따라 장치 설정
	self.device = get_device()
	self.offload = False
	self.model_name = 'flux-dev'

	# 모델 로드 시도
	try:
	self.model, self.ae, self.t5, self.clip_model = get_models(
	self.model_name,
	device=self.device,
	offload=self.offload,
	)
	self.pulid_model = PuLIDPipeline(
	self.model,
	'cuda' if torch.cuda.is_available() else 'cpu',
	weight_dtype=torch.bfloat16 if self.device.type == 'cuda' else torch.float32
	)
	self.pulid_model.load_pretrain()
	self.initialized = True
	except Exception as e:
	print(f"모델 초기화 중 오류 발생: {e}")
	self.initialized = False

	# 모델 초기화 시도
	try:
	flux_generator = FluxGenerator()
	model_initialized = flux_generator.initialized
	except Exception as e:
	print(f"FluxGenerator 초기화 중 오류 발생: {e}")
	model_initialized = False


	@torch.inference_mode()
	def generate_image(
	prompt: str,
	id_image = None,
	width: int = 512,
	height: int = 512,
	num_steps: int = 20,
	start_step: int = 0,
	guidance: float = 4.0,
	seed: int = -1,
	id_weight: float = 1.0,
	neg_prompt: str = "",
	true_cfg: float = 1.0,
	timestep_to_start_cfg: int = 1,
	max_sequence_length: int = 128,
	gamma: float = 0.5,
	eta: float = 0.7,
	s: float = 0,
	tau: float = 5,
	):
	# 모델이 초기화되지 않았으면 오류 메시지 반환
	if not model_initialized:
	return None, "GPU 오류: CUDA GPU를 찾을 수 없어 모델을 초기화할 수 없습니다.", None

	# ID 이미지가 없으면 실행 불가
	if id_image is None:
	return None, "오류: ID 이미지가 필요합니다.", None

	try:
	flux_generator.t5.max_length = max_sequence_length

	# 시드 설정
	seed = int(seed)
	if seed == -1:
	seed = None

	opts = SamplingOptions(
	prompt=prompt,
	width=width,
	height=height,
	num_steps=num_steps,
	guidance=guidance,
	seed=seed,
	)

	if opts.seed is None:
	opts.seed = torch.Generator(device="cpu").seed()

	seed_everything(opts.seed)
	print(f"Generating prompt: '{opts.prompt}' (seed={opts.seed})...")
	t0 = time.perf_counter()

	use_true_cfg = abs(true_cfg - 1.0) > 1e-6

	# 1) 입력 노이즈 준비
	noise = get_noise(
	num_samples=1,
	height=opts.height,
	width=opts.width,
	device=flux_generator.device,
	dtype=torch.bfloat16 if flux_generator.device.type == 'cuda' else torch.float32,
	seed=opts.seed,
	)
	bs, c, h, w = noise.shape
	noise = rearrange(noise, "b c (h ph) (w pw) -> b (h w) (c ph pw)", ph=2, pw=2)
	if noise.shape[0] == 1 and bs > 1:
	noise = repeat(noise, "1 ... -> bs ...", bs=bs)

	# ID 이미지 인코딩
	encode_t0 = time.perf_counter()
	id_image = id_image.resize((opts.width, opts.height), resample=Image.LANCZOS)
	x = torch.from_numpy(np.array(id_image).astype(np.float32))
	x = (x / 127.5) - 1.0
	x = rearrange(x, "h w c -> 1 c h w")
	x = x.to(flux_generator.device)

	dtype = torch.bfloat16 if flux_generator.device.type == 'cuda' else torch.float32
	with torch.autocast(device_type=flux_generator.device.type, dtype=dtype):
	x = flux_generator.ae.encode(x)
	x = x.to(dtype)

	encode_t1 = time.perf_counter()
	print(f"Encoded in {encode_t1 - encode_t0:.2f} seconds.")

	timesteps = get_schedule(opts.num_steps, x.shape[-1] * x.shape[-2] // 4, shift=False)

	# 2) 텍스트 임베딩 준비
	inp = prepare(t5=flux_generator.t5, clip=flux_generator.clip_model, img=x, prompt=opts.prompt)
	inp_inversion = prepare(t5=flux_generator.t5, clip=flux_generator.clip_model, img=x, prompt="")
	inp_neg = None
	if use_true_cfg:
	inp_neg = prepare(t5=flux_generator.t5, clip=flux_generator.clip_model, img=x, prompt=neg_prompt)

	# 3) ID 임베딩 생성
	id_embeddings = None
	uncond_id_embeddings = None
	if id_image is not None:
	id_image = np.array(id_image)
	id_image = resize_numpy_image_long(id_image, 1024)
	id_embeddings, uncond_id_embeddings = flux_generator.pulid_model.get_id_embedding(id_image, cal_uncond=use_true_cfg)

	y_0 = inp["img"].clone().detach()

	# 이미지 처리 과정
	inverted = rf_inversion(
	flux_generator.model,
	**inp_inversion,
	timesteps=timesteps,
	guidance=opts.guidance,
	id=id_embeddings,
	id_weight=id_weight,
	start_step=start_step,
	uncond_id=uncond_id_embeddings,
	true_cfg=true_cfg,
	timestep_to_start_cfg=timestep_to_start_cfg,
	neg_txt=inp_neg["txt"] if use_true_cfg else None,
	neg_txt_ids=inp_neg["txt_ids"] if use_true_cfg else None,
	neg_vec=inp_neg["vec"] if use_true_cfg else None,
	aggressive_offload=False,
	y_1=noise,
	gamma=gamma
	)

	inp["img"] = inverted
	inp_inversion["img"] = inverted

	edited = rf_denoise(
	flux_generator.model,
	**inp,
	timesteps=timesteps,
	guidance=opts.guidance,
	id=id_embeddings,
	id_weight=id_weight,
	start_step=start_step,
	uncond_id=uncond_id_embeddings,
	true_cfg=true_cfg,
	timestep_to_start_cfg=timestep_to_start_cfg,
	neg_txt=inp_neg["txt"] if use_true_cfg else None,
	neg_txt_ids=inp_neg["txt_ids"] if use_true_cfg else None,
	neg_vec=inp_neg["vec"] if use_true_cfg else None,
	aggressive_offload=False,
	y_0=y_0,
	eta=eta,
	s=s,
	tau=tau,
	)

	# 결과 이미지 디코딩
	edited = unpack(edited.float(), opts.height, opts.width)
	with torch.autocast(device_type=flux_generator.device.type, dtype=dtype):
	edited = flux_generator.ae.decode(edited)

	t1 = time.perf_counter()
	print(f"Done in {t1 - t0:.2f} seconds.")

	# PIL 이미지로 변환
	edited = edited.clamp(-1, 1)
	edited = rearrange(edited[0], "c h w -> h w c")
	edited = Image.fromarray((127.5 * (edited + 1.0)).cpu().byte().numpy())

	return edited, str(opts.seed), flux_generator.pulid_model.debug_img_list

	except Exception as e:
	import traceback
	error_msg = f"이미지 생성 중 오류 발생: {str(e)}\n{traceback.format_exc()}"
	print(error_msg)
	return None, error_msg, None


	def create_demo():
	with gr.Blocks() as demo:
	gr.Markdown("# PuLID: 인물 이미지 변환 도구")

	if not model_initialized:
	gr.Markdown("## ⚠️ 오류: CUDA GPU를 찾을 수 없습니다")
	gr.Markdown("이 응용 프로그램은 CUDA 지원 GPU가 필요합니다. CPU에서는 실행할 수 없습니다.")
	return demo

	with gr.Row():
	with gr.Column():
	prompt = gr.Textbox(label="프롬프트", value="portrait, color, cinematic")
	id_image = gr.Image(label="ID 이미지", type="pil")
	id_weight = gr.Slider(0.0, 1.0, 0.4, step=0.05, label="ID 가중치")
	num_steps = gr.Slider(1, 24, 16, step=1, label="단계 수")
	guidance = gr.Slider(1.0, 10.0, 3.5, step=0.1, label="가이던스")

	with gr.Accordion("고급 옵션", open=False):
	neg_prompt = gr.Textbox(label="네거티브 프롬프트", value="")
	true_cfg = gr.Slider(1.0, 10.0, 3.5, step=0.1, label="CFG 스케일")
	seed = gr.Textbox(-1, label="시드 (-1: 랜덤)")
	gr.Markdown("### 기타 옵션")
	gamma = gr.Slider(0.0, 1.0, 0.5, step=0.1, label="감마")
	eta = gr.Slider(0.0, 1.0, 0.8, step=0.1, label="에타")

	generate_btn = gr.Button("이미지 생성")

	with gr.Column():
	output_image = gr.Image(label="생성된 이미지")
	seed_output = gr.Textbox(label="결과/오류 메시지")
	gr.Markdown(_CITE_)

	generate_btn.click(
	fn=generate_image,
	inputs=[prompt, id_image, 512, 512, num_steps, 0, guidance, seed, id_weight, neg_prompt,
	true_cfg, 1, 128, gamma, eta, 0, 5],
	outputs=[output_image, seed_output],
	)

	return demo


	if __name__ == "__main__":
	import argparse

	parser = argparse.ArgumentParser(description="PuLID for FLUX.1-dev")
	parser.add_argument('--version', type=str, default='v0.9.1')
	parser.add_argument("--name", type=str, default="flux-dev")
	parser.add_argument("--port", type=int, default=8080)
	args = parser.parse_args()

	demo = create_demo()
	demo.launch(ssr_mode=False)