Spaces:

ByteDance
/

XVerse

Running on Zero

App Files Files Community

helloworld-S commited on Jul 5

Commit

70037c5

verified ·

1 Parent(s): 88ac548

Upload app.py

Browse files

Files changed (1) hide show

app.py +200 -192

app.py CHANGED Viewed

@@ -17,6 +17,8 @@ import tempfile
 from PIL import Image
 import subprocess
 import torch
 import gradio as gr
 import string
@@ -62,6 +64,7 @@ num_inputs = 6
 def clear_images():
     return [None, ]*num_inputs
 def det_seg_img(image, label):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
@@ -70,6 +73,7 @@ def det_seg_img(image, label):
     ins, bbox = merge_instances(image, indices, instance_result_dict["instance_bboxes"], instance_result_dict["instance_images"])
     return ins
 def crop_face_img(image):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
@@ -83,6 +87,7 @@ def crop_face_img(image):
     face = image.crop(face_bbox)
     return face
 def vlm_img_caption(image):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
@@ -360,204 +365,207 @@ def update_inputs(is_open, index, state: list):
     print(indexs)
     return indexs, is_open
-with gr.Blocks() as demo:
-    indexs_state = gr.State([0, 1])  # 添加状态来存储 indexs
-    gr.Markdown("### XVerse Demo")
-    with gr.Row():
-        with gr.Column():
-            prompt = gr.Textbox(label="Prompt", value="")
-            clear_btn = gr.Button("清空输入图像")
-            with gr.Row():
-                for i in range(num_inputs):
-                    image, caption, face_btn, det_btn, vlm_btn, accordion_state, accordion, id_ip_checkbox = create_image_input(i, open=i<2, indexs_state=indexs_state)
-                    images.append(image)
-                    idip_checkboxes.append(id_ip_checkbox)
-                    captions.append(caption)
-                    face_btns.append(face_btn)
-                    det_btns.append(det_btn)
-                    vlm_btns.append(vlm_btn)
-                    accordion_states.append(accordion_state)
-                    accordions.append(accordion)
-            # 将其他设置参数压缩到 Advanced Accordion 内
-            with gr.Accordion("Advanced", open=False):
-                # 使用 Row 和 Column 来布局四个图像和描述
-                with gr.Row():
-                    target_height = gr.Slider(512, 1024, step=128, value=768, label="Generated Height", info="")
-                    target_width = gr.Slider(512, 1024, step=128, value=768, label="Generated Width", info="")
-                    cond_size = gr.Slider(256, 384, step=128, value=256, label="Condition Size", info="")
-                with gr.Row():
-                    # 修改 weight_id_ip_str 为两个 Slider
-                    weight_id = gr.Slider(0.1, 5, step=0.1, value=3, label="weight_id")
-                    weight_ip = gr.Slider(0.1, 5, step=0.1, value=5, label="weight_ip")
-                with gr.Row():
-                    # 修改 ip_scale_str 为 Slider，并添加 Textbox 显示转换后的格式
-                    ip_scale_str = gr.Slider(0.5, 1.5, step=0.01, value=0.85, label="latent_lora_scale")
-                    vae_lora_scale = gr.Slider(0.5, 1.5, step=0.01, value=1.3, label="vae_lora_scale")
-                with gr.Row():
-                    # 修改 vae_skip_iter 为两个 Slider
-                    vae_skip_iter_s1 = gr.Slider(0, 1, step=0.01, value=0.05, label="vae_skip_iter_before")
-                    vae_skip_iter_s2 = gr.Slider(0, 1, step=0.01, value=0.8, label="vae_skip_iter_after")
                 with gr.Row():
-                    weight_id_ip_str = gr.Textbox(
-                        value="0-1:1/3/5",
-                        label="weight_id_ip_str",
-                        interactive=False, visible=False
-                    )
-                    weight_id.change(
-                        lambda s1, s2: f"0-1:1/{s1}/{s2}",
-                        inputs=[weight_id, weight_ip],
-                        outputs=weight_id_ip_str
-                    )
-                    weight_ip.change(
-                        lambda s1, s2: f"0-1:1/{s1}/{s2}",
-                        inputs=[weight_id, weight_ip],
-                        outputs=weight_id_ip_str
-                    )
-                    vae_skip_iter = gr.Textbox(
-                        value="0-0.05:1,0.8-1:1",
-                        label="vae_skip_iter",
-                        interactive=False, visible=False
-                    )
-                    vae_skip_iter_s1.change(
-                        lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
-                        inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
-                        outputs=vae_skip_iter
-                    )
-                    vae_skip_iter_s2.change(
-                        lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
-                        inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
-                        outputs=vae_skip_iter
-                    )
-                with gr.Row():
-                    db_latent_lora_scale_str = gr.Textbox(
-                        value="0-1:0.85",
-                        label="db_latent_lora_scale_str",
-                        interactive=False, visible=False
-                    )
-                    sb_latent_lora_scale_str = gr.Textbox(
-                        value="0-1:0.85",
-                        label="sb_latent_lora_scale_str",
-                        interactive=False, visible=False
-                    )
-                    vae_lora_scale_str = gr.Textbox(
-                        value="0-1:1.3",
-                        label="vae_lora_scale_str",
-                        interactive=False, visible=False
-                    )
-                    vae_lora_scale.change(
-                            lambda s: f"0-1:{s}",
-                            inputs=vae_lora_scale,
-                            outputs=vae_lora_scale_str
                         )
-                    ip_scale_str.change(
-                            lambda s: [f"0-1:{s}", f"0-1:{s}"],
-                            inputs=ip_scale_str,
-                            outputs=[db_latent_lora_scale_str, sb_latent_lora_scale_str]
                         )
-                with gr.Row():
-                    double_attention = gr.Checkbox(value=False, label="Double Attention", visible=False)
-                    single_attention = gr.Checkbox(value=True, label="Single Attention", visible=False)
-        with gr.Column():
-            output = gr.Image(label="生成的图像")
-            seed = gr.Number(value=42, label="Seed", info="")
-            gen_btn = gr.Button("生成图像")
-    gr.Markdown("### Examples")
-    gen_btn.click(
-        generate_image,
-        inputs=[
-            prompt, cond_size, target_height, target_width, seed,
-            vae_skip_iter, weight_id_ip_str,
-            double_attention, single_attention,
-            db_latent_lora_scale_str, sb_latent_lora_scale_str, vae_lora_scale_str,
-            indexs_state,  # 传递 indexs 状态
-            *images,
-            *captions,
-            *idip_checkboxes,
-        ],
-        outputs=output
-    )
-    # 修改清空函数的输出参数
-    clear_btn.click(clear_images, outputs=images)
-    # 循环绑定 Det & Seg 和 Auto Caption 按钮的点击事件
-    for i in range(num_inputs):
-        face_btns[i].click(crop_face_img, inputs=[images[i]], outputs=[images[i]])
-        det_btns[i].click(det_seg_img, inputs=[images[i], captions[i]], outputs=[images[i]])
-        vlm_btns[i].click(vlm_img_caption, inputs=[images[i]], outputs=[captions[i]])
-        accordion_states[i].change(fn=lambda x, state, index=i: change_accordion(x, index, state), inputs=[accordion_states[i], indexs_state], outputs=[accordions[i], indexs_state])
-    examples = gr.Examples(
-        examples=[
-            [
-                "ENT1 wearing a tiny hat",
-                42, 256, 768, 768,
-                3, 5,
-                0.85, 1.3,
-                0.05, 0.8,
-                "sample/hamster.jpg", None, None, None, None, None,
-                "a hamster", None, None, None, None, None,
-                False, False, False, False, False, False
-            ],
-            [
-                "ENT1 in a red dress is smiling",
-                42, 256, 768, 768,
-                3, 5,
-                0.85, 1.3,
-                0.05, 0.8,
-                "sample/woman.jpg", None, None, None, None, None,
-                "a woman", None, None, None, None, None,
-                True, False, False, False, False, False
-            ],
-            [
-                "ENT1 and ENT2 standing together in a park.",
-                42, 256, 768, 768,
-                2, 5,
-                0.85, 1.3,
-                0.05, 0.8,
-                "sample/woman.jpg", "sample/girl.jpg", None, None, None, None,
-                "a woman", "a girl", None, None, None, None,
-                True, True, False, False, False, False
             ],
-            [
-                "ENT1, ENT2, and ENT3 standing together in a park.",
-                42, 256, 768, 768,
-                2.5, 5,
-                0.8, 1.2,
-                0.05, 0.8,
-                "sample/woman.jpg", "sample/girl.jpg", "sample/old_man.jpg", None, None, None,
-                "a woman", "a girl", "an old man", None, None, None,
-                True, True, True, False, False, False
             ],
-        ],
-        inputs=[
-            prompt, seed,
-            cond_size,
-            target_height,
-            target_width,
-            weight_id,
-            weight_ip,
-            ip_scale_str,
-            vae_lora_scale,
-            vae_skip_iter_s1,
-            vae_skip_iter_s2,
-            *images,
-            *captions,
-            *idip_checkboxes
-        ],
-        outputs=accordion_states,
-        fn=open_accordion_on_example_selection,
-        run_on_click=True
-    )
-demo.queue().launch()

 from PIL import Image
 import subprocess
+import spaces
 import torch
 import gradio as gr
 import string
 def clear_images():
     return [None, ]*num_inputs
+@spaces.GPU()
 def det_seg_img(image, label):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
     ins, bbox = merge_instances(image, indices, instance_result_dict["instance_bboxes"], instance_result_dict["instance_images"])
     return ins
+@spaces.GPU()
 def crop_face_img(image):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
     face = image.crop(face_bbox)
     return face
+@spaces.GPU()
 def vlm_img_caption(image):
     if isinstance(image, str):
         image = Image.open(image).convert("RGB")
     print(indexs)
     return indexs, is_open
+if __name__ == "__main__":
+    with gr.Blocks() as demo:
+        indexs_state = gr.State([0, 1])  # 添加状态来存储 indexs
+        gr.Markdown("### XVerse Demo")
+        with gr.Row():
+            with gr.Column():
+                prompt = gr.Textbox(label="Prompt", value="")
+                clear_btn = gr.Button("清空输入图像")
                 with gr.Row():
+                    for i in range(num_inputs):
+                        image, caption, face_btn, det_btn, vlm_btn, accordion_state, accordion, id_ip_checkbox = create_image_input(i, open=i<2, indexs_state=indexs_state)
+                        images.append(image)
+                        idip_checkboxes.append(id_ip_checkbox)
+                        captions.append(caption)
+                        face_btns.append(face_btn)
+                        det_btns.append(det_btn)
+                        vlm_btns.append(vlm_btn)
+                        accordion_states.append(accordion_state)
+                        accordions.append(accordion)
+                # 将其他设置参数压缩到 Advanced Accordion 内
+                with gr.Accordion("Advanced", open=False):
+                    # 使用 Row 和 Column 来布局四个图像和描述
+                    with gr.Row():
+                        target_height = gr.Slider(512, 1024, step=128, value=768, label="Generated Height", info="")
+                        target_width = gr.Slider(512, 1024, step=128, value=768, label="Generated Width", info="")
+                        cond_size = gr.Slider(256, 384, step=128, value=256, label="Condition Size", info="")
+                    with gr.Row():
+                        # 修改 weight_id_ip_str 为两个 Slider
+                        weight_id = gr.Slider(0.1, 5, step=0.1, value=3, label="weight_id")
+                        weight_ip = gr.Slider(0.1, 5, step=0.1, value=5, label="weight_ip")
+                    with gr.Row():
+                        # 修改 ip_scale_str 为 Slider，并添加 Textbox 显示转换后的格式
+                        ip_scale_str = gr.Slider(0.5, 1.5, step=0.01, value=0.85, label="latent_lora_scale")
+                        vae_lora_scale = gr.Slider(0.5, 1.5, step=0.01, value=1.3, label="vae_lora_scale")
+                    with gr.Row():
+                        # 修改 vae_skip_iter 为两个 Slider
+                        vae_skip_iter_s1 = gr.Slider(0, 1, step=0.01, value=0.05, label="vae_skip_iter_before")
+                        vae_skip_iter_s2 = gr.Slider(0, 1, step=0.01, value=0.8, label="vae_skip_iter_after")
+                    with gr.Row():
+                        weight_id_ip_str = gr.Textbox(
+                            value="0-1:1/3/5",
+                            label="weight_id_ip_str",
+                            interactive=False, visible=False
                         )
+                        weight_id.change(
+                            lambda s1, s2: f"0-1:1/{s1}/{s2}",
+                            inputs=[weight_id, weight_ip],
+                            outputs=weight_id_ip_str
                         )
+                        weight_ip.change(
+                            lambda s1, s2: f"0-1:1/{s1}/{s2}",
+                            inputs=[weight_id, weight_ip],
+                            outputs=weight_id_ip_str
+                        )
+                        vae_skip_iter = gr.Textbox(
+                            value="0-0.05:1,0.8-1:1",
+                            label="vae_skip_iter",
+                            interactive=False, visible=False
+                        )
+                        vae_skip_iter_s1.change(
+                            lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
+                            inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
+                            outputs=vae_skip_iter
+                        )
+                        vae_skip_iter_s2.change(
+                            lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
+                            inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
+                            outputs=vae_skip_iter
+                        )
+                    with gr.Row():
+                        db_latent_lora_scale_str = gr.Textbox(
+                            value="0-1:0.85",
+                            label="db_latent_lora_scale_str",
+                            interactive=False, visible=False
+                        )
+                        sb_latent_lora_scale_str = gr.Textbox(
+                            value="0-1:0.85",
+                            label="sb_latent_lora_scale_str",
+                            interactive=False, visible=False
+                        )
+                        vae_lora_scale_str = gr.Textbox(
+                            value="0-1:1.3",
+                            label="vae_lora_scale_str",
+                            interactive=False, visible=False
+                        )
+                        vae_lora_scale.change(
+                                lambda s: f"0-1:{s}",
+                                inputs=vae_lora_scale,
+                                outputs=vae_lora_scale_str
+                            )
+                        ip_scale_str.change(
+                                lambda s: [f"0-1:{s}", f"0-1:{s}"],
+                                inputs=ip_scale_str,
+                                outputs=[db_latent_lora_scale_str, sb_latent_lora_scale_str]
+                            )
+                    with gr.Row():
+                        double_attention = gr.Checkbox(value=False, label="Double Attention", visible=False)
+                        single_attention = gr.Checkbox(value=True, label="Single Attention", visible=False)
+            with gr.Column():
+                output = gr.Image(label="生成的图像")
+                seed = gr.Number(value=42, label="Seed", info="")
+                gen_btn = gr.Button("生成图像")
+        gr.Markdown("### Examples")
+        gen_btn.click(
+            generate_image,
+            inputs=[
+                prompt, cond_size, target_height, target_width, seed,
+                vae_skip_iter, weight_id_ip_str,
+                double_attention, single_attention,
+                db_latent_lora_scale_str, sb_latent_lora_scale_str, vae_lora_scale_str,
+                indexs_state,  # 传递 indexs 状态
+                *images,
+                *captions,
+                *idip_checkboxes,
+            ],
+            outputs=output
+        )
+        # 修改清空函数的输出参数
+        clear_btn.click(clear_images, outputs=images)
+        # 循环绑定 Det & Seg 和 Auto Caption 按钮的点击事件
+        for i in range(num_inputs):
+            face_btns[i].click(crop_face_img, inputs=[images[i]], outputs=[images[i]])
+            det_btns[i].click(det_seg_img, inputs=[images[i], captions[i]], outputs=[images[i]])
+            vlm_btns[i].click(vlm_img_caption, inputs=[images[i]], outputs=[captions[i]])
+            accordion_states[i].change(fn=lambda x, state, index=i: change_accordion(x, index, state), inputs=[accordion_states[i], indexs_state], outputs=[accordions[i], indexs_state])
+        examples = gr.Examples(
+            examples=[
+                [
+                    "ENT1 wearing a tiny hat",
+                    42, 256, 768, 768,
+                    3, 5,
+                    0.85, 1.3,
+                    0.05, 0.8,
+                    "sample/hamster.jpg", None, None, None, None, None,
+                    "a hamster", None, None, None, None, None,
+                    False, False, False, False, False, False
+                ],
+                [
+                    "ENT1 in a red dress is smiling",
+                    42, 256, 768, 768,
+                    3, 5,
+                    0.85, 1.3,
+                    0.05, 0.8,
+                    "sample/woman.jpg", None, None, None, None, None,
+                    "a woman", None, None, None, None, None,
+                    True, False, False, False, False, False
+                ],
+                [
+                    "ENT1 and ENT2 standing together in a park.",
+                    42, 256, 768, 768,
+                    2, 5,
+                    0.85, 1.3,
+                    0.05, 0.8,
+                    "sample/woman.jpg", "sample/girl.jpg", None, None, None, None,
+                    "a woman", "a girl", None, None, None, None,
+                    True, True, False, False, False, False
+                ],
+                [
+                    "ENT1, ENT2, and ENT3 standing together in a park.",
+                    42, 256, 768, 768,
+                    2.5, 5,
+                    0.8, 1.2,
+                    0.05, 0.8,
+                    "sample/woman.jpg", "sample/girl.jpg", "sample/old_man.jpg", None, None, None,
+                    "a woman", "a girl", "an old man", None, None, None,
+                    True, True, True, False, False, False
+                ],
             ],
+            inputs=[
+                prompt, seed,
+                cond_size,
+                target_height,
+                target_width,
+                weight_id,
+                weight_ip,
+                ip_scale_str,
+                vae_lora_scale,
+                vae_skip_iter_s1,
+                vae_skip_iter_s2,
+                *images,
+                *captions,
+                *idip_checkboxes
             ],
+            outputs=accordion_states,
+            fn=open_accordion_on_example_selection,
+            run_on_click=True
+        )
+    demo.queue()
+    demo.launch()