Spaces:

LL3RD
/

DreamFuse

Running on Zero

App Files Files Community

LL3RD commited on Apr 11

Commit

6eae0d8

1 Parent(s): a1b34c3

test

Browse files

Files changed (4) hide show

__pycache__/dreamfuse_inference.cpython-310.pyc +0 -0
app.py +20 -16
dreamfuse/trains/utils/inference_utils.py +4 -32
dreamfuse_inference.py +1 -38

__pycache__/dreamfuse_inference.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/dreamfuse_inference.cpython-310.pyc and b/__pycache__/dreamfuse_inference.cpython-310.pyc differ

app.py CHANGED Viewed

@@ -75,7 +75,7 @@ class DreamFuseGUI:
         color: #222;
         }
         #canvas_preview {
-        min-height: 420px;  /* 或你需要的高度 */
         border: 2px dashed #ccc;
         background-color: #fafafa;
         border-radius: 8px;
@@ -130,7 +130,7 @@ class DreamFuseGUI:
         }
         .svelte-1ipelgc {
         flex-wrap: nowrap !important;
-        gap: 24px !important;  /* 每块之间增加空隙 */
         }
         """
@@ -174,18 +174,15 @@ class DreamFuseGUI:
             };
             globalThis.initializeDrag = () => {
-                console.log("✅ 初始化拖拽与缩放功能...");
                 const oldImg = document.getElementById('draggable-img');
                 const container = document.getElementById('canvas-container');
                 const slider = document.getElementById('scale-slider');
                 if (!oldImg || !container || !slider) {
-                    console.warn("❌ 缺少必要的元素 (#draggable-img, #canvas-container, #scale-slider)");
                     return;
                 }
-                // 用 clone 替换旧 img，清除之前的监听器
                 const img = oldImg.cloneNode(true);
                 oldImg.replaceWith(img);
@@ -242,7 +239,7 @@ class DreamFuseGUI:
                         const relativeX = absoluteLeft - offsetLeft;
                         const relativeY = absoluteTop - offsetTop;
                         document.getElementById("coordinate").textContent =
-                            `前景图坐标: (x=${relativeX.toFixed(2)}, y=${relativeY.toFixed(2)})`;
                         updateTransformation();
                     }
                     scaleAnchor = null;
@@ -306,7 +303,6 @@ class DreamFuseGUI:
     def pil_to_base64(self, img):
-        """将 PIL Image 转为 base64 字符串，PNG 格式下保留透明通道"""
         if img is None:
             return ""
         if img.mode != "RGBA":
@@ -318,7 +314,6 @@ class DreamFuseGUI:
         return f"data:image/png;base64,{base64_str}"
     def resize_background_image(self, img, max_size=400):
-        """将背景图等比例缩放到最长边为 max_size（400）"""
         if img is None:
             return None
         w, h = img.size
@@ -329,7 +324,6 @@ class DreamFuseGUI:
         return img
     def resize_draggable_image(self, img, max_size=400):
-        """将前景图等比例缩放到最长边不超过 max_size（400）"""
         if img is None:
             return None
         w, h = img.size
@@ -340,7 +334,6 @@ class DreamFuseGUI:
         return img
     def generate_html(self, background_img_b64, bg_width, bg_height, draggable_img_b64, draggable_width, draggable_height, canvas_size=400):
-        """生成预览 HTML 页面"""
         html_code = f"""
         <html>
         <head>
@@ -415,9 +408,8 @@ class DreamFuseGUI:
         return html_code
     def on_upload(self, background_img, draggable_img):
-        """上传图片后的处理"""
         if background_img is None or draggable_img is None:
-            return "<p style='color:red;'>请先上传背景图片和可拖拽图片。</p>"
         if draggable_img.mode != "RGB":
             draggable_img = draggable_img.convert("RGB")
@@ -449,7 +441,7 @@ class DreamFuseGUI:
         # pipeline = None
         pipeline = DreamFuseInference(config)
         pipeline.gradio_generate = spaces.GPU(duratioin=120)(pipeline.gradio_generate)
-        """创建 Gradio 界面"""
         with gr.Blocks(css=self.css_style) as demo:
             modified_fg_state = gr.State()
             gr.Markdown("# DreamFuse")
@@ -476,7 +468,20 @@ class DreamFuseGUI:
                     with gr.Row():
                         with gr.Column(scale=1):
                             gr.Examples(
-                                examples=[self.examples[1]],
                                 inputs=[background_img_in, draggable_img_in],
                                 # elem_id="small-examples"
                             )
@@ -506,7 +511,7 @@ class DreamFuseGUI:
                     )
                     prompt_text = gr.Textbox(label="Prompt", placeholder="text prompt", value="")
                     text_strength = gr.Slider(minimum=1, maximum=10, step=1, label="Text Strength", value=1, visible=False)
-                    enable_gui = gr.Checkbox(label="启用GUI", value=True, visible=False)
                     enable_truecfg = gr.Checkbox(label="TrueCFG", value=False, visible=False)
                 with gr.Column(scale=1, elem_id="section-results"):
                     gr.Markdown("### Model Result")
@@ -533,7 +538,6 @@ class DreamFuseGUI:
                     prompt_text, enable_gui, cfg_slider, size_select, text_strength, enable_truecfg],
                 outputs=model_output
             )
-            # 页面加载后初始化拖拽/缩放事件
             demo.load(None, None, None, js=self.js_script)
             generate_btn.click(fn=None, inputs=None, outputs=None, js="initializeDrag")

         color: #222;
         }
         #canvas_preview {
+        min-height: 420px;
         border: 2px dashed #ccc;
         background-color: #fafafa;
         border-radius: 8px;
         }
         .svelte-1ipelgc {
         flex-wrap: nowrap !important;
+        gap: 24px !important;
         }
         """
             };
             globalThis.initializeDrag = () => {
                 const oldImg = document.getElementById('draggable-img');
                 const container = document.getElementById('canvas-container');
                 const slider = document.getElementById('scale-slider');
                 if (!oldImg || !container || !slider) {
                     return;
                 }
                 const img = oldImg.cloneNode(true);
                 oldImg.replaceWith(img);
                         const relativeX = absoluteLeft - offsetLeft;
                         const relativeY = absoluteTop - offsetTop;
                         document.getElementById("coordinate").textContent =
+                            `Location: (x=${relativeX.toFixed(2)}, y=${relativeY.toFixed(2)})`;
                         updateTransformation();
                     }
                     scaleAnchor = null;
     def pil_to_base64(self, img):
         if img is None:
             return ""
         if img.mode != "RGBA":
         return f"data:image/png;base64,{base64_str}"
     def resize_background_image(self, img, max_size=400):
         if img is None:
             return None
         w, h = img.size
         return img
     def resize_draggable_image(self, img, max_size=400):
         if img is None:
             return None
         w, h = img.size
         return img
     def generate_html(self, background_img_b64, bg_width, bg_height, draggable_img_b64, draggable_width, draggable_height, canvas_size=400):
         html_code = f"""
         <html>
         <head>
         return html_code
     def on_upload(self, background_img, draggable_img):
         if background_img is None or draggable_img is None:
+            return "<p style='color:red;'>Please upload the background and foreground images。</p>"
         if draggable_img.mode != "RGB":
             draggable_img = draggable_img.convert("RGB")
         # pipeline = None
         pipeline = DreamFuseInference(config)
         pipeline.gradio_generate = spaces.GPU(duratioin=120)(pipeline.gradio_generate)
         with gr.Blocks(css=self.css_style) as demo:
             modified_fg_state = gr.State()
             gr.Markdown("# DreamFuse")
                     with gr.Row():
                         with gr.Column(scale=1):
                             gr.Examples(
+                                examples=[self.examples[0]],
+                                inputs=[background_img_in, draggable_img_in],
+                                # elem_id="small-examples"
+                            )
+                        with gr.Column(scale=1):
+                            gr.Examples(
+                                examples=[self.examples[2]],
+                                inputs=[background_img_in, draggable_img_in],
+                                # elem_id="small-examples"
+                            )
+                    with gr.Row():
+                        with gr.Column(scale=1):
+                            gr.Examples(
+                                examples=[self.examples[0]],
                                 inputs=[background_img_in, draggable_img_in],
                                 # elem_id="small-examples"
                             )
                     )
                     prompt_text = gr.Textbox(label="Prompt", placeholder="text prompt", value="")
                     text_strength = gr.Slider(minimum=1, maximum=10, step=1, label="Text Strength", value=1, visible=False)
+                    enable_gui = gr.Checkbox(label="GUI", value=True, visible=False)
                     enable_truecfg = gr.Checkbox(label="TrueCFG", value=False, visible=False)
                 with gr.Column(scale=1, elem_id="section-results"):
                     gr.Markdown("### Model Result")
                     prompt_text, enable_gui, cfg_slider, size_select, text_strength, enable_truecfg],
                 outputs=model_output
             )
             demo.load(None, None, None, js=self.js_script)
             generate_btn.click(fn=None, inputs=None, outputs=None, js="initializeDrag")

dreamfuse/trains/utils/inference_utils.py CHANGED Viewed

@@ -313,37 +313,17 @@ def encode_prompt(
 def warp_affine_tensor(input_tensor, mask_affines, output_size, scale_factor=1/16,
                        align_corners_grid=False, align_corners_sample=True,
                        flatten_output=True, device=None):
-    """
-    对输入的 tensor 应用 affine 仿射变换，并返回 warp 后的结果。
-    参数：
-      input_tensor: 待变换的图像 tensor，支持的形状包括 (H, W, C)、(C, H, W) 或 (1, C, H, W)。
-      mask_affines: 仿射参数（例如 [a, 0, tₓ, 0, e, t_y]），这些参数单位基于 512×512 图像。
-      output_size: 目标输出的空间尺寸，格式为 (H_out, W_out)。
-      scale_factor: 平移参数的缩放因子；例如若 512→32，则 factor = 32/512 = 1/16。
-      align_corners_grid: 传递给 F.affine_grid 的 align_corners 参数。
-      align_corners_sample: 传递给 F.grid_sample 的 align_corners 参数。
-      flatten_output: 若为 True，则将输出 warp 后的 tensor 从 (1, C, H_out, W_out) 转换为 (-1, C)。
-      device: 如果设置，将将相关 tensor 移动到指定的设备上。
-    返回：
-      warped_output: 经过 affine warp 处理后的 tensor，
-                      若 flatten_output 为 True，则形状为 (H_out*W_out, C)，否则为 (1, C, H_out, W_out)。
-    """
-    # 如果输入 tensor 不是 batch（4D）的，则调整为 (1, C, H, W)
     if input_tensor.dim() == 3:
-        # 判断是否为 (H, W, C)，如果最后一维为 3，则认为是 RGB
         if input_tensor.shape[-1] == 3:
             input_tensor = input_tensor.permute(2, 0, 1)
         input_tensor = input_tensor.unsqueeze(0)
     elif input_tensor.dim() != 4:
-        raise ValueError("input_tensor 必须是 3D 或 4D Tensor！")
-    # 输出尺寸
     H_out, W_out = output_size
     B, C, H_in, W_in = input_tensor.shape
-    # 将 mask_affines 转换为 tensor，确保形状为 (1, 6)
     if not torch.is_tensor(mask_affines):
         theta = torch.tensor(mask_affines, dtype=torch.float32).unsqueeze(0)
     else:
@@ -351,35 +331,27 @@ def warp_affine_tensor(input_tensor, mask_affines, output_size, scale_factor=1/1
         if theta.dim() == 1:
             theta = theta.unsqueeze(0)
-    # 调整平移部分（第三和第六个元素），使其适应当前目标分辨率
-    theta[0, 2] *= scale_factor  # x 方向平移
-    theta[0, 5] *= scale_factor  # y 方向平移
     a   = theta[0, 0]
     t_x = theta[0, 2]
     e   = theta[0, 4]
     t_y = theta[0, 5]
-    # 根据归一化转换（范围 [-1, 1]）
-    # 对 x 方向：归一化公式为 x_norm = 2*x/(W_out-1) - 1
-    # 转换后 affine 的常数项即为：a + 2*t_x/(W_out-1) - 1
     theta_norm = torch.tensor([
         [a, 0.0, a + 2*t_x/(W_out - 1) - 1],
         [0.0, e, e + 2*t_y/(H_out - 1) - 1]
     ], dtype=torch.float32).unsqueeze(0)
-    # 根据目标输出大小创建 affine_grid，grid 的 size 为 (B, C, H_out, W_out)
     grid = F.affine_grid(theta_norm, size=(B, C, H_out, W_out), align_corners=align_corners_grid)
     if device is not None:
         grid = grid.to(device)
         input_tensor = input_tensor.to(device)
-    # 对输入 tensor 进行采样
     warped = F.grid_sample(input_tensor, grid, align_corners=align_corners_sample)
-    # 若需要将输出展平为 (-1, C)
     if flatten_output:
-        # 将 (1, C, H_out, W_out) → 转为 (H_out, W_out, C) → reshape(-1, C)
         warped = warped.squeeze(0).permute(1, 2, 0).reshape(-1, C)
     return warped

 def warp_affine_tensor(input_tensor, mask_affines, output_size, scale_factor=1/16,
                        align_corners_grid=False, align_corners_sample=True,
                        flatten_output=True, device=None):
     if input_tensor.dim() == 3:
         if input_tensor.shape[-1] == 3:
             input_tensor = input_tensor.permute(2, 0, 1)
         input_tensor = input_tensor.unsqueeze(0)
     elif input_tensor.dim() != 4:
+        raise ValueError("input_tensor must be 3D or 4D Tensor！")
     H_out, W_out = output_size
     B, C, H_in, W_in = input_tensor.shape
     if not torch.is_tensor(mask_affines):
         theta = torch.tensor(mask_affines, dtype=torch.float32).unsqueeze(0)
     else:
         if theta.dim() == 1:
             theta = theta.unsqueeze(0)
+    theta[0, 2] *= scale_factor
+    theta[0, 5] *= scale_factor
     a   = theta[0, 0]
     t_x = theta[0, 2]
     e   = theta[0, 4]
     t_y = theta[0, 5]
     theta_norm = torch.tensor([
         [a, 0.0, a + 2*t_x/(W_out - 1) - 1],
         [0.0, e, e + 2*t_y/(H_out - 1) - 1]
     ], dtype=torch.float32).unsqueeze(0)
     grid = F.affine_grid(theta_norm, size=(B, C, H_out, W_out), align_corners=align_corners_grid)
     if device is not None:
         grid = grid.to(device)
         input_tensor = input_tensor.to(device)
     warped = F.grid_sample(input_tensor, grid, align_corners=align_corners_sample)
     if flatten_output:
         warped = warped.squeeze(0).permute(1, 2, 0).reshape(-1, C)
     return warped

dreamfuse_inference.py CHANGED Viewed

@@ -241,7 +241,7 @@ class DreamFuseInference:
         scale_width = ref_width / target_width
         scale_height = ref_height / target_height
-        scale = min(scale_width, scale_height)  # 选择最小的缩放比例，确保不超出参考图片的宽高
         new_width = int(target_width * scale)
         new_height = int(target_height * scale)
@@ -250,17 +250,6 @@ class DreamFuseInference:
         return resized_image
     def pad_or_crop(self, img, target_size, fill_color=(255, 255, 255)):
-        """
-        将输入图像按中心对齐，裁剪或填充到 target_size 大小。
-        参数：
-        img         - PIL.Image 对象
-        target_size - 目标尺寸 (width, height)
-        fill_color  - 填充颜色，默认为白色
-        返回：
-        调整后的 PIL.Image 对象，尺寸为 target_size
-        """
         iw, ih = img.size
         tw, th = target_size
@@ -277,30 +266,6 @@ class DreamFuseInference:
         return new_img
     def transform_foreground_original(self, original_fg, original_bg, transformation_info, canvas_size=400):
-        """
-        根据 transformation_info 中的信息对原始前景图（original_fg）进行平移处理，
-        要求：
-        1. 输出图像大小与 original_fg 相同（保持原始前景图大小）；
-        2. 位移计算时，还原为未缩放的拖拽坐标，即用 drag_left/drag_top 除以 scale_ratio；
-        3. 拖拽产生的相对位移比例在 400x400 预览画布下相对于未缩放时默认（居中）位置计算，
-            然后按此比例推算到原始前景图尺寸下的实际位移（像素数）。
-        4. 结果在原始前景图大小的白底（未覆盖区域填充白色）中粘贴前景图。
-        参数：
-        original_fg: 原始上传的前景图（PIL Image 对象）
-        transformation_info: 字典，必须包含以下字段：
-            - "drag_left": 拖拽后当前显示的前景图左上角横坐标（受缩放影响，单位像素）
-            - "drag_top":  拖拽后当前显示的前景图左上角纵坐标（受缩放影响，单位像素）
-            - "scale_ratio": 预览时前景图缩放比例
-            - "data_original_width": 前景图在预览中未缩放时的宽度
-            - "data_original_height": 前景图在预览中未缩放时的高度
-        canvas_size: 预览画布尺寸（默认400，与前端保持一致）
-        返回：
-        处理后的图像（PIL Image 对象），大小与 original_fg 相同，
-        并根据未缩放时拖拽的相对位移结果进行了平移。
-        """
-        # 读取 transformation_info 中的参数
         drag_left = float(transformation_info.get("drag_left", 0))
         drag_top  = float(transformation_info.get("drag_top", 0))
         scale_ratio = float(transformation_info.get("scale_ratio", 1))
@@ -382,8 +347,6 @@ class DreamFuseInference:
         images = Image.fromarray(images[0], "RGB")
         images = images.resize(background_img.size)
-        # images_save = images.copy()
         # images.thumbnail((640, 640), Image.LANCZOS)
         return images

         scale_width = ref_width / target_width
         scale_height = ref_height / target_height
+        scale = min(scale_width, scale_height)
         new_width = int(target_width * scale)
         new_height = int(target_height * scale)
         return resized_image
     def pad_or_crop(self, img, target_size, fill_color=(255, 255, 255)):
         iw, ih = img.size
         tw, th = target_size
         return new_img
     def transform_foreground_original(self, original_fg, original_bg, transformation_info, canvas_size=400):
         drag_left = float(transformation_info.get("drag_left", 0))
         drag_top  = float(transformation_info.get("drag_top", 0))
         scale_ratio = float(transformation_info.get("scale_ratio", 1))
         images = Image.fromarray(images[0], "RGB")
         images = images.resize(background_img.size)
         # images.thumbnail((640, 640), Image.LANCZOS)
         return images