UniPic

Running on Zero

App Files Files Community

yichenchenchen commited on 20 days ago

Commit

8f7a765

verified ·

1 Parent(s): 7db5491

Update inferencer.py

Browse files

Files changed (1) hide show

inferencer.py +8 -8

inferencer.py CHANGED Viewed

@@ -244,8 +244,8 @@ class Inferencer:
         # 2) Encode image and extract features
         with torch.no_grad():
-            x_enc = self.model.encode(img_tensor)
-            x_con, z_enc = self.model.extract_visual_feature(x_enc)
         # 3) Prepare text prompts
         m = n = self.image_size // 16
@@ -267,18 +267,18 @@ class Inferencer:
         cfg_prompt_str = cfg_prompt_str.replace('<image>', '<image>' * image_length)
         # 4) Tokenize and prepare inputs
-        input_ids = self.model.tokenizer.encode(
             prompt_str, add_special_tokens=True, return_tensors='pt')[0].cuda()
         if cfg != 1.0:
-            null_input_ids = self.model.tokenizer.encode(
                 cfg_prompt_str, add_special_tokens=True, return_tensors='pt')[0].cuda()
             attention_mask = pad_sequence(
                 [torch.ones_like(input_ids), torch.ones_like(null_input_ids)],
                 batch_first=True, padding_value=0).to(torch.bool)
             input_ids = pad_sequence(
                 [input_ids, null_input_ids],
-                batch_first=True, padding_value=self.model.tokenizer.eos_token_id)
         else:
             input_ids = input_ids[None]
             attention_mask = torch.ones_like(input_ids).to(torch.bool)
@@ -288,10 +288,10 @@ class Inferencer:
             z_enc = torch.cat([z_enc, z_enc], dim=0)
             x_con = torch.cat([x_con, x_con], dim=0)
-        inputs_embeds = z_enc.new_zeros(*input_ids.shape, self.model.llm.config.hidden_size)
         #debug：目前这里报错
         inputs_embeds[input_ids == image_token_idx] = z_enc.flatten(0, 1)
-        inputs_embeds[input_ids != image_token_idx] = self.model.llm.get_input_embeddings()(
             input_ids[input_ids != image_token_idx]
         )
@@ -312,7 +312,7 @@ class Inferencer:
             attention_mask = attention_mask.expand(bsz, -1)
         # 7) Sampling
-        samples = self.model.sample(
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             num_iter=num_iter,

         # 2) Encode image and extract features
         with torch.no_grad():
+            x_enc = model.encode(img_tensor)
+            x_con, z_enc = model.extract_visual_feature(x_enc)
         # 3) Prepare text prompts
         m = n = self.image_size // 16
         cfg_prompt_str = cfg_prompt_str.replace('<image>', '<image>' * image_length)
         # 4) Tokenize and prepare inputs
+        input_ids = model.tokenizer.encode(
             prompt_str, add_special_tokens=True, return_tensors='pt')[0].cuda()
         if cfg != 1.0:
+            null_input_ids = model.tokenizer.encode(
                 cfg_prompt_str, add_special_tokens=True, return_tensors='pt')[0].cuda()
             attention_mask = pad_sequence(
                 [torch.ones_like(input_ids), torch.ones_like(null_input_ids)],
                 batch_first=True, padding_value=0).to(torch.bool)
             input_ids = pad_sequence(
                 [input_ids, null_input_ids],
+                batch_first=True, padding_value=model.tokenizer.eos_token_id)
         else:
             input_ids = input_ids[None]
             attention_mask = torch.ones_like(input_ids).to(torch.bool)
             z_enc = torch.cat([z_enc, z_enc], dim=0)
             x_con = torch.cat([x_con, x_con], dim=0)
+        inputs_embeds = z_enc.new_zeros(*input_ids.shape, model.llm.config.hidden_size)
         #debug：目前这里报错
         inputs_embeds[input_ids == image_token_idx] = z_enc.flatten(0, 1)
+        inputs_embeds[input_ids != image_token_idx] = model.llm.get_input_embeddings()(
             input_ids[input_ids != image_token_idx]
         )
             attention_mask = attention_mask.expand(bsz, -1)
         # 7) Sampling
+        samples = model.sample(
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             num_iter=num_iter,