Spaces:

mallepally
/

MultimodalGPT

Build error

YH commited on May 11, 2023

Commit

49437cb

unverified ·

1 Parent(s): d84c342

Fix Bug in Dataset Building Process (#18)

* Fix dataset build bug

* Fix lang dataset attr

Files changed (2) hide show

mmgpt/datasets/builder.py CHANGED Viewed

@@ -23,7 +23,7 @@ def build_dataset(dataset_config, **kwargs):
         return ConcatDataset(datasets)
     dataset_type = dataset_config.pop("type")
     sample = dataset_config.pop("sample", -1)
-    if dataset_config.type == "llava":
         dataset = LlavaDataset(
             **dataset_config,
             **kwargs,

         return ConcatDataset(datasets)
     dataset_type = dataset_config.pop("type")
     sample = dataset_config.pop("sample", -1)
+    if dataset_type == "llava":
         dataset = LlavaDataset(
             **dataset_config,
             **kwargs,

mmgpt/train/instruction_finetune.py CHANGED Viewed

@@ -172,7 +172,7 @@ def main():
         raise ValueError("dataset_config must be specified")
     dataset = build_dataset(
-        config=dataset_config.visual_datasets,
         vis_processor=image_processor,
         tokenizer=tokenizer,
     )
@@ -185,9 +185,9 @@ def main():
     )
     # build language dataset and dataloader for multi-modality training
-    if dataset_config.language_datasets is not None and len(args.language_datasets) > 0:
         lang_dataset = build_dataset(
-            config=dataset_config.language_datasets,
             tokenizer=tokenizer,
         )
         lang_dataloader = DataLoader(

         raise ValueError("dataset_config must be specified")
     dataset = build_dataset(
+        dataset_config=dataset_config.visual_datasets,
         vis_processor=image_processor,
         tokenizer=tokenizer,
     )
     )
     # build language dataset and dataloader for multi-modality training
+    if dataset_config.get('language_datasets') is not None and len(args.language_datasets) > 0:
         lang_dataset = build_dataset(
+            dataset_config=dataset_config.language_datasets,
             tokenizer=tokenizer,
         )
         lang_dataloader = DataLoader(