Spaces:

unitxt
/

metric

Running

App Files Files Community

Elron commited on Dec 3, 2023

Commit

1083665

1 Parent(s): 17a636b

Upload dataset.py with huggingface_hub

Browse files

Files changed (1) hide show

dataset.py +26 -19

dataset.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import os
 import datasets
@@ -9,7 +10,6 @@ from .blocks import __file__ as _
 from .card import __file__ as _
 from .catalog import __file__ as _
 from .collections import __file__ as _
-from .common import __file__ as _
 from .dataclass import __file__ as _
 from .dict_utils import __file__ as _
 from .file_utils import __file__ as _
@@ -45,7 +45,7 @@ from .validate import __file__ as _
 from .version import __file__ as _
 from .version import version
-__default_recipe__ = "common_recipe"
 def fetch(artifact_name):
@@ -57,9 +57,7 @@ def fetch(artifact_name):
 def parse(query: str):
-    """
-    Parses a query of the form 'key1=value1,key2=value2,...' into a dictionary.
-    """
     result = {}
     kvs = query.split(",")
     if len(kvs) == 0:
@@ -68,8 +66,14 @@ def parse(query: str):
         )
     for kv in kvs:
         key_val = kv.split("=")
-        if len(key_val) != 2 or len(key_val[0].strip()) == 0 or len(key_val[1].strip()) == 0:
-            raise ValueError('Illegal query: "{query}" with wrong assignment "{kv}" should be of the form: key=value.')
         key, val = key_val
         if val.isdigit():
             result[key] = int(val)
@@ -97,25 +101,23 @@ class Dataset(datasets.GeneratorBasedBuilder):
     """TODO: Short description of my dataset."""
     VERSION = datasets.Version(version)
-    builder_configs = {}
     @property
     def generators(self):
         if not hasattr(self, "_generators") or self._generators is None:
             try:
-                from unitxt.dataset import (
-                    get_dataset_artifact as get_dataset_artifact_installed,
-                )
                 unitxt_installed = True
             except ImportError:
                 unitxt_installed = False
             if unitxt_installed:
-                print("Loading with installed unitxt library...")
                 dataset = get_dataset_artifact_installed(self.config.name)
             else:
-                print("Loading with installed unitxt library...")
                 dataset = get_dataset_artifact(self.config.name)
             self._generators = dataset()
@@ -126,13 +128,18 @@ class Dataset(datasets.GeneratorBasedBuilder):
         return datasets.DatasetInfo()
     def _split_generators(self, _):
-        return [datasets.SplitGenerator(name=name, gen_kwargs={"split_name": name}) for name in self.generators.keys()]
     def _generate_examples(self, split_name):
         generator = self.generators[split_name]
-        for i, row in enumerate(generator):
-            yield i, row
-    def _download_and_prepare(self, dl_manager, verification_mode, **prepare_splits_kwargs):
-        result = super()._download_and_prepare(dl_manager, "no_checks", **prepare_splits_kwargs)
-        return result

+import logging
 import os
 import datasets
 from .card import __file__ as _
 from .catalog import __file__ as _
 from .collections import __file__ as _
 from .dataclass import __file__ as _
 from .dict_utils import __file__ as _
 from .file_utils import __file__ as _
 from .version import __file__ as _
 from .version import version
+__default_recipe__ = "standard_recipe"
 def fetch(artifact_name):
 def parse(query: str):
+    """Parses a query of the form 'key1=value1,key2=value2,...' into a dictionary."""
     result = {}
     kvs = query.split(",")
     if len(kvs) == 0:
         )
     for kv in kvs:
         key_val = kv.split("=")
+        if (
+            len(key_val) != 2
+            or len(key_val[0].strip()) == 0
+            or len(key_val[1].strip()) == 0
+        ):
+            raise ValueError(
+                f'Illegal query: "{query}" with wrong assignment "{kv}" should be of the form: key=value.'
+            )
         key, val = key_val
         if val.isdigit():
             result[key] = int(val)
     """TODO: Short description of my dataset."""
     VERSION = datasets.Version(version)
     @property
     def generators(self):
         if not hasattr(self, "_generators") or self._generators is None:
             try:
+                from unitxt.dataset import \
+                    get_dataset_artifact as get_dataset_artifact_installed
                 unitxt_installed = True
             except ImportError:
                 unitxt_installed = False
             if unitxt_installed:
+                logging.info("Loading with installed unitxt library...")
                 dataset = get_dataset_artifact_installed(self.config.name)
             else:
+                logging.info("Loading with installed unitxt library...")
                 dataset = get_dataset_artifact(self.config.name)
             self._generators = dataset()
         return datasets.DatasetInfo()
     def _split_generators(self, _):
+        return [
+            datasets.SplitGenerator(name=name, gen_kwargs={"split_name": name})
+            for name in self.generators.keys()
+        ]
     def _generate_examples(self, split_name):
         generator = self.generators[split_name]
+        yield from enumerate(generator)
+    def _download_and_prepare(
+        self, dl_manager, verification_mode, **prepare_splits_kwargs
+    ):
+        return super()._download_and_prepare(
+            dl_manager, "no_checks", **prepare_splits_kwargs
+        )