Spaces:

tymbos
/

GPT2-PBE

Sleeping

tymbos commited on Mar 27

Commit

59d3e79

verified ·

1 Parent(s): 1c51cb8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,21 +9,29 @@ from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
 from datasets import load_dataset
-def create_iterator(files=None, dataset_name=None, split="train", streaming=True):
-    """
-    Δημιουργεί έναν iterator που διαβάζει κείμενο είτε από τοπικά αρχεία είτε από Hugging Face Dataset.
-    """
     if dataset_name:
-        dataset = load_dataset(dataset_name, split=split, streaming=streaming)
-        for example in dataset:
-            # Αν το πεδίο με το κείμενο ονομάζεται διαφορετικά, τροποποιήστε εδώ
-            yield example['text']
     elif files:
         for file in files:
             with open(file.name, 'r', encoding='utf-8') as f:
                 for line in f:
-                    if line.strip():
-                        yield line.strip()
 def enhanced_validation(tokenizer, test_text):
     """
@@ -97,7 +105,7 @@ def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
         "histogram": validation["token_length_distribution"]
     }
-# Δημιουργία του Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("## Προχωρημένος BPE Tokenizer Trainer")

 from tokenizers import Tokenizer
 from datasets import load_dataset
+def create_iterator(files=None, dataset_name=None, dataset_config=None, split="train", streaming=True):
     if dataset_name:
+        try:
+            # Επεξεργασία ονόματος dataset με έλεγχο εγκυρότητας
+            if not re.match(r'^[\w\-\.]+(/[\w\-\.]+)*$', dataset_name):
+                raise ValueError(f"Μη έγκυρο όνομα dataset: {dataset_name}")
+            # Φόρτωση dataset με config αν υπάρχει
+            dataset = load_dataset(
+                dataset_name,
+                name=dataset_config if dataset_config else None,
+                split=split,
+                streaming=streaming
+            )
+            for example in dataset:
+                yield example['text']
+        except Exception as e:
+            raise gr.Error(f"Σφάλμα φόρτωσης dataset: {str(e)}")
     elif files:
         for file in files:
             with open(file.name, 'r', encoding='utf-8') as f:
                 for line in f:
+                    yield line.strip()
 def enhanced_validation(tokenizer, test_text):
     """
         "histogram": validation["token_length_distribution"]
     }
+# Ενημερωμένο Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("## Προχωρημένος BPE Tokenizer Trainer")