Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 27

Commit

e1e86f9

verified ·

1 Parent(s): 869fcd2

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -23

app.py CHANGED Viewed

@@ -2,47 +2,58 @@ import gradio as gr
 import numpy as np
 import matplotlib.pyplot as plt
 from io import BytesIO
 from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
 from datasets import load_dataset
-import tempfile
-import os
 def create_iterator(files=None, dataset_name=None, split="train", streaming=True):
     if dataset_name:
         dataset = load_dataset(dataset_name, split=split, streaming=streaming)
         for example in dataset:
             yield example['text']
     elif files:
         for file in files:
             with open(file.name, 'r', encoding='utf-8') as f:
                 for line in f:
-                    yield line.strip()
 def enhanced_validation(tokenizer, test_text):
     encoded = tokenizer.encode(test_text)
     decoded = tokenizer.decode(encoded.ids)
-    # Ανάλυση Unknown Tokens
     unknown_tokens = sum(1 for t in encoded.tokens if t == "<unk>")
-    unknown_percent = unknown_tokens / len(encoded.tokens) * 100 if encoded.tokens else 0
-    # Κατανομή μηκών tokens
     token_lengths = [len(t) for t in encoded.tokens]
     avg_length = np.mean(token_lengths) if token_lengths else 0
-    # Έλεγχος code coverage
     code_symbols = ['{', '}', '(', ')', ';', '//', 'printf']
-    code_coverage = {sym: sym in test_text and sym in encoded.tokens for sym in code_symbols}
-    # Δημιουργία histogram
     fig = plt.figure()
-    plt.hist(token_lengths, bins=20)
-    plt.xlabel('Token Length')
-    plt.ylabel('Frequency')
     img_buffer = BytesIO()
     plt.savefig(img_buffer, format='png')
     plt.close()
     return {
         "roundtrip_success": test_text == decoded,
@@ -53,11 +64,14 @@ def enhanced_validation(tokenizer, test_text):
     }
 def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
-    # Επιβεβαίωση εισόδων
     if not files and not dataset_name:
         raise gr.Error("Πρέπει να παρέχετε αρχεία ή όνομα dataset!")
-    # Δημιουργία iterator με streaming
     iterator = create_iterator(files, dataset_name, split)
     try:
@@ -65,21 +79,21 @@ def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")
-    # Αποθήκευση και φόρτωση για validation
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as f:
-        tokenizer.save(f.name)
-        trained_tokenizer = Tokenizer.from_file(f.name)
-    os.unlink(f.name)
-    # Εκτενής επικύρωση
     validation = enhanced_validation(trained_tokenizer, test_text)
     return {
-        "validation_metrics": {k:v for k,v in validation.items() if k != "token_length_distribution"},
         "histogram": validation["token_length_distribution"]
     }
-# Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("## Προχωρημένος BPE Tokenizer Trainer")
@@ -101,7 +115,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         with gr.Column():
             results_json = gr.JSON(label="Μετρικές")
-            results_plot = gr.Image(label="Κατανομή Μηκών Tokens")
     train_btn.click(
         fn=train_and_test,

 import numpy as np
 import matplotlib.pyplot as plt
 from io import BytesIO
+import tempfile
+import os
 from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
 from datasets import load_dataset
 def create_iterator(files=None, dataset_name=None, split="train", streaming=True):
+    """
+    Δημιουργεί έναν iterator που διαβάζει κείμενο είτε από τοπικά αρχεία είτε από Hugging Face Dataset.
+    """
     if dataset_name:
         dataset = load_dataset(dataset_name, split=split, streaming=streaming)
         for example in dataset:
+            # Αν το πεδίο με το κείμενο ονομάζεται διαφορετικά, τροποποιήστε εδώ
             yield example['text']
     elif files:
         for file in files:
             with open(file.name, 'r', encoding='utf-8') as f:
                 for line in f:
+                    if line.strip():
+                        yield line.strip()
 def enhanced_validation(tokenizer, test_text):
+    """
+    Εκτελεί επικύρωση του tokenizer με ένα roundtrip test και παρέχει στατιστικά.
+    """
     encoded = tokenizer.encode(test_text)
     decoded = tokenizer.decode(encoded.ids)
+    # Μέτρηση των Unknown tokens
     unknown_tokens = sum(1 for t in encoded.tokens if t == "<unk>")
+    unknown_percent = (unknown_tokens / len(encoded.tokens) * 100) if encoded.tokens else 0
+    # Υπολογισμός μήκους των tokens
     token_lengths = [len(t) for t in encoded.tokens]
     avg_length = np.mean(token_lengths) if token_lengths else 0
+    # Έλεγχος κάλυψης κώδικα: παραδείγματα συμβόλων
     code_symbols = ['{', '}', '(', ')', ';', '//', 'printf']
+    code_coverage = {sym: (sym in test_text and sym in encoded.tokens) for sym in code_symbols}
+    # Δημιουργία histogram για την κατανομή του μήκους των tokens
     fig = plt.figure()
+    plt.hist(token_lengths, bins=20, color='skyblue', edgecolor='black')
+    plt.xlabel('Μήκος Token')
+    plt.ylabel('Συχνότητα')
+    plt.title('Κατανομή Μήκους Tokens')
     img_buffer = BytesIO()
     plt.savefig(img_buffer, format='png')
     plt.close()
+    img_buffer.seek(0)
     return {
         "roundtrip_success": test_text == decoded,
     }
 def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
+    """
+    Συνδυάζει τη διαδικασία εκπαίδευσης του tokenizer και την επικύρωση του με ένα δοκιμαστικό κείμενο.
+    """
+    # Επιβεβαίωση εισόδων: πρέπει να παρέχεται είτε αρχείο είτε όνομα dataset
     if not files and not dataset_name:
         raise gr.Error("Πρέπει να παρέχετε αρχεία ή όνομα dataset!")
+    # Δημιουργία iterator (με streaming για αποδοτική ανάγνωση)
     iterator = create_iterator(files, dataset_name, split)
     try:
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")
+    # Αποθήκευση και φόρτωση του tokenizer για επικύρωση
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as tmp:
+        tokenizer.save(tmp.name)
+        trained_tokenizer = Tokenizer.from_file(tmp.name)
+    os.unlink(tmp.name)
+    # Εκτενής επικύρωση με το δοκιμαστικό κείμενο
     validation = enhanced_validation(trained_tokenizer, test_text)
     return {
+        "validation_metrics": {k: v for k, v in validation.items() if k != "token_length_distribution"},
         "histogram": validation["token_length_distribution"]
     }
+# Δημιουργία του Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("## Προχωρημένος BPE Tokenizer Trainer")
         with gr.Column():
             results_json = gr.JSON(label="Μετρικές")
+            results_plot = gr.Image(label="Κατανομή Μήκους Tokens")
     train_btn.click(
         fn=train_and_test,