Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 27

Commit

869fcd2

verified ·

1 Parent(s): 7f59263

Update train_tokenizer.py

Browse files

Files changed (1) hide show

train_tokenizer.py +23 -16

train_tokenizer.py CHANGED Viewed

@@ -1,37 +1,40 @@
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 from datasets import load_dataset
-import re
-# Προσαρμοσμένος Pre-tokenizer για κώδικα και πολυγλωσσικό κείμενο
 code_regex = r"""(?x:
-    //.*?$|/\*.*?\*/|  # Σχόλια
-    "(?:\\.|[^\\"])*"|  # Strings
-    '(?:\\.|[^\\'])*'|  # Chars
-    \b(?:if|else|for|while|return|function)\b|  # Keywords
     [<>]=?|\+\+|--|&&|\|\||[-+*/%=&|^~!]=?|  # Operators
-    \d+\.?\d*|\.\d+|  # Αριθμοί
-    [{}[\](),.;:]|  # Σύμβολα
-    \p{L}+|\p{N}+|  # Unicode letters/numbers
-    \s+|  # Whitespace
-    \S  # Άλλα
 )"""
 def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
-    # Προχωρημένο Normalization
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
-        normalizers.StripAccents()  # Προαιρετικό για τόνους
     ])
-    # Προσαρμοσμένος Pre-tokenizer
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-        pre_tokenizers.Regex(code_regex),
         pre_tokenizers.ByteLevel(add_prefix_space=False)
     ])
-    # Προχωρημένος Trainer
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,
@@ -40,6 +43,10 @@ def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
         show_progress=True
     )
     tokenizer.train_from_iterator(iterator, trainer=trainer)
     tokenizer.decoder = decoders.ByteLevel()
     return tokenizer

+import regex  # Χρησιμοποιείται για την υποστήριξη Unicode properties στο regex
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 from datasets import load_dataset
+# Ορισμός custom regex για κώδικα και πολυγλωσσικό κείμενο.
+# Χρησιμοποιεί το module regex που υποστηρίζει \p{L} και \p{N}.
 code_regex = r"""(?x:
+    //.*?$|                # Σχόλια τύπου //
+    /\*.*?\*/|             # Σχόλια τύπου /* */
+    "(?:\\.|[^\\"])*"|     # Strings με διπλά εισαγωγικά
+    '(?:\\.|[^\\'])*'|     # Strings με μονά εισαγωγικά
+    \b(?:if|else|for|while|return|function)\b|  # Κλειδικά για κώδικα
     [<>]=?|\+\+|--|&&|\|\||[-+*/%=&|^~!]=?|  # Operators
+    \d+\.?\d*|\.\d+|       # Αριθμοί
+    [{}[\](),.;:]|         # Σύμβολα
+    \p{L}+|\p{N}+|         # Unicode γράμματα/αριθμοί
+    \s+|                   # Διαστήματα
+    \S                     # Οποιοσδήποτε άλλος χαρακτήρας
 )"""
 def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
+    # Δημιουργία του Tokenizer με το μοντέλο BPE και ειδικό token για Unknown.
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
+    # Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
+        normalizers.StripAccents()  # Προαιρετικό: αφαιρεί τόνους
     ])
+    # Ορισμός custom pre-tokenizer με χρήση regex και ByteLevel
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
+        pre_tokenizers.Regex(pattern=code_regex),
         pre_tokenizers.ByteLevel(add_prefix_space=False)
     ])
+    # Ορισμός του Trainer για το BPE
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,
         show_progress=True
     )
+    # Εκπαίδευση του tokenizer από iterator κειμένων
     tokenizer.train_from_iterator(iterator, trainer=trainer)
+    # Ορισμός decoder ώστε να αντιστρέφεται σωστά η κωδικοποίηση
     tokenizer.decoder = decoders.ByteLevel()
     return tokenizer