Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 27

Commit

d18ea54

verified ·

1 Parent(s): e1e86f9

Update train_tokenizer.py

Browse files

Files changed (1) hide show

train_tokenizer.py +15 -4

train_tokenizer.py CHANGED Viewed

@@ -1,9 +1,9 @@
-import regex  # Χρησιμοποιείται για την υποστήριξη Unicode properties στο regex
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 from datasets import load_dataset
 # Ορισμός custom regex για κώδικα και πολυγλωσσικό κείμενο.
-# Χρησιμοποιεί το module regex που υποστηρίζει \p{L} και \p{N}.
 code_regex = r"""(?x:
     //.*?$|                # Σχόλια τύπου //
     /\*.*?\*/|             # Σχόλια τύπου /* */
@@ -18,6 +18,14 @@ code_regex = r"""(?x:
     \S                     # Οποιοσδήποτε άλλος χαρακτήρας
 )"""
 def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
     # Δημιουργία του Tokenizer με το μοντέλο BPE και ειδικό token για Unknown.
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
@@ -28,9 +36,12 @@ def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
         normalizers.StripAccents()  # Προαιρετικό: αφαιρεί τόνους
     ])
-    # Ορισμός custom pre-tokenizer με χρήση regex και ByteLevel
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-        pre_tokenizers.Regex(pattern=code_regex),
         pre_tokenizers.ByteLevel(add_prefix_space=False)
     ])

+import regex  # Βιβλιοθήκη για υποστήριξη Unicode regex
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
+from tokenizers.pre_tokenizers import PreTokenizer
 from datasets import load_dataset
 # Ορισμός custom regex για κώδικα και πολυγλωσσικό κείμενο.
 code_regex = r"""(?x:
     //.*?$|                # Σχόλια τύπου //
     /\*.*?\*/|             # Σχόλια τύπου /* */
     \S                     # Οποιοσδήποτε άλλος χαρακτήρας
 )"""
+def custom_pre_tokenizer(pretokenized_string):
+    """
+    Custom pre-tokenizer που χρησιμοποιεί το regex για να εξάγει tokens με offsets.
+    """
+    # Εφαρμόζουμε το regex για να βρούμε τα tokens
+    tokens_with_offsets = [(m.group(), m.span()) for m in regex.finditer(code_regex, pretokenized_string.sequence)]
+    pretokenized_string.split(lambda: tokens_with_offsets)
 def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
     # Δημιουργία του Tokenizer με το μοντέλο BPE και ειδικό token για Unknown.
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
         normalizers.StripAccents()  # Προαιρετικό: αφαιρεί τόνους
     ])
+    # Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε
+    tokenizer.pre_tokenizer = PreTokenizer.custom(custom_pre_tokenizer)
+    # Επιπλέον χρήση του ByteLevel pre-tokenizer για συμβατότητα με το GPT-2
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
+        tokenizer.pre_tokenizer,
         pre_tokenizers.ByteLevel(add_prefix_space=False)
     ])