Spaces:

tymbos
/

GPT2-PBE

Sleeping

tymbos commited on Mar 27

Commit

29cc980

verified ·

1 Parent(s): 59d3e79

Update train_tokenizer.py

Files changed (1) hide show

train_tokenizer.py CHANGED Viewed

@@ -1,32 +1,27 @@
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
-from datasets import load_dataset
-import re
-# Προσαρμοσμένος Pre-tokenizer για κώδικα
-code_regex = r"""'(?:[^'\\]|\\.)*'|"(?:[^"\\]|\\.)*"|//.*|\/\*[\s\S]*?\*\/|\b(?:if|else|for|while|return|function)\b|[<>]=?|\+{1,2}|-{1,2}|&&|\|\||[!*/%^&|=-]|\d+\.\d+|\d+|\.\d+|[:;,.{}[\]()]|\p{L}+|\p{N}+|\s+|\S"""
-def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
-    # Προχωρημένο Normalization
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
-        #normalizers.StripAccents()  # Προαιρετικό για τόνους
     ])
-    # Προσαρμοσμένος Pre-tokenizer με Split
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-        pre_tokenizers.Split(pattern=re.compile(code_regex), behavior='isolated'),
-        pre_tokenizers.ByteLevel(add_prefix_space=False)
     ])
-    # Προχωρημένος Trainer
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,
-        special_tokens=["<|endoftext|>", "<pad>", "<unk>", "<mask>"],
-        continuing_subword_prefix="",
-        show_progress=True
     )
     tokenizer.train_from_iterator(iterator, trainer=trainer)

 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
+def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
+    # Normalization για ελληνικά και unicode
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
+        normalizers.StripAccents()
     ])
+    # Προχωρημένος pre-tokenizer για μικτά κείμενα
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
+        pre_tokenizers.WhitespaceSplit(),
+        pre_tokenizers.Punctuation(),
+        pre_tokenizers.Digits(individual_digits=True)
     ])
+    # Ειδικά tokens για ιστορικά κείμενα
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,
+        special_tokens=["<|endoftext|>", "<pad>", "<unk>", "<mask>", "[CITATION]"],
+        continuing_subword_prefix=""
     )
     tokenizer.train_from_iterator(iterator, trainer=trainer)