Spaces:

Itsme5
/

tokenGPT-2

Runtime error

Itsme5 commited on Mar 27

Commit

283d1fe

verified ·

1 Parent(s): 75183a7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,12 +21,14 @@ async def train_tokenizer():
     vocab_size = 50000
     min_frequency = 2
-    dataset_greek = load_dataset("oscar", "unshuffled_deduplicated_el", split="train", streaming=True)
-    dataset_english = load_dataset("wikipedia", "20220301.en", split="train", streaming=True)
     try:
         dataset_code = load_dataset("bigcode/the-stack", split="train", streaming=True)
-        datasets_list = [dataset_greek, dataset_english, dataset_code]
     except:
         datasets_list = [dataset_greek, dataset_english]

     vocab_size = 50000
     min_frequency = 2
+    #dataset_greek = load_dataset("oscar", "unshuffled_deduplicated_el", split="train", streaming=True)
+    dataset_greek = load_dataset("wikipedia", "20231101.el", split="train", streaming=True)
+    dataset_english = load_dataset("wikipedia", "20231101.en", split="train", streaming=True)
     try:
         dataset_code = load_dataset("bigcode/the-stack", split="train", streaming=True)
+        datasets_list = [dataset_greek, dataset_english]
     except:
         datasets_list = [dataset_greek, dataset_english]