allenai
/

superbpe-experimental_v0.1.0

Model card Files Files and versions

undfined commited on Apr 17

Commit

41ca44d

·

verified ·

1 Parent(s): cb21551

Added tokens again

Files changed (2) hide show

special_tokens_map.json +27 -30
tokenizer.json +2 -2

special_tokens_map.json CHANGED Viewed

@@ -1,54 +1,51 @@
 {
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
-    "single_word": false,
-    "special": true
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
-    "single_word": false,
-    "special": true
   },
   "pad_token": {
     "content": "<|pad|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
-    "single_word": false,
-    "special": true
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
-    "single_word": false,
-    "special": true
-  },
-  "additional_special_tokens": [
-    "<|fim_prefix|>",
-    "<|fim_middle|>",
-    "<|fim_suffix|>",
-    "|||PHONE_NUMBER|||",
-    "|||EMAIL_ADDRESS|||",
-    "|||IP_ADDRESS|||",
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|extra_id_0|>",
-    "<|extra_id_1|>",
-    "<|extra_id_2|>",
-    "<|extra_id_3|>",
-    "<|extra_id_4|>",
-    "<|extra_id_5|>",
-    "<|extra_id_6|>",
-    "<|extra_id_7|>",
-    "<|extra_id_8|>",
-    "<|extra_id_9|>",
-    "<|extra_id_10|>"
-  ]
 }

 {
+  "additional_special_tokens": [
+    "<|fim_prefix|>",
+    "<|fim_middle|>",
+    "<|fim_suffix|>",
+    "|||PHONE_NUMBER|||",
+    "|||EMAIL_ADDRESS|||",
+    "|||IP_ADDRESS|||",
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|extra_id_0|>",
+    "<|extra_id_1|>",
+    "<|extra_id_2|>",
+    "<|extra_id_3|>",
+    "<|extra_id_4|>",
+    "<|extra_id_5|>",
+    "<|extra_id_6|>",
+    "<|extra_id_7|>",
+    "<|extra_id_8|>",
+    "<|extra_id_9|>",
+    "<|extra_id_10|>"
+  ],
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
+    "rstrip": false,
+    "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
+    "single_word": false
   },
   "pad_token": {
     "content": "<|pad|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
+    "single_word": false
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be7041eb9d5f95ffaf1ce82ffa97c9f8bd85b0883127b182a6ca16a595a2738b
-size 13487219

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f403d793a7ba69e4f49a40e7d592a5d4d1ac4f4e7224f18bc608ef268db68b
+size 13491334