Update tiny models for BrosForTokenClassification

#10
Files changed (5) hide show
  1. added_tokens.json +7 -0
  2. pytorch_model.bin +1 -1
  3. tokenizer.json +332 -332
  4. tokenizer_config.json +45 -0
  5. vocab.txt +279 -279
added_tokens.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "[CLS]": 2,
3
+ "[MASK]": 4,
4
+ "[PAD]": 0,
5
+ "[SEP]": 3,
6
+ "[UNK]": 1
7
+ }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e9c4212ae5de0eb676d2321746fd29e3ea59d3596ebdbb4aa753ffdc0db155e1
3
  size 910024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5656f779456c0cb3415803add241022c38614aab965192e0d048ee981970b066
3
  size 910024
tokenizer.json CHANGED
@@ -935,340 +935,340 @@
935
  "/": 787,
936
  "3": 788,
937
  "~": 789,
938
- "##a": 790,
939
  "##l": 791,
940
- "##k": 792,
941
- "##n": 793,
942
- "##s": 794,
943
- "##r": 795,
944
- "##i": 796,
945
- "##e": 797,
946
- "##g": 798,
947
- "##t": 799,
948
- "##d": 800,
949
- "##o": 801,
950
- "##u": 802,
951
- "##v": 803,
952
- "##y": 804,
953
- "##c": 805,
954
- "##h": 806,
955
- "##m": 807,
956
- "##p": 808,
957
- "##2": 809,
958
- "##1": 810,
959
- "##3": 811,
960
- "##x": 812,
961
- "##q": 813,
962
- "##f": 814,
963
- "##b": 815,
964
- "##z": 816,
965
- "##9": 817,
966
- "##6": 818,
967
- "##0": 819,
968
- "##7": 820,
969
- "##w": 821,
970
- "##5": 822,
971
- "##4": 823,
972
- "##æ": 824,
973
- "##j": 825,
974
- "##8": 826,
975
- "##っ": 827,
976
- "##こ": 828,
977
- "##ん": 829,
978
- "##ォ": 830,
979
- "##ル": 831,
980
- "##テ": 832,
981
- "##η": 833,
982
- "##μ": 834,
983
  "##τ": 835,
984
- "##ρ": 836,
985
- "##α": 837,
986
- "##ा": 838,
987
- "##न": 839,
988
- "##れ": 840,
989
- "##い": 841,
990
- "##ν": 842,
991
- "##פ": 843,
992
- "##ה": 844,
993
- "##ي": 845,
994
- "##ف": 846,
995
- "##ا": 847,
996
- "##ł": 848,
997
- "##ร": 849,
998
- "##р": 850,
999
- "##е": 851,
1000
- "##м": 852,
1001
- "##а": 853,
1002
- "##ه": 854,
1003
- "##ø": 855,
1004
- "##ש": 856,
1005
- "##מ": 857,
1006
- "##צ": 858,
1007
- "##ן": 859,
1008
- "##л": 860,
1009
- "##х": 861,
1010
- "##თ": 862,
1011
- "##ა": 863,
1012
- "##ვ": 864,
1013
- "##რ": 865,
1014
- "##ი": 866,
1015
- "##ल": 867,
1016
- "##द": 868,
1017
- "##ß": 869,
1018
- "##ʻ": 870,
1019
- "##ε": 871,
1020
- "##ο": 872,
1021
- "##ള": 873,
1022
- "##し": 874,
1023
- "##も": 875,
1024
- "##ხ": 876,
1025
- "##ე": 877,
1026
- "##დ": 878,
1027
- "##ˈ": 879,
1028
- "##ɪ": 880,
1029
- "##ו": 881,
1030
- "##ף": 882,
1031
- "##อ": 883,
1032
- "##ก": 884,
1033
- "##ว": 885,
1034
- "##υ": 886,
1035
- "##є": 887,
1036
- "##λ": 888,
1037
- "##ς": 889,
1038
- "##ɜ": 890,
1039
- "##ː": 891,
1040
- "##き": 892,
1041
- "##о": 893,
1042
- "##с": 894,
1043
- "##п": 895,
1044
- "##д": 896,
1045
- "##н": 897,
1046
- "##く": 898,
1047
- "##り": 899,
1048
- "##あ": 900,
1049
- "##う": 901,
1050
- "##β": 902,
1051
- "##δ": 903,
1052
- "##ω": 904,
1053
- "##र": 905,
1054
- "##ɡ": 906,
1055
- "##ı": 907,
1056
- "##ს": 908,
1057
- "##ტ": 909,
1058
- "##ჱ": 910,
1059
- "##セ": 911,
1060
- "##リ": 912,
1061
- "##オ": 913,
1062
- "##ス": 914,
1063
- "##ਲ": 915,
1064
- "##ਾ": 916,
1065
- "##ਹ": 917,
1066
- "##ل": 918,
1067
- "##ب": 919,
1068
- "##ن": 920,
1069
- "##ლ": 921,
1070
- "##მ": 922,
1071
- "##წ": 923,
1072
- "##ფ": 924,
1073
- "##س": 925,
1074
- "##د": 926,
1075
- "##م": 927,
1076
- "##ت": 928,
1077
- "##ɑ": 929,
1078
- "##ハ": 930,
1079
- "##ト": 931,
1080
- "##ش": 932,
1081
- "##خ": 933,
1082
- "##ゥ": 934,
1083
- "##ナ": 935,
1084
- "##ə": 936,
1085
- "##ซ": 937,
1086
- "##ッ": 938,
1087
- "##ラ": 939,
1088
- "##ー": 940,
1089
- "##と": 941,
1090
- "##в": 942,
1091
- "##т": 943,
1092
- "##к": 944,
1093
- "##и": 945,
1094
- "##ל": 946,
1095
- "##χ": 947,
1096
- "##ء": 948,
1097
- "##か": 949,
1098
- "##ാ": 950,
1099
- "##ഹ": 951,
1100
- "##უ": 952,
1101
- "##ロ": 953,
1102
- "##ล": 954,
1103
- "##ฮ": 955,
1104
- "##エ": 956,
1105
- "##タ": 957,
1106
- "##イ": 958,
1107
- "##ю": 959,
1108
- "##з": 960,
1109
- "##י": 961,
1110
- "##ס": 962,
1111
- "##ɾ": 963,
1112
- "##シ": 964,
1113
- "##ʔ": 965,
1114
- "##ɒ": 966,
1115
- "##レ": 967,
1116
- "##チ": 968,
1117
- "##ψ": 969,
1118
- "##ι": 970,
1119
- "##フ": 971,
1120
- "##ェ": 972,
1121
- "##ィ": 973,
1122
- "##ر": 974,
1123
- "##º": 975,
1124
- "##ო": 976,
1125
- "##я": 977,
1126
- "##の": 978,
1127
- "##た": 979,
1128
- "##ま": 980,
1129
- "##ち": 981,
1130
- "##ゃ": 982,
1131
- "##ン": 983,
1132
- "##ク": 984,
1133
- "##đ": 985,
1134
- "##ウ": 986,
1135
- "##ァ": 987,
1136
- "##キ": 988,
1137
- "##ュ": 989,
1138
- "##ア": 990,
1139
- "##π": 991,
1140
- "##κ": 992,
1141
- "##ɛ": 993,
1142
- "##ʊ": 994,
1143
- "##ш": 995,
1144
- "##ц": 996,
1145
- "##ь": 997,
1146
- "##ᄇ": 998,
1147
- "##ᅮ": 999,
1148
- "##ᄃ": 1000,
1149
- "##ᅢ": 1001,
1150
- "##ᅡ": 1002,
1151
- "##ᆯ": 1003,
1152
- "##ᄅ": 1004,
1153
- "##ง": 1005,
1154
- "##พ": 1006,
1155
- "##ไ": 1007,
1156
- "##ช": 1008,
1157
- "##ย": 1009,
1158
- "##า": 1010,
1159
- "##เ": 1011,
1160
- "##ป": 1012,
1161
- "##ɐ": 1013,
1162
- "##ि": 1014,
1163
- "##ɫ": 1015,
1164
- "##な": 1016,
1165
- "##ミ": 1017,
1166
- "##ъ": 1018,
1167
- "##ж": 1019,
1168
- "##ภ": 1020,
1169
- "##ด": 1021,
1170
- "##ʃ": 1022,
1171
- "##3": 1023,
1172
- "##サ": 1024,
1173
- "##ქ": 1025,
1174
- "##ნ": 1026,
1175
- "##ع": 1027,
1176
- "##ة": 1028,
1177
- "##ゆ": 1029,
1178
- "##ら": 1030,
1179
- "##つ": 1031,
1180
- "##ذ": 1032,
1181
- "##व": 1033,
1182
- "##ह": 1034,
1183
- "##क": 1035,
1184
- "##ण": 1036,
1185
- "##स": 1037,
1186
- "##せ": 1038,
1187
- "##ツ": 1039,
1188
- "##ネ": 1040,
1189
- "##る": 1041,
1190
- "##ჳ": 1042,
1191
- "##ɔ": 1043,
1192
- "##ᵻ": 1044,
1193
- "##θ": 1045,
1194
- "##ग": 1046,
1195
- "##γ": 1047,
1196
- "##ョ": 1048,
1197
- "##ܕ": 1049,
1198
- "##ܝ": 1050,
1199
- "##ܢ": 1051,
1200
- "##ܬ": 1052,
1201
- "##ც": 1053,
1202
- "##ʿ": 1054,
1203
- "##す": 1055,
1204
- "##め": 1056,
1205
- "##は": 1057,
1206
- "##ム": 1058,
1207
- "##у": 1059,
1208
- "##ณ": 1060,
1209
- "##ม": 1061,
1210
- "##ต": 1062,
1211
- "##გ": 1063,
1212
- "##ল": 1064,
1213
- "##ჲ": 1065,
1214
- "##ひ": 1066,
1215
- "##œ": 1067,
1216
- "##ق": 1068,
1217
- "##ב": 1069,
1218
- "##ת": 1070,
1219
- "##א": 1071,
1220
- "##נ": 1072,
1221
- "##ð": 1073,
1222
- "##σ": 1074,
1223
- "##و": 1075,
1224
- "##ح": 1076,
1225
- "##ษ": 1077,
1226
- "##ฐ": 1078,
1227
- "##া": 1079,
1228
- "##হ": 1080,
1229
- "##ई": 1081,
1230
- "##ك": 1082,
1231
- "##ャ": 1083,
1232
- "##モ": 1084,
1233
- "##ニ": 1085,
1234
- "##ם": 1086,
1235
- "##ܠ": 1087,
1236
- "##ܗ": 1088,
1237
- "##ܐ": 1089,
1238
- "##ʒ": 1090,
1239
- "##ˌ": 1091,
1240
- "##ɽ": 1092,
1241
- "##ะ": 1093,
1242
- "##น": 1094,
1243
- "##г": 1095,
1244
- "##ɳ": 1096,
1245
- "##ы": 1097,
1246
- "##を": 1098,
1247
- "##แ": 1099,
1248
- "##お": 1100,
1249
- "##み": 1101,
1250
- "##わ": 1102,
1251
- "##ノ": 1103,
1252
- "##ξ": 1104,
1253
- "##ʁ": 1105,
1254
- "##ص": 1106,
1255
- "##ר": 1107,
1256
- "##カ": 1108,
1257
- "##ʲ": 1109,
1258
- "##ث": 1110,
1259
- "##ょ": 1111,
1260
- "##に": 1112,
1261
- "##ค": 1113,
1262
- "##ᅦ": 1114,
1263
- "##ᅩ": 1115,
1264
- "##ᆨ": 1116,
1265
- "##ᅵ": 1117,
1266
- "##ᆸ": 1118,
1267
- "##ᅧ": 1119,
1268
- "##ᆼ": 1120,
1269
- "##ᄋ": 1121,
1270
- "##ᆫ": 1122,
1271
- "##マ": 1123
1272
  }
1273
  }
1274
  }
 
935
  "/": 787,
936
  "3": 788,
937
  "~": 789,
938
+ "##i": 790,
939
  "##l": 791,
940
+ "##c": 792,
941
+ "##r": 793,
942
+ "##a": 794,
943
+ "##v": 795,
944
+ "##n": 796,
945
+ "##s": 797,
946
+ "##e": 798,
947
+ "##h": 799,
948
+ "##m": 800,
949
+ "##t": 801,
950
+ "##y": 802,
951
+ "##o": 803,
952
+ "##k": 804,
953
+ "##b": 805,
954
+ "##f": 806,
955
+ "##u": 807,
956
+ "##w": 808,
957
+ "##d": 809,
958
+ "##q": 810,
959
+ "##p": 811,
960
+ "##g": 812,
961
+ "##x": 813,
962
+ "##j": 814,
963
+ "##2": 815,
964
+ "##3": 816,
965
+ "##エ": 817,
966
+ "##ス": 818,
967
+ "##タ": 819,
968
+ "##テ": 820,
969
+ "##イ": 821,
970
+ "##z": 822,
971
+ "##8": 823,
972
+ "##ł": 824,
973
+ "##6": 825,
974
+ "##4": 826,
975
+ "##5": 827,
976
+ "##9": 828,
977
+ "##7": 829,
978
+ "##0": 830,
979
+ "##1": 831,
980
+ "##พ": 832,
981
+ "##α": 833,
982
+ "##ν": 834,
983
  "##τ": 835,
984
+ "##ο": 836,
985
+ "##κ": 837,
986
+ "##ρ": 838,
987
+ "##ω": 839,
988
+ "##ς": 840,
989
+ "##こ": 841,
990
+ "##と": 842,
991
+ "##ø": 843,
992
+ "##ß": 844,
993
+ "##レ": 845,
994
+ "##ー": 846,
995
+ "##ツ": 847,
996
+ "##お": 848,
997
+ "##り": 849,
998
+ "##י": 850,
999
+ "##ס": 851,
1000
+ "##ל": 852,
1001
+ "##ɛ": 853,
1002
+ "##ə": 854,
1003
+ "##ˈ": 855,
1004
+ "##ʊ": 856,
1005
+ "##ل": 857,
1006
+ "##ش": 858,
1007
+ "##ي": 859,
1008
+ "##خ": 860,
1009
+ "##の": 861,
1010
+ "##ま": 862,
1011
+ "##る": 863,
1012
+ "##ा": 864,
1013
+ "##न": 865,
1014
+ "##ラ": 866,
1015
+ "##ッ": 867,
1016
+ "##シ": 868,
1017
+ "##ュ": 869,
1018
+ "##β": 870,
1019
+ "##ъ": 871,
1020
+ "##з": 872,
1021
+ "##н": 873,
1022
+ "##е": 874,
1023
+ "##с": 875,
1024
+ "##и": 876,
1025
+ "##ɑ": 877,
1026
+ "##ː": 878,
1027
+ "##ാ": 879,
1028
+ "##ഹ": 880,
1029
+ "##ð": 881,
1030
+ "##ה": 882,
1031
+ "##ლ": 883,
1032
+ "##მ": 884,
1033
+ "##წ": 885,
1034
+ "##ი": 886,
1035
+ "##ფ": 887,
1036
+ "##ე": 888,
1037
+ "##ら": 889,
1038
+ "##ε": 890,
1039
+ "##ʻ": 891,
1040
+ "##ב": 892,
1041
+ "##ת": 893,
1042
+ "##א": 894,
1043
+ "##ו": 895,
1044
+ "##פ": 896,
1045
+ "##נ": 897,
1046
+ "##μ": 898,
1047
+ "##π": 899,
1048
+ "##ɒ": 900,
1049
+ "##ᵻ": 901,
1050
+ "##θ": 902,
1051
+ "##ɔ": 903,
1052
+ "##რ": 904,
1053
+ "##ს": 905,
1054
+ "##ტ": 906,
1055
+ "##ჱ": 907,
1056
+ "##æ": 908,
1057
+ "##ウ": 909,
1058
+ "##ァ": 910,
1059
+ "##ル": 911,
1060
+ "##キ": 912,
1061
+ "##リ": 913,
1062
+ "##ア": 914,
1063
+ "##3": 915,
1064
+ "##ɪ": 916,
1065
+ "##ャ": 917,
1066
+ "##モ": 918,
1067
+ "##ン": 919,
1068
+ "##つ": 920,
1069
+ "##う": 921,
1070
+ "##ذ": 922,
1071
+ "##ن": 923,
1072
+ "##ة": 924,
1073
+ "##ネ": 925,
1074
+ "##ク": 926,
1075
+ "##ョ": 927,
1076
+ "##か": 928,
1077
+ "##サ": 929,
1078
+ "##о": 930,
1079
+ "##л": 931,
1080
+ "##а": 932,
1081
+ "##т": 933,
1082
+ "##ы": 934,
1083
+ "##フ": 935,
1084
+ "##р": 936,
1085
+ "##は": 937,
1086
+ "##め": 938,
1087
+ "##ʿ": 939,
1088
+ "##ხ": 940,
1089
+ "##დ": 941,
1090
+ "##უ": 942,
1091
+ "##ल": 943,
1092
+ "##ف": 944,
1093
+ "##ر": 945,
1094
+ "##س": 946,
1095
+ "##ا": 947,
1096
+ "##ร": 948,
1097
+ "##ะ": 949,
1098
+ "##ช": 950,
1099
+ "##อ": 951,
1100
+ "##น": 952,
1101
+ "##п": 953,
1102
+ "##д": 954,
1103
+ "##ق": 955,
1104
+ "##د": 956,
1105
+ "##و": 957,
1106
+ "##ह": 958,
1107
+ "##ण": 959,
1108
+ "##ן": 960,
1109
+ "##đ": 961,
1110
+ "##っ": 962,
1111
+ "##ه": 963,
1112
+ "##ш": 964,
1113
+ "##в": 965,
1114
+ "##ц": 966,
1115
+ "##ь": 967,
1116
+ "##к": 968,
1117
+ "##き": 969,
1118
+ "##ई": 970,
1119
+ "##χ": 971,
1120
+ "##η": 972,
1121
+ "##ר": 973,
1122
+ "##ם": 974,
1123
+ "##ナ": 975,
1124
+ "##ミ": 976,
1125
+ "##く": 977,
1126
+ "##れ": 978,
1127
+ "##ჳ": 979,
1128
+ "##ゆ": 980,
1129
+ "##ɾ": 981,
1130
+ "##ʲ": 982,
1131
+ "##た": 983,
1132
+ "##ɽ": 984,
1133
+ "##υ": 985,
1134
+ "##ع": 986,
1135
+ "##ᄇ": 987,
1136
+ "##ᅮ": 988,
1137
+ "##ᄃ": 989,
1138
+ "##ᅢ": 990,
1139
+ "##わ": 991,
1140
+ "##い": 992,
1141
+ "##я": 993,
1142
+ "##セ": 994,
1143
+ "##オ": 995,
1144
+ "##र": 996,
1145
+ "##ვ": 997,
1146
+ "##ィ": 998,
1147
+ "##ʁ": 999,
1148
+ "##γ": 1000,
1149
+ "##ت": 1001,
1150
+ "##ა": 1002,
1151
+ "##ニ": 1003,
1152
+ "##ป": 1004,
1153
+ "##ย": 1005,
1154
+ "##ı": 1006,
1155
+ "##ܠ": 1007,
1156
+ "##ܗ": 1008,
1157
+ "##ܐ": 1009,
1158
+ "##ɡ": 1010,
1159
+ "##ʃ": 1011,
1160
+ "##є": 1012,
1161
+ "##λ": 1013,
1162
+ "##ロ": 1014,
1163
+ "##ト": 1015,
1164
+ "##ᅡ": 1016,
1165
+ "##ᆯ": 1017,
1166
+ "##ᄅ": 1018,
1167
+ "##ب": 1019,
1168
+ "##δ": 1020,
1169
+ "##ι": 1021,
1170
+ "##カ": 1022,
1171
+ "##ო": 1023,
1172
+ "##ハ": 1024,
1173
+ "##し": 1025,
1174
+ "##ょ": 1026,
1175
+ "##に": 1027,
1176
+ "##م": 1028,
1177
+ "##ก": 1029,
1178
+ "##ว": 1030,
1179
+ "##ษ": 1031,
1180
+ "##ฐ": 1032,
1181
+ "##ჲ": 1033,
1182
+ "##ʒ": 1034,
1183
+ "##ซ": 1035,
1184
+ "##あ": 1036,
1185
+ "##ん": 1037,
1186
+ "##द": 1038,
1187
+ "##व": 1039,
1188
+ "##ล": 1040,
1189
+ "##ฮ": 1041,
1190
+ "##स": 1042,
1191
+ "##ნ": 1043,
1192
+ "##া": 1044,
1193
+ "##হ": 1045,
1194
+ "##ि": 1046,
1195
+ "##ᅦ": 1047,
1196
+ "##ᅩ": 1048,
1197
+ "##ᆨ": 1049,
1198
+ "##ᅵ": 1050,
1199
+ "##ᆸ": 1051,
1200
+ "##ᅧ": 1052,
1201
+ "##ᆼ": 1053,
1202
+ "##ᄋ": 1054,
1203
+ "##ᆫ": 1055,
1204
+ "##ܕ": 1056,
1205
+ "##ܝ": 1057,
1206
+ "##ܢ": 1058,
1207
+ "##ܬ": 1059,
1208
+ "##せ": 1060,
1209
+ "##す": 1061,
1210
+ "##な": 1062,
1211
+ "##ひ": 1063,
1212
+ "##マ": 1064,
1213
+ "##ც": 1065,
1214
+ "##क": 1066,
1215
+ "##ɜ": 1067,
1216
+ "##も": 1068,
1217
+ "##ง": 1069,
1218
+ "##ไ": 1070,
1219
+ "##า": 1071,
1220
+ "##х": 1072,
1221
+ "##ग": 1073,
1222
+ "##ォ": 1074,
1223
+ "##ノ": 1075,
1224
+ "##º": 1076,
1225
+ "##ש": 1077,
1226
+ "##מ": 1078,
1227
+ "##צ": 1079,
1228
+ "##ף": 1080,
1229
+ "##ʔ": 1081,
1230
+ "##г": 1082,
1231
+ "##ˌ": 1083,
1232
+ "##ء": 1084,
1233
+ "##ص": 1085,
1234
+ "##ɳ": 1086,
1235
+ "##თ": 1087,
1236
+ "##ภ": 1088,
1237
+ "##ด": 1089,
1238
+ "##ള": 1090,
1239
+ "##ਲ": 1091,
1240
+ "##ਾ": 1092,
1241
+ "##ਹ": 1093,
1242
+ "##ち": 1094,
1243
+ "##ゃ": 1095,
1244
+ "##ム": 1096,
1245
+ "##チ": 1097,
1246
+ "##ェ": 1098,
1247
+ "##σ": 1099,
1248
+ "##ξ": 1100,
1249
+ "##œ": 1101,
1250
+ "##ث": 1102,
1251
+ "##ゥ": 1103,
1252
+ "##み": 1104,
1253
+ "##ɫ": 1105,
1254
+ "##у": 1106,
1255
+ "##ค": 1107,
1256
+ "##ต": 1108,
1257
+ "##ψ": 1109,
1258
+ "##を": 1110,
1259
+ "##м": 1111,
1260
+ "##ك": 1112,
1261
+ "##เ": 1113,
1262
+ "##ณ": 1114,
1263
+ "##ม": 1115,
1264
+ "##ж": 1116,
1265
+ "##ল": 1117,
1266
+ "##ح": 1118,
1267
+ "##გ": 1119,
1268
+ "##แ": 1120,
1269
+ "##ю": 1121,
1270
+ "##ქ": 1122,
1271
+ "##ɐ": 1123
1272
  }
1273
  }
1274
  }
tokenizer_config.json CHANGED
@@ -1,4 +1,47 @@
1
  {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  "clean_up_tokenization_spaces": true,
3
  "cls_token": "[CLS]",
4
  "do_basic_tokenize": true,
@@ -7,9 +50,11 @@
7
  "model_max_length": 512,
8
  "never_split": null,
9
  "pad_token": "[PAD]",
 
10
  "sep_token": "[SEP]",
11
  "strip_accents": null,
12
  "tokenize_chinese_chars": true,
13
  "tokenizer_class": "BertTokenizer",
 
14
  "unk_token": "[UNK]"
15
  }
 
1
  {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
  "clean_up_tokenization_spaces": true,
46
  "cls_token": "[CLS]",
47
  "do_basic_tokenize": true,
 
50
  "model_max_length": 512,
51
  "never_split": null,
52
  "pad_token": "[PAD]",
53
+ "processor_class": "BrosProcessor",
54
  "sep_token": "[SEP]",
55
  "strip_accents": null,
56
  "tokenize_chinese_chars": true,
57
  "tokenizer_class": "BertTokenizer",
58
+ "tokenizer_file": "/tmp/tmpyrs49e65/tokenizer.json",
59
  "unk_token": "[UNK]"
60
  }
vocab.txt CHANGED
@@ -788,330 +788,263 @@ z
788
 
789
 
790
 
791
- ##a
792
  ##l
793
- ##k
 
 
 
794
  ##n
795
  ##s
796
- ##r
797
- ##i
798
  ##e
799
- ##g
 
800
  ##t
801
- ##d
802
  ##o
 
 
 
803
  ##u
804
- ##v
805
- ##y
806
- ##c
807
- ##h
808
- ##m
809
  ##p
 
 
 
810
  ##2
811
- ##1
812
  ##3
813
- ##x
814
- ##q
815
- ##f
816
- ##b
 
817
  ##z
818
- ##9
 
819
  ##6
820
- ##0
821
- ##7
822
- ##w
823
- ##5
824
  ##4
825
- ##æ
826
- ##j
827
- ##8
828
- ##っ
829
- ##こ
830
- ##ん
831
- ##ォ
832
- ##ル
833
- ##テ
834
- ##η
835
- ##μ
836
  ##τ
 
 
837
  ##ρ
838
- ##α
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
839
  ##ा
840
  ##न
841
- ##れ
842
- ##い
843
- ##ν
844
- ##פ
845
- ##ה
846
- ##ي
847
- ##ف
848
- ##ا
849
- ##ł
850
- ##ร
851
- ##р
852
  ##е
853
- ##м
854
- ##а
855
- ##ه
856
- ##ø
857
- ##ש
858
- ##מ
859
- ##צ
860
- ##ן
861
- ##л
862
- ##х
863
- ##თ
864
- ##ა
865
- ##ვ
866
- ##რ
867
  ##ი
868
- ##ल
869
- ##द
870
- ##ß
871
- ##ʻ
872
- ##ε
873
- ##ο
874
- ##ള
875
- ##し
876
- ##も
877
- ##ხ
878
  ##ე
879
- ##დ
880
- ##ˈ
881
- ##ɪ
 
 
 
882
  ##ו
883
- ##ף
884
- ##อ
885
- ##ก
886
- ##ว
887
- ##υ
888
- ##є
889
- ##λ
890
- ##ς
891
- ##ɜ
892
- ##ː
893
- ##き
894
- ##о
895
- ##с
896
- ##п
897
- ##д
898
- ##н
899
- ##く
900
- ##り
901
- ##あ
902
- ##う
903
- ##β
904
- ##δ
905
- ##ω
906
- ##र
907
- ##ɡ
908
- ##ı
909
  ##ს
910
  ##ტ
911
  ##ჱ
912
- ##セ
 
 
 
 
913
  ##リ
914
- ##オ
915
- ##ス
916
- ##ਲ
917
- ##ਾ
918
- ##ਹ
919
- ##ل
920
- ##ب
 
 
921
  ##ن
922
- ##ლ
923
- ##მ
924
- ##წ
925
- ##ფ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
926
  ##س
 
 
 
 
 
 
 
 
 
927
  ##د
928
- ##م
929
- ##ت
930
- ##ɑ
931
- ##ハ
932
- ##ト
933
- ##ش
934
- ##خ
935
- ##ゥ
936
- ##ナ
937
- ##ə
938
- ##ซ
939
- ##ッ
940
- ##ラ
941
- ##ー
942
- ##と
943
  ##в
944
- ##т
 
945
  ##к
946
- ##и
947
- ##ל
948
  ##χ
949
- ##ء
950
- ##か
951
- ##ാ
952
- ##ഹ
953
- ##უ
954
- ##ロ
955
- ##ล
956
- ##ฮ
957
- ##エ
958
- ##タ
959
- ##イ
960
- ##ю
961
- ##з
962
- ##י
963
- ##ס
964
  ##ɾ
965
- ##シ
966
- ##ʔ
967
- ##ɒ
968
- ##レ
969
- ##チ
970
- ##ψ
971
- ##ι
972
- ##フ
973
- ##ェ
974
- ##ィ
975
- ##ر
976
- ##º
977
- ##ო
978
- ##я
979
- ##の
980
  ##た
981
- ##ま
982
- ##ち
983
- ##ゃ
984
- ##ン
985
- ##ク
986
- ##đ
987
- ##ウ
988
- ##ァ
989
- ##キ
990
- ##ュ
991
- ##ア
992
- ##π
993
- ##κ
994
- ##ɛ
995
- ##ʊ
996
- ##ш
997
- ##ц
998
- ##ь
999
  ##ᄇ
1000
  ##ᅮ
1001
  ##ᄃ
1002
  ##ᅢ
1003
- ##ᅡ
1004
- ##ᆯ
1005
- ##ᄅ
1006
- ##ง
1007
- ##พ
1008
- ##ไ
1009
- ##ช
1010
- ##ย
1011
- ##า
1012
- ##เ
1013
- ##ป
1014
- ##ɐ
1015
- ##ि
1016
- ##ɫ
1017
- ##な
1018
- ##ミ
1019
- ##ъ
1020
- ##ж
1021
- ##ภ
1022
- ##ด
1023
- ##ʃ
1024
- ##3
1025
- ##サ
1026
- ##ქ
1027
- ##ნ
1028
- ##ع
1029
- ##ة
1030
- ##ゆ
1031
- ##ら
1032
- ##つ
1033
- ##ذ
1034
- ##व
1035
- ##ह
1036
- ##क
1037
- ##ण
1038
- ##स
1039
- ##せ
1040
- ##ツ
1041
- ##ネ
1042
- ##る
1043
- ##ჳ
1044
- ##ɔ
1045
- ##ᵻ
1046
- ##θ
1047
- ##ग
1048
  ##γ
1049
- ##ョ
1050
- ##ܕ
1051
- ##ܝ
1052
- ##ܢ
1053
- ##ܬ
1054
- ##ც
1055
- ##ʿ
1056
- ##す
1057
- ##め
1058
- ##は
1059
- ##ム
1060
- ##у
1061
- ##ณ
1062
- ##ม
1063
- ##ต
1064
- ##გ
1065
- ##ল
1066
- ##ჲ
1067
- ##ひ
1068
- ##œ
1069
- ##ق
1070
- ##ב
1071
- ##ת
1072
- ##א
1073
- ##נ
1074
- ##ð
1075
- ##σ
1076
- ##و
1077
- ##ح
1078
- ##ษ
1079
- ##ฐ
1080
- ##া
1081
- ##হ
1082
- ##ई
1083
- ##ك
1084
- ##ャ
1085
- ##モ
1086
  ##ニ
1087
- ##ם
 
 
1088
  ##ܠ
1089
  ##ܗ
1090
  ##ܐ
1091
- ##ʒ
1092
- ##ˌ
1093
- ##ɽ
1094
- ##ะ
1095
- ##น
1096
- ##г
1097
- ##ɳ
1098
- ##ы
1099
- ##を
1100
- ##แ
1101
- ##お
1102
- ##み
1103
- ##わ
1104
- ##ノ
1105
- ##ξ
1106
- ##ʁ
1107
- ##ص
1108
- ##ר
1109
  ##カ
1110
- ##ʲ
1111
- ##ث
 
1112
  ##ょ
1113
  ##に
1114
- ##ค
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1115
  ##ᅦ
1116
  ##ᅩ
1117
  ##ᆨ
@@ -1121,4 +1054,71 @@ z
1121
  ##ᆼ
1122
  ##ᄋ
1123
  ##ᆫ
 
 
 
 
 
 
 
 
1124
  ##マ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
788
 
789
 
790
 
791
+ ##i
792
  ##l
793
+ ##c
794
+ ##r
795
+ ##a
796
+ ##v
797
  ##n
798
  ##s
 
 
799
  ##e
800
+ ##h
801
+ ##m
802
  ##t
803
+ ##y
804
  ##o
805
+ ##k
806
+ ##b
807
+ ##f
808
  ##u
809
+ ##w
810
+ ##d
811
+ ##q
 
 
812
  ##p
813
+ ##g
814
+ ##x
815
+ ##j
816
  ##2
 
817
  ##3
818
+ ##エ
819
+ ##ス
820
+ ##タ
821
+ ##テ
822
+ ##イ
823
  ##z
824
+ ##8
825
+ ##ł
826
  ##6
 
 
 
 
827
  ##4
828
+ ##5
829
+ ##9
830
+ ##7
831
+ ##0
832
+ ##1
833
+ ##พ
834
+ ##α
835
+ ##ν
 
 
 
836
  ##τ
837
+ ##ο
838
+ ##κ
839
  ##ρ
840
+ ##ω
841
+ ##ς
842
+ ##こ
843
+ ##と
844
+ ##ø
845
+ ##ß
846
+ ##レ
847
+ ##ー
848
+ ##ツ
849
+ ##お
850
+ ##り
851
+ ##י
852
+ ##ס
853
+ ##ל
854
+ ##ɛ
855
+ ##ə
856
+ ##ˈ
857
+ ##ʊ
858
+ ##ل
859
+ ##ش
860
+ ##ي
861
+ ##خ
862
+ ##の
863
+ ##ま
864
+ ##る
865
  ##ा
866
  ##न
867
+ ##ラ
868
+ ##ッ
869
+ ##シ
870
+ ##ュ
871
+ ##β
872
+ ##ъ
873
+ ##з
874
+ ##н
 
 
 
875
  ##е
876
+ ##с
877
+ ##и
878
+ ##ɑ
879
+ ##ː
880
+ ##ാ
881
+ ##ഹ
882
+ ##ð
883
+ ##ה
884
+ ##ლ
885
+ ##მ
886
+ ##წ
 
 
 
887
  ##ი
888
+ ##ფ
 
 
 
 
 
 
 
 
 
889
  ##ე
890
+ ##ら
891
+ ##ε
892
+ ##ʻ
893
+ ##ב
894
+ ##ת
895
+ ##א
896
  ##ו
897
+ ##פ
898
+ ##נ
899
+ ##μ
900
+ ##π
901
+ ##ɒ
902
+ ##ᵻ
903
+ ##θ
904
+ ##ɔ
905
+ ##რ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
906
  ##ს
907
  ##ტ
908
  ##ჱ
909
+ ##æ
910
+ ##ウ
911
+ ##ァ
912
+ ##ル
913
+ ##キ
914
  ##リ
915
+ ##ア
916
+ ##3
917
+ ##ɪ
918
+ ##ャ
919
+ ##モ
920
+ ##ン
921
+ ##つ
922
+ ##う
923
+ ##ذ
924
  ##ن
925
+ ##ة
926
+ ##ネ
927
+ ##ク
928
+ ##ョ
929
+ ##か
930
+ ##サ
931
+ ##о
932
+ ##л
933
+ ##а
934
+ ##т
935
+ ##ы
936
+ ##フ
937
+ ##р
938
+ ##は
939
+ ##め
940
+ ##ʿ
941
+ ##ხ
942
+ ##დ
943
+ ##უ
944
+ ##ल
945
+ ##ف
946
+ ##ر
947
  ##س
948
+ ##ا
949
+ ##ร
950
+ ##ะ
951
+ ##ช
952
+ ##อ
953
+ ##น
954
+ ##п
955
+ ##д
956
+ ##ق
957
  ##د
958
+ ##و
959
+ ##ह
960
+ ##ण
961
+ ##ן
962
+ ##đ
963
+ ##っ
964
+ ##ه
965
+ ##ш
 
 
 
 
 
 
 
966
  ##в
967
+ ##ц
968
+ ##ь
969
  ##к
970
+ ##き
971
+ ##ई
972
  ##χ
973
+ ##η
974
+ ##ר
975
+ ##ם
976
+ ##ナ
977
+ ##ミ
978
+ ##く
979
+ ##れ
980
+ ##ჳ
981
+ ##ゆ
 
 
 
 
 
 
982
  ##ɾ
983
+ ##ʲ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
984
  ##た
985
+ ##ɽ
986
+ ##υ
987
+ ##ع
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
988
  ##ᄇ
989
  ##ᅮ
990
  ##ᄃ
991
  ##ᅢ
992
+ ##わ
993
+ ##い
994
+ ##я
995
+ ##セ
996
+ ##オ
997
+ ##र
998
+ ##ვ
999
+ ##ィ
1000
+ ##ʁ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1001
  ##γ
1002
+ ##ت
1003
+ ##ა
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1004
  ##ニ
1005
+ ##ป
1006
+ ##ย
1007
+ ##ı
1008
  ##ܠ
1009
  ##ܗ
1010
  ##ܐ
1011
+ ##ɡ
1012
+ ##ʃ
1013
+ ##є
1014
+ ##λ
1015
+ ##ロ
1016
+ ##ト
1017
+ ##ᅡ
1018
+ ##ᆯ
1019
+ ##ᄅ
1020
+ ##ب
1021
+ ##δ
1022
+ ##ι
 
 
 
 
 
 
1023
  ##カ
1024
+ ##ო
1025
+ ##ハ
1026
+ ##し
1027
  ##ょ
1028
  ##に
1029
+ ##م
1030
+ ##ก
1031
+ ##ว
1032
+ ##ษ
1033
+ ##ฐ
1034
+ ##ჲ
1035
+ ##ʒ
1036
+ ##ซ
1037
+ ##あ
1038
+ ##ん
1039
+ ##द
1040
+ ##व
1041
+ ##ล
1042
+ ##ฮ
1043
+ ##स
1044
+ ##ნ
1045
+ ##া
1046
+ ##হ
1047
+ ##ि
1048
  ##ᅦ
1049
  ##ᅩ
1050
  ##ᆨ
 
1054
  ##ᆼ
1055
  ##ᄋ
1056
  ##ᆫ
1057
+ ##ܕ
1058
+ ##ܝ
1059
+ ##ܢ
1060
+ ##ܬ
1061
+ ##せ
1062
+ ##す
1063
+ ##な
1064
+ ##ひ
1065
  ##マ
1066
+ ##ც
1067
+ ##क
1068
+ ##ɜ
1069
+ ##も
1070
+ ##ง
1071
+ ##ไ
1072
+ ##า
1073
+ ##х
1074
+ ##ग
1075
+ ##ォ
1076
+ ##ノ
1077
+ ##º
1078
+ ##ש
1079
+ ##מ
1080
+ ##צ
1081
+ ##ף
1082
+ ##ʔ
1083
+ ##г
1084
+ ##ˌ
1085
+ ##ء
1086
+ ##ص
1087
+ ##ɳ
1088
+ ##თ
1089
+ ##ภ
1090
+ ##ด
1091
+ ##ള
1092
+ ##ਲ
1093
+ ##ਾ
1094
+ ##ਹ
1095
+ ##ち
1096
+ ##ゃ
1097
+ ##ム
1098
+ ##チ
1099
+ ##ェ
1100
+ ##σ
1101
+ ##ξ
1102
+ ##œ
1103
+ ##ث
1104
+ ##ゥ
1105
+ ##み
1106
+ ##ɫ
1107
+ ##у
1108
+ ##ค
1109
+ ##ต
1110
+ ##ψ
1111
+ ##を
1112
+ ##м
1113
+ ##ك
1114
+ ##เ
1115
+ ##ณ
1116
+ ##ม
1117
+ ##ж
1118
+ ##ল
1119
+ ##ح
1120
+ ##გ
1121
+ ##แ
1122
+ ##ю
1123
+ ##ქ
1124
+ ##ɐ