HugoLaurencon commited on
Commit
ceb5bcb
1 Parent(s): a3825e5

updated files

Browse files
Files changed (5) hide show
  1. app.py +1 -1
  2. flagged_words.py +81 -0
  3. languages_id.py +4 -4
  4. parameters_filtering.py +31 -31
  5. stopwords.py +891 -1162
app.py CHANGED
@@ -787,7 +787,7 @@ class Visualization_for_lang:
787
  st.markdown(
788
  f"Language identification confidence score: {lang_id_score}"
789
  )
790
- if is_doc_discarded(key, flagged_words_ratio) or (
791
  self.lang_dataset_id != lang_pred_dataset_id
792
  ):
793
  is_discarded = True
 
787
  st.markdown(
788
  f"Language identification confidence score: {lang_id_score}"
789
  )
790
+ if is_doc_discarded(key, lang_id_score) or (
791
  self.lang_dataset_id != lang_pred_dataset_id
792
  ):
793
  is_discarded = True
flagged_words.py CHANGED
@@ -141,6 +141,47 @@ flagged_words = {
141
  "نكاح",
142
  "نيك",
143
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
144
  "ca": english_flagged_words
145
  + [
146
  "cagarro",
@@ -985,6 +1026,46 @@ flagged_words = {
985
  "x రేట్",
986
  "xxx",
987
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
988
  "vi": english_flagged_words
989
  + [
990
  "cặc",
 
141
  "نكاح",
142
  "نيك",
143
  ],
144
+ "bn": english_flagged_words
145
+ + [
146
+ "আঙ্গুলি করা",
147
+ "আচোদা",
148
+ "খানকি",
149
+ "খানকি মাগি",
150
+ "গান্ড মারানো",
151
+ "গুদ মারানি",
152
+ "চুচুক",
153
+ "চোদ",
154
+ "চোদনা",
155
+ "চোদা",
156
+ "চোদা বোন",
157
+ "চোদাচুদি",
158
+ "জারজ",
159
+ "নাঙ্গ",
160
+ "নেংটা",
161
+ "পর্ণহাব",
162
+ "পর্ন",
163
+ "পর্নস্টার",
164
+ "পর্নোগ্রাফি",
165
+ "পোঁদ",
166
+ "পোঁদ মারানি",
167
+ "পোদ মারানি",
168
+ "বাঁড়া",
169
+ "বানচোদ",
170
+ "বেশ্যা",
171
+ "বেশ্যার ছেলে",
172
+ "বোকাচোদা",
173
+ "ভগ",
174
+ "মা চোদা",
175
+ "মাগী",
176
+ "মাদারচোদ",
177
+ "মুখে নিবি",
178
+ "মোরগ",
179
+ "রেন্ডি",
180
+ "শিশ্ন",
181
+ "স্তন",
182
+ "স্তনবৃন্ত",
183
+ "হস্তমৈথুন",
184
+ ],
185
  "ca": english_flagged_words
186
  + [
187
  "cagarro",
 
1026
  "x రేట్",
1027
  "xxx",
1028
  ],
1029
+ "ur": english_flagged_words
1030
+ + [
1031
+ "انگلی کرنا",
1032
+ "ایکس ریٹیڈ",
1033
+ "بلو جاب",
1034
+ "بٹ",
1035
+ "جھٹکا بند",
1036
+ "دلڈو",
1037
+ "رنڈی",
1038
+ "سلٹ",
1039
+ "سکلیرا",
1040
+ "سیڈسٹ",
1041
+ "سیکس بم",
1042
+ "شہوانی",
1043
+ "شہوت انگیز",
1044
+ "فحش نگاری",
1045
+ "لن",
1046
+ "لنڈ",
1047
+ "لنڈ چوسنے والا",
1048
+ "لوڑہ",
1049
+ "ماں کمینے",
1050
+ "مشت زنی",
1051
+ "ممے",
1052
+ "مٹھ",
1053
+ "مٹھی",
1054
+ "ویشیا",
1055
+ "پورن",
1056
+ "پھدی",
1057
+ "پیگنگ",
1058
+ "چدائ",
1059
+ "چدک",
1060
+ "چوت",
1061
+ "چودنا",
1062
+ "چوچی",
1063
+ "کسبی",
1064
+ "کسنگ",
1065
+ "گانڈ",
1066
+ "گدا",
1067
+ "ہینڈ جاب",
1068
+ ],
1069
  "vi": english_flagged_words
1070
  + [
1071
  "cặc",
languages_id.py CHANGED
@@ -32,7 +32,7 @@ langs_id = [
32
  {
33
  "lang": "Assamese",
34
  "dataset_id": "as",
35
- "stopwords_id": None,
36
  "flagged_words_id": None,
37
  "fasttext_id": "as",
38
  "sentencepiece_id": "as",
@@ -42,7 +42,7 @@ langs_id = [
42
  "lang": "Bengali",
43
  "dataset_id": "bn",
44
  "stopwords_id": "bn",
45
- "flagged_words_id": None,
46
  "fasttext_id": "bn",
47
  "sentencepiece_id": "bn",
48
  "kenlm_id": "bn",
@@ -95,7 +95,7 @@ langs_id = [
95
  {
96
  "lang": "Gujarati",
97
  "dataset_id": "gu",
98
- "stopwords_id": None,
99
  "flagged_words_id": None,
100
  "fasttext_id": "gu",
101
  "sentencepiece_id": "gu",
@@ -186,7 +186,7 @@ langs_id = [
186
  "lang": "Urdu",
187
  "dataset_id": "ur",
188
  "stopwords_id": "ur",
189
- "flagged_words_id": None,
190
  "fasttext_id": "ur",
191
  "sentencepiece_id": "ur",
192
  "kenlm_id": "ur",
 
32
  {
33
  "lang": "Assamese",
34
  "dataset_id": "as",
35
+ "stopwords_id": "as",
36
  "flagged_words_id": None,
37
  "fasttext_id": "as",
38
  "sentencepiece_id": "as",
 
42
  "lang": "Bengali",
43
  "dataset_id": "bn",
44
  "stopwords_id": "bn",
45
+ "flagged_words_id": "bn",
46
  "fasttext_id": "bn",
47
  "sentencepiece_id": "bn",
48
  "kenlm_id": "bn",
 
95
  {
96
  "lang": "Gujarati",
97
  "dataset_id": "gu",
98
+ "stopwords_id": "gu",
99
  "flagged_words_id": None,
100
  "fasttext_id": "gu",
101
  "sentencepiece_id": "gu",
 
186
  "lang": "Urdu",
187
  "dataset_id": "ur",
188
  "stopwords_id": "ur",
189
+ "flagged_words_id": "ur",
190
  "fasttext_id": "ur",
191
  "sentencepiece_id": "ur",
192
  "kenlm_id": "ur",
parameters_filtering.py CHANGED
@@ -223,35 +223,35 @@ parameters_filtering_bn = {
223
  parameters_filtering_ca = {
224
  "cond_uniform_whitespace": True,
225
  "cond_replace_unicode_punctuation": False,
226
- "cond_remove_words_with_incorrect_substrings": False,
227
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
228
  "cond_remove_long_words": True,
229
- "length_word_max_cutoff": 30,
230
  "cond_check_number_words": True,
231
  "tokenization": False,
232
  "strip_characters": special_characters_default,
233
- "number_words_min_cutoff": 1,
234
  "number_words_max_cutoff": 100000,
235
  "cond_check_character_repetition_removal": True,
236
  "character_repetition_length": 10,
237
- "character_repetition_max_cutoff": 0.106,
238
  "cond_check_word_repetition_removal": True,
239
  "word_repetition_length": 5,
240
- "word_repetition_max_cutoff": 0.19,
241
  "cond_check_special_characters": True,
242
  "special_characters": special_characters_default,
243
- "special_characters_max_cutoff": 0.35,
244
  "cond_words_augmentation": False,
245
  "words_augmentation_group_sizes": [],
246
  "words_augmentation_join_char": "",
247
  "cond_check_stopwords": True,
248
- "stopwords_min_cutoff": 0,
249
  "cond_check_flagged_words": False,
250
- "flagged_words_max_cutoff": 0.2,
251
  "cond_check_lang_id": True,
252
- "lang_id_min_cutoff": 0.75,
253
  "cond_check_perplexity": True,
254
- "perplexity_max_cutoff": 1750000,
255
  }
256
 
257
  parameters_filtering_en = {
@@ -285,7 +285,7 @@ parameters_filtering_en = {
285
  "cond_check_lang_id": True,
286
  "lang_id_min_cutoff": 0.80,
287
  "cond_check_perplexity": True,
288
- "perplexity_max_cutoff": 2500,
289
  }
290
 
291
  parameters_filtering_es = {
@@ -359,35 +359,35 @@ parameters_filtering_eu = {
359
  parameters_filtering_fr = {
360
  "cond_uniform_whitespace": True,
361
  "cond_replace_unicode_punctuation": False,
362
- "cond_remove_words_with_incorrect_substrings": False,
363
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
364
  "cond_remove_long_words": True,
365
- "length_word_max_cutoff": 30,
366
  "cond_check_number_words": True,
367
  "tokenization": False,
368
  "strip_characters": special_characters_default,
369
- "number_words_min_cutoff": 1,
370
  "number_words_max_cutoff": 100000,
371
  "cond_check_character_repetition_removal": True,
372
  "character_repetition_length": 10,
373
- "character_repetition_max_cutoff": 0.106,
374
  "cond_check_word_repetition_removal": True,
375
  "word_repetition_length": 5,
376
- "word_repetition_max_cutoff": 0.19,
377
  "cond_check_special_characters": True,
378
  "special_characters": special_characters_default,
379
- "special_characters_max_cutoff": 0.35,
380
  "cond_words_augmentation": False,
381
  "words_augmentation_group_sizes": [],
382
  "words_augmentation_join_char": "",
383
  "cond_check_stopwords": True,
384
- "stopwords_min_cutoff": 0.15,
385
  "cond_check_flagged_words": False,
386
- "flagged_words_max_cutoff": 0.2,
387
  "cond_check_lang_id": True,
388
- "lang_id_min_cutoff": 0.75,
389
  "cond_check_perplexity": True,
390
- "perplexity_max_cutoff": 3000000,
391
  }
392
 
393
  parameters_filtering_gu = {
@@ -597,35 +597,35 @@ parameters_filtering_mr = {
597
  parameters_filtering_pt = {
598
  "cond_uniform_whitespace": True,
599
  "cond_replace_unicode_punctuation": False,
600
- "cond_remove_words_with_incorrect_substrings": False,
601
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
602
  "cond_remove_long_words": True,
603
- "length_word_max_cutoff": 30,
604
  "cond_check_number_words": True,
605
  "tokenization": False,
606
  "strip_characters": special_characters_default,
607
- "number_words_min_cutoff": 1,
608
  "number_words_max_cutoff": 100000,
609
  "cond_check_character_repetition_removal": True,
610
  "character_repetition_length": 10,
611
- "character_repetition_max_cutoff": 0.106,
612
  "cond_check_word_repetition_removal": True,
613
  "word_repetition_length": 5,
614
- "word_repetition_max_cutoff": 0.19,
615
  "cond_check_special_characters": True,
616
  "special_characters": special_characters_default,
617
- "special_characters_max_cutoff": 0.3,
618
  "cond_words_augmentation": False,
619
  "words_augmentation_group_sizes": [],
620
  "words_augmentation_join_char": "",
621
  "cond_check_stopwords": True,
622
- "stopwords_min_cutoff": 0.15,
623
  "cond_check_flagged_words": False,
624
- "flagged_words_max_cutoff": 0.2,
625
  "cond_check_lang_id": True,
626
- "lang_id_min_cutoff": 0.75,
627
  "cond_check_perplexity": True,
628
- "perplexity_max_cutoff": 3000000,
629
  }
630
 
631
  parameters_filtering_sw = {
 
223
  parameters_filtering_ca = {
224
  "cond_uniform_whitespace": True,
225
  "cond_replace_unicode_punctuation": False,
226
+ "cond_remove_words_with_incorrect_substrings": True,
227
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
228
  "cond_remove_long_words": True,
229
+ "length_word_max_cutoff": 20,
230
  "cond_check_number_words": True,
231
  "tokenization": False,
232
  "strip_characters": special_characters_default,
233
+ "number_words_min_cutoff": 15,
234
  "number_words_max_cutoff": 100000,
235
  "cond_check_character_repetition_removal": True,
236
  "character_repetition_length": 10,
237
+ "character_repetition_max_cutoff": 0.2,
238
  "cond_check_word_repetition_removal": True,
239
  "word_repetition_length": 5,
240
+ "word_repetition_max_cutoff": 0.4,
241
  "cond_check_special_characters": True,
242
  "special_characters": special_characters_default,
243
+ "special_characters_max_cutoff": 0.25,
244
  "cond_words_augmentation": False,
245
  "words_augmentation_group_sizes": [],
246
  "words_augmentation_join_char": "",
247
  "cond_check_stopwords": True,
248
+ "stopwords_min_cutoff": 0.25,
249
  "cond_check_flagged_words": False,
250
+ "flagged_words_max_cutoff": 0.1,
251
  "cond_check_lang_id": True,
252
+ "lang_id_min_cutoff": 0.8,
253
  "cond_check_perplexity": True,
254
+ "perplexity_max_cutoff": 2500,
255
  }
256
 
257
  parameters_filtering_en = {
 
285
  "cond_check_lang_id": True,
286
  "lang_id_min_cutoff": 0.80,
287
  "cond_check_perplexity": True,
288
+ "perplexity_max_cutoff": 1500,
289
  }
290
 
291
  parameters_filtering_es = {
 
359
  parameters_filtering_fr = {
360
  "cond_uniform_whitespace": True,
361
  "cond_replace_unicode_punctuation": False,
362
+ "cond_remove_words_with_incorrect_substrings": True,
363
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
364
  "cond_remove_long_words": True,
365
+ "length_word_max_cutoff": 45,
366
  "cond_check_number_words": True,
367
  "tokenization": False,
368
  "strip_characters": special_characters_default,
369
+ "number_words_min_cutoff": 13,
370
  "number_words_max_cutoff": 100000,
371
  "cond_check_character_repetition_removal": True,
372
  "character_repetition_length": 10,
373
+ "character_repetition_max_cutoff": 0.14,
374
  "cond_check_word_repetition_removal": True,
375
  "word_repetition_length": 5,
376
+ "word_repetition_max_cutoff": 0.13,
377
  "cond_check_special_characters": True,
378
  "special_characters": special_characters_default,
379
+ "special_characters_max_cutoff": 0.34,
380
  "cond_words_augmentation": False,
381
  "words_augmentation_group_sizes": [],
382
  "words_augmentation_join_char": "",
383
  "cond_check_stopwords": True,
384
+ "stopwords_min_cutoff": 0.27,
385
  "cond_check_flagged_words": False,
386
+ "flagged_words_max_cutoff": 0.008,
387
  "cond_check_lang_id": True,
388
+ "lang_id_min_cutoff": 0.8,
389
  "cond_check_perplexity": True,
390
+ "perplexity_max_cutoff": 1770,
391
  }
392
 
393
  parameters_filtering_gu = {
 
597
  parameters_filtering_pt = {
598
  "cond_uniform_whitespace": True,
599
  "cond_replace_unicode_punctuation": False,
600
+ "cond_remove_words_with_incorrect_substrings": True,
601
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
602
  "cond_remove_long_words": True,
603
+ "length_word_max_cutoff": 19,
604
  "cond_check_number_words": True,
605
  "tokenization": False,
606
  "strip_characters": special_characters_default,
607
+ "number_words_min_cutoff": 19,
608
  "number_words_max_cutoff": 100000,
609
  "cond_check_character_repetition_removal": True,
610
  "character_repetition_length": 10,
611
+ "character_repetition_max_cutoff": 0.25,
612
  "cond_check_word_repetition_removal": True,
613
  "word_repetition_length": 5,
614
+ "word_repetition_max_cutoff": 0.98,
615
  "cond_check_special_characters": True,
616
  "special_characters": special_characters_default,
617
+ "special_characters_max_cutoff": 0.35,
618
  "cond_words_augmentation": False,
619
  "words_augmentation_group_sizes": [],
620
  "words_augmentation_join_char": "",
621
  "cond_check_stopwords": True,
622
+ "stopwords_min_cutoff": 0.2,
623
  "cond_check_flagged_words": False,
624
+ "flagged_words_max_cutoff": 0.007,
625
  "cond_check_lang_id": True,
626
+ "lang_id_min_cutoff": 0.6,
627
  "cond_check_perplexity": True,
628
+ "perplexity_max_cutoff": 3038,
629
  }
630
 
631
  parameters_filtering_sw = {
stopwords.py CHANGED
@@ -57,603 +57,483 @@ stopwords = {
57
  "ʼn",
58
  ],
59
  "ar": [
60
- "آخر",
61
- "آنَا",
62
- "أ",
63
  "أثناء",
64
- "أحد",
65
- "أصبح",
66
- "أصبحت",
67
  "أغلب",
68
  "أكثر",
69
- "أكون",
70
  "ألا",
 
71
  "أم",
72
- "أما",
73
  "أمام",
 
74
  "أن",
75
  "أنا",
76
  "أنت",
77
  "أنتم",
78
- "أنَا",
 
79
  "أو",
80
  "أولئك",
81
- "أولٰئك",
82
  "أي",
 
 
83
  "أية",
 
84
  "أين",
85
  "أينما",
86
- "أَ",
87
- "أَثنَاءَ",
88
- "أَلَّا",
89
- "أَم",
90
- "أَمَامَ",
91
- "أَمَّا",
92
- "أَن",
93
- "أَنَّ",
94
- "أَو",
95
- "أَي",
96
- "أَينَ",
97
- "أَينَمَا",
98
- "أَيّ",
99
  "إبان",
100
  "إثر",
101
- "إحدى",
102
- "إذ",
103
  "إذا",
104
- "إزا",
105
  "إزاء",
106
- "إل",
107
  "إلا",
 
108
  "إلى",
109
- "إلي",
110
- "إليها",
111
  "إما",
112
  "إن",
113
  "إنما",
114
- "إنّ",
115
- "إيا",
116
- "إِثرَ",
117
- "إِذ",
118
- "إِذًا",
119
- "إِذَا",
120
- "إِزَاءَ",
121
- "إِلَى",
122
- "إِلَّا",
123
- "إِمَّا",
124
- "إِن",
125
- "إِنَّ",
126
- "إِنَّمَا",
127
- "إِيَّا",
128
- "اثر",
129
- "اثناء",
130
- "اذ",
131
- "اذا",
132
- "ازا",
133
- "ازاء",
134
- "ال",
135
- "الا",
136
- "التى",
137
  "التي",
138
- "الذى",
139
  "الذي",
140
  "الذين",
141
- "الغاية",
142
- "الـ",
143
- "الـــ",
144
- "الفوق",
145
- "اللاتى",
146
  "اللاتي",
147
  "اللتان",
148
  "اللتين",
149
  "اللذان",
150
  "اللذين",
 
 
151
  "اللواتي",
152
- "اللي",
153
- "الى",
154
- "الي",
155
- "ام",
156
- "اما",
157
- "امام",
158
- "ان",
159
- "انا",
160
- "انتم",
161
- "انما",
162
- "او",
163
- "اولئك",
164
- "اى",
165
  "اي",
166
- "اين",
167
- "اينما",
168
- "اَل",
169
- "اَلَّذِي",
170
- "ب",
171
- "بأنفسهم",
172
- "بات",
173
- "باتت",
174
- "بس",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
175
  "بعد",
176
  "بعدما",
177
  "بعض",
178
- "بعيد",
179
- "بغزة",
 
180
  "بـ",
 
181
  "بل",
 
 
 
182
  "بما",
183
- "بهم",
184
- "بيد",
 
 
 
185
  "بين",
186
  "بينما",
187
- "بَس",
188
- "بَعدَ",
189
- "بَعدَمَا",
190
- "بَل",
191
- "بَيدَ",
192
- "بَينَ",
193
- "بَينَمَا",
194
- "بُعَيدَ",
195
- "بِ",
196
  "تحت",
197
- "تحـــت",
198
- "تصبح",
199
- "تعد",
200
- "تكن",
201
- "تكون",
202
- "تكونون",
203
  "تلك",
204
- "تَحتَ",
205
- "تُجَاهَ",
 
206
  "ثم",
207
- "ثُمَّ",
 
 
 
 
208
  "جراء",
209
- "جَرَّاء",
 
 
 
 
 
 
210
  "حتى",
211
  "حسب",
212
  "حسبما",
213
- "حوالى",
214
  "حوالي",
215
  "حول",
216
- "حولي",
217
  "حيال",
218
  "حيث",
 
219
  "حيثما",
220
  "حين",
 
 
 
221
  "حينما",
222
- "حَتَّى",
223
- "حَسَب",
224
- "حَسَبَ",
225
- "حَسَبَمَا",
226
- "حَولَ",
227
- "حَوَالَى",
228
- "حَيثُ",
229
- "حِينَ",
230
- "حِينَمَا",
231
- "حِيَالَ",
232
  "خلال",
233
- "خَلفَ",
234
- "خِلَالَ",
 
 
235
  "دون",
236
- "دُونَ",
237
- "ذا",
238
  "ذاك",
239
  "ذلك",
240
- "ذو",
241
- "ذي",
242
- "ذَا",
243
- "ذَاكَ",
244
- "ذُو",
245
- "ذٰلك",
246
- "ذٰلِكَ",
247
- "راح",
248
- "ربما",
249
- "ربمــا",
250
  "رغم",
 
251
  "ريثما",
252
- "رَغمَ",
253
- "رَيثَمَا",
254
- "رُبَّمَا",
255
- "س",
256
- "سائر",
257
- "سواء",
258
  "سوف",
259
  "سوى",
260
- "سَ",
261
- "سَوفَ",
262
- "سِوَى",
263
- "شبه",
264
- "شو",
265
- "صار",
 
266
  "صوب",
267
  "ضد",
268
- "ضمن",
269
- "ضِدَّ",
270
- "ضِمنَ",
271
- "طال",
272
  "طالما",
273
- "طالَما",
274
- "طوال",
 
275
  "طيلة",
276
- "طَالَمَا",
277
- "طِوَالَ",
278
- "طِيلَةَ",
279
  "عبر",
280
  "عدا",
281
  "عدة",
282
- "عشان",
283
- "عـــلى",
284
- "عـــندما",
285
- "عــلى",
286
  "عقب",
287
- "عل",
288
- "علـى",
289
  "على",
290
- "علي",
291
- "علّ",
292
- "عم",
 
 
 
 
293
  "عن",
294
- "عنا",
295
  "عند",
 
296
  "عندما",
297
- "عوض",
298
- "عَاد",
299
- "عَبرَ",
300
- "عَدَا",
301
- "عَشان",
302
- "عَقِبَ",
303
- "عَلَى",
304
- "عَلَّ",
305
- "عَم",
306
- "عَن",
307
- "عِندَ",
308
- "عِندَمَا",
309
- "عِوَضَ",
310
- "غالبية",
311
- "غدت",
312
  "غير",
313
- "غَيرَ",
314
- "ف",
315
- "فتئ",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
316
  "فـ",
317
- "فـي",
318
  "فور",
 
319
  "فوق",
320
- "فى",
321
  "في",
 
 
 
322
  "فيما",
323
- "فَ",
324
- "فَورَ",
325
- "فَوقَ",
326
- "فِي",
327
- "فِيمَا",
328
- "ق",
329
  "قبالة",
330
  "قبل",
331
  "قبيل",
332
  "قد",
 
333
  "قرابة",
334
  "قرب",
335
- "قيد",
336
- "قَبلَ",
337
- "قَد",
338
- "قَيدَ",
339
- "قُبَالَةَ",
340
- "قُبَيلَ",
341
- "قُربَ",
342
- "قُرَابَةَ",
343
- "ك",
344
  "كأن",
345
- "كأنما",
346
- "كامل",
347
- "كان",
348
- "كانت",
349
- "كانوا",
350
  "كذا",
 
351
  "كـ",
352
  "كل",
353
  "كلا",
354
  "كلتا",
355
  "كلما",
356
- "كلي",
357
  "كم",
358
  "كما",
359
- "كن",
360
- "كنا",
361
- "كنت",
362
- "كون",
363
- "كى",
364
  "كي",
365
  "كيف",
366
- "كَ",
367
- "كَأَنَّ",
368
- "كَأَنَّمَا",
369
- "كَان",
370
- "كَذَا",
371
- "كَلَّا",
372
- "كَم",
373
- "كَمَا",
374
- "كَي",
375
- "كَيفَ",
376
- "كُل",
377
- "كُلَّمَا",
378
- "كِلَا",
379
- "ل",
380
  "لأن",
 
381
  "لا",
382
- "لازم",
383
- "لان",
 
 
 
 
 
 
 
 
384
  "لدى",
385
- "لدي",
386
  "لذا",
387
  "لذلك",
388
- "لذٰلك",
389
- "لسنا",
390
  "لـ",
391
  "لقد",
392
  "لكن",
393
- "لكى",
394
  "لكي",
 
395
  "لم",
396
  "لما",
397
  "لماذا",
398
  "لن",
399
- "لهم",
400
  "لو",
401
  "لولا",
402
- "ليس",
403
- "ليست",
404
- "ليسوا",
405
- "لَ",
406
- "لَا",
407
- "لَازِم",
408
- "لَدَى",
409
- "لَم",
410
- "لَمَّا",
411
- "لَن",
412
- "لَو",
413
- "لَولَا",
414
- "لَيس",
415
- "لُو",
416
- "لِ",
417
- "لِأَن",
418
- "لِأَنَّ",
419
- "لِئَلّا",
420
- "لِذَا",
421
- "لِذٰلِكَ",
422
- "لِكَي",
423
- "لِمَاذَا",
424
- "لٰكن",
425
- "لٰكِن",
426
- "لٰكِنَّ",
427
- "م",
428
  "ما",
429
  "ماذا",
430
- "مالم",
431
- "ماهو",
432
- "ماهُوَ",
433
  "متى",
434
- "مثـــل",
435
  "مثل",
 
436
  "مثلما",
437
- "مش",
 
 
 
 
 
 
438
  "مع",
 
 
 
439
  "معظم",
440
- "مــن",
441
- "مـن",
442
- "مقابل",
443
  "مما",
444
- "ممكن",
 
 
445
  "من",
446
- "منتصف",
 
 
 
 
 
 
 
 
 
 
 
447
  "منذ",
448
  "مهما",
449
- "مين",
450
- "مَا",
451
- "مَاذَا",
452
- "مَالَم",
453
- "مَتَى",
454
- "مَعَ",
455
- "مَن",
456
- "مَهمَا",
457
- "مُقَابِلَ",
458
- "مُمكِن",
459
- "مُنذُ",
460
- "مِثلَ",
461
- "مِثلَمَا",
462
- "مِمَّا",
463
- "مِن",
464
- "نا",
465
- "ناهيك",
466
- "نحسب",
467
  "نحن",
468
  "نحو",
469
- "نصف",
470
  "نعم",
471
- "نكون",
472
- "ني",
473
- "نَاهِيك",
474
- "نَحوَ",
475
- "نَعَم",
476
- "ه",
477
  "هؤلاء",
478
- "ها",
479
  "هاتان",
480
  "هاتين",
481
- "هاد",
482
- "هاي",
483
  "هذا",
484
  "هذان",
485
- "هذــه",
486
  "هذه",
487
  "هذين",
488
- "هـــذه",
489
- "هــــذه",
490
  "هكذا",
 
491
  "هل",
492
  "هم",
493
  "هما",
494
  "هن",
 
 
 
495
  "هو",
496
- "هى",
497
  "هي",
498
- "هَا",
499
- "هَل",
500
- "هُ",
501
- "هُو",
502
- "هُوَ",
503
- "هِ",
504
- "هٰؤلاء",
505
- "هٰذا",
506
- "هٰذان",
507
- "هٰذه",
508
- "هٰذَا",
509
- "هٰكذا",
510
- "هٰكَذَا",
511
  "و",
512
- "وأسلم",
513
  "وراء",
514
- "وسامراء",
515
  "وسط",
516
- "وســـط",
517
- "وغربه",
518
  "وفق",
 
 
519
  "وقتما",
520
- "وقف",
521
- "ولا",
522
- "ولَا",
523
- "وهي",
524
- "��َ",
525
- "وَرَاءَ",
526
- "وَسطَ",
527
- "وِفقَ",
528
- "وِلّا",
529
- "ي",
530
  "يا",
531
- "يجعل",
532
- "يزال",
533
- "يصبح",
534
- "يكن",
535
- "يكون",
536
- "يكونا",
537
- "يَا",
538
- "ِي",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
539
  ],
540
  "bn": [
541
  "অনেক",
542
- "অন্য",
543
- "অবশ্য",
544
- "আগে",
545
- "আছে",
546
- "আজ",
547
- "আবার",
548
- "আমরা",
549
- "আমাদের",
550
- "আর",
551
- "",
552
- "উত্তর",
553
  "উপর",
554
- "উপরে",
555
- "",
556
- "এই",
557
- "এক্",
558
- "এখন",
559
- "এত",
560
- "এব",
561
- "এমন",
562
- "এমনি",
563
- "এর",
564
- "এস",
565
- "এসে",
566
- "ও",
567
- "ওই",
568
- "কমনে",
569
- "করা",
570
- "করে",
571
- "কাছে",
572
- "কাজ",
573
- "কাজে",
574
- "কারণ",
575
  "কি",
576
- "কিছু",
577
- "কে",
 
578
  "কেউ",
579
- "কেখা",
580
- "কেন",
581
- "কোটি",
582
- "কোনো",
583
- "কয়েক",
584
- "খুব",
585
- "গিয়ে",
586
- "গেল",
587
- "চার",
588
- "চালু",
589
- "চেষ্টা",
590
- "ছিল",
591
- "জানা",
592
- "জ্নজন",
593
- "টি",
594
- "তখন",
595
- "তবে",
596
- "তা",
597
- "তাই",
598
- "তো",
599
- "থাকা",
600
- "থেকে",
601
- "দিন",
602
- "দু",
603
- "দুই",
604
- "দেওয়া",
605
- "ধামার",
606
- "নতুন",
607
- "না",
608
- "নাগাদ",
609
- "নিয়ে",
610
- "নেওয়া",
611
- "নয়",
612
- "পর",
613
- "পরে",
614
- "পাচ",
615
- "পি",
616
- "পেয়্র্",
617
- "প্রতি",
618
- "প্রথম",
619
- "প্রযন্ত",
620
- "প্রাথমিক",
621
- "প্রায়",
622
- "বক্তব্য",
623
- "বন",
624
- "বলা",
625
- "বলে",
626
- "বলেন",
627
- "বহু",
628
- "বা",
629
- "বি",
630
- "বিভিন্ন",
631
- "বেশ",
632
- "বেশি",
633
- "মতো",
634
- "মধ্যে",
635
- "মনে",
636
- "যখন",
637
- "যদি",
638
- "যা",
639
- "যাওয়া",
640
- "যে",
641
- "র",
642
- "রকম",
643
- "লক্ষ",
644
- "শুধু",
645
- "শুরু",
646
- "সঙ্গে",
647
- "সব",
648
- "সহ",
649
- "সাধারণ",
650
- "সামনে",
651
- "সি",
652
- "সে",
653
- "সেই",
654
- "হতে",
655
- "হাজার",
656
- "হয়",
657
  ],
658
  "ca": [
659
  "-ho",
@@ -3686,232 +3566,257 @@ stopwords = {
3686
  "êtes",
3687
  "être",
3688
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3689
  "hi": [
3690
  "अंदर",
3691
- "अत",
3692
- "अदि",
3693
- "अप",
3694
- "अपना",
3695
- "अपनि",
3696
- "अपनी",
3697
- "अपने",
3698
- "अभि",
3699
- "अभी",
3700
- "आदि",
3701
- "आप",
3702
- "इंहिं",
3703
- "इंहें",
3704
- "इंहों",
3705
- "इतयादि",
3706
- "इत्यादि",
3707
- "इन",
3708
- "इनका",
3709
- "इन्हीं",
3710
- "इन्हें",
3711
- "इन्हों",
3712
- "इस",
3713
- "इसका",
3714
- "इसकि",
3715
- "इसकी",
3716
- "इसके",
3717
- "इसमें",
3718
- "इसि",
3719
- "इसी",
3720
- "इसे",
3721
- "उंहिं",
3722
- "उंहें",
3723
- "उंहों",
3724
- "उन",
3725
- "उनका",
3726
- "उनकि",
3727
- "उनकी",
3728
  "उनके",
3729
- "उनको",
3730
- "उन्हीं",
3731
  "उन्हें",
3732
- "उन्हों",
3733
- "उस",
3734
- "उसके",
3735
- "उसि",
3736
- "उसी",
3737
- "उसे",
3738
- "एक",
3739
- "एवं",
3740
- "एस",
3741
- "एसे",
3742
- "ऐसे",
3743
- "ओर",
3744
  "और",
3745
- "कइ",
3746
- "कई",
3747
- "कर",
3748
- "करता",
3749
- "करते",
3750
- "करना",
3751
- "करने",
3752
- "करें",
3753
- "कहते",
3754
- "कहा",
3755
- "का",
3756
- "काफि",
3757
- "काफ़ी",
3758
- "कि",
3759
- "किंहें",
3760
- "किंहों",
3761
- "कितना",
3762
- "किन्हें",
3763
- "किन्हों",
3764
- "किया",
3765
- "किर",
3766
- "किस",
3767
- "किसि",
3768
- "किसी",
3769
- "किसे",
3770
- "की",
3771
- "कुछ",
3772
- "कुल",
3773
- "के",
3774
- "को",
3775
- "कोइ",
3776
  "कोई",
3777
- "कोन",
3778
- "कोनसा",
 
3779
  "कौन",
3780
- "कौनसा",
3781
- "गया",
3782
- "घर",
3783
- "जब",
3784
- "जहाँ",
3785
- "जहां",
3786
- "जा",
3787
- "जिंहें",
3788
- "जिंहों",
3789
- "जितना",
3790
- "जिधर",
3791
- "जिन",
3792
- "जिन्हें",
3793
- "जिन्हों",
3794
- "जिस",
3795
- "जिसे",
3796
- "जीधर",
3797
- "जेसा",
3798
- "जेसे",
3799
  "जैसा",
3800
  "जैसे",
3801
- "जो",
 
 
 
 
3802
  "तक",
3803
- "तब",
3804
- "तरह",
3805
- "तिंहें",
3806
- "तिंहों",
3807
- "तिन",
3808
- "तिन्हें",
3809
- "तिन्हों",
3810
- "तिस",
3811
- "तिसे",
3812
- "तो",
3813
- "था",
3814
- "थि",
3815
- "थी",
3816
- "थे",
3817
- "दबारा",
3818
- "दवारा",
3819
- "दिया",
3820
- "दुसरा",
3821
- "दुसरे",
3822
- "दूसरे",
3823
- "दो",
3824
  "द्वारा",
3825
- "",
3826
- "नहिं",
3827
- "नहीं",
3828
- "ना",
3829
- "निचे",
3830
- "निहायत",
3831
  "नीचे",
3832
- "ने",
3833
- "पर",
3834
- "पहले",
3835
- "पुरा",
3836
  "पूरा",
3837
- "पे",
3838
- "फिर",
3839
- "बनि",
3840
- "बनी",
3841
- "बहि",
3842
- "बही",
3843
- "बहुत",
3844
- "बाद",
3845
- "बाला",
3846
- "बिलकुल",
3847
- "भि",
3848
- "भितर",
3849
  "भी",
3850
- "भीतर",
3851
- "मगर",
3852
- "मानो",
3853
- "मे",
3854
- "में",
 
3855
  "यदि",
3856
- "यह",
3857
- "यहाँ",
3858
- "यहां",
3859
- "यहि",
3860
- "यही",
3861
- "या",
3862
- "यिह",
3863
- "ये",
3864
- "रखें",
3865
- "रवासा",
3866
- "रहा",
3867
- "रहे",
3868
- "ऱ्वासा",
3869
- "लिए",
3870
- "लिये",
3871
  "लेकिन",
3872
- "व",
3873
- "वगेरह",
3874
- "वरग",
3875
- "वर्ग",
3876
  "वह",
3877
- "वहाँ",
3878
  "वहां",
3879
- "वहिं",
3880
- "वहीं",
3881
- "वाले",
3882
- "वुह",
3883
- "वे",
3884
- "वग़ैरह",
3885
- "संग",
3886
- "सकता",
3887
- "सकते",
3888
- "सबसे",
3889
- "सभि",
3890
- "सभी",
3891
  "साथ",
3892
- "साबुत",
3893
- "साभ",
3894
- "सारा",
3895
  "से",
3896
- "सो",
3897
- "हि",
3898
- "ही",
3899
- "हुअ",
3900
- "हुआ",
3901
- "हुइ",
3902
- "हुई",
3903
- "हुए",
3904
- "हे",
3905
- "हें",
3906
- "है",
3907
- "हैं",
3908
- "हो",
3909
- "होता",
3910
- "होति",
3911
- "होती",
3912
- "होते",
3913
- "होना",
3914
- "होने",
3915
  ],
3916
  "id": [
3917
  "Anda",
@@ -5128,546 +5033,180 @@ stopwords = {
5128
  "zake",
5129
  ],
5130
  "ur": [
5131
- "آئی",
5132
- "آئے",
5133
- "آج",
5134
- "آخر",
5135
- "آخرکبر",
5136
- "آدهی",
5137
- "آًب",
5138
- "آٹھ",
5139
- "آیب",
5140
- "اة",
5141
- "اخبزت",
5142
- "اختتبم",
5143
- "ادھر",
5144
- "ارد",
5145
- "اردگرد",
5146
- "ارکبى",
5147
- "اش",
5148
- "اضتعوبل",
5149
- "اضتعوبلات",
5150
- "اضطرذ",
5151
- "اضکب",
5152
- "اضکی",
5153
- "اضکے",
5154
- "اطراف",
5155
- "اغیب",
5156
- "افراد",
5157
- "الگ",
5158
- "اور",
5159
- "اوًچب",
5160
- "اوًچبئی",
5161
- "اوًچی",
5162
- "اوًچے",
5163
- "اى",
5164
- "اً",
5165
- "اًذر",
5166
- "اًہیں",
5167
- "اٹھبًب",
5168
- "اپٌب",
5169
- "اپٌے",
5170
- "اچھب",
5171
- "اچھی",
5172
- "اچھے",
5173
- "اکثر",
5174
- "اکٹھب",
5175
- "اکٹھی",
5176
- "اکٹھے",
5177
- "اکیلا",
5178
- "اکیلی",
5179
- "اکیلے",
5180
- "اگرچہ",
5181
- "اہن",
5182
- "ایطے",
5183
- "ایک",
5184
- "ب",
5185
- "ت",
5186
- "تبزٍ",
5187
- "تت",
5188
- "تر",
5189
- "ترتیت",
5190
- "تریي",
5191
- "تعذاد",
5192
- "تن",
5193
- "تو",
5194
- "توبم",
5195
- "توہی",
5196
- "توہیں",
5197
- "تٌہب",
5198
- "تک",
5199
- "تھب",
5200
- "تھوڑا",
5201
- "تھوڑی",
5202
- "تھوڑے",
5203
- "تھی",
5204
- "تھے",
5205
- "تیي",
5206
- "ثب",
5207
- "ثبئیں",
5208
- "ثبترتیت",
5209
- "ثبری",
5210
- "ثبرے",
5211
- "ثبعث",
5212
- "ثبلا",
5213
- "ثبلترتیت",
5214
- "ثبہر",
5215
- "ثدبئے",
5216
- "ثرآں",
5217
- "ثراں",
5218
- "ثرش",
5219
- "ثعذ",
5220
- "ثغیر",
5221
- "ثلٌذ",
5222
- "ثلٌذوثبلا",
5223
- "ثلکہ",
5224
- "ثي",
5225
- "ثٌب",
5226
- "ثٌبرہب",
5227
- "ثٌبرہی",
5228
- "ثٌبرہے",
5229
- "ثٌبًب",
5230
- "ثٌذ",
5231
- "ثٌذکرو",
5232
- "ثٌذکرًب",
5233
- "ثٌذی",
5234
- "ثڑا",
5235
- "ثڑوں",
5236
- "ثڑی",
5237
- "ثڑے",
5238
- "ثھر",
5239
- "ثھرا",
5240
- "ثھراہوا",
5241
- "ثھرپور",
5242
- "ثھی",
5243
- "ثہت",
5244
- "ثہتر",
5245
- "ثہتری",
5246
- "ثہتریي",
5247
- "ثیچ",
5248
- "ج",
5249
- "خب",
5250
- "خبرہب",
5251
- "خبرہی",
5252
- "خبرہے",
5253
- "خبهوظ",
5254
- "خبًب",
5255
- "خبًتب",
5256
- "خبًتی",
5257
- "خبًتے",
5258
- "خبًٌب",
5259
- "خت",
5260
- "ختن",
5261
- "خجکہ",
5262
- "خص",
5263
- "خططرذ",
5264
- "خلذی",
5265
- "خو",
5266
- "خواى",
5267
- "خوًہی",
5268
- "خوکہ",
5269
- "خٌبة",
5270
- "خگہ",
5271
- "خگہوں",
5272
- "خگہیں",
5273
- "خیطب",
5274
- "خیطبکہ",
5275
- "در",
5276
- "درخبت",
5277
- "درخہ",
5278
- "درخے",
5279
- "درزقیقت",
5280
- "درضت",
5281
- "دش",
5282
- "دفعہ",
5283
- "دلچطپ",
5284
- "دلچطپی",
5285
- "دلچطپیبں",
5286
- "دو",
5287
- "دور",
5288
- "دوراى",
5289
- "دوضرا",
5290
- "دوضروں",
5291
- "دوضری",
5292
- "دوضرے",
5293
- "دوًوں",
5294
- "دکھبئیں",
5295
- "دکھبتب",
5296
- "دکھبتی",
5297
- "دکھبتے",
5298
- "دکھبو",
5299
- "دکھبًب",
5300
- "دکھبیب",
5301
- "دی",
5302
- "دیب",
5303
- "دیتب",
5304
- "دیتی",
5305
- "دیتے",
5306
- "دیر",
5307
- "دیٌب",
5308
- "دیکھو",
5309
- "دیکھٌب",
5310
- "دیکھی",
5311
- "دیکھیں",
5312
- "دے",
5313
- "ر",
5314
- "راضتوں",
5315
- "راضتہ",
5316
- "راضتے",
5317
- "رریعہ",
5318
- "رریعے",
5319
- "رکي",
5320
- "رکھ",
5321
- "رکھب",
5322
- "رکھتب",
5323
- "رکھتبہوں",
5324
- "رکھتی",
5325
- "رکھتے",
5326
- "رکھی",
5327
- "رکھے",
5328
- "رہب",
5329
- "رہی",
5330
- "رہے",
5331
- "ز",
5332
- "زبصل",
5333
- "زبضر",
5334
- "زبل",
5335
- "زبلات",
5336
- "زبلیہ",
5337
- "زصوں",
5338
- "زصہ",
5339
- "زصے",
5340
- "زقبئق",
5341
- "زقیتیں",
5342
- "زقیقت",
5343
- "زکن",
5344
- "زکویہ",
5345
- "زیبدٍ",
5346
- "صبف",
5347
- "صسیر",
5348
- "صفر",
5349
- "صورت",
5350
- "صورتسبل",
5351
- "صورتوں",
5352
- "صورتیں",
5353
- "ض",
5354
- "ضبت",
5355
- "ضبتھ",
5356
- "ضبدٍ",
5357
- "ضبرا",
5358
- "ضبرے",
5359
- "ضبل",
5360
- "ضبلوں",
5361
- "ضت",
5362
- "ضرور",
5363
- "ضرورت",
5364
- "ضروری",
5365
- "ضلطلہ",
5366
- "ضوچ",
5367
- "ضوچب",
5368
- "ضوچتب",
5369
- "ضوچتی",
5370
- "ضوچتے",
5371
- "ضوچو",
5372
- "ضوچٌب",
5373
- "ضوچی",
5374
- "ضوچیں",
5375
- "ضکب",
5376
- "ضکتب",
5377
- "ضکتی",
5378
- "ضکتے",
5379
- "ضکٌب",
5380
- "ضکی",
5381
- "ضکے",
5382
- "ضیذھب",
5383
- "ضیذھی",
5384
- "ضیذھے",
5385
- "ضیکٌڈ",
5386
- "ضے",
5387
- "طرف",
5388
- "طریق",
5389
- "طریقوں",
5390
- "طریقہ",
5391
- "طریقے",
5392
- "طور",
5393
- "طورپر",
5394
- "ظبہر",
5395
- "ع",
5396
- "عذد",
5397
- "عظین",
5398
- "علاقوں",
5399
- "علاقہ",
5400
- "علاقے",
5401
- "علاوٍ",
5402
- "عووهی",
5403
- "غبیذ",
5404
- "غخص",
5405
- "غذ",
5406
- "غروع",
5407
- "غروعبت",
5408
- "غے",
5409
- "فرد",
5410
- "فی",
5411
- "ق",
5412
- "قجل",
5413
- "قجیلہ",
5414
- "قطن",
5415
- "لئے",
5416
- "لا",
5417
- "لازهی",
5418
- "لو",
5419
- "لوجب",
5420
- "لوجی",
5421
- "لوجے",
5422
- "لوسبت",
5423
- "لوسہ",
5424
- "لوگ",
5425
- "لوگوں",
5426
- "لڑکپي",
5427
- "لگتب",
5428
- "لگتی",
5429
- "لگتے",
5430
- "لگٌب",
5431
- "لگی",
5432
- "لگیں",
5433
- "لگے",
5434
- "لی",
5435
- "لیب",
5436
- "لیٌب",
5437
- "لیں",
5438
- "لے",
5439
- "ه",
5440
- "هتعلق",
5441
- "هختلف",
5442
- "هسترم",
5443
- "هسترهہ",
5444
- "هسطوش",
5445
- "هسیذ",
5446
- "هطئلہ",
5447
- "هطئلے",
5448
- "هطبئل",
5449
- "هطتعول",
5450
- "هطلق",
5451
- "هعلوم",
5452
- "هػتول",
5453
- "هلا",
5454
- "هوکي",
5455
- "هوکٌبت",
5456
- "هوکٌہ",
5457
- "هٌبضت",
5458
- "هڑا",
5459
- "هڑًب",
5460
- "هڑے",
5461
- "هکول",
5462
- "هگر",
5463
- "هہرثبى",
5464
- "هیرا",
5465
- "هیری",
5466
- "هیرے",
5467
- "هیں",
5468
- "و",
5469
- "وار",
5470
- "والے",
5471
- "وٍ",
5472
- "ًئی",
5473
- "ًئے",
5474
- "ًب",
5475
- "ًبپطٌذ",
5476
- "ًبگسیر",
5477
- "ًطجت",
5478
- "ًقطہ",
5479
- "ًو",
5480
- "ًوخواى",
5481
- "ًکبلٌب",
5482
- "ًکتہ",
5483
- "ًہ",
5484
- "ًہیں",
5485
- "ًیب",
5486
- "ًے",
5487
- "ٓ آش",
5488
- "ٹھیک",
5489
- "پبئے",
5490
- "پبش",
5491
- "پبًب",
5492
- "پبًچ",
5493
- "پر",
5494
- "پراًب",
5495
- "پطٌذ",
5496
- "پل",
5497
- "پورا",
5498
- "پوچھب",
5499
- "پوچھتب",
5500
- "پوچھتی",
5501
- "پوچھتے",
5502
- "پوچھو",
5503
- "پوچھوں",
5504
- "پوچھٌب",
5505
- "پوچھیں",
5506
- "پچھلا",
5507
  "پھر",
5508
- "پہلا",
5509
- "پہلی",
5510
- "پہلےضی",
5511
- "پہلےضے",
5512
- "پہلےضےہی",
5513
- "پیع",
5514
- "چبر",
5515
- "چبہب",
5516
- "چبہٌب",
5517
- "چبہے",
5518
- "چلا",
5519
- "چلو",
5520
- "چلیں",
5521
- "چلے",
5522
- "چکب",
5523
- "چکی",
5524
- "چکیں",
5525
- "چکے",
5526
- "چھوٹب",
5527
- "چھوٹوں",
5528
- "چھوٹی",
5529
- "چھوٹے",
5530
- "چھہ",
5531
- "چیسیں",
5532
- "ڈھوًڈا",
5533
- "ڈھوًڈلیب",
5534
- "ڈھوًڈو",
5535
- "ڈھوًڈًب",
5536
- "ڈھوًڈی",
5537
- "ڈھوًڈیں",
5538
- "ک",
5539
- "کئی",
5540
- "کئے",
5541
  "کب",
5542
- "کبفی",
5543
- "کبم",
5544
- "کت",
5545
- "کجھی",
5546
- "کرا",
5547
- "کرتب",
5548
- "کرتبہوں",
5549
- "کرتی",
5550
- "کرتے",
5551
- "کرتےہو",
5552
- "کررہب",
5553
- "کررہی",
5554
- "کررہے",
5555
- "کرو",
5556
- "کرًب",
5557
- "کریں",
5558
- "کرے",
5559
- "کطی",
5560
- "کل",
5561
- "کن",
5562
  "کوئی",
5563
- "کوتر",
5564
- "کورا",
5565
- "کوروں",
5566
- "کورٍ",
5567
- "کورے",
5568
- "کوطي",
5569
- "کوى",
5570
- "کوًطب",
5571
- "کوًطی",
5572
- "کوًطے",
5573
- "کھولا",
5574
- "کھولو",
5575
- "کھولٌب",
5576
- "کھولی",
5577
- "کھولیں",
5578
- "کھولے",
5579
- "کہ",
5580
- "کہب",
5581
- "کہتب",
5582
- "کہتی",
5583
- "کہتے",
5584
- "کہو",
5585
- "کہوں",
5586
- "کہٌب",
5587
- "کہی",
5588
- "کہیں",
5589
- "کہے",
5590
- "کی",
5591
- "کیب",
5592
- "کیطب",
5593
- "کیطرف",
5594
- "کیطے",
5595
- "کیلئے",
5596
- "کیوًکہ",
5597
- "کیوں",
5598
- "کیے",
5599
- "کے",
5600
- "کےثعذ",
5601
- "کےرریعے",
5602
- "گئی",
5603
- "گئے",
5604
- "گب",
5605
- "گرد",
5606
- "گروٍ",
5607
- "گروپ",
5608
- "گروہوں",
5609
- "گٌتی",
5610
- "گی",
5611
- "گیب",
5612
- "گے",
5613
- "ہر",
5614
- "ہن",
5615
- "ہو",
5616
- "ہوئی",
5617
- "ہوئے",
5618
- "ہوا",
5619
- "ہوبرا",
5620
- "ہوبری",
5621
- "ہوبرے",
5622
- "ہوتب",
5623
- "ہوتی",
5624
- "ہوتے",
5625
- "ہورہب",
5626
- "ہورہی",
5627
- "ہورہے",
5628
- "ہوضکتب",
5629
- "ہوضکتی",
5630
- "ہوضکتے",
5631
- "ہوًب",
5632
- "ہوًی",
5633
- "ہوًے",
5634
- "ہوچکب",
5635
- "ہوچکی",
5636
- "ہوچکے",
5637
- "ہوگئی",
5638
- "ہوگئے",
5639
- "ہوگیب",
5640
- "ہوں",
5641
- "ہی",
5642
- "ہیں",
5643
- "ہے",
5644
- "ی",
5645
- "یقیٌی",
5646
- "یہ",
5647
- "یہبں",
5648
  ],
5649
  "vi": [
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5650
  "bên",
 
 
 
 
 
 
 
 
 
 
 
 
5651
  "bấy nhiêu",
 
 
 
 
5652
  "bằng",
 
 
 
 
 
 
5653
  "bởi",
 
5654
  "cc",
 
5655
  "chao",
 
 
5656
  "cho",
5657
  "cho dù",
 
 
 
5658
  "chán",
 
 
5659
  "chính",
 
 
 
 
 
 
 
 
 
5660
  "chút",
 
 
 
 
 
 
 
 
 
 
 
5661
  "chứ",
 
 
 
5662
  "các",
 
5663
  "cái",
 
 
 
5664
  "còn",
5665
  "có",
5666
  "có vẻ",
 
 
 
 
 
 
 
5667
  "cùng",
 
5668
  "cơ mà",
 
 
5669
  "cả",
 
 
 
 
 
 
5670
  "của",
 
5671
  "do",
5672
  "do vậy",
5673
  "do đó",
@@ -5675,68 +5214,176 @@ stopwords = {
5675
  "dù",
5676
  "dù sao",
5677
  "dù vậy",
 
5678
  "dưới",
5679
  "dường như",
5680
  "dạ",
 
5681
  "dẫu",
5682
  "dẫu vậy",
 
 
 
 
 
 
 
 
 
5683
  "giữa",
5684
  "gì",
 
5685
  "hay",
5686
  "hay là",
 
 
5687
  "hoặc",
 
 
 
 
 
 
 
 
5688
  "hơn nữa",
5689
  "hả",
5690
  "hầu hết",
 
5691
  "hết",
 
5692
  "hề",
5693
  "hễ",
 
 
 
 
 
 
 
 
 
5694
  "không những",
 
 
 
 
 
 
5695
  "l",
5696
  "là",
 
5697
  "lên",
5698
  "lại nữa",
 
5699
  "lẫn",
5700
  "lắm",
 
 
 
 
 
 
5701
  "mà",
5702
  "mà còn",
 
 
 
 
 
 
5703
  "mấy",
 
 
5704
  "mặc dù",
 
5705
  "mặt khác",
 
 
5706
  "mọi",
 
 
 
5707
  "mỗi",
5708
  "một chút",
5709
  "một nửa",
5710
  "một số",
5711
  "một vài",
5712
  "một ít",
 
5713
  "ngay",
 
 
 
5714
  "ngoài",
5715
  "ngoài ra",
 
 
 
 
 
 
 
5716
  "ngược lại",
 
 
 
 
5717
  "nhá",
5718
  "nhân",
 
5719
  "nhé",
5720
  "như",
5721
  "như vậy",
5722
  "nhưng",
 
 
5723
  "nhất là",
5724
  "nhằm",
5725
  "nhỉ",
 
5726
  "nhờ",
 
5727
  "những",
 
 
 
5728
  "nào",
5729
  "này",
5730
  "nè",
5731
  "nên",
 
 
 
 
 
 
 
 
5732
  "nếu",
5733
  "nếu như",
 
 
 
 
5734
  "nửa",
5735
  "nữa",
 
5736
  "phía",
 
 
 
 
 
5737
  "phần lớn",
 
 
5738
  "qua",
 
 
 
5739
  "quả",
 
5740
  "ra",
5741
  "riêng",
5742
  "rùi",
@@ -5745,37 +5392,81 @@ stopwords = {
5745
  "sang",
5746
  "sao",
5747
  "sau",
 
5748
  "song",
 
 
 
 
 
 
 
 
5749
  "thay",
 
5750
  "theo",
 
 
5751
  "thiệt",
 
 
 
5752
  "thì",
5753
  "thí dụ",
5754
  "thôi",
 
 
 
5755
  "thật",
 
5756
  "thế",
5757
  "thế là",
5758
  "thế mà",
5759
  "thế nhưng",
 
 
 
 
 
5760
  "toàn",
5761
  "toàn bộ",
5762
  "toàn thể",
5763
  "trong",
 
 
 
 
5764
  "trên",
 
5765
  "trước",
 
5766
  "trời",
 
5767
  "tuy",
5768
  "tuy nhiên",
 
5769
  "tuy vậy",
 
5770
  "tóm lại",
 
 
5771
  "tại",
 
 
5772
  "tất cả",
 
5773
  "tận",
 
5774
  "tổ",
 
5775
  "tới",
 
 
5776
  "tức",
5777
  "tức là",
5778
  "từ",
 
 
5779
  "ui",
5780
  "và",
5781
  "vài",
@@ -5785,30 +5476,68 @@ stopwords = {
5785
  "vì thế",
5786
  "vì vậy",
5787
  "ví dụ",
 
5788
  "vô",
5789
  "vô số",
5790
  "vô vàn",
 
 
5791
  "vậy",
5792
  "vậy là",
5793
  "vậy mà",
5794
  "về",
 
 
 
5795
  "với",
5796
  "xuống",
5797
  "à",
 
 
 
 
 
 
 
 
 
5798
  "đa số",
 
5799
  "đi",
5800
  "đâu",
5801
  "đây",
 
 
 
5802
  "đó",
5803
  "đôi",
 
5804
  "được",
 
5805
  "đấy",
 
 
 
 
 
5806
  "đến",
5807
  "để",
 
5808
  "đối với",
 
 
 
5809
  "ạ",
 
 
5810
  "ấy",
 
 
 
5811
  "ở",
 
 
 
5812
  ],
5813
  "yo": [
5814
  "a",
 
57
  "ʼn",
58
  ],
59
  "ar": [
60
+ "آنذاك",
61
+ "أبداً",
 
62
  "أثناء",
63
+ "أسفل",
64
+ "أعلى",
 
65
  "أغلب",
66
  "أكثر",
 
67
  "ألا",
68
+ "ألم",
69
  "أم",
 
70
  "أمام",
71
+ "أمس",
72
  "أن",
73
  "أنا",
74
  "أنت",
75
  "أنتم",
76
+ "أنتما",
77
+ "أنتن",
78
  "أو",
79
  "أولئك",
 
80
  "أي",
81
+ "أيان",
82
+ "أياً",
83
  "أية",
84
+ "أيضاً",
85
  "أين",
86
  "أينما",
 
 
 
 
 
 
 
 
 
 
 
 
 
87
  "إبان",
88
  "إثر",
89
+ "إثر ذلك",
 
90
  "إذا",
 
91
  "إزاء",
 
92
  "إلا",
93
+ "إلا أن",
94
  "إلى",
 
 
95
  "إما",
96
  "إن",
97
  "إنما",
98
+ "إياك",
99
+ "إياكم",
100
+ "إياكما",
101
+ "إياكن",
102
+ "إيانا",
103
+ "إياه",
104
+ "إياها",
105
+ "إياهم",
106
+ "إياهما",
107
+ "إياهن",
108
+ "إياي",
109
+ "الآن",
110
+ "البتة",
 
 
 
 
 
 
 
 
 
 
111
  "التي",
 
112
  "الذي",
113
  "الذين",
114
+ "اللائي",
115
+ "اللات",
 
 
 
116
  "اللاتي",
117
  "اللتان",
118
  "اللتين",
119
  "اللذان",
120
  "اللذين",
121
+ "اللهم",
122
+ "اللوات",
123
  "اللواتي",
124
+ "الليلة",
125
+ "اليوم",
 
 
 
 
 
 
 
 
 
 
 
126
  "اي",
127
+ "بألا",
128
+ "بأن",
129
+ "بئس",
130
+ "بئست",
131
+ "باتجاه",
132
+ "بالأخص",
133
+ "بالأمس",
134
+ "بالتالي",
135
+ "بالذات",
136
+ "بالرغم من",
137
+ "بالضبط",
138
+ "بالطبع",
139
+ "بالفعل",
140
+ "بالقرب",
141
+ "بالكامل",
142
+ "بالنسبة ل",
143
+ "بتاتاً",
144
+ "بجانب",
145
+ "بحسب",
146
+ "بحوالي",
147
+ "بحيث",
148
+ "بذلك",
149
+ "برغم",
150
+ "برمته",
151
+ "بشتى",
152
+ "بصرف النظر عن",
153
+ "بضع",
154
+ "بضعة",
155
  "بعد",
156
  "بعدما",
157
  "بعض",
158
+ "بغض الطرف عن",
159
+ "بغض النظر عن",
160
+ "بغية",
161
  "بـ",
162
+ "بقرب",
163
  "بل",
164
+ "بلا",
165
+ "بلى",
166
+ "بم",
167
  "بما",
168
+ "بما أن",
169
+ "بمفرده",
170
+ "بمقتضى",
171
+ "بمنأى عن",
172
+ "بموجب",
173
  "بين",
174
  "بينما",
175
+ "تاماً",
176
+ "تباعاً",
177
+ "تبعاً",
178
+ "تجاه",
 
 
 
 
 
179
  "تحت",
180
+ "تحديداً",
181
+ "تحسباً",
182
+ "تقريباً",
 
 
 
183
  "تلك",
184
+ "تلو",
185
+ "تماماً",
186
+ "تمشياً",
187
  "ثم",
188
+ "ثمة",
189
+ "جانب",
190
+ "جاهداً",
191
+ "جداً",
192
+ "جدياً",
193
  "جراء",
194
+ "جل",
195
+ "جميع",
196
+ "جميعاً",
197
+ "جنوب",
198
+ "جنوبي",
199
+ "حتماً",
200
+ "حتمياً",
201
  "حتى",
202
  "حسب",
203
  "حسبما",
 
204
  "حوالي",
205
  "حول",
 
206
  "حيال",
207
  "حيث",
208
+ "حيث أن",
209
  "حيثما",
210
  "حين",
211
+ "حينئذ",
212
+ "حيناً",
213
+ "حينذاك",
214
  "حينما",
215
+ "خارج",
216
+ "ختاماً",
 
 
 
 
 
 
 
 
217
  "خلال",
218
+ "خلف",
219
+ "دائماً",
220
+ "داخل",
221
+ "دوماً",
222
  "دون",
223
+ "دونما",
 
224
  "ذاك",
225
  "ذلك",
 
 
 
 
 
 
 
 
 
 
226
  "رغم",
227
+ "رغم أن",
228
  "ريثما",
229
+ "زهاء",
230
+ "ساعة",
231
+ "سنة",
 
 
 
232
  "سوف",
233
  "سوى",
234
+ "سوياً",
235
+ "شتى",
236
+ "شرق",
237
+ "شريطة",
238
+ "شكراً",
239
+ "شمال",
240
+ "صبيحة",
241
  "صوب",
242
  "ضد",
 
 
 
 
243
  "طالما",
244
+ "طبقاً",
245
+ "طواعية",
246
+ "طوعاً",
247
  "طيلة",
248
+ "عادة",
249
+ "عام",
250
+ "عامة",
251
  "عبر",
252
  "عدا",
253
  "عدة",
254
+ "عسى",
255
+ "عشية",
 
 
256
  "عقب",
257
+ "علاوة على",
258
+ "علاوة على ذلك",
259
  "على",
260
+ "على الرغم من",
261
+ "على حد قول",
262
+ "على غرار",
263
+ "على هذا",
264
+ "عما",
265
+ "عمن",
266
+ "عموماً",
267
  "عن",
 
268
  "عند",
269
+ "عندئذ",
270
  "عندما",
271
+ "عنوة",
272
+ "عوضا عن",
273
+ "غالب",
274
+ "غالباً",
275
+ "غداة",
276
+ "غداً",
277
+ "غرب",
 
 
 
 
 
 
 
 
278
  "غير",
279
+ "غير أن",
280
+ "ـك",
281
+ "ـكم",
282
+ "ـكما",
283
+ "ـكن",
284
+ "ـنا",
285
+ "ـه",
286
+ "ـها",
287
+ "ـهم",
288
+ "ـهما",
289
+ "ـهن",
290
+ "ـي",
291
+ "فجأة",
292
+ "فجر",
293
+ "فحسب",
294
+ "فصاعداً",
295
+ "فضلاً",
296
  "فـ",
 
297
  "فور",
298
+ "فوراً",
299
  "فوق",
 
300
  "في",
301
+ "في تلك الأثناء",
302
+ "في غضون ذلك",
303
+ "في هذه الأثناء",
304
  "فيما",
305
+ "فيما يلي",
 
 
 
 
 
306
  "قبالة",
307
  "قبل",
308
  "قبيل",
309
  "قد",
310
+ "قدماً",
311
  "قرابة",
312
  "قرب",
313
+ "قسراً",
314
+ "قطعياً",
315
+ "قليلاً",
 
 
 
 
 
 
316
  "كأن",
317
+ "كالمعتاد",
318
+ "كثيراً",
 
 
 
319
  "كذا",
320
+ "كذلك",
321
  "كـ",
322
  "كل",
323
  "كلا",
324
  "كلتا",
325
  "كلما",
 
326
  "كم",
327
  "كما",
328
+ "كما أن",
 
 
 
 
329
  "كي",
330
  "كيف",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
331
  "لأن",
332
+ "لئلا",
333
  "لا",
334
+ "لا بأس أن",
335
+ "لا بد",
336
+ "لا سيما",
337
+ "لا لبس أن",
338
+ "لا مانع",
339
+ "لابد",
340
+ "لاحقاً",
341
+ "لاسيما",
342
+ "لحظة",
343
+ "لحوالي",
344
  "لدى",
 
345
  "لذا",
346
  "لذلك",
347
+ "لعل",
 
348
  "لـ",
349
  "لقد",
350
  "لكن",
 
351
  "لكي",
352
+ "للتو",
353
  "لم",
354
  "لما",
355
  "لماذا",
356
  "لن",
 
357
  "لو",
358
  "لولا",
359
+ "ليت",
360
+ "ليلة",
361
+ "مؤخراً",
362
+ "مؤقتاً",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
363
  "ما",
364
  "ماذا",
365
+ "مباشرة",
 
 
366
  "متى",
 
367
  "مثل",
368
+ "مثلاً",
369
  "مثلما",
370
+ "مجاناً",
371
+ "مجدداً",
372
+ "مجرد",
373
+ "محض",
374
+ "مراراً",
375
+ "مساء",
376
+ "مطلقاً",
377
  "مع",
378
+ "مع أن",
379
+ "مع ذلك",
380
+ "معاً",
381
  "معظم",
 
 
 
382
  "مما",
383
+ "مما زاد الطين بلة",
384
+ "مما يزيد الطين بلة",
385
+ "ممن",
386
  "من",
387
+ "من الجدير بالذكر أن",
388
+ "من المؤسف",
389
+ "من المؤكد",
390
+ "من المؤمل",
391
+ "من المرجح",
392
+ "من المفترض",
393
+ "من الممكن",
394
+ "من ثم",
395
+ "من جهة أخرى",
396
+ "من غير المرجح",
397
+ "من غير الممكن",
398
+ "من ناحية أخرى",
399
  "منذ",
400
  "مهما",
401
+ "نادراً",
402
+ "ناهيك عن",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
403
  "نحن",
404
  "نحو",
405
+ "نسبياً",
406
  "نعم",
407
+ "نعمت",
408
+ "نفس",
409
+ "نهار",
410
+ "نهاراً",
 
 
411
  "هؤلاء",
 
412
  "هاتان",
413
  "هاتين",
414
+ "هدراً",
 
415
  "هذا",
416
  "هذان",
 
417
  "هذه",
418
  "هذين",
 
 
419
  "هكذا",
420
+ "هكذا دواليك",
421
  "هل",
422
  "هم",
423
  "هما",
424
  "هن",
425
+ "هنا",
426
+ "هناك",
427
+ "هنالك",
428
  "هو",
 
429
  "هي",
 
 
 
 
 
 
 
 
 
 
 
 
 
430
  "و",
 
431
  "وراء",
 
432
  "وسط",
 
 
433
  "وفق",
434
+ "وفقاً",
435
+ "وقت",
436
  "وقتما",
 
 
 
 
 
 
 
 
 
 
437
  "يا",
438
+ "يذكر أن",
439
+ "يوم",
440
+ "يوماً",
441
+ "يومياً",
442
+ ],
443
+ "as": [
444
+ "অন্যথা",
445
+ "অৱশ্যে",
446
+ "আপোনাৰ",
447
+ "উদাহৰণস্বৰূপে",
448
+ "ওপৰলৈ",
449
+ "কম",
450
+ "কাৰণ",
451
+ "কিন্তু",
452
+ "কেতিয়াবা",
453
+ "কোনোবা",
454
+ "গতিকে",
455
+ "তললৈ",
456
+ "তাৰ সলনি",
457
+ "তাৰে ভিতৰত",
458
+ "তেওঁলোকৰ",
459
+ "তেতিয়া",
460
+ "তেনেকুৱাই",
461
+ "ফালে",
462
+ "বহুত",
463
+ "বাওঁফালে",
464
+ "বাহিৰত",
465
+ "ভিতৰত",
466
+ "মোৰ",
467
+ "যথেষ্ট",
468
+ "যাৰ",
469
+ "যি",
470
+ "যেতিয়ালৈকে",
471
+ "যেনে",
472
+ "লৈ",
473
+ "সকলোৱে",
474
+ "সোঁফালে",
475
+ "সৰ্বাধিক",
476
  ],
477
  "bn": [
478
  "অনেক",
479
+ "অনেক ",
480
+ "অন্য ",
481
+ "অন্যথায়",
482
+ "আমরা ",
483
+ "আমার ",
484
+ "আমি",
485
+ "আর জন্য ",
486
+ "আর, ও, এবং ",
487
+ "আরও সাথে , আরো সঙ্গে ",
488
+ "উদাহরণ স্বরূপ",
 
489
  "উপর",
490
+ "",
491
+ "এ, এটা, এইটা ",
492
+ "এখানে , এইখানে ",
493
+ "ও ,ওটা ,ওইটা",
494
+ "ওখানে, সেখানে ",
495
+ "ওদের মধ্যে ",
496
+ "কখন ",
497
+ "কখনও কখনও",
498
+ "কম, অল্প ",
499
+ "কারণ ",
 
 
 
 
 
 
 
 
 
 
 
500
  "কি",
501
+ "কিছু ",
502
+ "কিন্তু ",
503
+ "কে ",
504
  "কেউ",
505
+ "কেমন ",
506
+ "কোথায়",
507
+ "কোনটা ",
508
+ "ডান",
509
+ "তাই, সুতরাং",
510
+ "তার, তাদের, ওর, ওদের ",
511
+ "তারপর",
512
+ "তারা ",
513
+ "তুমি, আপনি ",
514
+ "তোমরা , আপনারা ",
515
+ "তোমার, তোর ",
516
+ "দিকে",
517
+ "না ",
518
+ "নিচে",
519
+ "পরিবর্তে , বরং ",
520
+ "পর্যন্ত",
521
+ "বাইরে",
522
+ "বাম",
523
+ "ভিতর",
524
+ "ভিতরে",
525
+ "মত",
526
+ "যতক্ষণ না",
527
+ "যথেষ্ট",
528
+ "যদি ",
529
+ "যাহার",
530
+ "যাহোক",
531
+ "সব, সবাই ",
532
+ "সবাই",
533
+ "সর্বাধিক",
534
+ "সামান্য",
535
+ "সে রকমই",
536
+ "সে, ও",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
537
  ],
538
  "ca": [
539
  "-ho",
 
3566
  "êtes",
3567
  "être",
3568
  ],
3569
+ "gu": [
3570
+ "અંદર",
3571
+ "અડધા, અડધું",
3572
+ "અત્યારે, હમણાં",
3573
+ "અથવા, કે",
3574
+ "અને",
3575
+ "અનેક, ઘણા",
3576
+ "અન્ય, બીજું",
3577
+ "અમને, હમેં",
3578
+ "અમારા",
3579
+ "અમારું, આપણું",
3580
+ "અમે",
3581
+ "અહીં, અહીંયા",
3582
+ "આ",
3583
+ "આ દ્વારા",
3584
+ "આ રીતે, આ તરફ",
3585
+ "આની જેમ",
3586
+ "ઉપર",
3587
+ "એકલા",
3588
+ "એનાથી",
3589
+ "એમાથી",
3590
+ "ઓછું, ઓછા",
3591
+ "કઈ બાજુ",
3592
+ "કદાચ",
3593
+ "કયું, કયો, કઈ, જે",
3594
+ "કાં તો",
3595
+ "કેટલા",
3596
+ "કેટલાક, થોડા",
3597
+ "કેમ, શા માટે",
3598
+ "કેવી રીતે, કઈ રીતે",
3599
+ "કોઈ",
3600
+ "કોઈ નહી",
3601
+ "કોઈને",
3602
+ "કોઈપણ",
3603
+ "કોણ",
3604
+ "કોનું, જેમના, જેમની",
3605
+ "ક્યાંક, કોઈ જગ્યાએ",
3606
+ "ક્યાંથી, જ્યાં, ક્યાં ",
3607
+ "ક્યારે, જ્યારે",
3608
+ "ક્યારેક ક્યારેક",
3609
+ "ઘણું બધું",
3610
+ "ઘણું, પુસ્કળ, અતિશય",
3611
+ "જેથી",
3612
+ "જેને, જેમને",
3613
+ "જેમ",
3614
+ "જેમ કે, જેમ, જે રીતે, જેવા કે",
3615
+ "જો",
3616
+ "તને",
3617
+ "તમારા, તમારું",
3618
+ "તમારું",
3619
+ "તમે, તું",
3620
+ "તારું",
3621
+ "તે જેવી, તેની જેમ",
3622
+ "તે રીતે, તે તરફ",
3623
+ "તેઓ",
3624
+ "તેઓનું",
3625
+ "તેઓને, તેમને",
3626
+ "તેણીના",
3627
+ "તેથી, તો",
3628
+ "તેના",
3629
+ "તેનું, તેના",
3630
+ "તેમના, તેમનું, તેઓની",
3631
+ "તેમને. એમને",
3632
+ "તેવું",
3633
+ "ત્યાં",
3634
+ "ત્યાં સુધી",
3635
+ "થોડા",
3636
+ "થોડું",
3637
+ "દરેક",
3638
+ "દૂર",
3639
+ "દ્વારા",
3640
+ "નજીક, પાસે",
3641
+ "ના, નહિ",
3642
+ "ના, નો",
3643
+ "ની અંદર",
3644
+ "ની સામે",
3645
+ "નીચે",
3646
+ "પછી",
3647
+ "પછી, ત્યારે",
3648
+ "પછીથી",
3649
+ "પણ",
3650
+ "પરંતુ, પણ",
3651
+ "પાછળ",
3652
+ "પેલી",
3653
+ "પેલું",
3654
+ "પેલો, તે",
3655
+ "પ્રતિ",
3656
+ "ફરીથી, ફરી",
3657
+ "બંને, બેઉ",
3658
+ "બધા",
3659
+ "બહાર",
3660
+ "બાજુમાં",
3661
+ "ભરપૂર",
3662
+ "મને",
3663
+ "માં",
3664
+ "માંથી, થી",
3665
+ "માટે",
3666
+ "માથે, ઉપર",
3667
+ "મારા",
3668
+ "મારુ, મારી ",
3669
+ "મારું",
3670
+ "લીધે, કારણ કે,કેમ કે",
3671
+ "વધારાનું",
3672
+ "વધારે",
3673
+ "વધારે, વધુ ",
3674
+ "શું",
3675
+ "સમગ્ર",
3676
+ "સમાન, એક સરખું",
3677
+ "સાથે",
3678
+ "સિવાય",
3679
+ "સુધી",
3680
+ "સૌથી વધુ",
3681
+ "હજુ સુધી",
3682
+ "હું",
3683
+ ],
3684
  "hi": [
3685
  "अंदर",
3686
+ "अकेला",
3687
+ "अतिरिक्त",
3688
+ "अथवा, या",
3689
+ "अधिकांश",
3690
+ "अन्यथा",
3691
+ "अब, अभि, इसी वक्त",
3692
+ "अभी तक",
3693
+ "आधा",
3694
+ "आप, तुम, तुजे",
3695
+ "आपका, तुम्हारा, तेरा",
3696
+ "इधर, यहाँ",
3697
+ "इन्हें, इन",
3698
+ "इस तरफ",
3699
+ "इस से",
3700
+ "इसका, इसकी",
3701
+ "इसके द्वारा",
3702
+ "इसके साथ",
3703
+ "इसलिए",
3704
+ "इसलिए, तो",
3705
+ "उदाहरण के लिए",
3706
+ "उन को, इन को, उन्हें, इन्हें",
3707
+ "उनका, उनके, उनकी, इनका",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3708
  "उनके",
3709
+ "उनमें से",
 
3710
  "उन्हें",
3711
+ "उस तरफ, उसी और",
3712
+ "उसकी, उसके",
3713
+ "उसके जैसा",
3714
+ "उसको, उसके, इसको, इसके, इसकी",
3715
+ "ऊपर",
3716
+ "ऐसा",
 
 
 
 
 
 
3717
  "और",
3718
+ "कब, जब",
3719
+ "कभी - कभी",
3720
+ "कभी कभी",
3721
+ "कम",
3722
+ "कम, थोड़ा",
3723
+ "कहीं",
3724
+ "का, की, के",
3725
+ "काफ़ी",
3726
+ "किंतु, पर, लेकिन, मगर",
3727
+ "कितने",
3728
+ "किस तरफ",
3729
+ "किसके, जिसके, जिनके, किसका",
3730
+ "किसको, किसे, जिसे, जिन्हे",
3731
+ "किसी को",
3732
+ "की ओर, की तरफ़",
3733
+ "कुछ, थोड़े",
3734
+ "के अंदर",
3735
+ "के अलावा",
3736
+ "के ऊपर",
3737
+ "के लिये",
3738
+ "के सामने",
3739
+ "कैसे, कैसा",
 
 
 
 
 
 
 
 
 
3740
  "कोई",
3741
+ "कोई न कोई",
3742
+ "कोई नहीं",
3743
+ "कोई, कोई व्यक्ति",
3744
  "कौन",
3745
+ "कौन सा, जो",
3746
+ "कौन, जो",
3747
+ "क्या",
3748
+ "क्यों",
3749
+ "क्योंकि, चूंकि",
3750
+ "जब तक",
3751
+ "जब तक, तक तक",
3752
+ "जहाँ, कहां, किधर",
3753
+ "जिसका",
 
 
 
 
 
 
 
 
 
 
3754
  "जैसा",
3755
  "जैसे",
3756
+ "जैसे की, जैसा, वैसा",
3757
+ "जैसे, इस तरह",
3758
+ "ज्यादा, अधिक",
3759
+ "ढेर सारा",
3760
+ "ढेर सारा, बहुत सारा",
3761
  "तक",
3762
+ "तक, जब तक",
3763
+ "तब, फिर",
3764
+ "ताकि",
3765
+ "तुम्हारा",
3766
+ "तुम्हारा, तुम्हारे",
3767
+ "तुम्हे, तुझे, तुमको",
3768
+ "तेरा, तेरी",
3769
+ "थोड़ा",
3770
+ "दाहिने, दाहिना",
3771
+ "दुसरा, एक और",
3772
+ "दूर",
3773
+ "दोनों",
 
 
 
 
 
 
 
 
 
3774
  "द्वारा",
3775
+ "नहीं, मत ",
 
 
 
 
 
3776
  "नीचे",
3777
+ "पास में, पास",
3778
+ "पास, नजदीक, करीब",
3779
+ "पीछे",
 
3780
  "पूरा",
3781
+ "प्रति, से, तक",
3782
+ "प्रत्येक",
3783
+ "फिर, तो, तब, उस वक़्त",
3784
+ "फिर, दुबारा",
3785
+ "बजाय",
3786
+ "बहुत, अनेक",
3787
+ "बहुत, ज्यादा, काफी",
3788
+ "बाएं, वाम",
3789
+ "बाद में",
3790
+ "बाद में, पीछे",
3791
+ "बाहर",
 
3792
  "भी",
3793
+ "मुझे",
3794
+ "में, भीतर, अंदर",
3795
+ "में, मैंने",
3796
+ "मेरा, अपना",
3797
+ "मेरा, मेरी",
3798
+ "मेरी, मेरा, मेरे",
3799
  "यदि",
3800
+ "यदि, अगर",
3801
+ "यदि, या",
3802
+ "यह, ये, इसे",
 
 
 
 
 
 
 
 
 
 
 
 
3803
  "लेकिन",
 
 
 
 
3804
  "वह",
3805
+ "वह, जो",
3806
  "वहां",
3807
+ "वही",
3808
+ "वे, वह, वो, उन्होंने",
3809
+ "वैसे, उसके जैसा",
3810
+ "शायद",
3811
+ "सब लोग",
3812
+ "सब, सभी, सारे",
3813
+ "सबसे ज्यादा, अधिकांश",
 
 
 
 
 
3814
  "साथ",
 
 
 
3815
  "से",
3816
+ "हम",
3817
+ "हमारा, हमारे, हमारी",
3818
+ "हर जगह",
3819
+ "हालाँकि",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3820
  ],
3821
  "id": [
3822
  "Anda",
 
5033
  "zake",
5034
  ],
5035
  "ur": [
5036
+ "اسلئے",
5037
+ "اسکے جیسا",
5038
+ "ان کے بیچ ,ان لوگوں کے بیچ",
5039
+ "اندر",
5040
+ "انکا",
5041
+ "اور ,و",
5042
+ "اوپر",
5043
+ "اگر ,گرچہ ,اگرچہ",
5044
+ "باہر",
5045
+ "بایاں ,بائیں",
5046
+ "بجائے ,بدلے ,بدلے میں",
5047
+ "بہت ,بہت سارے ,بہت کچھ",
5048
+ "بہت زیادہ",
5049
+ "تب تک",
5050
+ "تم لوگ ,آپ ,آپ لوگ",
5051
+ "تمہارا ,تیرا ,آپکا",
5052
+ "تو, تم ,آپ",
5053
+ "تھوڑا ,تھوڑی",
5054
+ "جب تک",
5055
+ "جسکا",
5056
+ "جیسے",
5057
+ "حالاںکہ",
5058
+ "دایاں ,دائیں ,صحیح",
5059
+ "دوسرا",
5060
+ "زیادہ تر",
5061
+ "ساتھ ,کے ساتھ",
5062
+ "سب ,سبھی ,سب کچھ ,سارے ,سارا",
5063
+ "سب لوگ",
5064
+ "طرف ,اسکی طرف",
5065
+ "لیکن",
5066
+ "مثلأ ,مثال کے طور پے",
5067
+ "میرا",
5068
+ "میں",
5069
+ "میں ,کے اندر ,اندر",
5070
+ "نہی تو",
5071
+ "نہیں ,ناں ,نا",
5072
+ "نیچے",
5073
+ "وہ ,وہ لوگ",
5074
+ "وہ ,وہ والا, کہ",
5075
+ "وہ ,یے",
5076
+ "وہاں",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5077
  "پھر",
5078
+ "پہ ,پر ,میں",
5079
+ "کافی",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5080
  "کب",
5081
+ "کبھی کبھی",
5082
+ "کم",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5083
  "کوئی",
5084
+ "کون",
5085
+ "کونسا",
5086
+ "کچھ",
5087
+ "کہاں",
5088
+ "کیا",
5089
+ "کیسے",
5090
+ "کیوںکہ ,چوںکہ ,کیوںکی",
5091
+ "کےلئے",
5092
+ "ہم ,ھم",
5093
+ "یہ ,یہ والا",
5094
+ "یہاں",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5095
  ],
5096
  "vi": [
5097
+ "ai",
5098
+ "ai ai",
5099
+ "ai nấy",
5100
+ "anh",
5101
+ "anh em",
5102
+ "anh trai",
5103
+ "anh ấy",
5104
+ "ba",
5105
+ "bao",
5106
+ "bao giờ",
5107
+ "bay",
5108
+ "bà",
5109
+ "bà con",
5110
+ "bà ấy",
5111
+ "bác",
5112
+ "bây",
5113
+ "bé",
5114
  "bên",
5115
+ "bạn",
5116
+ "bạn gái",
5117
+ "bạn trai",
5118
+ "bả",
5119
+ "bản thân",
5120
+ "bất chấp",
5121
+ "bất cứ",
5122
+ "bất kì",
5123
+ "bất luận",
5124
+ "bất nhược",
5125
+ "bất quá",
5126
+ "bấy",
5127
  "bấy nhiêu",
5128
+ "bần tăng",
5129
+ "bầy quân",
5130
+ "bầy tui",
5131
+ "bậu",
5132
  "bằng",
5133
+ "bệ hạ",
5134
+ "bị cáo",
5135
+ "bố",
5136
+ "bố nó",
5137
+ "bồ",
5138
+ "bộ",
5139
  "bởi",
5140
+ "bởi vì",
5141
  "cc",
5142
+ "cha",
5143
  "chao",
5144
+ "chi",
5145
+ "chiếu theo",
5146
  "cho",
5147
  "cho dù",
5148
+ "cho đến",
5149
+ "choa",
5150
+ "chàng",
5151
  "chán",
5152
+ "cháu",
5153
+ "chí",
5154
  "chính",
5155
+ "chú",
5156
+ "chú mày",
5157
+ "chúng",
5158
+ "chúng mày",
5159
+ "chúng mình",
5160
+ "chúng nó",
5161
+ "chúng ta",
5162
+ "chúng tao",
5163
+ "chúng tôi",
5164
  "chút",
5165
+ "chăng",
5166
+ "chưa",
5167
+ "chưng",
5168
+ "chả",
5169
+ "chắc",
5170
+ "chẳng cứ",
5171
+ "chỉ",
5172
+ "chị",
5173
+ "chị gái",
5174
+ "chị ấy",
5175
+ "chớ",
5176
  "chứ",
5177
+ "con",
5178
+ "con này",
5179
+ "cuối cùng",
5180
  "các",
5181
+ "các hạ",
5182
  "cái",
5183
+ "cái gì",
5184
+ "cái này",
5185
+ "cán bộ",
5186
  "còn",
5187
  "có",
5188
  "có vẻ",
5189
+ "cóc",
5190
+ "cô",
5191
+ "cô nương",
5192
+ "cô ta",
5193
+ "cô ấy",
5194
+ "côi",
5195
+ "công tử",
5196
  "cùng",
5197
+ "cơ",
5198
  "cơ mà",
5199
+ "cưng",
5200
+ "cạnh",
5201
  "cả",
5202
+ "cả nhà",
5203
+ "cầm bằng",
5204
+ "cậu",
5205
+ "cổ",
5206
+ "cộng",
5207
+ "cụ",
5208
  "của",
5209
+ "cứ",
5210
  "do",
5211
  "do vậy",
5212
  "do đó",
 
5214
  "dù",
5215
  "dù sao",
5216
  "dù vậy",
5217
+ "dưng",
5218
  "dưới",
5219
  "dường như",
5220
  "dạ",
5221
+ "dầu",
5222
  "dẫu",
5223
  "dẫu vậy",
5224
+ "dậy",
5225
+ "dọc",
5226
+ "dợ",
5227
+ "em",
5228
+ "ghe",
5229
+ "già",
5230
+ "giá như",
5231
+ "giả dụ",
5232
+ "giả sử",
5233
  "giữa",
5234
  "gì",
5235
+ "ha",
5236
  "hay",
5237
  "hay là",
5238
+ "hen",
5239
+ "hoàng thượng",
5240
  "hoặc",
5241
+ "huynh",
5242
+ "huống",
5243
+ "huống chi",
5244
+ "huống gì",
5245
+ "huống hồ",
5246
+ "há",
5247
+ "hôn",
5248
+ "hơn",
5249
  "hơn nữa",
5250
  "hả",
5251
  "hầu hết",
5252
+ "hắn",
5253
  "hết",
5254
+ "hết cả",
5255
  "hề",
5256
  "hễ",
5257
+ "họ",
5258
+ "hổi",
5259
+ "hỡi",
5260
+ "hử",
5261
+ "khanh",
5262
+ "khi",
5263
+ "khi nào",
5264
+ "không",
5265
+ "không ai",
5266
  "không những",
5267
+ "khứa",
5268
+ "kia",
5269
+ "kém",
5270
+ "kìa",
5271
+ "kẻo",
5272
+ "kể từ",
5273
  "l",
5274
  "là",
5275
+ "lão",
5276
  "lên",
5277
  "lại nữa",
5278
+ "lần",
5279
  "lẫn",
5280
  "lắm",
5281
+ "mi",
5282
+ "min",
5283
+ "miễn",
5284
+ "moa",
5285
+ "muôn",
5286
+ "muội",
5287
  "mà",
5288
  "mà còn",
5289
+ "mày",
5290
+ "mãi",
5291
+ "mình",
5292
+ "mô",
5293
+ "mũ",
5294
+ "mất",
5295
  "mấy",
5296
+ "mầy",
5297
+ "mẫu hậu",
5298
  "mặc dù",
5299
+ "mặc dầu",
5300
  "mặt khác",
5301
+ "mẹ",
5302
+ "mẹ nó",
5303
  "mọi",
5304
+ "mọi người",
5305
+ "mọi vật",
5306
+ "mỏa",
5307
  "mỗi",
5308
  "một chút",
5309
  "một nửa",
5310
  "một số",
5311
  "một vài",
5312
  "một ít",
5313
+ "mụ",
5314
  "ngay",
5315
+ "nghe",
5316
+ "nghen",
5317
+ "nghỉ",
5318
  "ngoài",
5319
  "ngoài ra",
5320
+ "ngoại",
5321
+ "ngoải",
5322
+ "ngài",
5323
+ "ngươi",
5324
+ "người",
5325
+ "người người",
5326
+ "người ta",
5327
  "ngược lại",
5328
+ "ngộ",
5329
+ "nha",
5330
+ "nhiều",
5331
+ "nhà quân",
5332
  "nhá",
5333
  "nhân",
5334
+ "nhân dịp",
5335
  "nhé",
5336
  "như",
5337
  "như vậy",
5338
  "nhưng",
5339
+ "nhưng mà",
5340
+ "nhược bằng",
5341
  "nhất là",
5342
  "nhằm",
5343
  "nhỉ",
5344
+ "nhỏ",
5345
  "nhờ",
5346
+ "nhỡ",
5347
  "những",
5348
+ "ni",
5349
+ "nà",
5350
+ "nàng",
5351
  "nào",
5352
  "này",
5353
  "nè",
5354
  "nên",
5355
+ "nó",
5356
+ "nô tài",
5357
+ "nô tì",
5358
+ "nơi",
5359
+ "nơi nơi",
5360
+ "nấy",
5361
+ "nầy",
5362
+ "nẩu",
5363
  "nếu",
5364
  "nếu như",
5365
+ "nọ",
5366
+ "nội",
5367
+ "nớ",
5368
+ "nừng",
5369
  "nửa",
5370
  "nữa",
5371
+ "phi",
5372
  "phía",
5373
+ "phô bay",
5374
+ "phải",
5375
+ "phải hôn",
5376
+ "phải không",
5377
+ "phần",
5378
  "phần lớn",
5379
+ "phỏng",
5380
+ "phứt",
5381
  "qua",
5382
+ "quanh",
5383
+ "quý khách",
5384
+ "quý vị",
5385
  "quả",
5386
+ "quả nhân",
5387
  "ra",
5388
  "riêng",
5389
  "rùi",
 
5392
  "sang",
5393
  "sao",
5394
  "sau",
5395
+ "sau cùng",
5396
  "song",
5397
+ "song le",
5398
+ "sắp",
5399
+ "sẽ",
5400
+ "sở dĩ",
5401
+ "ta",
5402
+ "tao",
5403
+ "tau",
5404
+ "thanh niên",
5405
  "thay",
5406
+ "thay vì",
5407
  "theo",
5408
+ "theo đó",
5409
+ "thiếp",
5410
  "thiệt",
5411
+ "thành",
5412
+ "thâu",
5413
+ "thêm",
5414
  "thì",
5415
  "thí dụ",
5416
  "thôi",
5417
+ "thần",
5418
+ "thầy",
5419
+ "thẩy",
5420
  "thật",
5421
+ "thằng này",
5422
  "thế",
5423
  "thế là",
5424
  "thế mà",
5425
  "thế nhưng",
5426
+ "thị",
5427
+ "thời",
5428
+ "tiểu nhân",
5429
+ "toa",
5430
+ "toà",
5431
  "toàn",
5432
  "toàn bộ",
5433
  "toàn thể",
5434
  "trong",
5435
+ "trong khi",
5436
+ "trong đó",
5437
+ "trái",
5438
+ "trái lại",
5439
  "trên",
5440
+ "trò",
5441
  "trước",
5442
+ "trẫm",
5443
  "trời",
5444
+ "trừ phi",
5445
  "tuy",
5446
  "tuy nhiên",
5447
+ "tuy rằng",
5448
  "tuy vậy",
5449
+ "tê",
5450
  "tóm lại",
5451
+ "tôi",
5452
+ "tương đương",
5453
  "tại",
5454
+ "tại hạ",
5455
+ "tại vì",
5456
  "tất cả",
5457
+ "tầm",
5458
  "tận",
5459
+ "tỉ",
5460
  "tổ",
5461
+ "tớ",
5462
  "tới",
5463
+ "tụi",
5464
+ "tụi nó",
5465
  "tức",
5466
  "tức là",
5467
  "từ",
5468
+ "tự",
5469
+ "tựa",
5470
  "ui",
5471
  "và",
5472
  "vài",
 
5476
  "vì thế",
5477
  "vì vậy",
5478
  "ví dụ",
5479
+ "ví như",
5480
  "vô",
5481
  "vô số",
5482
  "vô vàn",
5483
+ "vả chăng",
5484
+ "vả lại",
5485
  "vậy",
5486
  "vậy là",
5487
  "vậy mà",
5488
  "về",
5489
+ "về hướng",
5490
+ "về phía",
5491
+ "vị",
5492
  "với",
5493
  "xuống",
5494
  "à",
5495
+ "á",
5496
+ "ái khanh",
5497
+ "âu là",
5498
+ "í",
5499
+ "ít",
5500
+ "ông",
5501
+ "ông ấy",
5502
+ "út",
5503
+ "ý",
5504
  "đa số",
5505
+ "đang",
5506
  "đi",
5507
  "đâu",
5508
  "đây",
5509
+ "đã",
5510
+ "đê",
5511
+ "đích thân",
5512
  "đó",
5513
  "đôi",
5514
+ "đương",
5515
  "được",
5516
+ "đại nhân",
5517
  "đấy",
5518
+ "đầu tiên",
5519
+ "đằng này",
5520
+ "đằng ấy",
5521
+ "��ẳng",
5522
+ "đặng",
5523
  "đến",
5524
  "để",
5525
+ "đệ",
5526
  "đối với",
5527
+ "đồ",
5528
+ "ơi",
5529
+ "ư",
5530
  "ạ",
5531
+ "ả",
5532
+ "ảnh",
5533
  "ấy",
5534
+ "ẻm",
5535
+ "ổng",
5536
+ "ờ",
5537
  "ở",
5538
+ "ừ",
5539
+ "ừa",
5540
+ "ừm",
5541
  ],
5542
  "yo": [
5543
  "a",