Spaces:
Runtime error
Runtime error
HugoLaurencon
commited on
Commit
•
ceb5bcb
1
Parent(s):
a3825e5
updated files
Browse files- app.py +1 -1
- flagged_words.py +81 -0
- languages_id.py +4 -4
- parameters_filtering.py +31 -31
- stopwords.py +891 -1162
app.py
CHANGED
@@ -787,7 +787,7 @@ class Visualization_for_lang:
|
|
787 |
st.markdown(
|
788 |
f"Language identification confidence score: {lang_id_score}"
|
789 |
)
|
790 |
-
if is_doc_discarded(key,
|
791 |
self.lang_dataset_id != lang_pred_dataset_id
|
792 |
):
|
793 |
is_discarded = True
|
|
|
787 |
st.markdown(
|
788 |
f"Language identification confidence score: {lang_id_score}"
|
789 |
)
|
790 |
+
if is_doc_discarded(key, lang_id_score) or (
|
791 |
self.lang_dataset_id != lang_pred_dataset_id
|
792 |
):
|
793 |
is_discarded = True
|
flagged_words.py
CHANGED
@@ -141,6 +141,47 @@ flagged_words = {
|
|
141 |
"نكاح",
|
142 |
"نيك",
|
143 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
144 |
"ca": english_flagged_words
|
145 |
+ [
|
146 |
"cagarro",
|
@@ -985,6 +1026,46 @@ flagged_words = {
|
|
985 |
"x రేట్",
|
986 |
"xxx",
|
987 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
988 |
"vi": english_flagged_words
|
989 |
+ [
|
990 |
"cặc",
|
|
|
141 |
"نكاح",
|
142 |
"نيك",
|
143 |
],
|
144 |
+
"bn": english_flagged_words
|
145 |
+
+ [
|
146 |
+
"আঙ্গুলি করা",
|
147 |
+
"আচোদা",
|
148 |
+
"খানকি",
|
149 |
+
"খানকি মাগি",
|
150 |
+
"গান্ড মারানো",
|
151 |
+
"গুদ মারানি",
|
152 |
+
"চুচুক",
|
153 |
+
"চোদ",
|
154 |
+
"চোদনা",
|
155 |
+
"চোদা",
|
156 |
+
"চোদা বোন",
|
157 |
+
"চোদাচুদি",
|
158 |
+
"জারজ",
|
159 |
+
"নাঙ্গ",
|
160 |
+
"নেংটা",
|
161 |
+
"পর্ণহাব",
|
162 |
+
"পর্ন",
|
163 |
+
"পর্নস্টার",
|
164 |
+
"পর্নোগ্রাফি",
|
165 |
+
"পোঁদ",
|
166 |
+
"পোঁদ মারানি",
|
167 |
+
"পোদ মারানি",
|
168 |
+
"বাঁড়া",
|
169 |
+
"বানচোদ",
|
170 |
+
"বেশ্যা",
|
171 |
+
"বেশ্যার ছেলে",
|
172 |
+
"বোকাচোদা",
|
173 |
+
"ভগ",
|
174 |
+
"মা চোদা",
|
175 |
+
"মাগী",
|
176 |
+
"মাদারচোদ",
|
177 |
+
"মুখে নিবি",
|
178 |
+
"মোরগ",
|
179 |
+
"রেন্ডি",
|
180 |
+
"শিশ্ন",
|
181 |
+
"স্তন",
|
182 |
+
"স্তনবৃন্ত",
|
183 |
+
"হস্তমৈথুন",
|
184 |
+
],
|
185 |
"ca": english_flagged_words
|
186 |
+ [
|
187 |
"cagarro",
|
|
|
1026 |
"x రేట్",
|
1027 |
"xxx",
|
1028 |
],
|
1029 |
+
"ur": english_flagged_words
|
1030 |
+
+ [
|
1031 |
+
"انگلی کرنا",
|
1032 |
+
"ایکس ریٹیڈ",
|
1033 |
+
"بلو جاب",
|
1034 |
+
"بٹ",
|
1035 |
+
"جھٹکا بند",
|
1036 |
+
"دلڈو",
|
1037 |
+
"رنڈی",
|
1038 |
+
"سلٹ",
|
1039 |
+
"سکلیرا",
|
1040 |
+
"سیڈسٹ",
|
1041 |
+
"سیکس بم",
|
1042 |
+
"شہوانی",
|
1043 |
+
"شہوت انگیز",
|
1044 |
+
"فحش نگاری",
|
1045 |
+
"لن",
|
1046 |
+
"لنڈ",
|
1047 |
+
"لنڈ چوسنے والا",
|
1048 |
+
"لوڑہ",
|
1049 |
+
"ماں کمینے",
|
1050 |
+
"مشت زنی",
|
1051 |
+
"ممے",
|
1052 |
+
"مٹھ",
|
1053 |
+
"مٹھی",
|
1054 |
+
"ویشیا",
|
1055 |
+
"پورن",
|
1056 |
+
"پھدی",
|
1057 |
+
"پیگنگ",
|
1058 |
+
"چدائ",
|
1059 |
+
"چدک",
|
1060 |
+
"چوت",
|
1061 |
+
"چودنا",
|
1062 |
+
"چوچی",
|
1063 |
+
"کسبی",
|
1064 |
+
"کسنگ",
|
1065 |
+
"گانڈ",
|
1066 |
+
"گدا",
|
1067 |
+
"ہینڈ جاب",
|
1068 |
+
],
|
1069 |
"vi": english_flagged_words
|
1070 |
+ [
|
1071 |
"cặc",
|
languages_id.py
CHANGED
@@ -32,7 +32,7 @@ langs_id = [
|
|
32 |
{
|
33 |
"lang": "Assamese",
|
34 |
"dataset_id": "as",
|
35 |
-
"stopwords_id":
|
36 |
"flagged_words_id": None,
|
37 |
"fasttext_id": "as",
|
38 |
"sentencepiece_id": "as",
|
@@ -42,7 +42,7 @@ langs_id = [
|
|
42 |
"lang": "Bengali",
|
43 |
"dataset_id": "bn",
|
44 |
"stopwords_id": "bn",
|
45 |
-
"flagged_words_id":
|
46 |
"fasttext_id": "bn",
|
47 |
"sentencepiece_id": "bn",
|
48 |
"kenlm_id": "bn",
|
@@ -95,7 +95,7 @@ langs_id = [
|
|
95 |
{
|
96 |
"lang": "Gujarati",
|
97 |
"dataset_id": "gu",
|
98 |
-
"stopwords_id":
|
99 |
"flagged_words_id": None,
|
100 |
"fasttext_id": "gu",
|
101 |
"sentencepiece_id": "gu",
|
@@ -186,7 +186,7 @@ langs_id = [
|
|
186 |
"lang": "Urdu",
|
187 |
"dataset_id": "ur",
|
188 |
"stopwords_id": "ur",
|
189 |
-
"flagged_words_id":
|
190 |
"fasttext_id": "ur",
|
191 |
"sentencepiece_id": "ur",
|
192 |
"kenlm_id": "ur",
|
|
|
32 |
{
|
33 |
"lang": "Assamese",
|
34 |
"dataset_id": "as",
|
35 |
+
"stopwords_id": "as",
|
36 |
"flagged_words_id": None,
|
37 |
"fasttext_id": "as",
|
38 |
"sentencepiece_id": "as",
|
|
|
42 |
"lang": "Bengali",
|
43 |
"dataset_id": "bn",
|
44 |
"stopwords_id": "bn",
|
45 |
+
"flagged_words_id": "bn",
|
46 |
"fasttext_id": "bn",
|
47 |
"sentencepiece_id": "bn",
|
48 |
"kenlm_id": "bn",
|
|
|
95 |
{
|
96 |
"lang": "Gujarati",
|
97 |
"dataset_id": "gu",
|
98 |
+
"stopwords_id": "gu",
|
99 |
"flagged_words_id": None,
|
100 |
"fasttext_id": "gu",
|
101 |
"sentencepiece_id": "gu",
|
|
|
186 |
"lang": "Urdu",
|
187 |
"dataset_id": "ur",
|
188 |
"stopwords_id": "ur",
|
189 |
+
"flagged_words_id": "ur",
|
190 |
"fasttext_id": "ur",
|
191 |
"sentencepiece_id": "ur",
|
192 |
"kenlm_id": "ur",
|
parameters_filtering.py
CHANGED
@@ -223,35 +223,35 @@ parameters_filtering_bn = {
|
|
223 |
parameters_filtering_ca = {
|
224 |
"cond_uniform_whitespace": True,
|
225 |
"cond_replace_unicode_punctuation": False,
|
226 |
-
"cond_remove_words_with_incorrect_substrings":
|
227 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
228 |
"cond_remove_long_words": True,
|
229 |
-
"length_word_max_cutoff":
|
230 |
"cond_check_number_words": True,
|
231 |
"tokenization": False,
|
232 |
"strip_characters": special_characters_default,
|
233 |
-
"number_words_min_cutoff":
|
234 |
"number_words_max_cutoff": 100000,
|
235 |
"cond_check_character_repetition_removal": True,
|
236 |
"character_repetition_length": 10,
|
237 |
-
"character_repetition_max_cutoff": 0.
|
238 |
"cond_check_word_repetition_removal": True,
|
239 |
"word_repetition_length": 5,
|
240 |
-
"word_repetition_max_cutoff": 0.
|
241 |
"cond_check_special_characters": True,
|
242 |
"special_characters": special_characters_default,
|
243 |
-
"special_characters_max_cutoff": 0.
|
244 |
"cond_words_augmentation": False,
|
245 |
"words_augmentation_group_sizes": [],
|
246 |
"words_augmentation_join_char": "",
|
247 |
"cond_check_stopwords": True,
|
248 |
-
"stopwords_min_cutoff": 0,
|
249 |
"cond_check_flagged_words": False,
|
250 |
-
"flagged_words_max_cutoff": 0.
|
251 |
"cond_check_lang_id": True,
|
252 |
-
"lang_id_min_cutoff": 0.
|
253 |
"cond_check_perplexity": True,
|
254 |
-
"perplexity_max_cutoff":
|
255 |
}
|
256 |
|
257 |
parameters_filtering_en = {
|
@@ -285,7 +285,7 @@ parameters_filtering_en = {
|
|
285 |
"cond_check_lang_id": True,
|
286 |
"lang_id_min_cutoff": 0.80,
|
287 |
"cond_check_perplexity": True,
|
288 |
-
"perplexity_max_cutoff":
|
289 |
}
|
290 |
|
291 |
parameters_filtering_es = {
|
@@ -359,35 +359,35 @@ parameters_filtering_eu = {
|
|
359 |
parameters_filtering_fr = {
|
360 |
"cond_uniform_whitespace": True,
|
361 |
"cond_replace_unicode_punctuation": False,
|
362 |
-
"cond_remove_words_with_incorrect_substrings":
|
363 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
364 |
"cond_remove_long_words": True,
|
365 |
-
"length_word_max_cutoff":
|
366 |
"cond_check_number_words": True,
|
367 |
"tokenization": False,
|
368 |
"strip_characters": special_characters_default,
|
369 |
-
"number_words_min_cutoff":
|
370 |
"number_words_max_cutoff": 100000,
|
371 |
"cond_check_character_repetition_removal": True,
|
372 |
"character_repetition_length": 10,
|
373 |
-
"character_repetition_max_cutoff": 0.
|
374 |
"cond_check_word_repetition_removal": True,
|
375 |
"word_repetition_length": 5,
|
376 |
-
"word_repetition_max_cutoff": 0.
|
377 |
"cond_check_special_characters": True,
|
378 |
"special_characters": special_characters_default,
|
379 |
-
"special_characters_max_cutoff": 0.
|
380 |
"cond_words_augmentation": False,
|
381 |
"words_augmentation_group_sizes": [],
|
382 |
"words_augmentation_join_char": "",
|
383 |
"cond_check_stopwords": True,
|
384 |
-
"stopwords_min_cutoff": 0.
|
385 |
"cond_check_flagged_words": False,
|
386 |
-
"flagged_words_max_cutoff": 0.
|
387 |
"cond_check_lang_id": True,
|
388 |
-
"lang_id_min_cutoff": 0.
|
389 |
"cond_check_perplexity": True,
|
390 |
-
"perplexity_max_cutoff":
|
391 |
}
|
392 |
|
393 |
parameters_filtering_gu = {
|
@@ -597,35 +597,35 @@ parameters_filtering_mr = {
|
|
597 |
parameters_filtering_pt = {
|
598 |
"cond_uniform_whitespace": True,
|
599 |
"cond_replace_unicode_punctuation": False,
|
600 |
-
"cond_remove_words_with_incorrect_substrings":
|
601 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
602 |
"cond_remove_long_words": True,
|
603 |
-
"length_word_max_cutoff":
|
604 |
"cond_check_number_words": True,
|
605 |
"tokenization": False,
|
606 |
"strip_characters": special_characters_default,
|
607 |
-
"number_words_min_cutoff":
|
608 |
"number_words_max_cutoff": 100000,
|
609 |
"cond_check_character_repetition_removal": True,
|
610 |
"character_repetition_length": 10,
|
611 |
-
"character_repetition_max_cutoff": 0.
|
612 |
"cond_check_word_repetition_removal": True,
|
613 |
"word_repetition_length": 5,
|
614 |
-
"word_repetition_max_cutoff": 0.
|
615 |
"cond_check_special_characters": True,
|
616 |
"special_characters": special_characters_default,
|
617 |
-
"special_characters_max_cutoff": 0.
|
618 |
"cond_words_augmentation": False,
|
619 |
"words_augmentation_group_sizes": [],
|
620 |
"words_augmentation_join_char": "",
|
621 |
"cond_check_stopwords": True,
|
622 |
-
"stopwords_min_cutoff": 0.
|
623 |
"cond_check_flagged_words": False,
|
624 |
-
"flagged_words_max_cutoff": 0.
|
625 |
"cond_check_lang_id": True,
|
626 |
-
"lang_id_min_cutoff": 0.
|
627 |
"cond_check_perplexity": True,
|
628 |
-
"perplexity_max_cutoff":
|
629 |
}
|
630 |
|
631 |
parameters_filtering_sw = {
|
|
|
223 |
parameters_filtering_ca = {
|
224 |
"cond_uniform_whitespace": True,
|
225 |
"cond_replace_unicode_punctuation": False,
|
226 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
227 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
228 |
"cond_remove_long_words": True,
|
229 |
+
"length_word_max_cutoff": 20,
|
230 |
"cond_check_number_words": True,
|
231 |
"tokenization": False,
|
232 |
"strip_characters": special_characters_default,
|
233 |
+
"number_words_min_cutoff": 15,
|
234 |
"number_words_max_cutoff": 100000,
|
235 |
"cond_check_character_repetition_removal": True,
|
236 |
"character_repetition_length": 10,
|
237 |
+
"character_repetition_max_cutoff": 0.2,
|
238 |
"cond_check_word_repetition_removal": True,
|
239 |
"word_repetition_length": 5,
|
240 |
+
"word_repetition_max_cutoff": 0.4,
|
241 |
"cond_check_special_characters": True,
|
242 |
"special_characters": special_characters_default,
|
243 |
+
"special_characters_max_cutoff": 0.25,
|
244 |
"cond_words_augmentation": False,
|
245 |
"words_augmentation_group_sizes": [],
|
246 |
"words_augmentation_join_char": "",
|
247 |
"cond_check_stopwords": True,
|
248 |
+
"stopwords_min_cutoff": 0.25,
|
249 |
"cond_check_flagged_words": False,
|
250 |
+
"flagged_words_max_cutoff": 0.1,
|
251 |
"cond_check_lang_id": True,
|
252 |
+
"lang_id_min_cutoff": 0.8,
|
253 |
"cond_check_perplexity": True,
|
254 |
+
"perplexity_max_cutoff": 2500,
|
255 |
}
|
256 |
|
257 |
parameters_filtering_en = {
|
|
|
285 |
"cond_check_lang_id": True,
|
286 |
"lang_id_min_cutoff": 0.80,
|
287 |
"cond_check_perplexity": True,
|
288 |
+
"perplexity_max_cutoff": 1500,
|
289 |
}
|
290 |
|
291 |
parameters_filtering_es = {
|
|
|
359 |
parameters_filtering_fr = {
|
360 |
"cond_uniform_whitespace": True,
|
361 |
"cond_replace_unicode_punctuation": False,
|
362 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
363 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
364 |
"cond_remove_long_words": True,
|
365 |
+
"length_word_max_cutoff": 45,
|
366 |
"cond_check_number_words": True,
|
367 |
"tokenization": False,
|
368 |
"strip_characters": special_characters_default,
|
369 |
+
"number_words_min_cutoff": 13,
|
370 |
"number_words_max_cutoff": 100000,
|
371 |
"cond_check_character_repetition_removal": True,
|
372 |
"character_repetition_length": 10,
|
373 |
+
"character_repetition_max_cutoff": 0.14,
|
374 |
"cond_check_word_repetition_removal": True,
|
375 |
"word_repetition_length": 5,
|
376 |
+
"word_repetition_max_cutoff": 0.13,
|
377 |
"cond_check_special_characters": True,
|
378 |
"special_characters": special_characters_default,
|
379 |
+
"special_characters_max_cutoff": 0.34,
|
380 |
"cond_words_augmentation": False,
|
381 |
"words_augmentation_group_sizes": [],
|
382 |
"words_augmentation_join_char": "",
|
383 |
"cond_check_stopwords": True,
|
384 |
+
"stopwords_min_cutoff": 0.27,
|
385 |
"cond_check_flagged_words": False,
|
386 |
+
"flagged_words_max_cutoff": 0.008,
|
387 |
"cond_check_lang_id": True,
|
388 |
+
"lang_id_min_cutoff": 0.8,
|
389 |
"cond_check_perplexity": True,
|
390 |
+
"perplexity_max_cutoff": 1770,
|
391 |
}
|
392 |
|
393 |
parameters_filtering_gu = {
|
|
|
597 |
parameters_filtering_pt = {
|
598 |
"cond_uniform_whitespace": True,
|
599 |
"cond_replace_unicode_punctuation": False,
|
600 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
601 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
602 |
"cond_remove_long_words": True,
|
603 |
+
"length_word_max_cutoff": 19,
|
604 |
"cond_check_number_words": True,
|
605 |
"tokenization": False,
|
606 |
"strip_characters": special_characters_default,
|
607 |
+
"number_words_min_cutoff": 19,
|
608 |
"number_words_max_cutoff": 100000,
|
609 |
"cond_check_character_repetition_removal": True,
|
610 |
"character_repetition_length": 10,
|
611 |
+
"character_repetition_max_cutoff": 0.25,
|
612 |
"cond_check_word_repetition_removal": True,
|
613 |
"word_repetition_length": 5,
|
614 |
+
"word_repetition_max_cutoff": 0.98,
|
615 |
"cond_check_special_characters": True,
|
616 |
"special_characters": special_characters_default,
|
617 |
+
"special_characters_max_cutoff": 0.35,
|
618 |
"cond_words_augmentation": False,
|
619 |
"words_augmentation_group_sizes": [],
|
620 |
"words_augmentation_join_char": "",
|
621 |
"cond_check_stopwords": True,
|
622 |
+
"stopwords_min_cutoff": 0.2,
|
623 |
"cond_check_flagged_words": False,
|
624 |
+
"flagged_words_max_cutoff": 0.007,
|
625 |
"cond_check_lang_id": True,
|
626 |
+
"lang_id_min_cutoff": 0.6,
|
627 |
"cond_check_perplexity": True,
|
628 |
+
"perplexity_max_cutoff": 3038,
|
629 |
}
|
630 |
|
631 |
parameters_filtering_sw = {
|
stopwords.py
CHANGED
@@ -57,603 +57,483 @@ stopwords = {
|
|
57 |
"ʼn",
|
58 |
],
|
59 |
"ar": [
|
60 |
-
"
|
61 |
-
"
|
62 |
-
"أ",
|
63 |
"أثناء",
|
64 |
-
"
|
65 |
-
"
|
66 |
-
"أصبحت",
|
67 |
"أغلب",
|
68 |
"أكثر",
|
69 |
-
"أكون",
|
70 |
"ألا",
|
|
|
71 |
"أم",
|
72 |
-
"أما",
|
73 |
"أمام",
|
|
|
74 |
"أن",
|
75 |
"أنا",
|
76 |
"أنت",
|
77 |
"أنتم",
|
78 |
-
"
|
|
|
79 |
"أو",
|
80 |
"أولئك",
|
81 |
-
"أولٰئك",
|
82 |
"أي",
|
|
|
|
|
83 |
"أية",
|
|
|
84 |
"أين",
|
85 |
"أينما",
|
86 |
-
"أَ",
|
87 |
-
"أَثنَاءَ",
|
88 |
-
"أَلَّا",
|
89 |
-
"أَم",
|
90 |
-
"أَمَامَ",
|
91 |
-
"أَمَّا",
|
92 |
-
"أَن",
|
93 |
-
"أَنَّ",
|
94 |
-
"أَو",
|
95 |
-
"أَي",
|
96 |
-
"أَينَ",
|
97 |
-
"أَينَمَا",
|
98 |
-
"أَيّ",
|
99 |
"إبان",
|
100 |
"إثر",
|
101 |
-
"
|
102 |
-
"إذ",
|
103 |
"إذا",
|
104 |
-
"إزا",
|
105 |
"إزاء",
|
106 |
-
"إل",
|
107 |
"إلا",
|
|
|
108 |
"إلى",
|
109 |
-
"إلي",
|
110 |
-
"إليها",
|
111 |
"إما",
|
112 |
"إن",
|
113 |
"إنما",
|
114 |
-
"
|
115 |
-
"
|
116 |
-
"
|
117 |
-
"
|
118 |
-
"
|
119 |
-
"
|
120 |
-
"
|
121 |
-
"
|
122 |
-
"
|
123 |
-
"
|
124 |
-
"
|
125 |
-
"
|
126 |
-
"
|
127 |
-
"إِيَّا",
|
128 |
-
"اثر",
|
129 |
-
"اثناء",
|
130 |
-
"اذ",
|
131 |
-
"اذا",
|
132 |
-
"ازا",
|
133 |
-
"ازاء",
|
134 |
-
"ال",
|
135 |
-
"الا",
|
136 |
-
"التى",
|
137 |
"التي",
|
138 |
-
"الذى",
|
139 |
"الذي",
|
140 |
"الذين",
|
141 |
-
"
|
142 |
-
"
|
143 |
-
"الـــ",
|
144 |
-
"الفوق",
|
145 |
-
"اللاتى",
|
146 |
"اللاتي",
|
147 |
"اللتان",
|
148 |
"اللتين",
|
149 |
"اللذان",
|
150 |
"اللذين",
|
|
|
|
|
151 |
"اللواتي",
|
152 |
-
"
|
153 |
-
"
|
154 |
-
"الي",
|
155 |
-
"ام",
|
156 |
-
"اما",
|
157 |
-
"امام",
|
158 |
-
"ان",
|
159 |
-
"انا",
|
160 |
-
"انتم",
|
161 |
-
"انما",
|
162 |
-
"او",
|
163 |
-
"اولئك",
|
164 |
-
"اى",
|
165 |
"اي",
|
166 |
-
"
|
167 |
-
"
|
168 |
-
"
|
169 |
-
"
|
170 |
-
"
|
171 |
-
"
|
172 |
-
"
|
173 |
-
"
|
174 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
175 |
"بعد",
|
176 |
"بعدما",
|
177 |
"بعض",
|
178 |
-
"
|
179 |
-
"
|
|
|
180 |
"بـ",
|
|
|
181 |
"بل",
|
|
|
|
|
|
|
182 |
"بما",
|
183 |
-
"
|
184 |
-
"
|
|
|
|
|
|
|
185 |
"بين",
|
186 |
"بينما",
|
187 |
-
"
|
188 |
-
"
|
189 |
-
"
|
190 |
-
"
|
191 |
-
"بَيدَ",
|
192 |
-
"بَينَ",
|
193 |
-
"بَينَمَا",
|
194 |
-
"بُعَيدَ",
|
195 |
-
"بِ",
|
196 |
"تحت",
|
197 |
-
"
|
198 |
-
"
|
199 |
-
"
|
200 |
-
"تكن",
|
201 |
-
"تكون",
|
202 |
-
"تكونون",
|
203 |
"تلك",
|
204 |
-
"
|
205 |
-
"
|
|
|
206 |
"ثم",
|
207 |
-
"
|
|
|
|
|
|
|
|
|
208 |
"جراء",
|
209 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
210 |
"حتى",
|
211 |
"حسب",
|
212 |
"حسبما",
|
213 |
-
"حوالى",
|
214 |
"حوالي",
|
215 |
"حول",
|
216 |
-
"حولي",
|
217 |
"حيال",
|
218 |
"حيث",
|
|
|
219 |
"حيثما",
|
220 |
"حين",
|
|
|
|
|
|
|
221 |
"حينما",
|
222 |
-
"
|
223 |
-
"
|
224 |
-
"حَسَبَ",
|
225 |
-
"حَسَبَمَا",
|
226 |
-
"حَولَ",
|
227 |
-
"حَوَالَى",
|
228 |
-
"حَيثُ",
|
229 |
-
"حِينَ",
|
230 |
-
"حِينَمَا",
|
231 |
-
"حِيَالَ",
|
232 |
"خلال",
|
233 |
-
"
|
234 |
-
"
|
|
|
|
|
235 |
"دون",
|
236 |
-
"
|
237 |
-
"ذا",
|
238 |
"ذاك",
|
239 |
"ذلك",
|
240 |
-
"ذو",
|
241 |
-
"ذي",
|
242 |
-
"ذَا",
|
243 |
-
"ذَاكَ",
|
244 |
-
"ذُو",
|
245 |
-
"ذٰلك",
|
246 |
-
"ذٰلِكَ",
|
247 |
-
"راح",
|
248 |
-
"ربما",
|
249 |
-
"ربمــا",
|
250 |
"رغم",
|
|
|
251 |
"ريثما",
|
252 |
-
"
|
253 |
-
"
|
254 |
-
"
|
255 |
-
"س",
|
256 |
-
"سائر",
|
257 |
-
"سواء",
|
258 |
"سوف",
|
259 |
"سوى",
|
260 |
-
"
|
261 |
-
"
|
262 |
-
"
|
263 |
-
"
|
264 |
-
"
|
265 |
-
"
|
|
|
266 |
"صوب",
|
267 |
"ضد",
|
268 |
-
"ضمن",
|
269 |
-
"ضِدَّ",
|
270 |
-
"ضِمنَ",
|
271 |
-
"طال",
|
272 |
"طالما",
|
273 |
-
"
|
274 |
-
"
|
|
|
275 |
"طيلة",
|
276 |
-
"
|
277 |
-
"
|
278 |
-
"
|
279 |
"عبر",
|
280 |
"عدا",
|
281 |
"عدة",
|
282 |
-
"
|
283 |
-
"
|
284 |
-
"عـــندما",
|
285 |
-
"عــلى",
|
286 |
"عقب",
|
287 |
-
"
|
288 |
-
"
|
289 |
"على",
|
290 |
-
"
|
291 |
-
"
|
292 |
-
"
|
|
|
|
|
|
|
|
|
293 |
"عن",
|
294 |
-
"عنا",
|
295 |
"عند",
|
|
|
296 |
"عندما",
|
297 |
-
"
|
298 |
-
"
|
299 |
-
"
|
300 |
-
"
|
301 |
-
"
|
302 |
-
"
|
303 |
-
"
|
304 |
-
"عَلَّ",
|
305 |
-
"عَم",
|
306 |
-
"عَن",
|
307 |
-
"عِندَ",
|
308 |
-
"عِندَمَا",
|
309 |
-
"عِوَضَ",
|
310 |
-
"غالبية",
|
311 |
-
"غدت",
|
312 |
"غير",
|
313 |
-
"
|
314 |
-
"
|
315 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
316 |
"فـ",
|
317 |
-
"فـي",
|
318 |
"فور",
|
|
|
319 |
"فوق",
|
320 |
-
"فى",
|
321 |
"في",
|
|
|
|
|
|
|
322 |
"فيما",
|
323 |
-
"
|
324 |
-
"فَورَ",
|
325 |
-
"فَوقَ",
|
326 |
-
"فِي",
|
327 |
-
"فِيمَا",
|
328 |
-
"ق",
|
329 |
"قبالة",
|
330 |
"قبل",
|
331 |
"قبيل",
|
332 |
"قد",
|
|
|
333 |
"قرابة",
|
334 |
"قرب",
|
335 |
-
"
|
336 |
-
"
|
337 |
-
"
|
338 |
-
"قَيدَ",
|
339 |
-
"قُبَالَةَ",
|
340 |
-
"قُبَيلَ",
|
341 |
-
"قُربَ",
|
342 |
-
"قُرَابَةَ",
|
343 |
-
"ك",
|
344 |
"كأن",
|
345 |
-
"
|
346 |
-
"
|
347 |
-
"كان",
|
348 |
-
"كانت",
|
349 |
-
"كانوا",
|
350 |
"كذا",
|
|
|
351 |
"كـ",
|
352 |
"كل",
|
353 |
"كلا",
|
354 |
"كلتا",
|
355 |
"كلما",
|
356 |
-
"كلي",
|
357 |
"كم",
|
358 |
"كما",
|
359 |
-
"
|
360 |
-
"كنا",
|
361 |
-
"كنت",
|
362 |
-
"كون",
|
363 |
-
"كى",
|
364 |
"كي",
|
365 |
"كيف",
|
366 |
-
"كَ",
|
367 |
-
"كَأَنَّ",
|
368 |
-
"كَأَنَّمَا",
|
369 |
-
"كَان",
|
370 |
-
"كَذَا",
|
371 |
-
"كَلَّا",
|
372 |
-
"كَم",
|
373 |
-
"كَمَا",
|
374 |
-
"كَي",
|
375 |
-
"كَيفَ",
|
376 |
-
"كُل",
|
377 |
-
"كُلَّمَا",
|
378 |
-
"كِلَا",
|
379 |
-
"ل",
|
380 |
"لأن",
|
|
|
381 |
"لا",
|
382 |
-
"
|
383 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
384 |
"لدى",
|
385 |
-
"لدي",
|
386 |
"لذا",
|
387 |
"لذلك",
|
388 |
-
"
|
389 |
-
"لسنا",
|
390 |
"لـ",
|
391 |
"لقد",
|
392 |
"لكن",
|
393 |
-
"لكى",
|
394 |
"لكي",
|
|
|
395 |
"لم",
|
396 |
"لما",
|
397 |
"لماذا",
|
398 |
"لن",
|
399 |
-
"لهم",
|
400 |
"لو",
|
401 |
"لولا",
|
402 |
-
"
|
403 |
-
"
|
404 |
-
"
|
405 |
-
"
|
406 |
-
"لَا",
|
407 |
-
"لَازِم",
|
408 |
-
"لَدَى",
|
409 |
-
"لَم",
|
410 |
-
"لَمَّا",
|
411 |
-
"لَن",
|
412 |
-
"لَو",
|
413 |
-
"لَولَا",
|
414 |
-
"لَيس",
|
415 |
-
"لُو",
|
416 |
-
"لِ",
|
417 |
-
"لِأَن",
|
418 |
-
"لِأَنَّ",
|
419 |
-
"لِئَلّا",
|
420 |
-
"لِذَا",
|
421 |
-
"لِذٰلِكَ",
|
422 |
-
"لِكَي",
|
423 |
-
"لِمَاذَا",
|
424 |
-
"لٰكن",
|
425 |
-
"لٰكِن",
|
426 |
-
"لٰكِنَّ",
|
427 |
-
"م",
|
428 |
"ما",
|
429 |
"ماذا",
|
430 |
-
"
|
431 |
-
"ماهو",
|
432 |
-
"ماهُوَ",
|
433 |
"متى",
|
434 |
-
"مثـــل",
|
435 |
"مثل",
|
|
|
436 |
"مثلما",
|
437 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
438 |
"مع",
|
|
|
|
|
|
|
439 |
"معظم",
|
440 |
-
"مــن",
|
441 |
-
"مـن",
|
442 |
-
"مقابل",
|
443 |
"مما",
|
444 |
-
"
|
|
|
|
|
445 |
"من",
|
446 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
447 |
"منذ",
|
448 |
"مهما",
|
449 |
-
"
|
450 |
-
"
|
451 |
-
"مَاذَا",
|
452 |
-
"مَالَم",
|
453 |
-
"مَتَى",
|
454 |
-
"مَعَ",
|
455 |
-
"مَن",
|
456 |
-
"مَهمَا",
|
457 |
-
"مُقَابِلَ",
|
458 |
-
"مُمكِن",
|
459 |
-
"مُنذُ",
|
460 |
-
"مِثلَ",
|
461 |
-
"مِثلَمَا",
|
462 |
-
"مِمَّا",
|
463 |
-
"مِن",
|
464 |
-
"نا",
|
465 |
-
"ناهيك",
|
466 |
-
"نحسب",
|
467 |
"نحن",
|
468 |
"نحو",
|
469 |
-
"
|
470 |
"نعم",
|
471 |
-
"
|
472 |
-
"
|
473 |
-
"
|
474 |
-
"
|
475 |
-
"نَعَم",
|
476 |
-
"ه",
|
477 |
"هؤلاء",
|
478 |
-
"ها",
|
479 |
"هاتان",
|
480 |
"هاتين",
|
481 |
-
"
|
482 |
-
"هاي",
|
483 |
"هذا",
|
484 |
"هذان",
|
485 |
-
"هذــه",
|
486 |
"هذه",
|
487 |
"هذين",
|
488 |
-
"هـــذه",
|
489 |
-
"هــــذه",
|
490 |
"هكذا",
|
|
|
491 |
"هل",
|
492 |
"هم",
|
493 |
"هما",
|
494 |
"هن",
|
|
|
|
|
|
|
495 |
"هو",
|
496 |
-
"هى",
|
497 |
"هي",
|
498 |
-
"هَا",
|
499 |
-
"هَل",
|
500 |
-
"هُ",
|
501 |
-
"هُو",
|
502 |
-
"هُوَ",
|
503 |
-
"هِ",
|
504 |
-
"هٰؤلاء",
|
505 |
-
"هٰذا",
|
506 |
-
"هٰذان",
|
507 |
-
"هٰذه",
|
508 |
-
"هٰذَا",
|
509 |
-
"هٰكذا",
|
510 |
-
"هٰكَذَا",
|
511 |
"و",
|
512 |
-
"وأسلم",
|
513 |
"وراء",
|
514 |
-
"وسامراء",
|
515 |
"وسط",
|
516 |
-
"وســـط",
|
517 |
-
"وغربه",
|
518 |
"وفق",
|
|
|
|
|
519 |
"وقتما",
|
520 |
-
"وقف",
|
521 |
-
"ولا",
|
522 |
-
"ولَا",
|
523 |
-
"وهي",
|
524 |
-
"��َ",
|
525 |
-
"وَرَاءَ",
|
526 |
-
"وَسطَ",
|
527 |
-
"وِفقَ",
|
528 |
-
"وِلّا",
|
529 |
-
"ي",
|
530 |
"يا",
|
531 |
-
"
|
532 |
-
"
|
533 |
-
"
|
534 |
-
"
|
535 |
-
|
536 |
-
|
537 |
-
"
|
538 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
539 |
],
|
540 |
"bn": [
|
541 |
"অনেক",
|
542 |
-
"
|
543 |
-
"
|
544 |
-
"
|
545 |
-
"
|
546 |
-
"
|
547 |
-
"
|
548 |
-
"
|
549 |
-
"
|
550 |
-
"
|
551 |
-
"
|
552 |
-
"উত্তর",
|
553 |
"উপর",
|
554 |
-
"
|
555 |
-
"
|
556 |
-
"
|
557 |
-
"
|
558 |
-
"
|
559 |
-
"
|
560 |
-
"
|
561 |
-
"
|
562 |
-
"
|
563 |
-
"
|
564 |
-
"এস",
|
565 |
-
"এসে",
|
566 |
-
"ও",
|
567 |
-
"ওই",
|
568 |
-
"কমনে",
|
569 |
-
"করা",
|
570 |
-
"করে",
|
571 |
-
"কাছে",
|
572 |
-
"কাজ",
|
573 |
-
"কাজে",
|
574 |
-
"কারণ",
|
575 |
"কি",
|
576 |
-
"কিছু",
|
577 |
-
"
|
|
|
578 |
"কেউ",
|
579 |
-
"
|
580 |
-
"
|
581 |
-
"
|
582 |
-
"
|
583 |
-
"
|
584 |
-
"
|
585 |
-
"
|
586 |
-
"
|
587 |
-
"
|
588 |
-
"
|
589 |
-
"
|
590 |
-
"
|
591 |
-
"
|
592 |
-
"
|
593 |
-
"
|
594 |
-
"
|
595 |
-
"
|
596 |
-
"
|
597 |
-
"
|
598 |
-
"
|
599 |
-
"
|
600 |
-
"
|
601 |
-
"
|
602 |
-
"
|
603 |
-
"
|
604 |
-
"
|
605 |
-
"
|
606 |
-
"
|
607 |
-
"
|
608 |
-
"
|
609 |
-
"
|
610 |
-
"
|
611 |
-
"নয়",
|
612 |
-
"পর",
|
613 |
-
"পরে",
|
614 |
-
"পাচ",
|
615 |
-
"পি",
|
616 |
-
"পেয়্র্",
|
617 |
-
"প্রতি",
|
618 |
-
"প্রথম",
|
619 |
-
"প্রযন্ত",
|
620 |
-
"প্রাথমিক",
|
621 |
-
"প্রায়",
|
622 |
-
"বক্তব্য",
|
623 |
-
"বন",
|
624 |
-
"বলা",
|
625 |
-
"বলে",
|
626 |
-
"বলেন",
|
627 |
-
"বহু",
|
628 |
-
"বা",
|
629 |
-
"বি",
|
630 |
-
"বিভিন্ন",
|
631 |
-
"বেশ",
|
632 |
-
"বেশি",
|
633 |
-
"মতো",
|
634 |
-
"মধ্যে",
|
635 |
-
"মনে",
|
636 |
-
"যখন",
|
637 |
-
"যদি",
|
638 |
-
"যা",
|
639 |
-
"যাওয়া",
|
640 |
-
"যে",
|
641 |
-
"র",
|
642 |
-
"রকম",
|
643 |
-
"লক্ষ",
|
644 |
-
"শুধু",
|
645 |
-
"শুরু",
|
646 |
-
"সঙ্গে",
|
647 |
-
"সব",
|
648 |
-
"সহ",
|
649 |
-
"সাধারণ",
|
650 |
-
"সামনে",
|
651 |
-
"সি",
|
652 |
-
"সে",
|
653 |
-
"সেই",
|
654 |
-
"হতে",
|
655 |
-
"হাজার",
|
656 |
-
"হয়",
|
657 |
],
|
658 |
"ca": [
|
659 |
"-ho",
|
@@ -3686,232 +3566,257 @@ stopwords = {
|
|
3686 |
"êtes",
|
3687 |
"être",
|
3688 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3689 |
"hi": [
|
3690 |
"अंदर",
|
3691 |
-
"
|
3692 |
-
"
|
3693 |
-
"
|
3694 |
-
"
|
3695 |
-
"
|
3696 |
-
"
|
3697 |
-
"
|
3698 |
-
"
|
3699 |
-
"
|
3700 |
-
"
|
3701 |
-
"
|
3702 |
-
"
|
3703 |
-
"
|
3704 |
-
"
|
3705 |
-
"
|
3706 |
-
"
|
3707 |
-
"
|
3708 |
-
"
|
3709 |
-
"
|
3710 |
-
"
|
3711 |
-
"
|
3712 |
-
"
|
3713 |
-
"इसका",
|
3714 |
-
"इसकि",
|
3715 |
-
"इसकी",
|
3716 |
-
"इसके",
|
3717 |
-
"इसमें",
|
3718 |
-
"इसि",
|
3719 |
-
"इसी",
|
3720 |
-
"इसे",
|
3721 |
-
"उंहिं",
|
3722 |
-
"उंहें",
|
3723 |
-
"उंहों",
|
3724 |
-
"उन",
|
3725 |
-
"उनका",
|
3726 |
-
"उनकि",
|
3727 |
-
"उनकी",
|
3728 |
"उनके",
|
3729 |
-
"
|
3730 |
-
"उन्हीं",
|
3731 |
"उन्हें",
|
3732 |
-
"
|
3733 |
-
"
|
3734 |
-
"उसके",
|
3735 |
-
"
|
3736 |
-
"
|
3737 |
-
"
|
3738 |
-
"एक",
|
3739 |
-
"एवं",
|
3740 |
-
"एस",
|
3741 |
-
"एसे",
|
3742 |
-
"ऐसे",
|
3743 |
-
"ओर",
|
3744 |
"और",
|
3745 |
-
"
|
3746 |
-
"
|
3747 |
-
"
|
3748 |
-
"
|
3749 |
-
"
|
3750 |
-
"
|
3751 |
-
"
|
3752 |
-
"
|
3753 |
-
"
|
3754 |
-
"
|
3755 |
-
"
|
3756 |
-
"
|
3757 |
-
"
|
3758 |
-
"
|
3759 |
-
"
|
3760 |
-
"
|
3761 |
-
"
|
3762 |
-
"
|
3763 |
-
"
|
3764 |
-
"
|
3765 |
-
"
|
3766 |
-
"
|
3767 |
-
"किसि",
|
3768 |
-
"किसी",
|
3769 |
-
"किसे",
|
3770 |
-
"की",
|
3771 |
-
"कुछ",
|
3772 |
-
"कुल",
|
3773 |
-
"के",
|
3774 |
-
"को",
|
3775 |
-
"कोइ",
|
3776 |
"कोई",
|
3777 |
-
"
|
3778 |
-
"
|
|
|
3779 |
"कौन",
|
3780 |
-
"
|
3781 |
-
"
|
3782 |
-
"
|
3783 |
-
"
|
3784 |
-
"
|
3785 |
-
"
|
3786 |
-
"
|
3787 |
-
"
|
3788 |
-
"
|
3789 |
-
"जितना",
|
3790 |
-
"जिधर",
|
3791 |
-
"जिन",
|
3792 |
-
"जिन्हें",
|
3793 |
-
"जिन्हों",
|
3794 |
-
"जिस",
|
3795 |
-
"जिसे",
|
3796 |
-
"जीधर",
|
3797 |
-
"जेसा",
|
3798 |
-
"जेसे",
|
3799 |
"जैसा",
|
3800 |
"जैसे",
|
3801 |
-
"
|
|
|
|
|
|
|
|
|
3802 |
"तक",
|
3803 |
-
"
|
3804 |
-
"
|
3805 |
-
"
|
3806 |
-
"
|
3807 |
-
"
|
3808 |
-
"
|
3809 |
-
"
|
3810 |
-
"
|
3811 |
-
"
|
3812 |
-
"
|
3813 |
-
"
|
3814 |
-
"
|
3815 |
-
"थी",
|
3816 |
-
"थे",
|
3817 |
-
"दबारा",
|
3818 |
-
"दवारा",
|
3819 |
-
"दिया",
|
3820 |
-
"दुसरा",
|
3821 |
-
"दुसरे",
|
3822 |
-
"दूसरे",
|
3823 |
-
"दो",
|
3824 |
"द्वारा",
|
3825 |
-
"
|
3826 |
-
"नहिं",
|
3827 |
-
"नहीं",
|
3828 |
-
"ना",
|
3829 |
-
"निचे",
|
3830 |
-
"निहायत",
|
3831 |
"नीचे",
|
3832 |
-
"
|
3833 |
-
"
|
3834 |
-
"
|
3835 |
-
"पुरा",
|
3836 |
"पूरा",
|
3837 |
-
"
|
3838 |
-
"
|
3839 |
-
"
|
3840 |
-
"
|
3841 |
-
"
|
3842 |
-
"
|
3843 |
-
"
|
3844 |
-
"
|
3845 |
-
"
|
3846 |
-
"
|
3847 |
-
"
|
3848 |
-
"भितर",
|
3849 |
"भी",
|
3850 |
-
"
|
3851 |
-
"
|
3852 |
-
"
|
3853 |
-
"
|
3854 |
-
"
|
|
|
3855 |
"यदि",
|
3856 |
-
"
|
3857 |
-
"
|
3858 |
-
"
|
3859 |
-
"यहि",
|
3860 |
-
"यही",
|
3861 |
-
"या",
|
3862 |
-
"यिह",
|
3863 |
-
"ये",
|
3864 |
-
"रखें",
|
3865 |
-
"रवासा",
|
3866 |
-
"रहा",
|
3867 |
-
"रहे",
|
3868 |
-
"ऱ्वासा",
|
3869 |
-
"लिए",
|
3870 |
-
"लिये",
|
3871 |
"लेकिन",
|
3872 |
-
"व",
|
3873 |
-
"वगेरह",
|
3874 |
-
"वरग",
|
3875 |
-
"वर्ग",
|
3876 |
"वह",
|
3877 |
-
"
|
3878 |
"वहां",
|
3879 |
-
"
|
3880 |
-
"
|
3881 |
-
"
|
3882 |
-
"
|
3883 |
-
"
|
3884 |
-
"
|
3885 |
-
"
|
3886 |
-
"सकता",
|
3887 |
-
"सकते",
|
3888 |
-
"सबसे",
|
3889 |
-
"सभि",
|
3890 |
-
"सभी",
|
3891 |
"साथ",
|
3892 |
-
"साबुत",
|
3893 |
-
"साभ",
|
3894 |
-
"सारा",
|
3895 |
"से",
|
3896 |
-
"
|
3897 |
-
"
|
3898 |
-
"
|
3899 |
-
"
|
3900 |
-
"हुआ",
|
3901 |
-
"हुइ",
|
3902 |
-
"हुई",
|
3903 |
-
"हुए",
|
3904 |
-
"हे",
|
3905 |
-
"हें",
|
3906 |
-
"है",
|
3907 |
-
"हैं",
|
3908 |
-
"हो",
|
3909 |
-
"होता",
|
3910 |
-
"होति",
|
3911 |
-
"होती",
|
3912 |
-
"होते",
|
3913 |
-
"होना",
|
3914 |
-
"होने",
|
3915 |
],
|
3916 |
"id": [
|
3917 |
"Anda",
|
@@ -5128,546 +5033,180 @@ stopwords = {
|
|
5128 |
"zake",
|
5129 |
],
|
5130 |
"ur": [
|
5131 |
-
"
|
5132 |
-
"
|
5133 |
-
"
|
5134 |
-
"
|
5135 |
-
"
|
5136 |
-
"
|
5137 |
-
"
|
5138 |
-
"
|
5139 |
-
"
|
5140 |
-
"
|
5141 |
-
"
|
5142 |
-
"
|
5143 |
-
"
|
5144 |
-
"
|
5145 |
-
"
|
5146 |
-
"
|
5147 |
-
"
|
5148 |
-
"
|
5149 |
-
"
|
5150 |
-
"
|
5151 |
-
"
|
5152 |
-
"
|
5153 |
-
"
|
5154 |
-
"
|
5155 |
-
"
|
5156 |
-
"
|
5157 |
-
"
|
5158 |
-
"
|
5159 |
-
"
|
5160 |
-
"
|
5161 |
-
"
|
5162 |
-
"
|
5163 |
-
"
|
5164 |
-
"
|
5165 |
-
"
|
5166 |
-
"
|
5167 |
-
"
|
5168 |
-
"
|
5169 |
-
"
|
5170 |
-
"
|
5171 |
-
"
|
5172 |
-
"اچھے",
|
5173 |
-
"اکثر",
|
5174 |
-
"اکٹھب",
|
5175 |
-
"اکٹھی",
|
5176 |
-
"اکٹھے",
|
5177 |
-
"اکیلا",
|
5178 |
-
"اکیلی",
|
5179 |
-
"اکیلے",
|
5180 |
-
"اگرچہ",
|
5181 |
-
"اہن",
|
5182 |
-
"ایطے",
|
5183 |
-
"ایک",
|
5184 |
-
"ب",
|
5185 |
-
"ت",
|
5186 |
-
"تبزٍ",
|
5187 |
-
"تت",
|
5188 |
-
"تر",
|
5189 |
-
"ترتیت",
|
5190 |
-
"تریي",
|
5191 |
-
"تعذاد",
|
5192 |
-
"تن",
|
5193 |
-
"تو",
|
5194 |
-
"توبم",
|
5195 |
-
"توہی",
|
5196 |
-
"توہیں",
|
5197 |
-
"تٌہب",
|
5198 |
-
"تک",
|
5199 |
-
"تھب",
|
5200 |
-
"تھوڑا",
|
5201 |
-
"تھوڑی",
|
5202 |
-
"تھوڑے",
|
5203 |
-
"تھی",
|
5204 |
-
"تھے",
|
5205 |
-
"تیي",
|
5206 |
-
"ثب",
|
5207 |
-
"ثبئیں",
|
5208 |
-
"ثبترتیت",
|
5209 |
-
"ثبری",
|
5210 |
-
"ثبرے",
|
5211 |
-
"ثبعث",
|
5212 |
-
"ثبلا",
|
5213 |
-
"ثبلترتیت",
|
5214 |
-
"ثبہر",
|
5215 |
-
"ثدبئے",
|
5216 |
-
"ثرآں",
|
5217 |
-
"ثراں",
|
5218 |
-
"ثرش",
|
5219 |
-
"ثعذ",
|
5220 |
-
"ثغیر",
|
5221 |
-
"ثلٌذ",
|
5222 |
-
"ثلٌذوثبلا",
|
5223 |
-
"ثلکہ",
|
5224 |
-
"ثي",
|
5225 |
-
"ثٌب",
|
5226 |
-
"ثٌبرہب",
|
5227 |
-
"ثٌبرہی",
|
5228 |
-
"ثٌبرہے",
|
5229 |
-
"ثٌبًب",
|
5230 |
-
"ثٌذ",
|
5231 |
-
"ثٌذکرو",
|
5232 |
-
"ثٌذکرًب",
|
5233 |
-
"ثٌذی",
|
5234 |
-
"ثڑا",
|
5235 |
-
"ثڑوں",
|
5236 |
-
"ثڑی",
|
5237 |
-
"ثڑے",
|
5238 |
-
"ثھر",
|
5239 |
-
"ثھرا",
|
5240 |
-
"ثھراہوا",
|
5241 |
-
"ثھرپور",
|
5242 |
-
"ثھی",
|
5243 |
-
"ثہت",
|
5244 |
-
"ثہتر",
|
5245 |
-
"ثہتری",
|
5246 |
-
"ثہتریي",
|
5247 |
-
"ثیچ",
|
5248 |
-
"ج",
|
5249 |
-
"خب",
|
5250 |
-
"خبرہب",
|
5251 |
-
"خبرہی",
|
5252 |
-
"خبرہے",
|
5253 |
-
"خبهوظ",
|
5254 |
-
"خبًب",
|
5255 |
-
"خبًتب",
|
5256 |
-
"خبًتی",
|
5257 |
-
"خبًتے",
|
5258 |
-
"خبًٌب",
|
5259 |
-
"خت",
|
5260 |
-
"ختن",
|
5261 |
-
"خجکہ",
|
5262 |
-
"خص",
|
5263 |
-
"خططرذ",
|
5264 |
-
"خلذی",
|
5265 |
-
"خو",
|
5266 |
-
"خواى",
|
5267 |
-
"خوًہی",
|
5268 |
-
"خوکہ",
|
5269 |
-
"خٌبة",
|
5270 |
-
"خگہ",
|
5271 |
-
"خگہوں",
|
5272 |
-
"خگہیں",
|
5273 |
-
"خیطب",
|
5274 |
-
"خیطبکہ",
|
5275 |
-
"در",
|
5276 |
-
"درخبت",
|
5277 |
-
"درخہ",
|
5278 |
-
"درخے",
|
5279 |
-
"درزقیقت",
|
5280 |
-
"درضت",
|
5281 |
-
"دش",
|
5282 |
-
"دفعہ",
|
5283 |
-
"دلچطپ",
|
5284 |
-
"دلچطپی",
|
5285 |
-
"دلچطپیبں",
|
5286 |
-
"دو",
|
5287 |
-
"دور",
|
5288 |
-
"دوراى",
|
5289 |
-
"دوضرا",
|
5290 |
-
"دوضروں",
|
5291 |
-
"دوضری",
|
5292 |
-
"دوضرے",
|
5293 |
-
"دوًوں",
|
5294 |
-
"دکھبئیں",
|
5295 |
-
"دکھبتب",
|
5296 |
-
"دکھبتی",
|
5297 |
-
"دکھبتے",
|
5298 |
-
"دکھبو",
|
5299 |
-
"دکھبًب",
|
5300 |
-
"دکھبیب",
|
5301 |
-
"دی",
|
5302 |
-
"دیب",
|
5303 |
-
"دیتب",
|
5304 |
-
"دیتی",
|
5305 |
-
"دیتے",
|
5306 |
-
"دیر",
|
5307 |
-
"دیٌب",
|
5308 |
-
"دیکھو",
|
5309 |
-
"دیکھٌب",
|
5310 |
-
"دیکھی",
|
5311 |
-
"دیکھیں",
|
5312 |
-
"دے",
|
5313 |
-
"ر",
|
5314 |
-
"راضتوں",
|
5315 |
-
"راضتہ",
|
5316 |
-
"راضتے",
|
5317 |
-
"رریعہ",
|
5318 |
-
"رریعے",
|
5319 |
-
"رکي",
|
5320 |
-
"رکھ",
|
5321 |
-
"رکھب",
|
5322 |
-
"رکھتب",
|
5323 |
-
"رکھتبہوں",
|
5324 |
-
"رکھتی",
|
5325 |
-
"رکھتے",
|
5326 |
-
"رکھی",
|
5327 |
-
"رکھے",
|
5328 |
-
"رہب",
|
5329 |
-
"رہی",
|
5330 |
-
"رہے",
|
5331 |
-
"ز",
|
5332 |
-
"زبصل",
|
5333 |
-
"زبضر",
|
5334 |
-
"زبل",
|
5335 |
-
"زبلات",
|
5336 |
-
"زبلیہ",
|
5337 |
-
"زصوں",
|
5338 |
-
"زصہ",
|
5339 |
-
"زصے",
|
5340 |
-
"زقبئق",
|
5341 |
-
"زقیتیں",
|
5342 |
-
"زقیقت",
|
5343 |
-
"زکن",
|
5344 |
-
"زکویہ",
|
5345 |
-
"زیبدٍ",
|
5346 |
-
"صبف",
|
5347 |
-
"صسیر",
|
5348 |
-
"صفر",
|
5349 |
-
"صورت",
|
5350 |
-
"صورتسبل",
|
5351 |
-
"صورتوں",
|
5352 |
-
"صورتیں",
|
5353 |
-
"ض",
|
5354 |
-
"ضبت",
|
5355 |
-
"ضبتھ",
|
5356 |
-
"ضبدٍ",
|
5357 |
-
"ضبرا",
|
5358 |
-
"ضبرے",
|
5359 |
-
"ضبل",
|
5360 |
-
"ضبلوں",
|
5361 |
-
"ضت",
|
5362 |
-
"ضرور",
|
5363 |
-
"ضرورت",
|
5364 |
-
"ضروری",
|
5365 |
-
"ضلطلہ",
|
5366 |
-
"ضوچ",
|
5367 |
-
"ضوچب",
|
5368 |
-
"ضوچتب",
|
5369 |
-
"ضوچتی",
|
5370 |
-
"ضوچتے",
|
5371 |
-
"ضوچو",
|
5372 |
-
"ضوچٌب",
|
5373 |
-
"ضوچی",
|
5374 |
-
"ضوچیں",
|
5375 |
-
"ضکب",
|
5376 |
-
"ضکتب",
|
5377 |
-
"ضکتی",
|
5378 |
-
"ضکتے",
|
5379 |
-
"ضکٌب",
|
5380 |
-
"ضکی",
|
5381 |
-
"ضکے",
|
5382 |
-
"ضیذھب",
|
5383 |
-
"ضیذھی",
|
5384 |
-
"ضیذھے",
|
5385 |
-
"ضیکٌڈ",
|
5386 |
-
"ضے",
|
5387 |
-
"طرف",
|
5388 |
-
"طریق",
|
5389 |
-
"طریقوں",
|
5390 |
-
"طریقہ",
|
5391 |
-
"طریقے",
|
5392 |
-
"طور",
|
5393 |
-
"طورپر",
|
5394 |
-
"ظبہر",
|
5395 |
-
"ع",
|
5396 |
-
"عذد",
|
5397 |
-
"عظین",
|
5398 |
-
"علاقوں",
|
5399 |
-
"علاقہ",
|
5400 |
-
"علاقے",
|
5401 |
-
"علاوٍ",
|
5402 |
-
"عووهی",
|
5403 |
-
"غبیذ",
|
5404 |
-
"غخص",
|
5405 |
-
"غذ",
|
5406 |
-
"غروع",
|
5407 |
-
"غروعبت",
|
5408 |
-
"غے",
|
5409 |
-
"فرد",
|
5410 |
-
"فی",
|
5411 |
-
"ق",
|
5412 |
-
"قجل",
|
5413 |
-
"قجیلہ",
|
5414 |
-
"قطن",
|
5415 |
-
"لئے",
|
5416 |
-
"لا",
|
5417 |
-
"لازهی",
|
5418 |
-
"لو",
|
5419 |
-
"لوجب",
|
5420 |
-
"لوجی",
|
5421 |
-
"لوجے",
|
5422 |
-
"لوسبت",
|
5423 |
-
"لوسہ",
|
5424 |
-
"لوگ",
|
5425 |
-
"لوگوں",
|
5426 |
-
"لڑکپي",
|
5427 |
-
"لگتب",
|
5428 |
-
"لگتی",
|
5429 |
-
"لگتے",
|
5430 |
-
"لگٌب",
|
5431 |
-
"لگی",
|
5432 |
-
"لگیں",
|
5433 |
-
"لگے",
|
5434 |
-
"لی",
|
5435 |
-
"لیب",
|
5436 |
-
"لیٌب",
|
5437 |
-
"لیں",
|
5438 |
-
"لے",
|
5439 |
-
"ه",
|
5440 |
-
"هتعلق",
|
5441 |
-
"هختلف",
|
5442 |
-
"هسترم",
|
5443 |
-
"هسترهہ",
|
5444 |
-
"هسطوش",
|
5445 |
-
"هسیذ",
|
5446 |
-
"هطئلہ",
|
5447 |
-
"هطئلے",
|
5448 |
-
"هطبئل",
|
5449 |
-
"هطتعول",
|
5450 |
-
"هطلق",
|
5451 |
-
"هعلوم",
|
5452 |
-
"هػتول",
|
5453 |
-
"هلا",
|
5454 |
-
"هوکي",
|
5455 |
-
"هوکٌبت",
|
5456 |
-
"هوکٌہ",
|
5457 |
-
"هٌبضت",
|
5458 |
-
"هڑا",
|
5459 |
-
"هڑًب",
|
5460 |
-
"هڑے",
|
5461 |
-
"هکول",
|
5462 |
-
"هگر",
|
5463 |
-
"هہرثبى",
|
5464 |
-
"هیرا",
|
5465 |
-
"هیری",
|
5466 |
-
"هیرے",
|
5467 |
-
"هیں",
|
5468 |
-
"و",
|
5469 |
-
"وار",
|
5470 |
-
"والے",
|
5471 |
-
"وٍ",
|
5472 |
-
"ًئی",
|
5473 |
-
"ًئے",
|
5474 |
-
"ًب",
|
5475 |
-
"ًبپطٌذ",
|
5476 |
-
"ًبگسیر",
|
5477 |
-
"ًطجت",
|
5478 |
-
"ًقطہ",
|
5479 |
-
"ًو",
|
5480 |
-
"ًوخواى",
|
5481 |
-
"ًکبلٌب",
|
5482 |
-
"ًکتہ",
|
5483 |
-
"ًہ",
|
5484 |
-
"ًہیں",
|
5485 |
-
"ًیب",
|
5486 |
-
"ًے",
|
5487 |
-
"ٓ آش",
|
5488 |
-
"ٹھیک",
|
5489 |
-
"پبئے",
|
5490 |
-
"پبش",
|
5491 |
-
"پبًب",
|
5492 |
-
"پبًچ",
|
5493 |
-
"پر",
|
5494 |
-
"پراًب",
|
5495 |
-
"پطٌذ",
|
5496 |
-
"پل",
|
5497 |
-
"پورا",
|
5498 |
-
"پوچھب",
|
5499 |
-
"پوچھتب",
|
5500 |
-
"پوچھتی",
|
5501 |
-
"پوچھتے",
|
5502 |
-
"پوچھو",
|
5503 |
-
"پوچھوں",
|
5504 |
-
"پوچھٌب",
|
5505 |
-
"پوچھیں",
|
5506 |
-
"پچھلا",
|
5507 |
"پھر",
|
5508 |
-
"
|
5509 |
-
"
|
5510 |
-
"پہلےضی",
|
5511 |
-
"پہلےضے",
|
5512 |
-
"پہلےضےہی",
|
5513 |
-
"پیع",
|
5514 |
-
"چبر",
|
5515 |
-
"چبہب",
|
5516 |
-
"چبہٌب",
|
5517 |
-
"چبہے",
|
5518 |
-
"چلا",
|
5519 |
-
"چلو",
|
5520 |
-
"چلیں",
|
5521 |
-
"چلے",
|
5522 |
-
"چکب",
|
5523 |
-
"چکی",
|
5524 |
-
"چکیں",
|
5525 |
-
"چکے",
|
5526 |
-
"چھوٹب",
|
5527 |
-
"چھوٹوں",
|
5528 |
-
"چھوٹی",
|
5529 |
-
"چھوٹے",
|
5530 |
-
"چھہ",
|
5531 |
-
"چیسیں",
|
5532 |
-
"ڈھوًڈا",
|
5533 |
-
"ڈھوًڈلیب",
|
5534 |
-
"ڈھوًڈو",
|
5535 |
-
"ڈھوًڈًب",
|
5536 |
-
"ڈھوًڈی",
|
5537 |
-
"ڈھوًڈیں",
|
5538 |
-
"ک",
|
5539 |
-
"کئی",
|
5540 |
-
"کئے",
|
5541 |
"کب",
|
5542 |
-
"
|
5543 |
-
"
|
5544 |
-
"کت",
|
5545 |
-
"کجھی",
|
5546 |
-
"کرا",
|
5547 |
-
"کرتب",
|
5548 |
-
"کرتبہوں",
|
5549 |
-
"کرتی",
|
5550 |
-
"کرتے",
|
5551 |
-
"کرتےہو",
|
5552 |
-
"کررہب",
|
5553 |
-
"کررہی",
|
5554 |
-
"کررہے",
|
5555 |
-
"کرو",
|
5556 |
-
"کرًب",
|
5557 |
-
"کریں",
|
5558 |
-
"کرے",
|
5559 |
-
"کطی",
|
5560 |
-
"کل",
|
5561 |
-
"کن",
|
5562 |
"کوئی",
|
5563 |
-
"
|
5564 |
-
"
|
5565 |
-
"
|
5566 |
-
"
|
5567 |
-
"
|
5568 |
-
"
|
5569 |
-
"
|
5570 |
-
"
|
5571 |
-
"
|
5572 |
-
"
|
5573 |
-
"
|
5574 |
-
"کھولو",
|
5575 |
-
"کھولٌب",
|
5576 |
-
"کھولی",
|
5577 |
-
"کھولیں",
|
5578 |
-
"کھولے",
|
5579 |
-
"کہ",
|
5580 |
-
"کہب",
|
5581 |
-
"کہتب",
|
5582 |
-
"کہتی",
|
5583 |
-
"کہتے",
|
5584 |
-
"کہو",
|
5585 |
-
"کہوں",
|
5586 |
-
"کہٌب",
|
5587 |
-
"کہی",
|
5588 |
-
"کہیں",
|
5589 |
-
"کہے",
|
5590 |
-
"کی",
|
5591 |
-
"کیب",
|
5592 |
-
"کیطب",
|
5593 |
-
"کیطرف",
|
5594 |
-
"کیطے",
|
5595 |
-
"کیلئے",
|
5596 |
-
"کیوًکہ",
|
5597 |
-
"کیوں",
|
5598 |
-
"کیے",
|
5599 |
-
"کے",
|
5600 |
-
"کےثعذ",
|
5601 |
-
"کےرریعے",
|
5602 |
-
"گئی",
|
5603 |
-
"گئے",
|
5604 |
-
"گب",
|
5605 |
-
"گرد",
|
5606 |
-
"گروٍ",
|
5607 |
-
"گروپ",
|
5608 |
-
"گروہوں",
|
5609 |
-
"گٌتی",
|
5610 |
-
"گی",
|
5611 |
-
"گیب",
|
5612 |
-
"گے",
|
5613 |
-
"ہر",
|
5614 |
-
"ہن",
|
5615 |
-
"ہو",
|
5616 |
-
"ہوئی",
|
5617 |
-
"ہوئے",
|
5618 |
-
"ہوا",
|
5619 |
-
"ہوبرا",
|
5620 |
-
"ہوبری",
|
5621 |
-
"ہوبرے",
|
5622 |
-
"ہوتب",
|
5623 |
-
"ہوتی",
|
5624 |
-
"ہوتے",
|
5625 |
-
"ہورہب",
|
5626 |
-
"ہورہی",
|
5627 |
-
"ہورہے",
|
5628 |
-
"ہوضکتب",
|
5629 |
-
"ہوضکتی",
|
5630 |
-
"ہوضکتے",
|
5631 |
-
"ہوًب",
|
5632 |
-
"ہوًی",
|
5633 |
-
"ہوًے",
|
5634 |
-
"ہوچکب",
|
5635 |
-
"ہوچکی",
|
5636 |
-
"ہوچکے",
|
5637 |
-
"ہوگئی",
|
5638 |
-
"ہوگئے",
|
5639 |
-
"ہوگیب",
|
5640 |
-
"ہوں",
|
5641 |
-
"ہی",
|
5642 |
-
"ہیں",
|
5643 |
-
"ہے",
|
5644 |
-
"ی",
|
5645 |
-
"یقیٌی",
|
5646 |
-
"یہ",
|
5647 |
-
"یہبں",
|
5648 |
],
|
5649 |
"vi": [
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5650 |
"bên",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5651 |
"bấy nhiêu",
|
|
|
|
|
|
|
|
|
5652 |
"bằng",
|
|
|
|
|
|
|
|
|
|
|
|
|
5653 |
"bởi",
|
|
|
5654 |
"cc",
|
|
|
5655 |
"chao",
|
|
|
|
|
5656 |
"cho",
|
5657 |
"cho dù",
|
|
|
|
|
|
|
5658 |
"chán",
|
|
|
|
|
5659 |
"chính",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5660 |
"chút",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5661 |
"chứ",
|
|
|
|
|
|
|
5662 |
"các",
|
|
|
5663 |
"cái",
|
|
|
|
|
|
|
5664 |
"còn",
|
5665 |
"có",
|
5666 |
"có vẻ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5667 |
"cùng",
|
|
|
5668 |
"cơ mà",
|
|
|
|
|
5669 |
"cả",
|
|
|
|
|
|
|
|
|
|
|
|
|
5670 |
"của",
|
|
|
5671 |
"do",
|
5672 |
"do vậy",
|
5673 |
"do đó",
|
@@ -5675,68 +5214,176 @@ stopwords = {
|
|
5675 |
"dù",
|
5676 |
"dù sao",
|
5677 |
"dù vậy",
|
|
|
5678 |
"dưới",
|
5679 |
"dường như",
|
5680 |
"dạ",
|
|
|
5681 |
"dẫu",
|
5682 |
"dẫu vậy",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5683 |
"giữa",
|
5684 |
"gì",
|
|
|
5685 |
"hay",
|
5686 |
"hay là",
|
|
|
|
|
5687 |
"hoặc",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5688 |
"hơn nữa",
|
5689 |
"hả",
|
5690 |
"hầu hết",
|
|
|
5691 |
"hết",
|
|
|
5692 |
"hề",
|
5693 |
"hễ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5694 |
"không những",
|
|
|
|
|
|
|
|
|
|
|
|
|
5695 |
"l",
|
5696 |
"là",
|
|
|
5697 |
"lên",
|
5698 |
"lại nữa",
|
|
|
5699 |
"lẫn",
|
5700 |
"lắm",
|
|
|
|
|
|
|
|
|
|
|
|
|
5701 |
"mà",
|
5702 |
"mà còn",
|
|
|
|
|
|
|
|
|
|
|
|
|
5703 |
"mấy",
|
|
|
|
|
5704 |
"mặc dù",
|
|
|
5705 |
"mặt khác",
|
|
|
|
|
5706 |
"mọi",
|
|
|
|
|
|
|
5707 |
"mỗi",
|
5708 |
"một chút",
|
5709 |
"một nửa",
|
5710 |
"một số",
|
5711 |
"một vài",
|
5712 |
"một ít",
|
|
|
5713 |
"ngay",
|
|
|
|
|
|
|
5714 |
"ngoài",
|
5715 |
"ngoài ra",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5716 |
"ngược lại",
|
|
|
|
|
|
|
|
|
5717 |
"nhá",
|
5718 |
"nhân",
|
|
|
5719 |
"nhé",
|
5720 |
"như",
|
5721 |
"như vậy",
|
5722 |
"nhưng",
|
|
|
|
|
5723 |
"nhất là",
|
5724 |
"nhằm",
|
5725 |
"nhỉ",
|
|
|
5726 |
"nhờ",
|
|
|
5727 |
"những",
|
|
|
|
|
|
|
5728 |
"nào",
|
5729 |
"này",
|
5730 |
"nè",
|
5731 |
"nên",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5732 |
"nếu",
|
5733 |
"nếu như",
|
|
|
|
|
|
|
|
|
5734 |
"nửa",
|
5735 |
"nữa",
|
|
|
5736 |
"phía",
|
|
|
|
|
|
|
|
|
|
|
5737 |
"phần lớn",
|
|
|
|
|
5738 |
"qua",
|
|
|
|
|
|
|
5739 |
"quả",
|
|
|
5740 |
"ra",
|
5741 |
"riêng",
|
5742 |
"rùi",
|
@@ -5745,37 +5392,81 @@ stopwords = {
|
|
5745 |
"sang",
|
5746 |
"sao",
|
5747 |
"sau",
|
|
|
5748 |
"song",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5749 |
"thay",
|
|
|
5750 |
"theo",
|
|
|
|
|
5751 |
"thiệt",
|
|
|
|
|
|
|
5752 |
"thì",
|
5753 |
"thí dụ",
|
5754 |
"thôi",
|
|
|
|
|
|
|
5755 |
"thật",
|
|
|
5756 |
"thế",
|
5757 |
"thế là",
|
5758 |
"thế mà",
|
5759 |
"thế nhưng",
|
|
|
|
|
|
|
|
|
|
|
5760 |
"toàn",
|
5761 |
"toàn bộ",
|
5762 |
"toàn thể",
|
5763 |
"trong",
|
|
|
|
|
|
|
|
|
5764 |
"trên",
|
|
|
5765 |
"trước",
|
|
|
5766 |
"trời",
|
|
|
5767 |
"tuy",
|
5768 |
"tuy nhiên",
|
|
|
5769 |
"tuy vậy",
|
|
|
5770 |
"tóm lại",
|
|
|
|
|
5771 |
"tại",
|
|
|
|
|
5772 |
"tất cả",
|
|
|
5773 |
"tận",
|
|
|
5774 |
"tổ",
|
|
|
5775 |
"tới",
|
|
|
|
|
5776 |
"tức",
|
5777 |
"tức là",
|
5778 |
"từ",
|
|
|
|
|
5779 |
"ui",
|
5780 |
"và",
|
5781 |
"vài",
|
@@ -5785,30 +5476,68 @@ stopwords = {
|
|
5785 |
"vì thế",
|
5786 |
"vì vậy",
|
5787 |
"ví dụ",
|
|
|
5788 |
"vô",
|
5789 |
"vô số",
|
5790 |
"vô vàn",
|
|
|
|
|
5791 |
"vậy",
|
5792 |
"vậy là",
|
5793 |
"vậy mà",
|
5794 |
"về",
|
|
|
|
|
|
|
5795 |
"với",
|
5796 |
"xuống",
|
5797 |
"à",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5798 |
"đa số",
|
|
|
5799 |
"đi",
|
5800 |
"đâu",
|
5801 |
"đây",
|
|
|
|
|
|
|
5802 |
"đó",
|
5803 |
"đôi",
|
|
|
5804 |
"được",
|
|
|
5805 |
"đấy",
|
|
|
|
|
|
|
|
|
|
|
5806 |
"đến",
|
5807 |
"để",
|
|
|
5808 |
"đối với",
|
|
|
|
|
|
|
5809 |
"ạ",
|
|
|
|
|
5810 |
"ấy",
|
|
|
|
|
|
|
5811 |
"ở",
|
|
|
|
|
|
|
5812 |
],
|
5813 |
"yo": [
|
5814 |
"a",
|
|
|
57 |
"ʼn",
|
58 |
],
|
59 |
"ar": [
|
60 |
+
"آنذاك",
|
61 |
+
"أبداً",
|
|
|
62 |
"أثناء",
|
63 |
+
"أسفل",
|
64 |
+
"أعلى",
|
|
|
65 |
"أغلب",
|
66 |
"أكثر",
|
|
|
67 |
"ألا",
|
68 |
+
"ألم",
|
69 |
"أم",
|
|
|
70 |
"أمام",
|
71 |
+
"أمس",
|
72 |
"أن",
|
73 |
"أنا",
|
74 |
"أنت",
|
75 |
"أنتم",
|
76 |
+
"أنتما",
|
77 |
+
"أنتن",
|
78 |
"أو",
|
79 |
"أولئك",
|
|
|
80 |
"أي",
|
81 |
+
"أيان",
|
82 |
+
"أياً",
|
83 |
"أية",
|
84 |
+
"أيضاً",
|
85 |
"أين",
|
86 |
"أينما",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
87 |
"إبان",
|
88 |
"إثر",
|
89 |
+
"إثر ذلك",
|
|
|
90 |
"إذا",
|
|
|
91 |
"إزاء",
|
|
|
92 |
"إلا",
|
93 |
+
"إلا أن",
|
94 |
"إلى",
|
|
|
|
|
95 |
"إما",
|
96 |
"إن",
|
97 |
"إنما",
|
98 |
+
"إياك",
|
99 |
+
"إياكم",
|
100 |
+
"إياكما",
|
101 |
+
"إياكن",
|
102 |
+
"إيانا",
|
103 |
+
"إياه",
|
104 |
+
"إياها",
|
105 |
+
"إياهم",
|
106 |
+
"إياهما",
|
107 |
+
"إياهن",
|
108 |
+
"إياي",
|
109 |
+
"الآن",
|
110 |
+
"البتة",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
111 |
"التي",
|
|
|
112 |
"الذي",
|
113 |
"الذين",
|
114 |
+
"اللائي",
|
115 |
+
"اللات",
|
|
|
|
|
|
|
116 |
"اللاتي",
|
117 |
"اللتان",
|
118 |
"اللتين",
|
119 |
"اللذان",
|
120 |
"اللذين",
|
121 |
+
"اللهم",
|
122 |
+
"اللوات",
|
123 |
"اللواتي",
|
124 |
+
"الليلة",
|
125 |
+
"اليوم",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
126 |
"اي",
|
127 |
+
"بألا",
|
128 |
+
"بأن",
|
129 |
+
"بئس",
|
130 |
+
"بئست",
|
131 |
+
"باتجاه",
|
132 |
+
"بالأخص",
|
133 |
+
"بالأمس",
|
134 |
+
"بالتالي",
|
135 |
+
"بالذات",
|
136 |
+
"بالرغم من",
|
137 |
+
"بالضبط",
|
138 |
+
"بالطبع",
|
139 |
+
"بالفعل",
|
140 |
+
"بالقرب",
|
141 |
+
"بالكامل",
|
142 |
+
"بالنسبة ل",
|
143 |
+
"بتاتاً",
|
144 |
+
"بجانب",
|
145 |
+
"بحسب",
|
146 |
+
"بحوالي",
|
147 |
+
"بحيث",
|
148 |
+
"بذلك",
|
149 |
+
"برغم",
|
150 |
+
"برمته",
|
151 |
+
"بشتى",
|
152 |
+
"بصرف النظر عن",
|
153 |
+
"بضع",
|
154 |
+
"بضعة",
|
155 |
"بعد",
|
156 |
"بعدما",
|
157 |
"بعض",
|
158 |
+
"بغض الطرف عن",
|
159 |
+
"بغض النظر عن",
|
160 |
+
"بغية",
|
161 |
"بـ",
|
162 |
+
"بقرب",
|
163 |
"بل",
|
164 |
+
"بلا",
|
165 |
+
"بلى",
|
166 |
+
"بم",
|
167 |
"بما",
|
168 |
+
"بما أن",
|
169 |
+
"بمفرده",
|
170 |
+
"بمقتضى",
|
171 |
+
"بمنأى عن",
|
172 |
+
"بموجب",
|
173 |
"بين",
|
174 |
"بينما",
|
175 |
+
"تاماً",
|
176 |
+
"تباعاً",
|
177 |
+
"تبعاً",
|
178 |
+
"تجاه",
|
|
|
|
|
|
|
|
|
|
|
179 |
"تحت",
|
180 |
+
"تحديداً",
|
181 |
+
"تحسباً",
|
182 |
+
"تقريباً",
|
|
|
|
|
|
|
183 |
"تلك",
|
184 |
+
"تلو",
|
185 |
+
"تماماً",
|
186 |
+
"تمشياً",
|
187 |
"ثم",
|
188 |
+
"ثمة",
|
189 |
+
"جانب",
|
190 |
+
"جاهداً",
|
191 |
+
"جداً",
|
192 |
+
"جدياً",
|
193 |
"جراء",
|
194 |
+
"جل",
|
195 |
+
"جميع",
|
196 |
+
"جميعاً",
|
197 |
+
"جنوب",
|
198 |
+
"جنوبي",
|
199 |
+
"حتماً",
|
200 |
+
"حتمياً",
|
201 |
"حتى",
|
202 |
"حسب",
|
203 |
"حسبما",
|
|
|
204 |
"حوالي",
|
205 |
"حول",
|
|
|
206 |
"حيال",
|
207 |
"حيث",
|
208 |
+
"حيث أن",
|
209 |
"حيثما",
|
210 |
"حين",
|
211 |
+
"حينئذ",
|
212 |
+
"حيناً",
|
213 |
+
"حينذاك",
|
214 |
"حينما",
|
215 |
+
"خارج",
|
216 |
+
"ختاماً",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
217 |
"خلال",
|
218 |
+
"خلف",
|
219 |
+
"دائماً",
|
220 |
+
"داخل",
|
221 |
+
"دوماً",
|
222 |
"دون",
|
223 |
+
"دونما",
|
|
|
224 |
"ذاك",
|
225 |
"ذلك",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
226 |
"رغم",
|
227 |
+
"رغم أن",
|
228 |
"ريثما",
|
229 |
+
"زهاء",
|
230 |
+
"ساعة",
|
231 |
+
"سنة",
|
|
|
|
|
|
|
232 |
"سوف",
|
233 |
"سوى",
|
234 |
+
"سوياً",
|
235 |
+
"شتى",
|
236 |
+
"شرق",
|
237 |
+
"شريطة",
|
238 |
+
"شكراً",
|
239 |
+
"شمال",
|
240 |
+
"صبيحة",
|
241 |
"صوب",
|
242 |
"ضد",
|
|
|
|
|
|
|
|
|
243 |
"طالما",
|
244 |
+
"طبقاً",
|
245 |
+
"طواعية",
|
246 |
+
"طوعاً",
|
247 |
"طيلة",
|
248 |
+
"عادة",
|
249 |
+
"عام",
|
250 |
+
"عامة",
|
251 |
"عبر",
|
252 |
"عدا",
|
253 |
"عدة",
|
254 |
+
"عسى",
|
255 |
+
"عشية",
|
|
|
|
|
256 |
"عقب",
|
257 |
+
"علاوة على",
|
258 |
+
"علاوة على ذلك",
|
259 |
"على",
|
260 |
+
"على الرغم من",
|
261 |
+
"على حد قول",
|
262 |
+
"على غرار",
|
263 |
+
"على هذا",
|
264 |
+
"عما",
|
265 |
+
"عمن",
|
266 |
+
"عموماً",
|
267 |
"عن",
|
|
|
268 |
"عند",
|
269 |
+
"عندئذ",
|
270 |
"عندما",
|
271 |
+
"عنوة",
|
272 |
+
"عوضا عن",
|
273 |
+
"غالب",
|
274 |
+
"غالباً",
|
275 |
+
"غداة",
|
276 |
+
"غداً",
|
277 |
+
"غرب",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
278 |
"غير",
|
279 |
+
"غير أن",
|
280 |
+
"ـك",
|
281 |
+
"ـكم",
|
282 |
+
"ـكما",
|
283 |
+
"ـكن",
|
284 |
+
"ـنا",
|
285 |
+
"ـه",
|
286 |
+
"ـها",
|
287 |
+
"ـهم",
|
288 |
+
"ـهما",
|
289 |
+
"ـهن",
|
290 |
+
"ـي",
|
291 |
+
"فجأة",
|
292 |
+
"فجر",
|
293 |
+
"فحسب",
|
294 |
+
"فصاعداً",
|
295 |
+
"فضلاً",
|
296 |
"فـ",
|
|
|
297 |
"فور",
|
298 |
+
"فوراً",
|
299 |
"فوق",
|
|
|
300 |
"في",
|
301 |
+
"في تلك الأثناء",
|
302 |
+
"في غضون ذلك",
|
303 |
+
"في هذه الأثناء",
|
304 |
"فيما",
|
305 |
+
"فيما يلي",
|
|
|
|
|
|
|
|
|
|
|
306 |
"قبالة",
|
307 |
"قبل",
|
308 |
"قبيل",
|
309 |
"قد",
|
310 |
+
"قدماً",
|
311 |
"قرابة",
|
312 |
"قرب",
|
313 |
+
"قسراً",
|
314 |
+
"قطعياً",
|
315 |
+
"قليلاً",
|
|
|
|
|
|
|
|
|
|
|
|
|
316 |
"كأن",
|
317 |
+
"كالمعتاد",
|
318 |
+
"كثيراً",
|
|
|
|
|
|
|
319 |
"كذا",
|
320 |
+
"كذلك",
|
321 |
"كـ",
|
322 |
"كل",
|
323 |
"كلا",
|
324 |
"كلتا",
|
325 |
"كلما",
|
|
|
326 |
"كم",
|
327 |
"كما",
|
328 |
+
"كما أن",
|
|
|
|
|
|
|
|
|
329 |
"كي",
|
330 |
"كيف",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
331 |
"لأن",
|
332 |
+
"لئلا",
|
333 |
"لا",
|
334 |
+
"لا بأس أن",
|
335 |
+
"لا بد",
|
336 |
+
"لا سيما",
|
337 |
+
"لا لبس أن",
|
338 |
+
"لا مانع",
|
339 |
+
"لابد",
|
340 |
+
"لاحقاً",
|
341 |
+
"لاسيما",
|
342 |
+
"لحظة",
|
343 |
+
"لحوالي",
|
344 |
"لدى",
|
|
|
345 |
"لذا",
|
346 |
"لذلك",
|
347 |
+
"لعل",
|
|
|
348 |
"لـ",
|
349 |
"لقد",
|
350 |
"لكن",
|
|
|
351 |
"لكي",
|
352 |
+
"للتو",
|
353 |
"لم",
|
354 |
"لما",
|
355 |
"لماذا",
|
356 |
"لن",
|
|
|
357 |
"لو",
|
358 |
"لولا",
|
359 |
+
"ليت",
|
360 |
+
"ليلة",
|
361 |
+
"مؤخراً",
|
362 |
+
"مؤقتاً",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
363 |
"ما",
|
364 |
"ماذا",
|
365 |
+
"مباشرة",
|
|
|
|
|
366 |
"متى",
|
|
|
367 |
"مثل",
|
368 |
+
"مثلاً",
|
369 |
"مثلما",
|
370 |
+
"مجاناً",
|
371 |
+
"مجدداً",
|
372 |
+
"مجرد",
|
373 |
+
"محض",
|
374 |
+
"مراراً",
|
375 |
+
"مساء",
|
376 |
+
"مطلقاً",
|
377 |
"مع",
|
378 |
+
"مع أن",
|
379 |
+
"مع ذلك",
|
380 |
+
"معاً",
|
381 |
"معظم",
|
|
|
|
|
|
|
382 |
"مما",
|
383 |
+
"مما زاد الطين بلة",
|
384 |
+
"مما يزيد الطين بلة",
|
385 |
+
"ممن",
|
386 |
"من",
|
387 |
+
"من الجدير بالذكر أن",
|
388 |
+
"من المؤسف",
|
389 |
+
"من المؤكد",
|
390 |
+
"من المؤمل",
|
391 |
+
"من المرجح",
|
392 |
+
"من المفترض",
|
393 |
+
"من الممكن",
|
394 |
+
"من ثم",
|
395 |
+
"من جهة أخرى",
|
396 |
+
"من غير المرجح",
|
397 |
+
"من غير الممكن",
|
398 |
+
"من ناحية أخرى",
|
399 |
"منذ",
|
400 |
"مهما",
|
401 |
+
"نادراً",
|
402 |
+
"ناهيك عن",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
403 |
"نحن",
|
404 |
"نحو",
|
405 |
+
"نسبياً",
|
406 |
"نعم",
|
407 |
+
"نعمت",
|
408 |
+
"نفس",
|
409 |
+
"نهار",
|
410 |
+
"نهاراً",
|
|
|
|
|
411 |
"هؤلاء",
|
|
|
412 |
"هاتان",
|
413 |
"هاتين",
|
414 |
+
"هدراً",
|
|
|
415 |
"هذا",
|
416 |
"هذان",
|
|
|
417 |
"هذه",
|
418 |
"هذين",
|
|
|
|
|
419 |
"هكذا",
|
420 |
+
"هكذا دواليك",
|
421 |
"هل",
|
422 |
"هم",
|
423 |
"هما",
|
424 |
"هن",
|
425 |
+
"هنا",
|
426 |
+
"هناك",
|
427 |
+
"هنالك",
|
428 |
"هو",
|
|
|
429 |
"هي",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
430 |
"و",
|
|
|
431 |
"وراء",
|
|
|
432 |
"وسط",
|
|
|
|
|
433 |
"وفق",
|
434 |
+
"وفقاً",
|
435 |
+
"وقت",
|
436 |
"وقتما",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
437 |
"يا",
|
438 |
+
"يذكر أن",
|
439 |
+
"يوم",
|
440 |
+
"يوماً",
|
441 |
+
"يومياً",
|
442 |
+
],
|
443 |
+
"as": [
|
444 |
+
"অন্যথা",
|
445 |
+
"অৱশ্যে",
|
446 |
+
"আপোনাৰ",
|
447 |
+
"উদাহৰণস্বৰূপে",
|
448 |
+
"ওপৰলৈ",
|
449 |
+
"কম",
|
450 |
+
"কাৰণ",
|
451 |
+
"কিন্তু",
|
452 |
+
"কেতিয়াবা",
|
453 |
+
"কোনোবা",
|
454 |
+
"গতিকে",
|
455 |
+
"তললৈ",
|
456 |
+
"তাৰ সলনি",
|
457 |
+
"তাৰে ভিতৰত",
|
458 |
+
"তেওঁলোকৰ",
|
459 |
+
"তেতিয়া",
|
460 |
+
"তেনেকুৱাই",
|
461 |
+
"ফালে",
|
462 |
+
"বহুত",
|
463 |
+
"বাওঁফালে",
|
464 |
+
"বাহিৰত",
|
465 |
+
"ভিতৰত",
|
466 |
+
"মোৰ",
|
467 |
+
"যথেষ্ট",
|
468 |
+
"যাৰ",
|
469 |
+
"যি",
|
470 |
+
"যেতিয়ালৈকে",
|
471 |
+
"যেনে",
|
472 |
+
"লৈ",
|
473 |
+
"সকলোৱে",
|
474 |
+
"সোঁফালে",
|
475 |
+
"সৰ্বাধিক",
|
476 |
],
|
477 |
"bn": [
|
478 |
"অনেক",
|
479 |
+
"অনেক ",
|
480 |
+
"অন্য ",
|
481 |
+
"অন্যথায়",
|
482 |
+
"আমরা ",
|
483 |
+
"আমার ",
|
484 |
+
"আমি",
|
485 |
+
"আর জন্য ",
|
486 |
+
"আর, ও, এবং ",
|
487 |
+
"আরও সাথে , আরো সঙ্গে ",
|
488 |
+
"উদাহরণ স্বরূপ",
|
|
|
489 |
"উপর",
|
490 |
+
"এ ",
|
491 |
+
"এ, এটা, এইটা ",
|
492 |
+
"এখানে , এইখানে ",
|
493 |
+
"ও ,ওটা ,ওইটা",
|
494 |
+
"ওখানে, সেখানে ",
|
495 |
+
"ওদের মধ্যে ",
|
496 |
+
"কখন ",
|
497 |
+
"কখনও কখনও",
|
498 |
+
"কম, অল্প ",
|
499 |
+
"কারণ ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
500 |
"কি",
|
501 |
+
"কিছু ",
|
502 |
+
"কিন্তু ",
|
503 |
+
"কে ",
|
504 |
"কেউ",
|
505 |
+
"কেমন ",
|
506 |
+
"কোথায়",
|
507 |
+
"কোনটা ",
|
508 |
+
"ডান",
|
509 |
+
"তাই, সুতরাং",
|
510 |
+
"তার, তাদের, ওর, ওদের ",
|
511 |
+
"তারপর",
|
512 |
+
"তারা ",
|
513 |
+
"তুমি, আপনি ",
|
514 |
+
"তোমরা , আপনারা ",
|
515 |
+
"তোমার, তোর ",
|
516 |
+
"দিকে",
|
517 |
+
"না ",
|
518 |
+
"নিচে",
|
519 |
+
"পরিবর্তে , বরং ",
|
520 |
+
"পর্যন্ত",
|
521 |
+
"বাইরে",
|
522 |
+
"বাম",
|
523 |
+
"ভিতর",
|
524 |
+
"ভিতরে",
|
525 |
+
"মত",
|
526 |
+
"যতক্ষণ না",
|
527 |
+
"যথেষ্ট",
|
528 |
+
"যদি ",
|
529 |
+
"যাহার",
|
530 |
+
"যাহোক",
|
531 |
+
"সব, সবাই ",
|
532 |
+
"সবাই",
|
533 |
+
"সর্বাধিক",
|
534 |
+
"সামান্য",
|
535 |
+
"সে রকমই",
|
536 |
+
"সে, ও",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
537 |
],
|
538 |
"ca": [
|
539 |
"-ho",
|
|
|
3566 |
"êtes",
|
3567 |
"être",
|
3568 |
],
|
3569 |
+
"gu": [
|
3570 |
+
"અંદર",
|
3571 |
+
"અડધા, અડધું",
|
3572 |
+
"અત્યારે, હમણાં",
|
3573 |
+
"અથવા, કે",
|
3574 |
+
"અને",
|
3575 |
+
"અનેક, ઘણા",
|
3576 |
+
"અન્ય, બીજું",
|
3577 |
+
"અમને, હમેં",
|
3578 |
+
"અમારા",
|
3579 |
+
"અમારું, આપણું",
|
3580 |
+
"અમે",
|
3581 |
+
"અહીં, અહીંયા",
|
3582 |
+
"આ",
|
3583 |
+
"આ દ્વારા",
|
3584 |
+
"આ રીતે, આ તરફ",
|
3585 |
+
"આની જેમ",
|
3586 |
+
"ઉપર",
|
3587 |
+
"એકલા",
|
3588 |
+
"એનાથી",
|
3589 |
+
"એમાથી",
|
3590 |
+
"ઓછું, ઓછા",
|
3591 |
+
"કઈ બાજુ",
|
3592 |
+
"કદાચ",
|
3593 |
+
"કયું, કયો, કઈ, જે",
|
3594 |
+
"કાં તો",
|
3595 |
+
"કેટલા",
|
3596 |
+
"કેટલાક, થોડા",
|
3597 |
+
"કેમ, શા માટે",
|
3598 |
+
"કેવી રીતે, કઈ રીતે",
|
3599 |
+
"કોઈ",
|
3600 |
+
"કોઈ નહી",
|
3601 |
+
"કોઈને",
|
3602 |
+
"કોઈપણ",
|
3603 |
+
"કોણ",
|
3604 |
+
"કોનું, જેમના, જેમની",
|
3605 |
+
"ક્યાંક, કોઈ જગ્યાએ",
|
3606 |
+
"ક્યાંથી, જ્યાં, ક્યાં ",
|
3607 |
+
"ક્યારે, જ્યારે",
|
3608 |
+
"ક્યારેક ક્યારેક",
|
3609 |
+
"ઘણું બધું",
|
3610 |
+
"ઘણું, પુસ્કળ, અતિશય",
|
3611 |
+
"જેથી",
|
3612 |
+
"જેને, જેમને",
|
3613 |
+
"જેમ",
|
3614 |
+
"જેમ કે, જેમ, જે રીતે, જેવા કે",
|
3615 |
+
"જો",
|
3616 |
+
"તને",
|
3617 |
+
"તમારા, તમારું",
|
3618 |
+
"તમારું",
|
3619 |
+
"તમે, તું",
|
3620 |
+
"તારું",
|
3621 |
+
"તે જેવી, તેની જેમ",
|
3622 |
+
"તે રીતે, તે તરફ",
|
3623 |
+
"તેઓ",
|
3624 |
+
"તેઓનું",
|
3625 |
+
"તેઓને, તેમને",
|
3626 |
+
"તેણીના",
|
3627 |
+
"તેથી, તો",
|
3628 |
+
"તેના",
|
3629 |
+
"તેનું, તેના",
|
3630 |
+
"તેમના, તેમનું, તેઓની",
|
3631 |
+
"તેમને. એમને",
|
3632 |
+
"તેવું",
|
3633 |
+
"ત્યાં",
|
3634 |
+
"ત્યાં સુધી",
|
3635 |
+
"થોડા",
|
3636 |
+
"થોડું",
|
3637 |
+
"દરેક",
|
3638 |
+
"દૂર",
|
3639 |
+
"દ્વારા",
|
3640 |
+
"નજીક, પાસે",
|
3641 |
+
"ના, નહિ",
|
3642 |
+
"ના, નો",
|
3643 |
+
"ની અંદર",
|
3644 |
+
"ની સામે",
|
3645 |
+
"નીચે",
|
3646 |
+
"પછી",
|
3647 |
+
"પછી, ત્યારે",
|
3648 |
+
"પછીથી",
|
3649 |
+
"પણ",
|
3650 |
+
"પરંતુ, પણ",
|
3651 |
+
"પાછળ",
|
3652 |
+
"પેલી",
|
3653 |
+
"પેલું",
|
3654 |
+
"પેલો, તે",
|
3655 |
+
"પ્રતિ",
|
3656 |
+
"ફરીથી, ફરી",
|
3657 |
+
"બંને, બેઉ",
|
3658 |
+
"બધા",
|
3659 |
+
"બહાર",
|
3660 |
+
"બાજુમાં",
|
3661 |
+
"ભરપૂર",
|
3662 |
+
"મને",
|
3663 |
+
"માં",
|
3664 |
+
"માંથી, થી",
|
3665 |
+
"માટે",
|
3666 |
+
"માથે, ઉપર",
|
3667 |
+
"મારા",
|
3668 |
+
"મારુ, મારી ",
|
3669 |
+
"મારું",
|
3670 |
+
"લીધે, કારણ કે,કેમ કે",
|
3671 |
+
"વધારાનું",
|
3672 |
+
"વધારે",
|
3673 |
+
"વધારે, વધુ ",
|
3674 |
+
"શું",
|
3675 |
+
"સમગ્ર",
|
3676 |
+
"સમાન, એક સરખું",
|
3677 |
+
"સાથે",
|
3678 |
+
"સિવાય",
|
3679 |
+
"સુધી",
|
3680 |
+
"સૌથી વધુ",
|
3681 |
+
"હજુ સુધી",
|
3682 |
+
"હું",
|
3683 |
+
],
|
3684 |
"hi": [
|
3685 |
"अंदर",
|
3686 |
+
"अकेला",
|
3687 |
+
"अतिरिक्त",
|
3688 |
+
"अथवा, या",
|
3689 |
+
"अधिकांश",
|
3690 |
+
"अन्यथा",
|
3691 |
+
"अब, अभि, इसी वक्त",
|
3692 |
+
"अभी तक",
|
3693 |
+
"आधा",
|
3694 |
+
"आप, तुम, तुजे",
|
3695 |
+
"आपका, तुम्हारा, तेरा",
|
3696 |
+
"इधर, यहाँ",
|
3697 |
+
"इन्हें, इन",
|
3698 |
+
"इस तरफ",
|
3699 |
+
"इस से",
|
3700 |
+
"इसका, इसकी",
|
3701 |
+
"इसके द्वारा",
|
3702 |
+
"इसके साथ",
|
3703 |
+
"इसलिए",
|
3704 |
+
"इसलिए, तो",
|
3705 |
+
"उदाहरण के लिए",
|
3706 |
+
"उन को, इन को, उन्हें, इन्हें",
|
3707 |
+
"उनका, उनके, उनकी, इनका",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3708 |
"उनके",
|
3709 |
+
"उनमें से",
|
|
|
3710 |
"उन्हें",
|
3711 |
+
"उस तरफ, उसी और",
|
3712 |
+
"उसकी, उसके",
|
3713 |
+
"उसके जैसा",
|
3714 |
+
"उसको, उसके, इसको, इसके, इसकी",
|
3715 |
+
"ऊपर",
|
3716 |
+
"ऐसा",
|
|
|
|
|
|
|
|
|
|
|
|
|
3717 |
"और",
|
3718 |
+
"कब, जब",
|
3719 |
+
"कभी - कभी",
|
3720 |
+
"कभी कभी",
|
3721 |
+
"कम",
|
3722 |
+
"कम, थोड़ा",
|
3723 |
+
"कहीं",
|
3724 |
+
"का, की, के",
|
3725 |
+
"काफ़ी",
|
3726 |
+
"किंतु, पर, लेकिन, मगर",
|
3727 |
+
"कितने",
|
3728 |
+
"किस तरफ",
|
3729 |
+
"किसके, जिसके, जिनके, किसका",
|
3730 |
+
"किसको, किसे, जिसे, जिन्हे",
|
3731 |
+
"किसी को",
|
3732 |
+
"की ओर, की तरफ़",
|
3733 |
+
"कुछ, थोड़े",
|
3734 |
+
"के अंदर",
|
3735 |
+
"के अलावा",
|
3736 |
+
"के ऊपर",
|
3737 |
+
"के लिये",
|
3738 |
+
"के सामने",
|
3739 |
+
"कैसे, कैसा",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3740 |
"कोई",
|
3741 |
+
"कोई न कोई",
|
3742 |
+
"कोई नहीं",
|
3743 |
+
"कोई, कोई व्यक्ति",
|
3744 |
"कौन",
|
3745 |
+
"कौन सा, जो",
|
3746 |
+
"कौन, जो",
|
3747 |
+
"क्या",
|
3748 |
+
"क्यों",
|
3749 |
+
"क्योंकि, चूंकि",
|
3750 |
+
"जब तक",
|
3751 |
+
"जब तक, तक तक",
|
3752 |
+
"जहाँ, कहां, किधर",
|
3753 |
+
"जिसका",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3754 |
"जैसा",
|
3755 |
"जैसे",
|
3756 |
+
"जैसे की, जैसा, वैसा",
|
3757 |
+
"जैसे, इस तरह",
|
3758 |
+
"ज्यादा, अधिक",
|
3759 |
+
"ढेर सारा",
|
3760 |
+
"ढेर सारा, बहुत सारा",
|
3761 |
"तक",
|
3762 |
+
"तक, जब तक",
|
3763 |
+
"तब, फिर",
|
3764 |
+
"ताकि",
|
3765 |
+
"तुम्हारा",
|
3766 |
+
"तुम्हारा, तुम्हारे",
|
3767 |
+
"तुम्हे, तुझे, तुमको",
|
3768 |
+
"तेरा, तेरी",
|
3769 |
+
"थोड़ा",
|
3770 |
+
"दाहिने, दाहिना",
|
3771 |
+
"दुसरा, एक और",
|
3772 |
+
"दूर",
|
3773 |
+
"दोनों",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3774 |
"द्वारा",
|
3775 |
+
"नहीं, मत ",
|
|
|
|
|
|
|
|
|
|
|
3776 |
"नीचे",
|
3777 |
+
"पास में, पास",
|
3778 |
+
"पास, नजदीक, करीब",
|
3779 |
+
"पीछे",
|
|
|
3780 |
"पूरा",
|
3781 |
+
"प्रति, से, तक",
|
3782 |
+
"प्रत्येक",
|
3783 |
+
"फिर, तो, तब, उस वक़्त",
|
3784 |
+
"फिर, दुबारा",
|
3785 |
+
"बजाय",
|
3786 |
+
"बहुत, अनेक",
|
3787 |
+
"बहुत, ज्यादा, काफी",
|
3788 |
+
"बाएं, वाम",
|
3789 |
+
"बाद में",
|
3790 |
+
"बाद में, पीछे",
|
3791 |
+
"बाहर",
|
|
|
3792 |
"भी",
|
3793 |
+
"मुझे",
|
3794 |
+
"में, भीतर, अंदर",
|
3795 |
+
"में, मैंने",
|
3796 |
+
"मेरा, अपना",
|
3797 |
+
"मेरा, मेरी",
|
3798 |
+
"मेरी, मेरा, मेरे",
|
3799 |
"यदि",
|
3800 |
+
"यदि, अगर",
|
3801 |
+
"यदि, या",
|
3802 |
+
"यह, ये, इसे",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3803 |
"लेकिन",
|
|
|
|
|
|
|
|
|
3804 |
"वह",
|
3805 |
+
"वह, जो",
|
3806 |
"वहां",
|
3807 |
+
"वही",
|
3808 |
+
"वे, वह, वो, उन्होंने",
|
3809 |
+
"वैसे, उसके जैसा",
|
3810 |
+
"शायद",
|
3811 |
+
"सब लोग",
|
3812 |
+
"सब, सभी, सारे",
|
3813 |
+
"सबसे ज्यादा, अधिकांश",
|
|
|
|
|
|
|
|
|
|
|
3814 |
"साथ",
|
|
|
|
|
|
|
3815 |
"से",
|
3816 |
+
"हम",
|
3817 |
+
"हमारा, हमारे, हमारी",
|
3818 |
+
"हर जगह",
|
3819 |
+
"हालाँकि",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3820 |
],
|
3821 |
"id": [
|
3822 |
"Anda",
|
|
|
5033 |
"zake",
|
5034 |
],
|
5035 |
"ur": [
|
5036 |
+
"اسلئے",
|
5037 |
+
"اسکے جیسا",
|
5038 |
+
"ان کے بیچ ,ان لوگوں کے بیچ",
|
5039 |
+
"اندر",
|
5040 |
+
"انکا",
|
5041 |
+
"اور ,و",
|
5042 |
+
"اوپر",
|
5043 |
+
"اگر ,گرچہ ,اگرچہ",
|
5044 |
+
"باہر",
|
5045 |
+
"بایاں ,بائیں",
|
5046 |
+
"بجائے ,بدلے ,بدلے میں",
|
5047 |
+
"بہت ,بہت سارے ,بہت کچھ",
|
5048 |
+
"بہت زیادہ",
|
5049 |
+
"تب تک",
|
5050 |
+
"تم لوگ ,آپ ,آپ لوگ",
|
5051 |
+
"تمہارا ,تیرا ,آپکا",
|
5052 |
+
"تو, تم ,آپ",
|
5053 |
+
"تھوڑا ,تھوڑی",
|
5054 |
+
"جب تک",
|
5055 |
+
"جسکا",
|
5056 |
+
"جیسے",
|
5057 |
+
"حالاںکہ",
|
5058 |
+
"دایاں ,دائیں ,صحیح",
|
5059 |
+
"دوسرا",
|
5060 |
+
"زیادہ تر",
|
5061 |
+
"ساتھ ,کے ساتھ",
|
5062 |
+
"سب ,سبھی ,سب کچھ ,سارے ,سارا",
|
5063 |
+
"سب لوگ",
|
5064 |
+
"طرف ,اسکی طرف",
|
5065 |
+
"لیکن",
|
5066 |
+
"مثلأ ,مثال کے طور پے",
|
5067 |
+
"میرا",
|
5068 |
+
"میں",
|
5069 |
+
"میں ,کے اندر ,اندر",
|
5070 |
+
"نہی تو",
|
5071 |
+
"نہیں ,ناں ,نا",
|
5072 |
+
"نیچے",
|
5073 |
+
"وہ ,وہ لوگ",
|
5074 |
+
"وہ ,وہ والا, کہ",
|
5075 |
+
"وہ ,یے",
|
5076 |
+
"وہاں",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5077 |
"پھر",
|
5078 |
+
"پہ ,پر ,میں",
|
5079 |
+
"کافی",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5080 |
"کب",
|
5081 |
+
"کبھی کبھی",
|
5082 |
+
"کم",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5083 |
"کوئی",
|
5084 |
+
"کون",
|
5085 |
+
"کونسا",
|
5086 |
+
"کچھ",
|
5087 |
+
"کہاں",
|
5088 |
+
"کیا",
|
5089 |
+
"کیسے",
|
5090 |
+
"کیوںکہ ,چوںکہ ,کیوںکی",
|
5091 |
+
"کےلئے",
|
5092 |
+
"ہم ,ھم",
|
5093 |
+
"یہ ,یہ والا",
|
5094 |
+
"یہاں",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5095 |
],
|
5096 |
"vi": [
|
5097 |
+
"ai",
|
5098 |
+
"ai ai",
|
5099 |
+
"ai nấy",
|
5100 |
+
"anh",
|
5101 |
+
"anh em",
|
5102 |
+
"anh trai",
|
5103 |
+
"anh ấy",
|
5104 |
+
"ba",
|
5105 |
+
"bao",
|
5106 |
+
"bao giờ",
|
5107 |
+
"bay",
|
5108 |
+
"bà",
|
5109 |
+
"bà con",
|
5110 |
+
"bà ấy",
|
5111 |
+
"bác",
|
5112 |
+
"bây",
|
5113 |
+
"bé",
|
5114 |
"bên",
|
5115 |
+
"bạn",
|
5116 |
+
"bạn gái",
|
5117 |
+
"bạn trai",
|
5118 |
+
"bả",
|
5119 |
+
"bản thân",
|
5120 |
+
"bất chấp",
|
5121 |
+
"bất cứ",
|
5122 |
+
"bất kì",
|
5123 |
+
"bất luận",
|
5124 |
+
"bất nhược",
|
5125 |
+
"bất quá",
|
5126 |
+
"bấy",
|
5127 |
"bấy nhiêu",
|
5128 |
+
"bần tăng",
|
5129 |
+
"bầy quân",
|
5130 |
+
"bầy tui",
|
5131 |
+
"bậu",
|
5132 |
"bằng",
|
5133 |
+
"bệ hạ",
|
5134 |
+
"bị cáo",
|
5135 |
+
"bố",
|
5136 |
+
"bố nó",
|
5137 |
+
"bồ",
|
5138 |
+
"bộ",
|
5139 |
"bởi",
|
5140 |
+
"bởi vì",
|
5141 |
"cc",
|
5142 |
+
"cha",
|
5143 |
"chao",
|
5144 |
+
"chi",
|
5145 |
+
"chiếu theo",
|
5146 |
"cho",
|
5147 |
"cho dù",
|
5148 |
+
"cho đến",
|
5149 |
+
"choa",
|
5150 |
+
"chàng",
|
5151 |
"chán",
|
5152 |
+
"cháu",
|
5153 |
+
"chí",
|
5154 |
"chính",
|
5155 |
+
"chú",
|
5156 |
+
"chú mày",
|
5157 |
+
"chúng",
|
5158 |
+
"chúng mày",
|
5159 |
+
"chúng mình",
|
5160 |
+
"chúng nó",
|
5161 |
+
"chúng ta",
|
5162 |
+
"chúng tao",
|
5163 |
+
"chúng tôi",
|
5164 |
"chút",
|
5165 |
+
"chăng",
|
5166 |
+
"chưa",
|
5167 |
+
"chưng",
|
5168 |
+
"chả",
|
5169 |
+
"chắc",
|
5170 |
+
"chẳng cứ",
|
5171 |
+
"chỉ",
|
5172 |
+
"chị",
|
5173 |
+
"chị gái",
|
5174 |
+
"chị ấy",
|
5175 |
+
"chớ",
|
5176 |
"chứ",
|
5177 |
+
"con",
|
5178 |
+
"con này",
|
5179 |
+
"cuối cùng",
|
5180 |
"các",
|
5181 |
+
"các hạ",
|
5182 |
"cái",
|
5183 |
+
"cái gì",
|
5184 |
+
"cái này",
|
5185 |
+
"cán bộ",
|
5186 |
"còn",
|
5187 |
"có",
|
5188 |
"có vẻ",
|
5189 |
+
"cóc",
|
5190 |
+
"cô",
|
5191 |
+
"cô nương",
|
5192 |
+
"cô ta",
|
5193 |
+
"cô ấy",
|
5194 |
+
"côi",
|
5195 |
+
"công tử",
|
5196 |
"cùng",
|
5197 |
+
"cơ",
|
5198 |
"cơ mà",
|
5199 |
+
"cưng",
|
5200 |
+
"cạnh",
|
5201 |
"cả",
|
5202 |
+
"cả nhà",
|
5203 |
+
"cầm bằng",
|
5204 |
+
"cậu",
|
5205 |
+
"cổ",
|
5206 |
+
"cộng",
|
5207 |
+
"cụ",
|
5208 |
"của",
|
5209 |
+
"cứ",
|
5210 |
"do",
|
5211 |
"do vậy",
|
5212 |
"do đó",
|
|
|
5214 |
"dù",
|
5215 |
"dù sao",
|
5216 |
"dù vậy",
|
5217 |
+
"dưng",
|
5218 |
"dưới",
|
5219 |
"dường như",
|
5220 |
"dạ",
|
5221 |
+
"dầu",
|
5222 |
"dẫu",
|
5223 |
"dẫu vậy",
|
5224 |
+
"dậy",
|
5225 |
+
"dọc",
|
5226 |
+
"dợ",
|
5227 |
+
"em",
|
5228 |
+
"ghe",
|
5229 |
+
"già",
|
5230 |
+
"giá như",
|
5231 |
+
"giả dụ",
|
5232 |
+
"giả sử",
|
5233 |
"giữa",
|
5234 |
"gì",
|
5235 |
+
"ha",
|
5236 |
"hay",
|
5237 |
"hay là",
|
5238 |
+
"hen",
|
5239 |
+
"hoàng thượng",
|
5240 |
"hoặc",
|
5241 |
+
"huynh",
|
5242 |
+
"huống",
|
5243 |
+
"huống chi",
|
5244 |
+
"huống gì",
|
5245 |
+
"huống hồ",
|
5246 |
+
"há",
|
5247 |
+
"hôn",
|
5248 |
+
"hơn",
|
5249 |
"hơn nữa",
|
5250 |
"hả",
|
5251 |
"hầu hết",
|
5252 |
+
"hắn",
|
5253 |
"hết",
|
5254 |
+
"hết cả",
|
5255 |
"hề",
|
5256 |
"hễ",
|
5257 |
+
"họ",
|
5258 |
+
"hổi",
|
5259 |
+
"hỡi",
|
5260 |
+
"hử",
|
5261 |
+
"khanh",
|
5262 |
+
"khi",
|
5263 |
+
"khi nào",
|
5264 |
+
"không",
|
5265 |
+
"không ai",
|
5266 |
"không những",
|
5267 |
+
"khứa",
|
5268 |
+
"kia",
|
5269 |
+
"kém",
|
5270 |
+
"kìa",
|
5271 |
+
"kẻo",
|
5272 |
+
"kể từ",
|
5273 |
"l",
|
5274 |
"là",
|
5275 |
+
"lão",
|
5276 |
"lên",
|
5277 |
"lại nữa",
|
5278 |
+
"lần",
|
5279 |
"lẫn",
|
5280 |
"lắm",
|
5281 |
+
"mi",
|
5282 |
+
"min",
|
5283 |
+
"miễn",
|
5284 |
+
"moa",
|
5285 |
+
"muôn",
|
5286 |
+
"muội",
|
5287 |
"mà",
|
5288 |
"mà còn",
|
5289 |
+
"mày",
|
5290 |
+
"mãi",
|
5291 |
+
"mình",
|
5292 |
+
"mô",
|
5293 |
+
"mũ",
|
5294 |
+
"mất",
|
5295 |
"mấy",
|
5296 |
+
"mầy",
|
5297 |
+
"mẫu hậu",
|
5298 |
"mặc dù",
|
5299 |
+
"mặc dầu",
|
5300 |
"mặt khác",
|
5301 |
+
"mẹ",
|
5302 |
+
"mẹ nó",
|
5303 |
"mọi",
|
5304 |
+
"mọi người",
|
5305 |
+
"mọi vật",
|
5306 |
+
"mỏa",
|
5307 |
"mỗi",
|
5308 |
"một chút",
|
5309 |
"một nửa",
|
5310 |
"một số",
|
5311 |
"một vài",
|
5312 |
"một ít",
|
5313 |
+
"mụ",
|
5314 |
"ngay",
|
5315 |
+
"nghe",
|
5316 |
+
"nghen",
|
5317 |
+
"nghỉ",
|
5318 |
"ngoài",
|
5319 |
"ngoài ra",
|
5320 |
+
"ngoại",
|
5321 |
+
"ngoải",
|
5322 |
+
"ngài",
|
5323 |
+
"ngươi",
|
5324 |
+
"người",
|
5325 |
+
"người người",
|
5326 |
+
"người ta",
|
5327 |
"ngược lại",
|
5328 |
+
"ngộ",
|
5329 |
+
"nha",
|
5330 |
+
"nhiều",
|
5331 |
+
"nhà quân",
|
5332 |
"nhá",
|
5333 |
"nhân",
|
5334 |
+
"nhân dịp",
|
5335 |
"nhé",
|
5336 |
"như",
|
5337 |
"như vậy",
|
5338 |
"nhưng",
|
5339 |
+
"nhưng mà",
|
5340 |
+
"nhược bằng",
|
5341 |
"nhất là",
|
5342 |
"nhằm",
|
5343 |
"nhỉ",
|
5344 |
+
"nhỏ",
|
5345 |
"nhờ",
|
5346 |
+
"nhỡ",
|
5347 |
"những",
|
5348 |
+
"ni",
|
5349 |
+
"nà",
|
5350 |
+
"nàng",
|
5351 |
"nào",
|
5352 |
"này",
|
5353 |
"nè",
|
5354 |
"nên",
|
5355 |
+
"nó",
|
5356 |
+
"nô tài",
|
5357 |
+
"nô tì",
|
5358 |
+
"nơi",
|
5359 |
+
"nơi nơi",
|
5360 |
+
"nấy",
|
5361 |
+
"nầy",
|
5362 |
+
"nẩu",
|
5363 |
"nếu",
|
5364 |
"nếu như",
|
5365 |
+
"nọ",
|
5366 |
+
"nội",
|
5367 |
+
"nớ",
|
5368 |
+
"nừng",
|
5369 |
"nửa",
|
5370 |
"nữa",
|
5371 |
+
"phi",
|
5372 |
"phía",
|
5373 |
+
"phô bay",
|
5374 |
+
"phải",
|
5375 |
+
"phải hôn",
|
5376 |
+
"phải không",
|
5377 |
+
"phần",
|
5378 |
"phần lớn",
|
5379 |
+
"phỏng",
|
5380 |
+
"phứt",
|
5381 |
"qua",
|
5382 |
+
"quanh",
|
5383 |
+
"quý khách",
|
5384 |
+
"quý vị",
|
5385 |
"quả",
|
5386 |
+
"quả nhân",
|
5387 |
"ra",
|
5388 |
"riêng",
|
5389 |
"rùi",
|
|
|
5392 |
"sang",
|
5393 |
"sao",
|
5394 |
"sau",
|
5395 |
+
"sau cùng",
|
5396 |
"song",
|
5397 |
+
"song le",
|
5398 |
+
"sắp",
|
5399 |
+
"sẽ",
|
5400 |
+
"sở dĩ",
|
5401 |
+
"ta",
|
5402 |
+
"tao",
|
5403 |
+
"tau",
|
5404 |
+
"thanh niên",
|
5405 |
"thay",
|
5406 |
+
"thay vì",
|
5407 |
"theo",
|
5408 |
+
"theo đó",
|
5409 |
+
"thiếp",
|
5410 |
"thiệt",
|
5411 |
+
"thành",
|
5412 |
+
"thâu",
|
5413 |
+
"thêm",
|
5414 |
"thì",
|
5415 |
"thí dụ",
|
5416 |
"thôi",
|
5417 |
+
"thần",
|
5418 |
+
"thầy",
|
5419 |
+
"thẩy",
|
5420 |
"thật",
|
5421 |
+
"thằng này",
|
5422 |
"thế",
|
5423 |
"thế là",
|
5424 |
"thế mà",
|
5425 |
"thế nhưng",
|
5426 |
+
"thị",
|
5427 |
+
"thời",
|
5428 |
+
"tiểu nhân",
|
5429 |
+
"toa",
|
5430 |
+
"toà",
|
5431 |
"toàn",
|
5432 |
"toàn bộ",
|
5433 |
"toàn thể",
|
5434 |
"trong",
|
5435 |
+
"trong khi",
|
5436 |
+
"trong đó",
|
5437 |
+
"trái",
|
5438 |
+
"trái lại",
|
5439 |
"trên",
|
5440 |
+
"trò",
|
5441 |
"trước",
|
5442 |
+
"trẫm",
|
5443 |
"trời",
|
5444 |
+
"trừ phi",
|
5445 |
"tuy",
|
5446 |
"tuy nhiên",
|
5447 |
+
"tuy rằng",
|
5448 |
"tuy vậy",
|
5449 |
+
"tê",
|
5450 |
"tóm lại",
|
5451 |
+
"tôi",
|
5452 |
+
"tương đương",
|
5453 |
"tại",
|
5454 |
+
"tại hạ",
|
5455 |
+
"tại vì",
|
5456 |
"tất cả",
|
5457 |
+
"tầm",
|
5458 |
"tận",
|
5459 |
+
"tỉ",
|
5460 |
"tổ",
|
5461 |
+
"tớ",
|
5462 |
"tới",
|
5463 |
+
"tụi",
|
5464 |
+
"tụi nó",
|
5465 |
"tức",
|
5466 |
"tức là",
|
5467 |
"từ",
|
5468 |
+
"tự",
|
5469 |
+
"tựa",
|
5470 |
"ui",
|
5471 |
"và",
|
5472 |
"vài",
|
|
|
5476 |
"vì thế",
|
5477 |
"vì vậy",
|
5478 |
"ví dụ",
|
5479 |
+
"ví như",
|
5480 |
"vô",
|
5481 |
"vô số",
|
5482 |
"vô vàn",
|
5483 |
+
"vả chăng",
|
5484 |
+
"vả lại",
|
5485 |
"vậy",
|
5486 |
"vậy là",
|
5487 |
"vậy mà",
|
5488 |
"về",
|
5489 |
+
"về hướng",
|
5490 |
+
"về phía",
|
5491 |
+
"vị",
|
5492 |
"với",
|
5493 |
"xuống",
|
5494 |
"à",
|
5495 |
+
"á",
|
5496 |
+
"ái khanh",
|
5497 |
+
"âu là",
|
5498 |
+
"í",
|
5499 |
+
"ít",
|
5500 |
+
"ông",
|
5501 |
+
"ông ấy",
|
5502 |
+
"út",
|
5503 |
+
"ý",
|
5504 |
"đa số",
|
5505 |
+
"đang",
|
5506 |
"đi",
|
5507 |
"đâu",
|
5508 |
"đây",
|
5509 |
+
"đã",
|
5510 |
+
"đê",
|
5511 |
+
"đích thân",
|
5512 |
"đó",
|
5513 |
"đôi",
|
5514 |
+
"đương",
|
5515 |
"được",
|
5516 |
+
"đại nhân",
|
5517 |
"đấy",
|
5518 |
+
"đầu tiên",
|
5519 |
+
"đằng này",
|
5520 |
+
"đằng ấy",
|
5521 |
+
"��ẳng",
|
5522 |
+
"đặng",
|
5523 |
"đến",
|
5524 |
"để",
|
5525 |
+
"đệ",
|
5526 |
"đối với",
|
5527 |
+
"đồ",
|
5528 |
+
"ơi",
|
5529 |
+
"ư",
|
5530 |
"ạ",
|
5531 |
+
"ả",
|
5532 |
+
"ảnh",
|
5533 |
"ấy",
|
5534 |
+
"ẻm",
|
5535 |
+
"ổng",
|
5536 |
+
"ờ",
|
5537 |
"ở",
|
5538 |
+
"ừ",
|
5539 |
+
"ừa",
|
5540 |
+
"ừm",
|
5541 |
],
|
5542 |
"yo": [
|
5543 |
"a",
|