In [1]:
from transformers import PreTrainedTokenizerFast
from phonemizer import phonemize
from phonemizer.backend import EspeakBackend
from phonemizer.separator import Separator

test_string = 'इसरो ने चंद्रयान-3 मिशन के लिए तीन मुख्य उद्देश्य निर्धारित किए हैं, जिनमें शामिल हैं: लैंडर की चंद्रमा की सतह पर सुरक्षित और सॉफ्ट लैंडिंग कराना। चंद्रमा पर रोवर की विचरण क्षमताओं का अवलोकन और प्रदर्शन। चंद्रमा की संरचना को बेहतर ढंग से समझने और उसके विज्ञान को अभ्यास में लाने के लिए चंद्रमा की सतह पर उपलब्ध रासायनिक और प्राकृतिक तत्वों, मिट्टी, पानी आदि पर वैज्ञानिक प्रयोग करना।'

phonemized = phonemize(
 [test_string],
 language = 'hi',
 backend = 'espeak',
 separator = Separator(phone = None, word = ' ', syllable = None),
 strip = True,
 preserve_punctuation = True,
 njobs = 1
 )

In [2]:
words = test_string.split()
phn_words = phonemized[0].split()
print(len(words))
print(len(phn_words))

69
70


### Scratch Unigram Tokenizer

In [3]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_UnigramTokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_UnigramTokenizer/")

In [4]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

79
['▁इसरो', '▁ने', '▁चंद्र', 'यान', '-', '3', '▁मिशन', '▁के', '▁लिए', '▁तीन', '▁मुख्य', '▁उद्देश्य', '▁निर्धारित', '▁किए', '▁हैं,', '▁जिनमें', '▁शामिल', '▁हैं:', '▁लैंड', 'र', '▁की', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁सुरक्षित', '▁और', '▁सॉफ्ट', '▁लैंडिंग', '▁कराना', '।', '▁चंद्रमा', '▁पर', '▁रोवर', '▁की', '▁विचरण', '▁क्षमताओं', '▁का', '▁अवलोकन', '▁और', '▁प्रदर्शन', '।', '▁चंद्रमा', '▁की', '▁संरचना', '▁को', '▁बेहतर', '▁ढंग', '▁से', '▁समझने', '▁और', '▁उसके', '▁विज्ञान', '▁को', '▁अभ्यास', '▁में', '▁लाने', '▁के', '▁लिए', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁उपलब्ध', '▁रासायनिक', '▁और', '▁प्राकृतिक', '▁तत्वों', ',', '▁मिट्टी', ',', '▁पानी', '▁आदि', '▁पर', '▁वैज्ञानिक', '▁प्रयोग', '▁करना।']


In [5]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

82
['▁ɪs', 'ɾoː', '▁neː', '▁cəndɾəjaːn', '▁tiːn', '▁mɪʃən', '▁keː', '▁lɪeː', '▁tiːn', '▁mʊkhjə', '▁ʊdːeːʃjə', '▁nɪɾdhaːɾɪt', '▁kɪeː', '▁hɛ̃', ',', '▁ɟɪnmẽː', '▁ʃaːmɪl', '▁hɛ̃', ':', '▁', 'lɛ̃ɖəɾ', '▁ki', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁sʊɾʌkʃɪt', '▁ɔːɾ', '▁sɔphʈ', '▁lɛ̃ɖĩɡ', '▁', 'kəɾaːnaː', '▁cʌndɾəmaː', '▁pʌɾ', '▁', 'ɾoːʋəɾ', '▁ki', '▁ʋɪcəɾəɳ', '▁', 'kʃəmtaːw', '▁kaː', '▁ʌʋloːkən', '▁ɔːɾ', '▁pɾədʌrʃən', '▁cʌndɾəmaː', '▁ki', '▁sʌnɾəcnaː', '▁koː', '▁beːhətəɾ', '▁ɖhʌŋɡ', '▁seː', '▁sʌməɟhneː', '▁ɔːɾ', '▁ʊskeː', '▁ʋɪɡjaːn', '▁koː', '▁ʌbhjaːs', '▁mẽː', '▁laːneː', '▁keː', '▁lɪeː', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁ʊpəlʌbdh', '▁ɾaːsaːjnɪk', '▁ɔːɾ', '▁pɾaːkɾɪtɪk', '▁', 'tʌtʋõ', ',', '▁mɪʈʈi', ',', '▁paːni', '▁aːdɪ', '▁pʌɾ', '▁ʋɛːɡjaːnɪk', '▁pɾəjoːɡ', '▁kʌɾnaː']


### Scratch WordPiece Tokenizer

In [6]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_WordPieceTokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_WordPieceTokenizer/")

In [7]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

82
['इसरो', 'ने', 'चंद्र', '##यान', '-', '3', 'मिशन', 'के', 'लिए', 'तीन', 'मुख्य', 'उद्देश्य', 'निर्धारित', 'किए', 'हैं', ',', 'जिनमें', 'शामिल', 'हैं', ':', 'लैंड', '##र', 'की', 'चंद्रमा', 'की', 'सतह', 'पर', 'सुरक्षित', 'और', 'सॉफ्ट', 'लैंडिंग', 'कराना', '।', 'चंद्रमा', 'पर', 'रोवर', 'की', 'विचरण', 'क्षमताओं', 'का', 'अवलोकन', 'और', 'प्रदर्शन', '।', 'चंद्रमा', 'की', 'संरचना', 'को', 'बेहतर', 'ढंग', 'से', 'समझने', 'और', 'उसके', 'विज्ञान', 'को', 'अभ्यास', 'में', 'लाने', 'के', 'लिए', 'चंद्रमा', 'की', 'सतह', 'पर', 'उपलब्ध', 'रासायनिक', 'और', 'प्राकृतिक', 'तत्वों', ',', 'मिट्टी', ',', 'पानी', 'आदि', 'पर', 'वैज्ञानिक', 'प्रयोग', 'करना', '।']


In [8]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

78
['ɪsɾoː', 'neː', 'cəndɾə', '##jaːn', 'tiːn', 'mɪʃən', 'keː', 'lɪeː', 'tiːn', 'mʊkʰjə', 'ʊdːeːʃjə', 'nɪɾdʰaːɾɪt', 'kɪeː', 'hɛ̃', '[UNK]', 'ɟɪnmẽː', 'ʃaːmɪl', 'hɛ̃', '[UNK]', 'lɛ̃ɖ', '##əɾ', 'ki', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'sʊɾʌkʃɪt', 'ɔːɾ', 'sɔpʰʈ', 'lɛ̃ɖĩɡ', 'kəɾaːnaː', 'cʌndɾəmaː', 'pʌɾ', 'ɾoːʋəɾ', 'ki', 'ʋɪcəɾəɳ', 'kʃəmtaːw', 'kaː', 'ʌʋloːkən', 'ɔːɾ', 'pɾədʌrʃən', 'cʌndɾəmaː', 'ki', 'sʌnɾəcnaː', 'koː', 'beːhətəɾ', 'ɖʰʌŋɡ', 'seː', 'sʌməɟʰneː', 'ɔːɾ', 'ʊskeː', 'ʋɪɡjaːn', 'koː', 'ʌbʰjaːs', 'mẽː', 'laːneː', 'keː', 'lɪeː', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'ʊpəlʌbdʰ', 'ɾaːsaːjnɪk', 'ɔːɾ', 'pɾaːkɾɪtɪk', 'tʌtʋõ', '[UNK]', 'mɪʈʈi', '[UNK]', 'paːni', 'aːdɪ', 'pʌɾ', 'ʋɛːɡjaːnɪk', 'pɾəjoːɡ', 'kʌɾnaː']


### Scratch BPE Tokenizer

In [9]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_BPETokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_BPETokenizer/")

In [10]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

246
['à¤ĩसर', 'à¥ĭ', 'Ġन', 'à¥ĩ', 'Ġà¤ļ', 'à¤Ĥ', 'द', 'à¥į', 'रय', 'ा', 'न', '-', '3', 'Ġम', 'ि', 'शन', 'Ġà¤ķ', 'à¥ĩ', 'Ġल', 'ि', 'à¤ı', 'Ġत', 'à¥Ģ', 'न', 'Ġम', 'à¥ģ', 'à¤ĸ', 'à¥į', 'य', 'Ġà¤īद', 'à¥į', 'द', 'à¥ĩ', 'श', 'à¥į', 'य', 'Ġन', 'ि', 'र', 'à¥į', 'ध', 'ा', 'र', 'ि', 'त', 'Ġà¤ķ', 'ि', 'à¤ı', 'Ġह', 'à¥Īà¤Ĥ,', 'Ġà¤ľ', 'ि', 'नम', 'à¥ĩà¤Ĥ', 'Ġश', 'ा', 'म', 'ि', 'ल', 'Ġह', 'à¥Īà¤Ĥ:', 'Ġल', 'à¥Īà¤Ĥ', 'डर', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤ļ', 'à¤Ĥ', 'द', 'à¥į', 'रम', 'ा', 'Ġà¤ķ', 'à¥Ģ', 'Ġसतह', 'Ġपर', 'Ġस', 'à¥ģ', 'रà¤ķ', 'à¥į', 'ष', 'ि', 'त', 'Ġà¤Ķर', 'Ġस', 'à¥ī', 'फ', 'à¥į', 'à¤Ł', 'Ġल', 'à¥Īà¤Ĥ', 'ड', 'िà¤Ĥ', 'à¤Ĺ', 'Ġà¤ķर', 'ा', 'न', 'ा।', 'Ġà¤ļ', 'à¤Ĥ', 'द', 'à¥į', 'रम', 'ा', 'Ġपर', 'Ġर', 'à¥ĭ', 'वर', 'Ġà¤ķ', 'à¥Ģ', 'Ġव', 'ि', 'à¤ļरण', 'Ġà¤ķ', 'à¥į', 'षमत', 'ा', 'à¤ĵ', 'à¤Ĥ', 'Ġà¤ķ', 'ा', 'Ġà¤ħवल', 'à¥ĭ', 'à¤ķन', 'Ġà¤Ķर', 'Ġप', 'à¥į', 'रदर', 'à¥į', 'शन', '।', 'Ġà¤ļ', 'à¤Ĥ', 'द', 'à¥į', 'रम', 'ा', 'Ġà¤ķ', 'à¥Ģ', 'Ġस', 'à¤Ĥ', 'रà¤ļन', 'ा', 'Ġà¤ķ', 'à¥ĭ', 'Ġब', 'à¥ĩ', 'हतर', 'Ġढ', 'à¤Ĥ', 'à¤Ĺ', '

In [11]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

85
['ɪs', 'ɾoËIJ', 'ĠneËIJ', 'ĠcÉĻndɾÉĻ', 'jaËIJn', 'ĠtiËIJn', 'ĠmɪÊĥÉĻn', 'ĠkeËIJ', 'ĠlɪeËIJ', 'ĠtiËIJn', 'ĠmÊĬkÊ°jÉĻ', 'ĠÊĬdËIJeËIJÊĥjÉĻ', 'ĠnɪɾdÊ°aËIJɾɪt', 'ĠkɪeËIJ', 'ĠhÉĽ', 'Ìĥ', 'ĠÉŁÉªnme', 'Ìĥ', 'ËIJ', 'ĠÊĥaËIJmɪl', 'ĠhÉĽ', 'Ìĥ', 'ĠlÉĽ', 'Ìĥ', 'ÉĸÉĻɾ', 'Ġki', 'ĠcÊĮndɾÉĻmaËIJ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮɾ', 'ĠsÊĬɾÊĮkÊĥɪt', 'ĠÉĶËIJɾ', 'ĠsÉĶpÊ°ÊĪ', 'ĠlÉĽ', 'Ìĥ', 'Éĸi', 'Ìĥ', 'É¡', 'ĠkÉĻɾaËIJnaËIJ', 'ĠcÊĮndɾÉĻmaËIJ', 'ĠpÊĮɾ', 'ĠɾoËIJÊĭÉĻɾ', 'Ġki', 'ĠÊĭɪcÉĻɾÉĻɳ', 'ĠkÊĥÉĻmtaËIJw', 'ĠkaËIJ', 'ĠÊĮÊĭloËIJkÉĻn', 'ĠÉĶËIJɾ', 'ĠpɾÉĻdÊĮrÊĥÉĻn', 'ĠcÊĮndɾÉĻmaËIJ', 'Ġki', 'ĠsÊĮnɾÉĻcnaËIJ', 'ĠkoËIJ', 'ĠbeËIJhÉĻtÉĻɾ', 'ĠÉĸÊ°ÊĮÅĭÉ¡', 'ĠseËIJ', 'ĠsÊĮmÉĻÉŁÊ°neËIJ', 'ĠÉĶËIJɾ', 'ĠÊĬskeËIJ', 'ĠÊĭɪɡjaËIJn', 'ĠkoËIJ', 'ĠÊĮbÊ°jaËIJs', 'Ġme', 'Ìĥ', 'ËIJ', 'ĠlaËIJneËIJ', 'ĠkeËIJ', 'ĠlɪeËIJ', 'ĠcÊĮndɾÉĻmaËIJ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮɾ', 'ĠÊĬpÉĻlÊĮbdÊ°', 'ĠɾaËIJsaËIJjnɪk', 'ĠÉĶËIJɾ', 'ĠpɾaËIJkɾɪtɪk', 'ĠtÊĮtÊĭo', 'Ìĥ', 'ĠmɪÊĪÊĪi', 'ĠpaËIJni', 'ĠaËIJdɪ', 'ĠpÊĮɾ', 'ĠÊĭÉĽËIJÉ¡jaËIJnɪk', 'ĠpɾÉĻjoËIJÉ¡', 'ĠkÊĮɾnaËIJ'