speecht5_tts_kcn / tokenizer_config.json

Training in progress, step 1000

0c10154 verified about 2 months ago

15 kB

	{
	"added_tokens_decoder": {
	"0": {
	"content": "<s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "</s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"79": {
	"content": "<mask>",
	"lstrip": true,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"80": {
	"content": "<ctc_blank>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"81": {
	"content": "ẹ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"82": {
	"content": "ể",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"83": {
	"content": "ệ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"84": {
	"content": "ă",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"85": {
	"content": "Ở",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"86": {
	"content": "ỳ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"87": {
	"content": "ã",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"88": {
	"content": "đ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"89": {
	"content": "ỏ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"90": {
	"content": "1",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"91": {
	"content": "ẽ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"92": {
	"content": "5",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"93": {
	"content": "õ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"94": {
	"content": "2",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"95": {
	"content": "8",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96": {
	"content": "ụ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"97": {
	"content": "ằ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"98": {
	"content": "ờ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"99": {
	"content": "ỉ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"100": {
	"content": " ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"101": {
	"content": "ồ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"102": {
	"content": "ắ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"103": {
	"content": "ó",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"104": {
	"content": "ẳ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"105": {
	"content": "ố",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"106": {
	"content": "ả",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"107": {
	"content": "%",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"108": {
	"content": "ạ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"109": {
	"content": "ỷ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"110": {
	"content": "ỡ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"111": {
	"content": "Ừ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"112": {
	"content": "ề",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"113": {
	"content": "â",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"114": {
	"content": "ị",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"115": {
	"content": "ễ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"116": {
	"content": "Á",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"117": {
	"content": "ẵ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"118": {
	"content": "ử",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"119": {
	"content": "4",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"120": {
	"content": "ỹ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"121": {
	"content": "ù",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"122": {
	"content": "ú",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"123": {
	"content": "á",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"124": {
	"content": "è",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"125": {
	"content": "Ê",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"126": {
	"content": "ì",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"127": {
	"content": "ổ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"128": {
	"content": "Đ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"129": {
	"content": "ọ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"130": {
	"content": "ỗ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"131": {
	"content": "3",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"132": {
	"content": "0",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"133": {
	"content": "ầ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"134": {
	"content": "À",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"135": {
	"content": "Ô",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"136": {
	"content": "ĩ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"137": {
	"content": "ế",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"138": {
	"content": "ơ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"139": {
	"content": "ò",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"140": {
	"content": "ư",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"141": {
	"content": "ặ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"142": {
	"content": "ứ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"143": {
	"content": "à",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"144": {
	"content": "ẫ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"145": {
	"content": "ợ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"146": {
	"content": "ủ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"147": {
	"content": "ậ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"148": {
	"content": "Ý",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"149": {
	"content": "ấ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"150": {
	"content": "ộ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"151": {
	"content": "9",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"152": {
	"content": "ẻ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"153": {
	"content": "ô",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"154": {
	"content": "í",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"155": {
	"content": "ở",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"156": {
	"content": "ữ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"157": {
	"content": "ừ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"158": {
	"content": "ự",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"159": {
	"content": "ẩ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"160": {
	"content": "ớ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"161": {
	"content": "ũ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"162": {
	"content": "ý",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	}
	},
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"eos_token": "</s>",
	"mask_token": "<mask>",
	"model_max_length": 600,
	"normalize": false,
	"pad_token": "<pad>",
	"processor_class": "SpeechT5Processor",
	"sp_model_kwargs": {},
	"tokenizer_class": "SpeechT5Tokenizer",
	"unk_token": "<unk>"
	}