diff --git a/.gitattributes b/.gitattributes index a6344aac8c09253b3b630fb776ae94478aa0275b..5a294e524c74b8539e0ba2100e3dfc210e455059 100644 --- a/.gitattributes +++ b/.gitattributes @@ -1,35 +1,37 @@ -*.7z filter=lfs diff=lfs merge=lfs -text -*.arrow filter=lfs diff=lfs merge=lfs -text -*.bin filter=lfs diff=lfs merge=lfs -text -*.bz2 filter=lfs diff=lfs merge=lfs -text -*.ckpt filter=lfs diff=lfs merge=lfs -text -*.ftz filter=lfs diff=lfs merge=lfs -text -*.gz filter=lfs diff=lfs merge=lfs -text -*.h5 filter=lfs diff=lfs merge=lfs -text -*.joblib filter=lfs diff=lfs merge=lfs -text -*.lfs.* filter=lfs diff=lfs merge=lfs -text -*.mlmodel filter=lfs diff=lfs merge=lfs -text -*.model filter=lfs diff=lfs merge=lfs -text -*.msgpack filter=lfs diff=lfs merge=lfs -text -*.npy filter=lfs diff=lfs merge=lfs -text -*.npz filter=lfs diff=lfs merge=lfs -text -*.onnx filter=lfs diff=lfs merge=lfs -text -*.ot filter=lfs diff=lfs merge=lfs -text -*.parquet filter=lfs diff=lfs merge=lfs -text -*.pb filter=lfs diff=lfs merge=lfs -text -*.pickle filter=lfs diff=lfs merge=lfs -text -*.pkl filter=lfs diff=lfs merge=lfs -text -*.pt filter=lfs diff=lfs merge=lfs -text -*.pth filter=lfs diff=lfs merge=lfs -text -*.rar filter=lfs diff=lfs merge=lfs -text -*.safetensors filter=lfs diff=lfs merge=lfs -text -saved_model/**/* filter=lfs diff=lfs merge=lfs -text -*.tar.* filter=lfs diff=lfs merge=lfs -text -*.tar filter=lfs diff=lfs merge=lfs -text -*.tflite filter=lfs diff=lfs merge=lfs -text -*.tgz filter=lfs diff=lfs merge=lfs -text -*.wasm filter=lfs diff=lfs merge=lfs -text -*.xz filter=lfs diff=lfs merge=lfs -text -*.zip filter=lfs diff=lfs merge=lfs -text -*.zst filter=lfs diff=lfs merge=lfs -text -*tfevents* filter=lfs diff=lfs merge=lfs -text +*.7z filter=lfs diff=lfs merge=lfs -text +*.arrow filter=lfs diff=lfs merge=lfs -text +*.bin filter=lfs diff=lfs merge=lfs -text +*.bz2 filter=lfs diff=lfs merge=lfs -text +*.ckpt filter=lfs diff=lfs merge=lfs -text +*.ftz filter=lfs diff=lfs merge=lfs -text +*.gz filter=lfs diff=lfs merge=lfs -text +*.h5 filter=lfs diff=lfs merge=lfs -text +*.joblib filter=lfs diff=lfs merge=lfs -text +*.lfs.* filter=lfs diff=lfs merge=lfs -text +*.mlmodel filter=lfs diff=lfs merge=lfs -text +*.model filter=lfs diff=lfs merge=lfs -text +*.msgpack filter=lfs diff=lfs merge=lfs -text +*.npy filter=lfs diff=lfs merge=lfs -text +*.npz filter=lfs diff=lfs merge=lfs -text +*.onnx filter=lfs diff=lfs merge=lfs -text +*.ot filter=lfs diff=lfs merge=lfs -text +*.parquet filter=lfs diff=lfs merge=lfs -text +*.pb filter=lfs diff=lfs merge=lfs -text +*.pickle filter=lfs diff=lfs merge=lfs -text +*.pkl filter=lfs diff=lfs merge=lfs -text +*.pt filter=lfs diff=lfs merge=lfs -text +*.pth filter=lfs diff=lfs merge=lfs -text +*.rar filter=lfs diff=lfs merge=lfs -text +*.safetensors filter=lfs diff=lfs merge=lfs -text +saved_model/**/* filter=lfs diff=lfs merge=lfs -text +*.tar.* filter=lfs diff=lfs merge=lfs -text +*.tar filter=lfs diff=lfs merge=lfs -text +*.tflite filter=lfs diff=lfs merge=lfs -text +*.tgz filter=lfs diff=lfs merge=lfs -text +*.wasm filter=lfs diff=lfs merge=lfs -text +*.xz filter=lfs diff=lfs merge=lfs -text +*.zip filter=lfs diff=lfs merge=lfs -text +*.zst filter=lfs diff=lfs merge=lfs -text +*tfevents* filter=lfs diff=lfs merge=lfs -text +stats/iter_vocab/*.jsonl filter=lfs diff=lfs merge=lfs -text +stats/compression_rate/*.json filter=lfs diff=lfs merge=lfs -text diff --git a/README.2.md b/README.2.md deleted file mode 100644 index 8e42829e8ab1d7993aa04ee74db74252c68d6a4b..0000000000000000000000000000000000000000 --- a/README.2.md +++ /dev/null @@ -1,136 +0,0 @@ - -https://arxiv.org/abs/2308.16692 SpeechTokenizer - -对于OpenAI的模型而言,英文的Token效率是中文的8-12倍, -之前三百字中文以上时Turbo 3.5 16k就会出现逻辑颠倒问题,提示词换成英文后该问题没有出现过。 - -## 词典构建 - -bert词典 -gpt词典 -gpt-neox词典 - -## encode - - -## decode - -bert词典有个特殊字符 # - -gpt-neox词典呢? - - _开头表示空格或句首 - - -## 关于分词粒度 - - -## ss - - - -bert-chinese vocab_size: 21128 -bert-en -clue -glm -chatglm -bloom - - -## 最小词典 - -mobilenet - - -## ss - - -## bert - -``` -[PAD] -... -[unused99] -[UNK] -[CLS] -[SEP] -[MASK] - - -! -... - -big -##ut -ftp -carol -##vi -``` - - -## @@ - -https://github.com/pytorch/fairseq/blob/master/tests/test_noising.py#L37 - -``` -"he@@", "llo", "n@@", "ew", "y@@", "or@@", "k" -``` - -跟BERT类似,只不过BERT是词后缀,这里是词前缀。 - -这种应该是 https://github.com/rsennrich/subword-nmt - - -## GPT2 - -词典见:https://huggingface.co/gpt2/raw/main/vocab.json - - -``` -['What', "'s", 'Ġup', 'Ġwith', 'Ġthe', 'Ġtoken', 'izer', '?'] -``` -跟BERT不同,BERT用特殊符号表示 “连接”,GPT2用特殊符号表示 “空格”。 - -详见 gpt2/README.md - -- 功能符号: `<|endoftext|>` 表示换行。tab? 空格? -- 很多数字独立编码,几乎上千个。 - -- 类似的还有:moss - - -### Ġ是什么 - -It's a feature of byte-level BPE(an encoded space character). -Ġ 表示空格,有的版本用Ä代替Ġ。 - - -```sh -What's up with the tokenizer? -# BPE后 -['What', "'s", 'Ġup', 'Ġwith', 'Ġthe', 'Ġtoken', 'izer', '?'] -# 经过vocab.json编码后 -[ 2061, 338, 510, 351, 262, 11241, 7509, 30] -# 经过dict.txt编码后(fairseq特有) -[ 其他数字 ] -``` -<> -疑问:up会加Ġ,为什么what不加Ġ,因为有个pre - -- https://github.com/pytorch/fairseq/issues/1716 -- https://github.com/huggingface/transformers/issues/1083 - - -## 空格、tab、换行 - - - - - -## reversible and lossless - -It's reversible and lossless, so you can convert tokens back into the original text - - -## diff - - diff --git a/README.md b/README.md index 77524255beb48f0fffc124c3622438c141f57a09..3b5d14775414e772f9e2863df0476c043f434b83 100644 --- a/README.md +++ b/README.md @@ -1,15 +1,17 @@ ---- -title: Tokenizer Arena -emoji: 📚 -colorFrom: red -colorTo: gray -sdk: gradio -sdk_version: 4.31.4 -app_file: app.py -pinned: false -datasets: - - cc100 ---- - - -Please visit our GitHub repo for more information: https://github.com/xu-song/tokenizer-arena +--- +title: Tokenizer Arena +emoji: ⚔ +colorFrom: red +colorTo: gray +sdk: gradio +sdk_version: 4.32.2 +app_file: app.py +pinned: false +datasets: + - cc100 +--- + + + + +Please visit our GitHub repo for more information: https://github.com/xu-song/tokenizer-arena diff --git a/app.py b/app.py index 497d27e2b2ceebad603d0e2f6183bc63e36f50b8..5400855372dbf72624af91516f62982a5197889c 100644 --- a/app.py +++ b/app.py @@ -1,24 +1,39 @@ -import os -from playground_app import demo as playground_tab -from compression_app import demo as compression_tab -from character_app import demo as character_tab -from patcher.gr_interface import TabbedInterface -from huggingface_hub import login - -auth_token = os.environ.get('HF_TOKEN', None) -if auth_token: - login(token=auth_token) - - -# 编码速度,解码速度,字符分类(zh、num等,支持正则),支持的语言,。 -demo = TabbedInterface( - [playground_tab, compression_tab, character_tab], - [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"], - title='
Tokenizer Arena ⚔️
', - css="css/style.css" -) - -demo.load(js=open("js/onload.js", "r", encoding="utf-8").read()) - -if __name__ == "__main__": - demo.queue(max_size=1024, default_concurrency_limit=80).launch() +"""Gradio app to showcase the LLM tokenization.""" + +import os +import gradio as gr +from huggingface_hub import login +from playground_app import demo as playground_tab +from compression_app import demo as compression_tab +from character_app import demo as character_tab + +auth_token = os.environ.get('HF_TOKEN', None) +if auth_token: + login(token=auth_token) + + +title = '
Tokenizer Arena ⚔️
' +interface_list = [playground_tab, compression_tab, character_tab] +tab_names = [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"] + +with gr.Blocks(css="css/style.css", js="js/onload.js") as demo: + gr.HTML( + f"

{title}

" + ) + with gr.Tabs(): + for interface, tab_name in zip(interface_list, tab_names): + with gr.Tab(label=tab_name): + interface.render() + + model_name = gr.Textbox( + placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...", + show_label=False, + ) + + model_name.submit() + +# demo.load(js=open("js/onload.js", "r", encoding="utf-8").read()) + +if __name__ == "__main__": + demo.launch() + # demo.queue(max_size=1024, default_concurrency_limit=80).launch() diff --git a/character_app.py b/character_app.py index c95f44448ccf0cbe928807922d4e7d3f927bfd0e..fd41d6711074b9c465571a86b1df8ce6698e4d15 100644 --- a/character_app.py +++ b/character_app.py @@ -1,79 +1,83 @@ -import gradio as gr -from character_util import get_character_table, default_columns - -all_columns = [ - ("digit", "digit"), - ("space", "space"), - ("lang-chinese", 'zh'), - ("lang-korea", 'ko'), - ("lang-japanese", 'ja'), - # ("byte", "byte"), - # ("oov", "oov") -] - - -# columns = ["lang-zh", "lang-korea", "lang-japanese", "number", "space", "bytes", "oov"] - -abbr2name = {column[1]: column[0].split('-')[-1] for column in all_columns} - - -def get_column_info(columns): - markdown = "" - for column in columns: - markdown += f"- `num({column})`: num of tokens containing {abbr2name[column]} characters\n" \ - f"- `len({column})`: `min,median,max` length of tokens containing {abbr2name[column]} characters\n" - return markdown - - -with gr.Blocks() as demo: - gr.Markdown("## 🛠️ Setting") # ⚙ - with gr.Accordion("Please select the type of character you want to count.", open=True): - # file size 💽 🖴, tokens 🧮 - with gr.Row(): - with gr.Column(): - columns = gr.Checkboxgroup( - all_columns, - value=default_columns, - label="character type", - # info="" - ) - gr.Markdown( - "To count other types of characters, you can modify [character_util.py]" - "(https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/character_util.py). " - ) - column_info = gr.Markdown( - get_column_info(default_columns) - ) - - gr.Markdown("## 📊 Character Statistics") - search_bar = gr.Textbox( - placeholder="🔍 Search by tokenizer or organization (e.g., 'llama', 'openai') and press ENTER...", - show_label=False, - elem_id="search-bar", - ) - compress_rate_table = gr.Dataframe(datatype="html", wrap=True) - - search_bar.submit( - get_character_table, - inputs=[search_bar, columns], - outputs=compress_rate_table - ) - columns.change( - get_character_table, - inputs=[search_bar, columns], - outputs=compress_rate_table - ) - columns.change( - get_column_info, - inputs=[columns], - outputs=column_info - ) - - demo.load( - get_character_table, - inputs=[search_bar, columns], - outputs=compress_rate_table - ) - - if __name__ == "__main__": - demo.launch() +""" +## +""" + +import gradio as gr +from character_util import get_character_table, default_columns + +all_columns = [ + ("digit", "digit"), + ("space", "space"), + ("lang-chinese", 'zh'), + ("lang-korea", 'ko'), + ("lang-japanese", 'ja'), + # ("byte", "byte"), + # ("oov", "oov") +] + + +# columns = ["lang-zh", "lang-korea", "lang-japanese", "number", "space", "bytes", "oov"] + +abbr2name = {column[1]: column[0].split('-')[-1] for column in all_columns} + + +def get_column_info(columns): + markdown = "" + for column in columns: + markdown += f"- `num({column})`: num of tokens containing {abbr2name[column]} characters\n" \ + f"- `len({column})`: `min,median,max` length of tokens containing {abbr2name[column]} characters\n" + return markdown + + +with gr.Blocks() as demo: + gr.Markdown("## 🛠️ Setting") # ⚙ + with gr.Accordion("Please select the type of character you want to count.", open=True): + # file size 💽 🖴, tokens 🧮 + with gr.Row(): + with gr.Column(): + columns = gr.Checkboxgroup( + all_columns, + value=default_columns, + label="character type", + # info="" + ) + gr.Markdown( + "To count other types of characters, you can modify [lang_util.py]" + "(https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/utils/lang_util.py). " + ) + column_info = gr.Markdown( + get_column_info(default_columns) + ) + + gr.Markdown("## 📊 Character Statistics") + search_bar = gr.Textbox( + placeholder="🔍 Search by tokenizer or organization (e.g., 'llama', 'openai') and press ENTER...", + show_label=False, + elem_id="search-bar", + ) + compress_rate_table = gr.Dataframe(datatype="html", wrap=True) + + search_bar.submit( + get_character_table, + inputs=[search_bar, columns], + outputs=compress_rate_table + ) + columns.change( + get_character_table, + inputs=[search_bar, columns], + outputs=compress_rate_table + ) + columns.change( + get_column_info, + inputs=[columns], + outputs=column_info + ) + + demo.load( + get_character_table, + inputs=[search_bar, columns], + outputs=compress_rate_table + ) + + if __name__ == "__main__": + demo.launch() diff --git a/character_util.py b/character_util.py index 20746594f12a5ae99fb262bdd2b6d584ed486c98..7f018fb074bf0a346d0bec0e5d3b735adaa6277c 100644 --- a/character_util.py +++ b/character_util.py @@ -1,216 +1,216 @@ -""" -TODO: -1. add more language -2. check space count of bert -3. add token_impl -4. -""" -import os -import json -import numpy as np -import pandas as pd -from collections import Counter, defaultdict -from vocab import tokenizer_factory -from typing import Optional, Union, Literal -from utils.log_util import logger -from utils.text_util import contains_digit, get_space_count -from utils.lang_util import detect_language, language_ranges - -CURRENT_DIR = os.path.dirname(os.path.abspath(__file__)) - -default_columns = ["digit", "zh"] - -def _to_unicode(text): - return ''.join(r'\u{:04X}'.format(ord(chr)) for chr in text) - - -def _get_coding_length(tokenizer, vocab, filter=None): - """ - oov character may be tokenized into more than one token. - """ - all_length = [] - for word in vocab: - if len(word) > 1: - continue - if filter is not None and filter(word): - continue - try: - tokens = tokenizer.encode(word) - except Exception as e: - print(e) - - all_length.append(len(tokens)) - # if len(tokens.ids) > 1: - # if len(tokens) > 3: - # print(word, tokens) - - dist_length = Counter(all_length) - mean_length = round(sum(all_length) / len(all_length), 2) - return dist_length, mean_length - - -cache = {} - - -def _dist(token_lens): - """ - :param token_lens: - :return: min,median,max of token_lens - """ - if not token_lens: - return "-" - return f"{min(token_lens)},{round(np.median(token_lens))},{max(token_lens)}" - - -def iter_vocab( - tokenizer_name: str, - from_cache: bool = True, - cache_dir: str = "stats", -) -> Union[pd.DataFrame, dict]: - """ - :param tokenizer_name: - :param from_cache: - :param cache_dir: - :return: - """ - tokenizer_config = tokenizer_factory.get_tokenizer_config(tokenizer_name) - - cache_dir = os.path.join(CURRENT_DIR, cache_dir) - os.makedirs(cache_dir, exist_ok=True) - - # load from cache - cache_path = os.path.join(cache_dir, "character_stats.json") - if not cache and os.path.exists(cache_path): - with open(cache_path, "r", encoding="utf-8") as f_tmp: - cache.update(json.load(f_tmp)) - if from_cache and tokenizer_name in cache: - # logger.info(f"load {tokenizer_config.name_or_path} from cache") - return cache[tokenizer_name] - - tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) - - tokens_by_lang = {lang[1]: [] for lang in language_ranges.keys()} - digit_tokens = [] - space_tokens = [] - byte_tokens = [] - - buffer = [] - for token_id in range(tokenizer.vocab_size): - # for token_id in tokenizer.get_vocab(): - # for token_id in range(len(tokenizer)): - decode_str = tokenizer.decode([token_id], skip_special_tokens=False) - token = tokenizer.convert_ids_to_tokens([token_id], skip_special_tokens=False)[0] - tags = [] - if token is None: # 有些词典有空的id(不连续) - continue - if isinstance(token, bytes): - token = token.decode("utf-8", errors="ignore") - - if hasattr(tokenizer, "sp_model"): # 基于 sentencepiece 包 - if tokenizer.sp_model.is_byte(token_id): - tags.append("is_byte") - byte_tokens.append(token) - - language_tags = detect_language(decode_str) - for language in language_tags: - tokens_by_lang[language[1]].append(decode_str) - - if contains_digit(decode_str): - tags.append("digit") - digit_tokens.append(decode_str) - - space_count = get_space_count(decode_str) - if space_count > 0: - space_tokens.append(decode_str) - - buffer.append(json.dumps( - { - "id": token_id, - "token": token, - "token_decode": decode_str, - "token_dumps": json.dumps(token), - "token_unicode": _to_unicode(token), - "token_len": len(decode_str), - }, - ensure_ascii=False) + "\n") - - result = { - "tokenizer": tokenizer_factory.get_name_with_hyperlink(tokenizer_name), - "organization": tokenizer_config.org, - # "impl": str(tokenizer.__class__), - # "vocab_size-": tokenizer.vocab_size, # vocab_size_without_added_token - "vocab_size": len(tokenizer), - - # "中文汉字编码长度均值": mean_length, # 不用统计,因为字典包含中文字符多,一般就意味着 中文汉字编码长度短。 - # "中文汉字编码长度分布": json.dumps(dist_length), - - "num(digit)": len(digit_tokens), - "len(digit)": _dist([len(token) for token in digit_tokens]), - "num(space)": len(space_tokens), - "len(space)": _dist([len(token) for token in space_tokens]), - - # "num(byte)": len(byte_tokens) - } - - for lang, tokens in tokens_by_lang.items(): - result[f"num({lang})"] = len(tokens) - result["len(" + lang + ")"] = _dist([len(token) for token in tokens]) - - out_path = os.path.join(cache_dir, f"iter_vocab/{tokenizer_name.replace('/', '_')}.vocab.jsonl") - with open(out_path, "w", encoding="utf-8") as f_out: - for line in buffer: - f_out.write(line) - len_before = len(cache) - cache[tokenizer_name] = result - len_after = len(cache) - logger.info(f"saving {tokenizer_name} to memory and file cache: {len_before}->{len_after}") - with open(cache_path, "w", encoding="utf-8") as f_out: - f_out.write(json.dumps(cache, ensure_ascii=False, indent=2)) - return result - - -def to_dataframe(stats, columns): - table = [] - for stat in stats.values(): - filtered_stat = {} - for k, v in stat.items(): - if not k.startswith("num") and not k.startswith("len"): - filtered_stat[k] = v - if any(column in k for column in columns): - k = k.replace("ja-kana", "kana") - filtered_stat[k] = v - table.append(filtered_stat) - df = pd.DataFrame(table) - return df - - -def get_character_table( - tokenizer_filter: Optional[str] = None, - columns: Optional[list] = None, - return_type: Optional[Literal["dict", "dataframe"]] = "dataframe" -) -> Union[pd.DataFrame, dict]: - """ - """ - logger.info(f"columns: {columns}, tokenizer_filter: {tokenizer_filter}") - stats = {} - if columns is None: - columns = default_columns - if tokenizer_filter is not None: - tokenizer_names = [tokenizer_config.name_or_path for tokenizer_config in tokenizer_factory.all_tokenizer_configs - if tokenizer_filter.lower() in tokenizer_config.name_or_path.lower()] - else: - tokenizer_names = tokenizer_factory.all_tokenizer_names - - for tokenizer_name in tokenizer_names: - stat = iter_vocab(tokenizer_name) - stats[tokenizer_name] = stat - - if return_type == "dataframe": - stats = to_dataframe(stats, columns) - return stats - - -if __name__ == "__main__": - # aa = get_character_table(tokenizer_filter="baichuan") - df = get_character_table() - logger.info(f"\n{df.to_markdown(index=False)}") +""" +TODO: +1. add more language +2. check space count of bert +3. add token_impl +4. +""" +import os +import json +import numpy as np +import pandas as pd +from collections import Counter, defaultdict +from vocab import tokenizer_factory +from typing import Optional, Union, Literal +from utils.log_util import logger +from utils.text_util import contains_digit, get_space_count +from utils.lang_util import detect_language_by_unicode, language_ranges + +CURRENT_DIR = os.path.dirname(os.path.abspath(__file__)) + +default_columns = ["digit", "zh"] + +def _to_unicode(text): + return ''.join(r'\u{:04X}'.format(ord(chr)) for chr in text) + + +def _get_coding_length(tokenizer, vocab, filter=None): + """ + oov character may be tokenized into more than one token. + """ + all_length = [] + for word in vocab: + if len(word) > 1: + continue + if filter is not None and filter(word): + continue + try: + tokens = tokenizer.encode(word) + except Exception as e: + print(e) + + all_length.append(len(tokens)) + # if len(tokens.ids) > 1: + # if len(tokens) > 3: + # print(word, tokens) + + dist_length = Counter(all_length) + mean_length = round(sum(all_length) / len(all_length), 2) + return dist_length, mean_length + + +cache = {} + + +def _dist(token_lens): + """ + :param token_lens: + :return: min,median,max of token_lens + """ + if not token_lens: + return "-" + return f"{min(token_lens)},{round(np.median(token_lens))},{max(token_lens)}" + + +def iter_vocab( + tokenizer_name: str, + from_cache: bool = True, + cache_dir: str = "stats", +) -> Union[pd.DataFrame, dict]: + """ + :param tokenizer_name: + :param from_cache: + :param cache_dir: + :return: + """ + tokenizer_config = tokenizer_factory.get_tokenizer_config(tokenizer_name) + + cache_dir = os.path.join(CURRENT_DIR, cache_dir) + os.makedirs(cache_dir, exist_ok=True) + + # load from cache + cache_path = os.path.join(cache_dir, "character_stats.json") + if not cache and os.path.exists(cache_path): + with open(cache_path, "r", encoding="utf-8") as f_tmp: + cache.update(json.load(f_tmp)) + if from_cache and tokenizer_name in cache: + # logger.info(f"load {tokenizer_config.name_or_path} from cache") + return cache[tokenizer_name] + + tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) + + tokens_by_lang = {lang[1]: [] for lang in language_ranges.keys()} + digit_tokens = [] + space_tokens = [] + byte_tokens = [] + + buffer = [] + for token_id in range(tokenizer.vocab_size): + # for token_id in tokenizer.get_vocab(): + # for token_id in range(len(tokenizer)): + decode_str = tokenizer.decode([token_id], skip_special_tokens=False) + token = tokenizer.convert_ids_to_tokens([token_id], skip_special_tokens=False)[0] + tags = [] + if token is None: # 有些词典有空的id(不连续) + continue + if isinstance(token, bytes): + token = token.decode("utf-8", errors="ignore") + + if hasattr(tokenizer, "sp_model"): # 基于 sentencepiece 包 + if tokenizer.sp_model.is_byte(token_id): + tags.append("is_byte") + byte_tokens.append(token) + + language_tags = detect_language_by_unicode(decode_str) + for language in language_tags: + tokens_by_lang[language[1]].append(decode_str) + + if contains_digit(decode_str): + tags.append("digit") + digit_tokens.append(decode_str) + + space_count = get_space_count(decode_str) + if space_count > 0: + space_tokens.append(decode_str) + + buffer.append(json.dumps( + { + "id": token_id, + "token": token, + "token_decode": decode_str, + "token_dumps": json.dumps(token), + "token_unicode": _to_unicode(token), + "token_len": len(decode_str), + }, + ensure_ascii=False) + "\n") + + result = { + "tokenizer": tokenizer_factory.get_name_with_hyperlink(tokenizer_name), + "organization": tokenizer_config.org, + # "impl": str(tokenizer.__class__), + # "vocab_size-": tokenizer.vocab_size, # vocab_size_without_added_token + "vocab_size": len(tokenizer), + + # "中文汉字编码长度均值": mean_length, # 不用统计,因为字典包含中文字符多,一般就意味着 中文汉字编码长度短。 + # "中文汉字编码长度分布": json.dumps(dist_length), + + "num(digit)": len(digit_tokens), + "len(digit)": _dist([len(token) for token in digit_tokens]), + "num(space)": len(space_tokens), + "len(space)": _dist([len(token) for token in space_tokens]), + + # "num(byte)": len(byte_tokens) + } + + for lang, tokens in tokens_by_lang.items(): + result[f"num({lang})"] = len(tokens) + result["len(" + lang + ")"] = _dist([len(token) for token in tokens]) + + out_path = os.path.join(cache_dir, f"iter_vocab/{tokenizer_name.replace('/', '_')}.vocab.jsonl") + with open(out_path, "w", encoding="utf-8") as f_out: + for line in buffer: + f_out.write(line) + len_before = len(cache) + cache[tokenizer_name] = result + len_after = len(cache) + logger.info(f"saving {tokenizer_name} to memory and file cache: {len_before}->{len_after}") + with open(cache_path, "w", encoding="utf-8") as f_out: + f_out.write(json.dumps(cache, ensure_ascii=False, indent=2)) + return result + + +def to_dataframe(stats, columns): + table = [] + for stat in stats.values(): + filtered_stat = {} + for k, v in stat.items(): + if not k.startswith("num") and not k.startswith("len"): + filtered_stat[k] = v + if any(column in k for column in columns): + k = k.replace("ja-kana", "kana") + filtered_stat[k] = v + table.append(filtered_stat) + df = pd.DataFrame(table) + return df + + +def get_character_table( + tokenizer_filter: Optional[str] = None, + columns: Optional[list] = None, + return_type: Optional[Literal["dict", "dataframe"]] = "dataframe" +) -> Union[pd.DataFrame, dict]: + """ + """ + logger.info(f"columns: {columns}, tokenizer_filter: {tokenizer_filter}") + stats = {} + if columns is None: + columns = default_columns + if tokenizer_filter is not None: + tokenizer_names = [tokenizer_config.name_or_path for tokenizer_config in tokenizer_factory.all_tokenizer_configs + if tokenizer_filter.lower() in tokenizer_config.name_or_path.lower()] + else: + tokenizer_names = tokenizer_factory.all_tokenizer_names + + for tokenizer_name in tokenizer_names: + stat = iter_vocab(tokenizer_name) + stats[tokenizer_name] = stat + + if return_type == "dataframe": + stats = to_dataframe(stats, columns) + return stats + + +if __name__ == "__main__": + # aa = get_character_table(tokenizer_filter="baichuan") + df = get_character_table() + logger.info(f"\n{df.to_markdown(index=False)}") diff --git a/compression_app.py b/compression_app.py index 7983008574b59bee6ccfc9f7b6ecfafbd5a3776b..0f1b531779ef8a259ce743af51a503f719f3572c 100644 --- a/compression_app.py +++ b/compression_app.py @@ -1,130 +1,187 @@ -""" -TODO: -- 统计 tokenizer_impl -- 统计 OOV -- 统计 reversal -- 增加 math,code -""" - -import gradio as gr -from compression_util import get_compression_leaderboard, common_corpuses - - -with gr.Blocks() as demo: - # gr.Markdown("## Convertor") - # with gr.Accordion("Convertor", open=False): - # gr.Markdown("Tokenize {} corpus") - # with gr.Row(elem_classes="no-border"): - # gr.Button("File Size", min_width=50) - # file_size = gr.Textbox( - # show_label=False, - # min_width=50, - # # elem_classes="textbox-as-text" - # ) - # gr.Dropdown( - # choices=['MB', 'GB', 'TB'], - # show_label=False, - # min_width=15, - # # elem_classes="textbox-as-text" - # ) - # # gr.Markdown('

') - # # gr.HTML('

') - # gr.Button( - # "≈", - # min_width=10, - # elem_classes="button-white h2-font" - # - # ) - # - # gr.Button( - # "Tokens", - # min_width=50 - # ) - # gr.Textbox( - # show_label=False, - # min_width=50 - # ) - # gr.Dropdown( - # ['million', 'billion', 'trillion'], - # show_label=False, - # min_width=15, - # elem_classes="button-white" - # ) - - gr.Markdown("## 🛠️ Setting") # ⚙ - with gr.Accordion("Please select the corpus and measure of compression rate.", open=True): - # file size 💽 🖴, tokens 🧮 - # Total amount of disk used - with gr.Row(): - with gr.Column(): - compress_rate_corpus = gr.Dropdown( - common_corpuses, # , "code" - value=["cc100/en", "cc100/zh-Hans", "cc100/fr", "cc100/es"], - label="corpus", - multiselect=True - # info="" - ) - - # unit of file_size: gigabyte terabyte - # unit of token_num: million billion trillion - # The most common units of measurement include length (meter, inch, foot), weight (gram, kilogram, pound), volume (liter, gallon, milliliter), time (second, minute, hour) - compress_rate_unit = gr.Radio( - ["b_tokens/g_bytes", "t_tokens/t_bytes"], - value="b_tokens/g_bytes", - label="measure", # evaluation metric - ) - - gr.Markdown( - # "Note:\n\n" - "- `corpus`: tokenization is performed on the selected subsets of [cc100](https://huggingface.co/datasets/cc100) corpus.\n" - "- `b_tokens/g_bytes` measures how many billion tokens per gigabytes corpus.\n" - "- `t_tokens/t_bytes` measures how many trillion tokens per terabytes corpus.\n" - # "- `g_bytes/b_tokens` measures how many gigabytes corpus per billion tokens.\n" - # "- `t_bytes/t_tokens` measures how many terabytes corpus per trillion tokens.\n" - "- `char/token` measures how many chars per token on the tokenized corpus.\n" - "- `oov_ratio`: out-of-vocabulary ratio on the selected corpus, 👉 get [oov charset](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate.json)\n\n" - "You can reproduce this procedure with [compression_util.py](https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/compression_util.py)." - ) - - gr.Markdown("## 🏆 Compression Rate Leaderboard") - search_bar = gr.Textbox( - placeholder="🔍 Search by tokenizer or organization (e.g., 'llama', 'openai') and press ENTER...", - show_label=False, - elem_id="search-bar", - ) - compress_rate_table = gr.Dataframe(datatype="html") - - # func call - compress_rate_corpus.change( - get_compression_leaderboard, - inputs=[compress_rate_corpus, compress_rate_unit, search_bar], - outputs=compress_rate_table - ) - compress_rate_unit.change( - get_compression_leaderboard, - inputs=[compress_rate_corpus, compress_rate_unit, search_bar], - outputs=compress_rate_table - ) - # file_size.change( - # get_all_compress_rate, - # outputs=compress_rate_table - # ) - - search_bar.submit( - get_compression_leaderboard, - inputs=[ - compress_rate_corpus, - compress_rate_unit, - search_bar, - ], - outputs=compress_rate_table - ) - - demo.load( - get_compression_leaderboard, - inputs=[compress_rate_corpus, compress_rate_unit], - outputs=compress_rate_table - ) - -if __name__ == "__main__": - demo.launch() +""" +TODO: +- 统计 tokenizer_impl +- 统计 OOV +- 统计 reversal +- 增加 math,code + + + +## balance + +- 高压缩率 VS vocab_size: + - 高压缩率,就意味着,编码后的token数少,那么 token长度 就会长,--> vocab_size 就会太大 +- 高压缩率 VS 无损 + - s +- OOV + - OOV 多,那么生成的 UNK 可能多(一个char 一个UNK) --> token 数目多 -> 压缩率低 + - OOV 多,那么生成的 UNK 可能少() --> token 数目多 -> 压缩率低 + +""" + +import gradio as gr +from compression_util import get_compression_leaderboard, common_corpuses + + +# From the perspective of compression +# exactly reconstructed from compressed tokens +docs = """## 📖 What is a good tokenizer? + +From a compression perspective, a good tokenizer should be lossless, and keep high compression rate (less tokens). +The encoding and decoding process can be formulated as +```python + token_ids = tokenizer.encode(input_text) # compressed tokens + decoded_text = tokenizer.decode(token_ids) # reconstructed text +``` + +- **Lossless**
+Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`. + + - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-casedcc100.zh-Hans.diff.json). + - Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338), + which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.jsonn) to the reconstructed text. + +- **Compression Rate**
+There are mainly two types of metric to represent the `input_text`: + - `byte-level`: the number of bytes in the given text + - `char-level`: the number of characters in the given text. + +To evaluate compression rate, simple metrics can be "how many bytes per token" or "how many chars per token".
+In this leaderboard, we adopt more frequently used metric: "how many billion tokens per gigabytes corpus" and "how many chars +per token", i.e. `b_tokens/g_bytes` and `char/token`. + + +💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions) +""" + + + +# theme = gr.themes.Monochrome() +theme = gr.themes.Default() +# theme.set(accordion_text_weight=600) # 暂不支持 +with gr.Blocks(theme=theme) as demo: + # gr.Markdown("## Convertor") + # with gr.Accordion("Convertor", open=False): + # gr.Markdown("Tokenize {} corpus") + # with gr.Row(elem_classes="no-border"): + # gr.Button("File Size", min_width=50) + # file_size = gr.Textbox( + # show_label=False, + # min_width=50, + # # elem_classes="textbox-as-text" + # ) + # gr.Dropdown( + # choices=['MB', 'GB', 'TB'], + # show_label=False, + # min_width=15, + # # elem_classes="textbox-as-text" + # ) + # # gr.Markdown('

') + # # gr.HTML('

') + # gr.Button( + # "≈", + # min_width=10, + # elem_classes="button-white h2-font" + # + # ) + # + # gr.Button( + # "Tokens", + # min_width=50 + # ) + # gr.Textbox( + # show_label=False, + # min_width=50 + # ) + # gr.Dropdown( + # ['million', 'billion', 'trillion'], + # show_label=False, + # min_width=15, + # elem_classes="button-white" + # ) + + + + gr.Markdown(docs) + gr.Markdown("## 🛠️ Setting") # ⚙ + gr.Markdown("We perform tokenization on different corpus, and calculate the compression rate." + "") + with gr.Accordion("Please select the corpus and measure of compression rate.", open=True): + # file size 💽 🖴, tokens 🧮 + # Total amount of disk used + with gr.Row(): + with gr.Column(): + compress_rate_corpus = gr.Dropdown( + common_corpuses, # , "code" + value=["cc100/en", "cc100/zh-Hans", "cc100/fr", "cc100/es"], + label="corpus", + multiselect=True + # info="" + ) + + # unit of file_size: gigabyte terabyte + # unit of token_num: million billion trillion + # The most common units of measurement include length (meter, inch, foot), weight (gram, kilogram, pound), volume (liter, gallon, milliliter), time (second, minute, hour) + compress_rate_unit = gr.Radio( + ["b_tokens/g_bytes", "t_tokens/t_bytes"], + value="b_tokens/g_bytes", + label="measure", # evaluation metric + ) + + gr.Markdown( + # "Note:\n\n explanation" + # "Supported languages are (20): arabic (ar), bulgarian (bg), german (de), modern greek (el), english (en), spanish (es), french (fr), hindi (hi), italian (it), japanese (ja), dutch (nl), polish (pl), portuguese (pt), russian (ru), swahili (sw), thai (th), turkish (tr), urdu (ur), vietnamese (vi), and chinese (zh)." + # " arabic (ar), english (en), spanish (es), french (fr), italian (it), japanese (ja), portuguese (pt), russian (ru), and chinese (zh)." + "- `corpus`: tokenization is performed on the selected subsets of [cc100](https://huggingface.co/datasets/statmt/cc100) corpus.\n" + "- measure\n" + " - `b_tokens/g_bytes` measures how many billion tokens per gigabytes corpus.\n" + " - `t_tokens/t_bytes` measures how many trillion tokens per terabytes corpus.\n" + # "- `g_bytes/b_tokens` measures how many gigabytes corpus per billion tokens.\n" + # "- `t_bytes/t_tokens` measures how many terabytes corpus per trillion tokens.\n" + " - `char/token` measures how many chars per token on the tokenized corpus.\n" + " - `oov_ratio`: out-of-vocabulary ratio on the selected corpus, 👉 get [oov charset](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate.json)\n\n" + "You can reproduce this procedure with [compression_util.py](https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/compression_util.py)." + ) + + gr.Markdown("## 🏆 Compression Rate Leaderboard") + search_bar = gr.Textbox( + placeholder="🔍 Search by tokenizer or organization (e.g., 'llama', 'openai') and press ENTER...", + show_label=False, + elem_id="search-bar", + ) + compress_rate_table = gr.Dataframe(datatype="html") + + # func call + compress_rate_corpus.change( + get_compression_leaderboard, + inputs=[compress_rate_corpus, compress_rate_unit, search_bar], + outputs=compress_rate_table + ) + compress_rate_unit.change( + get_compression_leaderboard, + inputs=[compress_rate_corpus, compress_rate_unit, search_bar], + outputs=compress_rate_table + ) + # file_size.change( + # get_all_compress_rate, + # outputs=compress_rate_table + # ) + + search_bar.submit( + get_compression_leaderboard, + inputs=[ + compress_rate_corpus, + compress_rate_unit, + search_bar, + ], + outputs=compress_rate_table + ) + + demo.load( + get_compression_leaderboard, + inputs=[compress_rate_corpus, compress_rate_unit], + outputs=compress_rate_table + ) + +if __name__ == "__main__": + demo.launch() diff --git a/compression_util.py b/compression_util.py index 9f02c3e7ffbf62bc387b847655e7ad1491dcc065..d7b0c543339dd176035f18fa0546fdd60e5313bc 100644 --- a/compression_util.py +++ b/compression_util.py @@ -1,302 +1,320 @@ -""" - -## TODO -code: -math: -whitespace: - -""" - -import json -import os -import sys -import pandas as pd -from datasets import load_dataset -from utils.log_util import logger -from vocab import tokenizer_factory, TokenizerConfig -from typing import List, Optional, Union, Literal - -CURRENT_DIR = os.path.dirname(os.path.abspath(__file__)) - -common_units = ["g_bytes/b_tokens", "b_tokens/g_bytes", "t_bytes/t_tokens", "t_tokens/t_bytes", "n_chars/n_tokens", ] - -common_corpuses = sorted(["cc100/en", "cc100/zh-Hans", "cc100/es", "cc100/fr", "cc100/de", "cc100/ko", - "cc100/fa", "cc100/ar", "cc100/ja"]) - -VALID_CODES_CC100 = [ - "am", "ar", "as", "az", "be", "bg", "bn", "bn_rom", "br", "bs", "ca", "cs", "cy", "da", "de", - "el", "en", "eo", "es", "et", "eu", "fa", "ff", "fi", "fr", "fy", "ga", "gd", "gl", "gn", "gu", - "ha", "he", "hi", "hi_rom", "hr", "ht", "hu", "hy", "id", "ig", "is", "it", "ja", "jv", "ka", - "kk", "km", "kn", "ko", "ku", "ky", "la", "lg", "li", "ln", "lo", "lt", "lv", "mg", "mk", "ml", - "mn", "mr", "ms", "my", "my_zaw", "ne", "nl", "no", "ns", "om", "or", "pa", "pl", "ps", "pt", - "qu", "rm", "ro", "ru", "sa", "si", "sc", "sd", "sk", "sl", "so", "sq", "sr", "ss", "su", "sv", - "sw", "ta", "ta_rom", "te", "te_rom", "th", "tl", "tn", "tr", "ug", "uk", "ur", "ur_rom", "uz", - "vi", "wo", "xh", "yi", "yo", "zh-Hans", "zh-Hant", "zu", -] - - -# code: https://huggingface.co/datasets/codeparrot/github-code-clean python java c sql html -# math: - -def get_n_bytes_of_string(string_text): - n_bytes = len(string_text.encode("utf-8")) - return n_bytes - - -def unit_convertor(stat, unit): - n_tokens = stat["_n_tokens"] - n_chars = stat["_n_chars"] - n_bytes = stat["_n_bytes"] - - if n_tokens is None: - return None - - n_tokens_in_billion = n_tokens / (1000 * 1000 * 1000) - n_tokens_in_trillion = n_tokens / (1000 * 1000 * 1000 * 1000) - n_bytes_in_mb = n_bytes / (1024 * 1024) - n_bytes_in_gb = n_bytes_in_mb / 1024 - n_bytes_in_tb = n_bytes_in_gb / 1024 - # n_chars_in_billion = n_chars / (1000 * 1000 * 1000) - - if unit == "n_tokens/n_bytes": - value = n_tokens / n_bytes - elif unit in ["char/token", "chars_per_token"]: # 重要:平均一个token包含多少个字符。 - value = n_chars / n_tokens - elif unit in ["token/char", "tokens_per_char"]: # 一个中文汉字需要几个token? - value = n_tokens / n_chars - elif unit == "g_bytes/b_tokens": - value = n_bytes_in_gb / n_tokens_in_billion - elif unit == "b_tokens/g_bytes": - value = n_tokens_in_billion / n_bytes_in_gb - elif unit == "t_bytes/t_tokens": # 重要: - value = n_bytes_in_tb / n_tokens_in_trillion - elif unit == "t_tokens/t_bytes": - value = n_tokens_in_trillion / n_bytes_in_tb - else: - raise "measure not support" - return round(value, 3) - - -def _merge_stats_by_corpus(stats_by_corpus, oov_threshold=0.3): - """ - """ - all_stats = list(stats_by_corpus.values()) - assert len(set([stats["tokenizer"] for stats in all_stats])) == 1 - reversible = all(stat['reversible'] for stat in all_stats) - is_support = all(stat['oov_ratio'] < oov_threshold for stat in all_stats) - - merged_stats = { - "tokenizer": all_stats[0]["tokenizer"], - "organization": all_stats[0]["organization"], - "vocab_size": all_stats[0]["vocab_size"], - "_n_bytes": 0, - "_n_tokens": 0 if is_support else None, - "_n_chars": 0, - "_n_oov_chars": 0, - "reversible": True, - } - for stats in all_stats: - merged_stats["_n_bytes"] += stats["_n_bytes"] - merged_stats["_n_chars"] += stats["_n_chars"] - if is_support: # The number of tokens cannot be accurately counted, when there are too many UNKs. - merged_stats["_n_tokens"] += stats["_n_tokens"] - merged_stats["_n_oov_chars"] += stats["_n_oov_chars"] - merged_stats["reversible"] &= stats['reversible'] - - merged_stats.update({ - "oov_ratio": float("%.4g" % (stats["_n_oov_chars"] / stats["_n_chars"])), - "reversible": reversible - }) - return merged_stats - - -def to_dataframe(stats, units=None): - if units is None: - units = common_units - elif not isinstance(units, list): - units = [units] - table = [] - - for stat in stats.values(): - columns = {k: v for k, v in stat.items() if not k.startswith("_")} - for unit in units: - if unit not in stat: - columns[unit] = unit_convertor(stat, unit) - else: - logger.error(f"unit {unit} not support") - table.append(columns) - df = pd.DataFrame(table) - return df - - -cache = {} - - -def tokenize_corpus( - tokenizer_name: str, - corpuses: List[str], - cache_dir: str = "stats" -) -> dict: - """ - :param tokenizer_name: - :param corpuses: - :param cache_dir: - :return: - """ - - def _char_based_oov(src_text, decode_text): - oov_chars = [] - for char in src_text: - if char not in decode_text: - oov_chars.append(char) - - n_oov_chars = len(oov_chars) - oov_charset = list(dict.fromkeys(oov_chars)) - return n_oov_chars, oov_charset - - def _tokenize(tokenizer, datasets, detail_path=None): - """ - :param tokenizer: - :param datasets: - :param detail_path: - :return: - """ - n_bytes = 0 - n_tokens = 0 - n_chars = 0 - n_oov_chars = 0 - diff_details = [] - oov_charset = set() - unk_token_id = None - if hasattr(tokenizer, "unk_token"): - unk_token_id = tokenizer.unk_token_id - for dataset in datasets: - for item in dataset: - text = item["text"] - n_bytes += get_n_bytes_of_string(text) - n_chars += len(text) - ids = tokenizer.encode(text, add_special_tokens=False) - - # detect oov - decode_text = tokenizer.decode(ids) - decode_text_without_unk = tokenizer.decode([token_id for token_id in ids if token_id != unk_token_id]) - if decode_text != text: - _n_oov_chars, _oov_charset = _char_based_oov(text, decode_text_without_unk) - diff_details.append( - { - "text": text, - "decode_text": decode_text, - "decode_text_without_unk": decode_text_without_unk, - "n_oov_chars": _n_oov_chars, - 'oov_ratio': _n_oov_chars / len(text), - 'oov_charset': json.dumps(_oov_charset, ensure_ascii=False), - } - ) - n_oov_chars += _n_oov_chars - oov_charset.update(_oov_charset) - n_tokens += len(ids) - stat = { - "_n_bytes": n_bytes, - "_n_tokens": n_tokens, - "_n_chars": n_chars, - "_n_oov_chars": n_oov_chars, - "oov_ratio": n_oov_chars / n_chars, - '_oov_charset': json.dumps(list(oov_charset), ensure_ascii=False), - "reversible": len(diff_details) == 0 - } - - if detail_path and diff_details: - logger.info(f"saving tokenization detail to '{detail_path}'") - with open(detail_path, "w", encoding="utf-8") as f: - f.write(json.dumps(diff_details, ensure_ascii=False, indent=2)) - # print(f"{tokenizer_config.name_or_path}, {infer_tokenizer_type(tokenizer_config)}\n" - # f"reversible: false; unk_token: {get_unk(tokenizer_config)}," - # f" unk_ratio: {unk_count / len(encoding):.4f}; oov: []") - # for diff_detail in diff_details: - # # print(f"text[{i}] = {str(bytes(text[i:], 'utf-8'))}\n" - # # f"decoding[{i}] = {str(bytes(decoding[i:], 'utf-8'))}") - # f.write(f"text= {json.dumps(text[i:], ensure_ascii=False)}, \n" - # f"decoding[{i}] = {json.dumps(decoding[i:], ensure_ascii=False)}") - return stat - - # load from cache - cache_id = f"{tokenizer_name} @ {'.'.join(corpuses)}" - cache_path = os.path.join(cache_dir, "compression_rate.json") - if not cache and os.path.exists(cache_path): - with open(cache_path, "r", encoding="utf-8") as f_tmp: - cache.update(json.load(f_tmp)) - if cache_id in cache: - # logger.info(f"loading {cache_id} from in-memory cache") - return cache[cache_id] - - # tokenize corpus - tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) - datasets = [load_dataset("eson/cc100-samples", corpus.replace("cc100/", ""), split="train") for corpus in corpuses] - - stat = { - "tokenizer": tokenizer_factory.get_name_with_hyperlink(tokenizer_name), - "organization": tokenizer_factory.get_tokenizer_config(tokenizer_name).org, - "vocab_size": len(tokenizer), - } - tokenize_detail_dir = os.path.join(cache_dir, "compression_rate") - os.makedirs(tokenize_detail_dir, exist_ok=True) - tokenize_detail_path = os.path.join(tokenize_detail_dir, cache_id.replace("/", ".") + ".diff.json") - stat.update(_tokenize(tokenizer, datasets, detail_path=tokenize_detail_path)) - # add basic info - - # save to cache - len_before = len(cache) - cache[cache_id] = stat - len_after = len(cache) - logger.info(f"saving '{cache_id}' to memory and file cache '{cache_path}': {len_before}->{len_after}") - with open(cache_path, "w", encoding="utf-8") as f_tmp: - json.dump(cache, f_tmp, ensure_ascii=False, indent=2) - return stat - - -def get_compression_leaderboard( - corpuses: List[str] = ['cc100/en'], - unit: str = "b_tokens/g_bytes", - tokenizer_filter: Optional[str] = None, - return_type: Optional[Literal["dict", "dataframe"]] = "dataframe" -) -> Union[pd.DataFrame, dict]: - """ - """ - logger.info(f"corpuses: {corpuses}; unit: {unit}; tokenizer_filter: {tokenizer_filter}") - stats = {} - if tokenizer_filter is not None: - tokenizer_names = [tokenizer_name for tokenizer_name in tokenizer_factory.all_tokenizer_names - if tokenizer_filter.lower() in tokenizer_name.lower()] - else: - tokenizer_names = tokenizer_factory.all_tokenizer_names - for tokenizer_name in tokenizer_names: - stats_by_corpus = {} - for corpus in corpuses: - stats_by_corpus[corpus] = tokenize_corpus(tokenizer_name, [corpus]) - stats[tokenizer_name] = _merge_stats_by_corpus(stats_by_corpus) - - if return_type == "dataframe": - token_number_unit, file_size_unit = unit.split("/") - reverse_unit = f"{file_size_unit}/{token_number_unit}" - stats = to_dataframe(stats, [unit, reverse_unit, "char/token"]) - stats = stats.sort_values(["oov_ratio", unit], ascending=[True, True]) - stats = stats.rename(columns={"oov_ratio": f' ⬆️oov_ratio'}).rename(columns={unit: f' ⬆️{unit}'}) # ⬇ - return stats - - -def main(): - if len(sys.argv) == 3: - tokenizer_filter = [sys.argv[1]] - corpuses = [sys.argv[2]] - else: - tokenizer_filter = None - corpuses = common_corpuses - # tokenizer_filter = "openai" - # corpuses = ["cc100/en", "cc100/zh-Hans"] - df = get_compression_leaderboard(corpuses, tokenizer_filter=tokenizer_filter) - # print(df.to_markdown(index=False, tablefmt='fancy_grid')) - logger.info(f"\n{df.to_markdown(index=False)}") - - -if __name__ == "__main__": - main() +""" +## more statistics +code: +math: +digit: +whitespace: +top_oov: most frequent oov chars +ranking: thumb_up thumb_down +""" + +import json +import os +import sys +from difflib import SequenceMatcher +import pandas as pd +from datasets import load_dataset +from utils.log_util import logger +from vocab import tokenizer_factory, TokenizerConfig +from typing import List, Optional, Union, Literal + +CURRENT_DIR = os.path.dirname(os.path.abspath(__file__)) + +common_units = ["g_bytes/b_tokens", "b_tokens/g_bytes", "t_bytes/t_tokens", "t_tokens/t_bytes", "n_chars/n_tokens", ] + +common_corpuses = sorted(["cc100/en", "cc100/zh-Hans", "cc100/es", "cc100/fr", "cc100/de", "cc100/ko", + "cc100/fa", "cc100/ar", "cc100/ja"]) + +VALID_CODES_CC100 = [ + "am", "ar", "as", "az", "be", "bg", "bn", "bn_rom", "br", "bs", "ca", "cs", "cy", "da", "de", + "el", "en", "eo", "es", "et", "eu", "fa", "ff", "fi", "fr", "fy", "ga", "gd", "gl", "gn", "gu", + "ha", "he", "hi", "hi_rom", "hr", "ht", "hu", "hy", "id", "ig", "is", "it", "ja", "jv", "ka", + "kk", "km", "kn", "ko", "ku", "ky", "la", "lg", "li", "ln", "lo", "lt", "lv", "mg", "mk", "ml", + "mn", "mr", "ms", "my", "my_zaw", "ne", "nl", "no", "ns", "om", "or", "pa", "pl", "ps", "pt", + "qu", "rm", "ro", "ru", "sa", "si", "sc", "sd", "sk", "sl", "so", "sq", "sr", "ss", "su", "sv", + "sw", "ta", "ta_rom", "te", "te_rom", "th", "tl", "tn", "tr", "ug", "uk", "ur", "ur_rom", "uz", + "vi", "wo", "xh", "yi", "yo", "zh-Hans", "zh-Hant", "zu", +] + + +# code: https://huggingface.co/datasets/codeparrot/github-code-clean python java c sql html +# math: + +def get_n_bytes_of_string(string_text): + n_bytes = len(string_text.encode("utf-8")) + return n_bytes + + +def unit_convertor(stat, unit): + n_tokens = stat["_n_tokens"] + n_chars = stat["_n_chars"] + n_bytes = stat["_n_bytes"] + + if n_tokens is None: + return None + + n_tokens_in_billion = n_tokens / (1000 * 1000 * 1000) + n_tokens_in_trillion = n_tokens / (1000 * 1000 * 1000 * 1000) + n_bytes_in_mb = n_bytes / (1024 * 1024) + n_bytes_in_gb = n_bytes_in_mb / 1024 + n_bytes_in_tb = n_bytes_in_gb / 1024 + # n_chars_in_billion = n_chars / (1000 * 1000 * 1000) + + if unit == "n_tokens/n_bytes": + value = n_tokens / n_bytes + elif unit in ["char/token", "chars_per_token"]: # 重要:平均一个token包含多少个字符。 + value = n_chars / n_tokens + elif unit in ["token/char", "tokens_per_char"]: # 一个中文汉字需要几个token? + value = n_tokens / n_chars + elif unit == "g_bytes/b_tokens": + value = n_bytes_in_gb / n_tokens_in_billion + elif unit == "b_tokens/g_bytes": + value = n_tokens_in_billion / n_bytes_in_gb + elif unit == "t_bytes/t_tokens": # 重要: + value = n_bytes_in_tb / n_tokens_in_trillion + elif unit == "t_tokens/t_bytes": + value = n_tokens_in_trillion / n_bytes_in_tb + else: + raise "measure not support" + return round(value, 3) + + +def _merge_stats_by_corpus(stats_by_corpus, oov_threshold=0.3): + """ + """ + all_stats = list(stats_by_corpus.values()) + assert len(set([stats["tokenizer"] for stats in all_stats])) == 1 + lossless = all(stat['lossless'] for stat in all_stats) + is_support = all(stat['oov_ratio'] < oov_threshold for stat in all_stats) + + merged_stats = { + "tokenizer": all_stats[0]["tokenizer"], + "organization": all_stats[0]["organization"], + "vocab_size": all_stats[0]["vocab_size"], + "_n_bytes": 0, + "_n_tokens": 0 if is_support else None, + "_n_chars": 0, + "_n_oov_chars": 0, + "lossless": True, + } + for stats in all_stats: + merged_stats["_n_bytes"] += stats["_n_bytes"] + merged_stats["_n_chars"] += stats["_n_chars"] + if is_support: # The number of tokens cannot be accurately counted, when there are too many UNKs. + merged_stats["_n_tokens"] += stats["_n_tokens"] + merged_stats["_n_oov_chars"] += stats["_n_oov_chars"] + merged_stats["lossless"] &= stats['lossless'] + + merged_stats.update({ + "oov_ratio": float("%.4g" % (stats["_n_oov_chars"] / stats["_n_chars"])), + "lossless": lossless + }) + return merged_stats + + +def to_dataframe(stats, units=None): + if units is None: + units = common_units + elif not isinstance(units, list): + units = [units] + table = [] + + for stat in stats.values(): + columns = {k: v for k, v in stat.items() if not k.startswith("_")} + for unit in units: + if unit not in stat: + columns[unit] = unit_convertor(stat, unit) + else: + logger.error(f"unit {unit} not support") + table.append(columns) + df = pd.DataFrame(table) + return df + + +cache = {} + + +def tokenize_corpus( + tokenizer_name: str, + corpuses: List[str], + cache_dir: str = "stats" +) -> dict: + """ + :param tokenizer_name: + :param corpuses: + :param cache_dir: + :return: + """ + + def _assert_oov(tokenizer, oov_candidate): + + tokenizer.encode() + + def _char_based_oov(src_text, decoded_text, tokenizer): + oov_charset = [] # keep the order in src_text + decoded_charset = set(decoded_text) + for char in dict.fromkeys(src_text): + if char not in decoded_charset \ + and char != tokenizer.decode(tokenizer.encode(char, add_special_tokens=False)): + oov_charset.append(char) + + n_oov_chars = sum([1 for char in src_text if char in oov_charset]) + return n_oov_chars, oov_charset + + def _diff_path(src_text, decoded_text): + s = SequenceMatcher(a=src_text, b=decoded_text) + changes = [] + for tag, i1, i2, j1, j2 in s.get_opcodes(): + if tag != "equal": + changes.append('{:7} text[{}:{}] --> decoded_text[{}:{}] {!r:>8} --> {!r}'.format( + tag, i1, i2, j1, j2, src_text[i1:i2], decoded_text[j1:j2])) + return changes + + def _tokenize(tokenizer, datasets, detail_path=None): + """ + :param tokenizer: + :param datasets: + :param detail_path: + :return: + """ + n_bytes = 0 + n_tokens = 0 + n_chars = 0 + n_oov_chars = 0 + diff_details = [] + oov_charset = set() + unk_token_id = None + if hasattr(tokenizer, "unk_token"): + unk_token_id = tokenizer.unk_token_id + for dataset in datasets: + for item in dataset: + text = item["text"] + n_bytes += get_n_bytes_of_string(text) + n_chars += len(text) + ids = tokenizer.encode(text, add_special_tokens=False) + + # detect oov + decoded_text = tokenizer.decode(ids) + decoded_text_without_unk = tokenizer.decode([token_id for token_id in ids if token_id != unk_token_id]) + if decoded_text != text: + _n_oov_chars, _oov_charset = _char_based_oov(text, decoded_text_without_unk, tokenizer) + diffs = _diff_path(text, decoded_text) + diff_details.append( + { + "text": text, + "decoded_text": decoded_text, + "diff": diffs, + "n_oov_chars": _n_oov_chars, + 'oov_ratio': _n_oov_chars / len(text), + 'oov_charset': json.dumps(_oov_charset, ensure_ascii=False), + } + ) + n_oov_chars += _n_oov_chars + oov_charset.update(_oov_charset) + n_tokens += len(ids) + stat = { + "_n_bytes": n_bytes, + "_n_tokens": n_tokens, + "_n_chars": n_chars, + "_n_oov_chars": n_oov_chars, + "oov_ratio": n_oov_chars / n_chars, + '_oov_charset': json.dumps(list(oov_charset), ensure_ascii=False), + "lossless": len(diff_details) == 0 + } + + if detail_path and diff_details: + logger.info(f"saving tokenization detail to '{detail_path}'") + with open(detail_path, "w", encoding="utf-8") as f: + f.write(json.dumps(diff_details, ensure_ascii=False, indent=2)) + # print(f"{tokenizer_config.name_or_path}, {infer_tokenizer_type(tokenizer_config)}\n" + # f"lossless: false; unk_token: {get_unk(tokenizer_config)}," + # f" unk_ratio: {unk_count / len(encoding):.4f}; oov: []") + # for diff_detail in diff_details: + # # print(f"text[{i}] = {str(bytes(text[i:], 'utf-8'))}\n" + # # f"decoding[{i}] = {str(bytes(decoding[i:], 'utf-8'))}") + # f.write(f"text= {json.dumps(text[i:], ensure_ascii=False)}, \n" + # f"decoding[{i}] = {json.dumps(decoding[i:], ensure_ascii=False)}") + return stat + + # load from cache + cache_id = f"{tokenizer_name} @ {'.'.join(corpuses)}" + cache_path = os.path.join(cache_dir, "compression_rate.json") + if not cache and os.path.exists(cache_path): + with open(cache_path, "r", encoding="utf-8") as f_tmp: + cache.update(json.load(f_tmp)) + if cache_id in cache: + # logger.info(f"loading {cache_id} from in-memory cache") + return cache[cache_id] + + # tokenize corpus + tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) + datasets = [load_dataset("eson/cc100-samples", corpus.replace("cc100/", ""), split="train") for corpus in corpuses] + + stat = { + "tokenizer": tokenizer_factory.get_name_with_hyperlink(tokenizer_name), + "organization": tokenizer_factory.get_tokenizer_config(tokenizer_name).org, + "vocab_size": len(tokenizer), + } + tokenize_detail_dir = os.path.join(cache_dir, "compression_rate") + os.makedirs(tokenize_detail_dir, exist_ok=True) + tokenize_detail_path = os.path.join(tokenize_detail_dir, cache_id.replace("/", ".") + ".diff.json") + stat.update(_tokenize(tokenizer, datasets, detail_path=tokenize_detail_path)) + # add basic info + + # save to cache + len_before = len(cache) + cache[cache_id] = stat + len_after = len(cache) + logger.info(f"saving '{cache_id}' to memory and file cache '{cache_path}': {len_before}->{len_after}") + with open(cache_path, "w", encoding="utf-8") as f_tmp: + json.dump(cache, f_tmp, ensure_ascii=False, indent=2) + return stat + + +def get_compression_leaderboard( + corpuses: List[str] = ['cc100/en'], + unit: str = "b_tokens/g_bytes", + tokenizer_filter: Optional[str] = None, + return_type: Optional[Literal["dict", "dataframe"]] = "dataframe" +) -> Union[pd.DataFrame, dict]: + """ + """ + logger.info(f"corpuses: {corpuses}; unit: {unit}; tokenizer_filter: {tokenizer_filter}") + stats = {} + if tokenizer_filter is not None: + tokenizer_names = [tokenizer_name for tokenizer_name in tokenizer_factory.all_tokenizer_names + if tokenizer_filter.lower() in tokenizer_name.lower()] + else: + tokenizer_names = tokenizer_factory.all_tokenizer_names + for tokenizer_name in tokenizer_names: + stats_by_corpus = {} + for corpus in corpuses: + stats_by_corpus[corpus] = tokenize_corpus(tokenizer_name, [corpus]) + stats[tokenizer_name] = _merge_stats_by_corpus(stats_by_corpus) + + if return_type == "dataframe": + token_number_unit, file_size_unit = unit.split("/") + reverse_unit = f"{file_size_unit}/{token_number_unit}" + stats = to_dataframe(stats, [unit, reverse_unit, "char/token"]) + stats = stats.sort_values(["oov_ratio", unit], ascending=[True, True]) + stats = stats.rename(columns={"oov_ratio": f' ⬆️oov_ratio'}).rename(columns={unit: f' ⬆️{unit}'}) # ⬇ + return stats + + +def main(): + if len(sys.argv) == 3: + tokenizer_filter = [sys.argv[1]] + corpuses = [sys.argv[2]] + else: + tokenizer_filter, corpuses = None, common_corpuses + # tokenizer_filter, corpuses = "openai", ["cc100/en", "cc100/zh-Hans"] + # tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/de"] + # tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/ja"] # oov 特别多 + # tokenizer_filter, corpuses = "google-bert/bert-base-uncased", ["cc100/ja", "cc100/zh-Hans"] # oov 特别多 + df = get_compression_leaderboard(corpuses, tokenizer_filter=tokenizer_filter) + # print(df.to_markdown(index=False, tablefmt='fancy_grid')) + logger.info(f"\n{df.to_markdown(index=False)}") + + +if __name__ == "__main__": + main() diff --git a/css/style.css b/css/style.css index 0f7facc3ddb8060486efdd1232efaed649dea304..2793286d601feab7f997e14bbf0f4fb4d9c5141e 100644 --- a/css/style.css +++ b/css/style.css @@ -1,59 +1,62 @@ - -/* 显示空格:https://blog.csdn.net/liuxiao723846/article/details/118994673 */ -.space-show { - white-space: pre-wrap; -} - -.cell-wrap { - white-space: pre-wrap; -} - - -/* white button */ -.button-as-text { - background: #fff; - border-color: #fff; -} - -.textbox-as-text { - border-style: hidden; - background: #fff; - border-color: #fff; -} - - -.h2-font { - font-size: 30px; -} - -.no-border { - border: 0px none; -} - -/* 隐藏legend */ -.category-legend { - display: none !important; -} - -.statistics { - min-width: min(50px, 100%) !important; -} - -.statistics textarea { - min-width: min(50px, 100%) !important; - font-size: 20px !important; - font-weight: 600 !important; - text-align: center !important; - border: none !important; -} - -.statistics label { - text-align: center !important; -} - -/* align-self: flex-end; */ -.example-style { - max-width: 150px; - align-self: self-end; -} - +/* hidde legend of HighlightText, has been integrated in gradio.4.32.0 with `show_inline_category` +.category-legend { + display: none !important; +} +*/ + +/* show space in HighlightText:https://blog.csdn.net/liuxiao723846/article/details/118994673 +TODO: integrate in gradio with `show_single_whitespace=True` or `strip_token=False` +*/ +.space-show { + white-space: pre-wrap; +} + +.cell-wrap { + white-space: pre-wrap; +} + + +/* white button */ +.button-as-text { + background: #fff; + border-color: #fff; +} + +.textbox-as-text { + border-style: hidden; + background: #fff; + border-color: #fff; +} + + +.h2-font { + font-size: 30px; +} + +.no-border { + border: 0px none; +} + + +.statistics { + min-width: min(50px, 100%) !important; +} + +.statistics textarea { + min-width: min(50px, 100%) !important; + font-size: 20px !important; + font-weight: 600 !important; + text-align: center !important; + border: none !important; +} + +.statistics label { + text-align: center !important; +} + +/* align-self: flex-end; */ +.example-style { + max-width: 150px; + align-self: self-end; +} + diff --git a/playground_app.py b/playground_app.py index 8cb78892d72c5e4414e9a55a3e4d021021c4ca0d..24734faadad77e087c044542a64758a0ff019d8f 100644 --- a/playground_app.py +++ b/playground_app.py @@ -1,264 +1,233 @@ -# coding=utf-8 -# author: xusong -# time: 2022/8/23 16:06 - -""" -## TODO: -- i18 国际化 https://blog.csdn.net/qq_26212731/article/details/78457198 request.header中也有language -- iter_vocab 的 warmup -- 开关 - - add_special_token 开关 - - theme 开关 light/dark - - token_id/tokens/bytes 开关 - - 中文字词统计,是否要包括 _ G 等字符 -- 评测 - - OOV评测 -- 通过 javascript 添加 hover_text -- 英文 utf-8编码 -- 词典支持下载,借用image下载的标签, -- baichuan的单字数量怎么两万多个? -- qwen: ValueError: Unclosed image token -- 路径修改为全path meta-llama/Llama-2-13b-hf - -plots - -table - -## related demo -- [](http://text-processing.com/demo/tokenize/) -- [gpt-tokenizer](https://gpt-tokenizer.dev/) -- [llama-tokenizer-js](https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/) -- [](https://huggingface.co/spaces/Xenova/the-tokenizer-playground) - -## 可视化 - -[ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ] -""" - -import gradio as gr -from vocab import tokenizer_factory -from playground_examples import example_types, example_fn -from playground_util import tokenize, tokenize_pair, basic_count, get_overlap_token_size, on_load - - - - -get_window_url_params = """ - function(url_params) { - const params = new URLSearchParams(window.location.search); - url_params = JSON.stringify(Object.fromEntries(params)); - return url_params; - } - """ - -all_tokenizer_name = [(config.name_display, config.name_or_path) for config in tokenizer_factory.all_tokenizer_configs] - -with gr.Blocks() as demo: - # links: https://www.coderstool.com/utf8-encoding-decoding - # 功能:输入文本,进行分词 - # 分词器:常见的分词器有集中, - # 背景:方便分词、看词粒度、对比 - - with gr.Row(): - gr.Markdown("## Input Text") - dropdown_examples = gr.Dropdown( - example_types, - value="Examples", - type="index", - allow_custom_value=True, - show_label=False, - container=False, - scale=0, - elem_classes="example-style" - ) - user_input = gr.Textbox( - # value=default_user_input, - label="Input Text", - lines=5, - show_label=False, - ) - gr.Markdown("## Tokenization") - - # compress rate setting TODO: 将 这个模块调整到下面 - # with gr.Accordion("Compress Rate Setting", open=True): - # gr.Markdown( - # "Please select corpus and unit of compress rate, get more details at [github](https://github.com/xu-song/tokenizer-arena/). ") - # with gr.Row(): - # compress_rate_corpus = gr.CheckboxGroup( - # common_corpuses, # , "code" - # value=["cc100-en", "cc100-zh-Hans"], - # label="corpus", - # # info="" - # ) - # compress_rate_unit = gr.Radio( - # common_units, - # value="b_tokens/g_bytes", - # label="unit", - # ) - # TODO: Token Setting - # with gr.Accordion("Token Filter Setting", open=False): - # gr.Markdown( - # "Get total number of tokens which contain the following character)") - # gr.Radio( - # ["zh-Hans", "", "number", "space"], - # value="zh", - # ) - - with gr.Row(): - with gr.Column(scale=6): - with gr.Group(): - tokenizer_name_1 = gr.Dropdown( - all_tokenizer_name, - label="Tokenizer 1", - ) - with gr.Group(): - with gr.Row(): - organization_1 = gr.TextArea( - label="Organization", - lines=1, - elem_classes="statistics", - ) - stats_vocab_size_1 = gr.TextArea( - label="Vocab Size", - lines=1, - elem_classes="statistics" - ) - # stats_zh_token_size_1 = gr.TextArea( - # label="ZH char/word", - # lines=1, - # elem_classes="statistics", - # ) - # stats_compress_rate_1 = gr.TextArea( - # label="Compress Rate", - # lines=1, - # elem_classes="statistics", - # ) - stats_overlap_token_size_1 = gr.TextArea( - # value=default_stats_overlap_token_size, - label="Overlap Tokens", - lines=1, - elem_classes="statistics" - ) - # stats_3 = gr.TextArea( - # label="Compress Rate", - # lines=1, - # elem_classes="statistics" - # ) - # https://www.onlinewebfonts.com/icon/418591 - gr.Image("images/VS.svg", scale=1, show_label=False, - show_download_button=False, container=False, - show_share_button=False) - with gr.Column(scale=6): - with gr.Group(): - tokenizer_name_2 = gr.Dropdown( - all_tokenizer_name, - label="Tokenizer 2", - ) - with gr.Group(): - with gr.Row(): - organization_2 = gr.TextArea( - label="Organization", - lines=1, - elem_classes="statistics", - ) - stats_vocab_size_2 = gr.TextArea( - label="Vocab Size", - lines=1, - elem_classes="statistics" - ) - # stats_zh_token_size_2 = gr.TextArea( - # label="ZH char/word", # 中文字/词 - # lines=1, - # elem_classes="statistics", - # ) - # stats_compress_rate_2 = gr.TextArea( - # label="Compress Rate", - # lines=1, - # elem_classes="statistics" - # ) - stats_filtered_token_2 = gr.TextArea( - label="filtered tokens", - lines=1, - elem_classes="statistics", - visible=False - ) - stats_overlap_token_size_2 = gr.TextArea( - label="Overlap Tokens", - lines=1, - elem_classes="statistics" - ) - - # TODO: 图 表 压缩率 - with gr.Row(): - # dynamic change label - with gr.Column(): - output_text_1 = gr.Highlightedtext( - show_legend=True, - elem_classes="space-show" - ) - with gr.Column(): - output_text_2 = gr.Highlightedtext( - show_legend=True, - elem_classes="space-show" - ) - - with gr.Row(): - output_table_1 = gr.Dataframe() - output_table_2 = gr.Dataframe() - - # setting - # compress_rate_unit.change(compress_rate_unit_change, [compress_rate_unit], - # [stats_compress_rate_1, stats_compress_rate_2]) - - tokenizer_name_1.change(tokenize, [user_input, tokenizer_name_1], - [output_text_1, output_table_1]) - tokenizer_name_1.change(basic_count, [tokenizer_name_1], [stats_vocab_size_1, organization_1]) - tokenizer_name_1.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2], - [stats_overlap_token_size_1, stats_overlap_token_size_2]) - # tokenizer_type_1.change(get_compress_rate, [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_1]) - - # TODO: every=3 - user_input.change(tokenize_pair, - [user_input, tokenizer_name_1, tokenizer_name_2], - [output_text_1, output_table_1, output_text_2, output_table_2]) # , pass_request=1 - - tokenizer_name_2.change(tokenize, [user_input, tokenizer_name_2], - [output_text_2, output_table_2]) - tokenizer_name_2.change(basic_count, [tokenizer_name_2], [stats_vocab_size_2, organization_2]) - tokenizer_name_2.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2], - [stats_overlap_token_size_1, stats_overlap_token_size_2]) - # tokenizer_type_2.change(get_compress_rate, - # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_2]) - # - # compress_rate_unit.change(get_compress_rate, - # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_1]) - # compress_rate_unit.change(get_compress_rate, - # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_2]) - # compress_rate_corpus.change(get_compress_rate, - # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_1]) - # compress_rate_corpus.change(get_compress_rate, - # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], - # [stats_compress_rate_2]) - - dropdown_examples.change( - example_fn, - dropdown_examples, - [user_input, tokenizer_name_1, tokenizer_name_2] - ) - - demo.load( - fn=on_load, - inputs=[user_input], # 这里只需要传个空object即可。 - outputs=[user_input, tokenizer_name_1, tokenizer_name_2], - js=get_window_url_params - ) - -if __name__ == "__main__": - # demo.queue(max_size=20).launch() - demo.launch() - # demo.launch(share=True) +# coding=utf-8 +# author: xusong +# time: 2022/8/23 16:06 + +import gradio as gr +from vocab import tokenizer_factory +from playground_examples import example_types, example_fn +from playground_util import tokenize, tokenize_pair, basic_count, get_overlap_token_size, on_load + + + + +get_window_url_params = """ + function(url_params) { + const params = new URLSearchParams(window.location.search); + url_params = JSON.stringify(Object.fromEntries(params)); + return url_params; + } + """ + +all_tokenizer_name = [(config.name_display, config.name_or_path) for config in tokenizer_factory.all_tokenizer_configs] + +with gr.Blocks() as demo: + # links: https://www.coderstool.com/utf8-encoding-decoding + # 功能:输入文本,进行分词 + # 分词器:常见的分词器有集中, + # 背景:方便分词、看词粒度、对比 + + with gr.Row(): + gr.Markdown("## Input Text") + dropdown_examples = gr.Dropdown( + example_types, + value="Examples", + type="index", + allow_custom_value=True, + show_label=False, + container=False, + scale=0, + elem_classes="example-style" + ) + user_input = gr.Textbox( + # value=default_user_input, + label="Input Text", + lines=5, + show_label=False, + ) + gr.Markdown("## Tokenization") + + # compress rate setting TODO: 将 这个模块调整到下面 + # with gr.Accordion("Compress Rate Setting", open=True): + # gr.Markdown( + # "Please select corpus and unit of compress rate, get more details at [github](https://github.com/xu-song/tokenizer-arena/). ") + # with gr.Row(): + # compress_rate_corpus = gr.CheckboxGroup( + # common_corpuses, # , "code" + # value=["cc100-en", "cc100-zh-Hans"], + # label="corpus", + # # info="" + # ) + # compress_rate_unit = gr.Radio( + # common_units, + # value="b_tokens/g_bytes", + # label="unit", + # ) + # TODO: Token Setting + # with gr.Accordion("Token Filter Setting", open=False): + # gr.Markdown( + # "Get total number of tokens which contain the following character)") + # gr.Radio( + # ["zh-Hans", "", "number", "space"], + # value="zh", + # ) + + with gr.Row(): + with gr.Column(scale=6): + with gr.Group(): + tokenizer_name_1 = gr.Dropdown( + all_tokenizer_name, + label="Tokenizer 1", + ) + with gr.Group(): + with gr.Row(): + organization_1 = gr.TextArea( + label="Organization", + lines=1, + elem_classes="statistics", + ) + stats_vocab_size_1 = gr.TextArea( + label="Vocab Size", + lines=1, + elem_classes="statistics" + ) + # stats_zh_token_size_1 = gr.TextArea( + # label="ZH char/word", + # lines=1, + # elem_classes="statistics", + # ) + # stats_compress_rate_1 = gr.TextArea( + # label="Compress Rate", + # lines=1, + # elem_classes="statistics", + # ) + stats_overlap_token_size_1 = gr.TextArea( + # value=default_stats_overlap_token_size, + label="Overlap Tokens", + lines=1, + elem_classes="statistics" + ) + # stats_3 = gr.TextArea( + # label="Compress Rate", + # lines=1, + # elem_classes="statistics" + # ) + # https://www.onlinewebfonts.com/icon/418591 + gr.Image("images/VS.svg", scale=1, show_label=False, + show_download_button=False, container=False, + show_share_button=False) + with gr.Column(scale=6): + with gr.Group(): + tokenizer_name_2 = gr.Dropdown( + all_tokenizer_name, + label="Tokenizer 2", + ) + with gr.Group(): + with gr.Row(): + organization_2 = gr.TextArea( + label="Organization", + lines=1, + elem_classes="statistics", + ) + stats_vocab_size_2 = gr.TextArea( + label="Vocab Size", + lines=1, + elem_classes="statistics" + ) + # stats_zh_token_size_2 = gr.TextArea( + # label="ZH char/word", # 中文字/词 + # lines=1, + # elem_classes="statistics", + # ) + # stats_compress_rate_2 = gr.TextArea( + # label="Compress Rate", + # lines=1, + # elem_classes="statistics" + # ) + stats_filtered_token_2 = gr.TextArea( + label="filtered tokens", + lines=1, + elem_classes="statistics", + visible=False + ) + stats_overlap_token_size_2 = gr.TextArea( + label="Overlap Tokens", + lines=1, + elem_classes="statistics" + ) + + # TODO: 图 表 压缩率 + with gr.Row(): + # dynamic change label + with gr.Column(): + output_text_1 = gr.Highlightedtext( + show_legend=False, + show_inline_category=False, + elem_classes="space-show" + ) + with gr.Column(): + output_text_2 = gr.Highlightedtext( + show_legend=False, + show_inline_category=False, + elem_classes="space-show" + ) + + with gr.Row(): + output_table_1 = gr.Dataframe() + output_table_2 = gr.Dataframe() + + # setting + # compress_rate_unit.change(compress_rate_unit_change, [compress_rate_unit], + # [stats_compress_rate_1, stats_compress_rate_2]) + + tokenizer_name_1.change(tokenize, [user_input, tokenizer_name_1], + [output_text_1, output_table_1]) + tokenizer_name_1.change(basic_count, [tokenizer_name_1], [stats_vocab_size_1, organization_1]) + tokenizer_name_1.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2], + [stats_overlap_token_size_1, stats_overlap_token_size_2]) + # tokenizer_type_1.change(get_compress_rate, [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_1]) + + # TODO: every=3 + user_input.change(tokenize_pair, + [user_input, tokenizer_name_1, tokenizer_name_2], + [output_text_1, output_table_1, output_text_2, output_table_2]) # , pass_request=1 + + tokenizer_name_2.change(tokenize, [user_input, tokenizer_name_2], + [output_text_2, output_table_2]) + tokenizer_name_2.change(basic_count, [tokenizer_name_2], [stats_vocab_size_2, organization_2]) + tokenizer_name_2.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2], + [stats_overlap_token_size_1, stats_overlap_token_size_2]) + # tokenizer_type_2.change(get_compress_rate, + # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_2]) + # + # compress_rate_unit.change(get_compress_rate, + # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_1]) + # compress_rate_unit.change(get_compress_rate, + # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_2]) + # compress_rate_corpus.change(get_compress_rate, + # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_1]) + # compress_rate_corpus.change(get_compress_rate, + # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit], + # [stats_compress_rate_2]) + + dropdown_examples.change( + example_fn, + dropdown_examples, + [user_input, tokenizer_name_1, tokenizer_name_2] + ) + + demo.load( + fn=on_load, + inputs=[user_input], # 这里只需要传个空object即可。 + outputs=[user_input, tokenizer_name_1, tokenizer_name_2], + js=get_window_url_params + ) + +if __name__ == "__main__": + # demo.queue(max_size=20).launch() + demo.launch() + # demo.launch(share=True) diff --git a/playground_util.py b/playground_util.py index 59d823a6e4ab646128327ecbb376d39a5454cdf6..c29da4882704e6bc3d0c5e93f74ceb61c12a359f 100644 --- a/playground_util.py +++ b/playground_util.py @@ -1,181 +1,181 @@ -import gradio as gr -import json -import copy -import pandas as pd -from vocab import tokenizer_factory -from character_util import iter_vocab -from utils.log_util import logger -from functools import lru_cache - -default_user_input = """\ -Replace this text in the input field to see how tokenization works. -Buenos días! -华为发布Mate60手机。 -ラグビーワールドカップ2023フランス""" -# default_tokenizer_name_1 = "Meta/llama3" -default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k" -default_tokenizer_name_2 = "openai/gpt-4" - - -@lru_cache -def _tokenize( - text: str, - tokenizer_name: str, - color_num: int = 5, - add_special_token: bool = False -): - logger.info("param=" + json.dumps({"text": text, "tokenizer_type": tokenizer_name}, ensure_ascii=False)) - pos_tokens = [] - tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) - if add_special_token: - encoding = tokenizer.encode(text, add_special_tokens=True) - else: - encoding = tokenizer.encode(text, add_special_tokens=False) - - table = [] - - for idx, token_id in enumerate(encoding): - decode_text = tokenizer.decode([token_id]) # 特殊字符解码后会统一变成 �,对应 "\ufffd" - pos_tokens.extend([(decode_text, str(idx % color_num))]) - - # token "Byte": # 这是 utf-8编码吧? - token = tokenizer.convert_ids_to_tokens([token_id], skip_special_tokens=False)[0] - if isinstance(token, bytes): - try: - token_str = token.decode("utf-8") - except: - token_str = token.decode("utf-8", errors="ignore") - logger.error(f"{idx}: decode_error: " + json.dumps( # gpt_35_turbo 经常有token会decode error,这里用来记录一下 - {"tokenizer_type": tokenizer_name, "token": str(token), "token_str": token_str}, - ensure_ascii=False)) - - token_bytes = token - # json_dumps = json.dumps(token_str) - elif isinstance(token, str): - token_str = token - token_bytes = bytes(token_str, "utf-8") - # json_dumps = json.dumps(token_str) - else: - logger.error(f"{idx}: wrong type for token {token_id} {type(token)} " + json.dumps( - {"text": text, "tokenizer_type": tokenizer_name}, ensure_ascii=False)) - token_str = token - token_bytes = token - # continue - - # ⭐ - # TODO: gpt3.5_turbo错误: 只有id和text是对的,token和 utf8都是错的。说明 convert_ids_to_tokens 出错了。 - table.append( - {"TokenID": token_id, - "Token": token_str, # utf-8解码后的字符串,为什么有些是 <0xE7>,表示什么?比如llama - "Text": decode_text, # - # "Bytes": token_bytes, # bytes类型在gradio前端页面被解码成字符串,比如 b'\xe4\xb8\xad' 仍然显示成 "中"。因此 str(token_bytes) - "UTF8 Bytes": str(token_bytes), - # "Unicode": json_dumps # unicode, 如果是ascii码,就直接显示。如果不是ascii码,就显示unicode - } - ) - - table_df = pd.DataFrame(table) - logger.info(f"tokenizer_type={tokenizer_name}, Tokens={table[:4]}") - return pos_tokens, len(encoding), table_df - - -def tokenize( - text: str, - tokenizer_name: str, - color_num: int = 5, - add_special_token: bool = False -): - """ tokenize wrapper - As gr.Update would be overwritten after passing to frontend, we apply lru_cache in _tokenize. - """ - pos_tokens, num_tokens, table_df = _tokenize(text, tokenizer_name, color_num, add_special_token) - return gr.update(value=pos_tokens, label=f"Tokens: {num_tokens}"), table_df - - -def tokenize_pair(text, tokenizer_type_1, tokenizer_type_2): - """ - input_text.change - """ - pos_tokens_1, table_df_1 = tokenize(text, tokenizer_type_1) - pos_tokens_2, table_df_2 = tokenize(text, tokenizer_type_2) - return pos_tokens_1, table_df_1, pos_tokens_2, table_df_2 - - -@lru_cache -def basic_count(tokenizer_name): - stats = iter_vocab(tokenizer_name) - return stats['vocab_size'], f'{stats["organization"]}' - # return tokenizer.vocab_size, f'{stats["中文汉字数"]["中文单字"]}/{stats["中文汉字数"]["中文多字"]}' - - -# def get_compress_rate(tokenizer_name, all_corpus, unit): -# tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) -# compress_rate_stats = tokenize_corpus(tokenizer, all_corpus) -# compress_rate = unit_convertor(compress_rate_stats, unit) -# return compress_rate - - -@lru_cache -def get_overlap_token_size(tokenizer_name_1, tokenizer_name_2): - tokenizer1 = tokenizer_factory.get_tokenizer(tokenizer_name_1) - tokenizer2 = tokenizer_factory.get_tokenizer(tokenizer_name_2) - - vocab_set_1 = tokenizer1.get_vocab().keys() - vocab_set_2 = tokenizer2.get_vocab().keys() - - token1 = next(iter(vocab_set_1)) - token2 = next(iter(vocab_set_2)) - if type(token1) != type(token2): # bytes str - if isinstance(token1, str): - vocab_set_1 = set([token.encode("utf-8") for token in vocab_set_1]) - if isinstance(token2, str): - vocab_set_2 = set([token.encode("utf-8") for token in vocab_set_2]) - - overlap_tokens = vocab_set_1 & vocab_set_2 - overlap_token_size = len(overlap_tokens) - logger.info( - f"{overlap_token_size} OverlapTokens of {tokenizer_name_1} {tokenizer_name_2}: {list(overlap_tokens)[:10]}") - return overlap_token_size, overlap_token_size - - -def on_load(url_params, request: gr.Request): - """ - onLoad - """ - text = None - tokenizer_type_1 = None - tokenizer_type_2 = None - try: - url_params = json.loads(url_params) - except: - url_params = {} - if request: - logger.info(str(request.headers)) - client_ip = request.client.host - # local_ip = socket.gethostbyname(socket.gethostbyname("")) - # headers = request.kwargs['headers'] - # if headers and 'x-forwarded-for' in headers: - # x_forwarded_for = headers['x-forwarded-for'] - # client_ip = x_forwarded_for.split(' ')[0] if x_forwarded_for else "" - # if "referer" in request.headers: # not work for huggingface-space - # url_params = parse_qs(urlparse(request.headers["referer"]).query) - # url_params = {k: v[0] for k, v in url_params.items() if len(v) > 0} - tokenizer_type_1 = url_params.get("tokenizer1", default_tokenizer_name_1) - tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2) - text = url_params.get("text", default_user_input) - logger.info(f"client_ip: {client_ip}; params: {url_params}") - return text, tokenizer_type_1, tokenizer_type_2 - - -# def compress_rate_unit_change(unit): -# return gr.update(label=f"Compress Rate: {unit}"), gr.update(label=f"Compress Rate: {unit}"), - - -def test_coding(): - bytes1 = b'\xe4\xb8\xad' - print(bytes1) # b'\xe4\xb8\xad' - - -if __name__ == "__main__": - print(get_overlap_token_size("gpt-35-turbo", "gpt-4")) - # print(basic_count("internlm_chat_7b")) +import gradio as gr +import json +import copy +import pandas as pd +from vocab import tokenizer_factory +from character_util import iter_vocab +from utils.log_util import logger +from functools import lru_cache + +default_user_input = """\ +Replace this text in the input field to see how tokenization works. +Buenos días! +华为发布Mate60手机。 +ラグビーワールドカップ2023フランス""" +# default_tokenizer_name_1 = "Meta/llama3" +default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k" +default_tokenizer_name_2 = "openai/gpt-4o" + + +@lru_cache +def _tokenize( + text: str, + tokenizer_name: str, + color_num: int = 5, + add_special_token: bool = False +): + logger.info("param=" + json.dumps({"text": text, "tokenizer_type": tokenizer_name}, ensure_ascii=False)) + pos_tokens = [] + tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) + if add_special_token: + encoding = tokenizer.encode(text, add_special_tokens=True) + else: + encoding = tokenizer.encode(text, add_special_tokens=False) + + table = [] + + for idx, token_id in enumerate(encoding): + decoded_text = tokenizer.decode([token_id]) # 特殊字符解码后会统一变成 �,对应 "\ufffd" + pos_tokens.extend([(decoded_text, str(idx % color_num))]) + + # token "Byte": # 这是 utf-8编码吧? + token = tokenizer.convert_ids_to_tokens([token_id], skip_special_tokens=False)[0] + if isinstance(token, bytes): + try: + token_str = token.decode("utf-8") + except: + token_str = token.decode("utf-8", errors="ignore") + logger.error(f"{idx}: decode_error: " + json.dumps( # gpt_35_turbo 经常有token会decode error,这里用来记录一下 + {"tokenizer_type": tokenizer_name, "token": str(token), "token_str": token_str}, + ensure_ascii=False)) + + token_bytes = token + # json_dumps = json.dumps(token_str) + elif isinstance(token, str): + token_str = token + token_bytes = bytes(token_str, "utf-8") + # json_dumps = json.dumps(token_str) + else: + logger.error(f"{idx}: wrong type for token {token_id} {type(token)} " + json.dumps( + {"text": text, "tokenizer_type": tokenizer_name}, ensure_ascii=False)) + token_str = token + token_bytes = token + # continue + + # ⭐ + # TODO: gpt3.5_turbo错误: 只有id和text是对的,token和 utf8都是错的。说明 convert_ids_to_tokens 出错了。 + table.append( + {"TokenID": token_id, + "Token": token_str, # utf-8解码后的字符串,为什么有些是 <0xE7>,表示什么?比如llama + "Text": decoded_text, # + # "Bytes": token_bytes, # bytes类型在gradio前端页面被解码成字符串,比如 b'\xe4\xb8\xad' 仍然显示成 "中"。因此 str(token_bytes) + "UTF8 Bytes": str(token_bytes), + # "Unicode": json_dumps # unicode, 如果是ascii码,就直接显示。如果不是ascii码,就显示unicode + } + ) + + table_df = pd.DataFrame(table) + logger.info(f"tokenizer_type={tokenizer_name}, Tokens={table[:4]}") + return pos_tokens, len(encoding), table_df + + +def tokenize( + text: str, + tokenizer_name: str, + color_num: int = 5, + add_special_token: bool = False +): + """ tokenize wrapper + As gr.Update would be overwritten after passing to frontend, we apply lru_cache in _tokenize. + """ + pos_tokens, num_tokens, table_df = _tokenize(text, tokenizer_name, color_num, add_special_token) + return gr.update(value=pos_tokens, label=f"Tokens: {num_tokens}"), table_df + + +def tokenize_pair(text, tokenizer_type_1, tokenizer_type_2): + """ + input_text.change + """ + pos_tokens_1, table_df_1 = tokenize(text, tokenizer_type_1) + pos_tokens_2, table_df_2 = tokenize(text, tokenizer_type_2) + return pos_tokens_1, table_df_1, pos_tokens_2, table_df_2 + + +@lru_cache +def basic_count(tokenizer_name): + stats = iter_vocab(tokenizer_name) + return stats['vocab_size'], f'{stats["organization"]}' + # return tokenizer.vocab_size, f'{stats["中文汉字数"]["中文单字"]}/{stats["中文汉字数"]["中文多字"]}' + + +# def get_compress_rate(tokenizer_name, all_corpus, unit): +# tokenizer = tokenizer_factory.get_tokenizer(tokenizer_name) +# compress_rate_stats = tokenize_corpus(tokenizer, all_corpus) +# compress_rate = unit_convertor(compress_rate_stats, unit) +# return compress_rate + + +@lru_cache +def get_overlap_token_size(tokenizer_name_1, tokenizer_name_2): + tokenizer1 = tokenizer_factory.get_tokenizer(tokenizer_name_1) + tokenizer2 = tokenizer_factory.get_tokenizer(tokenizer_name_2) + + vocab_set_1 = tokenizer1.get_vocab().keys() + vocab_set_2 = tokenizer2.get_vocab().keys() + + token1 = next(iter(vocab_set_1)) + token2 = next(iter(vocab_set_2)) + if type(token1) != type(token2): # bytes str + if isinstance(token1, str): + vocab_set_1 = set([token.encode("utf-8") for token in vocab_set_1]) + if isinstance(token2, str): + vocab_set_2 = set([token.encode("utf-8") for token in vocab_set_2]) + + overlap_tokens = vocab_set_1 & vocab_set_2 + overlap_token_size = len(overlap_tokens) + logger.info( + f"{overlap_token_size} OverlapTokens of {tokenizer_name_1} {tokenizer_name_2}: {list(overlap_tokens)[:10]}") + return overlap_token_size, overlap_token_size + + +def on_load(url_params, request: gr.Request): + """ + onLoad + """ + text = None + tokenizer_type_1 = None + tokenizer_type_2 = None + try: + url_params = json.loads(url_params) + except: + url_params = {} + if request: + logger.info(str(request.headers)) + client_ip = request.client.host + # local_ip = socket.gethostbyname(socket.gethostbyname("")) + # headers = request.kwargs['headers'] + # if headers and 'x-forwarded-for' in headers: + # x_forwarded_for = headers['x-forwarded-for'] + # client_ip = x_forwarded_for.split(' ')[0] if x_forwarded_for else "" + # if "referer" in request.headers: # not work for huggingface-space + # url_params = parse_qs(urlparse(request.headers["referer"]).query) + # url_params = {k: v[0] for k, v in url_params.items() if len(v) > 0} + tokenizer_type_1 = url_params.get("tokenizer1", default_tokenizer_name_1) + tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2) + text = url_params.get("text", default_user_input) + logger.info(f"client_ip: {client_ip}; params: {url_params}") + return text, tokenizer_type_1, tokenizer_type_2 + + +# def compress_rate_unit_change(unit): +# return gr.update(label=f"Compress Rate: {unit}"), gr.update(label=f"Compress Rate: {unit}"), + + +def test_coding(): + bytes1 = b'\xe4\xb8\xad' + print(bytes1) # b'\xe4\xb8\xad' + + +if __name__ == "__main__": + print(get_overlap_token_size("gpt-35-turbo", "gpt-4")) + # print(basic_count("internlm_chat_7b")) diff --git a/requirements.txt b/requirements.txt index d7f0bf11429c3fcd9455b69f8b6b98a6718ce7ec..f6c82d06b6ee0e70a1ddf29c7539ed53a56c59dc 100644 --- a/requirements.txt +++ b/requirements.txt @@ -1,11 +1,12 @@ -transformers -sentencepiece -tiktoken -icetk -torch -nltk -boto3 -protobuf==4.25.3 -ai2-olmo==0.2.4 -ipadic +gradio>=4.32.0 +transformers +sentencepiece +tiktoken +icetk +torch +nltk +boto3 +protobuf==4.25.3 +ai2-olmo==0.2.4 +ipadic fugashi \ No newline at end of file diff --git a/stats/character_stats.json b/stats/character_stats.json index 179993ee96bb26f3397ac6162ce37f02d07c34be..ff3182f55ef1c220eec1dca5650eb79a07600986 100644 --- a/stats/character_stats.json +++ b/stats/character_stats.json @@ -1,1769 +1,1788 @@ -{ - "FacebookAI/xlm-roberta-base": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "num(digit)": 2728, - "len(digit)": "1,3,9", - "num(space)": 1, - "len(space)": "1,1,1", - "num(ar)": 14644, - "len(ar)": "1,4,16", - "num(zh)": 18457, - "len(zh)": "1,2,16", - "num(ja)": 20572, - "len(ja)": "1,2,16", - "num(ja-kana)": 3434, - "len(ja-kana)": "1,3,12", - "num(ko)": 5373, - "len(ko)": "1,2,8" - }, - "clue/roberta_chinese_clue_tiny": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "num(digit)": 230, - "len(digit)": "1,4,10", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 30, - "len(ar)": "1,2,3", - "num(zh)": 5689, - "len(zh)": "1,1,1", - "num(ja)": 5691, - "len(ja)": "1,1,3", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "dbmdz/bert-base-german-uncased": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "num(digit)": 1733, - "len(digit)": "1,4,12", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "google-bert/bert-base-cased": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "num(digit)": 926, - "len(digit)": "1,4,11", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 94, - "len(ar)": "1,3,4", - "num(zh)": 226, - "len(zh)": "1,2,3", - "num(ja)": 390, - "len(ja)": "1,2,3", - "num(ja-kana)": 164, - "len(ja-kana)": "1,2,3", - "num(ko)": 10, - "len(ko)": "1,2,3" - }, - "google-bert/bert-base-chinese": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "num(digit)": 1451, - "len(digit)": "1,3,12", - "num(space)": 2, - "len(space)": "1,2,3", - "num(ar)": 30, - "len(ar)": "1,2,3", - "num(zh)": 14642, - "len(zh)": "1,2,3", - "num(ja)": 15197, - "len(ja)": "1,3,15", - "num(ja-kana)": 553, - "len(ja-kana)": "1,3,15", - "num(ko)": 0, - "len(ko)": "-" - }, - "google-bert/bert-base-german-cased": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "num(digit)": 4065, - "len(digit)": "1,11,22", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "google-bert/bert-base-multilingual-cased": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "num(digit)": 2583, - "len(digit)": "1,3,13", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 4873, - "len(ar)": "1,5,14", - "num(zh)": 13542, - "len(zh)": "1,2,3", - "num(ja)": 14880, - "len(ja)": "1,3,10", - "num(ja-kana)": 1336, - "len(ja-kana)": "1,4,10", - "num(ko)": 3271, - "len(ko)": "1,3,6" - }, - "google-bert/bert-base-multilingual-uncased": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "num(digit)": 2510, - "len(digit)": "1,3,13", - "num(space)": 2, - "len(space)": "1,2,3", - "num(ar)": 4530, - "len(ar)": "1,5,13", - "num(zh)": 16658, - "len(zh)": "1,2,3", - "num(ja)": 17858, - "len(ja)": "1,3,10", - "num(ja-kana)": 1188, - "len(ja-kana)": "1,4,10", - "num(ko)": 0, - "len(ko)": "-" - }, - "google-bert/bert-base-uncased": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "num(digit)": 2056, - "len(digit)": "1,4,11", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 88, - "len(ar)": "1,3,5", - "num(zh)": 488, - "len(zh)": "1,2,3", - "num(ja)": 676, - "len(ja)": "1,2,3", - "num(ja-kana)": 188, - "len(ja-kana)": "1,2,3", - "num(ko)": 0, - "len(ko)": "-" - }, - "google/mobilebert-uncased": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "num(digit)": 2056, - "len(digit)": "1,4,11", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 88, - "len(ar)": "1,3,5", - "num(zh)": 488, - "len(zh)": "1,2,3", - "num(ja)": 676, - "len(ja)": "1,2,3", - "num(ja-kana)": 188, - "len(ja-kana)": "1,2,3", - "num(ko)": 0, - "len(ko)": "-" - }, - "tohoku-nlp/bert-base-japanese": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "num(digit)": 669, - "len(digit)": "1,3,5", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 10, - "len(ar)": "1,3,3", - "num(zh)": 18792, - "len(zh)": "1,2,11", - "num(ja)": 28367, - "len(ja)": "1,2,13", - "num(ja-kana)": 12359, - "len(ja-kana)": "1,4,13", - "num(ko)": 0, - "len(ko)": "-" - }, - "gpt-4": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 47472, - "len(space)": "1,7,128", - "num(ar)": 113, - "len(ar)": "1,2,10", - "num(zh)": 868, - "len(zh)": "1,1,7", - "num(ja)": 1035, - "len(ja)": "1,1,7", - "num(ja-kana)": 169, - "len(ja-kana)": "1,1,7", - "num(ko)": 299, - "len(ko)": "1,2,4" - }, - "llama3": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 60860, - "len(space)": "1,6,128", - "num(ar)": 3810, - "len(ar)": "1,4,11", - "num(zh)": 4424, - "len(zh)": "1,1,7", - "num(ja)": 5387, - "len(ja)": "1,2,8", - "num(ja-kana)": 1086, - "len(ja-kana)": "1,2,8", - "num(ko)": 2281, - "len(ko)": "1,2,6" - }, - "google-t5/t5-large": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "num(digit)": 1133, - "len(digit)": "1,3,13", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "google/byt5-small": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 10, - "len(space)": "1,1,1", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "google/mt5-large": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "num(digit)": 16829, - "len(digit)": "1,4,16", - "num(space)": 1, - "len(space)": "1,1,1", - "num(ar)": 7459, - "len(ar)": "1,3,16", - "num(zh)": 21489, - "len(zh)": "1,2,16", - "num(ja)": 27078, - "len(ja)": "1,2,16", - "num(ja-kana)": 9160, - "len(ja-kana)": "1,3,14", - "num(ko)": 4041, - "len(ko)": "1,1,10" - }, - "lmsys/fastchat-t5-3b-v1.0": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "num(digit)": 1033, - "len(digit)": "1,3,8", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "paust/pko-t5-large": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "num(digit)": 51, - "len(digit)": "1,2,3", - "num(space)": 10, - "len(space)": "1,1,1", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 49050, - "len(ko)": "1,2,16" - }, - "bloom": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "num(digit)": 6629, - "len(digit)": "1,4,50", - "num(space)": 140180, - "len(space)": "1,6,600", - "num(ar)": 20854, - "len(ar)": "1,5,16", - "num(zh)": 30603, - "len(zh)": "1,2,23", - "num(ja)": 30816, - "len(ja)": "1,2,23", - "num(ja-kana)": 214, - "len(ja-kana)": "1,1,3", - "num(ko)": 338, - "len(ko)": "1,1,3" - }, - "llama": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "ClueAI/ChatYuan-large-v2": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "num(digit)": 740, - "len(digit)": "1,3,9", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 2, - "len(ar)": "1,1,1", - "num(zh)": 29591, - "len(zh)": "1,2,16", - "num(ja)": 29736, - "len(ja)": "1,2,16", - "num(ja-kana)": 145, - "len(ja-kana)": "1,1,2", - "num(ko)": 0, - "len(ko)": "-" - }, - "Meta/llama3": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 60860, - "len(space)": "1,6,128", - "num(ar)": 3810, - "len(ar)": "1,4,11", - "num(zh)": 4424, - "len(zh)": "1,1,7", - "num(ja)": 5387, - "len(ja)": "1,2,8", - "num(ja-kana)": 1086, - "len(ja-kana)": "1,2,8", - "num(ko)": 2281, - "len(ko)": "1,2,6" - }, - "openai/gpt-4": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 47472, - "len(space)": "1,7,128", - "num(ar)": 113, - "len(ar)": "1,2,10", - "num(zh)": 868, - "len(zh)": "1,1,7", - "num(ja)": 1035, - "len(ja)": "1,1,7", - "num(ja-kana)": 169, - "len(ja-kana)": "1,1,7", - "num(ko)": 299, - "len(ko)": "1,2,4" - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 60860, - "len(space)": "1,6,128", - "num(ar)": 3810, - "len(ar)": "1,4,11", - "num(zh)": 4424, - "len(zh)": "1,1,7", - "num(ja)": 5387, - "len(ja)": "1,2,8", - "num(ja-kana)": 1086, - "len(ja-kana)": "1,2,8", - "num(ko)": 2281, - "len(ko)": "1,2,6" - }, - "bigscience/bloom": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "num(digit)": 6629, - "len(digit)": "1,4,50", - "num(space)": 140180, - "len(space)": "1,6,600", - "num(ar)": 20854, - "len(ar)": "1,5,16", - "num(zh)": 30603, - "len(zh)": "1,2,23", - "num(ja)": 30816, - "len(ja)": "1,2,23", - "num(ja-kana)": 214, - "len(ja-kana)": "1,1,3", - "num(ko)": 338, - "len(ko)": "1,1,3" - }, - "huggyllama/llama-7b": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "baichuan-inc/Baichuan-7B": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "num(digit)": 335, - "len(digit)": "1,14,14", - "num(space)": 13, - "len(space)": "1,1,1", - "num(ar)": 299, - "len(ar)": "1,1,2", - "num(zh)": 27676, - "len(zh)": "1,1,9", - "num(ja)": 28522, - "len(ja)": "1,1,9", - "num(ja-kana)": 178, - "len(ja-kana)": "1,1,1", - "num(ko)": 1591, - "len(ko)": "1,1,1" - }, - "01-ai/Yi-34B": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "num(digit)": 200, - "len(digit)": "1,13,15", - "num(space)": 24274, - "len(space)": "1,7,16", - "num(ar)": 18, - "len(ar)": "1,1,4", - "num(zh)": 21356, - "len(zh)": "1,2,12", - "num(ja)": 21407, - "len(ja)": "1,2,12", - "num(ja-kana)": 51, - "len(ja-kana)": "1,1,2", - "num(ko)": 28, - "len(ko)": "1,1,2" - }, - "01-ai/Yi-6B": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "num(digit)": 200, - "len(digit)": "1,13,15", - "num(space)": 24274, - "len(space)": "1,7,16", - "num(ar)": 18, - "len(ar)": "1,1,4", - "num(zh)": 21356, - "len(zh)": "1,2,12", - "num(ja)": 21407, - "len(ja)": "1,2,12", - "num(ja-kana)": 51, - "len(ja-kana)": "1,1,2", - "num(ko)": 28, - "len(ko)": "1,1,2" - }, - "01-ai/Yi-VL-34B": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "num(digit)": 200, - "len(digit)": "1,13,15", - "num(space)": 43, - "len(space)": "1,2,15", - "num(ar)": 18, - "len(ar)": "1,1,4", - "num(zh)": 21356, - "len(zh)": "1,2,12", - "num(ja)": 21407, - "len(ja)": "1,2,12", - "num(ja-kana)": 51, - "len(ja-kana)": "1,1,2", - "num(ko)": 28, - "len(ko)": "1,1,2" - }, - "ClassCat/gpt2-base-french": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "num(digit)": 1833, - "len(digit)": "1,4,5", - "num(space)": 31889, - "len(space)": "1,7,32", - "num(ar)": 41, - "len(ar)": "1,1,4", - "num(zh)": 27, - "len(zh)": "1,1,1", - "num(ja)": 46, - "len(ja)": "1,1,2", - "num(ja-kana)": 19, - "len(ja-kana)": "1,1,2", - "num(ko)": 0, - "len(ko)": "-" - }, - "ClassCat/gpt2-base-spanish": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "num(digit)": 1492, - "len(digit)": "1,4,9", - "num(space)": 34496, - "len(space)": "1,8,32", - "num(ar)": 36, - "len(ar)": "1,1,4", - "num(zh)": 13, - "len(zh)": "1,1,1", - "num(ja)": 36, - "len(ja)": "1,1,2", - "num(ja-kana)": 23, - "len(ja-kana)": "1,1,2", - "num(ko)": 0, - "len(ko)": "-" - }, - "ClueAI/PromptCLUE-base": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "num(digit)": 740, - "len(digit)": "1,3,9", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 2, - "len(ar)": "1,1,1", - "num(zh)": 29591, - "len(zh)": "1,2,16", - "num(ja)": 29736, - "len(ja)": "1,2,16", - "num(ja-kana)": 145, - "len(ja-kana)": "1,1,2", - "num(ko)": 0, - "len(ko)": "-" - }, - "CohereForAI/aya-101": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "num(digit)": 16829, - "len(digit)": "1,4,16", - "num(space)": 1, - "len(space)": "1,1,1", - "num(ar)": 7459, - "len(ar)": "1,3,16", - "num(zh)": 21489, - "len(zh)": "1,2,16", - "num(ja)": 27078, - "len(ja)": "1,2,16", - "num(ja-kana)": 9160, - "len(ja-kana)": "1,3,14", - "num(ko)": 4041, - "len(ko)": "1,1,10" - }, - "EleutherAI/gpt-neox-20b": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "num(digit)": 2036, - "len(digit)": "1,3,35", - "num(space)": 28996, - "len(space)": "1,7,512", - "num(ar)": 94, - "len(ar)": "1,2,4", - "num(zh)": 313, - "len(zh)": "1,1,2", - "num(ja)": 480, - "len(ja)": "1,1,4", - "num(ja-kana)": 167, - "len(ja-kana)": "1,1,4", - "num(ko)": 25, - "len(ko)": "1,1,2" - }, - "HuggingFaceH4/starchat-alpha": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 16515, - "len(space)": "1,6,256", - "num(ar)": 84, - "len(ar)": "1,2,4", - "num(zh)": 2030, - "len(zh)": "1,1,7", - "num(ja)": 2368, - "len(ja)": "1,1,8", - "num(ja-kana)": 360, - "len(ja-kana)": "1,2,8", - "num(ko)": 491, - "len(ko)": "1,2,5" - }, - "HuggingFaceH4/zephyr-7b-beta": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 85, - "len(space)": "1,3,15", - "num(ar)": 71, - "len(ar)": "1,1,2", - "num(zh)": 1459, - "len(zh)": "1,1,2", - "num(ja)": 1593, - "len(ja)": "1,1,2", - "num(ja-kana)": 134, - "len(ja-kana)": "1,1,1", - "num(ko)": 346, - "len(ko)": "1,1,1" - }, - "LLM360/CrystalCoder": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "NousResearch/Llama-2-7b-chat-hf": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "OrionStarAI/Orion-14B-Chat": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "num(digit)": 1559, - "len(digit)": "1,4,14", - "num(space)": 18383, - "len(space)": "1,6,16", - "num(ar)": 102, - "len(ar)": "1,1,1", - "num(zh)": 46998, - "len(zh)": "1,2,16", - "num(ja)": 49644, - "len(ja)": "1,2,16", - "num(ja-kana)": 2987, - "len(ja-kana)": "1,3,11", - "num(ko)": 5110, - "len(ko)": "1,2,7" - }, - "Qwen/Qwen-7B-Chat": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 55883, - "len(space)": "1,6,128", - "num(ar)": 4018, - "len(ar)": "1,3,12", - "num(zh)": 25557, - "len(zh)": "1,2,7", - "num(ja)": 27206, - "len(ja)": "1,2,11", - "num(ja-kana)": 2089, - "len(ja-kana)": "1,3,11", - "num(ko)": 3495, - "len(ko)": "1,1,5" - }, - "Qwen/Qwen1.5-14B-Chat": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 55883, - "len(space)": "1,6,128", - "num(ar)": 4018, - "len(ar)": "1,3,12", - "num(zh)": 25557, - "len(zh)": "1,2,7", - "num(ja)": 27206, - "len(ja)": "1,2,11", - "num(ja-kana)": 2089, - "len(ja-kana)": "1,3,11", - "num(ko)": 3495, - "len(ko)": "1,1,5" - }, - "Skywork/Skywork-13B-Math": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 62, - "len(space)": "1,2,15", - "num(ar)": 56, - "len(ar)": "1,1,2", - "num(zh)": 33913, - "len(zh)": "1,2,5", - "num(ja)": 34064, - "len(ja)": "1,2,5", - "num(ja-kana)": 150, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "Skywork/Skywork-13B-base": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 62, - "len(space)": "1,2,15", - "num(ar)": 56, - "len(ar)": "1,1,2", - "num(zh)": 33913, - "len(zh)": "1,2,5", - "num(ja)": 34064, - "len(ja)": "1,2,5", - "num(ja-kana)": 150, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "THUDM/chatglm-6b": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 93, - "len(space)": "1,34,80", - "num(ar)": 137, - "len(ar)": "1,2,4", - "num(zh)": 61358, - "len(zh)": "1,2,16", - "num(ja)": 61784, - "len(ja)": "1,2,16", - "num(ja-kana)": 439, - "len(ja-kana)": "1,2,5", - "num(ko)": 114, - "len(ko)": "1,1,3" - }, - "THUDM/chatglm2-6b": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 67, - "len(space)": "1,2,15", - "num(ar)": 57, - "len(ar)": "1,1,2", - "num(zh)": 30922, - "len(zh)": "1,2,16", - "num(ja)": 31065, - "len(ja)": "1,2,16", - "num(ja-kana)": 143, - "len(ja-kana)": "1,1,1", - "num(ko)": 604, - "len(ko)": "1,1,1" - }, - "THUDM/chatglm3-6b": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 67, - "len(space)": "1,2,15", - "num(ar)": 57, - "len(ar)": "1,1,2", - "num(zh)": 30922, - "len(zh)": "1,2,16", - "num(ja)": 31065, - "len(ja)": "1,2,16", - "num(ja-kana)": 143, - "len(ja-kana)": "1,1,1", - "num(ko)": 604, - "len(ko)": "1,1,1" - }, - "TigerResearch/tigerbot-13b-chat-v2": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 28603, - "len(zh)": "1,2,16", - "num(ja)": 28770, - "len(ja)": "1,2,16", - "num(ja-kana)": 167, - "len(ja-kana)": "1,1,2", - "num(ko)": 261, - "len(ko)": "1,1,1" - }, - "TigerResearch/tigerbot-70b-chat-v4-4k": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 30509, - "len(zh)": "1,2,16", - "num(ja)": 32061, - "len(ja)": "1,2,16", - "num(ja-kana)": 2071, - "len(ja-kana)": "1,2,8", - "num(ko)": 1504, - "len(ko)": "1,1,5" - }, - "Upstage/SOLAR-10.7B-v1.0": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 85, - "len(space)": "1,3,15", - "num(ar)": 71, - "len(ar)": "1,1,2", - "num(zh)": 1459, - "len(zh)": "1,1,2", - "num(ja)": 1593, - "len(ja)": "1,1,2", - "num(ja-kana)": 134, - "len(ja-kana)": "1,1,1", - "num(ko)": 346, - "len(ko)": "1,1,1" - }, - "WizardLM/WizardCoder-15B-V1.0": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 16515, - "len(space)": "1,6,256", - "num(ar)": 84, - "len(ar)": "1,2,4", - "num(zh)": 2030, - "len(zh)": "1,1,7", - "num(ja)": 2368, - "len(ja)": "1,1,8", - "num(ja-kana)": 360, - "len(ja-kana)": "1,2,8", - "num(ko)": 491, - "len(ko)": "1,2,5" - }, - "WizardLM/WizardCoder-Python-7B-V1.0": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "WizardLM/WizardLM-7B-V1.0": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "WizardLM/WizardMath-70B-V1.0": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "abeja/gpt-neox-japanese-2.7b": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 15176, - "len(zh)": "1,2,2", - "num(ja)": 31482, - "len(ja)": "1,2,3", - "num(ja-kana)": 16306, - "len(ja-kana)": "1,3,3", - "num(ko)": 0, - "len(ko)": "-" - }, - "ai21labs/Jamba-v0.1": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "num(digit)": 1556, - "len(digit)": "1,16,17", - "num(space)": 39501, - "len(space)": "1,7,32", - "num(ar)": 867, - "len(ar)": "1,3,8", - "num(zh)": 1157, - "len(zh)": "1,1,2", - "num(ja)": 1287, - "len(ja)": "1,1,2", - "num(ja-kana)": 130, - "len(ja-kana)": "1,1,2", - "num(ko)": 312, - "len(ko)": "1,1,2" - }, - "allenai/OLMo-7B": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "num(digit)": 2036, - "len(digit)": "1,3,35", - "num(space)": 29019, - "len(space)": "1,7,512", - "num(ar)": 94, - "len(ar)": "1,2,4", - "num(zh)": 313, - "len(zh)": "1,1,2", - "num(ja)": 480, - "len(ja)": "1,1,4", - "num(ja-kana)": 167, - "len(ja-kana)": "1,1,4", - "num(ko)": 25, - "len(ko)": "1,1,2" - }, - "baichuan-inc/Baichuan2-7B-Chat": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "num(digit)": 1023, - "len(digit)": "1,14,14", - "num(space)": 26013, - "len(space)": "1,7,32", - "num(ar)": 335, - "len(ar)": "1,1,27", - "num(zh)": 70398, - "len(zh)": "1,2,32", - "num(ja)": 71269, - "len(ja)": "1,2,32", - "num(ja-kana)": 206, - "len(ja-kana)": "1,1,9", - "num(ko)": 1595, - "len(ko)": "1,1,2" - }, - "ckiplab/gpt2-base-chinese": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "num(digit)": 1451, - "len(digit)": "1,3,12", - "num(space)": 2, - "len(space)": "1,2,3", - "num(ar)": 30, - "len(ar)": "1,2,3", - "num(zh)": 14642, - "len(zh)": "1,2,3", - "num(ja)": 15197, - "len(ja)": "1,3,15", - "num(ja-kana)": 553, - "len(ja-kana)": "1,3,15", - "num(ko)": 0, - "len(ko)": "-" - }, - "cyberagent/open-calm-7b": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "num(digit)": 690, - "len(digit)": "1,3,5", - "num(space)": 1698, - "len(space)": "1,4,33", - "num(ar)": 10, - "len(ar)": "1,1,4", - "num(zh)": 30775, - "len(zh)": "1,3,31", - "num(ja)": 45790, - "len(ja)": "1,3,31", - "num(ja-kana)": 32535, - "len(ja-kana)": "1,3,31", - "num(ko)": 0, - "len(ko)": "-" - }, - "databricks/dbrx-instruct": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "num(digit)": 1126, - "len(digit)": "1,3,17", - "num(space)": 47400, - "len(space)": "1,7,128", - "num(ar)": 113, - "len(ar)": "1,2,10", - "num(zh)": 868, - "len(zh)": "1,1,7", - "num(ja)": 1035, - "len(ja)": "1,1,7", - "num(ja-kana)": 169, - "len(ja-kana)": "1,1,7", - "num(ko)": 299, - "len(ko)": "1,2,4" - }, - "deepseek-ai/DeepSeek-V2": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 48073, - "len(space)": "1,7,128", - "num(ar)": 48, - "len(ar)": "1,1,4", - "num(zh)": 18052, - "len(zh)": "1,2,16", - "num(ja)": 18090, - "len(ja)": "1,2,16", - "num(ja-kana)": 38, - "len(ja-kana)": "1,1,2", - "num(ko)": 16, - "len(ko)": "1,1,2" - }, - "deepseek-ai/deepseek-coder-33b-instruct": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 15254, - "len(space)": "1,6,65", - "num(ar)": 12, - "len(ar)": "1,1,2", - "num(zh)": 4803, - "len(zh)": "1,2,4", - "num(ja)": 4804, - "len(ja)": "1,2,4", - "num(ja-kana)": 1, - "len(ja-kana)": "1,1,1", - "num(ko)": 0, - "len(ko)": "-" - }, - "deepseek-ai/deepseek-llm-7b-base": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 48073, - "len(space)": "1,7,128", - "num(ar)": 48, - "len(ar)": "1,1,4", - "num(zh)": 18052, - "len(zh)": "1,2,16", - "num(ja)": 18090, - "len(ja)": "1,2,16", - "num(ja-kana)": 38, - "len(ja-kana)": "1,1,2", - "num(ko)": 16, - "len(ko)": "1,1,2" - }, - "eson/kplug-base-encoder": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "num(digit)": 420, - "len(digit)": "1,3,12", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 5764, - "len(zh)": "1,1,1", - "num(ja)": 5766, - "len(ja)": "1,1,3", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "fnlp/moss-moon-003-sft": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "num(digit)": 1848, - "len(digit)": "1,3,16", - "num(space)": 33566, - "len(space)": "1,7,102", - "num(ar)": 25, - "len(ar)": "1,1,4", - "num(zh)": 54230, - "len(zh)": "1,2,15", - "num(ja)": 54381, - "len(ja)": "1,2,15", - "num(ja-kana)": 152, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "google/gemma-7b": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "num(digit)": 134, - "len(digit)": "1,10,12", - "num(space)": 125662, - "len(space)": "1,7,31", - "num(ar)": 6274, - "len(ar)": "1,4,15", - "num(zh)": 23767, - "len(zh)": "1,2,12", - "num(ja)": 28852, - "len(ja)": "1,2,12", - "num(ja-kana)": 7061, - "len(ja-kana)": "1,3,12", - "num(ko)": 2295, - "len(ko)": "1,1,5" - }, - "google/switch-c-2048": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "num(digit)": 1133, - "len(digit)": "1,3,13", - "num(space)": 0, - "len(space)": "-", - "num(ar)": 0, - "len(ar)": "-", - "num(zh)": 0, - "len(zh)": "-", - "num(ja)": 0, - "len(ja)": "-", - "num(ja-kana)": 0, - "len(ja-kana)": "-", - "num(ko)": 0, - "len(ko)": "-" - }, - "hfl/chinese-alpaca-lora-7b": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "num(digit)": 614, - "len(digit)": "1,3,5", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 17839, - "len(zh)": "1,2,13", - "num(ja)": 17993, - "len(ja)": "1,2,13", - "num(ja-kana)": 154, - "len(ja-kana)": "1,1,1", - "num(ko)": 135, - "len(ko)": "1,1,1" - }, - "hfl/chinese-llama-2-7b": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 23974, - "len(zh)": "1,2,16", - "num(ja)": 24111, - "len(ja)": "1,2,16", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "hfl/chinese-llama-lora-7b": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "num(digit)": 614, - "len(digit)": "1,3,5", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 17839, - "len(zh)": "1,2,13", - "num(ja)": 17993, - "len(ja)": "1,2,13", - "num(ja-kana)": 154, - "len(ja-kana)": "1,1,1", - "num(ko)": 135, - "len(ko)": "1,1,1" - }, - "hfl/llama-3-chinese-8b": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 60860, - "len(space)": "1,6,128", - "num(ar)": 3810, - "len(ar)": "1,4,11", - "num(zh)": 4424, - "len(zh)": "1,1,7", - "num(ja)": 5387, - "len(ja)": "1,2,8", - "num(ja-kana)": 1086, - "len(ja-kana)": "1,2,8", - "num(ko)": 2281, - "len(ko)": "1,2,6" - }, - "hpcai-tech/grok-1": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "num(digit)": 40, - "len(digit)": "1,6,13", - "num(space)": 399, - "len(space)": "1,3,16", - "num(ar)": 69, - "len(ar)": "1,2,4", - "num(zh)": 1626, - "len(zh)": "1,2,7", - "num(ja)": 3118, - "len(ja)": "1,2,8", - "num(ja-kana)": 1908, - "len(ja-kana)": "1,2,8", - "num(ko)": 67, - "len(ko)": "1,1,2" - }, - "internlm/internlm-chat-7b": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "num(digit)": 1259, - "len(digit)": "1,3,19", - "num(space)": 33008, - "len(space)": "1,6,128", - "num(ar)": 6702, - "len(ar)": "1,4,16", - "num(zh)": 32000, - "len(zh)": "1,2,15", - "num(ja)": 32866, - "len(ja)": "1,2,15", - "num(ja-kana)": 864, - "len(ja-kana)": "1,2,9", - "num(ko)": 298, - "len(ko)": "1,1,1" - }, - "internlm/internlm-xcomposer-7b": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "num(digit)": 1261, - "len(digit)": "1,3,19", - "num(space)": 33008, - "len(space)": "1,6,128", - "num(ar)": 6702, - "len(ar)": "1,4,16", - "num(zh)": 32000, - "len(zh)": "1,2,15", - "num(ja)": 32866, - "len(ja)": "1,2,15", - "num(ja-kana)": 864, - "len(ja-kana)": "1,2,9", - "num(ko)": 298, - "len(ko)": "1,1,1" - }, - "internlm/internlm2-chat-7b": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "num(digit)": 1261, - "len(digit)": "1,3,18", - "num(space)": 28681, - "len(space)": "1,7,128", - "num(ar)": 30, - "len(ar)": "1,1,1", - "num(zh)": 31148, - "len(zh)": "1,2,15", - "num(ja)": 31296, - "len(ja)": "1,2,15", - "num(ja-kana)": 148, - "len(ja-kana)": "1,1,1", - "num(ko)": 83, - "len(ko)": "1,1,1" - }, - "internlm/internlm2-math-7b": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "num(digit)": 1261, - "len(digit)": "1,3,18", - "num(space)": 28681, - "len(space)": "1,7,128", - "num(ar)": 30, - "len(ar)": "1,1,1", - "num(zh)": 31148, - "len(zh)": "1,2,15", - "num(ja)": 31296, - "len(ja)": "1,2,15", - "num(ja-kana)": 148, - "len(ja-kana)": "1,1,1", - "num(ko)": 83, - "len(ko)": "1,1,1" - }, - "microsoft/Phi-3-mini-4k-instruct": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 61, - "len(space)": "1,2,15", - "num(ar)": 55, - "len(ar)": "1,1,2", - "num(zh)": 700, - "len(zh)": "1,1,1", - "num(ja)": 837, - "len(ja)": "1,1,1", - "num(ja-kana)": 137, - "len(ja-kana)": "1,1,1", - "num(ko)": 111, - "len(ko)": "1,1,1" - }, - "microsoft/phi-1": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "num(digit)": 1691, - "len(digit)": "1,3,16", - "num(space)": 33129, - "len(space)": "1,7,66", - "num(ar)": 22, - "len(ar)": "1,1,3", - "num(zh)": 51, - "len(zh)": "1,1,4", - "num(ja)": 183, - "len(ja)": "1,1,7", - "num(ja-kana)": 133, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "microsoft/phi-2": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "num(digit)": 1691, - "len(digit)": "1,3,16", - "num(space)": 33129, - "len(space)": "1,7,66", - "num(ar)": 22, - "len(ar)": "1,1,3", - "num(zh)": 51, - "len(zh)": "1,1,4", - "num(ja)": 183, - "len(ja)": "1,1,7", - "num(ja-kana)": 133, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "mistralai/Mistral-7B-v0.1": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 85, - "len(space)": "1,3,15", - "num(ar)": 71, - "len(ar)": "1,1,2", - "num(zh)": 1459, - "len(zh)": "1,1,2", - "num(ja)": 1593, - "len(ja)": "1,1,2", - "num(ja-kana)": 134, - "len(ja-kana)": "1,1,1", - "num(ko)": 346, - "len(ko)": "1,1,1" - }, - "mistralai/Mixtral-8x7B-v0.1": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 85, - "len(space)": "1,3,15", - "num(ar)": 71, - "len(ar)": "1,1,2", - "num(zh)": 1459, - "len(zh)": "1,1,2", - "num(ja)": 1593, - "len(ja)": "1,1,2", - "num(ja-kana)": 134, - "len(ja-kana)": "1,1,1", - "num(ko)": 346, - "len(ko)": "1,1,1" - }, - "openai-community/gpt2": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "num(digit)": 1691, - "len(digit)": "1,3,16", - "num(space)": 33129, - "len(space)": "1,7,66", - "num(ar)": 22, - "len(ar)": "1,1,3", - "num(zh)": 51, - "len(zh)": "1,1,4", - "num(ja)": 183, - "len(ja)": "1,1,7", - "num(ja-kana)": 133, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "openai/code-davinci-002": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "num(digit)": 1691, - "len(digit)": "1,3,16", - "num(space)": 33175, - "len(space)": "1,7,66", - "num(ar)": 22, - "len(ar)": "1,1,3", - "num(zh)": 51, - "len(zh)": "1,1,4", - "num(ja)": 183, - "len(ja)": "1,1,7", - "num(ja-kana)": 133, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "openai/gpt-3.5-turbo": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 47472, - "len(space)": "1,7,128", - "num(ar)": 113, - "len(ar)": "1,2,10", - "num(zh)": 868, - "len(zh)": "1,1,7", - "num(ja)": 1035, - "len(ja)": "1,1,7", - "num(ja-kana)": 169, - "len(ja-kana)": "1,1,7", - "num(ko)": 299, - "len(ko)": "1,2,4" - }, - "openai/gpt-4o": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "num(digit)": 1110, - "len(digit)": "1,3,3", - "num(space)": 109316, - "len(space)": "1,6,128", - "num(ar)": 8055, - "len(ar)": "1,4,12", - "num(zh)": 7563, - "len(zh)": "1,2,11", - "num(ja)": 8292, - "len(ja)": "1,2,11", - "num(ja-kana)": 809, - "len(ja-kana)": "1,2,11", - "num(ko)": 2365, - "len(ko)": "1,2,8" - }, - "openai/text-davinci-003": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "num(digit)": 1691, - "len(digit)": "1,3,16", - "num(space)": 33175, - "len(space)": "1,7,66", - "num(ar)": 22, - "len(ar)": "1,1,3", - "num(zh)": 51, - "len(zh)": "1,1,4", - "num(ja)": 183, - "len(ja)": "1,1,7", - "num(ja-kana)": 133, - "len(ja-kana)": "1,1,7", - "num(ko)": 0, - "len(ko)": "-" - }, - "thu-coai/CharacterGLM-6B": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "num(digit)": 20, - "len(digit)": "1,1,1", - "num(space)": 67, - "len(space)": "1,2,15", - "num(ar)": 57, - "len(ar)": "1,1,2", - "num(zh)": 30922, - "len(zh)": "1,2,16", - "num(ja)": 31065, - "len(ja)": "1,2,16", - "num(ja-kana)": 143, - "len(ja-kana)": "1,1,1", - "num(ko)": 604, - "len(ko)": "1,1,1" - }, - "tiiuae/falcon-180b": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "num(digit)": 1108, - "len(digit)": "1,3,3", - "num(space)": 40202, - "len(space)": "1,7,65", - "num(ar)": 21, - "len(ar)": "1,1,4", - "num(zh)": 1627, - "len(zh)": "1,1,3", - "num(ja)": 1652, - "len(ja)": "1,1,3", - "num(ja-kana)": 25, - "len(ja-kana)": "1,1,1", - "num(ko)": 1, - "len(ko)": "1,1,1" - }, - "tiiuae/falcon-7b": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "num(digit)": 1108, - "len(digit)": "1,3,3", - "num(space)": 40202, - "len(space)": "1,7,65", - "num(ar)": 21, - "len(ar)": "1,1,4", - "num(zh)": 1627, - "len(zh)": "1,1,3", - "num(ja)": 1652, - "len(ja)": "1,1,3", - "num(ja-kana)": 25, - "len(ja-kana)": "1,1,1", - "num(ko)": 1, - "len(ko)": "1,1,1" - }, - "Qwen/Qwen1.5-1.8B": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 55883, - "len(space)": "1,6,128", - "num(ar)": 4018, - "len(ar)": "1,3,12", - "num(zh)": 25557, - "len(zh)": "1,2,7", - "num(ja)": 27206, - "len(ja)": "1,2,11", - "num(ja-kana)": 2089, - "len(ja-kana)": "1,3,11", - "num(ko)": 3495, - "len(ko)": "1,1,5" - }, - "Qwen/Qwen1.5-110B": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 55883, - "len(space)": "1,6,128", - "num(ar)": 4018, - "len(ar)": "1,3,12", - "num(zh)": 25557, - "len(zh)": "1,2,7", - "num(ja)": 27206, - "len(ja)": "1,2,11", - "num(ja-kana)": 2089, - "len(ja-kana)": "1,3,11", - "num(ko)": 3495, - "len(ko)": "1,1,5" - }, - "Qwen/Qwen1.5-14B": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "num(digit)": 10, - "len(digit)": "1,1,1", - "num(space)": 55883, - "len(space)": "1,6,128", - "num(ar)": 4018, - "len(ar)": "1,3,12", - "num(zh)": 25557, - "len(zh)": "1,2,7", - "num(ja)": 27206, - "len(ja)": "1,2,11", - "num(ja-kana)": 2089, - "len(ja-kana)": "1,3,11", - "num(ko)": 3495, - "len(ko)": "1,1,5" - } +{ + "FacebookAI/xlm-roberta-base": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "num(digit)": 2728, + "len(digit)": "1,3,9", + "num(space)": 1, + "len(space)": "1,1,1", + "num(ar)": 14644, + "len(ar)": "1,4,16", + "num(zh)": 18457, + "len(zh)": "1,2,16", + "num(ja)": 20572, + "len(ja)": "1,2,16", + "num(ja-kana)": 3434, + "len(ja-kana)": "1,3,12", + "num(ko)": 5373, + "len(ko)": "1,2,8" + }, + "clue/roberta_chinese_clue_tiny": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "num(digit)": 230, + "len(digit)": "1,4,10", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 30, + "len(ar)": "1,2,3", + "num(zh)": 5689, + "len(zh)": "1,1,1", + "num(ja)": 5691, + "len(ja)": "1,1,3", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "dbmdz/bert-base-german-uncased": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "num(digit)": 1733, + "len(digit)": "1,4,12", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "google-bert/bert-base-cased": { + "tokenizer": "bert-base-cased", + "organization": "Google", + "vocab_size": 28996, + "num(digit)": 926, + "len(digit)": "1,4,11", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 94, + "len(ar)": "1,3,4", + "num(zh)": 226, + "len(zh)": "1,2,3", + "num(ja)": 390, + "len(ja)": "1,2,3", + "num(ja-kana)": 164, + "len(ja-kana)": "1,2,3", + "num(ko)": 10, + "len(ko)": "1,2,3" + }, + "google-bert/bert-base-chinese": { + "tokenizer": "bert-base-chinese", + "organization": "Google", + "vocab_size": 21128, + "num(digit)": 1451, + "len(digit)": "1,3,12", + "num(space)": 2, + "len(space)": "1,2,3", + "num(ar)": 30, + "len(ar)": "1,2,3", + "num(zh)": 14642, + "len(zh)": "1,2,3", + "num(ja)": 15197, + "len(ja)": "1,3,15", + "num(ja-kana)": 553, + "len(ja-kana)": "1,3,15", + "num(ko)": 0, + "len(ko)": "-" + }, + "google-bert/bert-base-german-cased": { + "tokenizer": "bert-base-german-cased", + "organization": "Google", + "vocab_size": 30000, + "num(digit)": 4065, + "len(digit)": "1,11,22", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "google-bert/bert-base-multilingual-cased": { + "tokenizer": "bert-base-multilingual-cased", + "organization": "Google", + "vocab_size": 119547, + "num(digit)": 2583, + "len(digit)": "1,3,13", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 4873, + "len(ar)": "1,5,14", + "num(zh)": 13542, + "len(zh)": "1,2,3", + "num(ja)": 14880, + "len(ja)": "1,3,10", + "num(ja-kana)": 1336, + "len(ja-kana)": "1,4,10", + "num(ko)": 3271, + "len(ko)": "1,3,6" + }, + "google-bert/bert-base-multilingual-uncased": { + "tokenizer": "bert-base-multilingual-uncased", + "organization": "Google", + "vocab_size": 105879, + "num(digit)": 2510, + "len(digit)": "1,3,13", + "num(space)": 2, + "len(space)": "1,2,3", + "num(ar)": 4530, + "len(ar)": "1,5,13", + "num(zh)": 16658, + "len(zh)": "1,2,3", + "num(ja)": 17858, + "len(ja)": "1,3,10", + "num(ja-kana)": 1188, + "len(ja-kana)": "1,4,10", + "num(ko)": 0, + "len(ko)": "-" + }, + "google-bert/bert-base-uncased": { + "tokenizer": "bert-base-uncased", + "organization": "Google", + "vocab_size": 30522, + "num(digit)": 2056, + "len(digit)": "1,4,11", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 88, + "len(ar)": "1,3,5", + "num(zh)": 488, + "len(zh)": "1,2,3", + "num(ja)": 676, + "len(ja)": "1,2,3", + "num(ja-kana)": 188, + "len(ja-kana)": "1,2,3", + "num(ko)": 0, + "len(ko)": "-" + }, + "google/mobilebert-uncased": { + "tokenizer": "mobilebert-uncased", + "organization": "Google", + "vocab_size": 30522, + "num(digit)": 2056, + "len(digit)": "1,4,11", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 88, + "len(ar)": "1,3,5", + "num(zh)": 488, + "len(zh)": "1,2,3", + "num(ja)": 676, + "len(ja)": "1,2,3", + "num(ja-kana)": 188, + "len(ja-kana)": "1,2,3", + "num(ko)": 0, + "len(ko)": "-" + }, + "tohoku-nlp/bert-base-japanese": { + "tokenizer": "bert-base-japanese", + "organization": "Tohoku", + "vocab_size": 32000, + "num(digit)": 669, + "len(digit)": "1,3,5", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 10, + "len(ar)": "1,3,3", + "num(zh)": 18792, + "len(zh)": "1,2,11", + "num(ja)": 28367, + "len(ja)": "1,2,13", + "num(ja-kana)": 12359, + "len(ja-kana)": "1,4,13", + "num(ko)": 0, + "len(ko)": "-" + }, + "gpt-4": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 47472, + "len(space)": "1,7,128", + "num(ar)": 113, + "len(ar)": "1,2,10", + "num(zh)": 868, + "len(zh)": "1,1,7", + "num(ja)": 1035, + "len(ja)": "1,1,7", + "num(ja-kana)": 169, + "len(ja-kana)": "1,1,7", + "num(ko)": 299, + "len(ko)": "1,2,4" + }, + "llama3": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 60860, + "len(space)": "1,6,128", + "num(ar)": 3810, + "len(ar)": "1,4,11", + "num(zh)": 4424, + "len(zh)": "1,1,7", + "num(ja)": 5387, + "len(ja)": "1,2,8", + "num(ja-kana)": 1086, + "len(ja-kana)": "1,2,8", + "num(ko)": 2281, + "len(ko)": "1,2,6" + }, + "google-t5/t5-large": { + "tokenizer": "t5", + "organization": "Google", + "vocab_size": 32100, + "num(digit)": 1133, + "len(digit)": "1,3,13", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "google/byt5-small": { + "tokenizer": "byt5-small", + "organization": "Google", + "vocab_size": 384, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 10, + "len(space)": "1,1,1", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "google/mt5-large": { + "tokenizer": "mt5-large", + "organization": "Google", + "vocab_size": 250100, + "num(digit)": 16829, + "len(digit)": "1,4,16", + "num(space)": 1, + "len(space)": "1,1,1", + "num(ar)": 7459, + "len(ar)": "1,3,16", + "num(zh)": 21489, + "len(zh)": "1,2,16", + "num(ja)": 27078, + "len(ja)": "1,2,16", + "num(ja-kana)": 9160, + "len(ja-kana)": "1,3,14", + "num(ko)": 4041, + "len(ko)": "1,1,10" + }, + "lmsys/fastchat-t5-3b-v1.0": { + "tokenizer": "fastchat-t5-3b-v1.0", + "organization": "LMSYS", + "vocab_size": 32110, + "num(digit)": 1033, + "len(digit)": "1,3,8", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "paust/pko-t5-large": { + "tokenizer": "pko-t5-large", + "organization": "PAUST", + "vocab_size": 50358, + "num(digit)": 51, + "len(digit)": "1,2,3", + "num(space)": 10, + "len(space)": "1,1,1", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 49050, + "len(ko)": "1,2,16" + }, + "bloom": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "num(digit)": 6629, + "len(digit)": "1,4,50", + "num(space)": 140180, + "len(space)": "1,6,600", + "num(ar)": 20854, + "len(ar)": "1,5,16", + "num(zh)": 30603, + "len(zh)": "1,2,23", + "num(ja)": 30816, + "len(ja)": "1,2,23", + "num(ja-kana)": 214, + "len(ja-kana)": "1,1,3", + "num(ko)": 338, + "len(ko)": "1,1,3" + }, + "llama": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "ClueAI/ChatYuan-large-v2": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "num(digit)": 740, + "len(digit)": "1,3,9", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 2, + "len(ar)": "1,1,1", + "num(zh)": 29591, + "len(zh)": "1,2,16", + "num(ja)": 29736, + "len(ja)": "1,2,16", + "num(ja-kana)": 145, + "len(ja-kana)": "1,1,2", + "num(ko)": 0, + "len(ko)": "-" + }, + "Meta/llama3": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 60860, + "len(space)": "1,6,128", + "num(ar)": 3810, + "len(ar)": "1,4,11", + "num(zh)": 4424, + "len(zh)": "1,1,7", + "num(ja)": 5387, + "len(ja)": "1,2,8", + "num(ja-kana)": 1086, + "len(ja-kana)": "1,2,8", + "num(ko)": 2281, + "len(ko)": "1,2,6" + }, + "openai/gpt-4": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 47472, + "len(space)": "1,7,128", + "num(ar)": 113, + "len(ar)": "1,2,10", + "num(zh)": 868, + "len(zh)": "1,1,7", + "num(ja)": 1035, + "len(ja)": "1,1,7", + "num(ja-kana)": 169, + "len(ja-kana)": "1,1,7", + "num(ko)": 299, + "len(ko)": "1,2,4" + }, + "gradientai/Llama-3-8B-Instruct-Gradient-1048k": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 60860, + "len(space)": "1,6,128", + "num(ar)": 3810, + "len(ar)": "1,4,11", + "num(zh)": 4424, + "len(zh)": "1,1,7", + "num(ja)": 5387, + "len(ja)": "1,2,8", + "num(ja-kana)": 1086, + "len(ja-kana)": "1,2,8", + "num(ko)": 2281, + "len(ko)": "1,2,6" + }, + "bigscience/bloom": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "num(digit)": 6629, + "len(digit)": "1,4,50", + "num(space)": 140180, + "len(space)": "1,6,600", + "num(ar)": 20854, + "len(ar)": "1,5,16", + "num(zh)": 30603, + "len(zh)": "1,2,23", + "num(ja)": 30816, + "len(ja)": "1,2,23", + "num(ja-kana)": 214, + "len(ja-kana)": "1,1,3", + "num(ko)": 338, + "len(ko)": "1,1,3" + }, + "huggyllama/llama-7b": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "baichuan-inc/Baichuan-7B": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "num(digit)": 335, + "len(digit)": "1,14,14", + "num(space)": 13, + "len(space)": "1,1,1", + "num(ar)": 299, + "len(ar)": "1,1,2", + "num(zh)": 27676, + "len(zh)": "1,1,9", + "num(ja)": 28522, + "len(ja)": "1,1,9", + "num(ja-kana)": 178, + "len(ja-kana)": "1,1,1", + "num(ko)": 1591, + "len(ko)": "1,1,1" + }, + "01-ai/Yi-34B": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "num(digit)": 200, + "len(digit)": "1,13,15", + "num(space)": 24274, + "len(space)": "1,7,16", + "num(ar)": 18, + "len(ar)": "1,1,4", + "num(zh)": 21356, + "len(zh)": "1,2,12", + "num(ja)": 21407, + "len(ja)": "1,2,12", + "num(ja-kana)": 51, + "len(ja-kana)": "1,1,2", + "num(ko)": 28, + "len(ko)": "1,1,2" + }, + "01-ai/Yi-6B": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "num(digit)": 200, + "len(digit)": "1,13,15", + "num(space)": 24274, + "len(space)": "1,7,16", + "num(ar)": 18, + "len(ar)": "1,1,4", + "num(zh)": 21356, + "len(zh)": "1,2,12", + "num(ja)": 21407, + "len(ja)": "1,2,12", + "num(ja-kana)": 51, + "len(ja-kana)": "1,1,2", + "num(ko)": 28, + "len(ko)": "1,1,2" + }, + "01-ai/Yi-VL-34B": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "num(digit)": 200, + "len(digit)": "1,13,15", + "num(space)": 43, + "len(space)": "1,2,15", + "num(ar)": 18, + "len(ar)": "1,1,4", + "num(zh)": 21356, + "len(zh)": "1,2,12", + "num(ja)": 21407, + "len(ja)": "1,2,12", + "num(ja-kana)": 51, + "len(ja-kana)": "1,1,2", + "num(ko)": 28, + "len(ko)": "1,1,2" + }, + "ClassCat/gpt2-base-french": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "num(digit)": 1833, + "len(digit)": "1,4,5", + "num(space)": 31889, + "len(space)": "1,7,32", + "num(ar)": 41, + "len(ar)": "1,1,4", + "num(zh)": 27, + "len(zh)": "1,1,1", + "num(ja)": 46, + "len(ja)": "1,1,2", + "num(ja-kana)": 19, + "len(ja-kana)": "1,1,2", + "num(ko)": 0, + "len(ko)": "-" + }, + "ClassCat/gpt2-base-spanish": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "num(digit)": 1492, + "len(digit)": "1,4,9", + "num(space)": 34496, + "len(space)": "1,8,32", + "num(ar)": 36, + "len(ar)": "1,1,4", + "num(zh)": 13, + "len(zh)": "1,1,1", + "num(ja)": 36, + "len(ja)": "1,1,2", + "num(ja-kana)": 23, + "len(ja-kana)": "1,1,2", + "num(ko)": 0, + "len(ko)": "-" + }, + "ClueAI/PromptCLUE-base": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "num(digit)": 740, + "len(digit)": "1,3,9", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 2, + "len(ar)": "1,1,1", + "num(zh)": 29591, + "len(zh)": "1,2,16", + "num(ja)": 29736, + "len(ja)": "1,2,16", + "num(ja-kana)": 145, + "len(ja-kana)": "1,1,2", + "num(ko)": 0, + "len(ko)": "-" + }, + "CohereForAI/aya-101": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "num(digit)": 16829, + "len(digit)": "1,4,16", + "num(space)": 1, + "len(space)": "1,1,1", + "num(ar)": 7459, + "len(ar)": "1,3,16", + "num(zh)": 21489, + "len(zh)": "1,2,16", + "num(ja)": 27078, + "len(ja)": "1,2,16", + "num(ja-kana)": 9160, + "len(ja-kana)": "1,3,14", + "num(ko)": 4041, + "len(ko)": "1,1,10" + }, + "EleutherAI/gpt-neox-20b": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "num(digit)": 2036, + "len(digit)": "1,3,35", + "num(space)": 28996, + "len(space)": "1,7,512", + "num(ar)": 94, + "len(ar)": "1,2,4", + "num(zh)": 313, + "len(zh)": "1,1,2", + "num(ja)": 480, + "len(ja)": "1,1,4", + "num(ja-kana)": 167, + "len(ja-kana)": "1,1,4", + "num(ko)": 25, + "len(ko)": "1,1,2" + }, + "HuggingFaceH4/starchat-alpha": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 16515, + "len(space)": "1,6,256", + "num(ar)": 84, + "len(ar)": "1,2,4", + "num(zh)": 2030, + "len(zh)": "1,1,7", + "num(ja)": 2368, + "len(ja)": "1,1,8", + "num(ja-kana)": 360, + "len(ja-kana)": "1,2,8", + "num(ko)": 491, + "len(ko)": "1,2,5" + }, + "HuggingFaceH4/zephyr-7b-beta": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 85, + "len(space)": "1,3,15", + "num(ar)": 71, + "len(ar)": "1,1,2", + "num(zh)": 1459, + "len(zh)": "1,1,2", + "num(ja)": 1593, + "len(ja)": "1,1,2", + "num(ja-kana)": 134, + "len(ja-kana)": "1,1,1", + "num(ko)": 346, + "len(ko)": "1,1,1" + }, + "LLM360/CrystalCoder": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "NousResearch/Llama-2-7b-chat-hf": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "OrionStarAI/Orion-14B-Chat": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "num(digit)": 1559, + "len(digit)": "1,4,14", + "num(space)": 18383, + "len(space)": "1,6,16", + "num(ar)": 102, + "len(ar)": "1,1,1", + "num(zh)": 46998, + "len(zh)": "1,2,16", + "num(ja)": 49644, + "len(ja)": "1,2,16", + "num(ja-kana)": 2987, + "len(ja-kana)": "1,3,11", + "num(ko)": 5110, + "len(ko)": "1,2,7" + }, + "Qwen/Qwen-7B-Chat": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 55883, + "len(space)": "1,6,128", + "num(ar)": 4018, + "len(ar)": "1,3,12", + "num(zh)": 25557, + "len(zh)": "1,2,7", + "num(ja)": 27206, + "len(ja)": "1,2,11", + "num(ja-kana)": 2089, + "len(ja-kana)": "1,3,11", + "num(ko)": 3495, + "len(ko)": "1,1,5" + }, + "Qwen/Qwen1.5-14B-Chat": { + "tokenizer": "Qwen1.5", + "organization": "Alibaba", + "vocab_size": 151646, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 55883, + "len(space)": "1,6,128", + "num(ar)": 4018, + "len(ar)": "1,3,12", + "num(zh)": 25557, + "len(zh)": "1,2,7", + "num(ja)": 27206, + "len(ja)": "1,2,11", + "num(ja-kana)": 2089, + "len(ja-kana)": "1,3,11", + "num(ko)": 3495, + "len(ko)": "1,1,5" + }, + "Skywork/Skywork-13B-Math": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 62, + "len(space)": "1,2,15", + "num(ar)": 56, + "len(ar)": "1,1,2", + "num(zh)": 33913, + "len(zh)": "1,2,5", + "num(ja)": 34064, + "len(ja)": "1,2,5", + "num(ja-kana)": 150, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "Skywork/Skywork-13B-base": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 62, + "len(space)": "1,2,15", + "num(ar)": 56, + "len(ar)": "1,1,2", + "num(zh)": 33913, + "len(zh)": "1,2,5", + "num(ja)": 34064, + "len(ja)": "1,2,5", + "num(ja-kana)": 150, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "THUDM/chatglm-6b": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 93, + "len(space)": "1,34,80", + "num(ar)": 137, + "len(ar)": "1,2,4", + "num(zh)": 61358, + "len(zh)": "1,2,16", + "num(ja)": 61784, + "len(ja)": "1,2,16", + "num(ja-kana)": 439, + "len(ja-kana)": "1,2,5", + "num(ko)": 114, + "len(ko)": "1,1,3" + }, + "THUDM/chatglm2-6b": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 67, + "len(space)": "1,2,15", + "num(ar)": 57, + "len(ar)": "1,1,2", + "num(zh)": 30922, + "len(zh)": "1,2,16", + "num(ja)": 31065, + "len(ja)": "1,2,16", + "num(ja-kana)": 143, + "len(ja-kana)": "1,1,1", + "num(ko)": 604, + "len(ko)": "1,1,1" + }, + "THUDM/chatglm3-6b": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 67, + "len(space)": "1,2,15", + "num(ar)": 57, + "len(ar)": "1,1,2", + "num(zh)": 30922, + "len(zh)": "1,2,16", + "num(ja)": 31065, + "len(ja)": "1,2,16", + "num(ja-kana)": 143, + "len(ja-kana)": "1,1,1", + "num(ko)": 604, + "len(ko)": "1,1,1" + }, + "TigerResearch/tigerbot-13b-chat-v2": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 28603, + "len(zh)": "1,2,16", + "num(ja)": 28770, + "len(ja)": "1,2,16", + "num(ja-kana)": 167, + "len(ja-kana)": "1,1,2", + "num(ko)": 261, + "len(ko)": "1,1,1" + }, + "TigerResearch/tigerbot-70b-chat-v4-4k": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 30509, + "len(zh)": "1,2,16", + "num(ja)": 32061, + "len(ja)": "1,2,16", + "num(ja-kana)": 2071, + "len(ja-kana)": "1,2,8", + "num(ko)": 1504, + "len(ko)": "1,1,5" + }, + "Upstage/SOLAR-10.7B-v1.0": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 85, + "len(space)": "1,3,15", + "num(ar)": 71, + "len(ar)": "1,1,2", + "num(zh)": 1459, + "len(zh)": "1,1,2", + "num(ja)": 1593, + "len(ja)": "1,1,2", + "num(ja-kana)": 134, + "len(ja-kana)": "1,1,1", + "num(ko)": 346, + "len(ko)": "1,1,1" + }, + "WizardLM/WizardCoder-15B-V1.0": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 16515, + "len(space)": "1,6,256", + "num(ar)": 84, + "len(ar)": "1,2,4", + "num(zh)": 2030, + "len(zh)": "1,1,7", + "num(ja)": 2368, + "len(ja)": "1,1,8", + "num(ja-kana)": 360, + "len(ja-kana)": "1,2,8", + "num(ko)": 491, + "len(ko)": "1,2,5" + }, + "WizardLM/WizardCoder-Python-7B-V1.0": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "WizardLM/WizardLM-7B-V1.0": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "WizardLM/WizardMath-70B-V1.0": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "abeja/gpt-neox-japanese-2.7b": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 15176, + "len(zh)": "1,2,2", + "num(ja)": 31482, + "len(ja)": "1,2,3", + "num(ja-kana)": 16306, + "len(ja-kana)": "1,3,3", + "num(ko)": 0, + "len(ko)": "-" + }, + "ai21labs/Jamba-v0.1": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "num(digit)": 1556, + "len(digit)": "1,16,17", + "num(space)": 39501, + "len(space)": "1,7,32", + "num(ar)": 867, + "len(ar)": "1,3,8", + "num(zh)": 1157, + "len(zh)": "1,1,2", + "num(ja)": 1287, + "len(ja)": "1,1,2", + "num(ja-kana)": 130, + "len(ja-kana)": "1,1,2", + "num(ko)": 312, + "len(ko)": "1,1,2" + }, + "allenai/OLMo-7B": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "num(digit)": 2036, + "len(digit)": "1,3,35", + "num(space)": 29019, + "len(space)": "1,7,512", + "num(ar)": 94, + "len(ar)": "1,2,4", + "num(zh)": 313, + "len(zh)": "1,1,2", + "num(ja)": 480, + "len(ja)": "1,1,4", + "num(ja-kana)": 167, + "len(ja-kana)": "1,1,4", + "num(ko)": 25, + "len(ko)": "1,1,2" + }, + "baichuan-inc/Baichuan2-7B-Chat": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "num(digit)": 1023, + "len(digit)": "1,14,14", + "num(space)": 26013, + "len(space)": "1,7,32", + "num(ar)": 335, + "len(ar)": "1,1,27", + "num(zh)": 70398, + "len(zh)": "1,2,32", + "num(ja)": 71269, + "len(ja)": "1,2,32", + "num(ja-kana)": 206, + "len(ja-kana)": "1,1,9", + "num(ko)": 1595, + "len(ko)": "1,1,2" + }, + "ckiplab/gpt2-base-chinese": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "num(digit)": 1451, + "len(digit)": "1,3,12", + "num(space)": 2, + "len(space)": "1,2,3", + "num(ar)": 30, + "len(ar)": "1,2,3", + "num(zh)": 14642, + "len(zh)": "1,2,3", + "num(ja)": 15197, + "len(ja)": "1,3,15", + "num(ja-kana)": 553, + "len(ja-kana)": "1,3,15", + "num(ko)": 0, + "len(ko)": "-" + }, + "cyberagent/open-calm-7b": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "num(digit)": 690, + "len(digit)": "1,3,5", + "num(space)": 1698, + "len(space)": "1,4,33", + "num(ar)": 10, + "len(ar)": "1,1,4", + "num(zh)": 30775, + "len(zh)": "1,3,31", + "num(ja)": 45790, + "len(ja)": "1,3,31", + "num(ja-kana)": 32535, + "len(ja-kana)": "1,3,31", + "num(ko)": 0, + "len(ko)": "-" + }, + "databricks/dbrx-instruct": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "num(digit)": 1126, + "len(digit)": "1,3,17", + "num(space)": 47400, + "len(space)": "1,7,128", + "num(ar)": 113, + "len(ar)": "1,2,10", + "num(zh)": 868, + "len(zh)": "1,1,7", + "num(ja)": 1035, + "len(ja)": "1,1,7", + "num(ja-kana)": 169, + "len(ja-kana)": "1,1,7", + "num(ko)": 299, + "len(ko)": "1,2,4" + }, + "deepseek-ai/DeepSeek-V2": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 48073, + "len(space)": "1,7,128", + "num(ar)": 48, + "len(ar)": "1,1,4", + "num(zh)": 18052, + "len(zh)": "1,2,16", + "num(ja)": 18090, + "len(ja)": "1,2,16", + "num(ja-kana)": 38, + "len(ja-kana)": "1,1,2", + "num(ko)": 16, + "len(ko)": "1,1,2" + }, + "deepseek-ai/deepseek-coder-33b-instruct": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 15254, + "len(space)": "1,6,65", + "num(ar)": 12, + "len(ar)": "1,1,2", + "num(zh)": 4803, + "len(zh)": "1,2,4", + "num(ja)": 4804, + "len(ja)": "1,2,4", + "num(ja-kana)": 1, + "len(ja-kana)": "1,1,1", + "num(ko)": 0, + "len(ko)": "-" + }, + "deepseek-ai/deepseek-llm-7b-base": { + "tokenizer": "deepseek-llm-7b-base", + "organization": "DeepSeek", + "vocab_size": 100015, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 48073, + "len(space)": "1,7,128", + "num(ar)": 48, + "len(ar)": "1,1,4", + "num(zh)": 18052, + "len(zh)": "1,2,16", + "num(ja)": 18090, + "len(ja)": "1,2,16", + "num(ja-kana)": 38, + "len(ja-kana)": "1,1,2", + "num(ko)": 16, + "len(ko)": "1,1,2" + }, + "eson/kplug-base-encoder": { + "tokenizer": "kplug", + "organization": "JD", + "vocab_size": 10261, + "num(digit)": 420, + "len(digit)": "1,3,12", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 5764, + "len(zh)": "1,1,1", + "num(ja)": 5766, + "len(ja)": "1,1,3", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "fnlp/moss-moon-003-sft": { + "tokenizer": "moss-moon-003-sft", + "organization": "Fudan", + "vocab_size": 106072, + "num(digit)": 1848, + "len(digit)": "1,3,16", + "num(space)": 33566, + "len(space)": "1,7,102", + "num(ar)": 25, + "len(ar)": "1,1,4", + "num(zh)": 54230, + "len(zh)": "1,2,15", + "num(ja)": 54381, + "len(ja)": "1,2,15", + "num(ja-kana)": 152, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "google/gemma-7b": { + "tokenizer": "gemma-7b", + "organization": "Google", + "vocab_size": 256000, + "num(digit)": 134, + "len(digit)": "1,10,12", + "num(space)": 125662, + "len(space)": "1,7,31", + "num(ar)": 6274, + "len(ar)": "1,4,15", + "num(zh)": 23767, + "len(zh)": "1,2,12", + "num(ja)": 28852, + "len(ja)": "1,2,12", + "num(ja-kana)": 7061, + "len(ja-kana)": "1,3,12", + "num(ko)": 2295, + "len(ko)": "1,1,5" + }, + "google/switch-c-2048": { + "tokenizer": "switch-c-2048", + "organization": "Google", + "vocab_size": 32100, + "num(digit)": 1133, + "len(digit)": "1,3,13", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 0, + "len(ar)": "-", + "num(zh)": 0, + "len(zh)": "-", + "num(ja)": 0, + "len(ja)": "-", + "num(ja-kana)": 0, + "len(ja-kana)": "-", + "num(ko)": 0, + "len(ko)": "-" + }, + "hfl/chinese-alpaca-lora-7b": { + "tokenizer": "chinese-alpaca-lora-7b", + "organization": "-", + "vocab_size": 49954, + "num(digit)": 614, + "len(digit)": "1,3,5", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 17839, + "len(zh)": "1,2,13", + "num(ja)": 17993, + "len(ja)": "1,2,13", + "num(ja-kana)": 154, + "len(ja-kana)": "1,1,1", + "num(ko)": 135, + "len(ko)": "1,1,1" + }, + "hfl/chinese-llama-2-7b": { + "tokenizer": "chinese-llama-2-7b", + "organization": "-", + "vocab_size": 55296, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 23974, + "len(zh)": "1,2,16", + "num(ja)": 24111, + "len(ja)": "1,2,16", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "hfl/chinese-llama-lora-7b": { + "tokenizer": "chinese-llama-lora-7b", + "organization": "-", + "vocab_size": 49953, + "num(digit)": 614, + "len(digit)": "1,3,5", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 17839, + "len(zh)": "1,2,13", + "num(ja)": 17993, + "len(ja)": "1,2,13", + "num(ja-kana)": 154, + "len(ja-kana)": "1,1,1", + "num(ko)": 135, + "len(ko)": "1,1,1" + }, + "hfl/llama-3-chinese-8b": { + "tokenizer": "llama-3-chinese-8b", + "organization": "-", + "vocab_size": 128256, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 60860, + "len(space)": "1,6,128", + "num(ar)": 3810, + "len(ar)": "1,4,11", + "num(zh)": 4424, + "len(zh)": "1,1,7", + "num(ja)": 5387, + "len(ja)": "1,2,8", + "num(ja-kana)": 1086, + "len(ja-kana)": "1,2,8", + "num(ko)": 2281, + "len(ko)": "1,2,6" + }, + "hpcai-tech/grok-1": { + "tokenizer": "grok-1", + "organization": "xAI", + "vocab_size": 131072, + "num(digit)": 40, + "len(digit)": "1,6,13", + "num(space)": 399, + "len(space)": "1,3,16", + "num(ar)": 69, + "len(ar)": "1,2,4", + "num(zh)": 1626, + "len(zh)": "1,2,7", + "num(ja)": 3118, + "len(ja)": "1,2,8", + "num(ja-kana)": 1908, + "len(ja-kana)": "1,2,8", + "num(ko)": 67, + "len(ko)": "1,1,2" + }, + "internlm/internlm-chat-7b": { + "tokenizer": "internlm-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "num(digit)": 1259, + "len(digit)": "1,3,19", + "num(space)": 33008, + "len(space)": "1,6,128", + "num(ar)": 6702, + "len(ar)": "1,4,16", + "num(zh)": 32000, + "len(zh)": "1,2,15", + "num(ja)": 32866, + "len(ja)": "1,2,15", + "num(ja-kana)": 864, + "len(ja-kana)": "1,2,9", + "num(ko)": 298, + "len(ko)": "1,1,1" + }, + "internlm/internlm-xcomposer-7b": { + "tokenizer": "internlm-xcomposer-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "num(digit)": 1261, + "len(digit)": "1,3,19", + "num(space)": 33008, + "len(space)": "1,6,128", + "num(ar)": 6702, + "len(ar)": "1,4,16", + "num(zh)": 32000, + "len(zh)": "1,2,15", + "num(ja)": 32866, + "len(ja)": "1,2,15", + "num(ja-kana)": 864, + "len(ja-kana)": "1,2,9", + "num(ko)": 298, + "len(ko)": "1,1,1" + }, + "internlm/internlm2-chat-7b": { + "tokenizer": "internlm2-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "num(digit)": 1261, + "len(digit)": "1,3,18", + "num(space)": 28681, + "len(space)": "1,7,128", + "num(ar)": 30, + "len(ar)": "1,1,1", + "num(zh)": 31148, + "len(zh)": "1,2,15", + "num(ja)": 31296, + "len(ja)": "1,2,15", + "num(ja-kana)": 148, + "len(ja-kana)": "1,1,1", + "num(ko)": 83, + "len(ko)": "1,1,1" + }, + "internlm/internlm2-math-7b": { + "tokenizer": "internlm2-math-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "num(digit)": 1261, + "len(digit)": "1,3,18", + "num(space)": 28681, + "len(space)": "1,7,128", + "num(ar)": 30, + "len(ar)": "1,1,1", + "num(zh)": 31148, + "len(zh)": "1,2,15", + "num(ja)": 31296, + "len(ja)": "1,2,15", + "num(ja-kana)": 148, + "len(ja-kana)": "1,1,1", + "num(ko)": 83, + "len(ko)": "1,1,1" + }, + "microsoft/Phi-3-mini-4k-instruct": { + "tokenizer": "Phi-3-mini-4k-instruct", + "organization": "Microsoft", + "vocab_size": 32011, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 61, + "len(space)": "1,2,15", + "num(ar)": 55, + "len(ar)": "1,1,2", + "num(zh)": 700, + "len(zh)": "1,1,1", + "num(ja)": 837, + "len(ja)": "1,1,1", + "num(ja-kana)": 137, + "len(ja-kana)": "1,1,1", + "num(ko)": 111, + "len(ko)": "1,1,1" + }, + "microsoft/phi-1": { + "tokenizer": "phi-1", + "organization": "Microsoft", + "vocab_size": 50295, + "num(digit)": 1691, + "len(digit)": "1,3,16", + "num(space)": 33129, + "len(space)": "1,7,66", + "num(ar)": 22, + "len(ar)": "1,1,3", + "num(zh)": 51, + "len(zh)": "1,1,4", + "num(ja)": 183, + "len(ja)": "1,1,7", + "num(ja-kana)": 133, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "microsoft/phi-2": { + "tokenizer": "phi-2", + "organization": "Microsoft", + "vocab_size": 50295, + "num(digit)": 1691, + "len(digit)": "1,3,16", + "num(space)": 33129, + "len(space)": "1,7,66", + "num(ar)": 22, + "len(ar)": "1,1,3", + "num(zh)": 51, + "len(zh)": "1,1,4", + "num(ja)": 183, + "len(ja)": "1,1,7", + "num(ja-kana)": 133, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "mistralai/Mistral-7B-v0.1": { + "tokenizer": "Mistral-7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 85, + "len(space)": "1,3,15", + "num(ar)": 71, + "len(ar)": "1,1,2", + "num(zh)": 1459, + "len(zh)": "1,1,2", + "num(ja)": 1593, + "len(ja)": "1,1,2", + "num(ja-kana)": 134, + "len(ja-kana)": "1,1,1", + "num(ko)": 346, + "len(ko)": "1,1,1" + }, + "mistralai/Mixtral-8x7B-v0.1": { + "tokenizer": "Mixtral-8x7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 85, + "len(space)": "1,3,15", + "num(ar)": 71, + "len(ar)": "1,1,2", + "num(zh)": 1459, + "len(zh)": "1,1,2", + "num(ja)": 1593, + "len(ja)": "1,1,2", + "num(ja-kana)": 134, + "len(ja-kana)": "1,1,1", + "num(ko)": 346, + "len(ko)": "1,1,1" + }, + "openai-community/gpt2": { + "tokenizer": "gpt2", + "organization": "OpenAI", + "vocab_size": 50257, + "num(digit)": 1691, + "len(digit)": "1,3,16", + "num(space)": 33129, + "len(space)": "1,7,66", + "num(ar)": 22, + "len(ar)": "1,1,3", + "num(zh)": 51, + "len(zh)": "1,1,4", + "num(ja)": 183, + "len(ja)": "1,1,7", + "num(ja-kana)": 133, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "openai/code-davinci-002": { + "tokenizer": "code-davinci-002", + "organization": "OpenAI", + "vocab_size": 50281, + "num(digit)": 1691, + "len(digit)": "1,3,16", + "num(space)": 33175, + "len(space)": "1,7,66", + "num(ar)": 22, + "len(ar)": "1,1,3", + "num(zh)": 51, + "len(zh)": "1,1,4", + "num(ja)": 183, + "len(ja)": "1,1,7", + "num(ja-kana)": 133, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "openai/gpt-3.5-turbo": { + "tokenizer": "gpt-3.5-turbo", + "organization": "OpenAI", + "vocab_size": 100277, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 47472, + "len(space)": "1,7,128", + "num(ar)": 113, + "len(ar)": "1,2,10", + "num(zh)": 868, + "len(zh)": "1,1,7", + "num(ja)": 1035, + "len(ja)": "1,1,7", + "num(ja-kana)": 169, + "len(ja-kana)": "1,1,7", + "num(ko)": 299, + "len(ko)": "1,2,4" + }, + "openai/gpt-4o": { + "tokenizer": "gpt-4o", + "organization": "OpenAI", + "vocab_size": 200019, + "num(digit)": 1110, + "len(digit)": "1,3,3", + "num(space)": 109316, + "len(space)": "1,6,128", + "num(ar)": 8055, + "len(ar)": "1,4,12", + "num(zh)": 7563, + "len(zh)": "1,2,11", + "num(ja)": 8292, + "len(ja)": "1,2,11", + "num(ja-kana)": 809, + "len(ja-kana)": "1,2,11", + "num(ko)": 2365, + "len(ko)": "1,2,8" + }, + "openai/text-davinci-003": { + "tokenizer": "text-davinci-003", + "organization": "OpenAI", + "vocab_size": 50281, + "num(digit)": 1691, + "len(digit)": "1,3,16", + "num(space)": 33175, + "len(space)": "1,7,66", + "num(ar)": 22, + "len(ar)": "1,1,3", + "num(zh)": 51, + "len(zh)": "1,1,4", + "num(ja)": 183, + "len(ja)": "1,1,7", + "num(ja-kana)": 133, + "len(ja-kana)": "1,1,7", + "num(ko)": 0, + "len(ko)": "-" + }, + "thu-coai/CharacterGLM-6B": { + "tokenizer": "CharacterGLM-6B", + "organization": "Tsinghua", + "vocab_size": 64789, + "num(digit)": 20, + "len(digit)": "1,1,1", + "num(space)": 67, + "len(space)": "1,2,15", + "num(ar)": 57, + "len(ar)": "1,1,2", + "num(zh)": 30922, + "len(zh)": "1,2,16", + "num(ja)": 31065, + "len(ja)": "1,2,16", + "num(ja-kana)": 143, + "len(ja-kana)": "1,1,1", + "num(ko)": 604, + "len(ko)": "1,1,1" + }, + "tiiuae/falcon-180b": { + "tokenizer": "falcon-180b", + "organization": "TII", + "vocab_size": 65024, + "num(digit)": 1108, + "len(digit)": "1,3,3", + "num(space)": 40202, + "len(space)": "1,7,65", + "num(ar)": 21, + "len(ar)": "1,1,4", + "num(zh)": 1627, + "len(zh)": "1,1,3", + "num(ja)": 1652, + "len(ja)": "1,1,3", + "num(ja-kana)": 25, + "len(ja-kana)": "1,1,1", + "num(ko)": 1, + "len(ko)": "1,1,1" + }, + "tiiuae/falcon-7b": { + "tokenizer": "falcon-7b", + "organization": "TII", + "vocab_size": 65024, + "num(digit)": 1108, + "len(digit)": "1,3,3", + "num(space)": 40202, + "len(space)": "1,7,65", + "num(ar)": 21, + "len(ar)": "1,1,4", + "num(zh)": 1627, + "len(zh)": "1,1,3", + "num(ja)": 1652, + "len(ja)": "1,1,3", + "num(ja-kana)": 25, + "len(ja-kana)": "1,1,1", + "num(ko)": 1, + "len(ko)": "1,1,1" + }, + "Qwen/Qwen1.5-1.8B": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 55883, + "len(space)": "1,6,128", + "num(ar)": 4018, + "len(ar)": "1,3,12", + "num(zh)": 25557, + "len(zh)": "1,2,7", + "num(ja)": 27206, + "len(ja)": "1,2,11", + "num(ja-kana)": 2089, + "len(ja-kana)": "1,3,11", + "num(ko)": 3495, + "len(ko)": "1,1,5" + }, + "Qwen/Qwen1.5-110B": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 55883, + "len(space)": "1,6,128", + "num(ar)": 4018, + "len(ar)": "1,3,12", + "num(zh)": 25557, + "len(zh)": "1,2,7", + "num(ja)": 27206, + "len(ja)": "1,2,11", + "num(ja-kana)": 2089, + "len(ja-kana)": "1,3,11", + "num(ko)": 3495, + "len(ko)": "1,1,5" + }, + "Qwen/Qwen1.5-14B": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "num(digit)": 10, + "len(digit)": "1,1,1", + "num(space)": 55883, + "len(space)": "1,6,128", + "num(ar)": 4018, + "len(ar)": "1,3,12", + "num(zh)": 25557, + "len(zh)": "1,2,7", + "num(ja)": 27206, + "len(ja)": "1,2,11", + "num(ja-kana)": 2089, + "len(ja-kana)": "1,3,11", + "num(ko)": 3495, + "len(ko)": "1,1,5" + }, + "asafaya/bert-base-arabic": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "num(digit)": 507, + "len(digit)": "1,3,21", + "num(space)": 0, + "len(space)": "-", + "num(ar)": 28367, + "len(ar)": "1,5,34", + "num(zh)": 180, + "len(zh)": "1,1,1", + "num(ja)": 333, + "len(ja)": "1,1,3", + "num(ja-kana)": 153, + "len(ja-kana)": "1,1,3", + "num(ko)": 0, + "len(ko)": "-" + } } \ No newline at end of file diff --git a/stats/compression_rate.json b/stats/compression_rate.json index 6d0ea54c9502038b124489d6dd39495ade304a47..3ce63e7c6f162693ae2e0f2b4b49abd4e83dd73b 100644 --- a/stats/compression_rate.json +++ b/stats/compression_rate.json @@ -1,9506 +1,6974 @@ -{ - "google-t5/t5-large @ cc100/en": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1124813, - "_n_tokens": 280104, - "_n_chars": 1121360, - "_n_oov_chars": 136, - "oov_ratio": 0.00012128130127702077, - "_oov_charset": "[\"😉\", \"´\", \"⑤\", \"​\", \"⑦\", \"¡\", \"🙂\", \"\", \"😥\", \"⑧\", \"…\", \"¦\", \"‑\", \"�\", \"<\", \"{\", \"~\", \"“\", \"”\", \"}\", \"\", \"③\", \"ñ\", \"^\", \"⑩\", \"ï\"]", - "reversible": false - }, - "google/mt5-large @ cc100/en": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1124813, - "_n_tokens": 307881, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"´\", \"⑤\", \"⑧\", \"…\", \"​\", \"⑦\", \"③\", \"�\", \"⑩\", \"‑\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/en": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1124813, - "_n_tokens": 648985, - "_n_chars": 1121360, - "_n_oov_chars": 59, - "oov_ratio": 5.261468217164871e-05, - "_oov_charset": "[\"´\", \"⑤\", \"⑧\", \"…\", \"⑦\", \"③\", \"⑩\", \"‑\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/zh-Hans": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2633047, - "_n_tokens": 163519, - "_n_chars": 927311, - "_n_oov_chars": 865446, - "oov_ratio": 0.9332855967415462, - "_oov_charset": "[\"動\", \"编\", \"环\", \"舔\", \"烷\", \"管\", \"班\", \"菱\", \"谋\", \"颊\", \"万\", \"灾\", \"垣\", \"骁\", \"刘\", \"卉\", \"娩\", \"折\", \"棒\", \"谐\", \"董\", \"標\", \"貂\", \"靛\", \"回\", \"萄\", \"盟\", \"露\", \"款\", \"惯\", \"癫\", \"泣\", \"稠\", \"寺\", \"术\", \"凑\", \"馨\", \"肿\", \"%\", \"猪\", \"鹏\", \"麓\", \"吮\", \"匹\", \"吨\", \"臧\", \"斋\", \"尽\", \"韦\", \"蔽\", \"轨\", \"盖\", \"刑\", \"者\", \"坯\", \"逾\", \"弈\", \"头\", \"勉\", \"旭\", \"效\", \"缮\", \"洁\", \"俱\", \"帘\", \"蒙\", \"旷\", \"牌\", \"总\", \"朝\", \"舀\", \" \", \"耻\", \"~\", \"萤\", \"眯\", \"阵\", \"素\", \"嘘\", \"泯\", \"队\", \"臃\", \"淀\", \"誉\", \"歪\", \"永\", \"昊\", \"粥\", \"劾\", \"婚\", \"杜\", \"沾\", \"熹\", \"繁\", \"鹑\", \"州\", \"狙\", \"仆\", \"经\", \"祝\", \"彦\", \"炮\", \"潮\", \"蚂\", \"看\", \"释\", \"节\", \"嘤\", \"屈\", \"母\", \"察\", \"干\", \"娄\", \"蘸\", \"逝\", \"归\", \"掰\", \"实\", \"忍\", \"乏\", \"亦\", \"隆\", \"丸\", \"號\", \"绛\", \"闹\", \"蝇\", \"桓\", \"几\", \"吹\", \"锣\", \"初\", \"狐\", \"革\", \"千\", \"私\", \"甸\", \"靠\", \"苏\", \"妨\", \"膜\", \"斌\", \"其\", \"右\", \"扪\", \"癖\", \"厂\", \"雏\", \"娱\", \"馋\", \"甄\", \"压\", \"呢\", \"疾\", \"瑟\", \"庶\", \"异\", \"阐\", \"卸\", \"蒋\", \"养\", \"件\", \"查\", \"幕\", \"毅\", \"艋\", \"要\", \"汇\", \"莲\", \"窖\", \"佝\", \"門\", \"书\", \"犬\", \"蹲\", \"瞟\", \"偿\", \"挂\", \"得\", \"雇\", \"引\", \"ト\", \"步\", \"呐\", \"热\", \"豁\", \"汛\", \"蟀\", \"狩\", \"爰\", \"与\", \"郑\", \"差\", \"派\", \"浸\", \"湖\", \"说\", \"手\", \"仪\", \"置\", \"碌\", \"曳\", \"蝉\", \"考\", \"漠\", \"絮\", \"廓\", \"紧\", \"务\", \"勒\", \"休\", \"崖\", \"嘈\", \"排\", \"们\", \"迹\", \"劲\", \"揍\", \"摄\", \"路\", \"状\", \"泾\", \"凡\", \"症\", \"谛\", \"轮\", \"仿\", \"盆\", \"囤\", \"挟\", \"眷\", \"唠\", \"于\", \"窿\", \"铺\", \"既\", \"痒\", \"芯\", \"遗\", \"魂\", \"彙\", \"ό\", \"〗\", \"瘠\", \"纨\", \"挫\", \"弧\", \"涂\", \"磨\", \"购\", \"汀\", \"柏\", \"戒\", \"椒\", \"端\", \"杭\", \"莹\", \"稚\", \"柑\", \"姥\", \"峥\", \"津\", \"络\", \"霆\", \"疴\", \"嗲\", \"琴\", \"掳\", \"泛\", \"善\", \"睡\", \"澜\", \"尾\", \"贿\", \"惨\", \"矩\", \"昏\", \"晕\", \"谆\", \"皮\", \"贸\", \"爸\", \"儿\", \"庄\", \"跑\", \"<\", \"猩\", \"起\", \"岑\", \"睫\", \"筷\", \"骤\", \"滕\", \"器\", \"牟\", \"哑\", \"剐\", \"宜\", \"在\", \"周\", \"荣\", \"觑\", \"卍\", \"呕\", \"懂\", \"祖\", \"粗\", \"溉\", \"忿\", \"拘\", \"份\", \"处\", \"境\", \"-\", \"入\", \"百\", \"豪\", \"主\", \"铃\", \"栽\", \"响\", \"罐\", \"赞\", \"啃\", \"鸠\", \"妞\", \"冒\", \"轴\", \"木\", \"幻\", \"表\", \"肥\", \"町\", \"羡\", \"・\", \"臣\", \"喉\", \"男\", \"赔\", \"颤\", \"嘉\", \"「\", \"]\", \"恕\", \"穿\", \"塔\", \"形\", \"戾\", \"弦\", \"汗\", \"搂\", \"丙\", \"么\", \"瘦\", \"岗\", \"隙\", \"咸\", \"让\", \"皿\", \"禅\", \"阔\", \"猾\", \"酣\", \"霉\", \"污\", \"乎\", \"改\", \"体\", \"檀\", \"末\", \"解\", \"惮\", \"杏\", \"提\", \"续\", \"群\", \"纽\", \"酋\", \"岛\", \"樊\", \"逛\", \"挎\", \"翔\", \"拔\", \"蚁\", \"飞\", \"元\", \"又\", \"障\", \"呻\", \"岱\", \"劝\", \"熙\", \"腑\", \"寇\", \"聂\", \"长\", \"赋\", \"艾\", \"魁\", \"福\", \"茨\", \"帅\", \"滩\", \"底\", \"冻\", \"缴\", \"怖\", \"旗\", \"掘\", \"聚\", \"抗\", \"嗅\", \"匆\", \"倏\", \"弓\", \"标\", \"棉\", \"泸\", \"红\", \"脾\", \"丰\", \"绰\", \"惬\", \"呈\", \"蚀\", \"咔\", \"衣\", \"狳\", \"短\", \"蜀\", \"尿\", \"鬣\", \"钉\", \"富\", \"霈\", \"帐\", \"舶\", \"倪\", \"1\", \"婺\", \"喷\", \"堰\", \"蜂\", \"修\", \"食\", \"捏\", \"痊\", \"日\", \"6\", \"Ø\", \"尸\", \"肪\", \"酷\", \"束\", \"帷\", \"橱\", \"!\", \"蛔\", \"爆\", \"质\", \"坛\", \"赎\", \"盛\", \"砺\", \"脚\", \"担\", \"绒\", \"薄\", \"就\", \"述\", \"把\", \"押\", \"哟\", \"猝\", \"党\", \"珍\", \"圳\", \"撕\", \"螂\", \"膨\", \"害\", \"亚\", \"诱\", \"挽\", \"放\", \"侄\", \"肌\", \"惜\", \"乃\", \"换\", \"俗\", \"陋\", \"踹\", \"朦\", \"使\", \"它\", \"斩\", \"钟\", \"宋\", \"诗\", \"鲱\", \"髦\", \"衿\", \"痫\", \"蒂\", \"浮\", \"阂\", \"糊\", \"车\", \"赶\", \"梵\", \"潢\", \"橇\", \"跤\", \"宅\", \"贯\", \"检\", \"优\", \"厕\", \"浪\", \"溺\", \"欸\", \"浩\", \"揽\", \"氧\", \"…\", \"τ\", \"舱\", \"晤\", \"辙\", \"沼\", \"向\", \"墒\", \"穷\", \"旖\", \"揖\", \"刃\", \"丁\", \"东\", \"序\", \"同\", \"弯\", \"舰\", \"唐\", \"齐\", \"皈\", \"忘\", \"溃\", \"蔷\", \"光\", \"粮\", \"你\", \"等\", \"盈\", \"昂\", \"遮\", \"暇\", \"畏\", \"鄯\", \"辈\", \"纂\", \"略\", \"盯\", \"楞\", \"绘\", \"义\", \"缭\", \"妄\", \"笃\", \"避\", \"叨\", \"掺\", \"促\", \"参\", \"胃\", \"嫩\", \"拍\", \"串\", \"榴\", \"咒\", \"桥\", \"诠\", \"追\", \"荐\", \"槿\", \"饭\", \"恪\", \"司\", \"瞒\", \"⑷\", \"雯\", \"拳\", \"殉\", \"舛\", \"逼\", \"预\", \"梢\", \"啜\", \"闺\", \"雌\", \"沐\", \"郅\", \"〕\", \"浆\", \"灵\", \"威\", \"坐\", \"霍\", \"兢\", \"仄\", \"肾\", \"腾\", \"侦\", \"蟹\", \"孩\", \"裕\", \"斑\", \"擀\", \"锯\", \"娛\", \"否\", \"吴\", \"井\", \"音\", \"资\", \"蹊\", \"渤\", \"耘\", \"馁\", \"淞\", \"蔚\", \"拣\", \"溘\", \"取\", \"荻\", \"烟\", \"夸\", \"饮\", \"靡\", \"筒\", \"傥\", \"曲\", \"舆\", \"弥\", \"倨\", \"沸\", \"踝\", \"印\", \"澳\", \"刮\", \"税\", \"告\", \"九\", \"拢\", \"裤\", \"榭\", \"忪\", \"理\", \"顶\", \"郁\", \"④\", \"里\", \"壕\", \"巅\", \"翡\", \"额\", \"炸\", \"子\", \"a\", \"渺\", \"昌\", \"李\", \"扶\", \"荏\", \"瞠\", \"依\", \"辩\", \"涛\", \"职\", \"枉\", \"驳\", \"斤\", \"溜\", \"凯\", \"圣\", \"钊\", \"』\", \"鹜\", \"腐\", \"坞\", \"棣\", \"茧\", \"捧\", \"发\", \"膝\", \"慮\", \"壑\", \"染\", \"低\", \"狗\", \"辜\", \"搭\", \"寞\", \"情\", \"胎\", \"啦\", \"坏\", \"没\", \"剂\", \"氏\", \"羞\", \"蒿\", \"塑\", \"准\", \"味\", \"签\", \"清\", \"迫\", \"厦\", \"剁\", \"所\", \"售\", \"获\", \"谊\", \"⑴\", \"缔\", \"併\", \"龚\", \"孱\", \"渗\", \"嗔\", \"兽\", \"敏\", \"暧\", \"棺\", \"淹\", \"蹦\", \"继\", \"玄\", \"渥\", \"嫖\", \"散\", \"捍\", \"隔\", \"强\", \"琐\", \"內\", \"冷\", \"岩\", \"液\", \"暄\", \"讪\", \"陷\", \"饥\", \"锈\", \"吝\", \"旋\", \"拎\", \"楷\", \"朋\", \"葬\", \"粪\", \"寨\", \"嫉\", \"愧\", \"绉\", \"焙\", \"狼\", \"唆\", \"鹿\", \"屄\", \"漂\", \"唇\", \"萃\", \"去\", \"隋\", \"秀\", \"奉\", \"娴\", \"阶\", \"恺\", \"玖\", \"专\", \"骇\", \"傅\", \"券\", \"桩\", \"皇\", \"通\", \"莎\", \"殿\", \"驴\", \"河\", \"瀑\", \"恒\", \"炅\", \"歹\", \"奋\", \"肋\", \"旺\", \"焕\", \"蔼\", \"甬\", \"怂\", \"枕\", \"式\", \"躁\", \"尤\", \"温\", \"俄\", \"错\", \"斥\", \"僧\", \"约\", \"淘\", \"萦\", \"咕\", \"鸟\", \"糕\", \"膊\", \"辗\", \"啊\", \"驱\", \"线\", \"膏\", \"驮\", \"袭\", \"站\", \"貌\", \"扰\", \"图\", \"俩\", \"肝\", \"裔\", \"`\", \"熬\", \"庭\", \"芃\", \"薪\", \"灯\", \"迟\", \"兆\", \"疗\", \"府\", \"呵\", \"演\", \"夜\", \"贫\", \"洗\", \"襟\", \"斜\", \"阽\", \"胥\", \"都\", \"栅\", \"ο\", \"濒\", \"當\", \"酒\", \"爷\", \"倘\", \"阳\", \"种\", \"莱\", \"望\", \"江\", \"彻\", \"医\", \"暗\", \"瞅\", \"雾\", \"捷\", \"上\", \"全\", \"附\", \"A\", \"欠\", \"罄\", \"涸\", \"橄\", \"动\", \"狰\", \"骗\", \"仙\", \"唬\", \"敦\", \"勤\", \"簇\", \"呷\", \"缪\", \"部\", \"噬\", \"眩\", \"难\", \"窃\", \"牙\", \"羚\", \"腻\", \"伫\", \"尚\", \"枪\", \"凉\", \"堤\", \"摸\", \"梧\", \"感\", \"您\", \"瞻\", \"宿\", \"溯\", \"衫\", \"或\", \"雀\", \"犷\", \"鲎\", \"存\", \"恙\", \"欧\", \"苣\", \"龙\", \"纬\", \"淆\", \"黢\", \"哦\", \"胚\", \"冉\", \"烤\", \"铜\", \"型\", \"叔\", \"抬\", \"墉\", \"走\", \"剖\", \"方\", \"赡\", \"肖\", \"支\", \"罔\", \"媳\", \"匮\", \"寿\", \"喝\", \"唱\", \"纤\", \"力\", \"晗\", \"踢\", \"直\", \"厨\", \"湃\", \"徇\", \"喜\", \"湘\", \"腓\", \"紊\", \"兹\", \"荒\", \"慷\", \"磕\", \"旦\", \"量\", \"揪\", \"遐\", \"徘\", \"货\", \"撤\", \"礼\", \"侃\", \"ς\", \"厚\", \"怎\", \"脱\", \"(\", \"惹\", \"驿\", \"棍\", \"钞\", \"媛\", \"崩\", \"眼\", \"籁\", \"审\", \"咬\", \"守\", \"跪\", \"〃\", \"汩\", \"张\", \"蜿\", \"ズ\", \"啤\", \"律\", \"弃\", \"悖\", \"狂\", \"贺\", \"咦\", \"伽\", \"互\", \"陡\", \"极\", \"吉\", \"颧\", \"怡\", \"掷\", \"下\", \"糖\", \"捕\", \"熊\", \"卖\", \"瓣\", \"允\", \"住\", \"孕\", \"宛\", \"蓬\", \"穹\", \"罹\", \"眶\", \"誓\", \"尔\", \"強\", \"宙\", \"婶\", \"唯\", \"肴\", \"蕤\", \"罗\", \"艰\", \"蘑\", \"灿\", \"历\", \"靴\", \"攻\", \"嫌\", \"级\", \"时\", \"傍\", \"犟\", \"遣\", \"據\", \"溢\", \"譬\", \"煲\", \"久\", \"啕\", \"旱\", \"土\", \"曹\", \"牒\", \"杨\", \"酵\", \"嘛\", \"浇\", \"画\", \"剑\", \"滴\", \"掖\", \"巧\", \"腋\", \"借\", \"臀\", \"芽\", \"正\", \"婉\", \"戛\", \"袜\", \"岣\", \"饲\", \"芜\", \"父\", \"赫\", \"嗯\", \"莉\", \"醋\", \"高\", \"拜\", \"眉\", \"某\", \"试\", \"o\", \"哈\", \"嘴\", \"粼\", \"醛\", \"巳\", \"選\", \"宰\", \"揭\", \"\\u0000\", \"苒\", \"粘\", \"侠\", \"绑\", \"猎\", \"哥\", \"微\", \"皱\", \"菜\", \"郭\", \"摹\", \"へ\", \"羽\", \"来\", \"掌\", \"杀\", \"十\", \"彪\", \"团\", \"济\", \"房\", \"川\", \"吊\", \"壁\", \"变\", \"邦\", \"衡\", \"艇\", \"V\", \"港\", \"淇\", \"\\u0006\", \"挠\", \"〉\", \"肺\", \"蚓\", \"麽\", \"歌\", \"代\", \"骂\", \"讥\", \"爹\", \"副\", \"名\", \"好\", \"评\", \"夯\", \"伉\", \"呜\", \"耍\", \"厉\", \"品\", \"涅\", \"茁\", \"蜡\", \"肃\", \"灼\", \"熏\", \"砾\", \"辐\", \"辨\", \"沃\", \"绳\", \"飕\", \"绍\", \"彬\", \"保\", \"寡\", \"辛\", \"饼\", \"将\", \"妤\", \"镐\", \".\", \"平\", \"萝\", \"舵\", \"悔\", \"昆\", \"闯\", \"乐\", \"募\", \"国\", \"鲁\", \"萌\", \"星\", \"哺\", \"/\", \"是\", \"裆\", \"矢\", \"邬\", \"纾\", \"逐\", \"晃\", \"迤\", \"弛\", \"伦\", \",\", \"然\", \"摇\", \"妆\", \"炫\", \"滚\", \"祛\", \"贾\", \"呦\", \"葛\", \"近\", \"飘\", \"煜\", \"闸\", \"蝌\", \"晨\", \"姨\", \"贮\", \"嬉\", \"残\", \"病\", \"浊\", \"纱\", \"辅\", \"黏\", \"冯\", \"噢\", \"刁\", \"巾\", \"邕\", \"中\", \"確\", \"捐\", \"惠\", \"孙\", \"闾\", \"波\", \"霖\", \"跨\", \"民\", \"立\", \"冽\", \"每\", \"汉\", \"齿\", \"犯\", \"神\", \"酬\", \"边\", \"雕\", \"嵌\", \"朽\", \"练\", \"撬\", \"聋\", \"贤\", \"娶\", \"枷\", \"仕\", \"茜\", \"被\", \"南\", \"忠\", \"嘟\", \"任\", \"棋\", \"样\", \"泳\", \"电\", \"窗\", \"有\", \"歩\", \"胸\", \"骼\", \"睦\", \"疯\", \"狸\", \"刺\", \"~\", \"诶\", \"姗\", \"覆\", \"原\", \"轼\", \"憬\", \"缜\", \"点\", \"苇\", \"血\", \"惫\", \"抚\", \"教\", \"宴\", \"现\", \"陇\", \"姆\", \"肚\", \"+\", \"汹\", \"扁\", \"耽\", \"翌\", \"褂\", \"巡\", \"稽\", \"纳\", \"?\", \"⑸\", \"壹\", \"娠\", \"岚\", \"咚\", \"溅\", \"吩\", \"瓜\", \"耀\", \"尊\", \"渣\", \"鲍\", \"钩\", \"電\", \"缄\", \"骑\", \"噼\", \"快\", \"撑\", \"孝\", \"雅\", \"官\", \"骸\", \"蹭\", \"铝\", \"―\", \"世\", \"邵\", \"镍\", \"桦\", \"注\", \"火\", \"行\", \"哪\", \"石\", \"俘\", \"蜃\", \"绅\", \"甩\", \"慌\", \"柿\", \"督\", \"颈\", \"砍\", \"吗\", \"燃\", \"杆\", \"公\", \"概\", \"绝\", \"吱\", \"校\", \"乱\", \"惋\", \"本\", \"哼\", \"征\", \"↑\", \"赐\", \"柬\", \"师\", \"靶\", \"刻\", \"驰\", \"塞\", \"为\", \"锐\", \"轰\", \"恍\", \"勘\", \"踌\", \"扑\", \"浅\", \"锲\", \"寓\", \"急\", \"若\", \"嗜\", \"突\", \"甲\", \"已\", \"媲\", \"粉\", \"死\", \"睹\", \"②\", \"瓷\", \"衅\", \"呛\", \"待\", \"痘\", \"喇\", \"浴\", \"辣\", \"赁\", \"夏\", \"t\", \"烙\", \"ě\", \"卡\", \"女\", \"凤\", \"擎\", \"尉\", \"还\", \"丈\", \"鼾\", \"席\", \"秘\", \"纪\", \"鱼\", \"俊\", \"篱\", \"檬\", \"计\", \"瘫\", \"磁\", \"祀\", \"设\", \"涌\", \"界\", \"卫\", \"ノ\", \"畔\", \"升\", \"\", \"〈\", \"涕\", \"渔\", \"癜\", \"畸\", \"颗\", \"仲\", \"责\", \"瑕\", \"盒\", \"柜\", \"疸\", \"锻\", \"勾\", \"撇\", \"妊\", \"秦\", \"细\", \"胜\", \"决\", \"挪\", \"仇\", \"隘\", \"斯\", \"抨\", \"搐\", \"鞘\", \"抡\", \"摞\", \"统\", \"攥\", \"殆\", \"带\", \"晟\", \"镏\", \"玩\", \"定\", \"荡\", \"锄\", \"记\", \"メ\", \"巩\", \"婷\", \"春\", \"汕\", \"纯\", \"怠\", \"d\", \"砧\", \"钰\", \"用\", \"祟\", \"徒\", \"砥\", \"疮\", \"履\", \"锤\", \"滓\", \"韫\", \"穰\", \"咙\", \"窟\", \"猜\", \"尹\", \"议\", \"邃\", \"勖\", \"踵\", \"邋\", \"脐\", \"葡\", \"阎\", \"瑰\", \"象\", \"掩\", \"蛛\", \"璨\", \"断\", \"慰\", \"兵\", \"髻\", \"荷\", \"均\", \"碰\", \"咖\", \"利\", \"妹\", \"惩\", \"曦\", \"育\", \"缸\", \"培\", \"叹\", \"墨\", \"猛\", \"旎\", \"谬\", \"纰\", \"测\", \"治\", \"免\", \"凸\", \"扇\", \"猴\", \"幼\", \"俨\", \"究\", \"移\", \"沿\", \"墙\", \"软\", \"小\", \"采\", \"奴\", \"←\", \"嗡\", \"昵\", \"桂\", \"》\", \"漉\", \"虱\", \"组\", \"跋\", \"抄\", \"厥\", \"孤\", \"萍\", \"恩\", \"惺\", \"渎\", \"藏\", \"衷\", \"叭\", \"锌\", \"\\u0007\", \"阪\", \"煞\", \"瑶\", \"乙\", \"聆\", \"馆\", \"⑩\", \"只\", \"\\b\", \"璀\", \"曰\", \"戢\", \"槌\", \"恿\", \"豹\", \"逸\", \"蒜\", \"众\", \"餐\", \"钥\", \"左\", \"倩\", \"煽\", \"灌\", \"蛇\", \"馕\", \"可\", \"伤\", \"p\", \"秽\", \"晦\", \"泻\", \"奎\", \"魄\", \"深\", \"镉\", \"∶\", \"撞\", \"锡\", \"淼\", \"登\", \"播\", \"槛\", \"虑\", \"晖\", \"霓\", \"拙\", \"澡\", \"色\", \"扣\", \"爽\", \"楠\", \"狠\", \"葩\", \"桅\", \"黄\", \"龟\", \"掉\", \"幽\", \"滨\", \"综\", \"馍\", \"瘤\", \"ὐ\", \"脏\", \"徨\", \"内\", \"胫\", \"示\", \"人\", \"泡\", \";\", \"朱\", \"〞\", \"烯\", \"徳\", \"椭\", \"伯\", \"羊\", \"滑\", \"乍\", \"犁\", \"伏\", \"棠\", \"戮\", \"昕\", \"刷\", \"黎\", \"逗\", \"畴\", \"怜\", \"翩\", \"滋\", \"霾\", \"菩\", \"吐\", \"臊\", \"氮\", \"性\", \"员\", \"悠\", \"跚\", \"漏\", \"谜\", \"喔\", \"矛\", \"砸\", \"胆\", \"舍\", \"谈\", \"对\", \"弑\", \"太\", \"刨\", \"邮\", \"徙\", \"攫\", \"榻\", \"寸\", \"搞\", \"埋\", \"寝\", \"盹\", \"斛\", \"机\", \"爬\", \"掏\", \"临\", \"翕\", \"延\", \"宸\", \"玉\", \"■\", \"菇\", \"习\", \"框\", \"筐\", \"琦\", \"厅\", \"吞\", \"镀\", \"的\", \"彼\", \"飙\", \"磋\", \"共\", \"悄\", \"华\", \"敲\", \"踪\", \"吏\", \"相\", \"窘\", \"凹\", \"账\", \"缝\", \"遁\", \"嚣\", \"撅\", \"⑦\", \"棘\", \"握\", \"应\", \"吻\", \"顽\", \"暑\", \"甚\", \"瑄\", \"萎\", \"简\", \"储\", \"期\", \"舞\", \"怨\", \"·\", \"藉\", \"珉\", \"⑧\", \"锢\", \"辄\", \"屿\", \"括\", \"随\", \"赣\", \"蛋\", \"祭\", \"株\", \"愁\", \"豚\", \"竭\", \"掬\", \"奸\", \"梅\", \"趁\", \"個\", \"那\", \"垫\", \"逢\", \"失\", \"郝\", \"买\", \"慢\", \"银\", \"臼\", \"搬\", \"乓\", \"匪\", \"坟\", \"迷\", \"鸦\", \"意\", \"限\", \"门\", \"宇\", \"仰\", \"鲨\", \"佛\", \"陵\", \"篢\", \"岔\", \"殷\", \"嘻\", \"烁\", \"岂\", \"兄\", \"悼\", \"新\", \"擦\", \"垢\", \"簧\", \"误\", \"收\", \"矮\", \"削\", \"英\", \"媚\", \"拌\", \"过\", \"戳\", \"厮\", \"闭\", \"卧\", \"西\", \"峙\", \"街\", \"鞭\", \"垠\", \"霞\", \"尺\", \"讯\", \"袋\", \"夥\", \"遏\", \"吁\", \"薰\", \"娥\", \"讳\", \"牡\", \"野\", \"兼\", \"鸿\", \"跷\", \"咆\", \"鸡\", \"贱\", \"僻\", \"坤\", \"矶\", \"損\", \"非\", \"产\", \"唉\", \"荟\", \"号\", \"完\", \"2\", \"凋\", \"能\", \"弹\", \"慈\", \"积\", \"隐\", \"脆\", \"⑤\", \"鳌\", \"盎\", \"​\", \"◆\", \"冥\", \"猖\", \"吃\", \"瞪\", \"伊\", \"届\", \"剔\", \"叮\", \"瓶\", \"汽\", \"嘱\", \"瘙\", \"混\", \"听\", \"啪\", \"绊\", \"垮\", \"倡\", \"俚\", \"磊\", \"笑\", \"惰\", \"蜴\", \"笨\", \"宫\", \"粟\", \"肘\", \"痴\", \"箔\", \"骆\", \"腹\", \"山\", \"倍\", \"鸥\", \"恐\", \"监\", \"践\", \"榨\", \"阮\", \"疚\", \"顾\", \"铁\", \"晋\", \"乖\", \"荆\", \"庚\", \"抠\", \"撐\", \"芦\", \"超\", \"宾\", \"虔\", \"晾\", \"網\", \"渠\", \"欲\", \"虽\", \"悉\", \"乘\", \"伍\", \"鹃\", \"寄\", \"忱\", \"喊\", \"铣\", \"熨\", \"逑\", \"飓\", \"葱\", \"功\", \"\", \"辟\", \"喆\", \"益\", \"朵\", \"踊\", \"坪\", \"文\", \"持\", \"缘\", \"伙\", \"岖\", \"螺\", \"纹\", \"句\", \"劈\", \"比\", \"茎\", \"氰\", \"挺\", \"敬\", \"京\", \"赖\", \"疫\", \"但\", \"声\", \"骰\", \"屁\", \"城\", \"两\", \"\\\\\", \"篓\", \"蓝\", \"盐\", \"揣\", \"蕃\", \"据\", \"價\", \"接\", \"彷\", \"鳞\", \"竖\", \"扎\", \"竞\", \"减\", \"颐\", \"陨\", \"价\", \"见\", \"巫\", \"恋\", \"饷\", \"邱\", \"荫\", \"烘\", \"诃\", \"幸\", \"暖\", \"滇\", \"邻\", \"译\", \"洒\", \"瓦\", \"罢\", \"影\", \"咱\", \"槽\", \"夕\", \"社\", \"憔\", \"喻\", \"侥\", \"叩\", \"赴\", \"庞\", \"咧\", \"雷\", \"嚎\", \"璧\", \"蚊\", \"垒\", \"成\", \"粱\", \"召\", \"厄\", \"谴\", \"杠\", \"读\", \"淋\", \"郎\", \"抱\", \"称\", \"族\", \"田\", \"贞\", \"陀\", \"昭\", \"客\", \"君\", \"虚\", \"候\", \"贼\", \"绽\", \"拂\", \"庐\", \"裴\", \"祉\", \"炕\", \"蝶\", \"泄\", \"圭\", \"茉\", \"厢\", \"泽\", \"雨\", \"刹\", \"占\", \"册\", \"遴\", \"拓\", \"扛\", \"暹\", \"咨\", \"炭\", \"莴\", \"褐\", \"酱\", \"饵\", \"按\", \"吟\", \"密\", \"徽\", \"友\", \"粒\", \"俞\", \"岌\", \"瑢\", \"辑\", \"二\", \"婊\", \"襄\", \"域\", \"格\", \"恢\", \"婴\", \"泪\", \"范\", \"村\", \"脯\", \"脖\", \"留\", \"写\", \"洪\", \"汝\", \"涮\", \"闫\", \"泌\", \"嫂\", \"程\", \"愉\", \"胀\", \"刚\", \"托\", \"宝\", \"冀\", \"巍\", \"潦\", \"默\", \"薩\", \"己\", \"玫\", \"粕\", \"傲\", \"根\", \"馈\", \"侵\", \"笋\", \"鄙\", \"愿\", \")\", \"丽\", \"浦\", \"迪\", \"耸\", \"伐\", \"}\", \"救\", \"筋\", \"倾\", \"搡\", \"绪\", \"忧\", \"政\", \"稿\", \"蹄\", \"桑\", \"3\", \"苦\", \"倒\", \"腊\", \"℃\", \"士\", \"锥\", \"捂\", \"项\", \"恼\", \"反\", \"详\", \"赌\", \"撰\", \"丛\", \"邸\", \"囊\", \"吼\", \"乒\", \"诣\", \"橙\", \"莘\", \"瘾\", \"农\", \"康\", \"辱\", \"闪\", \"卻\", \"灰\", \"博\", \"鄂\", \"些\", \"哭\", \"疹\", \"栖\", \"维\", \"纠\", \"晶\", \"聿\", \"咐\", \"筛\", \"推\", \"芒\", \"填\", \"橘\", \"迦\", \"馄\", \"携\", \"植\", \"鹦\", \"轿\", \"柚\", \"截\", \"佰\", \"鸣\", \"捉\", \"七\", \"报\", \"竿\", \"俪\", \"○\", \"建\", \"景\", \"离\", \"脑\", \"虫\", \"佳\", \"滥\", \"悦\", \"咀\", \"虹\", \"炉\", \"澎\", \"盏\", \"浏\", \"抑\", \"硬\", \"侍\", \"探\", \"崽\", \"多\", \"恣\", \"震\", \"债\", \"挤\", \"芙\", \"燥\", \"s\", \"篷\", \"苛\", \"帽\", \"跳\", \"尝\", \"辽\", \"诸\", \"曝\", \"吠\", \"8\", \"划\", \"院\", \"片\", \"操\", \"激\", \"柯\", \"柴\", \"蚪\", \"報\", \"毎\", \"娑\", \"合\", \"蹴\", \"偏\", \"罚\", \"袁\", \"楂\", \"冶\", \"年\", \"物\", \"特\", \"瀚\", \"枢\", \"玷\", \"煎\", \"丝\", \"祈\", \"岸\", \"匕\", \"漓\", \"课\", \"映\", \"裳\", \"茵\", \"玛\", \"墅\", \"唷\", \"信\", \"鼻\", \"库\", \"户\", \"穗\", \"贩\", \"呀\", \"潭\", \"拖\", \"材\", \"淄\", \"违\", \"哲\", \"藕\", \"悟\", \"踩\", \"区\", \"懒\", \"惟\", \"绿\", \"埃\", \"唾\", \"德\", \"金\", \"窜\", \"韪\", \"扼\", \"耳\", \"做\", \"袱\", \"惑\", \"屠\", \"谭\", \"檐\", \"池\", \"潜\", \"漩\", \"喧\", \"憾\", \"和\", \"充\", \"拭\", \"智\", \"袖\", \"蟋\", \"栈\", \"损\", \"赘\", \"厘\", \"牠\", \"融\", \"夹\", \"辆\", \"砂\", \"莺\", \"膀\", \"诺\", \"浙\", \"桔\", \"逞\", \"、\", \"钵\", \"钓\", \"桐\", \"奏\", \"荨\", \"俯\", \"茸\", \"懈\", \"却\", \"卿\", \"丐\", \"歼\", \"妙\", \"视\", \"妃\", \"巨\", \"题\", \"兮\", \"禧\", \"侣\", \"秸\", \"订\", \"桶\", \"缈\", \"虞\", \"9\", \"鼎\", \"巷\", \"屣\", \"抖\", \"酿\", \"呼\", \"传\", \"营\", \"咪\", \"拆\", \"规\", \"蝗\", \"踏\", \"店\", \"触\", \"⒌\", \"而\", \"懵\", \"饱\", \"层\", \"膳\", \"札\", \"谱\", \"伴\", \"扫\", \"挖\", \"孀\", \"挝\", \"照\", \"晴\", \"礁\", \"尴\", \"腱\", \"淖\", \"胰\", \"蓁\", \"噪\", \"歧\", \"疏\", \"浞\", \"侈\", \"偶\", \"果\", \"再\", \"振\", \"适\", \"糟\", \"妥\", \"市\", \"濮\", \"烫\", \"酪\", \"锂\", \"摒\", \"拨\", \"刊\", \"阁\", \"帝\", \"盲\", \"臂\", \"猫\", \"薇\", \"乞\", \"喂\", \"颖\", \"背\", \"霏\", \"芳\", \"恶\", \"戚\", \"负\", \"估\", \"瞧\", \"抒\", \"烧\", \"活\", \"肮\", \"吾\", \"扬\", \"竣\", \"蟑\", \"丹\", \"後\", \"凛\", \"涣\", \"策\", \"臆\", \"杯\", \"捡\", \"妓\", \"罪\", \"躇\", \"钻\", \"牖\", \"描\", \"渐\", \"驻\", \"傻\", \"扮\", \"翱\", \"讶\", \"敖\", \"伟\", \"帆\", \"佬\", \"诞\", \"个\", \"碎\", \"琛\", \"慧\", \"寻\", \"阑\", \"调\", \"珊\", \"惕\", \"竟\", \"倚\", \"亲\", \"需\", \"打\", \"拼\", \"苗\", \"湾\", \"童\", \"阅\", \"隶\", \"熔\", \"氢\", \"郸\", \"塌\", \"像\", \"秋\", \"蛙\", \"料\", \"卓\", \"裹\", \"字\", \"徐\", \"涉\", \"毯\", \"署\", \"堕\", \"芥\", \"胱\", \"诧\", \"犰\", \"葵\", \"诫\", \"肛\", \"瑧\", \"沓\", \"抓\", \"扭\", \"⒁\", \"游\", \"锒\", \"圜\", \"困\", \"颁\", \"委\", \"徊\", \"蜕\", \"吓\", \"姻\", \"搜\", \"宗\", \"敝\", \"远\", \"捺\", \"欺\", \"芹\", \"侨\", \"暮\", \"前\", \"算\", \"柠\", \"半\", \"為\", \"窍\", \"局\", \"欣\", \"蛊\", \"慨\", \"沟\", \"馒\", \"畿\", \"皆\", \"销\", \"兰\", \"迎\", \"©\", \"澈\", \"逍\", \"拥\", \"商\", \"如\", \"法\", \"呗\", \"彩\", \"省\", \"烈\", \"灶\", \"祸\", \"別\", \"\", \"怯\", \"勋\", \"肩\", \"匈\", \"楼\", \"替\", \"惦\", \"网\", \"篇\", \"开\", \"出\", \"击\", \"稍\", \"琢\", \"凄\", \"黔\", \"皖\", \"场\", \"僵\", \"辞\", \"武\", \"宪\", \"午\", \"黯\", \"馅\", \"抿\", \"烃\", \"腕\", \"三\", \"悍\", \"曼\", \"撒\", \"\\u0005\", \"瞥\", \"醒\", \"洲\", \"黝\", \"湮\", \"倦\", \"⒋\", \"双\", \"叉\", \"广\", \"指\", \"贷\", \"戴\", \"楣\", \"拧\", \"赢\", \"蜒\", \"擂\", \"霸\", \"乾\", \"昨\", \"撸\", \"迁\", \"列\", \"砖\", \"覃\", \"树\", \"析\", \"受\", \"嗣\", \"聪\", \"悴\", \"镑\", \"亟\", \"拾\", \"瑞\", \"翅\", \"尘\", \"岳\", \"麟\", \"瞩\", \"炒\", \"斧\", \"催\", \"霊\", \"涤\", \"选\", \"俭\", \"蓉\", \"苟\", \"率\", \"滢\", \"配\", \"巢\", \"淮\", \"第\", \"叶\", \"⑿\", \"炝\", \"彭\", \"窥\", \"畑\", \"射\", \"哉\", \"娅\", \"趟\", \"掀\", \"矍\", \"翁\", \"敷\", \"蔡\", \"耩\", \"時\", \"怪\", \"涯\", \"婿\", \"虐\", \"郊\", \"览\", \"别\", \"踱\", \"踞\", \"─\", \"茶\", \"承\", \"跃\", \"斐\", \"毙\", \"恳\", \"予\", \"雳\", \"凝\", \"弩\", \"健\", \"故\", \"业\", \"耶\", \"妮\", \"颓\", \"毕\", \"粹\", \"赚\", \"袍\", \"僚\", \"魏\", \"仔\", \"趴\", \"垂\", \"玳\", \"讦\", \"励\", \"翻\", \"套\", \"啡\", \"翰\", \"娟\", \"必\", \"敌\", \"猥\", \"炊\", \"\", \"攸\", \"针\", \"研\", \"显\", \"嫁\", \"云\", \"少\", \"输\", \"氨\", \"铸\", \"扳\", \"遇\", \"了\", \"拽\", \"焯\", \"狭\", \"孵\", \"羁\", \"噴\", \"坑\", \"ㄓ\", \"婪\", \"稣\", \"伺\", \"妒\", \"仑\", \"奘\", \"凶\", \"赏\", \"腥\", \"枣\", \"该\", \"滞\", \"速\", \"陛\", \"e\", \"判\", \"哗\", \"憨\", \"祢\", \"钢\", \"擤\", \"劑\", \"陪\", \"孽\", \"埔\", \"勺\", \"投\", \"坠\", \"淫\", \"俏\", \"臭\", \"棕\", \"夭\", \"乌\", \"丢\", \"鼓\", \"财\", \"瑜\", \"胧\", \"曙\", \"葫\", \"闻\", \"颜\", \"番\", \"迅\", \"缩\", \"抛\", \"聘\", \"谀\", \"骏\", \"漲\", \"爪\", \"五\", \"怀\", \"面\", \"租\", \"授\", \"猬\", \"躲\", \"湛\", \"造\", \"距\", \"肯\", \"偷\", \"辉\", \"兴\", \"灸\", \"脸\", \"峻\", \"梭\", \"铤\", \"碱\", \"卵\", \"狞\", \"绷\", \"赠\", \"悚\", \"制\", \"缆\", \"蹈\", \"炙\", \"屋\", \"崇\", \"冬\", \"气\", \"颉\", \"吕\", \"帮\", \"盘\", \"亨\", \"币\", \"况\", \"蹩\", \"桃\", \"郴\", \"壮\", \"陕\", \"邯\", \"甜\", \"着\", \"莫\", \"躺\", \"冰\", \"钦\", \"遑\", \"黛\", \"汪\", \"施\", \"聊\", \"寰\", \"八\", \"奔\", \"铨\", \"耐\", \"缓\", \"段\", \"堵\", \"贡\", \"认\", \"禁\", \"筝\", \"梗\", \"懦\", \"狄\", \"螃\", \"棱\", \"备\", \"慑\", \"栩\", \"命\", \"箭\", \"争\", \"纲\", \"芋\", \"亵\", \"从\", \"谢\", \"姓\", \"择\", \"海\", \"辕\", \"雄\", \"沦\", \"荧\", \"努\", \"晚\", \"月\", \"集\", \"观\", \"琳\", \"碳\", \"漫\", \"鸽\", \"涩\", \"围\", \"例\", \"论\", \"知\", \"毋\", \"氯\", \"够\", \"累\", \"泱\", \"摩\", \"陌\", \"肢\", \"邀\", \"渝\", \"★\", \"谨\", \"姊\", \"峰\", \"湄\", \"退\", \"阀\", \"蓦\", \"佘\", \"忡\", \"炖\", \"迩\", \"涡\", \"寐\", \"胞\", \"及\", \"扯\", \"饿\", \"润\", \"惊\", \"赤\", \"生\", \"辰\", \"詹\", \"峭\", \"滔\", \"瞳\", \"碑\", \"球\", \"王\", \"摘\", \"禄\", \"础\", \"伪\", \"羹\", \"壳\", \"皙\", \"诲\", \"频\", \"坚\", \"叼\", \"碧\", \"茏\", \""\", \"渊\", \"蓟\", \"痹\", \"瞎\", \"疙\", \"嗓\", \"镳\", \"船\", \"孔\", \"弗\", \"固\", \"帖\", \"噱\", \"越\", \"仁\", \"円\", \"_\", \"弄\", \"奢\", \"抉\", \"重\", \"疑\", \"愕\", \"之\", \"嘲\", \"披\", \"基\", \"辖\", \"牲\", \"到\", \"碟\", \"心\", \"忐\", \"4\", \"壤\", \"园\", \"斗\", \"シ\", \"贬\", \"勿\", \"嗪\", \"织\", \"柄\", \"娜\", \"恨\", \"帜\", \"烹\", \"目\", \"婆\", \"肓\", \"糯\", \"亮\", \"崛\", \"蛮\", \"核\", \"遂\", \"忽\", \"霭\", \"俺\", \"勃\", \"酥\", \"n\", \"趣\", \"牵\", \"地\", \"醇\", \"碗\", \"梁\", \"霄\", \"惘\", \"亳\", \"涨\", \"邂\", \"牺\", \"瀛\", \"沉\", \"满\", \"撷\", \"※\", \"铂\", \"苹\", \"契\", \"胺\", \"洛\", \"录\", \"憋\", \"噩\", \"剥\", \"莓\", \"薛\", \"骛\", \"逆\", \"诙\", \"妍\", \"拉\", \"缕\", \"森\", \"赛\", \"屏\", \"谅\", \"麻\", \"舒\", \"炎\", \"冤\", \"茄\", \"类\", \"攒\", \"缀\", \"尧\", \"哄\", \"淑\", \"洽\", \"睿\", \"口\", \"荼\", \"亂\", \"顿\", \"宣\", \"米\", \"删\", \"壶\", \"属\", \"朴\", \"③\", \"冲\", \"庸\", \"榜\", \"链\", \"堆\", \"今\", \"【\", \"态\", \"权\", \"匿\", \"铛\", \"挥\", \"阿\", \"姐\", \"▲\", \"饰\", \"鳃\", \"邓\", \"钮\", \"梨\", \"挲\", \"萼\", \"嘀\", \"萧\", \"此\", \"黑\", \"旆\", \"林\", \"姿\", \"敞\", \"槃\", \"谷\", \"供\", \"剩\", \"栏\", \"学\", \"扉\", \"磅\", \"廷\", \"锁\", \"疤\", \"眨\", \"鑫\", \"瑨\", \"键\", \"毛\", \"颌\", \"终\", \"四\", \"净\", \"イ\", \"缥\", \"權\", \"〔\", \"谎\", \"绞\", \"筹\", \"⒀\", \"採\", \"榷\", \"旁\", \"芝\", \"殊\", \"郜\", \"泵\", \"诚\", \"呃\", \"遍\", \"儒\", \"褒\", \"靖\", \"亥\", \"碍\", \"醍\", \"颠\", \"泰\", \"摆\", \"焉\", \"捞\", \"搅\", \"缚\", \"邑\", \"喽\", \"奂\", \"谣\", \"屑\", \"膛\", \"矫\", \"真\", \"镇\", \"药\", \"蔑\", \"碴\", \"舎\", \"裁\", \"拯\", \"往\", \"氛\", \"茅\", \"妇\", \"具\", \"咋\", \"吆\", \"姬\", \"沛\", \"拷\", \"导\", \"浑\", \"艳\", \"麾\", \"\", \"魔\", \"寂\", \"凌\", \"至\", \"横\", \"孰\", \"昧\", \"硅\", \"橡\", \"值\", \"毗\", \"捅\", \"炬\", \"淳\", \"岐\", \"役\", \"肉\", \"殴\", \"秤\", \"条\", \"老\", \"岁\", \"夷\", \"台\", \"后\", \"架\", \"煌\", \"哇\", \"樯\", \"觉\", \"竹\", \"扩\", \"仍\", \"椅\", \"珀\", \"隧\", \"賣\", \"悬\", \"薯\", \"诅\", \"嘣\", \"&\", \"叠\", \"劫\", \"峨\", \"喱\", \"花\", \"咽\", \"轻\", \"烬\", \"邹\", \"⒃\", \"幢\", \"蚌\", \"央\", \"痪\", \"淌\", \"挣\", \"笛\", \"拒\", \"且\", \"搁\", \"诨\", \"滤\", \"愚\", \"旬\", \"敢\", \"谑\", \"答\", \"码\", \"止\", \"坡\", \"篡\", \"证\", \"什\", \"姚\", \"谍\", \"辫\", \"搀\", \"骚\", \"未\", \"柔\", \"畜\", \"瘩\", \"他\", \"楔\", \"劣\", \"请\", \"胡\", \"页\", \"嗦\", \"茂\", \"票\", \"求\", \"勇\", \"陆\", \"渴\", \"C\", \"余\", \"慕\", \"冈\", \"洋\", \"骄\", \"^\", \"庇\", \"棂\", \"ソ\", \"柘\", \"〝\", \"懑\", \"返\", \"刀\", \"畅\", \"兜\", \"哀\", \"剪\", \"工\", \"桢\", \"埠\", \"亭\", \"荤\", \"汶\", \"惶\", \"肤\", \"瘀\", \"自\", \"竺\", \"腔\", \"牢\", \"D\", \"执\", \"独\", \"燎\", \"枚\", \"扔\", \"酌\", \"谧\", \"欢\", \"摔\", \"戏\", \"衬\", \"弘\", \"耦\", \"卤\", \"の\", \"蜜\", \"词\", \"偻\", \"严\", \"蹿\", \"递\", \"酝\", \"笆\", \"蓄\", \"亡\", \"稀\", \"批\", \"煤\", \"遵\", \"脂\", \"冠\", \"泼\", \"衔\", \"匠\", \"並\", \"琅\", \"径\", \"屌\", \"咳\", \"怔\", \"梦\", \"鳗\", \"姑\", \"奠\", \"峡\", \"窦\", \"酸\", \"甯\", \"琉\", \"贪\", \"舅\", \"确\", \"更\", \"股\", \"汤\", \"伞\", \"拇\", \"因\", \"惭\", \"械\", \"崔\", \"猡\", \"脉\", \"分\", \"擘\", \"牧\", \"秆\", \"肇\", \"风\", \"即\", \"警\", \"降\", \"惧\", \"耗\", \"疼\", \"躯\", \"珏\", \"麦\", \"跻\", \"坂\", \"败\", \"汐\", \"眺\", \"[\", \"杰\", \"珠\", \"颂\", \"水\", \"哎\", \"腺\", \"逊\", \"烛\", \"鞠\", \"屎\", \"克\", \"苍\", \"胳\", \"稻\", \"以\", \":\", \"加\", \"谁\", \"拗\", \"裙\", \"叫\", \"志\", \"诩\", \"服\", \"协\", \"找\", \"乳\", \"昔\", \"愣\", \"喘\", \"厌\", \"娇\", \"措\", \"这\", \"弱\", \"碾\", \"县\", \"韩\", \"锏\", \"沁\", \"苑\", \"迈\", \"送\", \"矗\", \"暨\", \"识\", \"眠\", \"圩\", \"顺\", \"思\", \"瓢\", \"鞍\", \"铄\", \"袒\", \"档\", \"援\", \"奚\", \"仅\", \"犄\", \"胖\", \"卜\", \"阴\", \"钧\", \"⒂\", \"屹\", \"赃\", \"结\", \"不\", \"聒\", \"鞋\", \"军\", \"挡\", \"纵\", \"虾\", \"大\", \"访\", \"蔓\", \"韧\", \"嗤\", \"谓\", \"洼\", \"才\", \"黩\", \"啸\", \"毒\", \"遥\", \"凿\", \"豆\", \"转\", \"塘\", \"菁\", \"舌\", \"噌\", \"愤\", \"浓\", \"闵\", \"玮\", \"匀\", \"壓\", \"芮\", \"π\", \"很\", \"脊\", \"玻\", \"。\", \"澄\", \"豌\", \"釜\", \"娃\", \"痛\", \"浚\", \"杖\", \"朔\", \"案\", \"间\", \"尼\", \"谦\", \"六\", \"N\", \"怒\", \"迭\", \"恰\", \"殖\", \"庙\", \"企\", \"牛\", \"涟\", \"璜\", \"窄\", \"捆\", \"員\", \"装\", \"补\", \"阜\", \"位\", \"枯\", \"岭\", \"吸\", \"盾\", \"腿\", \"敛\", \"居\", \"楚\", \"醉\", \"郡\", \"撼\", \"绚\", \"安\", \"咏\", \"鲤\", \"椎\", \"须\", \"史\", \"褪\", \"慎\", \"漆\", \"防\", \"丧\", \"戈\", \"杉\", \"旅\", \"泉\", \"茫\", \"珞\", \"豫\", \"静\", \"侬\", \"●\", \"圆\", \"琼\", \"炳\", \"空\", \"祥\", \"汲\", \"身\", \"创\", \"宵\", \"爻\", \"灭\", \"蜷\", \"忌\", \"香\", \"复\", \"棵\", \"蕉\", \"霜\", \"琶\", \"沫\", \"缉\", \"抽\", \"揉\", \"言\", \"唤\", \"坎\", \"割\", \"饨\", \"奇\", \"患\", \"靓\", \"作\", \"箱\", \"招\", \"痕\", \"罩\", \"鸭\", \"龇\", \"芷\", \"纺\", \"骅\", \"途\", \"沏\", \"享\", \"×\", \"沙\", \"彤\", \"瞄\", \"i\", \"甫\", \"油\", \"溪\", \"鹈\", \"屉\", \"吭\", \"也\", \"劳\", \"窝\", \"搏\", \"抢\", \"垄\", \"泥\", \"当\", \"堂\", \"梳\", \"雍\", \"啬\", \"爵\", \"溶\", \"晓\", \"摊\", \"箍\", \"嗨\", \"诈\", \"秩\", \"裘\", \"腭\", \"诵\", \"戍\", \"最\", \"龄\", \"鬼\", \"盗\", \"籍\", \"睬\", \"锚\", \"骨\", \"巴\", \"鲸\", \"廖\", \"拐\", \"饽\", \"关\", \"跟\", \"泊\", \"蚯\", \"烦\", \"亩\", \"训\", \"著\", \"蠢\", \"簿\", \"我\", \"陶\", \"秉\", \"杂\", \"绎\", \"蕾\", \"佐\", \"蜥\", \"单\", \"菊\", \"坷\", \"疵\", \"乔\", \"诟\", \"」\", \"涵\", \"硫\", \"鲜\", \"羔\", \"睐\", \"0\", \"藤\", \"焊\", \"啐\", \"睑\", \"白\", \"圈\", \"醐\", \"驭\", \"嘭\", \"赂\", \"莞\", \"旧\", \"剽\", \"砌\", \"粤\", \"宽\", \"菲\", \"章\", \"泠\", \"哧\", \"彗\", \"粽\", \"验\", \"穴\", \"憧\", \"矿\", \"朗\", \"落\", \"玲\", \"資\", \"苯\", \"铭\", \"〖\", \"鼠\", \"流\", \"足\", \"符\", \"狱\", \"睁\", \"夺\", \"狡\", \"矣\", \"爱\", \"晒\", \"焚\", \"烂\", \"皑\", \"则\", \"佼\", \"险\", \"祷\", \"r\", \"令\", \"\", \"燕\", \"厝\", \"各\", \"数\", \"奶\", \"似\", \"循\", \"贝\", \"话\", \"鼯\", \"封\", \"晰\", \"秃\", \"⑶\", \"桌\", \"包\", \"御\", \"贴\", \"布\", \"7\", \"坦\", \"潇\", \"狮\", \"座\", \"蚤\", \"绥\", \"愈\", \"遢\", \"费\", \"事\", \"破\", \"{\", \"宁\", \"挑\", \"鹰\", \"犹\", \"叙\", \"零\", \"嘎\", \"墟\", \"渍\", \"联\", \"载\", \"�\", \"栓\", \"绸\", \"讼\", \"暴\", \"潘\", \"挨\", \"并\", \"墓\", \"臻\", \"何\", \"幅\", \"废\", \"申\", \"榄\", \"沥\", \"耿\", \"椰\", \"夫\", \"笔\", \"柱\", \"侧\", \"顷\", \"佟\", \"首\", \"栋\", \"棚\", \"孜\", \"消\", \"魅\", \"艺\", \"褚\", \"势\", \"谩\", \"寥\", \"熄\", \"匾\", \"诬\", \"季\", \"启\", \"达\", \"弊\", \"讲\", \"系\", \"良\", \"蜘\", \"馏\", \"另\", \"绕\", \"缠\", \"呸\", \"姣\", \"\", \"恤\", \"仗\", \"室\", \"髓\", \"嚼\", \"整\", \"化\", \"鹕\", \"偎\", \"忙\", \"・\", \"佣\", \"虎\", \"剧\", \"呆\", \"擞\", \"哒\", \"鸩\", \"淡\", \"歉\", \"寒\", \"跌\", \"丘\", \"诡\", \"领\", \"禾\", \"兑\", \"诊\", \"度\", \"伸\", \"奖\", \"镭\", \"喀\", \"埂\", \"腰\", \"筑\", \"涎\", \"⑥\", \"际\", \"助\", \"飚\", \"渡\", \"掂\", \"匙\", \"镶\", \"凳\", \"曾\", \"於\", \"磺\", \"罕\", \"角\", \"舟\", \"疲\", \"嵘\", \"青\", \"鹭\", \"先\", \"屡\", \"办\", \"癌\", \"韵\", \"天\", \"铲\", \"给\", \"尬\", \"赅\", \"睛\", \"问\", \"逶\", \"沮\", \"增\", \"惴\", \"阱\", \"铩\", \"次\", \"帕\", \"陈\", \"彰\", \"璎\", \"献\", \"拦\", \"典\", \"卷\", \"松\", \"一\", \"镜\", \"妻\", \"奈\", \"道\", \"翠\", \"肠\", \"①\", \"沽\", \" \", \"挈\", \"囚\", \"早\", \"】\", \"翊\", \"遭\", \"容\", \"诀\", \"璃\", \"危\", \"讽\", \"α\", \"堪\", \"赵\", \"卢\", \"裸\", \" \", \"精\", \"庆\", \"家\", \"沈\", \"藐\", \"块\", \"恭\", \"纸\", \"禽\", \"毫\", \"锋\", \"皂\", \"笼\", \"逅\", \"贵\", \"瞰\", \"奥\", \"焦\", \"璇\", \"漪\", \"始\", \"钝\", \"易\", \"亿\", \"邢\", \"尖\", \"许\", \"孪\", \"希\", \"吵\", \"烊\", \"翘\", \"梯\", \"兔\", \"付\", \"鹉\", \"堡\", \"凭\", \"裂\", \"稳\", \"逻\", \"掐\", \"插\", \"→\", \"谚\", \"铎\", \"钱\", \"硕\", \"栗\", \"廉\", \"樱\", \"介\", \"哮\", \"毁\", \"▪\", \"毡\", \"护\", \"饶\", \"鹅\", \"穆\", \"攘\", \"焰\", \"战\", \"槐\", \"熟\", \"娼\", \"驼\", \"鉴\", \"叛\", \"诉\", \"驾\", \"缺\", \"籽\", \"撩\", \"侮\", \"控\", \"便\", \"闷\", \"透\", \"睽\", \"宏\", \"板\", \"宠\", \"耕\", \"添\", \"灑\", \"纷\", \"渲\", \"般\", \"函\", \"鹌\", \"唏\", \"蒸\", \"凰\", \"芭\", \"擅\", \"卑\", \"胶\", \"掠\", \"痰\", \"觅\", \"ヨ\", \"莅\", \"乡\", \"雁\", \"迄\", \"紫\", \"糠\", \"技\", \"址\", \"抹\", \"甘\", \"舐\", \"会\", \"汰\", \"吧\", \"念\", \"含\", \"垛\", \"咯\", \"耙\", \"鬓\", \"扒\", \"蹒\", \"啼\", \"明\", \"讨\", \"篝\", \"阻\", \"除\", \"茱\", \"想\", \"雪\", \"T\", \"忆\", \"轶\", \"秒\", \"缅\", \"轩\", \"屯\", \"廊\", \"坝\", \"淤\", \"旌\", \"草\", \"喃\", \"谔\", \"媒\", \"《\", \"攀\", \"北\", \"趋\", \"她\", \"悯\", \"衰\", \"汁\", \"举\", \"垃\", \"交\", \"懊\", \"⑨\", \"煮\", \"坊\", \"颇\", \"5\", \"弟\", \"偌\", \"铮\", \"由\", \"无\", \"葆\", \"佩\", \"较\", \"沂\", \"悲\", \"蔬\", \"啥\", \"鹤\", \"圾\", \"嚷\", \"歇\", \"进\", \"芬\", \"仓\", \"狈\", \"侯\", \"遛\", \"瞬\", \"發\", \"展\", \"拿\", \"构\", \"亏\", \"索\", \"忑\", \"摧\", \"源\", \"瑑\", \"科\", \"拱\", \"钜\", \"绵\", \"盼\", \"倜\", \"沧\", \"孟\", \"姜\", \"抵\", \"戸\", \"停\", \"犀\", \"驶\", \"俑\", \"漱\", \"锅\", \"寅\", \"湿\", \"噶\", \"沪\", \"韬\", \"致\", \"恃\", \"運\", \"镕\", \"怕\", \"艘\", \"航\", \"挚\", \"衍\", \"淅\", \"霹\", \"连\", \"咎\", \"讷\", \"剿\", \"娘\", \"普\", \"古\", \"榆\", \"翼\", \"邪\", \"假\", \"疆\", \"怵\", \"礴\", \"逃\", \"萨\", \"炼\", \"切\", \"涝\", \"嘿\", \"美\", \"卦\", \"篮\", \"洞\", \"外\", \"暂\", \"息\", \"柳\", \"趾\", \"蕴\", \"床\", \"窒\", \"肆\", \"逮\", \"獗\", \"魇\", \"运\", \"h\", \"模\", \"马\", \"琪\", \"崎\", \"哨\", \"黧\", \"『\", \"询\", \"枝\", \"樟\", \"丫\", \"旳\", \"拟\", \"旨\", \"菌\", \"瑥\", \"胁\", \"惚\", \"版\", \"虏\", \"浠\", \"妖\", \"妈\", \"栾\", \"瑒\", \"闲\", \"躬\", \"常\", \"锦\", \"绣\", \"语\", \"丑\", \"託\", \"绩\"]", - "reversible": false - }, - "google/mt5-large @ cc100/zh-Hans": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 2633047, - "_n_tokens": 621182, - "_n_chars": 927311, - "_n_oov_chars": 68514, - "oov_ratio": 0.07388459750827932, - "_oov_charset": "[\"℃\", \"⑤\", \"\\b\", \"+\", \"⒂\", \"​\", \"&\", \"?\", \"⑸\", \"_\", \"⒃\", \"黩\", \"…\", \"r\", \"p\", \"\", \"鼯\", \"⑶\", \"4\", \"e\", \"7\", \"擤\", \"%\", \"C\", \"o\", \"s\", \"N\", \"�\", \"\", \"8\", \"棂\", \"n\", \";\", \"\\u0000\", \"⑷\", \" \", \"阽\", \"犰\", \"-\", \"⒁\", \"锒\", \"②\", \"D\", \"A\", \"T\", \"t\", \"]\", \"V\", \"\\u0006\", \"⑨\", \"・\", \"5\", \"③\", \"\", \"黢\", \"④\", \"⑦\", \"a\", \"⑥\", \".\", \"\\u0005\", \"⑧\", \"i\", \"/\", \"瑑\", \"⒋\", \"猡\", \"瑨\", \",\", \"d\", \"腭\", \"⒀\", \"佝\", \"9\", \"(\", \"篢\", \"1\", \"[\", \"⒌\", \"①\", \" \", \"6\", \"瑢\", \"⑿\", \"⑴\", \":\", \"!\", \"耩\", \" \", \"0\", \"h\", \"\", \"瑥\", \")\", \"2\", \"瑒\", \"\\u0007\", \"鲱\", \"3\", \"⑩\", \"\", \""\", \"犄\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/zh-Hans": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 2633047, - "_n_tokens": 2523519, - "_n_chars": 927311, - "_n_oov_chars": 49191, - "oov_ratio": 0.05304692816110237, - "_oov_charset": "[\"℃\", \"⑤\", \"+\", \"⑷\", \"①\", \"⒂\", \" \", \" \", \"④\", \"⑦\", \"⒌\", \"&\", \"-\", \"6\", \"~\", \"⑿\", \"a\", \"⒁\", \"?\", \"⑴\", \"⑸\", \":\", \"_\", \"⑥\", \".\", \"!\", \"⒃\", \"⑧\", \"…\", \"r\", \"②\", \"D\", \"p\", \"0\", \"i\", \"/\", \"h\", \" \", \"⒋\", \"A\", \"T\", \"⑶\", \"t\", \"4\", \",\", \"⑩\", \"]\", \"e\", \"V\", \"7\", \"d\", \"%\", \"⒀\", \"9\", \"⑨\", \")\", \"・\", \"8\", \"(\", \"5\", \"2\", \"③\", \"C\", \"o\", \"s\", \"3\", \"1\", \"N\", \"[\", \""\", \"n\", \";\"]", - "reversible": false - }, - "google/byt5-small @ cc100/en": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1124813, - "_n_tokens": 1124813, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/byt5-small @ cc100/zh-Hans": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 2633047, - "_n_tokens": 2633047, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/en": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1124813, - "_n_tokens": 474941, - "_n_chars": 1121360, - "_n_oov_chars": 111, - "oov_ratio": 9.898694442462724e-05, - "_oov_charset": "[\"‑\", \"⑩\", \"´\", \"…\", \"¡\", \"”\", \"“\", \"ï\", \"ñ\", \"⑤\", \"~\", \"�\", \"​\", \"\", \"⑦\", \"③\", \"\", \"⑧\", \"😥\", \"🙂\", \"😉\", \"¦\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/zh-Hans": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 2633047, - "_n_tokens": 168974, - "_n_chars": 927311, - "_n_oov_chars": 864792, - "oov_ratio": 0.9325803317333667, - "_oov_charset": "[\"互\", \"徽\", \"馋\", \"吊\", \"蓄\", \"柜\", \"争\", \"创\", \"惟\", \"蚂\", \"權\", \"增\", \"嘟\", \"哧\", \"彼\", \"淤\", \"艘\", \"指\", \"界\", \"怜\", \"吱\", \"能\", \"拗\", \"闯\", \"惮\", \"聘\", \"炫\", \"陋\", \"惩\", \"钉\", \"灿\", \"愉\", \"贩\", \"讥\", \"凝\", \"眨\", \"拷\", \"规\", \"e\", \"锋\", \"少\", \"闭\", \"咎\", \"札\", \"憔\", \"戢\", \"旌\", \"采\", \"盾\", \"俯\", \"东\", \"橄\", \"沥\", \"呵\", \"里\", \"喽\", \"旎\", \"毗\", \"时\", \"潢\", \"框\", \"抗\", \"挖\", \"誓\", \"鸩\", \"鹦\", \"房\", \"嘎\", \"论\", \"下\", \"降\", \"胥\", \"标\", \".\", \"遍\", \"双\", \"彭\", \"拖\", \"清\", \"糯\", \"醇\", \"懵\", \"梗\", \"湃\", \"腱\", \"瓣\", \"馁\", \"芭\", \"科\", \"讷\", \"渲\", \"厉\", \"魂\", \"拼\", \"它\", \"柘\", \"猬\", \"吕\", \"仪\", \"咬\", \"以\", \"并\", \"厘\", \"荼\", \"樱\", \"铎\", \"颜\", \"炝\", \"腹\", \"颊\", \"笆\", \"荷\", \"摊\", \"线\", \"选\", \"滔\", \"斛\", \"袭\", \"耽\", \"读\", \"蒂\", \"孔\", \"顷\", \"飘\", \"属\", \"渎\", \"菩\", \"作\", \"焊\", \"劑\", \")\", \"淮\", \"低\", \"临\", \"强\", \"端\", \"哼\", \"沸\", \"膳\", \"期\", \"势\", \"等\", \"厮\", \"呗\", \"毎\", \"赘\", \"具\", \"僻\", \"-\", \"韵\", \"足\", \"口\", \"罹\", \"绘\", \"担\", \"斤\", \"登\", \"岣\", \"例\", \"坝\", \"癖\", \"泠\", \"巷\", \"ο\", \"阻\", \"曝\", \"寨\", \"民\", \"输\", \"湖\", \"娩\", \"垫\", \"蜥\", \"诵\", \"给\", \"毯\", \"蔓\", \"琉\", \"浑\", \"刷\", \"娄\", \"喜\", \"烯\", \"璇\", \"猝\", \"歌\", \"茨\", \"检\", \"膝\", \"揖\", \"希\", \"夏\", \"温\", \"鼠\", \"症\", \"噪\", \"赐\", \"洒\", \"A\", \"矗\", \"元\", \"病\", \"妒\", \"娱\", \"画\", \"倍\", \"夹\", \"汪\", \"截\", \"靛\", \"贾\", \"天\", \"暗\", \"吉\", \"媲\", \"坡\", \"巧\", \"绊\", \"忠\", \"饵\", \"千\", \"全\", \"坛\", \"藤\", \"崩\", \"伤\", \"姻\", \"阪\", \"五\", \"顽\", \"裸\", \"滞\", \"驳\", \"瑕\", \"菜\", \"葵\", \"邻\", \"司\", \"恋\", \"撕\", \"〃\", \"蹴\", \"硬\", \"幼\", \"咸\", \"甸\", \"围\", \"迹\", \"漆\", \"旱\", \"狰\", \"睹\", \"笨\", \"蘸\", \"沼\", \"踏\", \"席\", \"豁\", \"楚\", \"晖\", \"哗\", \"膏\", \"查\", \"沟\", \"泛\", \"韧\", \"昆\", \"晶\", \"局\", \"耿\", \"特\", \"谩\", \"怕\", \"毫\", \"苹\", \"喔\", \"尖\", \"腐\", \"嗦\", \"镳\", \"炉\", \"跳\", \"暖\", \"陷\", \"藏\", \"导\", \"升\", \"奢\", \"熹\", \"砍\", \"咏\", \"④\", \"诙\", \"戸\", \"怡\", \"胡\", \"瞒\", \"糕\", \"捡\", \"荒\", \"磋\", \"购\", \"啡\", \"盯\", \"帜\", \"℃\", \"遢\", \"荣\", \"央\", \"喘\", \"旺\", \"孙\", \"颁\", \"宝\", \"莴\", \"腓\", \"篷\", \"序\", \"泾\", \"众\", \"慑\", \"宇\", \"窜\", \"芙\", \"拐\", \"声\", \"肾\", \"文\", \"域\", \"济\", \"南\", \"渊\", \"颖\", \"隔\", \"墉\", \"择\", \"尾\", \"兹\", \"栋\", \"村\", \"敛\", \"筷\", \"蝌\", \"霈\", \"怠\", \"胖\", \"基\", \"诶\", \"酬\", \"柱\", \"耩\", \"玖\", \"伊\", \"涟\", \"・\", \"扁\", \"戚\", \"孤\", \"怨\", \"拿\", \"烷\", \"竣\", \"啦\", \"屑\", \"酣\", \"列\", \"沾\", \"裔\", \"摇\", \"接\", \"战\", \"渴\", \"昕\", \"罄\", \"匆\", \"谧\", \"屏\", \"索\", \"饱\", \"褚\", \"硫\", \"捧\", \"鲸\", \"扶\", \"抑\", \"炬\", \"濒\", \"斧\", \"笔\", \"卷\", \"耕\", \"钩\", \"我\", \"异\", \"距\", \"勿\", \"價\", \"锁\", \"兴\", \"助\", \"跌\", \"尽\", \"苯\", \"研\", \"事\", \"楂\", \"瞠\", \"辜\", \"崖\", \"N\", \"叭\", \"铜\", \"效\", \"磨\", \"纨\", \"昨\", \"·\", \"徳\", \"皙\", \"熏\", \"龚\", \"挤\", \"雄\", \"惕\", \"猖\", \"浮\", \"旖\", \"晒\", \"讨\", \"束\", \"蛔\", \"然\", \"普\", \"砸\", \"阐\", \"么\", \"α\", \"芹\", \"位\", \"睁\", \"安\", \"甜\", \"石\", \"璃\", \"根\", \"贿\", \"馈\", \"唉\", \"超\", \"杂\", \"勋\", \"鳗\", \"爷\", \"诩\", \"汩\", \"追\", \"啥\", \"嗲\", \"度\", \"筛\", \"需\", \"棘\", \"撰\", \"覃\", \"郎\", \"焰\", \"牠\", \"龙\", \"抠\", \"淡\", \"暨\", \"哈\", \"刃\", \"允\", \"证\", \"腕\", \"蒙\", \"丢\", \"峰\", \"犀\", \"3\", \"耀\", \"当\", \"其\", \"昵\", \"毕\", \"七\", \"褒\", \"萧\", \"渤\", \"揽\", \"揉\", \"鸟\", \"驴\", \"句\", \"仁\", \"辰\", \"蝶\", \"啜\", \"鹕\", \"书\", \"、\", \"亿\", \"迷\", \"薪\", \"邮\", \"忙\", \"忱\", \"损\", \"梧\", \"墅\", \"敝\", \"品\", \"手\", \"连\", \"频\", \"好\", \"得\", \"塑\", \"尝\", \"剥\", \"雇\", \"弯\", \"鸽\", \"器\", \"诱\", \"缺\", \"晋\", \"祈\", \"雀\", \"纹\", \"慷\", \"巅\", \"皈\", \"努\", \"烟\", \"奈\", \"抛\", \"岂\", \"法\", \"针\", \"圆\", \"炸\", \"机\", \"松\", \"谷\", \"胆\", \"延\", \"搬\", \"炅\", \"商\", \"津\", \"大\", \"娼\", \"电\", \"料\", \"荐\", \"勤\", \"铭\", \"[\", \"肮\", \"罔\", \"瘠\", \"壳\", \"薯\", \"湘\", \"仅\", \"灑\", \"妆\", \"媛\", \"郡\", \"李\", \"险\", \"胺\", \"拂\", \"撬\", \"圳\", \"乡\", \"诨\", \"薛\", \"赛\", \"孰\", \"煎\", \"鹜\", \"握\", \"袍\", \"拢\", \"疾\", \"瘫\", \"%\", \"唆\", \"桩\", \"贤\", \"拓\", \"视\", \"冬\", \"谔\", \"辑\", \"没\", \"悔\", \"搏\", \"岛\", \"吆\", \"绍\", \"佐\", \"拍\", \"滴\", \"豌\", \"壑\", \"眷\", \"〝\", \"憧\", \"暑\", \"敖\", \"湿\", \"榭\", \"碱\", \"隙\", \"帐\", \"诣\", \"抬\", \"冽\", \"嫖\", \"投\", \"メ\", \"蔽\", \"內\", \"乓\", \"胀\", \"蟀\", \"公\", \"孩\", \"馒\", \"旳\", \"梯\", \"先\", \"p\", \"氮\", \"谢\", \"壶\", \"锣\", \"发\", \"稽\", \"滕\", \"锚\", \"含\", \"币\", \"宜\", \"腥\", \"盘\", \"狸\", \"啕\", \"羔\", \"榴\", \"睦\", \"眼\", \"萍\", \"矛\", \"舟\", \"彷\", \"沧\", \"〈\", \"锒\", \"颌\", \"涩\", \"丛\", \"善\", \"槛\", \"让\", \"析\", \"狼\", \"醒\", \"疚\", \"赔\", \"稣\", \"棱\", \"筐\", \"疯\", \"杰\", \"甲\", \"茂\", \"琅\", \"樯\", \"ὐ\", \"诬\", \"债\", \"蜡\", \"蜂\", \"跟\", \"悄\", \"戮\", \"蚀\", \"竺\", \"职\", \"⒌\", \"譬\", \"翊\", \"倦\", \"牲\", \"铤\", \"乏\", \"伟\", \"攫\", \"瘙\", \"孀\", \"龇\", \"页\", \"溜\", \"岁\", \"竹\", \"版\", \"恭\", \"瑒\", \"额\", \"朦\", \"窃\", \"贝\", \"氧\", \"梳\", \"俗\", \"徇\", \"详\", \"舆\", \"瓦\", \"思\", \"沿\", \"桌\", \"至\", \"礁\", \"撐\", \""\", \"自\", \"九\", \"精\", \"串\", \"成\", \"粥\", \"雯\", \"或\", \"净\", \"员\", \"宫\", \"秃\", \"汶\", \"婴\", \"嘘\", \"联\", \"嗤\", \"刻\", \"份\", \"涣\", \"磁\", \"8\", \"议\", \"暂\", \"咨\", \"t\", \"淳\", \"靶\", \"漏\", \"谈\", \"徐\", \"茅\", \"拜\", \"徙\", \"痴\", \"馨\", \"岚\", \"丝\", \"鲤\", \"咖\", \"食\", \"储\", \"蹲\", \"包\", \"锻\", \"锅\", \"禽\", \"冻\", \"碍\", \"悟\", \"间\", \"远\", \"蛋\", \"技\", \"曾\", \"童\", \"邹\", \"佝\", \"臭\", \"旗\", \"营\", \"惜\", \"澳\", \"標\", \"龄\", \"顶\", \"⑿\", \"律\", \"柿\", \"鲎\", \"类\", \"汀\", \"坞\", \"袜\", \"汽\", \"匈\", \"羡\", \"盼\", \"草\", \"断\", \"躇\", \"迄\", \"奘\", \"诞\", \"艰\", \"迤\", \"韪\", \"逢\", \"花\", \"暇\", \"记\", \"厢\", \"铨\", \"肘\", \"卵\", \"酸\", \"穴\", \"稀\", \"族\", \"憨\", \"藐\", \"聋\", \"嫂\", \"别\", \"朱\", \"庚\", \"膀\", \"葡\", \"螂\", \"靡\", \"雨\", \"芬\", \"ト\", \"裴\", \"娜\", \"璜\", \"夜\", \"早\", \"宸\", \"密\", \"蕾\", \"保\", \"诀\", \"兔\", \"裳\", \"秽\", \"诗\", \"嘈\", \"孽\", \"幢\", \"皖\", \"採\", \"挨\", \"丙\", \"爻\", \"佼\", \"阮\", \"妞\", \"痒\", \"掰\", \"哉\", \"胚\", \"值\", \"很\", \"嚼\", \"展\", \"啐\", \"↑\", \"危\", \"厕\", \"盎\", \"轮\", \"烹\", \"哪\", \"实\", \"库\", \"隶\", \"趟\", \"涸\", \"尼\", \"雪\", \"袋\", \"速\", \"把\", \"寒\", \"泉\", \"菁\", \"治\", \"蔷\", \"谴\", \"尴\", \"迁\", \"吠\", \"献\", \"整\", \"籍\", \"蓁\", \"亡\", \"榻\", \"搀\", \"意\", \"魏\", \"犯\", \"碾\", \"逃\", \"泱\", \"匠\", \"考\", \"粹\", \"妥\", \"慧\", \"坯\", \"吻\", \"凯\", \"想\", \"识\", \"萦\", \"踝\", \"弈\", \"笛\", \"欺\", \"妮\", \"恤\", \"宵\", \"虫\", \"(\", \"吵\", \"杖\", \"劳\", \"泸\", \"萃\", \"乒\", \"吸\", \"闹\", \"沪\", \"イ\", \"溉\", \"智\", \"尺\", \"怪\", \"嗨\", \"荧\", \"曙\", \"共\", \"芯\", \"威\", \"赖\", \"消\", \"条\", \"顺\", \"馄\", \"赚\", \"桅\", \"牡\", \"啸\", \"冷\", \"则\", \"邀\", \"餐\", \"陇\", \"滚\", \"爬\", \"省\", \"坪\", \"矣\", \"练\", \"嬉\", \"玛\", \"聚\", \"選\", \"继\", \"姐\", \"贼\", \"量\", \"灰\", \"宿\", \"姬\", \"蠢\", \"站\", \"狠\", \"亚\", \" \", \"承\", \"躲\", \"踪\", \"跷\", \"挟\", \"愈\", \"枚\", \"话\", \"孵\", \"闻\", \"驼\", \"边\", \"呃\", \"π\", \"激\", \"惋\", \"弑\", \"闪\", \"办\", \"霄\", \"齐\", \"奚\", \"吼\", \"蜀\", \"妓\", \"弗\", \"滢\", \"邯\", \"笑\", \"羞\", \"皱\", \"琶\", \"除\", \"道\", \"香\", \"观\", \"轴\", \"贺\", \"吨\", \"财\", \"责\", \"久\", \"柔\", \"粮\", \"膊\", \"绝\", \"涅\", \"软\", \"估\", \"型\", \"邦\", \"欣\", \"膨\", \"儿\", \"架\", \"暹\", \"逸\", \"函\", \"屄\", \"独\", \"的\", \"娟\", \"佳\", \"豫\", \"h\", \"活\", \"莎\", \"塞\", \"分\", \"捷\", \"倾\", \"哲\", \"殆\", \"臃\", \"兵\", \"邂\", \"崎\", \"疵\", \"古\", \"硅\", \"壓\", \"饰\", \"钟\", \"弛\", \"占\", \"笼\", \"滨\", \"妤\", \"喉\", \"_\", \"就\", \"彪\", \"启\", \"缩\", \"余\", \"雁\", \"讲\", \"慕\", \"无\", \"骚\", \"委\", \"亲\", \"媳\", \"埔\", \"巡\", \"恪\", \"伫\", \"垄\", \"茵\", \"训\", \"惚\", \"录\", \"鞋\", \"戳\", \"盆\", \"栈\", \"造\", \"依\", \"悲\", \"岗\", \"丐\", \"婿\", \"繁\", \"躬\", \"伴\", \"脉\", \"老\", \"遇\", \"蜜\", \"烙\", \"扪\", \"节\", \"够\", \"群\", \"拎\", \"涂\", \"咧\", \"扼\", \"妊\", \"呐\", \"棒\", \"珊\", \"侠\", \"游\", \"窗\", \"娶\", \"讦\", \"唬\", \"似\", \"棵\", \"巢\", \"尧\", \"剂\", \"影\", \"糖\", \"哀\", \"谜\", \"绉\", \"→\", \"衿\", \"煽\", \"擤\", \"茜\", \"攒\", \"偎\", \"τ\", \"抹\", \"露\", \"闸\", \"帅\", \"西\", \"扬\", \"调\", \"诊\", \"循\", \"陕\", \"亭\", \"\", \"裕\", \"男\", \"荫\", \"仗\", \"咒\", \"牒\", \"闲\", \"窖\", \"俱\", \"毒\", \"钊\", \"簧\", \"验\", \"凌\", \"霏\", \"※\", \"睐\", \"岖\", \"甯\", \"档\", \"减\", \"猡\", \"霾\", \"换\", \"籽\", \"浇\", \"辛\", \"像\", \"巴\", \"哺\", \" \", \"鬓\", \"榷\", \"侃\", \"邓\", \"伐\", \"烂\", \"皿\", \"另\", \"嗅\", \"旁\", \"翩\", \"芦\", \"唾\", \"桑\", \"奋\", \"崔\", \"泥\", \"莓\", \"C\", \"摞\", \"ズ\", \"察\", \"白\", \"程\", \"肯\", \"欲\", \"俨\", \"囚\", \"d\", \"社\", \"住\", \"顿\", \"撑\", \"褪\", \"陆\", \"锥\", \"征\", \"躺\", \"轰\", \"素\", \"垛\", \"穰\", \"转\", \"烘\", \"】\", \"瞬\", \"煲\", \"乐\", \"丫\", \"径\", \"晴\", \"咕\", \"纽\", \"惹\", \"眺\", \"侥\", \"呷\", \"苦\", \"坂\", \"卑\", \"削\", \"遗\", \"租\", \"匹\", \"跨\", \"牧\", \"俘\", \"穗\", \"欧\", \"健\", \"掩\", \"「\", \"御\", \"沙\", \"寂\", \"朴\", \"蹦\", \"裘\", \"溯\", \"祢\", \"捏\", \"吮\", \"噬\", \"脂\", \"招\", \"女\", \"钻\", \"旷\", \"剩\", \"吭\", \"沂\", \"唱\", \"义\", \"均\", \"蹒\", \"厅\", \"括\", \"岳\", \"惦\", \"鲁\", \"嘻\", \"5\", \"颐\", \"万\", \"舀\", \"盐\", \"罩\", \"谱\", \"贵\", \"突\", \"噌\", \"泣\", \"乃\", \"舅\", \"瞄\", \"晦\", \"禾\", \"梢\", \"蜷\", \"旬\", \"绛\", \"D\", \"祖\", \"既\", \"鄯\", \"甚\", \"腋\", \"辙\", \"挈\", \"遐\", \"瑥\", \"礼\", \"茎\", \"罢\", \"掖\", \"垒\", \"釜\", \"飕\", \"妇\", \"霉\", \"噩\", \"热\", \"召\", \"供\", \"肖\", \"阑\", \"宰\", \"癌\", \"推\", \"中\", \"恃\", \"○\", \"嫌\", \"贬\", \"赃\", \"尊\", \"朗\", \"俚\", \"祀\", \"屹\", \"1\", \"▪\", \"赴\", \"言\", \"介\", \"订\", \"憾\", \"盟\", \"王\", \"巍\", \"員\", \"燎\", \"寐\", \"插\", \"触\", \"嗓\", \"虚\", \"擅\", \"逼\", \"策\", \"腭\", \"携\", \"垂\", \"扭\", \"灸\", \"⒀\", \"真\", \"株\", \"偶\", \"遑\", \"椒\", \"瞎\", \"腻\", \"八\", \"概\", \"词\", \"铣\", \"捅\", \"诅\", \"移\", \"跻\", \"押\", \"薩\", \"淅\", \"漩\", \"帷\", \"封\", \"逾\", \"痹\", \"砂\", \"蟹\", \"卜\", \"洲\", \"育\", \"管\", \"马\", \"胎\", \"叼\", \"焙\", \"吗\", \"①\", \"色\", \"恙\", \"开\", \"秸\", \"枣\", \"矶\", \"烛\", \"将\", \"逞\", \"祸\", \"镑\", \"臣\", \"⑷\", \"唏\", \"\", \"©\", \"牟\", \"都\", \"庭\", \"钱\", \"冥\", \"什\", \"亏\", \"免\", \"兼\", \"删\", \"奶\", \"母\", \"顾\", \"诡\", \"卦\", \"裁\", \"方\", \"冲\", \"祭\", \"蜿\", \"寺\", \"栾\", \"箔\", \"该\", \"编\", \"槃\", \"伞\", \"睑\", \"纰\", \"差\", \"心\", \"朝\", \"趾\", \"婷\", \"宋\", \"仍\", \"睽\", \"悍\", \"臀\", \"嗡\", \"积\", \"驶\", \"毅\", \"亩\", \"礴\", \"浏\", \"眶\", \"9\", \"颓\", \"唷\", \"靠\", \"糊\", \"瞩\", \"瑑\", \"学\", \"s\", \"拥\", \"辄\", \"轻\", \"淄\", \"幻\", \"泪\", \"酝\", \"楣\", \"失\", \"拆\", \"椅\", \"桓\", \"伏\", \"唇\", \"篮\", \"洼\", \"涌\", \"毋\", \"郊\", \"缉\", \"绒\", \"怂\", \"贞\", \"朔\", \"窒\", \"萨\", \"黢\", \"禁\", \"网\", \"誉\", \"杆\", \"悚\", \"谐\", \"猴\", \"诸\", \"君\", \"婉\", \"珠\", \"玻\", \"权\", \"操\", \"魔\", \"龟\", \"六\", \"警\", \"咪\", \"郸\", \"肛\", \"恩\", \"错\", \"谋\", \"散\", \"雍\", \"镇\", \"史\", \"戏\", \"磊\", \"娑\", \"亦\", \"絮\", \"\", \"…\", \"桥\", \"城\", \"窘\", \"勉\", \"寻\", \"亮\", \"械\", \"呢\", \"短\", \"柑\", \"弃\", \"骰\", \"艇\", \"旭\", \"听\", \"飞\", \"兆\", \"桂\", \"竟\", \"救\", \"倡\", \"宴\", \"农\", \"踊\", \"乱\", \"祛\", \"骨\", \"沈\", \"滤\", \"魇\", \"林\", \"欢\", \"髦\", \"琐\", \"窦\", \"艺\", \"紫\", \"溃\", \"宙\", \"凤\", \"V\", \"补\", \"工\", \"肋\", \"越\", \"克\", \"斌\", \"印\", \"孝\", \"由\", \"缄\", \"T\", \"如\", \"更\", \"娃\", \"于\", \"蛇\", \"斯\", \"通\", \"摔\", \"歹\", \"废\", \"刹\", \"稍\", \"致\", \"妈\", \"约\", \"柳\", \"漲\", \"灵\", \"秒\", \"镶\", \"肇\", \"纪\", \"脚\", \"贮\", \"缔\", \"名\", \"喷\", \"剧\", \"舰\", \"撤\", \"院\", \"半\", \"琢\", \"图\", \"享\", \"沁\", \"辨\", \"迈\", \"映\", \"堤\", \"芳\", \"励\", \"块\", \"\", \"夷\", \"支\", \"漉\", \"举\", \"显\", \"链\", \"景\", \"敷\", \"后\", \"蒋\", \"扳\", \"蚌\", \"诲\", \"惴\", \"烧\", \"帕\", \"槌\", \"芮\", \"功\", \"态\", \"浞\", \"笃\", \"切\", \"偿\", \"锤\", \"锏\", \"卉\", \"酋\", \"煜\", \"嘲\", \"烫\", \"裂\", \"注\", \"踱\", \"弹\", \"楔\", \"哥\", \"跑\", \"屁\", \"姚\", \"枕\", \"邵\", \"痘\", \"困\", \"击\", \"秤\", \"人\", \"豹\", \"玩\", \"谅\", \"轨\", \"玷\", \"門\", \"邬\", \"渝\", \"茏\", \"晨\", \"囤\", \"悖\", \"酥\", \"甄\", \"这\", \"绎\", \"蓦\", \"翠\", \"涕\", \"终\", \"吴\", \"懑\", \"纤\", \"且\", \"建\", \"宏\", \"促\", \"鸥\", \"淹\", \"哑\", \"与\", \"待\", \"搞\", \"适\", \"滥\", \"笋\", \"黯\", \"段\", \"昌\", \"郅\", \"戾\", \"翰\", \"秉\", \"壁\", \"她\", \"穷\", \"忿\", \"请\", \"挝\", \"姊\", \"负\", \"药\", \"退\", \"缪\", \"忑\", \"郜\", \"倘\", \"贡\", \"绞\", \"田\", \"晕\", \"格\", \"沐\", \"资\", \"泳\", \"伽\", \"谆\", \"秆\", \"梦\", \"炮\", \"鬣\", \"养\", \"泰\", \"」\", \"/\", \"润\", \"脐\", \"挠\", \"片\", \"迦\", \"厨\", \"糠\", \"狄\", \"×\", \"疤\", \"结\", \"骅\", \"纸\", \"嘤\", \"护\", \"姣\", \"檀\", \"嚷\", \"左\", \"弟\", \"滩\", \"船\", \"情\", \"衡\", \"绸\", \"嘭\", \"知\", \"固\", \"柄\", \"防\", \"衔\", \"恰\", \"號\", \"脏\", \"脑\", \"尿\", \"雕\", \"滇\", \"邕\", \"诈\", \"河\", \"纬\", \"瞻\", \",\", \"茱\", \"辫\", \"座\", \"■\", \"到\", \"驻\", \"莞\", \"二\", \"峻\", \"翌\", \"俊\", \"殷\", \"鼾\", \"驰\", \"澎\", \"卖\", \"岑\", \"粪\", \"授\", \"飓\", \"彤\", \"曹\", \"尤\", \"墒\", \"嘉\", \"澜\", \"豚\", \"掉\", \"入\", \"讼\", \"鉴\", \"所\", \"沃\", \"\\u0005\", \"呛\", \"环\", \"易\", \"从\", \"晗\", \"★\", \"缝\", \"矮\", \"個\", \"督\", \"僵\", \"绕\", \"火\", \"叔\", \"溶\", \"蚤\", \"未\", \"搭\", \"矍\", \"膜\", \"慈\", \"屯\", \"芽\", \"臻\", \"宾\", \"驾\", \"奥\", \"反\", \"铂\", \"休\", \"广\", \"朵\", \"桔\", \"颈\", \"赵\", \"潘\", \"旦\", \"黎\", \"仿\", \"监\", \"盒\", \"敲\", \"守\", \"脆\", \"珞\", \"略\", \"江\", \"阴\", \"啪\", \"狩\", \"每\", \"搜\", \"暮\", \"演\", \"乌\", \"�\", \"唠\", \"惘\", \"甘\", \"捕\", \"癫\", \"臊\", \"蔚\", \"哄\", \"!\", \"猩\", \"确\", \"渔\", \"禄\", \"冶\", \"⒂\", \"霓\", \"锯\", \"曰\", \"镍\", \"岔\", \"⑸\", \"矫\", \"课\", \"丹\", \"掷\", \"锲\", \"徘\", \"官\", \"樟\", \"奎\", \"曲\", \"础\", \"潦\", \"劲\", \"抖\", \"懂\", \"揣\", \"筒\", \"轶\", \"擘\", \"十\", \"【\", \"世\", \"语\", \"攸\", \"舱\", \"勖\", \"咆\", \"愚\", \"教\", \"讽\", \"猪\", \"执\", \"项\", \"层\", \"店\", \"傅\", \"逝\", \"曦\", \"钞\", \"呻\", \"满\", \"弘\", \"灌\", \"役\", \"煤\", \"雏\", \"埋\", \"屡\", \"裤\", \"锐\", \"侧\", \"测\", \"敬\", \"腊\", \"四\", \"冒\", \"粘\", \"併\", \"碗\", \"体\", \"附\", \"菲\", \"磕\", \"尸\", \"讶\", \"市\", \"渐\", \"丰\", \"罚\", \"缈\", \"屣\", \"丧\", \"比\", \"拇\", \"付\", \"瑨\", \"黧\", \"捞\", \"踌\", \"洁\", \"翼\", \"纯\", \"爸\", \"麾\", \"装\", \"挑\", \"弥\", \"灼\", \"示\", \"鸣\", \"枢\", \"窝\", \"见\", \"纠\", \"憬\", \"杭\", \"耐\", \"摘\", \"届\", \"神\", \"贯\", \"茫\", \"氏\", \"哇\", \"饶\", \"7\", \"報\", \"雳\", \"屌\", \"熊\", \"侮\", \"锦\", \"炕\", \"光\", \"涵\", \"郑\", \"韫\", \"骁\", \"日\", \"帘\", \"角\", \"认\", \";\", \"陡\", \"艋\", \"耶\", \"革\", \"带\", \"圭\", \"盈\", \"ㄓ\", \"居\", \"物\", \"弱\", \"楷\", \"浩\", \"第\", \"铲\", \"狮\", \"癜\", \"头\", \"刑\", \"葱\", \"烬\", \"庐\", \"凛\", \"酪\", \"钧\", \"园\", \"何\", \"雾\", \"诧\", \"淘\", \"陈\", \"霜\", \"叙\", \"射\", \"姆\", \"便\", \"点\", \"县\", \"浠\", \"凡\", \"班\", \"恕\", \"衰\", \"艳\", \"瞳\", \"修\", \"彻\", \"摩\", \"募\", \"骸\", \"n\", \"へ\", \"煞\", \"忧\", \"妻\", \"泡\", \"沏\", \"澄\", \"薇\", \"痕\", \"算\", \"壤\", \"挫\", \"佬\", \"炎\", \"蹩\", \"赞\", \"关\", \"锌\", \"布\", \"绅\", \"侵\", \"辕\", \"述\", \"喃\", \"侦\", \"骗\", \"送\", \"酌\", \"匀\", \"圾\", \"黛\", \"耦\", \"赋\", \"葆\", \"区\", \"\\u0007\", \"丸\", \"使\", \"蝉\", \"恢\", \"勇\", \"旆\", \"俭\", \"奏\", \"蛊\", \"衫\", \"枉\", \"细\", \"取\", \"镉\", \"肢\", \"泵\", \"仔\", \"鹌\", \"桃\", \"鹤\", \"腿\", \"栽\", \"谊\", \"哒\", \"踞\", \"筑\", \"灶\", \"伸\", \"―\", \"措\", \"敞\", \"攥\", \"赶\", \"恶\", \"鱼\", \"亵\", \"签\", \"着\", \"洛\", \"汕\", \"殴\", \"拱\", \"萝\", \"彩\", \"床\", \"肝\", \"川\", \"掐\", \"志\", \"妨\", \"评\", \"驱\", \"簿\", \"o\", \"耻\", \"前\", \"土\", \"啼\", \"貂\", \"狞\", \"履\", \"&\", \"◆\", \"添\", \"芜\", \"虽\", \"彙\", \"僧\", \"・\", \"伉\", \"原\", \"辱\", \"朽\", \"嘛\", \"扒\", \"窟\", \"理\", \"唐\", \"眉\", \"仕\", \"纂\", \"踢\", \"绿\", \"铮\", \"倩\", \"绵\", \"掺\", \"邢\", \"昧\", \"寸\", \"祟\", \"哎\", \"舛\", \"仆\", \"跚\", \"脊\", \"淫\", \"湾\", \"访\", \"梁\", \"续\", \"檬\", \"优\", \"夯\", \"當\", \"劫\", \"ě\", \"猜\", \"非\", \"铛\", \"帽\", \"柴\", \"邪\", \"浪\", \"婚\", \"曼\", \"姜\", \"蛮\", \"剐\", \"肉\", \"缅\", \"砾\", \"灾\", \"塔\", \"姓\", \"茶\", \"溢\", \"若\", \"亳\", \"斗\", \"山\", \"辅\", \"杏\", \"栩\", \"哭\", \"鲨\", \"酒\", \"堰\", \"疙\", \"聒\", \"闷\", \"呀\", \"勺\", \"檐\", \"忆\", \"〔\", \"嗯\", \"阔\", \"阜\", \"凄\", \"醋\", \"沫\", \"符\", \"凹\", \"球\", \"此\", \"戈\", \"户\", \"蜘\", \"缘\", \"砥\", \"税\", \"焉\", \"③\", \"+\", \"蚓\", \"咙\", \"怔\", \"晤\", \"臆\", \"乖\", \"室\", \"陪\", \"槽\", \"加\", \"池\", \"恍\", \"碟\", \"篡\", \"彦\", \"奖\", \"拟\", \"胜\", \"匾\", \"泽\", \"柠\", \"弧\", \"膛\", \"屈\", \"圩\", \"况\", \"悼\", \"门\", \"术\", \"饮\", \"湄\", \"勒\", \"饲\", \"络\", \"喝\", \"象\", \"样\", \"计\", \"荨\", \"圜\", \"剑\", \"锂\", \"服\", \"不\", \"逻\", \"出\", \"任\", \"峡\", \"德\", \"嗣\", \"皮\", \"飙\", \"菌\", \"契\", \"铄\", \"鞘\", \"姑\", \"贱\", \"萄\", \"销\", \"抢\", \"翻\", \"刮\", \"涛\", \"拾\", \"爆\", \"茁\", \"姥\", \"忡\", \"歼\", \"厄\", \"票\", \"歉\", \"襟\", \"姨\", \"芒\", \"扉\", \"捂\", \"昔\", \"腑\", \"▲\", \"脱\", \"路\", \"搐\", \"冯\", \"侄\", \"怵\", \"国\", \"迟\", \"紊\", \"遛\", \"残\", \"进\", \"篱\", \"袖\", \"汇\", \"箭\", \"腔\", \"背\", \"茄\", \"苑\", \"漪\", \"谦\", \"乞\", \"春\", \"挣\", \"舞\", \"怯\", \"肤\", \"逑\", \"汛\", \"息\", \"玮\", \"嫩\", \"鹭\", \"合\", \"娛\", \"荻\", \"虞\", \"党\", \"胫\", \"煌\", \"觑\", \"谀\", \"惺\", \"畑\", \"鹑\", \"利\", \"幅\", \"咚\", \"蕴\", \"垮\", \"铃\", \"落\", \"惊\", \"范\", \"陵\", \"甫\", \"饷\", \"弓\", \"扯\", \"酵\", \"戍\", \"嗔\", \"配\", \"饭\", \"饼\", \"荏\", \"胳\", \"呦\", \"蚯\", \"汗\", \"蜃\", \"呼\", \"荡\", \"吐\", \"诠\", \"吾\", \"竖\", \"⒃\", \"麻\", \"●\", \"帮\", \"恨\", \"改\", \"敢\", \"惯\", \"獗\", \"状\", \"琛\", \"瞰\", \"枯\", \"瑜\", \"耙\", \"嵘\", \"副\", \"ソ\", \"恒\", \"娠\", \"嘣\", \"末\", \"確\", \"摸\", \"苛\", \"谍\", \"贴\", \"慎\", \"巾\", \"磺\", \"鑫\", \"娴\", \"新\", \"多\", \"讪\", \"『\", \"狙\", \"埠\", \"淀\", \"敌\", \"遏\", \"儒\", \"憋\", \"壹\", \"耸\", \"正\", \"乎\", \"睫\", \"留\", \"碳\", \"键\", \"晃\", \"辐\", \"脾\", \"虐\", \"峥\", \"饿\", \"一\", \"往\", \"级\", \"跤\", \"墨\", \"目\", \"纳\", \"攀\", \"夺\", \"邑\", \"排\", \"⑶\", \"屋\", \"袁\", \"皂\", \"凶\", \"初\", \"晰\", \"疲\", \"扛\", \"晟\", \"渡\", \"藕\", \"楼\", \"剽\", \"累\", \"澡\", \"氰\", \"婺\", \"卓\", \"炒\", \"栗\", \"植\", \"弦\", \"泼\", \"诫\", \"杠\", \"逅\", \"庄\", \"平\", \"羹\", \"喀\", \"竿\", \"逛\", \"矿\", \"钵\", \"搅\", \"牌\", \"醛\", \"变\", \"攘\", \"预\", \"葛\", \"套\", \"娇\", \"兄\", \"贷\", \"慌\", \"箱\", \"衣\", \"颧\", \"粤\", \"円\", \"兮\", \"贪\", \"偷\", \"喂\", \"肆\", \"果\", \"貌\", \"渣\", \"板\", \"载\", \"铺\", \"抚\", \"莉\", \"逍\", \"昭\", \"臼\", \"郁\", \"被\", \"嫁\", \"黏\", \"颠\", \"撒\", \"珍\", \"快\", \"薄\", \"兰\", \"桢\", \"黔\", \"坚\", \"试\", \"专\", \"愿\", \"榆\", \"荤\", \"珉\", \"鬼\", \"傻\", \"0\", \"犰\", \"朋\", \"羁\", \"邱\", \"璧\", \"暴\", \"賣\", \"凑\", \"耘\", \"嗪\", \"⑦\", \"刁\", \"仄\", \"嘿\", \"尘\", \"魅\", \"寥\", \"染\", \"夕\", \"忍\", \"死\", \"髓\", \"叛\", \"野\", \"惨\", \"託\", \"褂\", \"浸\", \"璎\", \"障\", \"说\", \"趴\", \"唤\", \"习\", \"犄\", \"铝\", \"←\", \"伯\", \"运\", \"ヨ\", \"狳\", \":\", \"蒸\", \"经\", \"备\", \"淇\", \"风\", \"の\", \"撩\", \"典\", \"徊\", \"疗\", \"潮\", \"踩\", \"橘\", \"粉\", \"柏\", \"严\", \"气\", \"黄\", \"雌\", \"阂\", \"耍\", \"衬\", \"怀\", \"撅\", \"各\", \"令\", \"瑶\", \"倨\", \"姿\", \"逆\", \"筋\", \"岌\", \"秋\", \"躯\", \"栖\", \"寝\", \"米\", \"暧\", \"破\", \"叶\", \"電\", \"谎\", \"停\", \"汁\", \"命\", \"楞\", \"嫉\", \"荆\", \"舎\", \"歩\", \"氨\", \"货\", \"立\", \"睡\", \"撸\", \"烦\", \"扑\", \"牢\", \"泊\", \"撞\", \"擎\", \"兑\", \"徒\", \"痫\", \"挲\", \"圣\", \"町\", \"瀚\", \"梵\", \"获\", \"难\", \"猎\", \"博\", \"卢\", \"探\", \"瞟\", \"匕\", \"孕\", \"奉\", \"漫\", \"井\", \"骄\", \"翁\", \"照\", \"罐\", \"呜\", \"莺\", \"绷\", \"单\", \"坐\", \"帆\", \"止\", \"辖\", \"极\", \"菇\", \"敦\", \"伺\", \"压\", \"谑\", \"参\", \"迫\", \"傍\", \"瓢\", \"堡\", \"纷\", \"尬\", \"哮\", \"凉\", \"屉\", \"遭\", \"凿\", \"漱\", \"吝\", \"闫\", \"来\", \"炳\", \"偏\", \"始\", \"妹\", \"強\", \"写\", \"番\", \"粼\", \"畔\", \"鹃\", \"干\", \"汤\", \"谣\", \"表\", \"庸\", \"兽\", \"瞅\", \"麽\", \"苍\", \"宪\", \"髻\", \"烊\", \"搂\", \"空\", \"赏\", \"蓟\", \"迭\", \"痪\", \"莱\", \"总\", \"透\", \"缭\", \"浴\", \"肿\", \"轩\", \"悠\", \"牖\", \"是\", \"霹\", \"浓\", \"暄\", \"枝\", \"屠\", \"祥\", \"弊\", \"肴\", \"恺\", \"过\", \"起\", \"首\", \"虾\", \"坟\", \"庶\", \"廉\", \"〗\", \"榄\", \"搡\", \"报\", \"诉\", \"拳\", \"噢\", \"派\", \"瘾\", \"肚\", \"控\", \"而\", \"水\", \"赂\", \"峨\", \"近\", \"走\", \"勾\", \"券\", \"抿\", \"绳\", \"衅\", \"揍\", \"播\", \"丽\", \"玫\", \"傥\", \"赡\", \"崽\", \"肃\", \"仑\", \"罕\", \"街\", \"虔\", \"擦\", \"汰\", \"斑\", \"婆\", \"袱\", \"明\", \"同\", \"棉\", \"富\", \"钜\", \"锢\", \"冀\", \"那\", \"逊\", \"午\", \"盲\", \"箍\", \"埃\", \"虎\", \"吹\", \"蓉\", \"愣\", \"\", \"琪\", \"栏\", \"蔼\", \"拣\", \"寞\", \"忐\", \"充\", \"i\", \"生\", \"腰\", \"厦\", \"棠\", \"讯\", \"杀\", \"股\", \"瘤\", \"熬\", \"右\", \"轿\", \"抡\", \"赤\", \"旨\", \"咐\", \"玳\", \"应\", \"阵\", \"他\", \"稳\", \"假\", \"孪\", \"玲\", \"军\", \"麦\", \"几\", \"隆\", \"银\", \"狂\", \"咳\", \"驮\", \"晚\", \"胰\", \"捍\", \"次\", \"张\", \"拽\", \"丈\", \"尹\", \"圈\", \"尉\", \"洪\", \"辆\", \"隘\", \"紧\", \"之\", \"托\", \"会\", \"殿\", \"缚\", \"葩\", \"团\", \"霍\", \"达\", \"瀑\", \"铸\", \"赠\", \"穆\", \"垣\", \"佛\", \"因\", \"康\", \"潭\", \"鸠\", \"价\", \"篝\", \"惰\", \"坏\", \"施\", \"曳\", \"遵\", \"用\", \"泻\", \"青\", \"燕\", \"琼\", \"刚\", \"掂\", \"涝\", \"只\", \"狡\", \"华\", \"擂\", \"杨\", \"艾\", \"惧\", \"剪\", \"吟\", \"制\", \"婶\", \"霭\", \"相\", \"织\", \"濮\", \"肥\", \"戒\", \"擞\", \"倏\", \"晓\", \"倒\", \"肩\", \"並\", \"伙\", \"粽\", \"疹\", \"对\", \"疑\", \"年\", \"禧\", \"樊\", \"裙\", \"滓\", \"可\", \"翱\", \"账\", \"批\", \"廷\", \"羊\", \"馆\", \"掀\", \"恳\", \"汐\", \"洽\", \"砌\", \"询\", \"卍\", \"寅\", \"妄\", \"甬\", \"骂\", \"码\", \"霊\", \"奸\", \"虑\", \"桐\", \"字\", \"骤\", \"仙\", \"凳\", \"襄\", \"领\", \"重\", \"燃\", \"赢\", \"驿\", \"瑰\", \"统\", \"粒\", \"炼\", \"匪\", \"益\", \"霸\", \"览\", \"壕\", \"三\", \"血\", \"政\", \"韦\", \"镕\", \"猾\", \"盖\", \"碧\", \"钢\", \"⒁\", \"摧\", \"斋\", \"剿\", \"遥\", \"氛\", \"有\", \"咽\", \"骏\", \"旧\", \"涉\", \"际\", \"倚\", \"欸\", \"填\", \"溅\", \"款\", \"胶\", \"牺\", \"涨\", \"鲜\", \"售\", \"聪\", \"俺\", \"馕\", \"嘀\", \"武\", \"冈\", \"咀\", \"跪\", \"册\", \"芃\", \"横\", \"割\", \"莫\", \"鹿\", \"伍\", \"犹\", \"孜\", \"疏\", \"\", \"铩\", \"钓\", \"欠\", \"系\", \"扔\", \"昊\", \"解\", \"呆\", \"俞\", \"劾\", \"戛\", \"释\", \"恐\", \"蹿\", \"鸡\", \"友\", \"巩\", \"饨\", \"竞\", \"鸿\", \"挺\", \"贸\", \"琴\", \"颗\", \"渠\", \"槐\", \"撼\", \"⑤\", \"组\", \"蕉\", \"霆\", \"动\", \"苏\", \"掠\", \"厚\", \"星\", \"缮\", \"脯\", \"抵\", \"慮\", \"茉\", \"シ\", \"潜\", \"模\", \"据\", \"淞\", \"拦\", \"胁\", \"崛\", \"吓\", \"犷\", \"现\", \"帝\", \"去\", \"主\", \"爹\", \"掘\", \"蛛\", \"奇\", \"伪\", \"蔑\", \"疮\", \"贫\", \"鄙\", \"犟\", \"诟\", \"莲\", \"噶\", \"骛\", \"窥\", \"祝\", \"〖\", \"娘\", \"寡\", \"蘑\", \"萤\", \"菱\", \"喇\", \"亥\", \"侬\", \"茸\", \"亨\", \"赌\", \"矩\", \"镐\", \"翡\", \"扣\", \"莘\", \"业\", \"烈\", \"零\", \"寇\", \"咱\", \"父\", \"雷\", \"馏\", \"渗\", \"蒿\", \"本\", \"丁\", \"酷\", \"懦\", \"捺\", \"周\", \"骇\", \"鹏\", \"混\", \"靴\", \"挎\", \"漂\", \"掏\", \"窄\", \"猫\", \"问\", \"海\", \"棺\", \"噱\", \"衷\", \"昏\", \"胃\", \"代\", \"企\", \"烃\", \"喧\", \"璀\", \"嵌\", \"侨\", \"罪\", \"陌\", \"核\", \"惶\", \"淆\", \"佰\", \"颉\", \"桶\", \"喱\", \"途\", \"谚\", \"胧\", \"嗜\", \"信\", \"漓\", \"申\", \"勘\", \"垠\", \"音\", \"借\", \"阳\", \"刊\", \"仰\", \"拉\", \"啬\", \"诃\", \"凰\", \"惑\", \"长\", \"狗\", \"纾\", \"鸦\", \"向\", \"後\", \"拒\", \"也\", \"否\", \"墓\", \"斜\", \"盏\", \"畴\", \"交\", \"披\", \"种\", \"定\", \"娥\", \"扎\", \"缀\", \"培\", \"逐\", \"森\", \"夭\", \"弩\", \"裹\", \"捐\", \"汝\", \"徨\", \"椎\", \"望\", \"液\", \"聊\", \"奠\", \"畿\", \"疸\", \"趋\", \"鼎\", \"拭\", \"溘\", \"咋\", \"浅\", \"熙\", \"狱\", \"葬\", \"和\", \"臂\", \"蟑\", \"韬\", \"肪\", \"蒜\", \"裆\", \"資\", \"熟\", \"沓\", \"引\", \"绑\", \"睬\", \"鼻\", \"卤\", \"吃\", \"锈\", \"喆\", \"最\", \"蹊\", \"俏\", \"湮\", \"才\", \"堵\", \"诺\", \"虏\", \"秦\", \"苒\", \"喊\", \"爵\", \"\\u0006\", \"運\", \"噼\", \"污\", \"缓\", \"舍\", \"碌\", \"求\", \"脸\", \"彗\", \"替\", \"诚\", \"嚎\", \"脖\", \"窍\", \"抽\", \"苟\", \"遁\", \"数\", \"产\", \"爪\", \"〉\", \"辞\", \"撷\", \"扇\", \"涤\", \"府\", \"福\", \"穹\", \"审\", \"拧\", \"趁\", \"沮\", \"英\", \"坠\", \"霖\", \"恿\", \"歇\", \"缆\", \"腺\", \"哟\", \"锡\", \"冉\", \"楠\", \"佣\", \"蜕\", \"怎\", \"嚣\", \"浆\", \"鹈\", \"瞥\", \"赅\", \"摄\", \"砖\", \"砧\", \"棋\", \"百\", \"振\", \"爱\", \"粗\", \"拘\", \"涡\", \"苗\", \"台\", \"榜\", \"太\", \"〕\", \"詹\", \"云\", \"匿\", \"橙\", \"扩\", \"瘦\", \"椭\", \"蚊\", \"化\", \"悦\", \"焦\", \"个\", \"油\", \"署\", \"兢\", \"悬\", \"琳\", \"叩\", \"吧\", \"师\", \"碰\", \"。\", \"驭\", \"婪\", \"肠\", \"瞪\", \"─\", \"廖\", \"汉\", \"力\", \"准\", \"隐\", \"劣\", \"塌\", \"陛\", \"郴\", \"珀\", \"沦\", \"绥\", \"梅\", \"吩\", \"锄\", \"蛙\", \"刘\", \"究\", \"绽\", \"绩\", \"峭\", \"士\", \"苣\", \"噴\", \"馍\", \"妙\", \"棚\", \"浊\", \"抒\", \"直\", \"逗\", \"呈\", \"鲍\", \"昂\", \"丘\", \"肓\", \"永\", \"亂\", \"辈\", \"掌\", \"收\", \"叹\", \"忌\", \"幸\", \"鹅\", \"隋\", \"稿\", \"洞\", \"磅\", \"爰\", \"夫\", \"稠\", \"芷\", \"卫\", \"唯\", \"藉\", \"蝗\", \"眩\", \"黝\", \"纵\", \"畸\", \"萎\", \"骆\", \"受\", \"咦\", \"惫\", \"怒\", \"感\", \"炭\", \"刀\", \"迪\", \"魁\", \"赎\", \"俄\", \"抱\", \"懒\", \"离\", \"容\", \"内\", \"镜\", \"凭\", \"醍\", \"〞\", \"式\", \"粕\", \"豪\", \"兜\", \"吁\", \"烁\", \"瑞\", \"枪\", \"子\", \"害\", \"葫\", \"炙\", \"坷\", \"务\", \"⑴\", \"偻\", \"]\", \"郭\", \"仲\", \"嘴\", \"闵\", \"挡\", \"两\", \"绪\", \"协\", \"柬\", \"祉\", \"闺\", \"芋\", \"侣\", \"综\", \"堂\", \"抓\", \"讳\", \"宁\", \"卡\", \"毙\", \"聿\", \"攻\", \"客\", \"遴\", \"章\", \"庙\", \"薰\", \"妍\", \"骑\", \"谛\", \"剔\", \"蜴\", \"己\", \"打\", \"疫\", \"处\", \"搁\", \"悴\", \"黩\", \"阱\", \"擀\", \"响\", \"瑟\", \"據\", \"判\", \"筹\", \"胞\", \"折\", \"鄂\", \"木\", \"慨\", \"栅\", \"阎\", \"⑩\", \"Ø\", \"僚\", \"榨\", \"闾\", \"阀\", \"宠\", \"狭\", \"偌\", \"蚁\", \"缠\", \"避\", \"枷\", \"奂\", \"存\", \"陶\", \"辣\", \"董\", \"隧\", \"愁\", \"形\", \"酿\", \"犬\", \"舐\", \"蜒\", \"殖\", \"京\", \"面\", \"歧\", \"柚\", \"汹\", \"复\", \"泌\", \"杉\", \"皇\", \"车\", \"惬\", \"爽\", \"愧\", \"描\", \"奔\", \"私\", \"泄\", \"梭\", \"發\", \"堪\", \"痛\", \"\\u0000\", \"瘀\", \"俑\", \"践\", \"遂\", \"赣\", \"些\", \"小\", \"杜\", \"粱\", \"鞭\", \"乔\", \"氯\", \"杯\", \"殊\", \"患\", \"买\", \"竭\", \"冠\", \"沽\", \"忽\", \"颤\", \"镀\", \"返\", \"挽\", \"乾\", \"旅\", \"钮\", \"褐\", \"蓝\", \"籁\", \"钰\", \"臧\", \"弄\", \"丑\", \"庆\", \"味\", \"扰\", \"浚\", \"毡\", \"牵\", \"刺\", \"稚\", \"淑\", \"鳞\", \"行\", \"宗\", \"舵\", \"翅\", \"醐\", \"冰\", \"焕\", \"缥\", \"痊\", \"默\", \"畏\", \"棕\", \"姗\", \"啃\", \"捉\", \"揪\", \"称\", \"倪\", \"阅\", \"找\", \"随\", \"媒\", \"妃\", \"故\", \"港\", \"今\", \"恼\", \"佘\", \"芥\", \"巨\", \"辽\", \"肺\", \"常\", \"瑧\", \"流\", \"陨\", \"燥\", \"熔\", \"歪\", \"逶\", \"匮\", \"疆\", \"靖\", \"舔\", \"劝\", \"又\", \"拙\", \"沉\", \"酱\", \"静\", \"滋\", \"鼯\", \"萌\", \"赁\", \"牛\", \"動\", \"懈\", \"宽\", \"寿\", \"⑨\", \"蕃\", \"焯\", \"6\", \"\", \"侈\", \"馅\", \"掳\", \"伦\", \"斥\", \"厝\", \"覆\", \"埂\", \"屿\", \"桦\", \"踵\", \"骼\", \"黑\", \"瘩\", \"卿\", \"鹰\", \"豆\", \"厌\", \"眯\", \"叉\", \"辩\", \"饥\", \"做\", \"撇\", \"毁\", \"嘱\", \"堆\", \"啤\", \"荟\", \"屎\", \"牙\", \"吏\", \"答\", \"高\", \"妖\", \"沛\", \"美\", \"鳌\", \"刨\", \"螃\", \"瓷\", \"址\", \"渍\", \"麓\", \"迅\", \"您\", \"淖\", \"哨\", \"地\", \"佩\", \"岭\", \"猛\", \"逮\", \"孱\", \"惭\", \"瞧\", \"堕\", \"珏\", \"鲱\", \"捆\", \"纺\", \"碴\", \"蓬\", \"咯\", \"坎\", \"棣\", \"绣\", \"網\", \"震\", \"著\", \"迩\", \"盹\", \"芝\", \"浦\", \"耗\", \"要\", \"缕\", \"还\", \"即\", \"抨\", \"蹭\", \"洗\", \"稻\", \"韩\", \"乍\", \"急\", \"镭\", \"夸\", \"吞\", \"跃\", \"彰\", \"氢\", \"塘\", \"觉\", \"祷\", \"纱\", \"斩\", \"汲\", \"厂\", \"奴\", \"季\", \"抄\", \"你\", \"步\", \"钦\", \"瑢\", \"淼\", \"灯\", \"已\", \"号\", \"胸\", \"瀛\", \"矢\", \"漠\", \"底\", \"痰\", \"为\", \"蔡\", \"性\", \"医\", \"辗\", \"簇\", \"肌\", \"淌\", \"羽\", \"渥\", \"厥\", \"惠\", \"墙\", \"译\", \"涯\", \"误\", \"传\", \"构\", \"廓\", \"勃\", \"邃\", \"邸\", \"在\", \"再\", \"限\", \"拔\", \"橡\", \"疴\", \"铁\", \"ノ\", \"粟\", \"淋\", \"阁\", \"觅\", \"垃\", \"莹\", \"家\", \"扮\", \"篇\", \"幽\", \"篢\", \"拨\", \"绚\", \"按\", \"叠\", \"彬\", \"踹\", \"缜\", \"缴\", \"渺\", \"椰\", \"為\", \"2\", \"庇\", \"巳\", \"叮\", \"寄\", \"者\", \"靓\", \"败\", \"糟\", \"看\", \"拌\", \"睛\", \"侍\", \"苇\", \"谨\", \"谁\", \"蹈\", \"崇\", \"坊\", \"萼\", \"北\", \"卸\", \"狈\", \"放\", \"熄\", \"泯\", \"必\", \"金\", \"纲\", \"件\", \"囊\", \"4\", \"蝇\", \"損\", \"⑥\", \"航\", \"良\", \"​\", \"秘\", \"別\", \"潇\", \"魄\", \"醉\", \"幕\", \"棂\", \"卻\", \"聆\", \"寓\", \"猥\", \"穿\", \"拯\", \"茧\", \"翔\", \"摒\", \"壮\", \"璨\", \"融\", \"某\", \"盛\", \"归\", \"窿\", \"谭\", \"滑\", \"衍\", \"卧\", \"案\", \"愕\", \"辉\", \"ό\", \"哦\", \"回\", \"躁\", \"夥\", \"溺\", \"灭\", \"翕\", \"波\", \"舌\", \"维\", \"溪\", \"率\", \"耳\", \"莅\", \"狐\", \"慢\", \"聂\", \"鞠\", \"毛\", \"孟\", \"乘\", \"罗\", \"了\", \"霞\", \"邋\", \"皑\", \"劈\", \"腾\", \"趣\", \"咔\", \"~\", \"亟\", \"摹\", \"鞍\", \"月\", \"玉\", \"们\", \"挥\", \"简\", \"坑\", \"摆\", \"禅\", \"决\", \"殉\", \"乳\", \"阿\", \"红\", \"材\", \"凸\", \"忪\", \"却\", \"深\", \"齿\", \"缸\", \"鼓\", \"冤\", \"庞\", \"媚\", \"》\", \"飚\", \"畅\", \"胱\", \"洋\", \"槿\", \"叫\", \"遮\", \"蹄\", \"墟\", \"碎\", \"告\", \"蕤\", \"俩\", \"境\", \"晾\", \"虱\", \"身\", \"悉\", \"帖\", \"尔\", \"?\", \"援\", \"悯\", \"违\", \"畜\", \"题\", \"呕\", \"旋\", \"绰\", \"橱\", \"匙\", \"陀\", \"瓜\", \"澈\", \"喻\", \"挚\", \"划\", \"揭\", \"怖\", \"鹉\", \"舒\", \"侯\", \"皆\", \"婊\", \"须\", \"坤\", \"虹\", \"麟\", \"甩\", \"睿\", \"坦\", \"羚\", \"叨\", \"凋\", \"颇\", \"宛\", \"娅\", \"钝\", \"瑄\", \"但\", \"廊\", \"呸\", \"斐\", \"遣\", \"⑧\", \"玄\", \"琦\", \"慰\", \"篓\", \"源\", \"佟\", \"较\", \"校\", \"尚\", \"a\", \"岐\", \"岩\", \"盗\", \"挂\", \"峙\", \"ς\", \"般\", \"涎\", \"提\", \"催\", \"剖\", \"翘\", \"傲\", \"树\", \"置\", \"岸\", \"栓\", \"费\", \"碑\", \"颂\", \"跋\", \"烤\", \"外\", \"予\", \"轼\", \"郝\", \"辟\", \"熨\", \"钥\", \"《\", \"部\", \"鸭\", \"~\", \"饽\", \"疼\", \"完\", \"扫\", \"持\", \"递\", \"上\", \"硕\", \"秀\", \"②\", \"炊\", \"寰\", \"镏\", \"场\", \"∶\", \"炖\", \"质\", \"梨\", \"\\b\", \"候\", \"眠\", \"倜\", \"挪\", \"r\", \"戴\", \"历\", \"州\", \"乙\", \"及\", \"愤\", \"秩\", \"煮\", \"菊\", \"筝\", \"⒋\", \"岱\", \"宣\", \"赫\", \"湛\", \"浙\", \"瓶\", \"啊\", \"涮\", \"谬\", \"棍\", \"犁\", \"仓\", \"舶\", \"队\", \"巫\", \"念\", \"蟋\", \"垢\", \"柯\", \"袒\", \"许\", \"忘\", \"橇\", \"焚\", \"集\", \"抉\", \"迎\", \"掬\", \"敏\", \"恣\", \"砺\", \"阶\", \"蚪\", \"宅\", \"雅\", \"谓\", \"蔬\", \"剁\", \"设\", \"俪\", \"』\", \"鳃\", \"阽\", \"微\", \"仇\", \"懊\", \"時\", \"螺\", \"於\"]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/en": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1124813, - "_n_tokens": 258428, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/zh-Hans": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 2633047, - "_n_tokens": 1876809, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "openai/code-davinci-002 @ cc100/en": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1124813, - "_n_tokens": 258403, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/zh-Hans": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2633047, - "_n_tokens": 1876809, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/en": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1124813, - "_n_tokens": 254985, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/zh-Hans": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2633047, - "_n_tokens": 1084939, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/en": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1124813, - "_n_tokens": 254985, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/zh-Hans": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2633047, - "_n_tokens": 1084939, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/en": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1124813, - "_n_tokens": 251655, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/zh-Hans": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 2633047, - "_n_tokens": 707171, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/en": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1124813, - "_n_tokens": 258403, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/zh-Hans": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2633047, - "_n_tokens": 1876809, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/ar": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2813283, - "_n_tokens": 1795801, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/de": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1814876, - "_n_tokens": 698366, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/en": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1124813, - "_n_tokens": 270400, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/es": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1664455, - "_n_tokens": 577018, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/fa": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2054052, - "_n_tokens": 1337264, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/fr": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1540504, - "_n_tokens": 533106, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/ja": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1774770, - "_n_tokens": 740791, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/ko": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1524839, - "_n_tokens": 1203134, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-34B @ cc100/zh-Hans": { - "tokenizer": "Yi-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2633047, - "_n_tokens": 588729, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/ar": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2813283, - "_n_tokens": 1795801, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/de": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1814876, - "_n_tokens": 698366, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/en": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1124813, - "_n_tokens": 270400, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/es": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1664455, - "_n_tokens": 577018, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/fa": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2054052, - "_n_tokens": 1337264, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/fr": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1540504, - "_n_tokens": 533106, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/ja": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1774770, - "_n_tokens": 740791, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/ko": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1524839, - "_n_tokens": 1203134, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-6B @ cc100/zh-Hans": { - "tokenizer": "Yi-6B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2633047, - "_n_tokens": 588729, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/ar": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2813283, - "_n_tokens": 1803957, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/de": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1814876, - "_n_tokens": 697065, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/en": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1124813, - "_n_tokens": 269738, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/es": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1664455, - "_n_tokens": 576794, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/fa": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2054052, - "_n_tokens": 1346819, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/fr": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1540504, - "_n_tokens": 532288, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/ja": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1774770, - "_n_tokens": 749927, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/ko": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 1524839, - "_n_tokens": 1210021, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "01-ai/Yi-VL-34B @ cc100/zh-Hans": { - "tokenizer": "Yi-VL-34B", - "organization": "Yi", - "vocab_size": 64000, - "_n_bytes": 2633047, - "_n_tokens": 596166, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ClassCat/gpt2-base-french @ cc100/ar": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2813283, - "_n_tokens": 1362808, - "_n_chars": 1560987, - "_n_oov_chars": 1895, - "oov_ratio": 0.001213975516772401, - "_oov_charset": "[\"V\", \"U\", \"I\", \"S\", \"ﻻ\", \"N\", \"T\", \"W\", \"G\", \"ﷺ\", \"ﻷ\", \"Y\", \"…\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Х\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"″\", \"½\", \"Z\", \"ﻹ\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/de": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1814876, - "_n_tokens": 598773, - "_n_chars": 1784021, - "_n_oov_chars": 90272, - "oov_ratio": 0.05060030122963799, - "_oov_charset": "[\"V\", \"u\", \"U\", \"İ\", \"I\", \"É\", \"Á\", \"S\", \" \", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"¼\", \"²\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"Ø\", \"B\", \"P\", \"Ã\", \"Q\", \"Ü\", \"Ö\", \"X\", \"H\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"¹\", \"™\", \"½\", \"Z\", \"´\", \"O\", \"̈\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/en": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1124813, - "_n_tokens": 319127, - "_n_chars": 1121360, - "_n_oov_chars": 31089, - "oov_ratio": 0.02772437040736249, - "_oov_charset": "[\"V\", \"U\", \"I\", \"③\", \"S\", \"⑧\", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"M\", \"⑦\", \"A\", \"D\", \"K\", \"J\", \"L\", \"‑\", \"R\", \"P\", \"B\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"⑤\", \"⑩\", \"Z\", \"´\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/es": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1664455, - "_n_tokens": 529060, - "_n_chars": 1630297, - "_n_oov_chars": 40703, - "oov_ratio": 0.02496661651220606, - "_oov_charset": "[\"М\", \"V\", \"U\", \"I\", \"É\", \"Á\", \"S\", \"N\", \"T\", \"W\", \"G\", \"Y\", \"…\", \"²\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Í\", \"Q\", \"X\", \"º\", \"H\", \"ª\", \"F\", \"C\", \"Ñ\", \"″\", \"Ú\", \"´\", \"Z\", \"O\", \"Ó\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/fa": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2054052, - "_n_tokens": 1093333, - "_n_chars": 1145876, - "_n_oov_chars": 1473, - "oov_ratio": 0.0012854794061486583, - "_oov_charset": "[\"V\", \"U\", \"I\", \" \", \"S\", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"ﮧ\", \"Z\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/fr": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1540504, - "_n_tokens": 341687, - "_n_chars": 1484970, - "_n_oov_chars": 28793, - "oov_ratio": 0.019389617298665965, - "_oov_charset": "[\"V\", \"U\", \"I\", \"É\", \"̂\", \"S\", \"N\", \"T\", \"W\", \"G\", \"Â\", \"Y\", \"…\", \"Î\", \"²\", \"M\", \"A\", \"À\", \"D\", \"K\", \"J\", \"℃\", \"L\", \"́\", \"µ\", \"̧\", \"R\", \"B\", \"P\", \"Q\", \"Ê\", \"X\", \"H\", \"F\", \"C\", \"Ô\", \"″\", \"™\", \"È\", \"Z\", \"´\", \"O\", \"Ç\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/ja": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1774770, - "_n_tokens": 1149553, - "_n_chars": 603065, - "_n_oov_chars": 10443, - "oov_ratio": 0.017316541334682, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"つ\", \"*\", \"N\", \"9\", \"G\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"M\", \"L\", \"D\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"④\", \"し\", \"~\", \"X\", \"I\", \"H\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"I\", \"-\", \"V\", \"4\", \"て\", \"Z\", \"…\", \"¥\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"R\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"コ\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"F\", \"C\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ホ\", \"ウ\", \"E\", \"r\", \"せ\", \"3\", \"U\", \"゚\", \"す\", \"H\", \"S\", \"U\", \"W\", \"T\", \"+\", \"ヨ\", \"\\", \"Y\", \"e\", \"A\", \"8\", \"Y\", \"K\", \"L\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"\\b\", \"㎞\", \"「\", \"Q\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"ス\", \"B\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \"O\", \"T\", \"l\", \":\", \"V\", \"0\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"゚\", \"ひ\", \"[\", \"J\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"B\", \"P\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"Д\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"Z\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/ko": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1524839, - "_n_tokens": 1411369, - "_n_chars": 655190, - "_n_oov_chars": 10124, - "oov_ratio": 0.015452006288252263, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"N\", \"*\", \"G\", \"ㄷ\", \"@\", \"M\", \"ㅜ\", \"D\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"④\", \"X\", \"․\", \"H\", \"ㅝ\", \"Ⅱ\", \"ㄹ\", \"Ⅶ\", \"㏊\", \"Ⅵ\", \"I\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"①\", \"R\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"F\", \"C\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"②\", \"⑸\", \"E\", \"U\", \"ⓔ\", \"㉠\", \"ㄱ\", \"S\", \"ㆍ\", \"ㅢ\", \"W\", \"T\", \"ㅈ\", \"㎡\", \"ㅋ\", \"ㅑ\", \"Y\", \"梁\", \"A\", \"⑨\", \"K\", \"ㅓ\", \"L\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"Q\", \"ㅚ\", \"‥\", \" \", \"樂\", \"流\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"ㅆ\", \"O\", \"ㅘ\", \":\", \"⑹\", \"V\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"⑦\", \"ⅱ\", \"J\", \"ⅰ\", \"ㅞ\", \"累\", \"⑵\", \"P\", \"B\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"ㅎ\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"Z\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"?\"]", - "reversible": false - }, - "ClassCat/gpt2-base-french @ cc100/zh-Hans": { - "tokenizer": "gpt2-base-french", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2633047, - "_n_tokens": 1921438, - "_n_chars": 927311, - "_n_oov_chars": 74048, - "oov_ratio": 0.07985239040623912, - "_oov_charset": "[\"a\", \" \", \"]\", \"③\", \"\", \"5\", \"n\", \" \", \"N\", \"9\", \"G\", \"⒀\", \"C\", \"M\", \"?\", \"D\", \"Ø\", \".\", \"~\", \"X\", \"H\", \"⑩\", \"p\", \"t\", \"I\", \"⑶\", \"-\", \"V\", \"4\", \"…\", \"℃\", \"①\", \"R\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"\", \"7\", \"\", \",\", \"F\", \"C\", \"h\", \"・\", \"②\", \"⑸\", \"\", \"E\", \"r\", \"3\", \"U\", \"\\u0000\", \"S\", \"W\", \"T\", \"+\", \"⒂\", \"Y\", \"e\", \"A\", \"8\", \"⑨\", \"K\", \"L\", \"\\u0005\", \"&\", \"A\", \"\", \"\\b\", \"⑿\", \"Q\", \"\\u0006\", \"_\", \"2\", \" \", \"⑤\", \"\", \"O\", \"T\", \":\", \"V\", \"0\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \"⒃\", \"⑦\", \"[\", \"J\", \"i\", \"P\", \"B\", \"⒋\", \"!\", \")\", \"6\", \""\", \";\", \"1\", \"\\u0007\", \"(\", \"s\", \"Z\", \"N\", \"④\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/ar": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2813283, - "_n_tokens": 1414504, - "_n_chars": 1560987, - "_n_oov_chars": 1895, - "oov_ratio": 0.001213975516772401, - "_oov_charset": "[\"V\", \"U\", \"I\", \"S\", \"ﻻ\", \"N\", \"T\", \"W\", \"G\", \"ﷺ\", \"ﻷ\", \"Y\", \"…\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Х\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"″\", \"½\", \"Z\", \"ﻹ\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/de": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1814876, - "_n_tokens": 623279, - "_n_chars": 1784021, - "_n_oov_chars": 90272, - "oov_ratio": 0.05060030122963799, - "_oov_charset": "[\"V\", \"u\", \"U\", \"İ\", \"I\", \"É\", \"Á\", \"S\", \" \", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"¼\", \"²\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"Ø\", \"B\", \"P\", \"Ã\", \"Q\", \"Ü\", \"Ö\", \"X\", \"H\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"¹\", \"™\", \"½\", \"Z\", \"´\", \"O\", \"̈\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/en": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1124813, - "_n_tokens": 322348, - "_n_chars": 1121360, - "_n_oov_chars": 31089, - "oov_ratio": 0.02772437040736249, - "_oov_charset": "[\"V\", \"U\", \"I\", \"③\", \"S\", \"⑧\", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"M\", \"⑦\", \"A\", \"D\", \"K\", \"J\", \"L\", \"‑\", \"R\", \"P\", \"B\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"⑤\", \"⑩\", \"Z\", \"´\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/es": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1664455, - "_n_tokens": 340022, - "_n_chars": 1630297, - "_n_oov_chars": 40703, - "oov_ratio": 0.02496661651220606, - "_oov_charset": "[\"М\", \"V\", \"U\", \"I\", \"É\", \"Á\", \"S\", \"N\", \"T\", \"W\", \"G\", \"Y\", \"…\", \"²\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Í\", \"Q\", \"X\", \"º\", \"H\", \"ª\", \"F\", \"C\", \"Ñ\", \"″\", \"Ú\", \"´\", \"Z\", \"O\", \"Ó\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/fa": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2054052, - "_n_tokens": 1119673, - "_n_chars": 1145876, - "_n_oov_chars": 1473, - "oov_ratio": 0.0012854794061486583, - "_oov_charset": "[\"V\", \"U\", \"I\", \" \", \"S\", \"W\", \"T\", \"N\", \"G\", \"Y\", \"…\", \"M\", \"A\", \"D\", \"K\", \"J\", \"L\", \"R\", \"B\", \"P\", \"Q\", \"X\", \"H\", \"F\", \"C\", \"ﮧ\", \"Z\", \"O\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/fr": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1540504, - "_n_tokens": 500750, - "_n_chars": 1484970, - "_n_oov_chars": 28793, - "oov_ratio": 0.019389617298665965, - "_oov_charset": "[\"V\", \"U\", \"I\", \"É\", \"̂\", \"S\", \"N\", \"T\", \"W\", \"G\", \"Â\", \"Y\", \"…\", \"Î\", \"²\", \"M\", \"A\", \"À\", \"D\", \"K\", \"J\", \"℃\", \"L\", \"́\", \"µ\", \"̧\", \"R\", \"B\", \"P\", \"Q\", \"Ê\", \"X\", \"H\", \"F\", \"C\", \"Ô\", \"″\", \"™\", \"È\", \"Z\", \"´\", \"O\", \"Ç\", \"E\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/ja": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1774770, - "_n_tokens": 1191203, - "_n_chars": 603065, - "_n_oov_chars": 10443, - "oov_ratio": 0.017316541334682, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"つ\", \"*\", \"N\", \"9\", \"G\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"M\", \"L\", \"D\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"④\", \"し\", \"~\", \"X\", \"I\", \"H\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"I\", \"-\", \"V\", \"4\", \"て\", \"Z\", \"…\", \"¥\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"R\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"コ\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"F\", \"C\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ホ\", \"ウ\", \"E\", \"r\", \"せ\", \"3\", \"U\", \"゚\", \"す\", \"H\", \"S\", \"U\", \"W\", \"T\", \"+\", \"ヨ\", \"\\", \"Y\", \"e\", \"A\", \"8\", \"Y\", \"K\", \"L\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"\\b\", \"㎞\", \"「\", \"Q\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"ス\", \"B\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \"O\", \"T\", \"l\", \":\", \"V\", \"0\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"゚\", \"ひ\", \"[\", \"J\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"B\", \"P\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"Д\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"Z\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/ko": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 1524839, - "_n_tokens": 1377796, - "_n_chars": 655190, - "_n_oov_chars": 10124, - "oov_ratio": 0.015452006288252263, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"N\", \"*\", \"G\", \"ㄷ\", \"@\", \"M\", \"ㅜ\", \"D\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"④\", \"X\", \"․\", \"H\", \"ㅝ\", \"Ⅱ\", \"ㄹ\", \"Ⅶ\", \"㏊\", \"Ⅵ\", \"I\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"①\", \"R\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"F\", \"C\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"②\", \"⑸\", \"E\", \"U\", \"ⓔ\", \"㉠\", \"ㄱ\", \"S\", \"ㆍ\", \"ㅢ\", \"W\", \"T\", \"ㅈ\", \"㎡\", \"ㅋ\", \"ㅑ\", \"Y\", \"梁\", \"A\", \"⑨\", \"K\", \"ㅓ\", \"L\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"Q\", \"ㅚ\", \"‥\", \" \", \"樂\", \"流\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"ㅆ\", \"O\", \"ㅘ\", \":\", \"⑹\", \"V\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"⑦\", \"ⅱ\", \"J\", \"ⅰ\", \"ㅞ\", \"累\", \"⑵\", \"P\", \"B\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"ㅎ\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"Z\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"?\"]", - "reversible": false - }, - "ClassCat/gpt2-base-spanish @ cc100/zh-Hans": { - "tokenizer": "gpt2-base-spanish", - "organization": "ClassCat", - "vocab_size": 50000, - "_n_bytes": 2633047, - "_n_tokens": 1978056, - "_n_chars": 927311, - "_n_oov_chars": 74048, - "oov_ratio": 0.07985239040623912, - "_oov_charset": "[\"a\", \" \", \"]\", \"③\", \"\", \"5\", \"n\", \" \", \"N\", \"9\", \"G\", \"⒀\", \"C\", \"M\", \"?\", \"D\", \"Ø\", \".\", \"~\", \"X\", \"H\", \"⑩\", \"p\", \"t\", \"I\", \"⑶\", \"-\", \"V\", \"4\", \"…\", \"℃\", \"①\", \"R\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"\", \"7\", \"\", \",\", \"F\", \"C\", \"h\", \"・\", \"②\", \"⑸\", \"\", \"E\", \"r\", \"3\", \"U\", \"\\u0000\", \"S\", \"W\", \"T\", \"+\", \"⒂\", \"Y\", \"e\", \"A\", \"8\", \"⑨\", \"K\", \"L\", \"\\u0005\", \"&\", \"A\", \"\", \"\\b\", \"⑿\", \"Q\", \"\\u0006\", \"_\", \"2\", \" \", \"⑤\", \"\", \"O\", \"T\", \":\", \"V\", \"0\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \"⒃\", \"⑦\", \"[\", \"J\", \"i\", \"P\", \"B\", \"⒋\", \"!\", \")\", \"6\", \""\", \";\", \"1\", \"\\u0007\", \"(\", \"s\", \"Z\", \"N\", \"④\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/ar": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2813283, - "_n_tokens": 996313, - "_n_chars": 1560987, - "_n_oov_chars": 928499, - "oov_ratio": 0.5948153315818774, - "_oov_charset": "[\"م\", \"©\", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"ذ\", \"😀\", \"خ\", \"ۤ\", \"د\", \"۰\", \"٨\", \"▫\", \"\", \"٦\", \"
\", \"ْ\", \"ٌ\", \"😊\", \"ج\", \"█\", \"¡\", \"‹\", \"‏\", \"…\", \"ن\", \"♥\", \"χ\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"ۖ\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"١\", \"و\", \"‌\", \"Х\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"٥\", \"ﻹ\", \"ـ\", \"«\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"٤\", \"ء\", \"ή\", \"″\", \"ص\", \"ّ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/de": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1814876, - "_n_tokens": 960463, - "_n_chars": 1784021, - "_n_oov_chars": 5170, - "oov_ratio": 0.002897947950164264, - "_oov_charset": "[\"©\", \"€\", \"u\", \"¶\", \"ớ\", \"↩\", \"İ\", \"ς\", \"§\", \"😂\", \"\", \"‹\", \"č\", \"„\", \"Á\", \"➔\", \"£\", \" \", \"¿\", \"ι\", \"ô\", \"ć\", \"☺\", \"…\", \"¼\", \"²\", \"♥\", \"‎\", \"😃\", \"–\", \"¬\", \"¤\", \"â\", \"😈\", \"œ\", \"Ø\", \"š\", \"❤\", \"‚\", \"😀\", \"Ã\", \"ė\", \"›\", \"😦\", \"🙄\", \"Ö\", \"Ü\", \"‽\", \"😉\", \"„\", \"ï\", \"ư\", \"🙁\", \"‐\", \"û\", \"😆\", \"​\", \"Ÿ\", \"Ä\", \"ø\", \"ß\", \"¹\", \"™\", \"“\", \"å\", \"ń\", \"½\", \"�\", \"😢\", \"´\", \"ί\", \"«\", \"̈\", \"♦\", \"🙂\", \"♡\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/en": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1124813, - "_n_tokens": 526033, - "_n_chars": 1121360, - "_n_oov_chars": 141, - "oov_ratio": 0.00012574017264749946, - "_oov_charset": "[\"③\", \"¡\", \"£\", \"⑧\", \"¦\", \"”\", \"…\", \"⑦\", \"‑\", \"😉\", \"ï\", \"😥\", \"​\", \"⑤\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"´\", \"\", \"«\", \"🙂\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/es": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1664455, - "_n_tokens": 879530, - "_n_chars": 1630297, - "_n_oov_chars": 3885, - "oov_ratio": 0.002383001379503244, - "_oov_charset": "[\"✓\", \"©\", \"€\", \"¡\", \"ý\", \"Á\", \"„\", \"¿\", \"️\", \"ô\", \"…\", \"²\", \"▷\", \"😀\", \"❤\", \"Í\", \"‘\", \"😦\", \"😉\", \"🙁\", \"👍\", \"º\", \"ª\", \"’\", \"ø\", \"ñ\", \"Ñ\", \"✪\", \"″\", \"✔\", \"\", \"Ú\", \"👏\", \"´\", \"«\", \"Ó\", \"🙂\", \"✖\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/fa": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2054052, - "_n_tokens": 730377, - "_n_chars": 1145876, - "_n_oov_chars": 744234, - "oov_ratio": 0.6494891244776921, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"د\", \"۰\", \"٨\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"چ\", \"ة\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"�\", \"ظ\", \"ح\", \"ت\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"‌\", \"❤\", \"ڪ\", \"›\", \"؛\", \"ב\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"٥\", \"٫\", \"ـ\", \"«\", \"ٍ\", \"ش\", \"س\", \"۷\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"ء\", \"گ\", \"۴\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/fr": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1540504, - "_n_tokens": 812012, - "_n_chars": 1484970, - "_n_oov_chars": 5502, - "oov_ratio": 0.0037051253560677995, - "_oov_charset": "[\"€\", \"§\", \"♠\", \"Â\", \"Î\", \"…\", \"²\", \"À\", \"â\", \"̧\", \"℃\", \"ğ\", \"́\", \"µ\", \"œ\", \"❤\", \"😀\", \"ë\", \"î\", \"😉\", \"ã\", \"Ê\", \"ï\", \"‐\", \"û\", \"🤔\", \"♕\", \"’\", \"«\", \"Ô\", \"ê\", \"″\", \"…\", \"™\", \"È\", \"�\", \"´\", \"ô\", \"̂\", \"Ç\", \"🙂\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/ja": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1774770, - "_n_tokens": 565505, - "_n_chars": 603065, - "_n_oov_chars": 26633, - "oov_ratio": 0.044162735360201634, - "_oov_charset": "[\"a\", \"増\", \"ー\", \"濫\", \"③\", \"蛍\", \"嶽\", \"綜\", \"監\", \"9\", \"瀬\", \"慄\", \"f\", \"C\", \"釘\", \"針\", \"∀\", \"紐\", \"✨\", \"ぃ\", \"諸\", \"腫\", \"嘗\", \"載\", \"須\", \"ハ\", \"塗\", \"飽\", \"膚\", \"庁\", \".\", \"綾\", \"彿\", \"絡\", \"ヲ\", \"僕\", \"妬\", \"囲\", \"I\", \"穫\", \"鉢\", \"欝\", \"噴\", \"悩\", \"絞\", \"損\", \"騰\", \"聖\", \"⑩\", \"K\", \"貿\", \"貰\", \"両\", \"蓮\", \"競\", \"誠\", \"ぅ\", \"t\", \"嘆\", \"R\", \"喩\", \"腎\", \"嗚\", \"筈\", \"壊\", \"勝\", \"乗\", \"撫\", \"罰\", \"讃\", \"稲\", \"糞\", \"凪\", \"傾\", \"…\", \"徴\", \"¥\", \"澪\", \"夢\", \"🌙\", \"衝\", \"誘\", \"d\", \"縮\", \"遺\", \"協\", \"婦\", \"暦\", \"鑑\", \"G\", \"F\", \"駆\", \"緩\", \">\", \"箋\", \"謳\", \"暁\", \"ロ\", \"円\", \"靄\", \"債\", \"帰\", \"検\", \"・\", \"②\", \"犠\", \"ぉ\", \"糾\", \"獲\", \"雲\", \"呂\", \"財\", \"゚\", \"燭\", \"鎮\", \"項\", \"銃\", \"閣\", \"暢\", \"轢\", \"穢\", \"穏\", \"紙\", \"抜\", \"晩\", \"\\", \"揚\", \"毎\", \"薦\", \"و\", \"涙\", \"擁\", \"鍋\", \"桟\", \"働\", \"暫\", \"揮\", \"鳴\", \"ヵ\", \"梶\", \"&\", \"偉\", \"輩\", \"駄\", \"韮\", \"陳\", \"詠\", \"圏\", \"淵\", \"「\", \"ヘ\", \"ゝ\", \"丿\", \"館\", \"コ\", \"謗\", \"渓\", \"誌\", \"鉄\", \"診\", \"猟\", \"帳\", \"臨\", \"粧\", \"瘍\", \"岡\", \"´\", \"ぽ\", \"緑\", \"«\", \"鋲\", \"労\", \"礎\", \"測\", \"瘻\", \"槍\", \"頻\", \"違\", \"0\", \"嵐\", \"儀\", \"%\", \"貨\", \"縄\", \"|\", \"揃\", \"/\", \"躊\", \"慣\", \"審\", \"氷\", \"訳\", \"侶\", \"S\", \"゚\", \"[\", \"礫\", \"勲\", \"寛\", \"億\", \"ぬ\", \"b\", \"獣\", \"臥\", \"訝\", \"闘\", \"恵\", \"広\", \"X\", \"綴\", \"喪\", \"陣\", \"紹\", \"週\", \"佇\", \"轄\", \"敗\", \"輪\", \"躾\", \"騒\", \"賃\", \"棟\", \"貪\", \"丼\", \"痺\", \"豊\", \"♪\", \"✧\", \"賛\", \"舎\", \"預\", \"歓\", \"顔\", \"④\", \"鶴\", \"]\", \"賭\", \"霊\", \"袴\", \"郷\", \"鮮\", \"兎\", \"蠍\", \"彡\", \"鴻\", \"閉\", \"爾\", \"ㅂ\", \"鳥\", \"涼\", \"蒔\", \"ぞ\", \"酔\", \"姦\", \"軒\", \"M\", \"転\", \"織\", \"訊\", \"倫\", \"陽\", \"貫\", \"貧\", \"養\", \"談\", \"険\", \"辿\", \"錠\", \"桜\", \"錬\", \"捩\", \"彫\", \"篠\", \"貼\", \"孫\", \"扱\", \"粋\", \"鬱\", \"緻\", \"悶\", \"課\", \"懇\", \"餌\", \"-\", \"児\", \"戯\", \"墜\", \"4\", \"Z\", \"衆\", \"窓\", \"諺\", \"仏\", \"纒\", \"ゾ\", \"誹\", \"冊\", \"艸\", \"℃\", \"呟\", \"絆\", \"①\", \"ぼ\", \"▷\", \"殻\", \"罠\", \"緒\", \"庫\", \"D\", \"\", \"漬\", \"ゥ\", \"択\", \"7\", \"劉\", \"逡\", \"謡\", \"娯\", \"h\", \"�\", \"呑\", \"払\", \"剣\", \"∇\", \"P\", \"=\", \"篤\", \"聾\", \"♡\", \"撲\", \"訓\", \"賊\", \"銘\", \"誤\", \"遡\", \"挿\", \"訟\", \"飼\", \"閃\", \"諾\", \"図\", \"済\", \"⇔\", \"唸\", \"隕\", \"剤\", \"嘩\", \"圧\", \"捲\", \"詰\", \"鏡\", \"奪\", \"聴\", \"編\", \"羨\", \"馳\", \"鉛\", \"顎\", \"⻑\", \"\\b\", \"砕\", \"畳\", \"💦\", \"闊\", \"潰\", \"馴\", \"_\", \"訂\", \"麗\", \"掴\", \"濃\", \"樹\", \"詫\", \"誕\", \"ゥ\", \"😢\", \"゙\", \"⌒\", \"鋭\", \"賢\", \"T\", \"隠\", \"績\", \"綺\", \"艶\", \"梱\", \"w\", \"慶\", \"飲\", \"採\", \"趨\", \"俵\", \"訪\", \"惣\", \"衛\", \"詈\", \"雰\", \"駒\", \"併\", \"滅\", \"棄\", \"斂\", \"`\", \"捜\", \"順\", \"灘\", \"虜\", \"従\", \"ぇ\", \"♫\", \"^\", \"恥\", \"闖\", \"謀\", \"巣\", \";\", \"Д\", \"憂\", \"橋\", \"懸\", \"僅\", \"ぁ\", \"鎌\", \"贅\", \"戻\", \"雑\", \"ノ\", \"薬\", \"ウ\", \"艦\", \"N\", \"歴\", \"y\", \"纏\", \"©\", \"療\", \"紋\", \"醤\", \"5\", \"譜\", \"n\", \"脳\", \"憲\", \"懐\", \"*\", \"農\", \"軽\", \"貴\", \"饉\", \"L\", \"絶\", \"積\", \"湧\", \"鵜\", \"貸\", \"産\", \"譚\", \"脇\", \"軸\", \"陥\", \"Q\", \"緯\", \"๑\", \"ぴ\", \"渦\", \"備\", \"弾\", \"奨\", \"\", \"縦\", \"腸\", \"嚥\", \"紗\", \"謂\", \"側\", \"ゞ\", \"繊\", \"飾\", \"頂\", \"慮\", \"駕\", \"宮\", \"髭\", \"郵\", \"災\", \"鎖\", \"カ\", \"欄\", \"顕\", \"g\", \"<\", \"誇\", \"匂\", \"😊\", \"醸\", \"⇒\", \"曇\", \"鐘\", \"V\", \"ヌ\", \"麺\", \"冨\", \"龍\", \"蝋\", \"塚\", \"駅\", \"彙\", \"⑪\", \"職\", \"墾\", \"輸\", \"o\", \"欽\", \"喰\", \"醜\", \"絵\", \"憶\", \"団\", \"売\", \"曖\", \"◯\", \"鈴\", \"贈\", \"憤\", \"讐\", \",\", \"鱈\", \"渋\", \"潔\", \"頷\", \"壌\", \"O\", \"拡\", \"E\", \"純\", \"墳\", \"謙\", \"Ⅹ\", \"島\", \"贔\", \"鶏\", \"斎\", \"ぷ\", \"̈\", \"終\", \"営\", \"躍\", \"舗\", \"3\", \"償\", \"勧\", \"倉\", \"H\", \"噛\", \"綱\", \"塊\", \"峠\", \"縫\", \"渉\", \"喚\", \"異\", \"ぜ\", \"鞄\", \"締\", \"e\", \"捗\", \"領\", \"幣\", \"負\", \"歩\", \"銀\", \"焼\", \"‼\", \"㎞\", \"頑\", \"構\", \"舘\", \"膿\", \"複\", \"J\", \"潤\", \"縁\", \"縞\", \"​\", \"擬\", \"堅\", \"拠\", \"̀\", \"栃\", \"辺\", \"傘\", \"麹\", \"詮\", \"餃\", \"飴\", \"脈\", \"l\", \":\", \"汎\", \"諦\", \"ィ\", \"拝\", \"〝\", \"贋\", \"氾\", \"猶\", \"額\", \"噂\", \"屓\", \"リ\", \"掲\", \"齢\", \"〟\", \"歯\", \"覇\", \" ̄\", \"貢\", \"熱\", \"貶\", \"鍛\", \"!\", \"唄\", \"責\", \"覗\", \"剰\", \"渕\", \"遅\", \"飛\", \"費\", \"″\", \"(\", \"韓\", \"s\", \"荘\", \"ヘ\", \"、\", \"蓋\", \"?\", \"繰\", \"塩\", \"詐\", \"罵\", \"餓\", \"敵\", \" \", \"頃\", \"遜\", \"飢\", \"ア\", \"髪\", \"W\", \"@\", \"漁\", \"啓\", \"範\", \"繍\", \"〆\", \"窪\", \"層\", \"貯\", \"脅\", \"処\", \"懲\", \"フ\", \"捨\", \"釣\", \"験\", \"値\", \"満\", \"覚\", \"゙\", \"権\", \"込\", \"紀\", \"摯\", \"勢\", \"賠\", \"軋\", \"掛\", \"癒\", \"儲\", \"湯\", \"飯\", \"駿\", \"訴\", \"謎\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"餅\", \"納\", \"滝\", \"輿\", \"駐\", \"築\", \"楊\", \"浄\", \"繋\", \"漑\", \"貝\", \"磯\", \"詳\", \"観\", \"輝\", \"彌\", \"汚\", \"環\", \"賀\", \"渇\", \"嬢\", \"頓\", \"ゎ\", \"適\", \"掃\", \"ヶ\", \"跡\", \"騙\", \"穂\", \"︎\", \"綻\", \"閲\", \"斉\", \"煙\", \"廃\", \"澤\", \"紡\", \"絨\", \"銭\", \"‐\", \"聞\", \"﨑\", \"m\", \"\\u001b\", \"沖\", \"換\", \"襲\", \"階\", \"専\", \"奮\", \"謬\", \"廻\", \"鉱\", \"洩\", \"😌\", \"獄\", \"窮\", \"偽\", \"黙\", \"紛\", \"綬\", \"穀\", \"縛\", \"軟\", \"簗\", \"r\", \"拶\", \"ゼ\", \"頼\", \"託\", \"顧\", \"塵\", \"殺\", \"U\", \"鈍\", \"驚\", \"軌\", \"蔵\", \"+\", \"ヨ\", \"頒\", \"緊\", \"殲\", \"憑\", \"痩\", \"摂\", \"Y\", \"8\", \"幹\", \"仮\", \"ぱ\", \"頬\", \"。\", \"亀\", \"」\", \"帯\", \"尋\", \"賞\", \"悪\", \"譲\", \"A\", \"❤\", \"揺\", \"臓\", \"掻\", \"2\", \"凱\", \"‥\", \" \", \"覧\", \"挙\", \"徹\", \"疇\", \"貞\", \"斬\", \"厭\", \"厳\", \"揶\", \"購\", \"鍵\", \"B\", \"囁\", \"栄\", \"籠\", \"練\", \"魚\", \"$\", \"枠\", \"壇\", \"樺\", \"喫\", \"傑\", \"霧\", \"閑\", \"継\", \"ヾ\", \"効\", \"諏\", \"亜\", \"詩\", \"輔\", \"証\", \"訣\", \"煩\", \"メ\", \"傷\", \"⑧\", \"滲\", \"賑\", \"園\", \"遙\", \"護\", \"偵\", \"釈\", \"凍\", \"棲\", \"興\", \"総\", \"牽\", \"鯖\", \"復\", \"説\", \"レ\", \"i\", \"曽\", \"寧\", \"筆\", \")\", \"執\", \"姉\", \"6\", \"薩\", \"価\", \"楓\", \"販\", \"訃\", \"テ\", \"維\", \"1\", \"ヨ\", \"隣\", \"陰\", \"遼\", \"羅\", \"減\", \"糧\", \"謄\", \"◡\", \"k\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/ko": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1524839, - "_n_tokens": 344411, - "_n_chars": 655190, - "_n_oov_chars": 430264, - "oov_ratio": 0.656701109601795, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"빈\", \"갈\", \"싱\", \"체\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"😂\", \"별\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"⑵\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"퍙\", \"루\", \"붐\", \"女\", \"*\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"£\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"툼\", \"컸\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"낮\", \"왓\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"피\", \"읊\", \"명\", \"뿜\", \"흑\", \"딘\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"♤\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"맬\", \"🦅\", \"쪄\", \"聖\", \"션\", \"히\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"준\", \"얏\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"©\", \"맷\", \"💥\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"문\", \"✔\", \"군\", \"픔\", \"킵\", \"뮤\", \"슬\", \"§\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"韓\", \"s\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"@\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"駐\", \"볍\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"훨\", \"걸\", \"돠\", \"🌵\", \"서\", \"숭\", \"換\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"樺\", \"흄\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"敎\", \"냉\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"임\", \"ㅔ\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"몸\", \"쥬\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"톨\", \"냈\", \"푸\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"峴\", \"챗\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"㉰\", \"본\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"課\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"🙌\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"뜩\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"⑴\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"납\", \" \", \"므\", \"릉\", \"텅\", \"우\", \"켐\", \"펠\", \"랐\", \"습\", \"강\", \"뛸\", \"색\", \"쌈\", \"€\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"韜\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"驚\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"燦\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"짊\", \"㏊\", \"젊\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"큰\", \"폿\", \"옐\", \"징\", \"蟄\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"觸\", \"얹\", \"ㅜ\", \"녜\", \"쯤\", \"잡\", \"류\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"용\", \"Ⅰ\", \"남\", \"귤\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"삼\", \"착\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"」\", \"Ⅸ\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"龍\", \"품\", \"얼\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"飮\", \"마\", \"탁\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "ClueAI/ChatYuan-large-v2 @ cc100/zh-Hans": { - "tokenizer": "ChatYuan-large-v2", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2633047, - "_n_tokens": 554154, - "_n_chars": 927311, - "_n_oov_chars": 68599, - "oov_ratio": 0.0739762603916054, - "_oov_charset": "[\"a\", \"©\", \"擤\", \"镏\", \"ς\", \" \", \"]\", \"③\", \"猡\", \"\", \"ㄓ\", \"5\", \"霊\", \"n\", \" \", \"9\", \"艋\", \"⒀\", \"C\", \"?\", \"鼯\", \"屣\", \"Ø\", \".\", \"嘣\", \"戢\", \"④\", \"浞\", \"倨\", \"慮\", \"噴\", \"損\", \"⑩\", \"\", \"p\", \"t\", \"疴\", \"锒\", \"⑶\", \"卍\", \"-\", \"旆\", \"ὐ\", \"V\", \"4\", \"…\", \"壓\", \"彙\", \"韪\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"î\", \"⑷\", \"D\", \"忪\", \"„\", \"\", \"7\", \"\", \",\", \"屄\", \"龇\", \"円\", \"瑑\", \"�\", \"h\", \"・\", \"②\", \"⑸\", \"狳\", \"\", \"劑\", \"r\", \"3\", \"\\u0000\", \"託\", \"犰\", \"+\", \"耩\", \"⒂\", \"毎\", \"阽\", \"亂\", \"鲎\", \"e\", \"8\", \"⑨\", \"啐\", \"歩\", \"\\u0005\", \"溘\", \"&\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"漲\", \"ό\", \"\\u0006\", \"_\", \"2\", \" \", \"​\", \"⑤\", \"ê\", \"逑\", \"\", \"▪\", \"T\", \":\", \"铩\", \"0\", \"黢\", \"%\", \"旳\", \"〝\", \"⑥\", \"挲\", \"/\", \"採\", \"⒌\", \"⑴\", \"唷\", \"⑧\", \"瑒\", \"撐\", \"娛\", \"⒃\", \"⑦\", \"[\", \"瑢\", \"黧\", \"併\", \"i\", \"瑧\", \"⒋\", \"黩\", \"!\", \"賣\", \")\", \"岣\", \"6\", \""\", \"薩\", \";\", \"篢\", \"欸\", \"〃\", \"矍\", \"1\", \"ヨ\", \"\\u0007\", \"(\", \"s\", \"灑\", \"瑨\", \"舎\", \"N\", \"讦\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/ar": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2813283, - "_n_tokens": 996313, - "_n_chars": 1560987, - "_n_oov_chars": 928499, - "oov_ratio": 0.5948153315818774, - "_oov_charset": "[\"م\", \"©\", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"ذ\", \"😀\", \"خ\", \"ۤ\", \"د\", \"۰\", \"٨\", \"▫\", \"\", \"٦\", \"
\", \"ْ\", \"ٌ\", \"😊\", \"ج\", \"█\", \"¡\", \"‹\", \"‏\", \"…\", \"ن\", \"♥\", \"χ\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"ۖ\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"١\", \"و\", \"‌\", \"Х\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"٥\", \"ﻹ\", \"ـ\", \"«\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"٤\", \"ء\", \"ή\", \"″\", \"ص\", \"ّ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/de": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1814876, - "_n_tokens": 960463, - "_n_chars": 1784021, - "_n_oov_chars": 5170, - "oov_ratio": 0.002897947950164264, - "_oov_charset": "[\"©\", \"€\", \"u\", \"¶\", \"ớ\", \"↩\", \"İ\", \"ς\", \"§\", \"😂\", \"\", \"‹\", \"č\", \"„\", \"Á\", \"➔\", \"£\", \" \", \"¿\", \"ι\", \"ô\", \"ć\", \"☺\", \"…\", \"¼\", \"²\", \"♥\", \"‎\", \"😃\", \"–\", \"¬\", \"¤\", \"â\", \"😈\", \"œ\", \"Ø\", \"š\", \"❤\", \"‚\", \"😀\", \"Ã\", \"ė\", \"›\", \"😦\", \"🙄\", \"Ö\", \"Ü\", \"‽\", \"😉\", \"„\", \"ï\", \"ư\", \"🙁\", \"‐\", \"û\", \"😆\", \"​\", \"Ÿ\", \"Ä\", \"ø\", \"ß\", \"¹\", \"™\", \"“\", \"å\", \"ń\", \"½\", \"�\", \"😢\", \"´\", \"ί\", \"«\", \"̈\", \"♦\", \"🙂\", \"♡\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/en": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1124813, - "_n_tokens": 526033, - "_n_chars": 1121360, - "_n_oov_chars": 141, - "oov_ratio": 0.00012574017264749946, - "_oov_charset": "[\"③\", \"¡\", \"£\", \"⑧\", \"¦\", \"”\", \"…\", \"⑦\", \"‑\", \"😉\", \"ï\", \"😥\", \"​\", \"⑤\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"´\", \"\", \"«\", \"🙂\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/es": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1664455, - "_n_tokens": 879530, - "_n_chars": 1630297, - "_n_oov_chars": 3885, - "oov_ratio": 0.002383001379503244, - "_oov_charset": "[\"✓\", \"©\", \"€\", \"¡\", \"ý\", \"Á\", \"„\", \"¿\", \"️\", \"ô\", \"…\", \"²\", \"▷\", \"😀\", \"❤\", \"Í\", \"‘\", \"😦\", \"😉\", \"🙁\", \"👍\", \"º\", \"ª\", \"’\", \"ø\", \"ñ\", \"Ñ\", \"✪\", \"″\", \"✔\", \"\", \"Ú\", \"👏\", \"´\", \"«\", \"Ó\", \"🙂\", \"✖\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/fa": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2054052, - "_n_tokens": 730377, - "_n_chars": 1145876, - "_n_oov_chars": 744234, - "oov_ratio": 0.6494891244776921, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"د\", \"۰\", \"٨\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"چ\", \"ة\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"�\", \"ظ\", \"ح\", \"ت\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"‌\", \"❤\", \"ڪ\", \"›\", \"؛\", \"ב\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"٥\", \"٫\", \"ـ\", \"«\", \"ٍ\", \"ش\", \"س\", \"۷\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"ء\", \"گ\", \"۴\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/fr": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1540504, - "_n_tokens": 812012, - "_n_chars": 1484970, - "_n_oov_chars": 5502, - "oov_ratio": 0.0037051253560677995, - "_oov_charset": "[\"€\", \"§\", \"♠\", \"Â\", \"Î\", \"…\", \"²\", \"À\", \"â\", \"̧\", \"℃\", \"ğ\", \"́\", \"µ\", \"œ\", \"❤\", \"😀\", \"ë\", \"î\", \"😉\", \"ã\", \"Ê\", \"ï\", \"‐\", \"û\", \"🤔\", \"♕\", \"’\", \"«\", \"Ô\", \"ê\", \"″\", \"…\", \"™\", \"È\", \"�\", \"´\", \"ô\", \"̂\", \"Ç\", \"🙂\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/ja": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1774770, - "_n_tokens": 565505, - "_n_chars": 603065, - "_n_oov_chars": 26633, - "oov_ratio": 0.044162735360201634, - "_oov_charset": "[\"a\", \"増\", \"ー\", \"濫\", \"③\", \"蛍\", \"嶽\", \"綜\", \"監\", \"9\", \"瀬\", \"慄\", \"f\", \"C\", \"釘\", \"針\", \"∀\", \"紐\", \"✨\", \"ぃ\", \"諸\", \"腫\", \"嘗\", \"載\", \"須\", \"ハ\", \"塗\", \"飽\", \"膚\", \"庁\", \".\", \"綾\", \"彿\", \"絡\", \"ヲ\", \"僕\", \"妬\", \"囲\", \"I\", \"穫\", \"鉢\", \"欝\", \"噴\", \"悩\", \"絞\", \"損\", \"騰\", \"聖\", \"⑩\", \"K\", \"貿\", \"貰\", \"両\", \"蓮\", \"競\", \"誠\", \"ぅ\", \"t\", \"嘆\", \"R\", \"喩\", \"腎\", \"嗚\", \"筈\", \"壊\", \"勝\", \"乗\", \"撫\", \"罰\", \"讃\", \"稲\", \"糞\", \"凪\", \"傾\", \"…\", \"徴\", \"¥\", \"澪\", \"夢\", \"🌙\", \"衝\", \"誘\", \"d\", \"縮\", \"遺\", \"協\", \"婦\", \"暦\", \"鑑\", \"G\", \"F\", \"駆\", \"緩\", \">\", \"箋\", \"謳\", \"暁\", \"ロ\", \"円\", \"靄\", \"債\", \"帰\", \"検\", \"・\", \"②\", \"犠\", \"ぉ\", \"糾\", \"獲\", \"雲\", \"呂\", \"財\", \"゚\", \"燭\", \"鎮\", \"項\", \"銃\", \"閣\", \"暢\", \"轢\", \"穢\", \"穏\", \"紙\", \"抜\", \"晩\", \"\\", \"揚\", \"毎\", \"薦\", \"و\", \"涙\", \"擁\", \"鍋\", \"桟\", \"働\", \"暫\", \"揮\", \"鳴\", \"ヵ\", \"梶\", \"&\", \"偉\", \"輩\", \"駄\", \"韮\", \"陳\", \"詠\", \"圏\", \"淵\", \"「\", \"ヘ\", \"ゝ\", \"丿\", \"館\", \"コ\", \"謗\", \"渓\", \"誌\", \"鉄\", \"診\", \"猟\", \"帳\", \"臨\", \"粧\", \"瘍\", \"岡\", \"´\", \"ぽ\", \"緑\", \"«\", \"鋲\", \"労\", \"礎\", \"測\", \"瘻\", \"槍\", \"頻\", \"違\", \"0\", \"嵐\", \"儀\", \"%\", \"貨\", \"縄\", \"|\", \"揃\", \"/\", \"躊\", \"慣\", \"審\", \"氷\", \"訳\", \"侶\", \"S\", \"゚\", \"[\", \"礫\", \"勲\", \"寛\", \"億\", \"ぬ\", \"b\", \"獣\", \"臥\", \"訝\", \"闘\", \"恵\", \"広\", \"X\", \"綴\", \"喪\", \"陣\", \"紹\", \"週\", \"佇\", \"轄\", \"敗\", \"輪\", \"躾\", \"騒\", \"賃\", \"棟\", \"貪\", \"丼\", \"痺\", \"豊\", \"♪\", \"✧\", \"賛\", \"舎\", \"預\", \"歓\", \"顔\", \"④\", \"鶴\", \"]\", \"賭\", \"霊\", \"袴\", \"郷\", \"鮮\", \"兎\", \"蠍\", \"彡\", \"鴻\", \"閉\", \"爾\", \"ㅂ\", \"鳥\", \"涼\", \"蒔\", \"ぞ\", \"酔\", \"姦\", \"軒\", \"M\", \"転\", \"織\", \"訊\", \"倫\", \"陽\", \"貫\", \"貧\", \"養\", \"談\", \"険\", \"辿\", \"錠\", \"桜\", \"錬\", \"捩\", \"彫\", \"篠\", \"貼\", \"孫\", \"扱\", \"粋\", \"鬱\", \"緻\", \"悶\", \"課\", \"懇\", \"餌\", \"-\", \"児\", \"戯\", \"墜\", \"4\", \"Z\", \"衆\", \"窓\", \"諺\", \"仏\", \"纒\", \"ゾ\", \"誹\", \"冊\", \"艸\", \"℃\", \"呟\", \"絆\", \"①\", \"ぼ\", \"▷\", \"殻\", \"罠\", \"緒\", \"庫\", \"D\", \"\", \"漬\", \"ゥ\", \"択\", \"7\", \"劉\", \"逡\", \"謡\", \"娯\", \"h\", \"�\", \"呑\", \"払\", \"剣\", \"∇\", \"P\", \"=\", \"篤\", \"聾\", \"♡\", \"撲\", \"訓\", \"賊\", \"銘\", \"誤\", \"遡\", \"挿\", \"訟\", \"飼\", \"閃\", \"諾\", \"図\", \"済\", \"⇔\", \"唸\", \"隕\", \"剤\", \"嘩\", \"圧\", \"捲\", \"詰\", \"鏡\", \"奪\", \"聴\", \"編\", \"羨\", \"馳\", \"鉛\", \"顎\", \"⻑\", \"\\b\", \"砕\", \"畳\", \"💦\", \"闊\", \"潰\", \"馴\", \"_\", \"訂\", \"麗\", \"掴\", \"濃\", \"樹\", \"詫\", \"誕\", \"ゥ\", \"😢\", \"゙\", \"⌒\", \"鋭\", \"賢\", \"T\", \"隠\", \"績\", \"綺\", \"艶\", \"梱\", \"w\", \"慶\", \"飲\", \"採\", \"趨\", \"俵\", \"訪\", \"惣\", \"衛\", \"詈\", \"雰\", \"駒\", \"併\", \"滅\", \"棄\", \"斂\", \"`\", \"捜\", \"順\", \"灘\", \"虜\", \"従\", \"ぇ\", \"♫\", \"^\", \"恥\", \"闖\", \"謀\", \"巣\", \";\", \"Д\", \"憂\", \"橋\", \"懸\", \"僅\", \"ぁ\", \"鎌\", \"贅\", \"戻\", \"雑\", \"ノ\", \"薬\", \"ウ\", \"艦\", \"N\", \"歴\", \"y\", \"纏\", \"©\", \"療\", \"紋\", \"醤\", \"5\", \"譜\", \"n\", \"脳\", \"憲\", \"懐\", \"*\", \"農\", \"軽\", \"貴\", \"饉\", \"L\", \"絶\", \"積\", \"湧\", \"鵜\", \"貸\", \"産\", \"譚\", \"脇\", \"軸\", \"陥\", \"Q\", \"緯\", \"๑\", \"ぴ\", \"渦\", \"備\", \"弾\", \"奨\", \"\", \"縦\", \"腸\", \"嚥\", \"紗\", \"謂\", \"側\", \"ゞ\", \"繊\", \"飾\", \"頂\", \"慮\", \"駕\", \"宮\", \"髭\", \"郵\", \"災\", \"鎖\", \"カ\", \"欄\", \"顕\", \"g\", \"<\", \"誇\", \"匂\", \"😊\", \"醸\", \"⇒\", \"曇\", \"鐘\", \"V\", \"ヌ\", \"麺\", \"冨\", \"龍\", \"蝋\", \"塚\", \"駅\", \"彙\", \"⑪\", \"職\", \"墾\", \"輸\", \"o\", \"欽\", \"喰\", \"醜\", \"絵\", \"憶\", \"団\", \"売\", \"曖\", \"◯\", \"鈴\", \"贈\", \"憤\", \"讐\", \",\", \"鱈\", \"渋\", \"潔\", \"頷\", \"壌\", \"O\", \"拡\", \"E\", \"純\", \"墳\", \"謙\", \"Ⅹ\", \"島\", \"贔\", \"鶏\", \"斎\", \"ぷ\", \"̈\", \"終\", \"営\", \"躍\", \"舗\", \"3\", \"償\", \"勧\", \"倉\", \"H\", \"噛\", \"綱\", \"塊\", \"峠\", \"縫\", \"渉\", \"喚\", \"異\", \"ぜ\", \"鞄\", \"締\", \"e\", \"捗\", \"領\", \"幣\", \"負\", \"歩\", \"銀\", \"焼\", \"‼\", \"㎞\", \"頑\", \"構\", \"舘\", \"膿\", \"複\", \"J\", \"潤\", \"縁\", \"縞\", \"​\", \"擬\", \"堅\", \"拠\", \"̀\", \"栃\", \"辺\", \"傘\", \"麹\", \"詮\", \"餃\", \"飴\", \"脈\", \"l\", \":\", \"汎\", \"諦\", \"ィ\", \"拝\", \"〝\", \"贋\", \"氾\", \"猶\", \"額\", \"噂\", \"屓\", \"リ\", \"掲\", \"齢\", \"〟\", \"歯\", \"覇\", \" ̄\", \"貢\", \"熱\", \"貶\", \"鍛\", \"!\", \"唄\", \"責\", \"覗\", \"剰\", \"渕\", \"遅\", \"飛\", \"費\", \"″\", \"(\", \"韓\", \"s\", \"荘\", \"ヘ\", \"、\", \"蓋\", \"?\", \"繰\", \"塩\", \"詐\", \"罵\", \"餓\", \"敵\", \" \", \"頃\", \"遜\", \"飢\", \"ア\", \"髪\", \"W\", \"@\", \"漁\", \"啓\", \"範\", \"繍\", \"〆\", \"窪\", \"層\", \"貯\", \"脅\", \"処\", \"懲\", \"フ\", \"捨\", \"釣\", \"験\", \"値\", \"満\", \"覚\", \"゙\", \"権\", \"込\", \"紀\", \"摯\", \"勢\", \"賠\", \"軋\", \"掛\", \"癒\", \"儲\", \"湯\", \"飯\", \"駿\", \"訴\", \"謎\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"餅\", \"納\", \"滝\", \"輿\", \"駐\", \"築\", \"楊\", \"浄\", \"繋\", \"漑\", \"貝\", \"磯\", \"詳\", \"観\", \"輝\", \"彌\", \"汚\", \"環\", \"賀\", \"渇\", \"嬢\", \"頓\", \"ゎ\", \"適\", \"掃\", \"ヶ\", \"跡\", \"騙\", \"穂\", \"︎\", \"綻\", \"閲\", \"斉\", \"煙\", \"廃\", \"澤\", \"紡\", \"絨\", \"銭\", \"‐\", \"聞\", \"﨑\", \"m\", \"\\u001b\", \"沖\", \"換\", \"襲\", \"階\", \"専\", \"奮\", \"謬\", \"廻\", \"鉱\", \"洩\", \"😌\", \"獄\", \"窮\", \"偽\", \"黙\", \"紛\", \"綬\", \"穀\", \"縛\", \"軟\", \"簗\", \"r\", \"拶\", \"ゼ\", \"頼\", \"託\", \"顧\", \"塵\", \"殺\", \"U\", \"鈍\", \"驚\", \"軌\", \"蔵\", \"+\", \"ヨ\", \"頒\", \"緊\", \"殲\", \"憑\", \"痩\", \"摂\", \"Y\", \"8\", \"幹\", \"仮\", \"ぱ\", \"頬\", \"。\", \"亀\", \"」\", \"帯\", \"尋\", \"賞\", \"悪\", \"譲\", \"A\", \"❤\", \"揺\", \"臓\", \"掻\", \"2\", \"凱\", \"‥\", \" \", \"覧\", \"挙\", \"徹\", \"疇\", \"貞\", \"斬\", \"厭\", \"厳\", \"揶\", \"購\", \"鍵\", \"B\", \"囁\", \"栄\", \"籠\", \"練\", \"魚\", \"$\", \"枠\", \"壇\", \"樺\", \"喫\", \"傑\", \"霧\", \"閑\", \"継\", \"ヾ\", \"効\", \"諏\", \"亜\", \"詩\", \"輔\", \"証\", \"訣\", \"煩\", \"メ\", \"傷\", \"⑧\", \"滲\", \"賑\", \"園\", \"遙\", \"護\", \"偵\", \"釈\", \"凍\", \"棲\", \"興\", \"総\", \"牽\", \"鯖\", \"復\", \"説\", \"レ\", \"i\", \"曽\", \"寧\", \"筆\", \")\", \"執\", \"姉\", \"6\", \"薩\", \"価\", \"楓\", \"販\", \"訃\", \"テ\", \"維\", \"1\", \"ヨ\", \"隣\", \"陰\", \"遼\", \"羅\", \"減\", \"糧\", \"謄\", \"◡\", \"k\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/ko": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 1524839, - "_n_tokens": 344411, - "_n_chars": 655190, - "_n_oov_chars": 430264, - "oov_ratio": 0.656701109601795, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"빈\", \"갈\", \"싱\", \"체\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"😂\", \"별\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"⑵\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"퍙\", \"루\", \"붐\", \"女\", \"*\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"£\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"툼\", \"컸\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"낮\", \"왓\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"피\", \"읊\", \"명\", \"뿜\", \"흑\", \"딘\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"♤\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"맬\", \"🦅\", \"쪄\", \"聖\", \"션\", \"히\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"준\", \"얏\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"©\", \"맷\", \"💥\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"문\", \"✔\", \"군\", \"픔\", \"킵\", \"뮤\", \"슬\", \"§\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"韓\", \"s\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"@\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"駐\", \"볍\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"훨\", \"걸\", \"돠\", \"🌵\", \"서\", \"숭\", \"換\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"樺\", \"흄\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"敎\", \"냉\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"임\", \"ㅔ\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"몸\", \"쥬\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"톨\", \"냈\", \"푸\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"峴\", \"챗\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"㉰\", \"본\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"課\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"🙌\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"뜩\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"⑴\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"납\", \" \", \"므\", \"릉\", \"텅\", \"우\", \"켐\", \"펠\", \"랐\", \"습\", \"강\", \"뛸\", \"색\", \"쌈\", \"€\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"韜\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"驚\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"燦\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"짊\", \"㏊\", \"젊\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"큰\", \"폿\", \"옐\", \"징\", \"蟄\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"觸\", \"얹\", \"ㅜ\", \"녜\", \"쯤\", \"잡\", \"류\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"용\", \"Ⅰ\", \"남\", \"귤\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"삼\", \"착\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"」\", \"Ⅸ\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"龍\", \"품\", \"얼\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"飮\", \"마\", \"탁\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "ClueAI/PromptCLUE-base @ cc100/zh-Hans": { - "tokenizer": "PromptCLUE-base", - "organization": "CLUE", - "vocab_size": 32128, - "_n_bytes": 2633047, - "_n_tokens": 554154, - "_n_chars": 927311, - "_n_oov_chars": 68599, - "oov_ratio": 0.0739762603916054, - "_oov_charset": "[\"a\", \"©\", \"擤\", \"镏\", \"ς\", \" \", \"]\", \"③\", \"猡\", \"\", \"ㄓ\", \"5\", \"霊\", \"n\", \" \", \"9\", \"艋\", \"⒀\", \"C\", \"?\", \"鼯\", \"屣\", \"Ø\", \".\", \"嘣\", \"戢\", \"④\", \"浞\", \"倨\", \"慮\", \"噴\", \"損\", \"⑩\", \"\", \"p\", \"t\", \"疴\", \"锒\", \"⑶\", \"卍\", \"-\", \"旆\", \"ὐ\", \"V\", \"4\", \"…\", \"壓\", \"彙\", \"韪\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"î\", \"⑷\", \"D\", \"忪\", \"„\", \"\", \"7\", \"\", \",\", \"屄\", \"龇\", \"円\", \"瑑\", \"�\", \"h\", \"・\", \"②\", \"⑸\", \"狳\", \"\", \"劑\", \"r\", \"3\", \"\\u0000\", \"託\", \"犰\", \"+\", \"耩\", \"⒂\", \"毎\", \"阽\", \"亂\", \"鲎\", \"e\", \"8\", \"⑨\", \"啐\", \"歩\", \"\\u0005\", \"溘\", \"&\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"漲\", \"ό\", \"\\u0006\", \"_\", \"2\", \" \", \"​\", \"⑤\", \"ê\", \"逑\", \"\", \"▪\", \"T\", \":\", \"铩\", \"0\", \"黢\", \"%\", \"旳\", \"〝\", \"⑥\", \"挲\", \"/\", \"採\", \"⒌\", \"⑴\", \"唷\", \"⑧\", \"瑒\", \"撐\", \"娛\", \"⒃\", \"⑦\", \"[\", \"瑢\", \"黧\", \"併\", \"i\", \"瑧\", \"⒋\", \"黩\", \"!\", \"賣\", \")\", \"岣\", \"6\", \""\", \"薩\", \";\", \"篢\", \"欸\", \"〃\", \"矍\", \"1\", \"ヨ\", \"\\u0007\", \"(\", \"s\", \"灑\", \"瑨\", \"舎\", \"N\", \"讦\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/ar": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 2813283, - "_n_tokens": 621736, - "_n_chars": 1560987, - "_n_oov_chars": 767, - "oov_ratio": 0.0004913557896382225, - "_oov_charset": "[\"‏\", \"…\", \"″\", \"‎\", \"\", \"�\", \"
\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"​\", \"‌\", \"ﻷ\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/de": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1814876, - "_n_tokens": 470418, - "_n_chars": 1784021, - "_n_oov_chars": 524, - "oov_ratio": 0.0002937185156452755, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/en": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1124813, - "_n_tokens": 307881, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"�\", \"´\", \"‑\", \"⑧\", \"​\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/es": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1664455, - "_n_tokens": 462231, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/fa": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 2054052, - "_n_tokens": 419922, - "_n_chars": 1145876, - "_n_oov_chars": 7690, - "oov_ratio": 0.006711022833186139, - "_oov_charset": "[\"‏\", \"…\", \"‎\", \"\", \" \", \"�\", \"ﮧ\", \"‍\", \"​\", \"‌\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/fr": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1540504, - "_n_tokens": 460944, - "_n_chars": 1484970, - "_n_oov_chars": 870, - "oov_ratio": 0.0005858704216246792, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/ja": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1774770, - "_n_tokens": 290542, - "_n_chars": 603065, - "_n_oov_chars": 6762, - "oov_ratio": 0.011212721680084236, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"④\", \"I\", \"Ⅱ\", \"⑩\", \"K\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"g\", \"<\", \"-\", \"V\", \"4\", \"Z\", \"…\", \"¥\", \"纒\", \"⑪\", \"℃\", \"①\", \"o\", \"d\", \"G\", \"D\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ウ\", \"r\", \"3\", \"゚\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"A\", \"⻑\", \"\\b\", \"‼\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"​\", \"B\", \"$\", \"´\", \"T\", \"l\", \":\", \"0\", \"ィ\", \"%\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/ko": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 1524839, - "_n_tokens": 424586, - "_n_chars": 655190, - "_n_oov_chars": 1365, - "oov_ratio": 0.0020833651307254385, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"*\", \"ㄷ\", \"@\", \"‎\", \"ㅜ\", \"ㅐ\", \"〮\", \"Ⅷ\", \"ㅛ\", \"④\", \"킌\", \"․\", \"ㅝ\", \"삣\", \"Ⅱ\", \"ㄹ\", \"\", \"➏\", \"Ⅶ\", \"㏊\", \"힉\", \"Ⅵ\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"챨\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"힜\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"�\", \"②\", \"⑸\", \"璣\", \"츈\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"‍\", \"ㅢ\", \"퍙\", \"ㅈ\", \"ㅋ\", \"㎡\", \"ㅑ\", \"梁\", \"쒀\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"렜\", \"쓕\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"웖\", \"뾱\", \"㉿\", \"‥\", \" \", \"樂\", \"流\", \"​\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"왘\", \"ㅆ\", \"쫗\", \"ㅘ\", \":\", \"⑹\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"폍\", \"뭥\", \"⑦\", \"ⅱ\", \"ⅰ\", \"綃\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"흗\", \"ㅎ\", \"\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"꿕\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"?\"]", - "reversible": false - }, - "CohereForAI/aya-101 @ cc100/zh-Hans": { - "tokenizer": "aya-101", - "organization": "Cohere For AI", - "vocab_size": 250100, - "_n_bytes": 2633047, - "_n_tokens": 621182, - "_n_chars": 927311, - "_n_oov_chars": 68514, - "oov_ratio": 0.07388459750827932, - "_oov_charset": "[\"a\", \"擤\", \"猡\", \" \", \"]\", \"③\", \"\", \"5\", \"n\", \" \", \"9\", \"⒀\", \"C\", \"?\", \"鼯\", \".\", \"犄\", \"⑩\", \"\", \"p\", \"t\", \"腭\", \"锒\", \"⑶\", \"-\", \"V\", \"4\", \"…\", \"佝\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"\", \"7\", \"\", \",\", \"瑑\", \"�\", \"h\", \"・\", \"②\", \"⑸\", \"鲱\", \"r\", \"3\", \"\\u0000\", \"犰\", \"+\", \"耩\", \"⒂\", \"阽\", \"e\", \"8\", \"⑨\", \"\\u0005\", \"&\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"\\u0006\", \"_\", \"2\", \" \", \"​\", \"⑤\", \"棂\", \"T\", \":\", \"0\", \"黢\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \"瑒\", \"⒃\", \"⑦\", \"[\", \"瑢\", \"i\", \"⒋\", \"黩\", \"!\", \")\", \"6\", \""\", \";\", \"篢\", \"1\", \"\\u0007\", \"(\", \"s\", \"瑨\", \"N\", \"④\"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/ar": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 2813283, - "_n_tokens": 1106277, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/de": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1814876, - "_n_tokens": 583628, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"̈\", \"u\"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/en": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1124813, - "_n_tokens": 259357, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/es": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1664455, - "_n_tokens": 494577, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/fa": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 2054052, - "_n_tokens": 866434, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/fr": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1540504, - "_n_tokens": 458961, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/ja": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1774770, - "_n_tokens": 605168, - "_n_chars": 603065, - "_n_oov_chars": 465, - "oov_ratio": 0.0007710611625612496, - "_oov_charset": "[\"と\", \"シ\", \"せ\", \"ハ\", \" \", \"す\", \"つ\", \"て\", \"゚\", \"ひ\", \"は\", \"フ\", \"へ\", \"か\", \"た\", \"し\", \"コ\", \"ス\", \"く\", \"ヒ\", \"ト\", \"゙\", \"ふ\", \"ホ\"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/ko": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 1524839, - "_n_tokens": 973288, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"立\", \"累\", \"龍\", \"識\", \"理\", \"梁\", \"金\", \"女\", \"樂\", \"靈\", \"樂\", \"不\", \"流\", \"陸\", \"良\"]", - "reversible": false - }, - "EleutherAI/gpt-neox-20b @ cc100/zh-Hans": { - "tokenizer": "gpt-neox-20b", - "organization": "EleutherAI", - "vocab_size": 50277, - "_n_bytes": 2633047, - "_n_tokens": 1220529, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/ar": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 2813283, - "_n_tokens": 498287, - "_n_chars": 1560987, - "_n_oov_chars": 767, - "oov_ratio": 0.0004913557896382225, - "_oov_charset": "[\"‏\", \"…\", \"″\", \"‎\", \"\", \"�\", \"
\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"​\", \"‌\", \"ﻷ\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/de": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1814876, - "_n_tokens": 412571, - "_n_chars": 1784021, - "_n_oov_chars": 525, - "oov_ratio": 0.0002942790471636825, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"‽\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/en": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1124813, - "_n_tokens": 280026, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"�\", \"´\", \"‑\", \"⑧\", \"​\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/es": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1664455, - "_n_tokens": 379850, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/fa": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 2054052, - "_n_tokens": 310926, - "_n_chars": 1145876, - "_n_oov_chars": 7690, - "oov_ratio": 0.006711022833186139, - "_oov_charset": "[\"‏\", \"…\", \"‎\", \"\", \" \", \"�\", \"ﮧ\", \"‍\", \"​\", \"‌\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/fr": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1540504, - "_n_tokens": 385041, - "_n_chars": 1484970, - "_n_oov_chars": 872, - "oov_ratio": 0.0005872172501801383, - "_oov_charset": "[\"…\", \"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/ja": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1774770, - "_n_tokens": 324820, - "_n_chars": 603065, - "_n_oov_chars": 6779, - "oov_ratio": 0.011240911012909057, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"饉\", \"L\", \"ハ\", \"杼\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"④\", \"I\", \"欝\", \"Ⅱ\", \"⑩\", \"K\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"g\", \"<\", \"漑\", \"-\", \"V\", \"4\", \"Z\", \"…\", \"¥\", \"纒\", \"⑪\", \"℃\", \"ゎ\", \"①\", \"o\", \"d\", \"G\", \"D\", \"\", \"F\", \"ゥ\", \">\", \"7\", \"﨑\", \"m\", \"\\u001b\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \"碓\", \"ウ\", \"簗\", \"r\", \"3\", \"゚\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"韮\", \"A\", \"‼\", \"\\b\", \"⻑\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"​\", \"B\", \"$\", \"´\", \"鋲\", \"瘻\", \"T\", \"l\", \":\", \"0\", \"ィ\", \"%\", \"|\", \"贋\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"詈\", \"S\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/ko": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 1524839, - "_n_tokens": 354571, - "_n_chars": 655190, - "_n_oov_chars": 1403, - "oov_ratio": 0.002141363573925121, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"趺\", \"*\", \"ㄷ\", \"@\", \"悧\", \"‎\", \"ㅜ\", \"➎\", \"ㅐ\", \"〮\", \"Ⅷ\", \"ㅛ\", \"④\", \"🏷\", \"킌\", \"․\", \"킁\", \"⚀\", \"ㅝ\", \"跏\", \"삣\", \"Ⅱ\", \"ㄹ\", \"\", \"➏\", \"🚿\", \"Ⅶ\", \"띕\", \"㏊\", \"썅\", \"Ⅵ\", \"⑶\", \"섦\", \"㎍\", \"ㅡ\", \"쟤\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"챨\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"🌵\", \"🗺\", \"힜\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"�\", \"②\", \"⑸\", \"츈\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"‍\", \"ㅢ\", \"퍙\", \"ㅈ\", \"蚩\", \"㎡\", \"ㅋ\", \"ㅑ\", \"🍞\", \"梁\", \"쒀\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"렜\", \"쓕\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"웖\", \"뾱\", \"㉿\", \"‥\", \" \", \"樂\", \"流\", \"➍\", \"🍭\", \"​\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"卽\", \"왘\", \"ㅆ\", \"쫗\", \"ㅘ\", \"➌\", \":\", \"⑹\", \"%\", \"🤕\", \"|\", \"⑥\", \"짢\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"폍\", \"뭥\", \"⑦\", \"ⅱ\", \"🍟\", \"ⅰ\", \"綃\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"\", \"㉣\", \"Ⅴ\", \"흗\", \"ㅎ\", \"\", \"🥁\", \"㎥\", \"識\", \"믐\", \"Ⅳ\", \"s\", \"槪\", \"꿕\", \"樂\", \"삘\", \"㉰\", \"ㅟ\", \"良\", \"?\"]", - "reversible": false - }, - "FacebookAI/xlm-roberta-base @ cc100/zh-Hans": { - "tokenizer": "xlm-roberta-base", - "organization": "Facebook", - "vocab_size": 250002, - "_n_bytes": 2633047, - "_n_tokens": 599844, - "_n_chars": 927311, - "_n_oov_chars": 68556, - "oov_ratio": 0.07392988975651103, - "_oov_charset": "[\"a\", \"翕\", \"擤\", \"镏\", \"猡\", \" \", \"]\", \"③\", \"\", \"5\", \"n\", \" \", \"9\", \"⒀\", \"C\", \"?\", \"鼯\", \"浠\", \"屣\", \"牖\", \".\", \"戢\", \"④\", \"浞\", \"犄\", \"倨\", \"樯\", \"⑩\", \"\", \"p\", \"韫\", \"t\", \"疴\", \"⑶\", \"鄯\", \"-\", \"旆\", \"V\", \"4\", \"…\", \"茏\", \"穰\", \"韪\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"\", \"7\", \"\", \",\", \"逶\", \"瑑\", \"�\", \"h\", \"・\", \"②\", \"⑸\", \"聒\", \"鲱\", \"狳\", \"\", \"r\", \"3\", \"\\u0000\", \"偻\", \"诨\", \"犰\", \"+\", \"耩\", \"⒂\", \"纰\", \"阽\", \"鲎\", \"e\", \"8\", \"⑨\", \"撷\", \"\\u0005\", \"&\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"\\u0006\", \"_\", \"2\", \"傥\", \" \", \"​\", \"⑤\", \"勖\", \"棂\", \"\", \"T\", \":\", \"0\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \"瑒\", \"飕\", \"⒃\", \"⑦\", \"[\", \"瑢\", \"黧\", \"i\", \"嘭\", \"瑧\", \"⒋\", \"黩\", \"!\", \")\", \"岣\", \"6\", \""\", \"绉\", \";\", \"篢\", \"矍\", \"1\", \"\\u0007\", \"(\", \"s\", \"鳃\", \"瑨\", \"N\", \"讦\"]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/ar": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 2813283, - "_n_tokens": 1195640, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/de": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1814876, - "_n_tokens": 620541, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/en": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1124813, - "_n_tokens": 288965, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/es": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1664455, - "_n_tokens": 530592, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/fa": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 2054052, - "_n_tokens": 851630, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/fr": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1540504, - "_n_tokens": 509958, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/ja": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1774770, - "_n_tokens": 546876, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/ko": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 1524839, - "_n_tokens": 580873, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "HuggingFaceH4/starchat-alpha @ cc100/zh-Hans": { - "tokenizer": "starchat-alpha", - "organization": "-", - "vocab_size": 49156, - "_n_bytes": 2633047, - "_n_tokens": 882018, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/ar": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 1396319, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/de": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 567526, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/en": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 275801, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/es": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 503915, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/fa": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 1123278, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/fr": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 466666, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/ja": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 675134, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/ko": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 718766, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "HuggingFaceH4/zephyr-7b-beta @ cc100/zh-Hans": { - "tokenizer": "zephyr-7b-beta", - "organization": "HuggingFace", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1031023, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/ar": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/de": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/en": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/es": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/fa": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/fr": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/ja": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/ko": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "LLM360/CrystalCoder @ cc100/zh-Hans": { - "tokenizer": "CrystalCoder", - "organization": "MBZUAI", - "vocab_size": 32022, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/ar": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/de": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/en": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/es": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/fa": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/fr": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/ja": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/ko": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "NousResearch/Llama-2-7b-chat-hf @ cc100/zh-Hans": { - "tokenizer": "llama2", - "organization": "Meta", - "vocab_size": 32001, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "OrionStarAI/Orion-14B-Chat @ cc100/ar": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 2813283, - "_n_tokens": 1531053, - "_n_chars": 1560987, - "_n_oov_chars": 1513, - "oov_ratio": 0.0009692585524415002, - "_oov_charset": "[\"ٌ\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"ﻷ\", \"‏\", \"…\", \"‎\", \"⤴\", \"ۚ\", \"٪\", \"ۗ\", \"ۖ\", \"‌\", \"﴿\", \"ۤ\", \"؛\", \"​\", \"″\", \"\", \"ٰ\", \"�\", \"﴾\", \"½\", \"
\", \"ﻹ\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/de": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1814876, - "_n_tokens": 744404, - "_n_chars": 1784021, - "_n_oov_chars": 524, - "oov_ratio": 0.0002937185156452755, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/en": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1124813, - "_n_tokens": 265948, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"�\", \"´\", \"‑\", \"⑧\", \"​\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/es": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1664455, - "_n_tokens": 628571, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/fa": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 2054052, - "_n_tokens": 1131108, - "_n_chars": 1145876, - "_n_oov_chars": 8144, - "oov_ratio": 0.007107226261829378, - "_oov_charset": "[\"ٌ\", \"ٔ\", \"‏\", \"…\", \"ۀ\", \"ۆ\", \"‎\", \"؛\", \"\", \"�\", \"۔\", \"ﮧ\", \"٪\", \"ٴ\", \"​\", \"‌\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/fr": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1540504, - "_n_tokens": 564107, - "_n_chars": 1484970, - "_n_oov_chars": 870, - "oov_ratio": 0.0005858704216246792, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/ja": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1774770, - "_n_tokens": 324956, - "_n_chars": 603065, - "_n_oov_chars": 5188, - "oov_ratio": 0.00860272109971562, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \"③\", \"5\", \"n\", \"つ\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"④\", \"し\", \"I\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \")\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"-\", \"V\", \"4\", \"て\", \"Z\", \"…\", \"¥\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"\", \"コ\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \":\", \"ホ\", \"ウ\", \"簗\", \"r\", \"せ\", \"3\", \"゚\", \"す\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"\\b\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"​\", \"ス\", \"B\", \"?\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \",\", \"T\", \"l\", \":\", \"0\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \";\", \"S\", \"゚\", \"ひ\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \"テ\", \"″\", \"1\", \"(\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"、\", \"!\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/ko": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 1524839, - "_n_tokens": 351149, - "_n_chars": 655190, - "_n_oov_chars": 1783, - "oov_ratio": 0.0027213480059219463, - "_oov_charset": "[\"뮈\", \"ⓒ\", \"③\", \"女\", \"쥰\", \"*\", \"ㄷ\", \"@\", \"‎\", \"ㅜ\", \"녜\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"④\", \"껀\", \"맬\", \"킌\", \"․\", \"킁\", \"⚀\", \"ㅝ\", \"삣\", \"Ⅱ\", \"ㄹ\", \"\", \")\", \"쫑\", \"Ⅶ\", \"쐬\", \"깽\", \"홑\", \"띕\", \"갛\", \"㏊\", \"썅\", \"힉\", \"Ⅵ\", \"⑶\", \"훠\", \"섦\", \"㎍\", \"ㅡ\", \"쟤\", \"ㅖ\", \"잴\", \"앎\", \"…\", \"ⅲ\", \"셌\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"챨\", \"①\", \"쳇\", \"ㄴ\", \"ㅣ\", \"갉\", \"Ⅰ\", \"쭙\", \"죤\", \"꺄\", \"롸\", \"봬\", \"돠\", \"틔\", \"힜\", \"넹\", \"¹\", \"ㅁ\", \"팹\", \"Ⅹ\", \"�\", \"ⅳ\", \"②\", \"⑸\", \":\", \"츈\", \"쌉\", \"ⓔ\", \"뗀\", \"㉠\", \"ㄱ\", \"ㆍ\", \"ㅢ\", \"퍙\", \"ㅈ\", \"㎡\", \"ㅋ\", \"ㅑ\", \"梁\", \"쒀\", \"⑨\", \"ㅓ\", \"뜹\", \"靈\", \"」\", \"빳\", \"Ⅸ\", \"ㅕ\", \"陸\", \"렜\", \"쓕\", \"궜\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"웖\", \"뾱\", \"㉿\", \"‥\", \" \", \"樂\", \"流\", \"​\", \"쫒\", \"v\", \"⑤\", \"ㅍ\", \"?\", \"픕\", \"理\", \"왘\", \"ㅆ\", \"튿\", \"튄\", \",\", \"쫗\", \"ㅘ\", \":\", \"⑹\", \"흄\", \"%\", \"짢\", \"|\", \"⑥\", \"귈\", \"金\", \"뮐\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"폍\", \"뭥\", \"⑦\", \"ⅱ\", \"ⅰ\", \"탰\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"휙\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"뼘\", \"Ⅴ\", \"흗\", \"ㅎ\", \"\", \"㎥\", \"識\", \"믐\", \"Ⅳ\", \"(\", \"s\", \"솨\", \"꿕\", \"樂\", \"얍\", \"!\", \"삘\", \"㉰\", \"ㅟ\", \"쾨\", \"良\", \"?\"]", - "reversible": false - }, - "OrionStarAI/Orion-14B-Chat @ cc100/zh-Hans": { - "tokenizer": "Orion-14B-Chat", - "organization": "OrionStar", - "vocab_size": 84608, - "_n_bytes": 2633047, - "_n_tokens": 529926, - "_n_chars": 927311, - "_n_oov_chars": 24523, - "oov_ratio": 0.026445281033008344, - "_oov_charset": "[\"a\", \"]\", \"③\", \"5\", \"n\", \" \", \"9\", \"⒀\", \"C\", \".\", \"⑩\", \"\", \")\", \"p\", \"t\", \"⑶\", \"-\", \"V\", \"4\", \"…\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"7\", \",\", \"h\", \"�\", \"・\", \"②\", \"⑸\", \":\", \"r\", \"3\", \"\\u0000\", \"+\", \"⒂\", \"e\", \"8\", \"⑨\", \"\\u0005\", \"&\", \"A\", \"\\b\", \"⑿\", \"\\u0006\", \"_\", \"2\", \" \", \"​\", \"⑤\", \"?\", \",\", \"T\", \":\", \"0\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \";\", \"⒃\", \"⑦\", \"[\", \"i\", \"⒋\", \")\", \"6\", \""\", \"1\", \"\\u0007\", \"(\", \"(\", \"s\", \"!\", \"N\", \"④\"]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/ar": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 2813283, - "_n_tokens": 614959, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/de": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1814876, - "_n_tokens": 503561, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"̈\", \"u\"]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/en": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1124813, - "_n_tokens": 257983, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen-7B-Chat @ cc100/es": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1664455, - "_n_tokens": 434264, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen-7B-Chat @ cc100/fa": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 2054052, - "_n_tokens": 643421, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/fr": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1540504, - "_n_tokens": 413637, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/ja": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1774770, - "_n_tokens": 377144, - "_n_chars": 603065, - "_n_oov_chars": 463, - "oov_ratio": 0.000767744770464212, - "_oov_charset": "[\"と\", \"シ\", \"せ\", \"ハ\", \"す\", \"つ\", \"て\", \"゚\", \"ひ\", \"は\", \"フ\", \"へ\", \"か\", \"た\", \"し\", \"コ\", \"ス\", \"く\", \"ヒ\", \"ト\", \"゙\", \"ふ\", \"ホ\"]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/ko": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 1524839, - "_n_tokens": 457492, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"立\", \"累\", \"龍\", \"識\", \"理\", \"梁\", \"金\", \"女\", \"樂\", \"靈\", \"樂\", \"不\", \"流\", \"陸\", \"良\"]", - "reversible": false - }, - "Qwen/Qwen-7B-Chat @ cc100/zh-Hans": { - "tokenizer": "Qwen", - "organization": "Alibaba", - "vocab_size": 151851, - "_n_bytes": 2633047, - "_n_tokens": 589211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/ar": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2813283, - "_n_tokens": 614959, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/de": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1814876, - "_n_tokens": 503561, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"̈\", \"u\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/en": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1124813, - "_n_tokens": 257983, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/es": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1664455, - "_n_tokens": 434264, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/fa": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2054052, - "_n_tokens": 643421, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/fr": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1540504, - "_n_tokens": 413637, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/ja": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1774770, - "_n_tokens": 377144, - "_n_chars": 603065, - "_n_oov_chars": 463, - "oov_ratio": 0.000767744770464212, - "_oov_charset": "[\"と\", \"シ\", \"せ\", \"ハ\", \"す\", \"つ\", \"て\", \"゚\", \"ひ\", \"は\", \"フ\", \"へ\", \"か\", \"た\", \"し\", \"コ\", \"ス\", \"く\", \"ヒ\", \"ト\", \"゙\", \"ふ\", \"ホ\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/ko": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1524839, - "_n_tokens": 457492, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"立\", \"累\", \"龍\", \"識\", \"理\", \"梁\", \"金\", \"女\", \"樂\", \"靈\", \"樂\", \"不\", \"流\", \"陸\", \"良\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B-Chat @ cc100/zh-Hans": { - "tokenizer": "Qwen1.5", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2633047, - "_n_tokens": 589211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/ar": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2813283, - "_n_tokens": 1422065, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/de": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1814876, - "_n_tokens": 527308, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/en": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1124813, - "_n_tokens": 284617, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/es": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1664455, - "_n_tokens": 482211, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/fa": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2054052, - "_n_tokens": 1145072, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/fr": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1540504, - "_n_tokens": 447233, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/ja": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1774770, - "_n_tokens": 593613, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/ko": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1524839, - "_n_tokens": 952744, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-Math @ cc100/zh-Hans": { - "tokenizer": "Skywork-13B-Math", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2633047, - "_n_tokens": 653923, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/ar": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2813283, - "_n_tokens": 1422065, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/de": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1814876, - "_n_tokens": 527308, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/en": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1124813, - "_n_tokens": 284617, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/es": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1664455, - "_n_tokens": 482211, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/fa": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2054052, - "_n_tokens": 1145072, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/fr": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1540504, - "_n_tokens": 447233, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/ja": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1774770, - "_n_tokens": 593613, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/ko": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 1524839, - "_n_tokens": 952744, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Skywork/Skywork-13B-base @ cc100/zh-Hans": { - "tokenizer": "Skywork-13B-base", - "organization": "Kunlun", - "vocab_size": 65519, - "_n_bytes": 2633047, - "_n_tokens": 653923, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm-6b @ cc100/ar": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 2813283, - "_n_tokens": 1077200, - "_n_chars": 1560987, - "_n_oov_chars": 767, - "oov_ratio": 0.0004913557896382225, - "_oov_charset": "[\"‏\", \"…\", \"″\", \"‎\", \"\", \"�\", \"
\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"​\", \"‌\", \"ﻷ\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/de": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1814876, - "_n_tokens": 569464, - "_n_chars": 1784021, - "_n_oov_chars": 524, - "oov_ratio": 0.0002937185156452755, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/en": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1124813, - "_n_tokens": 264761, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"�\", \"´\", \"‑\", \"⑧\", \"​\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/es": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1664455, - "_n_tokens": 494848, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/fa": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 2054052, - "_n_tokens": 890808, - "_n_chars": 1145876, - "_n_oov_chars": 7690, - "oov_ratio": 0.006711022833186139, - "_oov_charset": "[\"‏\", \"…\", \"‎\", \"\", \" \", \"�\", \"ﮧ\", \"‍\", \"​\", \"‌\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/fr": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1540504, - "_n_tokens": 479261, - "_n_chars": 1484970, - "_n_oov_chars": 870, - "oov_ratio": 0.0005858704216246792, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/ja": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1774770, - "_n_tokens": 469930, - "_n_chars": 603065, - "_n_oov_chars": 7222, - "oov_ratio": 0.011975491862402892, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"つ\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"④\", \"し\", \"I\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"-\", \"V\", \"4\", \"て\", \"Z\", \"…\", \"¥\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"コ\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ホ\", \"ウ\", \"r\", \"せ\", \"3\", \"゚\", \"す\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"\\b\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"​\", \"ス\", \"B\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \"T\", \"l\", \":\", \"0\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"゚\", \"ひ\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/ko": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 1524839, - "_n_tokens": 919630, - "_n_chars": 655190, - "_n_oov_chars": 1337, - "oov_ratio": 0.002040629435736199, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"*\", \"ㄷ\", \"@\", \"‎\", \"ㅜ\", \"?\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"․\", \"ㅝ\", \"Ⅱ\", \"ㄹ\", \"\", \"Ⅶ\", \"㏊\", \"Ⅵ\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"�\", \"②\", \"⑸\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"‍\", \"ㅢ\", \"ㅈ\", \"ㅋ\", \"㎡\", \"ㅑ\", \"梁\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"‥\", \" \", \"樂\", \"流\", \"​\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"ㅆ\", \"ㅘ\", \":\", \"⑹\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"⑦\", \"ⅱ\", \"ⅰ\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"ㅎ\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"④\"]", - "reversible": false - }, - "THUDM/chatglm-6b @ cc100/zh-Hans": { - "tokenizer": "chatglm-6b", - "organization": "Tsinghua", - "vocab_size": 130344, - "_n_bytes": 2633047, - "_n_tokens": 507384, - "_n_chars": 927311, - "_n_oov_chars": 68481, - "oov_ratio": 0.07384901074181154, - "_oov_charset": "[\"a\", \" \", \"]\", \"③\", \"5\", \"n\", \" \", \"9\", \"⒀\", \"C\", \"?\", \".\", \"⑩\", \"\", \"p\", \"t\", \"⑶\", \"-\", \"V\", \"4\", \"…\", \"℃\", \"①\", \"o\", \"d\", \"⒁\", \"⑷\", \"D\", \"7\", \",\", \"h\", \"�\", \"・\", \"②\", \"⑸\", \"r\", \"3\", \"+\", \"⒂\", \"e\", \"8\", \"⑨\", \"\\u0005\", \"&\", \"A\", \"\\b\", \"⑿\", \"\\u0006\", \"_\", \"2\", \" \", \"​\", \"⑤\", \"T\", \":\", \"0\", \"%\", \"⑥\", \"/\", \"⒌\", \"⑴\", \"⑧\", \"⒃\", \"⑦\", \"[\", \"i\", \"⒋\", \"!\", \")\", \"6\", \""\", \";\", \"1\", \"\\u0007\", \"(\", \"s\", \"N\", \"④\"]", - "reversible": false - }, - "THUDM/chatglm2-6b @ cc100/ar": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 2813283, - "_n_tokens": 1421847, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/de": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1814876, - "_n_tokens": 619757, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/en": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1124813, - "_n_tokens": 269329, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/es": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1664455, - "_n_tokens": 546476, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/fa": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 2054052, - "_n_tokens": 1145051, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/fr": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1540504, - "_n_tokens": 495028, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/ja": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1774770, - "_n_tokens": 581380, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/ko": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 1524839, - "_n_tokens": 652156, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm2-6b @ cc100/zh-Hans": { - "tokenizer": "chatglm2-6b", - "organization": "Tsinghua", - "vocab_size": 64787, - "_n_bytes": 2633047, - "_n_tokens": 563646, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm3-6b @ cc100/ar": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 2813283, - "_n_tokens": 1421847, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm3-6b @ cc100/de": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1814876, - "_n_tokens": 619822, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "THUDM/chatglm3-6b @ cc100/en": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1124813, - "_n_tokens": 269347, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "THUDM/chatglm3-6b @ cc100/es": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1664455, - "_n_tokens": 546501, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "THUDM/chatglm3-6b @ cc100/fa": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 2054052, - "_n_tokens": 1145051, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm3-6b @ cc100/fr": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1540504, - "_n_tokens": 495052, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "THUDM/chatglm3-6b @ cc100/ja": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1774770, - "_n_tokens": 581380, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "THUDM/chatglm3-6b @ cc100/ko": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 1524839, - "_n_tokens": 652160, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "THUDM/chatglm3-6b @ cc100/zh-Hans": { - "tokenizer": "chatglm3-6b", - "organization": "Tsinghua", - "vocab_size": 64796, - "_n_bytes": 2633047, - "_n_tokens": 563646, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ar": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 2813283, - "_n_tokens": 1422070, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/de": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1814876, - "_n_tokens": 528918, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/en": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1124813, - "_n_tokens": 285652, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/es": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1664455, - "_n_tokens": 482553, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/fa": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 2054052, - "_n_tokens": 1145046, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/fr": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1540504, - "_n_tokens": 447372, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ja": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1774770, - "_n_tokens": 567792, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ko": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 1524839, - "_n_tokens": 793053, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-13b-chat-v2 @ cc100/zh-Hans": { - "tokenizer": "tigerbot-13b-chat-v2", - "organization": "Tigerobo", - "vocab_size": 60515, - "_n_bytes": 2633047, - "_n_tokens": 577385, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ar": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 2813283, - "_n_tokens": 1422073, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/de": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1814876, - "_n_tokens": 529170, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/en": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1124813, - "_n_tokens": 286946, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/es": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1664455, - "_n_tokens": 484099, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/fa": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 2054052, - "_n_tokens": 1145048, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/fr": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1540504, - "_n_tokens": 448567, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ja": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1774770, - "_n_tokens": 406571, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ko": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 1524839, - "_n_tokens": 484082, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/zh-Hans": { - "tokenizer": "tigerbot-70b-chat-v4-4k", - "organization": "Tigerobo", - "vocab_size": 65110, - "_n_bytes": 2633047, - "_n_tokens": 577211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/ar": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 1396319, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/de": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 567526, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/en": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 275801, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/es": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 503915, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/fa": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 1123278, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/fr": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 466666, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/ja": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 675134, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/ko": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 718766, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Upstage/SOLAR-10.7B-v1.0 @ cc100/zh-Hans": { - "tokenizer": "SOLAR-10.7B-v1.0", - "organization": "-", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1031023, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/ar": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 2813283, - "_n_tokens": 1195640, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/de": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1814876, - "_n_tokens": 620541, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/en": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1124813, - "_n_tokens": 288965, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/es": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1664455, - "_n_tokens": 530592, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/fa": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 2054052, - "_n_tokens": 851630, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/fr": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1540504, - "_n_tokens": 509958, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/ja": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1774770, - "_n_tokens": 546876, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/ko": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 1524839, - "_n_tokens": 580873, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "WizardLM/WizardCoder-15B-V1.0 @ cc100/zh-Hans": { - "tokenizer": "WizardCoder-15B-V1.0", - "organization": "Microsoft", - "vocab_size": 49153, - "_n_bytes": 2633047, - "_n_tokens": 882018, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ar": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/de": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/en": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/es": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/fa": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/fr": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ja": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ko": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/zh-Hans": { - "tokenizer": "WizardCoder-Python-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/ar": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/de": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/en": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/es": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/fa": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/fr": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/ja": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/ko": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardLM-7B-V1.0 @ cc100/zh-Hans": { - "tokenizer": "WizardLM-7B-V1.0", - "organization": "Microsoft", - "vocab_size": 32001, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/ar": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/de": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/en": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/es": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/fa": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/fr": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/ja": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/ko": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "WizardLM/WizardMath-70B-V1.0 @ cc100/zh-Hans": { - "tokenizer": "WizardMath-70B-V1.0", - "organization": "Microsoft", - "vocab_size": 32002, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/ar": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 2809195, - "_n_chars": 1560987, - "_n_oov_chars": 1250131, - "oov_ratio": 0.8008593281045903, - "_oov_charset": "[\"م\", \"©\", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"à\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"ذ\", \"خ\", \"“\", \"ۤ\", \"د\", \"۰\", \"٨\", \"τ\", \"▫\", \"®\", \"\", \"٦\", \"
\", \"ْ\", \"’\", \"ٌ\", \"😊\", \"ج\", \"█\", \"¡\", \"‹\", \"‏\", \"♥\", \"ن\", \"χ\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"”\", \"ئ\", \"٪\", \"پ\", \"ۗ\", \"ٹ\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"ك\", \"٢\", \"ٰ\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"μ\", \"—\", \"α\", \"١\", \"ö\", \"و\", \"é\", \"–\", \"‌\", \"»\", \"Х\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"‘\", \"٥\", \"ﻹ\", \"ـ\", \"«\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"ه\", \"ﻷ\", \"ؤ\", \"•\", \"أ\", \"ز\", \"٤\", \"ل\", \"ء\", \"ή\", \"″\", \"ä\", \"ص\", \"ّ\", \"ث\", \"η\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/de": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 1807780, - "_n_chars": 1784021, - "_n_oov_chars": 26647, - "oov_ratio": 0.01493648337099171, - "_oov_charset": "[\"©\", \"İ\", \"ς\", \"➔\", \" \", \"¿\", \"à\", \"☺\", \"ć\", \"·\", \"¼\", \"😃\", \"è\", \"‎\", \"–\", \"Ø\", \"‚\", \"“\", \"😦\", \"τ\", \"û\", \"°\", \"å\", \"’\", \"ó\", \"€\", \"\", \"‹\", \"č\", \"£\", \"á\", \"♥\", \"−\", \"â\", \"”\", \"œ\", \"ç\", \"ε\", \"Ã\", \"ρ\", \"😉\", \"„\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"¹\", \"ú\", \"“\", \"™\", \"ń\", \"½\", \"≠\", \"ί\", \"̈\", \"🙂\", \"♡\", \"😂\", \"↩\", \"—\", \"É\", \"α\", \"ι\", \"ö\", \"¬\", \"😈\", \"é\", \"–\", \"»\", \"ė\", \"›\", \"🙄\", \"Ö\", \"ü\", \"😆\", \"​\", \"ø\", \"‘\", \"ß\", \"ā\", \"😢\", \"´\", \"ô\", \"«\", \"ớ\", \"„\", \"Á\", \"•\", \"²\", \"¤\", \"­\", \"š\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"♦\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/en": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 1121413, - "_n_chars": 1121360, - "_n_oov_chars": 1703, - "oov_ratio": 0.0015186915887850467, - "_oov_charset": "[\"—\", \"③\", \"¡\", \"£\", \"⑧\", \"¦\", \"”\", \"•\", \"è\", \"⑦\", \"”\", \"‑\", \"é\", \"–\", \"»\", \"“\", \"😉\", \"ï\", \"®\", \"😥\", \"​\", \"⑤\", \"‘\", \"ñ\", \"⑩\", \"\", \"“\", \"´\", \"’\", \"\", \"«\", \"🙂\", \"ó\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/es": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 1658946, - "_n_chars": 1630297, - "_n_oov_chars": 31423, - "oov_ratio": 0.01927440214881092, - "_oov_charset": "[\"✓\", \"М\", \"©\", \"€\", \"′\", \"—\", \"É\", \"¡\", \"ý\", \"Á\", \"„\", \"¿\", \"á\", \"️\", \"à\", \"ô\", \"ö\", \"•\", \"·\", \"í\", \"è\", \"²\", \"”\", \"é\", \"–\", \"­\", \"▷\", \"»\", \"Í\", \"‘\", \"“\", \"😦\", \"😉\", \"ò\", \"ü\", \"🙁\", \"👍\", \"º\", \"®\", \"ª\", \"’\", \"ø\", \"ñ\", \"Ñ\", \"‘\", \"°\", \"✪\", \"″\", \"ú\", \"✔\", \"\", \"―\", \"Ú\", \"👏\", \"´\", \"’\", \"«\", \"Ó\", \"🙂\", \"✖\", \"ó\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/fa": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 2036715, - "_n_chars": 1145876, - "_n_oov_chars": 899514, - "oov_ratio": 0.7850011694110008, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"ب\", \"·\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"“\", \"د\", \"۰\", \"٨\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"’\", \"۱\", \"ٴ\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"♥\", \"ن\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"”\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"ظ\", \"ح\", \"ت\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"–\", \"‌\", \"»\", \"ڪ\", \"›\", \"؛\", \"ב\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"‘\", \"٥\", \"٫\", \"ـ\", \"«\", \"ٍ\", \"ش\", \"س\", \"۷\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"ه\", \"ؤ\", \"•\", \"ز\", \"أ\", \"٤\", \"­\", \"ل\", \"ء\", \"گ\", \"۴\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/fr": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 1524129, - "_n_chars": 1484970, - "_n_oov_chars": 47360, - "oov_ratio": 0.031892900193269895, - "_oov_charset": "[\"€\", \"—\", \"É\", \"♠\", \"Â\", \"à\", \"ô\", \"Î\", \"•\", \"·\", \"í\", \"è\", \"ù\", \"²\", \"À\", \"â\", \"̧\", \"℃\", \"ğ\", \"”\", \"́\", \"é\", \"µ\", \"œ\", \"–\", \"­\", \"»\", \"ç\", \"ë\", \"î\", \"“\", \"😉\", \"ã\", \"ü\", \"Ê\", \"ï\", \"‐\", \"û\", \"®\", \"🤔\", \"♕\", \"’\", \"°\", \"ê\", \"‘\", \"″\", \"…\", \"Ô\", \"ä\", \"™\", \"È\", \"―\", \"´\", \"’\", \"«\", \"̂\", \"Ç\", \"🙂\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/ja": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 410803, - "_n_chars": 603065, - "_n_oov_chars": 1612, - "oov_ratio": 0.002673012030212332, - "_oov_charset": "[\"©\", \"ー\", \" \", \"③\", \"嶽\", \"兎\", \"ア\", \"ㅂ\", \"∀\", \"垠\", \"─\", \"✨\", \"〆\", \"ハ\", \"フ\", \"“\", \"゙\", \"๑\", \"嚥\", \"\", \"®\", \"曰\", \"ゞ\", \"欝\", \"〈\", \"Ⅱ\", \"⑩\", \"😭\", \"カ\", \"Ⅶ\", \"’\", \"*\", \"國\", \"😊\", \"⇒\", \"應\", \"冨\", \"彌\", \"龍\", \"−\", \"¥\", \"纒\", \"⑪\", \"🌙\", \"℃\", \"”\", \"①\", \"▷\", \"ヶ\", \"ε\", \"《\", \"︎\", \"\", \"◯\", \"ゥ\", \"澤\", \"‐\", \"﨑\", \"〇\", \"😌\", \"ロ\", \"Ⅹ\", \"※\", \"・\", \"②\", \"∇\", \"̈\", \"做\", \"♡\", \"゚\", \"μ\", \"—\", \"藁\", \"壬\", \"ヨ\", \"⇔\", \"و\", \"頬\", \"́\", \"。\", \"」\", \"o\", \"–\", \"»\", \"‼\", \"⻑\", \"㎞\", \"「\", \"💦\", \"舘\", \"コ\", \" \", \"​\", \"̀\", \"-\", \"〉\", \"😢\", \"゙\", \"´\", \"⌒\", \"«\", \"嶋\", \"ィ\", \"ω\", \"〝\", \"屓\", \"メ\", \"リ\", \"》\", \"⑧\", \"〟\", \";\", \"叱\", \"•\", \"堺\", \"゚\", \"剥\", \"β\", \"`\", \" ̄\", \"レ\", \"♫\", \"渕\", \"填\", \";\", \"Д\", \"テ\", \"″\", \"―\", \"凛\", \"✧\", \"ノ\", \"ヘ\", \"、\", \"◡\", \"ウ\", \"④\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/ko": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 1512832, - "_n_chars": 655190, - "_n_oov_chars": 433188, - "oov_ratio": 0.6611639371785284, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"빈\", \"갈\", \"싱\", \"체\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"德\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"😂\", \"별\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"專\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"′\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"⑵\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"퍙\", \"루\", \"붐\", \"女\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"£\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"學\", \"툼\", \"컸\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"춘\", \"깔\", \"총\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"•\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"⬇\", \"멕\", \"↕\", \"않\", \"츈\", \"텁\", \"μ\", \"피\", \"읊\", \"명\", \"뿜\", \"흑\", \"딘\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"經\", \"♤\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"渴\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"션\", \"히\", \"벚\", \"歲\", \"’\", \"즙\", \"뺀\", \"쳤\", \"준\", \"얏\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"±\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"깨\", \"솨\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"겹\", \"엉\", \"룰\", \"녘\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"급\", \"누\", \"밟\", \"셰\", \"©\", \"戊\", \"맷\", \"💥\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"문\", \"✔\", \"군\", \"픔\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"자\", \"널\", \"눅\", \"의\", \"〈\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"볍\", \"國\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"훨\", \"걸\", \"돠\", \"🌵\", \"서\", \"숭\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"α\", \"앰\", \"림\", \"혹\", \"»\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"〉\", \"왘\", \"흄\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"敎\", \"냉\", \"힙\", \"팽\", \"헝\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"넌\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"몸\", \"쥬\", \"—\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"톨\", \"냈\", \"푸\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"‘\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"툰\", \"쏠\", \"맵\", \"싫\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"챗\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"㉰\", \"본\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"《\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"ω\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"🙌\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"”\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"뜩\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"⑴\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"납\", \"므\", \"릉\", \"發\", \"텅\", \"우\", \"켐\", \"펠\", \"“\", \"랐\", \"습\", \"®\", \"강\", \"뛸\", \"색\", \"쌈\", \"€\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"》\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"🍎\", \"내\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"ᴀ\", \"놔\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"짊\", \"㏊\", \"젊\", \"將\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"큰\", \"폿\", \"옐\", \"징\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"게\", \"탬\", \"숨\", \"축\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"·\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"≤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"對\", \"삼\", \"착\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"」\", \"Ⅸ\", \"웹\", \"뤘\", \"龍\", \"팍\", \"곁\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"飮\", \"마\", \"탁\", \"內\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "abeja/gpt-neox-japanese-2.7b @ cc100/zh-Hans": { - "tokenizer": "gpt-neox-japanese-2.7b", - "organization": "ABEJA", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1049033, - "_n_chars": 927311, - "_n_oov_chars": 165802, - "oov_ratio": 0.17879869860273415, - "_oov_charset": "[\"嘎\", \"腾\", \"\", \"叨\", \"鱼\", \"⒀\", \"撬\", \"赌\", \"蕤\", \"皂\", \"湄\", \"當\", \"训\", \"玷\", \"词\", \"挈\", \"页\", \"吆\", \"\", \"贵\", \"贱\", \"德\", \"杆\", \"吮\", \"呸\", \"脯\", \"术\", \"谔\", \"尴\", \"继\", \"蒂\", \"蝌\", \"吱\", \"啤\", \"级\", \"蹦\", \"旖\", \"懂\", \"睹\", \"锡\", \"戍\", \"纱\", \"贴\", \"⒁\", \"渗\", \"饥\", \"聪\", \"蹩\", \"渐\", \"掂\", \"・\", \"⑸\", \"浏\", \"侣\", \"筷\", \"劑\", \"咦\", \"肿\", \"诀\", \"敛\", \"斩\", \"佬\", \"挣\", \"擘\", \"耩\", \"滚\", \"摧\", \"畴\", \"吴\", \"⑨\", \"灿\", \"泠\", \"调\", \"蓦\", \"谋\", \"哧\", \"项\", \"滢\", \"曦\", \"搡\", \"缉\", \"闹\", \"辄\", \"袒\", \"钦\", \"坯\", \"怎\", \"际\", \"谱\", \"锻\", \"氛\", \"揽\", \"佟\", \"质\", \"牺\", \"蓝\", \"漩\", \"填\", \"驳\", \"坷\", \"么\", \"妈\", \"―\", \"聆\", \"垒\", \"树\", \"这\", \"贫\", \"镏\", \"证\", \"冲\", \"菇\", \"荆\", \"挚\", \"楂\", \"闸\", \"离\", \"鬓\", \"记\", \"砸\", \"冈\", \"赃\", \"擞\", \"诶\", \"窿\", \"τ\", \"眨\", \"倨\", \"牵\", \"媳\", \"颌\", \"厌\", \"帘\", \"苇\", \"护\", \"氰\", \"窜\", \"愤\", \"驴\", \"诱\", \"丽\", \"黑\", \"软\", \"①\", \"邓\", \"椭\", \"遴\", \"惮\", \"业\", \"迈\", \"众\", \"哪\", \"鹰\", \"赏\", \"筛\", \"笋\", \"轻\", \"节\", \"雏\", \"删\", \"萝\", \"赅\", \"濒\", \"蛊\", \"顿\", \"润\", \"镀\", \"册\", \"风\", \"缩\", \"〖\", \"揍\", \"陡\", \"库\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"珏\", \"惦\", \"呐\", \"峥\", \"尔\", \"挠\", \"紧\", \"拯\", \"亵\", \"县\", \"偿\", \"衬\", \"撐\", \"检\", \"黏\", \"黧\", \"圆\", \"烬\", \"姣\", \"黩\", \"荨\", \"见\", \"踩\", \"闭\", \"炕\", \"笃\", \"找\", \"闻\", \"矗\", \"粱\", \"瘾\", \"罩\", \"岚\", \"據\", \"绍\", \"奂\", \"惬\", \"凉\", \"缥\", \"艋\", \"睐\", \"戳\", \"戾\", \"冯\", \"顺\", \"阀\", \"帕\", \"侧\", \"狱\", \"盖\", \"陈\", \"辉\", \"邬\", \"汩\", \"钩\", \"甯\", \"刘\", \"药\", \"钥\", \"忆\", \"镭\", \"嘻\", \"俞\", \"祛\", \"队\", \"沉\", \"颈\", \"锥\", \"烘\", \"陆\", \"憨\", \"荟\", \"芃\", \"喔\", \"庙\", \"樱\", \"惩\", \"贬\", \"轰\", \"竭\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"痫\", \"识\", \"瘠\", \"书\", \"跃\", \"耙\", \"抿\", \"蟑\", \"歼\", \"酿\", \"诨\", \"萦\", \"龟\", \"雯\", \"验\", \"耀\", \"阽\", \"鲎\", \"痊\", \"远\", \"绣\", \"开\", \"篮\", \"鸭\", \"彻\", \"墅\", \"练\", \"荫\", \"咱\", \"张\", \"姗\", \"嘟\", \"盎\", \"愣\", \"悚\", \"梭\", \"驮\", \"喷\", \"响\", \"桥\", \"玫\", \"〝\", \"俩\", \"瑒\", \"终\", \"•\", \"毋\", \"尝\", \"砍\", \"挤\", \"荣\", \"疮\", \"鹌\", \"笼\", \"诊\", \"铜\", \"扛\", \"赣\", \"撅\", \"邻\", \"份\", \"蓟\", \" \", \"郸\", \"锄\", \"逾\", \"垠\", \"壳\", \"庐\", \"梦\", \"沾\", \"增\", \"饰\", \"Ø\", \"强\", \"窥\", \"辗\", \"陕\", \"咕\", \"懑\", \"驼\", \"暧\", \"缓\", \"闪\", \"疴\", \"歉\", \"窗\", \"衔\", \"产\", \"鹈\", \"ὐ\", \"镜\", \"胁\", \"骆\", \"孽\", \"赋\", \"冰\", \"轮\", \"阵\", \"阔\", \"巅\", \"亟\", \"岌\", \"谩\", \"债\", \"聒\", \"圣\", \"丧\", \"插\", \"跤\", \"镳\", \"噱\", \"热\", \"谴\", \"伦\", \"劝\", \"啥\", \"凤\", \"驰\", \"陷\", \"惕\", \"孀\", \"违\", \"馍\", \"咐\", \"庆\", \"场\", \"竞\", \"绑\", \"氮\", \"巢\", \"诵\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"划\", \"锅\", \"卷\", \"棵\", \"观\", \"哟\", \"缚\", \"洼\", \"贼\", \"铸\", \"剑\", \"剂\", \"欸\", \"弹\", \"歹\", \"备\", \"鲜\", \"桌\", \"纾\", \"饼\", \"趋\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"渎\", \"扑\", \"莲\", \"抬\", \"铁\", \"层\", \"睽\", \"浠\", \"两\", \"陇\", \"秽\", \"犄\", \"谐\", \"假\", \"赵\", \"铛\", \"耸\", \"⑩\", \"’\", \"腭\", \"苒\", \"剐\", \"乒\", \"莘\", \"螃\", \"揭\", \"嘈\", \"旆\", \"纬\", \"栅\", \"胶\", \"魇\", \"杨\", \"摆\", \"毁\", \"旎\", \"逛\", \"谜\", \"汇\", \"蜒\", \"\", \"兢\", \"绳\", \"炖\", \"躺\", \"邮\", \"绘\", \"乓\", \"诅\", \"飘\", \"尬\", \"磺\", \"嗨\", \"辐\", \"录\", \"缝\", \"摊\", \"權\", \"结\", \"覃\", \"睿\", \"鹃\", \"霭\", \"撷\", \"喽\", \"磕\", \"撕\", \"审\", \"赠\", \"邹\", \"营\", \"宪\", \"赢\", \"嚣\", \"潇\", \"赘\", \"逑\", \"拣\", \"崽\", \"题\", \"拖\", \"佘\", \"础\", \"达\", \"掰\", \"挲\", \"〗\", \"谢\", \"粼\", \"杀\", \"遗\", \"囊\", \"辑\", \"夺\", \"蹒\", \"兑\", \"瘦\", \"须\", \"读\", \"馋\", \"弃\", \"稻\", \"腻\", \"坠\", \"盹\", \"羔\", \"犹\", \"榄\", \"默\", \"泻\", \"币\", \"讦\", \"④\", \"丢\", \"翕\", \"牠\", \"飙\", \"饨\", \"骤\", \"较\", \"阑\", \"惯\", \"侬\", \"灶\", \"靓\", \"靶\", \"垮\", \"晚\", \"氨\", \"鸥\", \"朵\", \"呗\", \"骛\", \"职\", \"樯\", \"负\", \"瞧\", \"咔\", \"讳\", \"嘤\", \"嘛\", \"诣\", \"谣\", \"严\", \"颉\", \"睑\", \"骏\", \"芷\", \"铝\", \"鹅\", \"毕\", \"谓\", \"莓\", \"粪\", \"涤\", \"烦\", \"凯\", \"茏\", \"趁\", \"聋\", \"℃\", \"疯\", \"瓷\", \"荧\", \"轴\", \"毡\", \"懵\", \"忪\", \"„\", \"罚\", \"纺\", \"捡\", \"效\", \"茵\", \"蓁\", \"执\", \"铂\", \"瞩\", \"险\", \"铨\", \"惴\", \"圈\", \"构\", \"萧\", \"嵘\", \"亂\", \"肤\", \"踢\", \"尧\", \"导\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"厂\", \"郜\", \"汤\", \"勋\", \"颖\", \"ê\", \"骇\", \"账\", \"盯\", \"显\", \"儿\", \"瑄\", \"缀\", \"决\", \"⒌\", \"俱\", \"吩\", \"铃\", \"ù\", \"瑢\", \"过\", \"链\", \"璀\", \"讨\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"剧\", \"摔\", \"览\", \"棱\", \"洁\", \"哗\", \"抢\", \"©\", \"寻\", \"咪\", \"苹\", \"膛\", \"萨\", \"镑\", \"嗡\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"擀\", \"呦\", \"估\", \"值\", \"辫\", \"岛\", \"坚\", \"饶\", \"莺\", \"绊\", \"暨\", \"驱\", \"击\", \"晓\", \"锁\", \"厮\", \"纷\", \"婶\", \"纲\", \"劲\", \"扪\", \"骁\", \"锌\", \"补\", \"氧\", \"岗\", \"缄\", \"亩\", \"伞\", \"遢\", \"丐\", \"馆\", \"跑\", \"怀\", \"叼\", \"惋\", \"狳\", \"挎\", \"绽\", \"辈\", \"计\", \"碳\", \"冻\", \"涡\", \"瞎\", \"枪\", \"é\", \"淅\", \"钉\", \"⑿\", \"胫\", \"祢\", \"瓣\", \"报\", \"诚\", \"骼\", \"雾\", \"纽\", \"亿\", \"\", \"户\", \"阱\", \"戏\", \"黢\", \"爰\", \"觉\", \"娄\", \"预\", \"躲\", \"剥\", \"簇\", \"抖\", \"惘\", \"賣\", \"娇\", \"陨\", \"啬\", \"铲\", \"唬\", \"颇\", \"矶\", \"剁\", \"帅\", \"韩\", \"岂\", \"鸟\", \"兹\", \"浓\", \"辽\", \"碰\", \"艺\", \"查\", \"摄\", \"霉\", \"农\", \"侥\", \"盼\", \"济\", \"扰\", \"歧\", \"辙\", \"鼯\", \"缸\", \"极\", \"屣\", \"译\", \"谁\", \"馁\", \"觑\", \"靛\", \"铤\", \"甩\", \"俏\", \"妆\", \"贾\", \"〈\", \"摞\", \"霸\", \"郴\", \"异\", \"狞\", \"蛔\", \"粹\", \"铄\", \"处\", \"擎\", \"优\", \"á\", \"凿\", \"飞\", \"吓\", \"烂\", \"抠\", \"穰\", \"璨\", \"忧\", \"妇\", \"伤\", \"碎\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"婊\", \"绒\", \"疤\", \"搁\", \"课\", \"扳\", \"斋\", \"做\", \"峭\", \"销\", \"阂\", \"α\", \"胀\", \"论\", \"怵\", \"灭\", \"纹\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"汛\", \"苍\", \"颤\", \"壑\", \"诃\", \"»\", \"酝\", \"赖\", \"蔼\", \"睁\", \"鹤\", \"缔\", \"阐\", \" \", \"厅\", \"〉\", \"犁\", \"鸩\", \"瘀\", \"线\", \"栋\", \"讥\", \"俪\", \"⑧\", \"另\", \"环\", \"胳\", \"鲤\", \"拂\", \"柜\", \"韵\", \"卢\", \"楞\", \"龄\", \"齿\", \"袭\", \"闾\", \"窝\", \"诸\", \"姆\", \"则\", \"惊\", \"拽\", \"悯\", \"败\", \"谛\", \"擤\", \"ς\", \"③\", \"琐\", \"沥\", \"别\", \"锲\", \"噼\", \"鸠\", \"罄\", \"搅\", \"捍\", \"暄\", \"淌\", \"榆\", \"碱\", \"漪\", \"厢\", \"嘣\", \"皱\", \"恺\", \"煲\", \"栈\", \"壤\", \"傻\", \"寰\", \"馕\", \"籁\", \"杰\", \"诩\", \"啡\", \"趟\", \"扔\", \"澜\", \"啕\", \"墙\", \"烧\", \"磅\", \"钧\", \"嗲\", \"脸\", \"锤\", \"讪\", \"氢\", \"适\", \"玛\", \"讲\", \"髓\", \"卻\", \"垃\", \"馒\", \"耍\", \"槛\", \"厕\", \"赞\", \"—\", \"竖\", \"针\", \"贝\", \"袜\", \"赔\", \"绞\", \"拨\", \"扎\", \"泾\", \"\", \"墉\", \"吭\", \"屉\", \"龚\", \"颧\", \"锏\", \"踹\", \"‘\", \"涣\", \"标\", \"颂\", \"熙\", \"泪\", \"篡\", \"涌\", \"羡\", \"铩\", \"贡\", \"旳\", \"每\", \"选\", \"钝\", \"ο\", \"萤\", \"诉\", \"溯\", \"嚷\", \"瑧\", \"约\", \"癜\", \"噩\", \"脑\", \"绉\", \"娴\", \"诈\", \"谧\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"扣\", \"锂\", \"捂\", \"肮\", \"闯\", \"藏\", \"怕\", \"诠\", \"瞟\", \"桢\", \"叠\", \"窍\", \"吊\", \"斌\", \"炅\", \"涉\", \"刚\", \"攥\", \"纤\", \"牖\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"兴\", \"篷\", \"硕\", \"纪\", \"崛\", \"哒\", \"释\", \"浇\", \"伫\", \"溪\", \"囤\", \"掀\", \"银\", \"鸦\", \"认\", \"蚪\", \"楣\", \"匆\", \"脖\", \"虽\", \"俨\", \"镉\", \"欢\", \"办\", \"涩\", \"迹\", \"跻\", \"攒\", \"诟\", \"臊\", \"î\", \"《\", \"减\", \"\", \"掐\", \"圩\", \"墒\", \"确\", \"栾\", \"恿\", \"畅\", \"砾\", \"甬\", \"炼\", \"芜\", \"亲\", \"耦\", \"猝\", \"蹭\", \"贤\", \"哑\", \"纰\", \"眶\", \"荡\", \"单\", \"车\", \"倾\", \"醛\", \"卫\", \"壹\", \"赡\", \"舍\", \"妞\", \"购\", \"晕\", \"勖\", \"棂\", \"诧\", \"轩\", \"仑\", \"售\", \"扒\", \"偎\", \"π\", \"坟\", \"炝\", \"载\", \"匾\", \"锋\", \"裳\", \"呕\", \"娛\", \"逊\", \"⑦\", \"块\", \"谍\", \"诲\", \"價\", \"莴\", \"偷\", \"泵\", \"谬\", \"舆\", \"肃\", \"军\", \"疗\", \"凛\", \"锚\", \"瑨\", \"∶\", \"蘑\", \"碟\", \"编\", \"篓\", \"灵\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"缪\", \"咏\", \"贷\", \"帜\", \"弈\", \"胧\", \"骅\", \"艰\", \"呜\", \"浞\", \"晖\", \"驶\", \"驿\", \"乔\", \"转\", \"宠\", \"习\", \"桩\", \"积\", \"夯\", \"踌\", \"翘\", \"媲\", \"郑\", \"锒\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"膊\", \"辅\", \"饷\", \"”\", \"钊\", \"倘\", \"呃\", \"孪\", \"衅\", \"烃\", \"溃\", \"搂\", \"涨\", \"凳\", \"义\", \"臃\", \"栏\", \"茁\", \"恶\", \"硅\", \"笆\", \"综\", \"讷\", \"滨\", \"净\", \"阴\", \"谦\", \"锐\", \"规\", \"奋\", \"鳌\", \"爸\", \"暂\", \"蚂\", \"恼\", \"鸡\", \"觅\", \"钓\", \"喱\", \"​\", \"亚\", \"喻\", \"让\", \"骄\", \"喆\", \"赂\", \"兰\", \"夹\", \"麽\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"⑴\", \"收\", \"飕\", \"怔\", \"遛\", \"况\", \"组\", \"货\", \"纠\", \"敌\", \"玳\", \"够\", \"俭\", \"织\", \"价\", \"哎\", \"骑\", \"钱\", \"沧\", \"淖\", \"皈\", \"吕\", \"权\", \"翱\", \"愿\", \" \", \"汹\", \"發\", \"摒\", \"辨\", \"湮\", \"─\", \"贮\", \"鹏\", \"宽\", \"带\", \"访\", \"“\", \"踱\", \"浆\", \"稳\", \"颐\", \"边\", \"婴\", \"辩\", \"柠\", \"韧\", \"钮\", \"谅\", \"虏\", \"豫\", \"蚌\", \"议\", \"扯\", \"嘿\", \"澈\", \"夸\", \"鹜\", \"壓\", \"评\", \"拢\", \"择\", \"脐\", \"岁\", \"忑\", \"临\", \"咚\", \"询\", \"缴\", \"图\", \"伪\", \"伉\", \"舰\", \"诫\", \"旷\", \"\", \"曾\", \"丫\", \"拦\", \"狮\", \"满\", \"掳\", \"缭\", \"绸\", \"瑥\", \"丝\", \"镶\", \"镕\", \"趴\", \"坝\", \"馅\", \"蚀\", \"聂\", \"啪\", \"骚\", \"谈\", \"蜕\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"矿\", \"摇\", \"喂\", \"浊\", \"绷\", \"唉\", \"剔\", \"》\", \"缺\", \"唤\", \"涂\", \"⒃\", \"慷\", \"财\", \"嘭\", \"韦\", \"瞄\", \"婪\", \"启\", \"锦\", \"猎\", \"搀\", \"榷\", \"坛\", \"缮\", \"瘙\", \"號\", \"惠\", \"矫\", \"钵\", \"还\", \"褂\", \"您\", \"抡\", \"薯\", \"传\", \"°\", \"贸\", \"颜\", \"归\", \"秆\", \"惶\", \"侨\", \"惫\", \"ě\", \"鹑\", \"柬\", \"爹\", \"孱\", \"协\", \"蜡\", \"跷\", \"吵\", \"盏\", \"遑\", \"馈\", \"误\", \"颓\", \"谚\", \"阅\", \"关\", \"挡\", \"闫\", \"专\", \"盐\", \"纳\", \"烯\", \"屄\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"撩\", \"橱\", \"仆\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"⒂\", \"鸣\", \"焯\", \"骗\", \"厉\", \"脏\", \"缅\", \"窦\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"鲸\", \"铺\", \"圾\", \"嗪\", \"屿\", \"戛\", \"贞\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"驻\", \"损\", \"哦\", \"污\", \"簧\", \"拥\", \"岔\", \"纨\", \"颊\", \"咙\", \"闺\", \"诙\", \"绥\", \"赶\", \"档\", \"盘\", \"刨\", \"鳃\", \"荐\", \"侄\", \"滥\", \"拧\", \"辖\", \"撸\", \"缈\", \"砖\", \"沦\", \"醉\", \"夭\", \"晗\", \"毙\", \"烁\", \"厝\", \"续\", \"饱\", \"给\", \"舱\", \"扭\", \"仿\", \"泼\", \"举\", \"错\", \"蹿\", \"抚\", \"仪\", \"沟\", \"掺\", \"肾\", \"滩\", \"莹\", \"榭\", \"猬\", \"势\", \"韪\", \"换\", \"轼\", \"瞅\", \"逻\", \"鸽\", \"闵\", \"坞\", \"垛\", \"姊\", \"臻\", \"祸\", \"帮\", \"掷\", \"驭\", \"霾\", \"轶\", \"肠\", \"唏\", \"听\", \"檐\", \"荤\", \"迩\", \"阶\", \"扫\", \"毗\", \"缠\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"–\", \"舔\", \"鹕\", \"资\", \"烷\", \"钢\", \"谊\", \"沪\", \"镍\", \"钰\", \"贯\", \"姐\", \"阎\", \"▪\", \"憋\", \"姬\", \"汉\", \"费\", \"运\", \"澡\", \"嗯\", \"啦\", \"从\", \"搐\", \"琼\", \"连\", \"狰\", \"咧\", \"帐\", \"屌\", \"闷\", \"痹\", \"虾\", \"渔\", \"顾\", \"霏\", \"缜\", \"仓\", \"岭\", \"绛\", \"颗\", \"骂\", \"蕴\", \"舀\", \"阁\", \"惭\", \"浑\", \"礴\", \"匮\", \"奖\", \"态\", \"谨\", \"创\", \"捅\", \"顷\", \"鲨\", \"灾\", \"桦\", \"匀\", \"顽\", \"·\", \"艳\", \"锣\", \"撇\", \"庞\", \"忡\", \"顶\", \"铎\", \"赚\", \"阳\", \"师\", \"狠\", \"薰\", \"曰\", \"氯\", \"赁\", \"锈\", \"拔\", \"馏\", \"韫\", \"啃\", \"疙\", \"寐\", \"絮\", \"绚\", \"鹉\", \"焕\", \"妒\", \"历\", \"缕\", \"颁\", \"佝\", \"莅\", \"锢\", \"彤\", \"稣\", \"ç\", \"沏\", \"买\", \"谆\", \"侦\", \"潢\", \"鸿\", \"倡\", \"跚\", \"瑑\", \"团\", \"※\", \"犷\", \"你\", \"讯\", \"试\", \"睬\", \"废\", \"撑\", \"养\", \"缘\", \"雳\", \"亏\", \"胜\", \"诬\", \"韬\", \"犰\", \"绰\", \"嫖\", \"鲍\", \"饿\", \"贩\", \"捆\", \"烊\", \"嗦\", \"痪\", \"捞\", \"煞\", \"获\", \"隐\", \"倜\", \"闲\", \"丛\", \"焊\", \"缆\", \"输\", \"伙\", \"联\", \"肓\", \"钞\", \"悬\", \"驾\", \"绵\", \"签\", \"穗\", \"溉\", \"摹\", \"瞪\", \"绕\", \"储\", \"罢\", \"垫\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"抨\", \"劳\", \"岖\", \"逶\", \"粮\", \"绝\", \"羁\", \"哇\", \"藕\", \"卖\", \"à\", \"胺\", \"啸\", \"饭\", \"蜿\", \"玮\", \"溅\", \"诡\", \"渲\", \"馄\", \"涮\", \"秃\", \"挖\", \"吨\", \"拜\", \"镇\", \"眯\", \"领\", \"许\", \"穷\", \"渍\", \"晤\", \"秸\", \"⑶\", \"挝\", \"伟\", \"键\", \"泽\", \"湃\", \"籽\", \"烟\", \"懒\", \"乡\", \"详\", \"铣\", \"讼\", \"筝\", \"烤\", \"藐\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"搜\", \"卤\", \"滤\", \"责\", \"娱\", \"钟\", \"偻\", \"饵\", \"鳞\", \"细\", \"齐\", \"镐\", \"笨\", \"孙\", \"焰\", \"酱\", \"谑\", \"测\", \"压\", \"脉\", \"瞒\", \"ό\", \"叮\", \"垄\", \"茧\", \"呛\", \"迤\", \"⑤\", \"佣\", \"瓜\", \"鹭\", \"塌\", \"赎\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"唷\", \"鳗\", \"杂\", \"鉴\", \"红\", \"桅\", \"娅\", \"裹\", \"熬\", \"⒋\", \"飓\", \"饮\", \"凑\", \"碴\", \"嗓\", \"內\", \"辕\", \"视\", \"马\", \"皑\", \"醋\", \"哥\", \"挥\", \"嘀\", \"鲁\", \"谭\", \"谎\", \"烛\", \"圜\"]", - "reversible": false - }, - "ai21labs/Jamba-v0.1 @ cc100/ar": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 2813283, - "_n_tokens": 717886, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/de": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1814876, - "_n_tokens": 525856, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/en": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1124813, - "_n_tokens": 264242, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/es": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1664455, - "_n_tokens": 410883, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/fa": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 2054052, - "_n_tokens": 722550, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/fr": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1540504, - "_n_tokens": 402899, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/ja": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1774770, - "_n_tokens": 673256, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/ko": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 1524839, - "_n_tokens": 705688, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ai21labs/Jamba-v0.1 @ cc100/zh-Hans": { - "tokenizer": "Jamba-v0.1", - "organization": "AI21", - "vocab_size": 65536, - "_n_bytes": 2633047, - "_n_tokens": 1057054, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "allenai/OLMo-7B @ cc100/ar": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 2813283, - "_n_tokens": 1106277, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/de": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1814876, - "_n_tokens": 583628, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"̈\", \"u\"]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/en": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1124813, - "_n_tokens": 259357, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/es": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1664455, - "_n_tokens": 494577, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/fa": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 2054052, - "_n_tokens": 866434, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/fr": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1540504, - "_n_tokens": 458961, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/ja": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1774770, - "_n_tokens": 605168, - "_n_chars": 603065, - "_n_oov_chars": 465, - "oov_ratio": 0.0007710611625612496, - "_oov_charset": "[\"と\", \"シ\", \"せ\", \"ハ\", \" \", \"す\", \"つ\", \"て\", \"゚\", \"ひ\", \"は\", \"フ\", \"へ\", \"か\", \"た\", \"し\", \"コ\", \"ス\", \"く\", \"ヒ\", \"ト\", \"゙\", \"ふ\", \"ホ\"]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/ko": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 1524839, - "_n_tokens": 973288, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"立\", \"累\", \"龍\", \"識\", \"理\", \"梁\", \"金\", \"女\", \"樂\", \"靈\", \"樂\", \"不\", \"流\", \"陸\", \"良\"]", - "reversible": false - }, - "allenai/OLMo-7B @ cc100/zh-Hans": { - "tokenizer": "OLMo-7B", - "organization": "Allen AI", - "vocab_size": 50280, - "_n_bytes": 2633047, - "_n_tokens": 1220529, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/ar": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 2813283, - "_n_tokens": 1422976, - "_n_chars": 1560987, - "_n_oov_chars": 767, - "oov_ratio": 0.0004913557896382225, - "_oov_charset": "[\"‏\", \"…\", \"″\", \"‎\", \"\", \"�\", \"
\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"​\", \"‌\", \"ﻷ\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/de": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1814876, - "_n_tokens": 680512, - "_n_chars": 1784021, - "_n_oov_chars": 524, - "oov_ratio": 0.0002937185156452755, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/en": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1124813, - "_n_tokens": 280108, - "_n_chars": 1121360, - "_n_oov_chars": 77, - "oov_ratio": 6.866661910537205e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"�\", \"´\", \"‑\", \"⑧\", \"​\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/es": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1664455, - "_n_tokens": 585804, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/fa": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 2054052, - "_n_tokens": 1142057, - "_n_chars": 1145876, - "_n_oov_chars": 7649, - "oov_ratio": 0.006675242347339502, - "_oov_charset": "[\"‏\", \"…\", \"‎\", \"\", \"�\", \"ﮧ\", \"​\", \"‌\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/fr": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1540504, - "_n_tokens": 540430, - "_n_chars": 1484970, - "_n_oov_chars": 870, - "oov_ratio": 0.0005858704216246792, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/ja": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1774770, - "_n_tokens": 591656, - "_n_chars": 603065, - "_n_oov_chars": 3814, - "oov_ratio": 0.006324359729050766, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \"③\", \"n\", \"つ\", \"*\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"し\", \"I\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"-\", \"V\", \"て\", \"Z\", \"…\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"コ\", \"F\", \"ゥ\", \">\", \"\\u001b\", \"m\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ホ\", \"ウ\", \"r\", \"せ\", \"゚\", \"す\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"\\b\", \"㎞\", \"「\", \"_\", \"J\", \"コ\", \"‥\", \" \", \"​\", \"ス\", \"B\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \"T\", \"l\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"゚\", \"ひ\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \")\", \";\", \"テ\", \"″\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"④\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/ko": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 1524839, - "_n_tokens": 639258, - "_n_chars": 655190, - "_n_oov_chars": 1330, - "oov_ratio": 0.002029945511988889, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"*\", \"ㄷ\", \"@\", \"‎\", \"ㅜ\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"․\", \"ㅝ\", \"Ⅱ\", \"ㄹ\", \"\", \"Ⅶ\", \"㏊\", \"Ⅵ\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"�\", \"②\", \"⑸\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"ㅢ\", \"ㅈ\", \"ㅋ\", \"㎡\", \"ㅑ\", \"梁\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"‥\", \" \", \"樂\", \"流\", \"​\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"ㅆ\", \"ㅘ\", \"⑹\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"⑦\", \"ⅱ\", \"ⅰ\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"ㅎ\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"④\"]", - "reversible": false - }, - "baichuan-inc/Baichuan-7B @ cc100/zh-Hans": { - "tokenizer": "baichuan", - "organization": "Baichuan", - "vocab_size": 64000, - "_n_bytes": 2633047, - "_n_tokens": 626117, - "_n_chars": 927311, - "_n_oov_chars": 24162, - "oov_ratio": 0.026055983375588124, - "_oov_charset": "[\"a\", \"r\", \"%\", \"]\", \"③\", \"⑶\", \"⑥\", \"/\", \"-\", \"n\", \" \", \"⒌\", \"⑴\", \"⑧\", \"V\", \"+\", \"⒂\", \"⒀\", \"C\", \"…\", \"⒃\", \"e\", \"⑦\", \"⑨\", \"[\", \"℃\", \"\\u0005\", \"①\", \"&\", \"o\", \"i\", \"d\", \"A\", \"⒋\", \"\\b\", \"⑿\", \".\", \"⑷\", \"⒁\", \")\", \"\\u0006\", \"D\", \"_\", \""\", \";\", \" \", \"​\", \"⑤\", \"\\u0007\", \"\", \"(\", \"⑩\", \"�\", \"s\", \"h\", \"・\", \"②\", \"⑸\", \"p\", \"T\", \"t\", \"N\", \"④\"]", - "reversible": false - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/ar": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 2813283, - "_n_tokens": 1337285, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/de": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1814876, - "_n_tokens": 628063, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/en": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1124813, - "_n_tokens": 269011, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/es": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1664455, - "_n_tokens": 551326, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/fa": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 2054052, - "_n_tokens": 1052077, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/fr": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1540504, - "_n_tokens": 512313, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/ja": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1774770, - "_n_tokens": 554936, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/ko": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 1524839, - "_n_tokens": 623358, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "baichuan-inc/Baichuan2-7B-Chat @ cc100/zh-Hans": { - "tokenizer": "baichuan2", - "organization": "Baichuan", - "vocab_size": 125696, - "_n_bytes": 2633047, - "_n_tokens": 541464, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/ar": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 2813283, - "_n_tokens": 427489, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/de": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1814876, - "_n_tokens": 541170, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/en": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1124813, - "_n_tokens": 257405, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/es": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1664455, - "_n_tokens": 350793, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/fa": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 2054052, - "_n_tokens": 434406, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/fr": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1540504, - "_n_tokens": 321639, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/ja": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1774770, - "_n_tokens": 523592, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/ko": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 1524839, - "_n_tokens": 742111, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "bigscience/bloom @ cc100/zh-Hans": { - "tokenizer": "bloom", - "organization": "BigScience", - "vocab_size": 250680, - "_n_bytes": 2633047, - "_n_tokens": 573008, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "ckiplab/gpt2-base-chinese @ cc100/ar": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 2813283, - "_n_tokens": 597677, - "_n_chars": 1560987, - "_n_oov_chars": 374419, - "oov_ratio": 0.2398604216434858, - "_oov_charset": "[\"م\", \"u\", \" \", \"۲\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"G\", \"9\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"“\", \"×\", \"د\", \"ۤ\", \"۰\", \"d\", \"٨\", \"X\", \"▫\", \"i\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"’\", \"a\", \"ٌ\", \"😊\", \"ج\", \"I\", \"h\", \"¡\", \"m\", \"‏\", \"…\", \"ن\", \"7\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"”\", \"ئ\", \"٪\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"—\", \"v\", \"S\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"o\", \"–\", \"‌\", \"k\", \"Х\", \"﴿\", \"؛\", \"Q\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"ش\", \"س\", \"٣\", \"V\", \"٧\", \"۷\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"B\", \"P\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"ä\", \"ص\", \"ّ\", \"ث\", \"n\", \"4\", \"Z\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/de": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1814876, - "_n_tokens": 766497, - "_n_chars": 1784021, - "_n_oov_chars": 112934, - "oov_ratio": 0.06330306649977775, - "_oov_charset": "[\"¶\", \"İ\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"à\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"x\", \"Ø\", \"😀\", \"‚\", \"“\", \"😦\", \"y\", \"X\", \"û\", \"H\", \"å\", \"’\", \"ó\", \"I\", \"h\", \"\", \"č\", \"á\", \"…\", \"â\", \"”\", \"R\", \"œ\", \"ç\", \"Ã\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"ú\", \"“\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"̈\", \"🙂\", \"E\", \"↩\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"A\", \"¬\", \"😈\", \"K\", \"L\", \"é\", \"–\", \"k\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"l\", \"ü\", \"s\", \"😆\", \"​\", \"‘\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"g\", \"J\", \"­\", \"š\", \"B\", \"P\", \"`\", \"p\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"n\", \"Z\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/en": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1124813, - "_n_tokens": 372641, - "_n_chars": 1121360, - "_n_oov_chars": 32716, - "oov_ratio": 0.02917528715131626, - "_oov_charset": "[\"V\", \"U\", \"I\", \"—\", \"¡\", \"S\", \"¦\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"…\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"”\", \"é\", \"‑\", \"R\", \"–\", \"B\", \"P\", \"“\", \"Q\", \"😉\", \"X\", \"ï\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"‘\", \"ñ\", \"\", \"“\", \"�\", \"Z\", \"´\", \"’\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/es": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1664455, - "_n_tokens": 683390, - "_n_chars": 1630297, - "_n_oov_chars": 71332, - "oov_ratio": 0.04375399083725235, - "_oov_charset": "[\"¿\", \"N\", \"G\", \"à\", \"M\", \"è\", \"D\", \"😀\", \"Í\", \"“\", \"😦\", \"ò\", \"X\", \"H\", \"ª\", \"Ñ\", \"\", \"👏\", \"’\", \"ó\", \"I\", \"¡\", \"ý\", \"á\", \"️\", \"…\", \"í\", \"”\", \"R\", \"▷\", \"😉\", \"’\", \"ñ\", \"C\", \"F\", \"ú\", \"Ú\", \"🙂\", \"E\", \"✓\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"ö\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"–\", \"‘\", \"Q\", \"ü\", \"‘\", \"´\", \"ô\", \"O\", \"Ó\", \"М\", \"V\", \"Á\", \"„\", \"J\", \"­\", \"P\", \"B\", \"🙁\", \"1\", \"―\", \"Z\", \"4\", \"3\", \"v\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/fa": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 2054052, - "_n_tokens": 386174, - "_n_chars": 1145876, - "_n_oov_chars": 354872, - "oov_ratio": 0.30969494081384025, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"N\", \"G\", \"9\", \"r\", \"ب\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"“\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"’\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"I\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"”\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"K\", \"L\", \"t\", \"–\", \"‌\", \"k\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"٫\", \"ـ\", \"O\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"Z\", \"4\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/fr": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1540504, - "_n_tokens": 616442, - "_n_chars": 1484970, - "_n_oov_chars": 74111, - "oov_ratio": 0.049907405536812194, - "_oov_charset": "[\"u\", \"N\", \"Â\", \"G\", \"à\", \"r\", \"è\", \"M\", \"À\", \"D\", \"x\", \"😀\", \"“\", \"ã\", \"Ê\", \"X\", \"û\", \"H\", \"Ô\", \"’\", \"Ç\", \"I\", \"h\", \"…\", \"í\", \"â\", \"ğ\", \"”\", \"R\", \"œ\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"♕\", \"’\", \"F\", \"C\", \"b\", \"�\", \"̂\", \"🙂\", \"E\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"A\", \"K\", \"L\", \"́\", \"é\", \"–\", \"c\", \"Q\", \"ü\", \"🤔\", \"ê\", \"‘\", \"´\", \"ô\", \"O\", \"V\", \"Î\", \"ù\", \"̧\", \"J\", \"­\", \"P\", \"B\", \"…\", \"ä\", \"È\", \"―\", \"Z\", \"v\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/ja": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1774770, - "_n_tokens": 483085, - "_n_chars": 603065, - "_n_oov_chars": 53217, - "oov_ratio": 0.08824421911402586, - "_oov_charset": "[\"ー\", \"蛍\", \"ペ\", \"G\", \"C\", \"め\", \"∀\", \"D\", \"ラ\", \"ベ\", \"ハ\", \"よ\", \"疎\", \"X\", \"妬\", \"I\", \"鉢\", \"欝\", \"K\", \"’\", \"ぅ\", \"R\", \"喩\", \"ク\", \"I\", \"筈\", \"讃\", \"…\", \"澪\", \"🌙\", \"暦\", \"G\", \"ズ\", \"F\", \"謳\", \"暁\", \"ロ\", \"犠\", \"ぉ\", \"゚\", \"ド\", \"—\", \"藁\", \"S\", \"轢\", \"穏\", \"و\", \"桟\", \"ヵ\", \"韮\", \"イ\", \"べ\", \"コ\", \"渓\", \"ど\", \"猟\", \"´\", \"ぽ\", \"鋲\", \"瘻\", \"O\", \"ゲ\", \"マ\", \"ご\", \"パ\", \"S\", \"゚\", \"ガ\", \"勲\", \"X\", \"`\", \"躾\", \"騒\", \"っ\", \"ダ\", \"―\", \"✧\", \"Z\", \"賛\", \"袴\", \"兎\", \"彡\", \"ㅂ\", \"を\", \"M\", \"ぞ\", \"酔\", \"M\", \"H\", \"辿\", \"く\", \"錬\", \"ジ\", \"粋\", \"レ\", \"が\", \"戯\", \"Z\", \"纒\", \"ゾ\", \"艸\", \"呟\", \"ぼ\", \"▷\", \"か\", \"殻\", \"ボ\", \"罠\", \"D\", \"\", \"え\", \"ゥ\", \"ビ\", \"逡\", \"ま\", \"謡\", \"娯\", \"�\", \"呑\", \"∇\", \"P\", \"ポ\", \"U\", \"遡\", \"挿\", \"ブ\", \"T\", \"⇔\", \"ギ\", \"L\", \"́\", \"缶\", \"–\", \"⻑\", \"\\b\", \"砕\", \"ぐ\", \"💦\", \"れ\", \"ヴ\", \"づ\", \"バ\", \"😢\", \"゙\", \"砦\", \"鋭\", \"●\", \"T\", \"艶\", \"梱\", \"俵\", \"ピ\", \"惣\", \"カ\", \"詈\", \"`\", \"捜\", \"も\", \"B\", \"P\", \"巣\", \"Д\", \"デ\", \"ろ\", \"ウ\", \"ば\", \"ぎ\", \"N\", \"醤\", \"お\", \"ら\", \"懐\", \"N\", \"饉\", \"L\", \"び\", \"陥\", \"Q\", \"ぴ\", \"奨\", \"し\", \"\", \"縦\", \"~\", \"繊\", \"ゞ\", \"髭\", \"じ\", \"カ\", \"顕\", \"醸\", \"匂\", \"😊\", \"メ\", \"V\", \"蝋\", \"⑪\", \"”\", \"▽\", \"こ\", \"◯\", \"コ\", \"プ\", \"讐\", \"ざ\", \"F\", \"C\", \"壌\", \"O\", \"E\", \"Ⅹ\", \"贔\", \"鶏\", \"ぷ\", \"̈\", \"E\", \"す\", \"H\", \"噛\", \"峠\", \"Y\", \"ぜ\", \"鞄\", \"捗\", \"K\", \"‼\", \"㎞\", \"Q\", \"舘\", \"J\", \"縞\", \"​\", \"だ\", \"拠\", \"̀\", \"麹\", \"飴\", \"グ\", \"V\", \"ィ\", \"拝\", \"贋\", \"噂\", \"屓\", \"リ\", \"〟\", \"ん\", \"覗\", \"剰\", \"渕\", \"ザ\", \"ヘ\", \"繰\", \"あ\", \"げ\", \"ア\", \"W\", \"繍\", \"〆\", \"フ\", \"“\", \"゙\", \"た\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"そ\", \"り\", \"漑\", \"ゴ\", \"汚\", \"渇\", \"ゎ\", \"R\", \"︎\", \"リ\", \"斉\", \"う\", \"‐\", \"\\u001b\", \"﨑\", \"😌\", \"廻\", \"鉱\", \"黙\", \"簗\", \"拶\", \"ゼ\", \"U\", \"W\", \"ヨ\", \"痩\", \"摂\", \"A\", \"Y\", \"ぱ\", \"頬\", \"ず\", \"な\", \"A\", \"揺\", \"掻\", \" \", \"ぶ\", \"B\", \"囁\", \"枠\", \"ヾ\", \"メ\", \"釈\", \"ミ\", \"ね\", \"J\", \"レ\", \"曽\", \"6\", \"で\", \"訃\", \"テ\", \"1\", \"◡\", \"ー\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/ko": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 1524839, - "_n_tokens": 1035974, - "_n_chars": 655190, - "_n_oov_chars": 441262, - "oov_ratio": 0.6734870800836399, - "_oov_charset": "[\"잖\", \"췌\", \"은\", \"G\", \"빈\", \"갈\", \"싱\", \"체\", \"D\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"👏\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"짠\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"승\", \"ㅕ\", \"커\", \"먹\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"쫒\", \"◈\", \"촉\", \"욥\", \"텀\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"뢰\", \"♡\", \"너\", \"😂\", \"별\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"퍙\", \"루\", \"붐\", \"女\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"툼\", \"F\", \"컸\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"➊\", \"훅\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"낮\", \"왓\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"⬇\", \"멕\", \"↕\", \"않\", \"츈\", \"텁\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"l\", \"왼\", \"㉿\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"♤\", \"←\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"ㅙ\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"맬\", \"🦅\", \"쪄\", \"션\", \"히\", \"벚\", \"’\", \"즙\", \"뺀\", \"쳤\", \"a\", \"준\", \"I\", \"얏\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"S\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"케\", \"멜\", \"🤗\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"코\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"돗\", \"곡\", \"핍\", \"옆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"급\", \"누\", \"밟\", \"셰\", \"맷\", \"💥\", \"N\", \"렷\", \"렘\", \"령\", \"트\", \"悧\", \"💰\", \"윗\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"즈\", \"킥\", \"C\", \"문\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"8\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"압\", \"언\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"볍\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"훨\", \"걸\", \"돠\", \"🌵\", \"서\", \"숭\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"흄\", \"릅\", \"💣\", \"촬\", \"층\", \"묶\", \"🏻\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"냉\", \"힙\", \"팽\", \"헝\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"3\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"넌\", \"임\", \"ㅔ\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"몸\", \"쥬\", \"—\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"톨\", \"냈\", \"푸\", \"배\", \"앤\", \"재\", \"책\", \"‘\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"챗\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"H\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"듈\", \"뜸\", \"탐\", \"미\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"🙌\", \"B\", \"P\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"환\", \"렐\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"퉁\", \"웃\", \"그\", \"렴\", \"생\", \"대\", \"융\", \"묵\", \"”\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"족\", \"닥\", \"힜\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"Q\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"겐\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"6\", \"납\", \" \", \"므\", \"릉\", \"텅\", \"우\", \"켐\", \"펠\", \"“\", \"랐\", \"습\", \"강\", \"뛸\", \"색\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"조\", \"틔\", \"넹\", \"끙\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"숫\", \"죤\", \"툭\", \"흠\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"璣\", \"륙\", \"굉\", \"ᴀ\", \"놔\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"👨\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"섞\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"웬\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"짊\", \"㏊\", \"젊\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"쟁\", \"폐\", \"괌\", \"넓\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"징\", \"5\", \"L\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"不\", \"🙇\", \"게\", \"탬\", \"숨\", \"축\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"류\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"았\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"삼\", \"착\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"Ⅸ\", \"k\", \"웹\", \"뤘\", \"龍\", \"팍\", \"곁\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"컴\", \"파\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"飮\", \"마\", \"탁\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "ckiplab/gpt2-base-chinese @ cc100/zh-Hans": { - "tokenizer": "gpt2-base-chinese", - "organization": "SINICA", - "vocab_size": 21128, - "_n_bytes": 2633047, - "_n_tokens": 879506, - "_n_chars": 927311, - "_n_oov_chars": 34029, - "oov_ratio": 0.0366964265494532, - "_oov_charset": "[\"翕\", \"擤\", \"镏\", \"猡\", \"ㄓ\", \"\", \" \", \"N\", \"G\", \"à\", \"⒀\", \"C\", \"M\", \"D\", \"鼯\", \"浠\", \"屣\", \"Ø\", \"牖\", \"“\", \"戢\", \"浞\", \"X\", \"倨\", \"H\", \"馕\", \"\", \"’\", \"韫\", \"ě\", \"疴\", \"锒\", \"I\", \"鄯\", \"旆\", \"á\", \"ὐ\", \"V\", \"…\", \"穰\", \"韪\", \"”\", \"R\", \"ç\", \"⒁\", \"î\", \"犟\", \"ズ\", \"D\", \"\", \"\", \"龇\", \"F\", \"C\", \"瑑\", \"�\", \"狳\", \"\", \"E\", \"U\", \"\\u0000\", \"—\", \"S\", \"诨\", \"W\", \"T\", \"犰\", \"耩\", \"⒂\", \"Y\", \"阽\", \"鲎\", \"A\", \"啐\", \"K\", \"L\", \"é\", \"\\u0005\", \"溘\", \"–\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"ό\", \"Q\", \"\\u0006\", \" \", \"​\", \"‘\", \"ê\", \"逑\", \"\", \"O\", \"T\", \"鸩\", \"V\", \"黢\", \"旳\", \"⒌\", \"瑒\", \"炝\", \"⒃\", \"ù\", \"瑢\", \"J\", \"黧\", \"P\", \"B\", \"瑧\", \"黩\", \"`\", \"岣\", \"绉\", \"篢\", \"\\u0007\", \"―\", \"瑨\", \"Z\", \"N\", \"讦\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/ar": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 2813283, - "_n_tokens": 601762, - "_n_chars": 1560987, - "_n_oov_chars": 374080, - "oov_ratio": 0.2396432513531503, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"G\", \"9\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"×\", \"ۤ\", \"د\", \"۰\", \"d\", \"٨\", \"X\", \"▫\", \"i\", \"®\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"’\", \"a\", \"ٌ\", \"😊\", \"ج\", \"I\", \"h\", \"¡\", \"m\", \"‏\", \"♥\", \"ن\", \"…\", \"7\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"”\", \"ئ\", \"٪\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"—\", \"v\", \"S\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"o\", \"–\", \"‌\", \"k\", \"Х\", \"﴿\", \"؛\", \"Q\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"V\", \"٧\", \"۷\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"B\", \"P\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"ä\", \"ص\", \"ّ\", \"ث\", \"n\", \"4\", \"Z\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/de": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1814876, - "_n_tokens": 895612, - "_n_chars": 1784021, - "_n_oov_chars": 112257, - "oov_ratio": 0.0629235866618162, - "_oov_charset": "[\"©\", \"u\", \"¶\", \"İ\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"à\", \"9\", \"☺\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"x\", \"Ø\", \"😀\", \"‚\", \"😦\", \"y\", \"X\", \"û\", \"H\", \"°\", \"å\", \"’\", \"ó\", \"I\", \"h\", \"\", \"č\", \"á\", \"…\", \"♥\", \"7\", \"â\", \"”\", \"R\", \"œ\", \"ç\", \"Ã\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"™\", \"ú\", \"“\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"̈\", \"🙂\", \"E\", \"😂\", \"↩\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"8\", \"A\", \"¬\", \"😈\", \"K\", \"L\", \"é\", \"–\", \"k\", \"❤\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"l\", \"ü\", \"s\", \"😆\", \"​\", \"2\", \"3\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"0\", \"²\", \"g\", \"J\", \"­\", \"š\", \"B\", \"P\", \"`\", \"p\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"1\", \"ä\", \"n\", \"Z\", \"4\", \"6\", \"♦\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/en": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1124813, - "_n_tokens": 563058, - "_n_chars": 1121360, - "_n_oov_chars": 32541, - "oov_ratio": 0.029019226653349505, - "_oov_charset": "[\"V\", \"U\", \"I\", \"—\", \"¡\", \"S\", \"¦\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"…\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"”\", \"é\", \"‑\", \"R\", \"–\", \"B\", \"P\", \"Q\", \"😉\", \"X\", \"ï\", \"®\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"ñ\", \"\", \"“\", \"�\", \"Z\", \"´\", \"’\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/es": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1664455, - "_n_tokens": 846564, - "_n_chars": 1630297, - "_n_oov_chars": 70692, - "oov_ratio": 0.043361424329432, - "_oov_charset": "[\"©\", \"¿\", \"N\", \"G\", \"à\", \"M\", \"è\", \"D\", \"😀\", \"Í\", \"😦\", \"ò\", \"X\", \"®\", \"H\", \"ª\", \"°\", \"Ñ\", \"\", \"👏\", \"’\", \"ó\", \"I\", \"¡\", \"ý\", \"á\", \"️\", \"…\", \"í\", \"”\", \"R\", \"▷\", \"😉\", \"’\", \"ñ\", \"C\", \"F\", \"ú\", \"✔\", \"Ú\", \"🙂\", \"✖\", \"E\", \"✓\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"ö\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"–\", \"❤\", \"‘\", \"Q\", \"ü\", \"👍\", \"2\", \"´\", \"ô\", \"O\", \"Ó\", \"М\", \"V\", \"Á\", \"„\", \"0\", \"²\", \"J\", \"­\", \"P\", \"B\", \"🙁\", \"1\", \"―\", \"Z\", \"4\", \"6\", \"3\", \"v\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/fa": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 2054052, - "_n_tokens": 387763, - "_n_chars": 1145876, - "_n_oov_chars": 354860, - "oov_ratio": 0.30968446847651926, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"N\", \"G\", \"9\", \"r\", \"ب\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"’\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"I\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"”\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"K\", \"L\", \"t\", \"–\", \"‌\", \"k\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"ـ\", \"O\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"Z\", \"4\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/fr": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1540504, - "_n_tokens": 767363, - "_n_chars": 1484970, - "_n_oov_chars": 74418, - "oov_ratio": 0.05011414372007515, - "_oov_charset": "[\"u\", \"♠\", \"N\", \"Â\", \"G\", \"à\", \"9\", \"r\", \"è\", \"M\", \"À\", \"D\", \"x\", \"😀\", \"ã\", \"Ê\", \"X\", \"û\", \"®\", \"H\", \"°\", \"Ô\", \"’\", \"Ç\", \"I\", \"h\", \"…\", \"í\", \"7\", \"â\", \"ğ\", \"”\", \"R\", \"œ\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"♕\", \"’\", \"F\", \"C\", \"™\", \"b\", \"�\", \"̂\", \"🙂\", \"E\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"8\", \"5\", \"A\", \"K\", \"L\", \"́\", \"é\", \"–\", \"k\", \"❤\", \"c\", \"Q\", \"ü\", \"🤔\", \"ê\", \"2\", \"´\", \"ô\", \"O\", \"V\", \"0\", \"Î\", \"²\", \"ù\", \"̧\", \"J\", \"­\", \"P\", \"B\", \"1\", \"…\", \"ä\", \"È\", \"―\", \"4\", \"6\", \"Z\", \"3\", \"v\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/ja": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1774770, - "_n_tokens": 319411, - "_n_chars": 603065, - "_n_oov_chars": 420060, - "oov_ratio": 0.696541832140814, - "_oov_charset": "[\"a\", \"ー\", \"濫\", \"③\", \"蛍\", \"ペ\", \"嶽\", \"サ\", \"綜\", \"監\", \"9\", \"G\", \"セ\", \"慄\", \"f\", \"C\", \"e\", \"門\", \"釘\", \"め\", \"ァ\", \"資\", \"録\", \"針\", \"紐\", \"ラ\", \"D\", \"ベ\", \"諸\", \"ぃ\", \"x\", \"嘗\", \"載\", \"細\", \"よ\", \"須\", \"塗\", \"ハ\", \"飽\", \"膚\", \"に\", \"疎\", \"綾\", \"絡\", \"ヲ\", \"X\", \"僕\", \"妬\", \"I\", \"穫\", \"エ\", \"著\", \"鉢\", \"欝\", \"噴\", \"聖\", \"絞\", \"損\", \"騰\", \"⑩\", \"K\", \"貿\", \"貰\", \"蓮\", \"競\", \"別\", \"’\", \"誠\", \"ぅ\", \"t\", \"a\", \"嘆\", \"R\", \"喩\", \"馬\", \"ク\", \"ィ\", \"導\", \"腎\", \"I\", \"嗚\", \"態\", \"・\", \"m\", \"筈\", \"勝\", \"オ\", \"撫\", \"罰\", \"讃\", \"糞\", \"て\", \"傾\", \"…\", \"−\", \"¥\", \"澪\", \"夢\", \"🌙\", \"衝\", \"誘\", \"ょ\", \"話\", \"d\", \"縮\", \"遺\", \"協\", \"婦\", \"暦\", \"G\", \"ズ\", \"F\", \"緩\", \">\", \"認\", \"箋\", \"謳\", \"暁\", \"✨\", \"ロ\", \"靄\", \"債\", \"②\", \"師\", \"優\", \"犠\", \"時\", \"ぉ\", \"糾\", \"獲\", \"雲\", \"動\", \"呂\", \"財\", \"f\", \"ド\", \"為\", \"燭\", \"—\", \"銃\", \"項\", \"゚\", \"藁\", \"閣\", \"鎮\", \"S\", \"轢\", \"暢\", \"穢\", \"視\", \"紙\", \"穏\", \"離\", \"揚\", \"薦\", \"選\", \"論\", \"و\", \"擁\", \"鍋\", \"桟\", \"揮\", \"暫\", \"鳴\", \"ヵ\", \"輩\", \"偉\", \"韮\", \"イ\", \"結\", \"陳\", \"詠\", \"決\", \"淵\", \"べ\", \"ゝ\", \"ヘ\", \"館\", \"コ\", \"謗\", \"渓\", \"ど\", \"誌\", \"診\", \"紅\", \"猟\", \"阪\", \"帳\", \"臨\", \"蘇\", \"瘍\", \"岡\", \"´\", \"ぽ\", \"緑\", \"鋲\", \"O\", \"瘻\", \"ゲ\", \"測\", \"礎\", \"槍\", \"る\", \"違\", \"頻\", \"ニ\", \"0\", \"嵐\", \"儀\", \"キ\", \"貨\", \"マ\", \"ご\", \"ュ\", \"躊\", \"の\", \"慣\", \"パ\", \"審\", \"級\", \"侶\", \"g\", \"S\", \"゚\", \"ガ\", \"礫\", \"勲\", \"億\", \"ぬ\", \"b\", \"訝\", \"臥\", \"X\", \"`\", \"計\", \"綴\", \"喪\", \"陣\", \"紹\", \"週\", \"佇\", \"轄\", \"隊\", \"敗\", \"輪\", \"躾\", \"騒\", \"賃\", \"っ\", \"棟\", \"貪\", \"ダ\", \"―\", \"♪\", \"務\", \"許\", \"n\", \"✧\", \"4\", \"Z\", \"賛\", \"預\", \"顔\", \"④\", \"網\", \"間\", \"鶴\", \"∀\", \"賭\", \"袴\", \"車\", \"鮮\", \"兎\", \"タ\", \"9\", \"彡\", \"鴻\", \"葉\", \"閉\", \"爾\", \"ㅂ\", \"を\", \"鳥\", \"M\", \"ナ\", \"還\", \"涼\", \"蒔\", \"ぞ\", \"ム\", \"規\", \"酔\", \"姦\", \"於\", \"軒\", \"M\", \"織\", \"訊\", \"y\", \"墳\", \"倫\", \"陽\", \"貫\", \"貧\", \"余\", \"H\", \"養\", \"談\", \"難\", \"辿\", \"く\", \"錠\", \"ゃ\", \"員\", \"錬\", \"貼\", \"孫\", \"並\", \"ジ\", \"粋\", \"鬱\", \"準\", \"緻\", \"レ\", \"ケ\", \"風\", \"課\", \"が\", \"懇\", \"餌\", \"悶\", \"戯\", \"遊\", \"墜\", \"▼\", \"4\", \"→\", \"衆\", \"諺\", \"Z\", \"7\", \"纒\", \"達\", \"ゾ\", \"誹\", \"冊\", \"艸\", \"℃\", \"は\", \"呟\", \"絆\", \"幾\", \"個\", \"ぼ\", \"か\", \"▷\", \"殻\", \"ボ\", \"罠\", \"緒\", \"庫\", \"D\", \"\", \"え\", \"漬\", \"ゥ\", \"ビ\", \"7\", \"劉\", \"逡\", \"ま\", \"謡\", \"娯\", \"h\", \"�\", \"◇\", \"呑\", \"∇\", \"P\", \"=\", \"開\", \"篤\", \"み\", \"題\", \"♡\", \"聾\", \"ポ\", \"撲\", \"訓\", \"賊\", \"△\", \"U\", \"銘\", \"誤\", \"遡\", \"挿\", \"訟\", \"飼\", \"運\", \"場\", \"ブ\", \"閃\", \"T\", \"○\", \"諾\", \"⇔\", \"隕\", \"嘩\", \"詰\", \"鏡\", \"識\", \"5\", \"奪\", \"ギ\", \"編\", \"L\", \"́\", \"誰\", \"ン\", \"覆\", \"o\", \"缶\", \"馳\", \"–\", \"鉛\", \"顎\", \"強\", \"⻑\", \"\\b\", \"き\", \"ぐ\", \"砕\", \"💦\", \"闊\", \"潰\", \"れ\", \"馴\", \"モ\", \"ヴ\", \"麗\", \"訂\", \"づ\", \"濃\", \"ス\", \"樹\", \"請\", \"テ\", \"ヤ\", \"詫\", \"誕\", \"ゥ\", \"バ\", \"😢\", \"゙\", \"腫\", \"砦\", \"鋭\", \"●\", \"賢\", \"T\", \"績\", \"綺\", \"乾\", \"艶\", \"ハ\", \"梱\", \"係\", \"¥\", \"w\", \"電\", \"慶\", \"飲\", \"採\", \"趨\", \"俵\", \"ピ\", \"訪\", \"惣\", \"衛\", \"カ\", \"詈\", \"ひ\", \"駒\", \"併\", \"滅\", \"棄\", \"斂\", \"`\", \"捜\", \"順\", \"灘\", \"虜\", \"も\", \"ソ\", \"調\", \"ぇ\", \"♫\", \"B\", \"P\", \"^\", \"恥\", \"闖\", \"謀\", \"巣\", \"Д\", \"憂\", \"橋\", \"問\", \"デ\", \"懸\", \"1\", \"ノ\", \"僅\", \"ぁ\", \"贅\", \"ト\", \"ノ\", \"ろ\", \"ウ\", \"ぎ\", \"ば\", \"N\", \"v\", \"y\", \"艦\", \"纏\", \"©\", \"療\", \"給\", \"醤\", \"紋\", \"お\", \"ら\", \"5\", \"譜\", \"n\", \"憲\", \"懐\", \"農\", \"N\", \"貴\", \"約\", \"饉\", \"L\", \"絶\", \"積\", \"び\", \"鵜\", \"貸\", \"産\", \"譚\", \"討\", \"軸\", \"陥\", \"Q\", \"×\", \"緯\", \"嚥\", \"ぴ\", \"渦\", \"備\", \"東\", \"し\", \"質\", \"製\", \"奨\", \"\", \"~\", \"謂\", \"縦\", \"腸\", \"紗\", \"側\", \"ゞ\", \"繊\", \"飾\", \"け\", \"慮\", \"頂\", \"駕\", \"宮\", \"髭\", \"じ\", \"郵\", \"災\", \"鎖\", \"カ\", \"欄\", \"該\", \"顕\", \"■\", \"と\", \"g\", \"<\", \"誇\", \"匂\", \"😊\", \"醸\", \"劇\", \"長\", \"⇒\", \"曇\", \"鐘\", \"應\", \"メ\", \"V\", \"ヌ\", \"龍\", \"蝋\", \"塚\", \"ゆ\", \"彙\", \"⑪\", \"職\", \"”\", \"墾\", \"輸\", \"o\", \"ワ\", \"欽\", \"醜\", \"↓\", \"こ\", \"▽\", \"憶\", \"コ\", \"曖\", \"鈴\", \"◯\", \"贈\", \"憤\", \"プ\", \"讐\", \"〇\", \"ざ\", \"鱈\", \"F\", \"潔\", \"C\", \"壌\", \"O\", \"盤\", \"E\", \"術\", \"純\", \"頷\", \"Ⅹ\", \"島\", \"贔\", \"遠\", \"謙\", \"鶏\", \"ョ\", \"ぷ\", \"標\", \"終\", \"̈\", \"漢\", \"統\", \"E\", \"躍\", \"償\", \"3\", \"ッ\", \"倉\", \"親\", \"す\", \"則\", \"H\", \"噛\", \"綱\", \"塊\", \"峠\", \"ャ\", \"縫\", \"喚\", \"Y\", \"異\", \"ぜ\", \"8\", \"締\", \"鞄\", \"e\", \"捗\", \"z\", \"K\", \"簡\", \"幣\", \"領\", \"見\", \"負\", \"銀\", \"記\", \"‼\", \"ゅ\", \"ツ\", \"㎞\", \"頑\", \"構\", \"Q\", \"舘\", \"報\", \"複\", \"況\", \"J\", \"膿\", \"s\", \"ヽ\", \"潤\", \"縞\", \"​\", \"だ\", \"機\", \"擬\", \"堅\", \"拠\", \"2\", \"̀\", \"ヒ\", \"傘\", \"書\", \"麹\", \"詮\", \"餃\", \"飴\", \"脈\", \"グ\", \"l\", \"V\", \"シ\", \"諦\", \"拝\", \"ィ\", \"贋\", \"猶\", \"額\", \"噂\", \"屓\", \"リ\", \"〟\", \"わ\", \"試\", \"創\", \" ̄\", \"貢\", \"熱\", \"貶\", \"ん\", \"鍛\", \"p\", \"唄\", \"過\", \"責\", \"組\", \"覗\", \"剰\", \"ォ\", \"渕\", \"飛\", \"費\", \"チ\", \"議\", \"ユ\", \"韓\", \"s\", \"ザ\", \"↑\", \"ヘ\", \"6\", \"無\", \"願\", \"蓋\", \"較\", \"繰\", \"詐\", \"罵\", \"u\", \"餓\", \"錯\", \"あ\", \"敵\", \"後\", \"連\", \"頃\", \"遜\", \"飢\", \"げ\", \"つ\", \"ア\", \"W\", \"r\", \"確\", \"漁\", \"種\", \"啓\", \"範\", \"─\", \"繍\", \"〆\", \"窪\", \"層\", \"貯\", \"q\", \"脅\", \"懲\", \"フ\", \"捨\", \"釣\", \"゙\", \"た\", \"摯\", \"紀\", \"d\", \"勢\", \"賠\", \"軋\", \"i\", \"む\", \"掛\", \"®\", \"儲\", \"湯\", \"飯\", \"駿\", \"訴\", \"謎\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"餅\", \"納\", \"ア\", \"節\", \"ネ\", \"輿\", \"り\", \"そ\", \"駐\", \"築\", \"線\", \"楊\", \"國\", \"h\", \"漑\", \"貝\", \"ル\", \"謝\", \"詳\", \"ゴ\", \"磯\", \"輝\", \"彌\", \"汚\", \"環\", \"賀\", \"渇\", \"華\", \"頓\", \"フ\", \"ゎ\", \"へ\", \"R\", \"適\", \"ほ\", \"掃\", \"ヶ\", \"跡\", \"ち\", \"極\", \"設\", \"騙\", \"︎\", \"綻\", \"リ\", \"閲\", \"斉\", \"煙\", \"う\", \"澤\", \"々\", \"紡\", \"絨\", \"‐\", \"聞\", \"﨑\", \"m\", \"j\", \"\\u001b\", \"沖\", \"換\", \"襲\", \"語\", \"階\", \"謬\", \"奮\", \"😌\", \"廻\", \"響\", \"鉱\", \"b\", \"獄\", \"窮\", \"偽\", \"黙\", \"紛\", \"綬\", \"★\", \"穀\", \"ホ\", \"縛\", \"評\", \"講\", \"軟\", \"簗\", \"せ\", \"ウ\", \"拶\", \"瞭\", \"ゼ\", \"r\", \"裏\", \"託\", \"顧\", \"塵\", \"殺\", \"U\", \"鈍\", \"驚\", \"W\", \"軌\", \"業\", \"+\", \"陸\", \"ヨ\", \"頒\", \"緊\", \"殲\", \"憑\", \"痩\", \"軍\", \"摂\", \"A\", \"8\", \"Y\", \"幹\", \"ぱ\", \"頬\", \"ず\", \"t\", \"な\", \"尋\", \"賞\", \"k\", \"A\", \"❤\", \"揺\", \"c\", \"l\", \"掻\", \"2\", \"凱\", \" \", \"徹\", \"斬\", \"疇\", \"貞\", \"厭\", \"い\", \"ぶ\", \"購\", \"鍵\", \"B\", \"囁\", \"這\", \"籠\", \"☆\", \"習\", \"練\", \"魚\", \"詞\", \"ふ\", \"$\", \"枠\", \"壇\", \"樺\", \"霧\", \"傑\", \"◎\", \"閑\", \"ヾ\", \"張\", \"諏\", \"←\", \"頭\", \"詩\", \"輔\", \"訣\", \"煩\", \"メ\", \"0\", \"傷\", \"や\", \"⑧\", \"愛\", \"賑\", \"園\", \"滲\", \"遙\", \"義\", \"護\", \"偵\", \"釈\", \"進\", \"ミ\", \"ね\", \"ロ\", \"際\", \"興\", \"牽\", \"棲\", \"J\", \"凍\", \"鯖\", \"復\", \"説\", \"β\", \"レ\", \"補\", \"i\", \"曽\", \"買\", \"寧\", \"筆\", \"執\", \"6\", \"薩\", \"楓\", \"w\", \"で\", \"販\", \"ェ\", \"訃\", \"テ\", \"さ\", \"類\", \"維\", \"現\", \"1\", \"ヨ\", \"陰\", \"遼\", \"羅\", \"減\", \"糧\", \"謄\", \"◡\", \"k\", \"ー\", \"3\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/ko": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 1524839, - "_n_tokens": 206812, - "_n_chars": 655190, - "_n_oov_chars": 492835, - "oov_ratio": 0.7522016514293564, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"갈\", \"싱\", \"체\", \"D\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"짠\", \"獻\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"뢰\", \"題\", \"너\", \"♡\", \"😂\", \"별\", \"△\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"專\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"붐\", \"女\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"學\", \"툼\", \"F\", \"컸\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"聖\", \"션\", \"히\", \"벚\", \"歲\", \"’\", \"즙\", \"뺀\", \"쳤\", \"a\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"S\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"©\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"C\", \"문\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"8\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"韓\", \"s\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"國\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"돠\", \"🌵\", \"j\", \"서\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"왘\", \"樺\", \"흄\", \"릅\", \"💣\", \"촬\", \"층\", \"묶\", \"🏻\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"놨\", \"x\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"f\", \"—\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"푸\", \"結\", \"陳\", \"배\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"峴\", \"챗\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"課\", \"듈\", \"뜸\", \"탐\", \"미\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"×\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"”\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"Q\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"6\", \"납\", \"後\", \" \", \"므\", \"릉\", \"發\", \"텅\", \"우\", \"켐\", \"펠\", \"랐\", \"습\", \"i\", \"®\", \"강\", \"뛸\", \"색\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"韜\", \"華\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"驚\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"燦\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"L\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"し\", \"류\", \"說\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"す\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"쉬\", \"謝\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"t\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"龍\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"內\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "clue/roberta_chinese_clue_tiny @ cc100/zh-Hans": { - "tokenizer": "roberta-chinese-clue", - "organization": "CLUE", - "vocab_size": 8021, - "_n_bytes": 2633047, - "_n_tokens": 887144, - "_n_chars": 927311, - "_n_oov_chars": 31452, - "oov_ratio": 0.03391742360437868, - "_oov_charset": "[\"a\", \"©\", \"翕\", \"網\", \"擤\", \"镏\", \"猡\", \"後\", \"據\", \"ㄓ\", \"\", \"n\", \" \", \"發\", \"N\", \"G\", \"9\", \"à\", \"⒀\", \"號\", \"確\", \"C\", \"門\", \"M\", \"資\", \"D\", \"鼯\", \"浠\", \"屣\", \"Ø\", \"牖\", \"於\", \"×\", \"戢\", \"當\", \"浞\", \"~\", \"X\", \"倨\", \"余\", \"H\", \"著\", \"慮\", \"噴\", \"°\", \"損\", \"馕\", \"\", \"員\", \"’\", \"別\", \"韫\", \"p\", \"ě\", \"t\", \"疴\", \"並\", \"锒\", \"I\", \"鄯\", \"・\", \"メ\", \"旆\", \"á\", \"ὐ\", \"V\", \"…\", \"壓\", \"7\", \"穰\", \"彙\", \"韪\", \"℃\", \"”\", \"へ\", \"R\", \"個\", \"o\", \"d\", \"ç\", \"⒁\", \"î\", \"犟\", \"ズ\", \"D\", \"\", \"\", \"龇\", \"F\", \"C\", \"卻\", \"瑑\", \"�\", \"h\", \"狳\", \"★\", \"標\", \"\", \"時\", \"劑\", \"E\", \"r\", \"動\", \"U\", \"為\", \"\\u0000\", \"—\", \"託\", \"S\", \"運\", \"诨\", \"W\", \"T\", \"權\", \"犰\", \"+\", \"耩\", \"⒂\", \"Y\", \"選\", \"阽\", \"8\", \"亂\", \"5\", \"e\", \"鲎\", \"A\", \"啐\", \"K\", \"L\", \"é\", \"覆\", \"\\u0005\", \"溘\", \"–\", \"イ\", \"瑥\", \"A\", \"強\", \"\\b\", \"\", \"⑿\", \"漲\", \"ό\", \"Q\", \"\\u0006\", \"報\", \"2\", \" \", \"​\", \"阪\", \"ê\", \"2\", \"逑\", \"\", \"O\", \"▪\", \"T\", \"麽\", \"鸩\", \"乾\", \"V\", \"0\", \"シ\", \"黢\", \"旳\", \"電\", \"0\", \"採\", \"の\", \"⒌\", \"瑒\", \"炝\", \"撐\", \"娛\", \"⒃\", \"ù\", \"瑢\", \"J\", \"藉\", \"黧\", \"併\", \"i\", \"ソ\", \"價\", \"P\", \"B\", \"瑧\", \"黩\", \"`\", \"內\", \"賣\", \"岣\", \"薩\", \"绉\", \"篢\", \"1\", \"ノ\", \"ヨ\", \"1\", \"\\u0007\", \"―\", \"s\", \"灑\", \"ト\", \"瑨\", \"Z\", \"6\", \"4\", \"3\", \"N\", \"讦\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/ar": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 2813283, - "_n_tokens": 2066944, - "_n_chars": 1560987, - "_n_oov_chars": 202, - "oov_ratio": 0.00012940530574565964, - "_oov_charset": "[\"…\", \"″\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"ﻷ\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/de": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1814876, - "_n_tokens": 845425, - "_n_chars": 1784021, - "_n_oov_chars": 484, - "oov_ratio": 0.0002712972549089949, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"¹\", \"™\", \"½\", \"´\", \" \", \"̈\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/en": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1124813, - "_n_tokens": 391092, - "_n_chars": 1121360, - "_n_oov_chars": 59, - "oov_ratio": 5.261468217164871e-05, - "_oov_charset": "[\"⑤\", \"…\", \"⑩\", \"⑦\", \"③\", \"´\", \"‑\", \"⑧\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/es": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1664455, - "_n_tokens": 759244, - "_n_chars": 1630297, - "_n_oov_chars": 528, - "oov_ratio": 0.0003238673689517922, - "_oov_charset": "[\"…\", \"″\", \"²\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/fa": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 2054052, - "_n_tokens": 1588140, - "_n_chars": 1145876, - "_n_oov_chars": 606, - "oov_ratio": 0.0005288530347088167, - "_oov_charset": "[\" \", \"…\", \"ﮧ\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/fr": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1540504, - "_n_tokens": 686144, - "_n_chars": 1484970, - "_n_oov_chars": 864, - "oov_ratio": 0.0005818299359583021, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/ja": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1774770, - "_n_tokens": 253868, - "_n_chars": 603065, - "_n_oov_chars": 7382, - "oov_ratio": 0.012240803230165902, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"つ\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"た\", \"④\", \"し\", \"~\", \"I\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"と\", \"g\", \"<\", \"-\", \"V\", \"4\", \"て\", \"Z\", \"…\", \"¥\", \"⑪\", \"℃\", \"は\", \"フ\", \"へ\", \"①\", \"o\", \"か\", \"d\", \"G\", \"D\", \"コ\", \"F\", \"ゥ\", \">\", \"7\", \"m\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ホ\", \"ウ\", \"r\", \"せ\", \"3\", \"゚\", \"す\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"A\", \"‼\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"ス\", \"B\", \"ヒ\", \"ふ\", \"$\", \"゙\", \"´\", \"T\", \"l\", \":\", \"0\", \"シ\", \"ィ\", \"%\", \"ハ\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"゚\", \"ひ\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ト\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/ko": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 1524839, - "_n_tokens": 1379975, - "_n_chars": 655190, - "_n_oov_chars": 1311, - "oov_ratio": 0.0020009462903890474, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"*\", \"ㄷ\", \"@\", \"ㅜ\", \"?\", \"ㅐ\", \"Ⅷ\", \"ㅛ\", \"․\", \"ㅝ\", \"Ⅱ\", \"ㄹ\", \"Ⅶ\", \"㏊\", \"Ⅵ\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"②\", \"⑸\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"ㅢ\", \"ㅈ\", \"ㅋ\", \"㎡\", \"ㅑ\", \"梁\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"‥\", \" \", \"樂\", \"流\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"ㅆ\", \"ㅘ\", \":\", \"⑹\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"⑦\", \"ⅱ\", \"ⅰ\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"ㅎ\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"④\"]", - "reversible": false - }, - "cyberagent/open-calm-7b @ cc100/zh-Hans": { - "tokenizer": "open-calm-7b", - "organization": "CyberAgent", - "vocab_size": 52000, - "_n_bytes": 2633047, - "_n_tokens": 1073991, - "_n_chars": 927311, - "_n_oov_chars": 49193, - "oov_ratio": 0.05304908493482769, - "_oov_charset": "[\"a\", \"r\", \"0\", \"3\", \"%\", \"\\u0000\", \" \", \"]\", \"③\", \"⑶\", \"/\", \"⑥\", \"5\", \"-\", \"n\", \" \", \"⒌\", \"⑴\", \"⑧\", \"9\", \"V\", \"+\", \"⒂\", \"4\", \"⒀\", \"C\", \"…\", \"⒃\", \"e\", \"⑦\", \"8\", \"⑨\", \"[\", \"℃\", \"①\", \"o\", \"&\", \"i\", \"d\", \"A\", \"⒋\", \"!\", \"⑿\", \".\", \"⑷\", \"⒁\", \")\", \"④\", \"6\", \"D\", \"_\", \"2\", \""\", \";\", \"~\", \" \", \"N\", \"7\", \",\", \"⑤\", \"1\", \"⑩\", \"(\", \"h\", \"s\", \"・\", \"②\", \"⑸\", \"p\", \"T\", \"t\", \":\", \"?\"]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/ar": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 2813283, - "_n_tokens": 1105640, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/de": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1814876, - "_n_tokens": 500870, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/en": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1124813, - "_n_tokens": 254985, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/es": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1664455, - "_n_tokens": 433875, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/fa": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 2054052, - "_n_tokens": 818067, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/fr": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1540504, - "_n_tokens": 412685, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/ja": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1774770, - "_n_tokens": 630348, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/ko": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 1524839, - "_n_tokens": 652277, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "databricks/dbrx-instruct @ cc100/zh-Hans": { - "tokenizer": "dbrx-instruct", - "organization": "Databricks", - "vocab_size": 100280, - "_n_bytes": 2633047, - "_n_tokens": 1084939, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/ar": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 2813283, - "_n_tokens": 309525, - "_n_chars": 1560987, - "_n_oov_chars": 1354421, - "oov_ratio": 0.867669621848228, - "_oov_charset": "[\"م\", \"u\", \" \", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"9\", \"G\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"×\", \"ۤ\", \"د\", \"۰\", \"d\", \"y\", \"٨\", \"X\", \"τ\", \"▫\", \"i\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"a\", \"ٌ\", \"😊\", \"ج\", \"I\", \"█\", \"h\", \"‹\", \"m\", \"‏\", \"♥\", \"ن\", \"…\", \"7\", \"χ\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"b\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"μ\", \"U\", \"v\", \"S\", \"α\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"k\", \"‌\", \"Х\", \"﴿\", \"›\", \"c\", \"؛\", \"Q\", \"٠\", \"l\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"V\", \"٧\", \"۷\", \"←\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"B\", \"P\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"″\", \"ä\", \"ص\", \"ّ\", \"ث\", \"n\", \"η\", \"4\", \"6\", \"Z\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/de": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1814876, - "_n_tokens": 382494, - "_n_chars": 1784021, - "_n_oov_chars": 111524, - "oov_ratio": 0.06251271705882386, - "_oov_charset": "[\"u\", \"¶\", \"İ\", \"ς\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"9\", \"à\", \"☺\", \"ć\", \"¼\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"x\", \"Ø\", \"😀\", \"😦\", \"y\", \"τ\", \"X\", \"û\", \"H\", \"å\", \"ó\", \"I\", \"h\", \"\", \"‹\", \"č\", \"£\", \"á\", \"▼\", \"…\", \"♥\", \"â\", \"R\", \"œ\", \"ç\", \"ε\", \"Ã\", \"ρ\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"¹\", \"ú\", \"“\", \"b\", \"�\", \"ń\", \"½\", \"™\", \"≠\", \"ί\", \"★\", \"̈\", \"🙂\", \"E\", \"♡\", \"😂\", \"↩\", \"f\", \"U\", \"É\", \"S\", \"α\", \"ι\", \"W\", \"T\", \"ö\", \"Y\", \"5\", \"A\", \"¬\", \"😈\", \"K\", \"L\", \"é\", \"k\", \"❤\", \"ė\", \"›\", \"🙄\", \"Q\", \"Ö\", \"l\", \"ü\", \"s\", \"😆\", \"​\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"0\", \"²\", \"g\", \"J\", \"­\", \"š\", \"B\", \"P\", \"p\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"n\", \"↑\", \"Z\", \"♦\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/en": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1124813, - "_n_tokens": 326111, - "_n_chars": 1121360, - "_n_oov_chars": 31208, - "oov_ratio": 0.02783049154597988, - "_oov_charset": "[\"V\", \"U\", \"I\", \"③\", \"S\", \"0\", \"£\", \"⑧\", \"¦\", \"W\", \"T\", \"N\", \"G\", \"9\", \"”\", \"Y\", \"…\", \"8\", \"M\", \"è\", \"5\", \"⑦\", \"7\", \"A\", \"D\", \"K\", \"J\", \"L\", \"‑\", \"é\", \"R\", \"P\", \"B\", \"Q\", \"😉\", \"X\", \"ï\", \"H\", \"​\", \"1\", \"😥\", \"F\", \"C\", \"⑤\", \"2\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"Z\", \"4\", \"´\", \"6\", \"\", \"O\", \"3\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/es": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1664455, - "_n_tokens": 547112, - "_n_chars": 1630297, - "_n_oov_chars": 69589, - "oov_ratio": 0.04268486048861036, - "_oov_charset": "[\"¿\", \"N\", \"G\", \"à\", \"9\", \"M\", \"è\", \"D\", \"😀\", \"Í\", \"😦\", \"ò\", \"X\", \"º\", \"H\", \"ª\", \"Ñ\", \"✪\", \"\", \"👏\", \"ó\", \"I\", \"ý\", \"á\", \"️\", \"…\", \"í\", \"7\", \"R\", \"▷\", \"😉\", \"’\", \"ñ\", \"C\", \"F\", \"ú\", \"✔\", \"Ú\", \"🙂\", \"✖\", \"E\", \"✓\", \"U\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"ö\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"❤\", \"‘\", \"Q\", \"ü\", \"👍\", \"2\", \"´\", \"ô\", \"O\", \"Ó\", \"М\", \"V\", \"′\", \"←\", \"Á\", \"„\", \"0\", \"²\", \"J\", \"­\", \"P\", \"B\", \"🙁\", \"1\", \"″\", \"―\", \"Z\", \"4\", \"6\", \"3\", \"v\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/fa": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 2054052, - "_n_tokens": 254012, - "_n_chars": 1145876, - "_n_oov_chars": 1020760, - "oov_ratio": 0.8908119203124946, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"N\", \"G\", \"9\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"I\", \"h\", \"✿\", \"m\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"v\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"K\", \"L\", \"t\", \"o\", \"k\", \"‌\", \"❤\", \"ڪ\", \"c\", \"›\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"ـ\", \"●\", \"O\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"Z\", \"6\", \"4\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/fr": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1540504, - "_n_tokens": 496764, - "_n_chars": 1484970, - "_n_oov_chars": 67859, - "oov_ratio": 0.04569721947244725, - "_oov_charset": "[\"u\", \"♠\", \"N\", \"Â\", \"G\", \"à\", \"r\", \"è\", \"M\", \"À\", \"D\", \"x\", \"😀\", \"ã\", \"Ê\", \"X\", \"û\", \"H\", \"Ô\", \"Ç\", \"I\", \"h\", \"…\", \"í\", \"â\", \"℃\", \"ğ\", \"R\", \"œ\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"♕\", \"’\", \"F\", \"C\", \"™\", \"b\", \"�\", \"̂\", \"★\", \"🙂\", \"E\", \"f\", \"U\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"A\", \"K\", \"L\", \"́\", \"é\", \"❤\", \"c\", \"Q\", \"ü\", \"🤔\", \"ê\", \"´\", \"ô\", \"O\", \"V\", \"←\", \"Î\", \"²\", \"ù\", \"g\", \"̧\", \"J\", \"µ\", \"­\", \"P\", \"B\", \"″\", \"…\", \"ä\", \"È\", \"―\", \"Z\", \"v\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/ja": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1774770, - "_n_tokens": 317535, - "_n_chars": 603065, - "_n_oov_chars": 592607, - "oov_ratio": 0.9826585857245902, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"G\", \"又\", \"族\", \"青\", \"C\", \"王\", \"多\", \"婆\", \"D\", \"ラ\", \"ぃ\", \"✨\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \".\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"竹\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"示\", \"馬\", \"服\", \"腎\", \"皿\", \"態\", \"・\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"…\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"三\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"小\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"代\", \"箭\", \"喜\", \"g\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"氏\", \"紹\", \"城\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"―\", \"布\", \"杏\", \"歓\", \"撮\", \"部\", \"網\", \"間\", \"郷\", \"車\", \"タ\", \"閉\", \"教\", \"有\", \"八\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"陽\", \"貧\", \"余\", \"派\", \"西\", \"河\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"忠\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"→\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"宣\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"場\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"崎\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"的\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"「\", \"靴\", \"司\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"滝\", \"橋\", \"問\", \"旦\", \"副\", \"1\", \"核\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"v\", \"艦\", \"麓\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"秀\", \"完\", \"限\", \"学\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"地\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"行\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"本\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"鈴\", \"憤\", \"プ\", \"讐\", \",\", \"F\", \"令\", \"嫁\", \"頷\", \"盤\", \"松\", \"術\", \"治\", \"純\", \"薙\", \"遠\", \"国\", \"標\", \"算\", \"民\", \"店\", \"女\", \"則\", \"史\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"K\", \"曲\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"川\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"ヒ\", \"傘\", \"書\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"耳\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"p\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"介\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"?\", \"詐\", \"u\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"r\", \"索\", \"戦\", \"啓\", \"垠\", \"窪\", \"〆\", \"十\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"楊\", \"匡\", \"h\", \"浄\", \"止\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"北\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"文\", \"ヶ\", \"ε\", \"設\", \"幕\", \"不\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"秋\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"天\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"W\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"c\", \"l\", \"公\", \"凱\", \"疇\", \"帝\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"光\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"J\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"e\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"明\", \"庁\", \"藤\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"エ\", \"著\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"道\", \"a\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"I\", \"潟\", \"壊\", \"m\", \"犬\", \"勝\", \"恒\", \"傾\", \"巨\", \"。\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"吉\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"健\", \"銃\", \"閣\", \"衷\", \"点\", \"S\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"」\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"岡\", \"´\", \"鋲\", \"永\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"侍\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"男\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"朝\", \"支\", \"乏\", \"佇\", \"攻\", \"戸\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"4\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"志\", \"勘\", \"兎\", \"葉\", \"爾\", \"ㅂ\", \"を\", \"還\", \"版\", \"ム\", \"規\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"井\", \"汗\", \"黄\", \"春\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"-\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"四\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"力\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"U\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"o\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"我\", \"ス\", \"樹\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"伊\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"ハ\", \"蛇\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"家\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"年\", \"茨\", \"N\", \"途\", \"纏\", \"他\", \"お\", \"云\", \"農\", \"N\", \"阿\", \"貴\", \"赦\", \"要\", \"弁\", \"金\", \"貸\", \"雄\", \"脇\", \"矢\", \"任\", \"ぴ\", \"東\", \"愕\", \"漫\", \"\", \"拷\", \"一\", \"飾\", \"慮\", \"糖\", \"宮\", \"貌\", \"郵\", \"谷\", \"鎖\", \"カ\", \"法\", \"該\", \"方\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"幸\", \"ゆ\", \"写\", \"博\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"C\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"島\", \"唇\", \"伏\", \"姥\", \"営\", \"E\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"8\", \"革\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"和\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"千\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"林\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"清\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"q\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"d\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"〈\", \"唱\", \"再\", \"桁\", \"😭\", \"Ⅶ\", \"ア\", \"子\", \"会\", \"数\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"國\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"原\", \"州\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"安\", \"掃\", \"極\", \"胚\", \"発\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"j\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"皇\", \"被\", \"外\", \"痴\", \"塵\", \"U\", \"李\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"A\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"品\", \"練\", \"詞\", \"ふ\", \"〉\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"坂\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \")\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"成\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"3\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"門\", \"ァ\", \"針\", \"資\", \"沢\", \"丁\", \"腫\", \"仁\", \"激\", \"x\", \"須\", \"泥\", \"立\", \"臆\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"平\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"五\", \"引\", \"暦\", \"来\", \"栽\", \"ズ\", \"蒙\", \"倍\", \"之\", \"球\", \"瓦\", \"舞\", \"歪\", \"堂\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"空\", \"呂\", \"f\", \"斧\", \"才\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"上\", \"洒\", \"〜\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"香\", \"侵\", \"客\", \"移\", \"結\", \"陳\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"O\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"佐\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"信\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"夏\", \"助\", \"丼\", \"ダ\", \"区\", \"n\", \"賛\", \"背\", \"預\", \"顔\", \"同\", \"工\", \"朗\", \"炉\", \"賭\", \"白\", \"蠍\", \"9\", \"M\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"y\", \"倫\", \"稀\", \"散\", \"H\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"ケ\", \"略\", \"森\", \"課\", \"呆\", \"料\", \"悶\", \"先\", \"浴\", \"恰\", \"墜\", \"新\", \"生\", \"7\", \"纒\", \"南\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"《\", \"ゥ\", \"哀\", \"尽\", \"出\", \"劉\", \"合\", \"ま\", \"割\", \"且\", \"状\", \"政\", \"仲\", \"沸\", \"∇\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"ω\", \"末\", \"腔\", \"水\", \"電\", \"¥\", \"煮\", \"採\", \"重\", \"施\", \"口\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"B\", \"P\", \"^\", \"遥\", \"税\", \"句\", \"睦\", \"丘\", \"山\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"名\", \"懸\", \"提\", \"昇\", \"久\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"宇\", \"策\", \"ノ\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"石\", \"低\", \"相\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"都\", \"奈\", \"じ\", \"捏\", \"漏\", \"烈\", \"古\", \"■\", \"磨\", \"長\", \"⇒\", \"弥\", \"忙\", \"應\", \"桑\", \"龍\", \"摩\", \"慈\", \"崔\", \"挫\", \"英\", \"勉\", \"ワ\", \"↓\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"、\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"z\", \"幣\", \"見\", \"正\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"Q\", \"報\", \"況\", \"J\", \"s\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"2\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"街\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"火\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"土\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"(\", \"指\", \"能\", \"6\", \"村\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"後\", \" \", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"食\", \"署\", \"摘\", \"─\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"i\", \"循\", \"®\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"御\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"貝\", \"尚\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"木\", \"頓\", \"菊\", \"華\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"社\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"比\", \"b\", \"窒\", \"至\", \"夫\", \"綬\", \"鼓\", \"亭\", \"ホ\", \"揉\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"軍\", \"内\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"也\", \"狩\", \"歌\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"前\", \"詩\", \"0\", \"傷\", \"曹\", \"や\", \"》\", \"箇\", \"園\", \"瞑\", \"義\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"保\", \"執\", \"楓\", \"w\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"武\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"郎\", \"射\", \"嶽\", \"槃\", \"允\", \"綜\", \"瀬\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"宗\", \"に\", \"鹿\", \"豪\", \"捕\", \"X\", \"逆\", \"郡\", \"日\", \"吹\", \"寺\", \"絞\", \"騰\", \"江\", \"礁\", \"甚\", \"婚\", \"美\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"−\", \"澪\", \"筋\", \"情\", \"典\", \"良\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"省\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"/\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"氷\", \"次\", \"ガ\", \"[\", \"海\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"大\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"Z\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"定\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"分\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"風\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"元\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"京\", \"逸\", \"篤\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"T\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"5\", \"編\", \"心\", \"腹\", \"L\", \"郭\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"章\", \"月\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"高\", \"贅\", \"随\", \"捺\", \"ト\", \"加\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"田\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"漢\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"野\", \"ャ\", \"娠\", \"烙\", \"Y\", \"鞄\", \"締\", \"昭\", \"e\", \"簡\", \"最\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"太\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"』\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \":\", \"V\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"手\", \"〟\", \"世\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"!\", \"啜\", \"人\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"″\", \"叫\", \"株\", \"丸\", \"↑\", \"俳\", \"蝶\", \"条\", \"荘\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"士\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"『\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"花\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"事\", \"宿\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"面\", \"主\", \"R\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"‐\", \"m\", \"中\", \"措\", \"語\", \"謬\", \"洩\", \"獄\", \"黙\", \"里\", \"厚\", \"★\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"ウ\", \"用\", \"拶\", \"星\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"真\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"仮\", \"二\", \"頬\", \"邸\", \"目\", \"瑞\", \"t\", \"」\", \"尋\", \"尺\", \"果\", \"k\", \"景\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"張\", \"在\", \"煩\", \"榴\", \"愛\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"下\", \"販\", \"訃\", \"裂\", \"神\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/ko": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 1524839, - "_n_tokens": 201519, - "_n_chars": 655190, - "_n_oov_chars": 492345, - "oov_ratio": 0.7514537767670447, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"族\", \"王\", \"갈\", \"싱\", \"체\", \"多\", \"D\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"竹\", \"백\", \"\", \"규\", \"德\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"三\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"代\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"城\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"部\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"有\", \"八\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"的\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"′\", \"엎\", \"귈\", \"캣\", \"튼\", \"「\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"1\", \"숏\", \"福\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"地\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"行\", \"벽\", \"甲\", \"£\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"F\", \"컸\", \"治\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"民\", \"女\", \"뜯\", \"략\", \"史\", \"따\", \"틸\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"川\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"十\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"北\", \"갯\", \"틴\", \"채\", \"앎\", \"文\", \"싹\", \"늬\", \"둡\", \"不\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"秋\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"天\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"公\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"帝\", \"☆\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"光\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"明\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"道\", \"쳤\", \"a\", \"孝\", \"敬\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"犬\", \"확\", \"꾀\", \"잴\", \"똘\", \"。\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"±\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"S\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"」\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"永\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"男\", \"朝\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"志\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"春\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"家\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"年\", \"途\", \"戊\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"金\", \"貸\", \"꾸\", \"雄\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"一\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"谷\", \"폄\", \"눔\", \"法\", \"方\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"C\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"8\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"和\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"林\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"〈\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"子\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"國\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"原\", \"믿\", \"팩\", \"싸\", \"움\", \"安\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"j\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"皇\", \"둬\", \"식\", \"被\", \"外\", \"얄\", \"앰\", \"림\", \"蚩\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"〉\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"仁\", \"놨\", \"x\", \"됬\", \"立\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"平\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"五\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"之\", \"원\", \"갱\", \"레\", \"堂\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"f\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"上\", \"푸\", \"客\", \"結\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"信\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"同\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"白\", \"9\", \"M\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"新\", \"미\", \"生\", \"ⅲ\", \"7\", \"상\", \"짱\", \"南\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"《\", \"哀\", \"획\", \"뭉\", \"出\", \"젝\", \"合\", \"쩌\", \"탓\", \"페\", \"政\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"ω\", \"🤕\", \"水\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"口\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"山\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"相\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"古\", \"■\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"摩\", \"묵\", \"英\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"正\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"Q\", \"劫\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"火\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"土\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"6\", \"常\", \"납\", \"後\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"食\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"i\", \"侯\", \"강\", \"뛸\", \"색\", \"御\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"好\", \"韜\", \"華\", \"ㅅ\", \"社\", \"큐\", \"얽\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"比\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"0\", \"》\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"武\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"宗\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"日\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"江\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"美\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"海\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"大\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"分\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"京\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"心\", \"L\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"章\", \"月\", \"완\", \"딸\", \"高\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"し\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"≤\", \"す\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"野\", \"직\", \"Y\", \"답\", \"昭\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"』\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"手\", \"껑\", \"땡\", \"돼\", \"世\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"人\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"『\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"事\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"面\", \"R\", \"主\", \"웠\", \"適\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"中\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"里\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"星\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"目\", \"t\", \"」\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"下\", \"는\", \"神\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "dbmdz/bert-base-german-uncased @ cc100/zh-Hans": { - "tokenizer": "bert-base-german-uncased", - "organization": "dbmdz", - "vocab_size": 31102, - "_n_bytes": 2633047, - "_n_tokens": 879155, - "_n_chars": 927311, - "_n_oov_chars": 870721, - "oov_ratio": 0.9389740874420771, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"G\", \"又\", \"鱼\", \"族\", \"青\", \"⒀\", \"撬\", \"C\", \"王\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"D\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \".\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"竹\", \"页\", \"狸\", \"挈\", \"\", \"贵\", \"噌\", \"德\", \"贱\", \"杆\", \"浙\", \"汐\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"示\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"・\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"…\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"三\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"小\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"代\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"氏\", \"城\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"―\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"部\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"吆\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"有\", \"八\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"τ\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"西\", \"河\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"忠\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"氰\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"宣\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"近\", \"培\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"崎\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"的\", \"杭\", \"【\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"●\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"「\", \"偿\", \"衬\", \"撐\", \"靴\", \"司\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"1\", \"笃\", \"核\", \"找\", \"闻\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"麓\", \"栖\", \"瞠\", \"葆\", \"潭\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"秀\", \"陵\", \"戳\", \"完\", \"戾\", \"限\", \"学\", \"冯\", \"睐\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"地\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"~\", \"陈\", \"裙\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"行\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"本\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"锥\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \",\", \"F\", \"令\", \"嫁\", \"松\", \"治\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"国\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"民\", \"店\", \"嫂\", \"女\", \"书\", \"跃\", \"耙\", \"史\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"K\", \"痊\", \"曲\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"川\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"耳\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"介\", \"骰\", \"捧\", \"体\", \"?\", \"疼\", \"邻\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"十\", \"梦\", \"增\", \"沾\", \"渠\", \"饰\", \"Ø\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"止\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"ὐ\", \"北\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"文\", \"冰\", \"蜴\", \"甜\", \"炙\", \"幕\", \"不\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"秋\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"天\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"W\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"公\", \"蟀\", \"馍\", \"咐\", \"帝\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"←\", \"锅\", \"勃\", \"样\", \"光\", \"幅\", \"卷\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"J\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"瘀\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"明\", \"藤\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"廉\", \"道\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"I\", \"乒\", \"莘\", \"螃\", \"犬\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"。\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"吉\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"健\", \"嗨\", \"D\", \"衷\", \"点\", \"S\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"」\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"永\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"侍\", \"刊\", \"苛\", \"础\", \"佘\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"の\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"男\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"朝\", \"读\", \"蹒\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"戸\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"4\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"志\", \"较\", \"笛\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"版\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"井\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"嘤\", \"严\", \"春\", \"睑\", \"骏\", \"颉\", \"与\", \"骸\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"-\", \"偶\", \"莓\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"四\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"力\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"U\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"我\", \"煎\", \"颖\", \"九\", \"ê\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"伊\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"ù\", \"家\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"年\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"N\", \"阿\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"金\", \"呦\", \"估\", \"值\", \"雄\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"一\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"谷\", \"厮\", \"枉\", \"纷\", \"法\", \"婶\", \"方\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"幸\", \"写\", \"博\", \"补\", \"夕\", \"匾\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"C\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"E\", \"辈\", \"绽\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"8\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"é\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"價\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"和\", \"预\", \"娄\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"千\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"林\", \"瀚\", \"璃\", \"利\", \"矶\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"清\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"雳\", \"涕\", \"葩\", \"掠\", \"靛\", \"付\", \"豚\", \"为\", \"昊\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"〈\", \"摞\", \"霸\", \"唱\", \"再\", \"蟋\", \"郴\", \"徇\", \"异\", \"子\", \"会\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"á\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"原\", \"州\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"へ\", \"安\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"皇\", \"列\", \"阜\", \"珊\", \"麾\", \"被\", \"稍\", \"外\", \"痴\", \"阂\", \"裔\", \"胀\", \"李\", \"论\", \"首\", \"α\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"A\", \"洗\", \"纹\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"品\", \"〉\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"坂\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \")\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"成\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"蹴\", \"3\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"ς\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"門\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"仁\", \"激\", \"臆\", \"泥\", \"立\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"平\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"五\", \"引\", \"袍\", \"来\", \"锤\", \"畑\", \"讪\", \"忿\", \"疵\", \"ズ\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"之\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"堂\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"空\", \"赞\", \"動\", \"才\", \"斧\", \"翅\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"上\", \"绞\", \"洒\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"香\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"龚\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"O\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"佐\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"ο\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"信\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"夏\", \"助\", \"扣\", \"锂\", \"区\", \"捂\", \"芬\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"同\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"白\", \"梵\", \"9\", \"攸\", \"岑\", \"涉\", \"晰\", \"刚\", \"蝉\", \"M\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"H\", \"硕\", \"篷\", \"玉\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"漠\", \"哒\", \"畜\", \"伫\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"森\", \"柳\", \"料\", \"虽\", \"先\", \"呆\", \"浴\", \"俨\", \"鄯\", \"恰\", \"镉\", \"欢\", \"殉\", \"新\", \"办\", \"臂\", \"生\", \"惟\", \"7\", \"扼\", \"南\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"î\", \"遂\", \"《\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"出\", \"合\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"政\", \"状\", \"仲\", \"沸\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"水\", \"偎\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"\", \"施\", \"口\", \"载\", \"炸\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"P\", \"莴\", \"B\", \"税\", \"遥\", \"犀\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"山\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"名\", \"肃\", \"舆\", \"谬\", \"提\", \"军\", \"撞\", \"久\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"宇\", \"策\", \"瑨\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"石\", \"弈\", \"帜\", \"低\", \"动\", \"奸\", \"相\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"都\", \"泛\", \"奈\", \"喧\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"古\", \"广\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"弘\", \"挫\", \"饷\", \"英\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"、\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"后\", \"蠢\", \"锐\", \"正\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"Q\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"2\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"街\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"火\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"土\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"(\", \"指\", \"能\", \"沧\", \"6\", \"村\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \" \", \"檀\", \"血\", \"後\", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"必\", \"均\", \"无\", \"食\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"─\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"踱\", \"峨\", \"茄\", \"仕\", \"庄\", \"急\", \"浆\", \"舶\", \"桓\", \"进\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"御\", \"辩\", \"朔\", \"柠\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"尚\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"疹\", \"评\", \"好\", \"木\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"勇\", \"择\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"社\", \"岁\", \"战\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"比\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"夫\", \"鼓\", \"舰\", \"诫\", \"伉\", \"亭\", \"曾\", \"揉\", \"茂\", \"皙\", \"旷\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"内\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"也\", \"蚀\", \"狩\", \"歌\", \"啪\", \"聂\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"前\", \"唉\", \"0\", \"剔\", \"曹\", \"》\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"保\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"武\", \"固\", \"玄\", \"禾\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"郎\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"宗\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"X\", \"咖\", \"薯\", \"郡\", \"逆\", \"日\", \"传\", \"吹\", \"寺\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"江\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"ě\", \"莫\", \"美\", \"婚\", \"迭\", \"鹑\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"良\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"省\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"/\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"海\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"大\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"Z\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"定\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"分\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"元\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"京\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"T\", \"印\", \"○\", \"迩\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"5\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"心\", \"腹\", \"L\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"▪\", \"憋\", \"阎\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"月\", \"奥\", \"章\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"高\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"ト\", \"奖\", \"加\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"ç\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"田\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"野\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"Y\", \"绰\", \"苏\", \"e\", \"昭\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"太\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"』\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \":\", \"V\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"手\", \"溉\", \"摹\", \"拆\", \"瞪\", \"世\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"!\", \"啜\", \"人\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"↑\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"士\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"à\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"『\", \"膜\", \"邂\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"花\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"镇\", \"峻\", \"事\", \"眯\", \"晨\", \"宿\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"面\", \"R\", \"主\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"中\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"里\", \"搜\", \"芙\", \"厚\", \"★\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"星\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"真\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"二\", \"邸\", \"膳\", \"对\", \"目\", \"瑞\", \"测\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"擂\", \"何\", \"遮\", \"ό\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"下\", \"马\", \"裂\", \"瀛\", \"皑\", \"神\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "deepseek-ai/DeepSeek-V2 @ cc100/ar": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 2813283, - "_n_tokens": 1416103, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/de": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1814876, - "_n_tokens": 631152, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/en": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1124813, - "_n_tokens": 262324, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/es": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1664455, - "_n_tokens": 470524, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/fa": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 2054052, - "_n_tokens": 963451, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/fr": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1540504, - "_n_tokens": 497667, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/ja": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1774770, - "_n_tokens": 751467, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/ko": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 1524839, - "_n_tokens": 1071983, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/DeepSeek-V2 @ cc100/zh-Hans": { - "tokenizer": "DeepSeek-V2", - "organization": "DeepSeek", - "vocab_size": 100002, - "_n_bytes": 2633047, - "_n_tokens": 595081, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ar": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 2813283, - "_n_tokens": 1948863, - "_n_chars": 1560987, - "_n_oov_chars": 1, - "oov_ratio": 6.406203254735626e-07, - "_oov_charset": "[\"ö\"]", - "reversible": false - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/de": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1814876, - "_n_tokens": 735618, - "_n_chars": 1784021, - "_n_oov_chars": 13536, - "oov_ratio": 0.007587354633157345, - "_oov_charset": "[\"ø\", \"ö\", \"ú\", \"ü\", \"Á\", \"û\"]", - "reversible": false - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/en": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1124813, - "_n_tokens": 277408, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/es": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1664455, - "_n_tokens": 513884, - "_n_chars": 1630297, - "_n_oov_chars": 1637, - "oov_ratio": 0.0010041115207842497, - "_oov_charset": "[\"ø\", \"ö\", \"ú\", \"ý\", \"ü\", \"Á\"]", - "reversible": false - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/fa": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 2054052, - "_n_tokens": 1316109, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/fr": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1540504, - "_n_tokens": 527538, - "_n_chars": 1484970, - "_n_oov_chars": 557, - "oov_ratio": 0.00037509175269534066, - "_oov_charset": "[\"À\", \"û\", \"ü\", \"ù\"]", - "reversible": false - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ja": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1774770, - "_n_tokens": 1008060, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ko": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 1524839, - "_n_tokens": 1444805, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-coder-33b-instruct @ cc100/zh-Hans": { - "tokenizer": "deepseek-coder-33b-instruct", - "organization": "DeepSeek", - "vocab_size": 32022, - "_n_bytes": 2633047, - "_n_tokens": 710577, - "_n_chars": 927311, - "_n_oov_chars": 1, - "oov_ratio": 1.0783868626598843e-06, - "_oov_charset": "[\"ù\"]", - "reversible": false - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/ar": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 2813283, - "_n_tokens": 1416103, - "_n_chars": 1560987, - "_n_oov_chars": 1, - "oov_ratio": 6.406203254735626e-07, - "_oov_charset": "[\"ö\"]", - "reversible": false - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/de": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1814876, - "_n_tokens": 632573, - "_n_chars": 1784021, - "_n_oov_chars": 13536, - "oov_ratio": 0.007587354633157345, - "_oov_charset": "[\"ø\", \"ö\", \"ú\", \"ü\", \"Á\", \"û\"]", - "reversible": false - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/en": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1124813, - "_n_tokens": 262324, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/es": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1664455, - "_n_tokens": 470877, - "_n_chars": 1630297, - "_n_oov_chars": 1637, - "oov_ratio": 0.0010041115207842497, - "_oov_charset": "[\"ø\", \"ö\", \"ú\", \"ý\", \"ü\", \"Á\"]", - "reversible": false - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/fa": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 2054052, - "_n_tokens": 963451, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/fr": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1540504, - "_n_tokens": 497693, - "_n_chars": 1484970, - "_n_oov_chars": 557, - "oov_ratio": 0.00037509175269534066, - "_oov_charset": "[\"À\", \"û\", \"ü\", \"ù\"]", - "reversible": false - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/ja": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1774770, - "_n_tokens": 751467, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/ko": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 1524839, - "_n_tokens": 1071983, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "deepseek-ai/deepseek-llm-7b-base @ cc100/zh-Hans": { - "tokenizer": "deepseek-llm-7b-base", - "organization": "DeepSeek", - "vocab_size": 100015, - "_n_bytes": 2633047, - "_n_tokens": 595081, - "_n_chars": 927311, - "_n_oov_chars": 1, - "oov_ratio": 1.0783868626598843e-06, - "_oov_charset": "[\"ù\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/ar": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 2813283, - "_n_tokens": 311987, - "_n_chars": 1560987, - "_n_oov_chars": 1353091, - "oov_ratio": 0.8668175968153482, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"9\", \"G\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"×\", \"ۤ\", \"د\", \"۰\", \"d\", \"y\", \"٨\", \"X\", \"▫\", \"i\", \"®\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"a\", \"ٌ\", \"😊\", \"ج\", \"I\", \"h\", \"¡\", \"m\", \"‏\", \"♥\", \"ن\", \"7\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"b\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"v\", \"S\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"k\", \"‌\", \"Х\", \"﴿\", \"c\", \"؛\", \"Q\", \"٠\", \"l\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"V\", \"٧\", \"۷\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"B\", \"P\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"ä\", \"ص\", \"ّ\", \"ث\", \"n\", \"4\", \"6\", \"Z\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/de": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1814876, - "_n_tokens": 769053, - "_n_chars": 1784021, - "_n_oov_chars": 111086, - "oov_ratio": 0.06226720425376159, - "_oov_charset": "[\"©\", \"u\", \"¶\", \"İ\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"à\", \"☺\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"x\", \"Ø\", \"😀\", \"‚\", \"😦\", \"y\", \"X\", \"û\", \"H\", \"å\", \"ó\", \"I\", \"h\", \"\", \"č\", \"á\", \"♥\", \"â\", \"R\", \"œ\", \"ç\", \"Ã\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"™\", \"ú\", \"“\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"̈\", \"🙂\", \"E\", \"😂\", \"↩\", \"f\", \"U\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"A\", \"¬\", \"😈\", \"K\", \"L\", \"é\", \"k\", \"❤\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"l\", \"ü\", \"s\", \"😆\", \"​\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"g\", \"J\", \"­\", \"š\", \"B\", \"P\", \"`\", \"p\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"n\", \"Z\", \"♦\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/en": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1124813, - "_n_tokens": 373564, - "_n_chars": 1121360, - "_n_oov_chars": 31094, - "oov_ratio": 0.027728829278732967, - "_oov_charset": "[\"V\", \"U\", \"I\", \"¡\", \"S\", \"¦\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"‑\", \"é\", \"R\", \"P\", \"B\", \"Q\", \"😉\", \"X\", \"ï\", \"®\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"ñ\", \"\", \"“\", \"�\", \"Z\", \"´\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/es": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1664455, - "_n_tokens": 684804, - "_n_chars": 1630297, - "_n_oov_chars": 69237, - "oov_ratio": 0.04246894890930916, - "_oov_charset": "[\"✓\", \"V\", \"©\", \"М\", \"U\", \"I\", \"v\", \"É\", \"¡\", \"ý\", \"Á\", \"S\", \"„\", \"¿\", \"á\", \"N\", \"T\", \"G\", \"à\", \"W\", \"️\", \"Y\", \"ö\", \"í\", \"M\", \"è\", \"5\", \"A\", \"D\", \"z\", \"K\", \"J\", \"L\", \"é\", \"R\", \"­\", \"▷\", \"P\", \"B\", \"😀\", \"Í\", \"❤\", \"‘\", \"😦\", \"Q\", \"😉\", \"ò\", \"ü\", \"X\", \"🙁\", \"👍\", \"®\", \"H\", \"ª\", \"1\", \"’\", \"ñ\", \"C\", \"F\", \"Ñ\", \"ú\", \"✔\", \"\", \"Ú\", \"👏\", \"´\", \"Z\", \"4\", \"ô\", \"O\", \"Ó\", \"3\", \"🙂\", \"✖\", \"ó\", \"E\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/fa": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 2054052, - "_n_tokens": 254671, - "_n_chars": 1145876, - "_n_oov_chars": 1018200, - "oov_ratio": 0.8885778216840217, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"N\", \"G\", \"9\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"I\", \"h\", \"m\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"♥\", \"ن\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"v\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"K\", \"L\", \"t\", \"o\", \"k\", \"‌\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"ـ\", \"O\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"Z\", \"6\", \"4\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/fr": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1540504, - "_n_tokens": 618107, - "_n_chars": 1484970, - "_n_oov_chars": 66988, - "oov_ratio": 0.04511067563654485, - "_oov_charset": "[\"u\", \"♠\", \"N\", \"Â\", \"G\", \"à\", \"r\", \"è\", \"M\", \"À\", \"D\", \"x\", \"😀\", \"ã\", \"Ê\", \"X\", \"û\", \"®\", \"H\", \"Ô\", \"Ç\", \"I\", \"h\", \"í\", \"â\", \"ğ\", \"R\", \"œ\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"♕\", \"’\", \"F\", \"C\", \"™\", \"b\", \"�\", \"̂\", \"🙂\", \"E\", \"f\", \"U\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"A\", \"K\", \"L\", \"́\", \"é\", \"k\", \"❤\", \"c\", \"Q\", \"ü\", \"🤔\", \"ê\", \"2\", \"´\", \"ô\", \"O\", \"V\", \"Î\", \"ù\", \"̧\", \"J\", \"­\", \"P\", \"B\", \"…\", \"ä\", \"È\", \"Z\", \"v\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/ja": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1774770, - "_n_tokens": 318023, - "_n_chars": 603065, - "_n_oov_chars": 420994, - "oov_ratio": 0.6980905872501306, - "_oov_charset": "[\"a\", \"ー\", \"濫\", \"③\", \"蛍\", \"ペ\", \"嶽\", \"サ\", \"綜\", \"監\", \"9\", \"G\", \"セ\", \"慄\", \"f\", \"C\", \"e\", \"門\", \"釘\", \"め\", \"ァ\", \"資\", \"録\", \"針\", \"紐\", \"ラ\", \"D\", \"ベ\", \"諸\", \"ぃ\", \"x\", \"嘗\", \"載\", \"細\", \"よ\", \"須\", \"塗\", \"ハ\", \"飽\", \"膚\", \"に\", \".\", \"疎\", \"綾\", \"絡\", \"ヲ\", \"X\", \"僕\", \"妬\", \"I\", \"穫\", \"エ\", \"鉢\", \"欝\", \"噴\", \"聖\", \"絞\", \"損\", \"騰\", \"K\", \"貿\", \"貰\", \"蓮\", \"競\", \"別\", \"誠\", \"ぅ\", \"t\", \"a\", \"嘆\", \"R\", \"喩\", \"馬\", \"ク\", \"ィ\", \"導\", \"腎\", \"I\", \"嗚\", \"態\", \"・\", \"m\", \"筈\", \"勝\", \"オ\", \"撫\", \"罰\", \"讃\", \"糞\", \"て\", \"傾\", \"−\", \"¥\", \"澪\", \"夢\", \"🌙\", \"衝\", \"誘\", \"ょ\", \"話\", \"d\", \"縮\", \"遺\", \"協\", \"婦\", \"暦\", \"G\", \"ズ\", \"F\", \"緩\", \">\", \"認\", \"箋\", \"謳\", \"暁\", \"✨\", \"ロ\", \"靄\", \"債\", \"②\", \"師\", \"優\", \"犠\", \"時\", \"ぉ\", \"糾\", \"獲\", \"雲\", \"動\", \"呂\", \"財\", \"f\", \"ド\", \"為\", \"燭\", \"項\", \"銃\", \"゚\", \"藁\", \"鎮\", \"閣\", \"S\", \"轢\", \"暢\", \"穢\", \"視\", \"紙\", \"穏\", \"離\", \"\\", \"揚\", \"薦\", \"選\", \"論\", \"و\", \"擁\", \"鍋\", \"桟\", \"揮\", \"暫\", \"鳴\", \"ヵ\", \"&\", \"偉\", \"輩\", \"イ\", \"結\", \"韮\", \"陳\", \"詠\", \"決\", \"淵\", \"べ\", \"ゝ\", \"ヘ\", \"館\", \"コ\", \"謗\", \"渓\", \"ど\", \"誌\", \"診\", \"紅\", \"猟\", \"阪\", \"帳\", \"臨\", \"蘇\", \"瘍\", \"岡\", \"´\", \"ぽ\", \"緑\", \"鋲\", \"O\", \"瘻\", \"ゲ\", \"測\", \"礎\", \"槍\", \"る\", \"違\", \"頻\", \"ニ\", \"0\", \"嵐\", \"儀\", \"%\", \"キ\", \"貨\", \"マ\", \"|\", \"ご\", \"ュ\", \"/\", \"躊\", \"の\", \"慣\", \"パ\", \"審\", \"級\", \"侶\", \"g\", \"S\", \"゚\", \"[\", \"ガ\", \"礫\", \"勲\", \"億\", \"ぬ\", \"b\", \"訝\", \"臥\", \"X\", \"`\", \"計\", \"綴\", \"喪\", \"陣\", \"紹\", \"週\", \"佇\", \"轄\", \"隊\", \"敗\", \"輪\", \"躾\", \"騒\", \"賃\", \"っ\", \"棟\", \"貪\", \"ダ\", \"♪\", \"務\", \"許\", \"n\", \"✧\", \"4\", \"Z\", \"賛\", \"預\", \"顔\", \"④\", \"網\", \"間\", \"鶴\", \"]\", \"∀\", \"賭\", \"袴\", \"車\", \"鮮\", \"兎\", \"タ\", \"9\", \"彡\", \"鴻\", \"葉\", \"閉\", \"爾\", \"ㅂ\", \"を\", \"鳥\", \"M\", \"ナ\", \"還\", \"涼\", \"蒔\", \"ぞ\", \"ム\", \"規\", \"酔\", \"姦\", \"於\", \"軒\", \"M\", \"織\", \"訊\", \"y\", \"墳\", \"倫\", \"陽\", \"貫\", \"貧\", \"H\", \"養\", \"談\", \"難\", \"辿\", \"く\", \"錠\", \"ゃ\", \"員\", \"錬\", \"貼\", \"孫\", \"並\", \"ジ\", \"粋\", \"鬱\", \"準\", \"緻\", \"レ\", \"ケ\", \"風\", \"課\", \"が\", \"懇\", \"-\", \"餌\", \"悶\", \"戯\", \"遊\", \"墜\", \"▼\", \"4\", \"→\", \"衆\", \"諺\", \"Z\", \"7\", \"纒\", \"達\", \"ゾ\", \"誹\", \"冊\", \"艸\", \"℃\", \"は\", \"呟\", \"絆\", \"幾\", \"個\", \"ぼ\", \"か\", \"▷\", \"殻\", \"ボ\", \"罠\", \"緒\", \"庫\", \"D\", \"\", \"え\", \"漬\", \"ゥ\", \"ビ\", \"7\", \"劉\", \"逡\", \"ま\", \"謡\", \"娯\", \"h\", \"�\", \"◇\", \"呑\", \"∇\", \"P\", \"=\", \"開\", \"篤\", \"み\", \"題\", \"♡\", \"聾\", \"ポ\", \"撲\", \"訓\", \"賊\", \"△\", \"U\", \"銘\", \"誤\", \"遡\", \"挿\", \"訟\", \"飼\", \"運\", \"場\", \"ブ\", \"閃\", \"T\", \"○\", \"諾\", \"⇔\", \"隕\", \"嘩\", \"詰\", \"鏡\", \"識\", \"5\", \"奪\", \"ギ\", \"編\", \"L\", \"́\", \"誰\", \"ン\", \"o\", \"缶\", \"馳\", \"鉛\", \"顎\", \"強\", \"⻑\", \"\\b\", \"き\", \"ぐ\", \"砕\", \"💦\", \"闊\", \"潰\", \"れ\", \"馴\", \"モ\", \"ヴ\", \"麗\", \"_\", \"訂\", \"づ\", \"濃\", \"ス\", \"樹\", \"請\", \"テ\", \"ヤ\", \"詫\", \"誕\", \"ゥ\", \"バ\", \"😢\", \"゙\", \"腫\", \"砦\", \"鋭\", \"●\", \"賢\", \"T\", \"績\", \"綺\", \"艶\", \"ハ\", \"梱\", \"係\", \"¥\", \"w\", \"電\", \"慶\", \"飲\", \"採\", \"趨\", \"俵\", \"ピ\", \"訪\", \"惣\", \"衛\", \"カ\", \"詈\", \"ひ\", \"駒\", \"併\", \"滅\", \"棄\", \"斂\", \"`\", \"捜\", \"順\", \"灘\", \"虜\", \"も\", \"ソ\", \"調\", \"ぇ\", \"♫\", \"B\", \"P\", \"^\", \"恥\", \"闖\", \"謀\", \"巣\", \"Д\", \"憂\", \"橋\", \"問\", \"デ\", \"懸\", \"1\", \"ノ\", \"僅\", \"ぁ\", \"贅\", \"ト\", \"ノ\", \"ろ\", \"ウ\", \"ぎ\", \"ば\", \"N\", \"v\", \"y\", \"艦\", \"纏\", \"©\", \"療\", \"給\", \"醤\", \"紋\", \"お\", \"ら\", \"5\", \"譜\", \"n\", \"憲\", \"懐\", \"*\", \"農\", \"N\", \"貴\", \"約\", \"饉\", \"L\", \"絶\", \"積\", \"び\", \"鵜\", \"貸\", \"産\", \"譚\", \"討\", \"軸\", \"陥\", \"Q\", \"×\", \"緯\", \"嚥\", \"ぴ\", \"渦\", \"備\", \"東\", \"し\", \"質\", \"製\", \"奨\", \"\", \"~\", \"謂\", \"縦\", \"腸\", \"紗\", \"側\", \"ゞ\", \"繊\", \"飾\", \"け\", \"慮\", \"頂\", \"駕\", \"宮\", \"髭\", \"じ\", \"郵\", \"災\", \"鎖\", \"カ\", \"欄\", \"該\", \"顕\", \"■\", \"と\", \"g\", \"<\", \"誇\", \"匂\", \"😊\", \"醸\", \"劇\", \"長\", \"⇒\", \"曇\", \"鐘\", \"應\", \"メ\", \"V\", \"ヌ\", \"龍\", \"蝋\", \"塚\", \"ゆ\", \"彙\", \"⑪\", \"職\", \"墾\", \"輸\", \"o\", \"ワ\", \"欽\", \"醜\", \"↓\", \"こ\", \"▽\", \"憶\", \"コ\", \"曖\", \"鈴\", \"◯\", \"贈\", \"憤\", \"プ\", \"讐\", \"〇\", \"ざ\", \"鱈\", \"F\", \"潔\", \"C\", \"壌\", \"O\", \"盤\", \"E\", \"術\", \"純\", \"頷\", \"Ⅹ\", \"島\", \"贔\", \"遠\", \"謙\", \"鶏\", \"ョ\", \"ぷ\", \"標\", \"終\", \"̈\", \"漢\", \"統\", \"E\", \"躍\", \"償\", \"3\", \"ッ\", \"倉\", \"親\", \"す\", \"則\", \"H\", \"噛\", \"綱\", \"塊\", \"峠\", \"ャ\", \"縫\", \"喚\", \"Y\", \"異\", \"ぜ\", \"8\", \"締\", \"鞄\", \"e\", \"捗\", \"z\", \"K\", \"簡\", \"幣\", \"領\", \"見\", \"負\", \"銀\", \"記\", \"‼\", \"ゅ\", \"ツ\", \"㎞\", \"頑\", \"構\", \"Q\", \"舘\", \"報\", \"複\", \"況\", \"J\", \"膿\", \"s\", \"ヽ\", \"潤\", \"縞\", \"​\", \"だ\", \"機\", \"擬\", \"堅\", \"拠\", \"2\", \"̀\", \"ヒ\", \"傘\", \"書\", \"麹\", \"詮\", \"餃\", \"飴\", \"脈\", \"グ\", \"l\", \"V\", \"シ\", \"諦\", \"拝\", \"ィ\", \"贋\", \"猶\", \"額\", \"噂\", \"屓\", \"リ\", \"〟\", \"わ\", \"試\", \"創\", \" ̄\", \"貢\", \"熱\", \"貶\", \"ん\", \"鍛\", \"p\", \"唄\", \"過\", \"責\", \"組\", \"覗\", \"剰\", \"ォ\", \"渕\", \"飛\", \"費\", \"チ\", \"議\", \"ユ\", \"韓\", \"s\", \"ザ\", \"↑\", \"ヘ\", \"6\", \"無\", \"願\", \"蓋\", \"較\", \"繰\", \"詐\", \"罵\", \"u\", \"餓\", \"錯\", \"あ\", \"敵\", \"後\", \"連\", \"頃\", \"遜\", \"飢\", \"げ\", \"つ\", \"ア\", \"W\", \"@\", \"r\", \"確\", \"漁\", \"種\", \"啓\", \"範\", \"─\", \"繍\", \"〆\", \"窪\", \"層\", \"貯\", \"q\", \"脅\", \"懲\", \"フ\", \"捨\", \"釣\", \"゙\", \"た\", \"摯\", \"紀\", \"d\", \"勢\", \"賠\", \"軋\", \"i\", \"む\", \"掛\", \"®\", \"儲\", \"湯\", \"飯\", \"駿\", \"訴\", \"謎\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"餅\", \"納\", \"ア\", \"節\", \"ネ\", \"輿\", \"り\", \"そ\", \"駐\", \"築\", \"線\", \"楊\", \"國\", \"h\", \"漑\", \"貝\", \"ル\", \"謝\", \"詳\", \"ゴ\", \"磯\", \"輝\", \"彌\", \"汚\", \"環\", \"賀\", \"渇\", \"華\", \"頓\", \"フ\", \"ゎ\", \"へ\", \"R\", \"適\", \"ほ\", \"掃\", \"ヶ\", \"跡\", \"ち\", \"極\", \"設\", \"騙\", \"︎\", \"綻\", \"リ\", \"閲\", \"斉\", \"煙\", \"う\", \"澤\", \"々\", \"紡\", \"絨\", \"‐\", \"聞\", \"﨑\", \"m\", \"j\", \"\\u001b\", \"沖\", \"換\", \"襲\", \"語\", \"階\", \"謬\", \"奮\", \"😌\", \"廻\", \"響\", \"鉱\", \"b\", \"獄\", \"窮\", \"偽\", \"黙\", \"紛\", \"綬\", \"★\", \"穀\", \"ホ\", \"縛\", \"評\", \"講\", \"軟\", \"簗\", \"せ\", \"ウ\", \"拶\", \"瞭\", \"ゼ\", \"r\", \"裏\", \"託\", \"顧\", \"塵\", \"殺\", \"U\", \"鈍\", \"驚\", \"W\", \"軌\", \"業\", \"+\", \"陸\", \"ヨ\", \"頒\", \"緊\", \"殲\", \"憑\", \"痩\", \"軍\", \"摂\", \"A\", \"8\", \"Y\", \"幹\", \"ぱ\", \"頬\", \"ず\", \"t\", \"な\", \"尋\", \"賞\", \"k\", \"A\", \"❤\", \"揺\", \"c\", \"l\", \"掻\", \"2\", \"凱\", \" \", \"徹\", \"斬\", \"疇\", \"貞\", \"厭\", \"い\", \"ぶ\", \"購\", \"鍵\", \"B\", \"囁\", \"這\", \"籠\", \"☆\", \"習\", \"練\", \"魚\", \"詞\", \"ふ\", \"$\", \"枠\", \"壇\", \"樺\", \"霧\", \"傑\", \"◎\", \"閑\", \"ヾ\", \"張\", \"諏\", \"←\", \"頭\", \"詩\", \"輔\", \"訣\", \"煩\", \"メ\", \"0\", \"傷\", \"や\", \"愛\", \"賑\", \"園\", \"滲\", \"遙\", \"義\", \"護\", \"偵\", \"釈\", \"進\", \"ミ\", \"ね\", \"ロ\", \"際\", \"興\", \"牽\", \"棲\", \"J\", \"凍\", \"鯖\", \"復\", \"説\", \"β\", \"レ\", \"補\", \"i\", \"曽\", \"買\", \"寧\", \"筆\", \"執\", \"6\", \"薩\", \"楓\", \"w\", \"で\", \"販\", \"ェ\", \"訃\", \"テ\", \"さ\", \"類\", \"維\", \"現\", \"1\", \"ヨ\", \"陰\", \"遼\", \"羅\", \"減\", \"糧\", \"謄\", \"◡\", \"k\", \"ー\", \"3\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/ko": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 1524839, - "_n_tokens": 202771, - "_n_chars": 655190, - "_n_oov_chars": 487535, - "oov_ratio": 0.7441123948778217, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"갈\", \"싱\", \"체\", \"D\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"짠\", \"獻\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"뢰\", \"題\", \"너\", \"♡\", \"😂\", \"별\", \"△\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"專\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"붐\", \"女\", \"*\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"學\", \"툼\", \"F\", \"컸\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"聖\", \"션\", \"히\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"a\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"S\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"©\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"C\", \"문\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"8\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"韓\", \"s\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"國\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"돠\", \"🌵\", \"j\", \"서\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"왘\", \"樺\", \"흄\", \"릅\", \"💣\", \"촬\", \"층\", \"묶\", \"🏻\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"놨\", \"x\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"f\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"푸\", \"結\", \"陳\", \"배\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"峴\", \"챗\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"課\", \"듈\", \"뜸\", \"탐\", \"미\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"Q\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"6\", \"납\", \"後\", \" \", \"므\", \"릉\", \"發\", \"텅\", \"우\", \"켐\", \"펠\", \"랐\", \"습\", \"i\", \"®\", \"강\", \"뛸\", \"색\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"韜\", \"華\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"驚\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"燦\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"L\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"し\", \"류\", \"說\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"す\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"쉬\", \"謝\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"t\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"龍\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"內\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "eson/kplug-base-encoder @ cc100/zh-Hans": { - "tokenizer": "kplug", - "organization": "JD", - "vocab_size": 10261, - "_n_bytes": 2633047, - "_n_tokens": 882451, - "_n_chars": 927311, - "_n_oov_chars": 26378, - "oov_ratio": 0.02844568866324243, - "_oov_charset": "[\"a\", \"©\", \"翕\", \"網\", \"擤\", \"镏\", \"猡\", \"]\", \"據\", \"後\", \"\", \"ㄓ\", \"5\", \"n\", \" \", \"發\", \"N\", \"9\", \"G\", \"à\", \"⒀\", \"號\", \"確\", \"C\", \"門\", \"M\", \"資\", \"D\", \"鼯\", \"浠\", \"屣\", \"Ø\", \"牖\", \"於\", \".\", \"戢\", \"當\", \"浞\", \"X\", \"~\", \"倨\", \"H\", \"慮\", \"噴\", \"損\", \"馕\", \"\", \"員\", \"別\", \"p\", \"韫\", \"ě\", \"t\", \"疴\", \"並\", \"锒\", \"I\", \"鄯\", \"・\", \"-\", \"メ\", \"旆\", \"á\", \"ὐ\", \"V\", \"4\", \"壓\", \"穰\", \"彙\", \"韪\", \"へ\", \"R\", \"個\", \"o\", \"d\", \"ç\", \"⒁\", \"î\", \"犟\", \"ズ\", \"D\", \"\", \"7\", \"\", \"龇\", \"F\", \"C\", \"卻\", \"瑑\", \"�\", \"h\", \"狳\", \"★\", \"標\", \"\", \"時\", \"劑\", \"E\", \"r\", \"動\", \"3\", \"U\", \"為\", \"\\u0000\", \"託\", \"S\", \"運\", \"诨\", \"W\", \"T\", \"權\", \"犰\", \"+\", \"耩\", \"⒂\", \"Y\", \"選\", \"阽\", \"8\", \"亂\", \"5\", \"e\", \"鲎\", \"A\", \"8\", \"啐\", \"K\", \"L\", \"é\", \"\\u0005\", \"溘\", \"&\", \"瑥\", \"イ\", \"A\", \"強\", \"\\b\", \"\", \"⑿\", \"漲\", \"ό\", \"Q\", \"\\u0006\", \"_\", \"報\", \"2\", \" \", \"​\", \"阪\", \"ê\", \"逑\", \"\", \"O\", \"▪\", \"T\", \"麽\", \"鸩\", \"V\", \"0\", \"シ\", \"%\", \"旳\", \"電\", \"/\", \"採\", \"の\", \"⒌\", \"瑒\", \"撐\", \"娛\", \"⒃\", \"ù\", \"[\", \"J\", \"藉\", \"瑢\", \"黧\", \"併\", \"i\", \"ソ\", \"價\", \"P\", \"B\", \"瑧\", \"黩\", \"`\", \"內\", \"賣\", \"岣\", \"6\", \""\", \"薩\", \"篢\", \"ノ\", \"1\", \"ヨ\", \"\\u0007\", \"s\", \"灑\", \"ト\", \"瑨\", \"Z\", \"N\", \"讦\"]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/ar": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 2813283, - "_n_tokens": 1557671, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/de": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1814876, - "_n_tokens": 683401, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/en": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1124813, - "_n_tokens": 257070, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/es": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1664455, - "_n_tokens": 568539, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/fa": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 2054052, - "_n_tokens": 1285426, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/fr": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1540504, - "_n_tokens": 515669, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/ja": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1774770, - "_n_tokens": 600011, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/ko": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 1524839, - "_n_tokens": 1305249, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "fnlp/moss-moon-003-sft @ cc100/zh-Hans": { - "tokenizer": "moss-moon-003-sft", - "organization": "Fudan", - "vocab_size": 106072, - "_n_bytes": 2633047, - "_n_tokens": 557455, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/ar": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 2813283, - "_n_tokens": 1212449, - "_n_chars": 1560987, - "_n_oov_chars": 24459, - "oov_ratio": 0.015668932540757866, - "_oov_charset": "[\"م\", \"u\", \" \", \"۲\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"9\", \"ب\", \"‎\", \"ط\", \"ق\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"ۤ\", \"د\", \"۰\", \"٨\", \"▫\", \"i\", \"\", \"٦\", \"
\", \"ْ\", \"ٌ\", \"😊\", \"ج\", \"█\", \"‹\", \"‏\", \"ن\", \"7\", \"⤴\", \"ۚ\", \"ة\", \"ا\", \"ھ\", \"٪\", \"ئ\", \"ۗ\", \"ۖ\", \"َ\", \"ي\", \"آ\", \"٩\", \"‬\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"ح\", \"ت\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"١\", \"و\", \"8\", \"5\", \"L\", \"‌\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"B\", \"ل\", \"ء\", \"1\", \"ّ\", \"ص\", \"ث\", \"n\", \"4\", \"6\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/de": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1814876, - "_n_tokens": 711022, - "_n_chars": 1784021, - "_n_oov_chars": 530, - "oov_ratio": 0.0002970817047557176, - "_oov_charset": "[\"u\", \"↩\", \"f\", \"U\", \"😂\", \"h\", \"\", \"‹\", \"➔\", \"„\", \"S\", \" \", \"N\", \"T\", \"▼\", \"G\", \"☺\", \"¼\", \"😃\", \"M\", \"‎\", \"–\", \"g\", \"¤\", \"D\", \"K\", \"😈\", \"L\", \"t\", \"œ\", \"R\", \"k\", \"­\", \"❤\", \"😀\", \"Ã\", \"›\", \"😦\", \"🙄\", \"‽\", \"l\", \"😉\", \"w\", \"s\", \"🙁\", \"😆\", \"​\", \"Ÿ\", \"F\", \"ß\", \"™\", \"“\", \"b\", \"�\", \"😢\", \"̈\", \"🙂\", \"♡\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/en": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1124813, - "_n_tokens": 268022, - "_n_chars": 1121360, - "_n_oov_chars": 43, - "oov_ratio": 3.8346293786116855e-05, - "_oov_charset": "[\"”\", \"⑤\", \"⑩\", \"⑦\", \"“\", \"③\", \"😉\", \"\", \"�\", \"\", \"⑧\", \"¦\", \"😥\", \"​\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/es": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1664455, - "_n_tokens": 610231, - "_n_chars": 1630297, - "_n_oov_chars": 68, - "oov_ratio": 4.171019145591263e-05, - "_oov_charset": "[\"✓\", \"„\", \"️\", \"▷\", \"­\", \"❤\", \"😀\", \"‘\", \"😦\", \"😉\", \"🙁\", \"👍\", \"’\", \"✪\", \"✔\", \"\", \"👏\", \"🙂\", \"✖\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/fa": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 2054052, - "_n_tokens": 883078, - "_n_chars": 1145876, - "_n_oov_chars": 15476, - "oov_ratio": 0.01350582436494001, - "_oov_charset": "[\"م\", \" \", \"۲\", \"ض\", \"G\", \"9\", \"ب\", \"‎\", \"ط\", \"ق\", \"إ\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"i\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"۳\", \"ט\", \"️\", \"‏\", \"♥\", \"ن\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"8\", \"5\", \"A\", \"t\", \"k\", \"‌\", \"❤\", \"ڪ\", \"c\", \"›\", \"؛\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"ـ\", \"ٍ\", \"ش\", \"۷\", \"س\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"­\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"4\", \"6\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/fr": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1540504, - "_n_tokens": 563220, - "_n_chars": 1484970, - "_n_oov_chars": 57, - "oov_ratio": 3.8384613830582436e-05, - "_oov_charset": "[\"f\", \"T\", \"̧\", \"℃\", \"­\", \"😀\", \"❤\", \"😉\", \"Ê\", \"🤔\", \"H\", \"♕\", \"’\", \"Ô\", \"F\", \"C\", \"…\", \"™\", \"�\", \"̂\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/ja": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1774770, - "_n_tokens": 390483, - "_n_chars": 603065, - "_n_oov_chars": 340147, - "oov_ratio": 0.5640304113155299, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"G\", \"又\", \"族\", \"C\", \"多\", \"婆\", \"D\", \"ラ\", \"ぃ\", \"✨\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \".\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"示\", \"服\", \"腎\", \"皿\", \"態\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"代\", \"箭\", \"喜\", \"g\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"紹\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"布\", \"杏\", \"歓\", \"撮\", \"網\", \"間\", \"郷\", \"タ\", \"閉\", \"教\", \"有\", \"八\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"貧\", \"余\", \"派\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"忠\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"→\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"宣\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"場\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"崎\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"的\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"靴\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"滝\", \"橋\", \"問\", \"旦\", \"副\", \"1\", \"核\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"v\", \"艦\", \"麓\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"秀\", \"完\", \"限\", \"学\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"地\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"行\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"鈴\", \"憤\", \"プ\", \"讐\", \"F\", \"令\", \"嫁\", \"頷\", \"盤\", \"術\", \"治\", \"純\", \"薙\", \"遠\", \"標\", \"算\", \"民\", \"店\", \"則\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"K\", \"曲\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"ヒ\", \"傘\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"耳\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"p\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"介\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"?\", \"詐\", \"u\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"r\", \"索\", \"戦\", \"啓\", \"垠\", \"窪\", \"〆\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"楊\", \"匡\", \"h\", \"浄\", \"止\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"ヶ\", \"設\", \"幕\", \"不\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"秋\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"W\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"c\", \"l\", \"凱\", \"疇\", \"帝\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"J\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"e\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"庁\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"エ\", \"著\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"a\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"I\", \"潟\", \"壊\", \"m\", \"勝\", \"恒\", \"傾\", \"巨\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"健\", \"銃\", \"閣\", \"衷\", \"点\", \"S\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"岡\", \"´\", \"鋲\", \"永\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"男\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"朝\", \"支\", \"乏\", \"佇\", \"攻\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"4\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"志\", \"勘\", \"兎\", \"葉\", \"爾\", \"ㅂ\", \"を\", \"還\", \"ム\", \"規\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"汗\", \"黄\", \"春\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"四\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"U\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"委\", \"誰\", \"覆\", \"o\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"我\", \"ス\", \"樹\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"伊\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"ハ\", \"蛇\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"家\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"茨\", \"N\", \"途\", \"纏\", \"他\", \"お\", \"云\", \"農\", \"N\", \"阿\", \"貴\", \"赦\", \"要\", \"弁\", \"貸\", \"雄\", \"脇\", \"矢\", \"任\", \"ぴ\", \"愕\", \"漫\", \"\", \"拷\", \"飾\", \"慮\", \"糖\", \"貌\", \"郵\", \"鎖\", \"カ\", \"法\", \"該\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"幸\", \"ゆ\", \"写\", \"博\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"C\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"唇\", \"伏\", \"姥\", \"営\", \"E\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"8\", \"革\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"千\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"清\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"q\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"d\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"〈\", \"唱\", \"再\", \"桁\", \"😭\", \"Ⅶ\", \"ア\", \"会\", \"数\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"掃\", \"極\", \"胚\", \"発\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"j\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"被\", \"外\", \"痴\", \"塵\", \"U\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"A\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"品\", \"練\", \"詞\", \"ふ\", \"〉\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"坂\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"成\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"3\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"ァ\", \"針\", \"資\", \"沢\", \"丁\", \"腫\", \"激\", \"x\", \"須\", \"泥\", \"立\", \"臆\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"五\", \"引\", \"暦\", \"来\", \"栽\", \"ズ\", \"蒙\", \"倍\", \"之\", \"球\", \"瓦\", \"舞\", \"歪\", \"堂\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"空\", \"呂\", \"斧\", \"才\", \"f\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"洒\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"香\", \"侵\", \"客\", \"移\", \"結\", \"陳\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"O\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"信\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"夏\", \"助\", \"丼\", \"ダ\", \"区\", \"n\", \"賛\", \"背\", \"預\", \"顔\", \"工\", \"朗\", \"炉\", \"賭\", \"蠍\", \"9\", \"M\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"y\", \"倫\", \"稀\", \"散\", \"H\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"ケ\", \"略\", \"森\", \"課\", \"呆\", \"料\", \"悶\", \"先\", \"浴\", \"恰\", \"墜\", \"7\", \"纒\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"ゥ\", \"哀\", \"尽\", \"出\", \"劉\", \"合\", \"ま\", \"割\", \"且\", \"状\", \"政\", \"仲\", \"沸\", \"∇\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"腔\", \"末\", \"電\", \"煮\", \"採\", \"重\", \"施\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"P\", \"B\", \"^\", \"遥\", \"税\", \"句\", \"睦\", \"丘\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"名\", \"懸\", \"提\", \"昇\", \"久\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"宇\", \"策\", \"ノ\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"低\", \"相\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"都\", \"奈\", \"じ\", \"捏\", \"漏\", \"烈\", \"古\", \"■\", \"磨\", \"弥\", \"忙\", \"⇒\", \"應\", \"桑\", \"摩\", \"慈\", \"崔\", \"挫\", \"英\", \"勉\", \"ワ\", \"↓\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"z\", \"幣\", \"見\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"Q\", \"報\", \"況\", \"J\", \"s\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"2\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"街\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"火\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"指\", \"能\", \"6\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"後\", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"署\", \"摘\", \"─\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"i\", \"循\", \"®\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"御\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"貝\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"菊\", \"頓\", \"華\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"比\", \"b\", \"窒\", \"至\", \"綬\", \"鼓\", \"亭\", \"揉\", \"ホ\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"軍\", \"内\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"也\", \"狩\", \"歌\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"前\", \"詩\", \"0\", \"傷\", \"曹\", \"や\", \"箇\", \"園\", \"瞑\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"保\", \"執\", \"楓\", \"w\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"槃\", \"射\", \"嶽\", \"允\", \"綜\", \"瀬\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"宗\", \"に\", \"鹿\", \"豪\", \"捕\", \"X\", \"逆\", \"吹\", \"寺\", \"絞\", \"騰\", \"礁\", \"甚\", \"婚\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"−\", \"澪\", \"筋\", \"情\", \"典\", \"良\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"氷\", \"次\", \"ガ\", \"[\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"Z\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"定\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"分\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"風\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"元\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"篤\", \"逸\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"T\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"5\", \"編\", \"郭\", \"腹\", \"L\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"章\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"贅\", \"随\", \"捺\", \"ト\", \"加\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"漢\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"ャ\", \"娠\", \"烙\", \"Y\", \"鞄\", \"締\", \"昭\", \"e\", \"最\", \"簡\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \"V\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"手\", \"〟\", \"世\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"啜\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"叫\", \"株\", \"丸\", \"蝶\", \"俳\", \"荘\", \"条\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"面\", \"主\", \"R\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"m\", \"措\", \"語\", \"謬\", \"洩\", \"獄\", \"黙\", \"里\", \"厚\", \"★\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"ウ\", \"用\", \"拶\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"仮\", \"頬\", \"邸\", \"目\", \"瑞\", \"」\", \"t\", \"尋\", \"尺\", \"果\", \"k\", \"景\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"張\", \"在\", \"煩\", \"榴\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"販\", \"訃\", \"裂\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/ko": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 1524839, - "_n_tokens": 202828, - "_n_chars": 655190, - "_n_oov_chars": 472711, - "oov_ratio": 0.7214868969306614, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"族\", \"갈\", \"싱\", \"체\", \"多\", \"D\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"德\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"罰\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"代\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"有\", \"八\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"的\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"1\", \"숏\", \"福\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"地\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"行\", \"벽\", \"甲\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"F\", \"컸\", \"治\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"民\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"不\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"秋\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"帝\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"a\", \"孝\", \"敬\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"S\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"永\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"男\", \"朝\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"志\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"春\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"家\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"途\", \"戊\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"雄\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"法\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"C\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"8\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"〈\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"j\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"被\", \"外\", \"얄\", \"앰\", \"림\", \"蚩\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"〉\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"씹\", \"資\", \"논\", \"빤\", \"놨\", \"x\", \"됬\", \"立\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"五\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"之\", \"원\", \"갱\", \"레\", \"堂\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"f\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"푸\", \"客\", \"結\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"信\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"哀\", \"획\", \"뭉\", \"出\", \"젝\", \"合\", \"쩌\", \"탓\", \"페\", \"政\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"相\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"古\", \"■\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"생\", \"♥\", \"대\", \"융\", \"摩\", \"묵\", \"英\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"Q\", \"劫\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"火\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"6\", \"常\", \"납\", \"後\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"i\", \"侯\", \"강\", \"뛸\", \"색\", \"御\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"好\", \"韜\", \"華\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"比\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"宗\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"分\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"L\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"章\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"昭\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"手\", \"껑\", \"땡\", \"돼\", \"世\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"面\", \"R\", \"主\", \"웠\", \"適\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"里\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"目\", \"t\", \"」\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"는\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google-bert/bert-base-cased @ cc100/zh-Hans": { - "tokenizer": "bert-base-cased", - "organization": "Google", - "vocab_size": 28996, - "_n_bytes": 2633047, - "_n_tokens": 879709, - "_n_chars": 927311, - "_n_oov_chars": 690347, - "oov_ratio": 0.7444611354766631, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"又\", \"鱼\", \"族\", \"⒀\", \"C\", \"撬\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \".\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"狸\", \"页\", \"挈\", \"吆\", \"\", \"贵\", \"噌\", \"德\", \"贱\", \"杆\", \"浙\", \"汐\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"示\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"代\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"有\", \"八\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"忠\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"氰\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"宣\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"近\", \"培\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"崎\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"的\", \"杭\", \"【\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"偿\", \"衬\", \"撐\", \"靴\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"1\", \"笃\", \"核\", \"找\", \"闻\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"麓\", \"栖\", \"瞠\", \"葆\", \"潭\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"秀\", \"陵\", \"戳\", \"完\", \"戾\", \"限\", \"学\", \"冯\", \"睐\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"地\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"~\", \"陈\", \"裙\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"行\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"锥\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \"令\", \"嫁\", \"治\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"民\", \"店\", \"嫂\", \"书\", \"跃\", \"耙\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"痊\", \"曲\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"耳\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"介\", \"骰\", \"捧\", \"体\", \"?\", \"疼\", \"邻\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"梦\", \"沾\", \"增\", \"渠\", \"饰\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"止\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"冰\", \"蜴\", \"甜\", \"炙\", \"幕\", \"不\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"秋\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"蟀\", \"馍\", \"咐\", \"帝\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"锅\", \"勃\", \"样\", \"卷\", \"幅\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"瘀\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"廉\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"乒\", \"莘\", \"螃\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"健\", \"嗨\", \"D\", \"衷\", \"点\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"永\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"苛\", \"刊\", \"佘\", \"础\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"男\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"朝\", \"读\", \"蹒\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"4\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"志\", \"较\", \"笛\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"嘤\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"骸\", \"严\", \"春\", \"睑\", \"骏\", \"颉\", \"与\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"莓\", \"偶\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"四\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"我\", \"煎\", \"颖\", \"九\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"伊\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"家\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"阿\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"呦\", \"估\", \"值\", \"雄\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"厮\", \"枉\", \"纷\", \"法\", \"婶\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"幸\", \"写\", \"博\", \"补\", \"夕\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"绽\", \"辈\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"8\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"娄\", \"预\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"千\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"瀚\", \"矶\", \"璃\", \"利\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"清\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"涕\", \"葩\", \"掠\", \"靛\", \"付\", \"豚\", \"为\", \"昊\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"〈\", \"摞\", \"霸\", \"唱\", \"再\", \"蟋\", \"郴\", \"徇\", \"异\", \"会\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"へ\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"阜\", \"列\", \"珊\", \"麾\", \"被\", \"稍\", \"外\", \"痴\", \"阂\", \"裔\", \"胀\", \"论\", \"首\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"纹\", \"洗\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"品\", \"〉\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"坂\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"成\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"蹴\", \"3\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"激\", \"臆\", \"泥\", \"立\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"五\", \"引\", \"袍\", \"来\", \"锤\", \"畑\", \"讪\", \"忿\", \"疵\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"之\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"堂\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"空\", \"赞\", \"動\", \"才\", \"斧\", \"翅\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"洒\", \"绞\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"香\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"龚\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"信\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"夏\", \"助\", \"扣\", \"锂\", \"区\", \"捂\", \"芬\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"梵\", \"9\", \"攸\", \"岑\", \"涉\", \"晰\", \"刚\", \"蝉\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"篷\", \"硕\", \"玉\", \"漠\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"哒\", \"伫\", \"畜\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"森\", \"柳\", \"料\", \"虽\", \"先\", \"呆\", \"浴\", \"俨\", \"鄯\", \"恰\", \"镉\", \"欢\", \"殉\", \"办\", \"臂\", \"惟\", \"7\", \"扼\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"遂\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"出\", \"合\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"政\", \"状\", \"仲\", \"沸\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"偎\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"施\", \"载\", \"炸\", \"匾\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"税\", \"莴\", \"遥\", \"犀\", \"價\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"名\", \"肃\", \"舆\", \"谬\", \"提\", \"军\", \"撞\", \"久\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"宇\", \"策\", \"瑨\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"帜\", \"弈\", \"低\", \"动\", \"奸\", \"相\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"都\", \"泛\", \"奈\", \"喧\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"古\", \"广\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"弘\", \"挫\", \"饷\", \"英\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"后\", \"蠢\", \"锐\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"2\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"街\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"火\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"指\", \"能\", \"沧\", \"6\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \"後\", \"檀\", \"血\", \" \", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"必\", \"均\", \"无\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"踱\", \"峨\", \"茄\", \"仕\", \"庄\", \"急\", \"浆\", \"舶\", \"桓\", \"进\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"御\", \"辩\", \"朔\", \"柠\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"疹\", \"评\", \"好\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"择\", \"勇\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"战\", \"岁\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"比\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"亭\", \"鼓\", \"舰\", \"诫\", \"伉\", \"揉\", \"曾\", \"旷\", \"茂\", \"皙\", \"\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"内\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"也\", \"蚀\", \"狩\", \"歌\", \"啪\", \"聂\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"前\", \"唉\", \"0\", \"剔\", \"曹\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"保\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"固\", \"玄\", \"禾\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"宗\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"咖\", \"薯\", \"逆\", \"传\", \"吹\", \"寺\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"莫\", \"婚\", \"鹑\", \"迭\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"良\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"定\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"分\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"元\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"迩\", \"印\", \"○\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"5\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"腹\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"▪\", \"憋\", \"阎\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"章\", \"奥\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"奖\", \"加\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"雳\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"绰\", \"苏\", \"e\", \"昭\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"手\", \"溉\", \"摹\", \"拆\", \"瞪\", \"世\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"啜\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"邂\", \"膜\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"镇\", \"峻\", \"眯\", \"晨\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"面\", \"主\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"里\", \"搜\", \"芙\", \"厚\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"邸\", \"膳\", \"对\", \"目\", \"瑞\", \"测\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"擂\", \"何\", \"遮\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"马\", \"裂\", \"瀛\", \"皑\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/ar": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 2813283, - "_n_tokens": 516389, - "_n_chars": 1560987, - "_n_oov_chars": 429523, - "oov_ratio": 0.27516116405838104, - "_oov_charset": "[\"م\", \"u\", \" \", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"G\", \"9\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"q\", \"x\", \"ذ\", \"😀\", \"خ\", \"“\", \"×\", \"د\", \"ۤ\", \"۰\", \"d\", \"y\", \"٨\", \"X\", \"τ\", \"▫\", \"i\", \"®\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"’\", \"a\", \"ٌ\", \"😊\", \"ج\", \"I\", \"h\", \"¡\", \"m\", \"‏\", \"…\", \"ن\", \"χ\", \"7\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"”\", \"ئ\", \"٪\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"آ\", \"٩\", \"j\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ٰ\", \"ظ\", \"½\", \"﴾\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"f\", \"U\", \"μ\", \"—\", \"v\", \"S\", \"α\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"–\", \"k\", \"‌\", \"Х\", \"﴿\", \"c\", \"؛\", \"Q\", \"٠\", \"l\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"V\", \"٧\", \"۷\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"g\", \"J\", \"٤\", \"B\", \"P\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"ä\", \"ص\", \"ّ\", \"ث\", \"n\", \"η\", \"4\", \"Z\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/de": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1814876, - "_n_tokens": 541246, - "_n_chars": 1784021, - "_n_oov_chars": 168627, - "oov_ratio": 0.09452074835441959, - "_oov_charset": "[\"u\", \"¶\", \"İ\", \" \", \"ς\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"9\", \"à\", \"ć\", \"r\", \"e\", \"¼\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"q\", \"x\", \"Ø\", \"😀\", \"‚\", \"“\", \"😦\", \"y\", \"d\", \"τ\", \"X\", \"û\", \"i\", \"H\", \"°\", \"å\", \"’\", \"a\", \"ó\", \"€\", \"I\", \"h\", \"\", \"č\", \"m\", \"á\", \"…\", \"7\", \"â\", \"”\", \"R\", \"œ\", \"ç\", \"ε\", \"Ã\", \"ρ\", \"😉\", \"ï\", \"‐\", \"j\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"¹\", \"ú\", \"“\", \"b\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"̈\", \"🙂\", \"E\", \"😂\", \"↩\", \"f\", \"U\", \"—\", \"É\", \"S\", \"α\", \"ι\", \"W\", \"T\", \"ö\", \"Y\", \"8\", \"5\", \"A\", \"¬\", \"z\", \"😈\", \"K\", \"L\", \"é\", \"t\", \"o\", \"k\", \"–\", \"ė\", \"c\", \"🙄\", \"Q\", \"Ö\", \"l\", \"ü\", \"s\", \"😆\", \"​\", \"ø\", \"‘\", \"2\", \"ß\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"0\", \"²\", \"g\", \"¤\", \"J\", \"­\", \"š\", \"P\", \"B\", \"`\", \"p\", \"Ü\", \"‽\", \"w\", \"ư\", \"🙁\", \"1\", \"ä\", \"n\", \"Z\", \"6\", \"4\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/en": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1124813, - "_n_tokens": 357068, - "_n_chars": 1121360, - "_n_oov_chars": 40103, - "oov_ratio": 0.0357628237140615, - "_oov_charset": "[\"u\", \" \", \"¦\", \"N\", \"G\", \"r\", \"e\", \"M\", \"è\", \"D\", \"q\", \"x\", \"“\", \"d\", \"y\", \"X\", \"i\", \"H\", \"’\", \"a\", \"ó\", \"I\", \"h\", \"¡\", \"m\", \"”\", \"…\", \"7\", \"”\", \"‑\", \"R\", \"😉\", \"ï\", \"j\", \"F\", \"C\", \"ñ\", \"\", \"“\", \"b\", \"�\", \"\", \"🙂\", \"E\", \"f\", \"U\", \"—\", \"S\", \"W\", \"T\", \"Y\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"k\", \"–\", \"c\", \"Q\", \"l\", \"s\", \"😥\", \"​\", \"‘\", \"2\", \"´\", \"O\", \"V\", \"0\", \"g\", \"J\", \"B\", \"P\", \"p\", \"w\", \"1\", \"n\", \"Z\", \"6\", \"4\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/es": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1664455, - "_n_tokens": 589419, - "_n_chars": 1630297, - "_n_oov_chars": 87363, - "oov_ratio": 0.053587168472983754, - "_oov_charset": "[\"u\", \" \", \"¿\", \"N\", \"G\", \"à\", \"9\", \"r\", \"e\", \"M\", \"è\", \"D\", \"q\", \"x\", \"😀\", \"Í\", \"“\", \"😦\", \"y\", \"d\", \"ò\", \"X\", \"i\", \"º\", \"®\", \"H\", \"ª\", \"°\", \"Ñ\", \"\", \"👏\", \"’\", \"a\", \"ó\", \"h\", \"I\", \"¡\", \"ý\", \"m\", \"á\", \"️\", \"…\", \"í\", \"7\", \"”\", \"R\", \"▷\", \"😉\", \"j\", \"’\", \"ñ\", \"C\", \"F\", \"ú\", \"b\", \"Ú\", \"🙂\", \"E\", \"✓\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"ö\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"–\", \"k\", \"❤\", \"‘\", \"c\", \"Q\", \"l\", \"ü\", \"s\", \"ø\", \"‘\", \"2\", \"´\", \"ô\", \"O\", \"Ó\", \"М\", \"V\", \"Á\", \"„\", \"0\", \"g\", \"J\", \"­\", \"P\", \"B\", \"p\", \"w\", \"🙁\", \"1\", \"―\", \"n\", \"Z\", \"4\", \"6\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/fa": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 2054052, - "_n_tokens": 376414, - "_n_chars": 1145876, - "_n_oov_chars": 362839, - "oov_ratio": 0.31664770010018534, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"N\", \"G\", \"9\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"q\", \"x\", \"ذ\", \"خ\", \"“\", \"×\", \"د\", \"۰\", \"y\", \"d\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"’\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"h\", \"I\", \"m\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"”\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"j\", \"ۆ\", \"F\", \"C\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"f\", \"U\", \"v\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"t\", \"o\", \"k\", \"‌\", \"–\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"٫\", \"ـ\", \"O\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"g\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"w\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"4\", \"6\", \"Z\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/fr": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1540504, - "_n_tokens": 533134, - "_n_chars": 1484970, - "_n_oov_chars": 89357, - "oov_ratio": 0.0601742796150764, - "_oov_charset": "[\"u\", \" \", \"N\", \"Â\", \"G\", \"à\", \"9\", \"r\", \"e\", \"è\", \"M\", \"À\", \"D\", \"q\", \"x\", \"😀\", \"“\", \"y\", \"d\", \"ã\", \"Ê\", \"X\", \"û\", \"i\", \"®\", \"H\", \"°\", \"Ô\", \"’\", \"Ç\", \"a\", \"h\", \"I\", \"m\", \"…\", \"í\", \"7\", \"â\", \"ğ\", \"”\", \"R\", \"œ\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"j\", \"♕\", \"’\", \"F\", \"C\", \"™\", \"b\", \"�\", \"̂\", \"🙂\", \"E\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"Y\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"́\", \"é\", \"t\", \"o\", \"k\", \"–\", \"c\", \"Q\", \"l\", \"ü\", \"s\", \"🤔\", \"ê\", \"2\", \"‘\", \"´\", \"ô\", \"O\", \"V\", \"0\", \"Î\", \"ù\", \"g\", \"̧\", \"J\", \"­\", \"P\", \"B\", \"p\", \"w\", \"1\", \"…\", \"ä\", \"È\", \"―\", \"n\", \"Z\", \"6\", \"4\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/ja": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1774770, - "_n_tokens": 376831, - "_n_chars": 603065, - "_n_oov_chars": 154683, - "oov_ratio": 0.2564947393730361, - "_oov_charset": "[\"ー\", \"③\", \"蛍\", \"ペ\", \"サ\", \"9\", \"G\", \"セ\", \"f\", \"C\", \"e\", \"め\", \"ァ\", \"∀\", \"D\", \"ラ\", \"ぃ\", \"ベ\", \"✨\", \"x\", \"ハ\", \"よ\", \"に\", \"疎\", \"ヲ\", \"X\", \"妬\", \"I\", \"エ\", \"鉢\", \"欝\", \"K\", \"’\", \"ぅ\", \"a\", \"R\", \"喩\", \"ク\", \"ィ\", \"I\", \"筈\", \"m\", \"オ\", \"讃\", \"て\", \"…\", \"−\", \"¥\", \"澪\", \"🌙\", \"ょ\", \"d\", \"暦\", \"G\", \"ズ\", \"F\", \"謳\", \"暁\", \"ロ\", \"②\", \"犠\", \"ぉ\", \"f\", \"ド\", \"゚\", \"—\", \"藁\", \"S\", \"轢\", \"穏\", \"و\", \"桟\", \"ヵ\", \"韮\", \"イ\", \"べ\", \"ヘ\", \"コ\", \"渓\", \"ど\", \"猟\", \"´\", \"ぽ\", \"鋲\", \"瘻\", \"O\", \"ゲ\", \"る\", \"ニ\", \"0\", \"キ\", \"マ\", \"ご\", \"ュ\", \"の\", \"パ\", \"g\", \"S\", \"゚\", \"ガ\", \"勲\", \"ぬ\", \"b\", \"X\", \"`\", \"躾\", \"騒\", \"っ\", \"ダ\", \"―\", \"♪\", \"n\", \"✧\", \"Z\", \"賛\", \"4\", \"袴\", \"兎\", \"タ\", \"9\", \"彡\", \"ㅂ\", \"を\", \"M\", \"ナ\", \"ぞ\", \"ム\", \"酔\", \"M\", \"y\", \"H\", \"辿\", \"く\", \"ゃ\", \"錬\", \"ジ\", \"粋\", \"レ\", \"ケ\", \"が\", \"戯\", \"▼\", \"4\", \"→\", \"Z\", \"7\", \"纒\", \"ゾ\", \"艸\", \"は\", \"呟\", \"ぼ\", \"か\", \"▷\", \"殻\", \"ボ\", \"罠\", \"D\", \"\", \"え\", \"ゥ\", \"ビ\", \"7\", \"逡\", \"ま\", \"謡\", \"娯\", \"h\", \"�\", \"◇\", \"呑\", \"∇\", \"P\", \"=\", \"み\", \"♡\", \"ポ\", \"U\", \"遡\", \"挿\", \"ブ\", \"T\", \"○\", \"⇔\", \"5\", \"ギ\", \"L\", \"́\", \"ン\", \"o\", \"缶\", \"–\", \"⻑\", \"\\b\", \"き\", \"ぐ\", \"砕\", \"💦\", \"れ\", \"ヴ\", \"モ\", \"づ\", \"ス\", \"テ\", \"ヤ\", \"ゥ\", \"バ\", \"😢\", \"゙\", \"砦\", \"鋭\", \"●\", \"T\", \"艶\", \"ハ\", \"梱\", \"w\", \"俵\", \"ピ\", \"惣\", \"カ\", \"詈\", \"ひ\", \"`\", \"捜\", \"も\", \"ソ\", \"ぇ\", \"B\", \"P\", \"^\", \"巣\", \"Д\", \"デ\", \"1\", \"ノ\", \"ぁ\", \"ト\", \"ノ\", \"ろ\", \"ウ\", \"ば\", \"v\", \"ぎ\", \"N\", \"y\", \"醤\", \"お\", \"5\", \"ら\", \"懐\", \"N\", \"饉\", \"L\", \"び\", \"陥\", \"Q\", \"×\", \"ぴ\", \"奨\", \"し\", \"\", \"縦\", \"~\", \"繊\", \"ゞ\", \"け\", \"髭\", \"じ\", \"カ\", \"顕\", \"■\", \"と\", \"醸\", \"匂\", \"😊\", \"⇒\", \"メ\", \"V\", \"ヌ\", \"蝋\", \"ゆ\", \"⑪\", \"”\", \"ワ\", \"↓\", \"こ\", \"▽\", \"コ\", \"◯\", \"プ\", \"讐\", \"ざ\", \"F\", \"C\", \"壌\", \"O\", \"E\", \"Ⅹ\", \"贔\", \"鶏\", \"ョ\", \"ぷ\", \"̈\", \"E\", \"3\", \"ッ\", \"す\", \"H\", \"噛\", \"峠\", \"ャ\", \"Y\", \"ぜ\", \"8\", \"鞄\", \"捗\", \"z\", \"K\", \"‼\", \"ゅ\", \"ツ\", \"㎞\", \"Q\", \"舘\", \"J\", \"s\", \"ヽ\", \"縞\", \"​\", \"だ\", \"拠\", \"2\", \"̀\", \"ヒ\", \"麹\", \"飴\", \"グ\", \"V\", \"シ\", \"ィ\", \"拝\", \"贋\", \"噂\", \"屓\", \"リ\", \"〟\", \"わ\", \"ん\", \"p\", \"覗\", \"剰\", \"ォ\", \"渕\", \"チ\", \"ユ\", \"ザ\", \"ヘ\", \"6\", \"繰\", \"u\", \"あ\", \" \", \"げ\", \"つ\", \"ア\", \"W\", \"r\", \"─\", \"繍\", \"〆\", \"q\", \"フ\", \"“\", \"゙\", \"た\", \"d\", \"i\", \"む\", \"®\", \"Ⅱ\", \"😭\", \"Ⅶ\", \"ア\", \"ネ\", \"そ\", \"り\", \"h\", \"漑\", \"ル\", \"ゴ\", \"汚\", \"渇\", \"フ\", \"ゎ\", \"へ\", \"R\", \"ほ\", \"ヶ\", \"ち\", \"︎\", \"リ\", \"斉\", \"う\", \"々\", \"‐\", \"\\u001b\", \"﨑\", \"m\", \"j\", \"😌\", \"廻\", \"b\", \"鉱\", \"黙\", \"★\", \"ホ\", \"簗\", \"せ\", \"ウ\", \"拶\", \"μ\", \"ゼ\", \"U\", \"W\", \"+\", \"ヨ\", \"痩\", \"摂\", \"A\", \"8\", \"Y\", \"ぱ\", \"頬\", \"ず\", \"t\", \"な\", \"k\", \"A\", \"❤\", \"揺\", \"c\", \"l\", \"掻\", \"2\", \" \", \"い\", \"ぶ\", \"B\", \"囁\", \"☆\", \"ふ\", \"$\", \"枠\", \"ヾ\", \"メ\", \"0\", \"や\", \"釈\", \"ミ\", \"ね\", \"ロ\", \"J\", \"β\", \"レ\", \"i\", \"曽\", \"6\", \"w\", \"で\", \"ェ\", \"訃\", \"テ\", \"さ\", \"1\", \"ヨ\", \"◡\", \"k\", \"ー\", \"3\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/ko": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 1524839, - "_n_tokens": 199752, - "_n_chars": 655190, - "_n_oov_chars": 512195, - "oov_ratio": 0.7817503319647736, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"갈\", \"싱\", \"체\", \"D\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"👏\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"짠\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"쫒\", \"◈\", \"촉\", \"욥\", \"텀\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"뢰\", \"♡\", \"너\", \"😂\", \"별\", \"△\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"붐\", \"女\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"툼\", \"F\", \"컸\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"른\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"➊\", \"훅\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"h\", \"낮\", \"왓\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"⬇\", \"멕\", \"↕\", \"않\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"♤\", \"←\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"ㅙ\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"맬\", \"🦅\", \"쪄\", \"션\", \"히\", \"벚\", \"’\", \"즙\", \"뺀\", \"쳤\", \"a\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"S\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"급\", \"누\", \"밟\", \"셰\", \"맷\", \"💥\", \"N\", \"렷\", \"렘\", \"령\", \"트\", \"悧\", \"💰\", \"윗\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"즈\", \"킥\", \"C\", \"문\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"8\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"s\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"짤\", \"섯\", \"핸\", \"q\", \"펌\", \"팥\", \"압\", \"언\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"볍\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"훨\", \"걸\", \"돠\", \"🌵\", \"j\", \"서\", \"숭\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"흄\", \"릅\", \"💣\", \"촬\", \"층\", \"묶\", \"🏻\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"냉\", \"힙\", \"팽\", \"헝\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"x\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"넌\", \"임\", \"ㅔ\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"몸\", \"f\", \"쥬\", \"—\", \"둔\", \"ㄱ\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"톨\", \"냈\", \"푸\", \"배\", \"앤\", \"재\", \"책\", \"‘\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"챗\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"듈\", \"뜸\", \"탐\", \"미\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"🙌\", \"B\", \"P\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"렴\", \"생\", \"♥\", \"대\", \"융\", \"묵\", \"”\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"족\", \"닥\", \"힜\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"곱\", \"난\", \"Q\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"≪\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"꿕\", \"6\", \"납\", \" \", \"므\", \"릉\", \"텅\", \"우\", \"켐\", \"펠\", \"“\", \"랐\", \"습\", \"i\", \"®\", \"강\", \"뛸\", \"색\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"숫\", \"죤\", \"툭\", \"흠\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"ᴀ\", \"놔\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"👨\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"웬\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"짊\", \"㏊\", \"젊\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"L\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"게\", \"탬\", \"숨\", \"축\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"류\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"았\", \"↑\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"🏫\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"삼\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"t\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"龍\", \"팍\", \"곁\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"飮\", \"마\", \"탁\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google-bert/bert-base-chinese @ cc100/zh-Hans": { - "tokenizer": "bert-base-chinese", - "organization": "Google", - "vocab_size": 21128, - "_n_bytes": 2633047, - "_n_tokens": 876599, - "_n_chars": 927311, - "_n_oov_chars": 42361, - "oov_ratio": 0.04568154588913536, - "_oov_charset": "[\"a\", \"u\", \"翕\", \"擤\", \"镏\", \"ς\", \"猡\", \"ㄓ\", \"\", \" \", \"N\", \"G\", \"9\", \"à\", \"r\", \"⒀\", \"e\", \"C\", \"M\", \"D\", \"鼯\", \"x\", \"q\", \"浠\", \"屣\", \"Ø\", \"牖\", \"“\", \"×\", \"戢\", \"y\", \"d\", \"浞\", \"τ\", \"X\", \"i\", \"倨\", \"H\", \"馕\", \"\", \"’\", \"韫\", \"ě\", \"t\", \"a\", \"疴\", \"锒\", \"h\", \"I\", \"鄯\", \"m\", \"旆\", \"á\", \"ὐ\", \"V\", \"…\", \"7\", \"穰\", \"韪\", \"”\", \"R\", \"d\", \"ç\", \"⒁\", \"î\", \"犟\", \"ズ\", \"D\", \"\", \"\", \"j\", \"龇\", \"F\", \"C\", \"b\", \"�\", \"瑑\", \"h\", \"狳\", \"\", \"E\", \"r\", \"f\", \"U\", \"\\u0000\", \"—\", \"S\", \"α\", \"诨\", \"W\", \"T\", \"犰\", \"耩\", \"⒂\", \"Y\", \"阽\", \"8\", \"5\", \"e\", \"鲎\", \"A\", \"z\", \"啐\", \"K\", \"L\", \"é\", \"t\", \"o\", \"\\u0005\", \"溘\", \"k\", \"–\", \"瑥\", \"A\", \"\", \"\\b\", \"⑿\", \"c\", \"ό\", \"Q\", \"\\u0006\", \"l\", \"s\", \" \", \"​\", \"‘\", \"2\", \"ê\", \"逑\", \"\", \"O\", \"T\", \"鸩\", \"V\", \"黢\", \"旳\", \"0\", \"⒌\", \"瑒\", \"炝\", \"⒃\", \"ù\", \"g\", \"瑢\", \"J\", \"黧\", \"i\", \"P\", \"B\", \"瑧\", \"黩\", \"`\", \"p\", \"岣\", \"绉\", \"w\", \"篢\", \"1\", \"\\u0007\", \"―\", \"s\", \"ト\", \"n\", \"瑨\", \"4\", \"Z\", \"6\", \"3\", \"v\", \"N\", \"讦\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/ar": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 2813283, - "_n_tokens": 310312, - "_n_chars": 1560987, - "_n_oov_chars": 1362316, - "oov_ratio": 0.8727273193178419, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"9\", \"G\", \"à\", \"r\", \"ب\", \"e\", \"M\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"x\", \"ذ\", \"😀\", \"خ\", \"“\", \"×\", \"د\", \"ۤ\", \"۰\", \"d\", \"y\", \"٨\", \"τ\", \"▫\", \"i\", \"®\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"’\", \"a\", \"ٌ\", \"😊\", \"ج\", \"h\", \"█\", \"¡\", \"‹\", \"m\", \"‏\", \"♥\", \"ن\", \"…\", \"7\", \"χ\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"â\", \"ا\", \"ھ\", \"”\", \"ئ\", \"٪\", \"پ\", \"ۗ\", \"ٹ\", \"R\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"آ\", \"٩\", \"j\", \"‬\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"b\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"f\", \"U\", \"μ\", \"—\", \"v\", \"S\", \"α\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"8\", \"5\", \"A\", \"z\", \"L\", \"é\", \"t\", \"o\", \"–\", \"‌\", \"k\", \"»\", \"Х\", \"﴿\", \"›\", \"c\", \"؛\", \"٠\", \"l\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"ﻹ\", \"ـ\", \"«\", \"O\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"←\", \"ً\", \"۸\", \"0\", \"ه\", \"ﻷ\", \"ؤ\", \"•\", \"أ\", \"ز\", \"g\", \"J\", \"٤\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"w\", \"ή\", \"1\", \"″\", \"ص\", \"ّ\", \"ث\", \"n\", \"η\", \"4\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/de": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1814876, - "_n_tokens": 384241, - "_n_chars": 1784021, - "_n_oov_chars": 3711, - "oov_ratio": 0.0020801324648084298, - "_oov_charset": "[\"©\", \"u\", \"¶\", \"İ\", \"ς\", \"➔\", \" \", \"¿\", \"N\", \"G\", \"9\", \"à\", \"☺\", \"ć\", \"r\", \"·\", \"¼\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"q\", \"x\", \"Ø\", \"😀\", \"‚\", \"“\", \"😦\", \"y\", \"τ\", \"û\", \"H\", \"°\", \"å\", \"’\", \"ó\", \"h\", \"\", \"‹\", \"č\", \"m\", \"£\", \"á\", \"▼\", \"→\", \"…\", \"♥\", \"7\", \"−\", \"â\", \"”\", \"œ\", \"R\", \"ç\", \"ε\", \"Ã\", \"ρ\", \"😉\", \"„\", \"ï\", \"‐\", \"Ÿ\", \"F\", \"C\", \"¹\", \"ú\", \"“\", \"b\", \"�\", \"ń\", \"½\", \"™\", \"≠\", \"ί\", \"★\", \"̈\", \"🙂\", \"♡\", \"😂\", \"↩\", \"f\", \"U\", \"—\", \"É\", \"S\", \"α\", \"ι\", \"W\", \"T\", \"ö\", \"8\", \"5\", \"¬\", \"A\", \"😈\", \"K\", \"L\", \"é\", \"t\", \"k\", \"–\", \"❤\", \"»\", \"ė\", \"›\", \"🙄\", \"l\", \"s\", \"😆\", \"​\", \"ø\", \"‘\", \"2\", \"ß\", \"3\", \"ā\", \"😢\", \"´\", \"«\", \"ô\", \"O\", \"ớ\", \"„\", \"Á\", \"0\", \"•\", \"²\", \"g\", \"¤\", \"­\", \"š\", \"B\", \"p\", \"‽\", \"w\", \"ư\", \"🙁\", \"1\", \"n\", \"↑\", \"4\", \"6\", \"♦\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/en": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1124813, - "_n_tokens": 429260, - "_n_chars": 1121360, - "_n_oov_chars": 1814, - "oov_ratio": 0.001617678533209674, - "_oov_charset": "[\"V\", \"—\", \"③\", \"¡\", \"0\", \"£\", \"⑧\", \"¦\", \"T\", \"9\", \"”\", \"…\", \"•\", \"8\", \"è\", \"7\", \"5\", \"⑦\", \"A\", \"”\", \"q\", \"é\", \"‑\", \"–\", \"»\", \"B\", \"“\", \"😉\", \"ï\", \"®\", \"😥\", \"​\", \"1\", \"⑤\", \"‘\", \"2\", \"ñ\", \"⑩\", \"\", \"“\", \"b\", \"�\", \"4\", \"´\", \"’\", \"6\", \"\", \"«\", \"3\", \"🙂\", \"ó\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/es": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1664455, - "_n_tokens": 580233, - "_n_chars": 1630297, - "_n_oov_chars": 42728, - "oov_ratio": 0.026208721478356397, - "_oov_charset": "[\"©\", \"u\", \"¿\", \"N\", \"G\", \"à\", \"9\", \"r\", \"·\", \"e\", \"M\", \"è\", \"D\", \"q\", \"x\", \"😀\", \"Í\", \"“\", \"×\", \"😦\", \"d\", \"y\", \"ò\", \"X\", \"i\", \"º\", \"®\", \"H\", \"ª\", \"°\", \"Ñ\", \"✪\", \"\", \"👏\", \"’\", \"a\", \"ó\", \"■\", \"I\", \"h\", \"¡\", \"ý\", \"m\", \"á\", \"️\", \"→\", \"…\", \"í\", \"7\", \"”\", \"R\", \"▷\", \"😉\", \"j\", \"’\", \"ñ\", \"F\", \"C\", \"ú\", \"✔\", \"b\", \"Ú\", \"🙂\", \"✖\", \"E\", \"✓\", \"f\", \"U\", \"—\", \"É\", \"S\", \"T\", \"ö\", \"Y\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"é\", \"t\", \"o\", \"–\", \"k\", \"»\", \"❤\", \"‘\", \"c\", \"Q\", \"l\", \"ü\", \"s\", \"👍\", \"ø\", \"‘\", \"2\", \"´\", \"«\", \"O\", \"ô\", \"Ó\", \"М\", \"V\", \"′\", \"←\", \"Á\", \"„\", \"0\", \"•\", \"²\", \"g\", \"J\", \"­\", \"P\", \"B\", \"p\", \"🙁\", \"1\", \"″\", \"―\", \"n\", \"Z\", \"4\", \"6\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/fa": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 2054052, - "_n_tokens": 254518, - "_n_chars": 1145876, - "_n_oov_chars": 1029863, - "oov_ratio": 0.8987560608652245, - "_oov_charset": "[\"م\", \"©\", \"u\", \" \", \"۲\", \"ض\", \"G\", \"9\", \"r\", \"ب\", \"e\", \"·\", \"‎\", \"ق\", \"ط\", \"D\", \"إ\", \"ى\", \"▐\", \"q\", \"ذ\", \"خ\", \"×\", \"“\", \"د\", \"۰\", \"y\", \"٨\", \"i\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"’\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"h\", \"I\", \"✿\", \"m\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"7\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"”\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"b\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"ع\", \"ِ\", \"v\", \"S\", \"‍\", \"T\", \"١\", \"و\", \"8\", \"5\", \"A\", \"t\", \"o\", \"–\", \"‌\", \"k\", \"»\", \"❤\", \"ڪ\", \"c\", \"›\", \"؛\", \"Q\", \"ב\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"‘\", \"2\", \"٥\", \"٫\", \"ـ\", \"«\", \"●\", \"ٍ\", \"ش\", \"س\", \"۷\", \"V\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"•\", \"ز\", \"أ\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"ء\", \"گ\", \"۴\", \"1\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"n\", \"4\", \"6\", \"،\", \"3\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/fr": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1540504, - "_n_tokens": 530069, - "_n_chars": 1484970, - "_n_oov_chars": 59338, - "oov_ratio": 0.039959056411914044, - "_oov_charset": "[\"u\", \"♠\", \"N\", \"Â\", \"G\", \"à\", \"9\", \"r\", \"e\", \"·\", \"è\", \"M\", \"À\", \"D\", \"q\", \"x\", \"😀\", \"“\", \"y\", \"d\", \"ã\", \"Ê\", \"X\", \"û\", \"i\", \"®\", \"H\", \"°\", \"Ô\", \"’\", \"Ç\", \"a\", \"h\", \"I\", \"m\", \"…\", \"í\", \"7\", \"â\", \"℃\", \"ğ\", \"”\", \"œ\", \"R\", \"ç\", \"ë\", \"î\", \"😉\", \"ï\", \"‐\", \"j\", \"♕\", \"’\", \"F\", \"C\", \"™\", \"b\", \"�\", \"̂\", \"★\", \"🙂\", \"E\", \"f\", \"U\", \"—\", \"É\", \"S\", \"T\", \"Y\", \"8\", \"5\", \"A\", \"z\", \"K\", \"L\", \"́\", \"é\", \"t\", \"o\", \"–\", \"k\", \"»\", \"❤\", \"c\", \"Q\", \"l\", \"s\", \"🤔\", \"ê\", \"2\", \"‘\", \"´\", \"«\", \"ô\", \"O\", \"V\", \"←\", \"0\", \"Î\", \"•\", \"²\", \"ù\", \"g\", \"̧\", \"J\", \"µ\", \"­\", \"P\", \"B\", \"p\", \"w\", \"1\", \"″\", \"…\", \"È\", \"―\", \"n\", \"4\", \"6\", \"Z\", \"3\", \"v\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/ja": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1774770, - "_n_tokens": 318073, - "_n_chars": 603065, - "_n_oov_chars": 591814, - "oov_ratio": 0.9813436362581148, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"G\", \"又\", \"族\", \"青\", \"C\", \"王\", \"多\", \"婆\", \"D\", \"ラ\", \"ぃ\", \"✨\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \".\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"竹\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"示\", \"馬\", \"服\", \"腎\", \"皿\", \"態\", \"・\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"…\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"三\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"小\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"代\", \"箭\", \"喜\", \"g\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"氏\", \"紹\", \"城\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"―\", \"布\", \"杏\", \"歓\", \"撮\", \"部\", \"網\", \"間\", \"郷\", \"車\", \"タ\", \"閉\", \"教\", \"有\", \"八\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"陽\", \"貧\", \"余\", \"派\", \"西\", \"河\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"忠\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"→\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"宣\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"場\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"崎\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"的\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"「\", \"靴\", \"司\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"滝\", \"橋\", \"問\", \"旦\", \"副\", \"1\", \"核\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"v\", \"艦\", \"麓\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"秀\", \"完\", \"限\", \"学\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"地\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"行\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"本\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"鈴\", \"憤\", \"プ\", \"讐\", \",\", \"F\", \"令\", \"嫁\", \"頷\", \"盤\", \"松\", \"術\", \"治\", \"純\", \"薙\", \"遠\", \"国\", \"標\", \"算\", \"民\", \"店\", \"女\", \"則\", \"史\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"K\", \"曲\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"川\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"ヒ\", \"傘\", \"書\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"耳\", \"掲\", \"怠\", \"初\", \"•\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"p\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"介\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"?\", \"詐\", \"u\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"r\", \"索\", \"戦\", \"啓\", \"垠\", \"窪\", \"〆\", \"十\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"楊\", \"匡\", \"h\", \"浄\", \"止\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"北\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"文\", \"ヶ\", \"ε\", \"設\", \"幕\", \"不\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"秋\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"天\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"μ\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"W\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"c\", \"l\", \"公\", \"凱\", \"疇\", \"帝\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"光\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"J\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"e\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"明\", \"庁\", \"藤\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"エ\", \"著\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"’\", \"廉\", \"道\", \"a\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"I\", \"潟\", \"壊\", \"m\", \"犬\", \"勝\", \"恒\", \"傾\", \"巨\", \"。\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"吉\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"健\", \"銃\", \"閣\", \"衷\", \"点\", \"S\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"」\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"岡\", \"´\", \"鋲\", \"永\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"侍\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"男\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"朝\", \"支\", \"乏\", \"佇\", \"攻\", \"戸\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"4\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"志\", \"勘\", \"兎\", \"葉\", \"爾\", \"ㅂ\", \"を\", \"還\", \"版\", \"ム\", \"規\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"井\", \"汗\", \"黄\", \"春\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"-\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"四\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"力\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"U\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"o\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"我\", \"ス\", \"樹\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"伊\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"ハ\", \"蛇\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"家\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"年\", \"茨\", \"N\", \"途\", \"纏\", \"©\", \"他\", \"お\", \"云\", \"農\", \"N\", \"阿\", \"貴\", \"赦\", \"要\", \"弁\", \"金\", \"貸\", \"雄\", \"脇\", \"矢\", \"任\", \"ぴ\", \"東\", \"愕\", \"漫\", \"\", \"拷\", \"一\", \"飾\", \"慮\", \"糖\", \"宮\", \"貌\", \"郵\", \"谷\", \"鎖\", \"カ\", \"法\", \"該\", \"方\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"幸\", \"ゆ\", \"写\", \"博\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"C\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"島\", \"唇\", \"伏\", \"姥\", \"営\", \"E\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"8\", \"革\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"和\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"千\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"林\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"清\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"q\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"d\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"〈\", \"唱\", \"再\", \"桁\", \"😭\", \"Ⅶ\", \"ア\", \"子\", \"会\", \"数\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"國\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"原\", \"州\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"安\", \"掃\", \"極\", \"胚\", \"発\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"j\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"皇\", \"被\", \"外\", \"痴\", \"塵\", \"U\", \"李\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"A\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"»\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"品\", \"練\", \"詞\", \"ふ\", \"〉\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"坂\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \")\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"成\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"3\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"門\", \"ァ\", \"針\", \"資\", \"沢\", \"丁\", \"腫\", \"仁\", \"激\", \"x\", \"須\", \"泥\", \"立\", \"臆\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"平\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"五\", \"引\", \"暦\", \"来\", \"栽\", \"ズ\", \"蒙\", \"倍\", \"之\", \"球\", \"瓦\", \"舞\", \"歪\", \"堂\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"空\", \"呂\", \"f\", \"斧\", \"才\", \"゚\", \"—\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"上\", \"洒\", \"〜\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"香\", \"侵\", \"客\", \"移\", \"結\", \"陳\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"«\", \"O\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"佐\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"信\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"夏\", \"助\", \"丼\", \"ダ\", \"区\", \"n\", \"賛\", \"背\", \"預\", \"顔\", \"同\", \"工\", \"朗\", \"炉\", \"賭\", \"白\", \"蠍\", \"9\", \"M\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"y\", \"倫\", \"稀\", \"散\", \"H\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"ケ\", \"略\", \"森\", \"課\", \"呆\", \"料\", \"悶\", \"先\", \"浴\", \"恰\", \"墜\", \"新\", \"生\", \"7\", \"纒\", \"南\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"《\", \"ゥ\", \"哀\", \"尽\", \"出\", \"劉\", \"合\", \"ま\", \"割\", \"且\", \"状\", \"政\", \"仲\", \"沸\", \"∇\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"ω\", \"末\", \"腔\", \"水\", \"電\", \"¥\", \"煮\", \"採\", \"重\", \"施\", \"口\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"P\", \"B\", \"^\", \"遥\", \"税\", \"句\", \"睦\", \"丘\", \"山\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"名\", \"懸\", \"提\", \"昇\", \"久\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"宇\", \"策\", \"ノ\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"石\", \"低\", \"相\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"都\", \"奈\", \"じ\", \"捏\", \"漏\", \"烈\", \"■\", \"古\", \"磨\", \"長\", \"⇒\", \"弥\", \"忙\", \"應\", \"桑\", \"龍\", \"摩\", \"慈\", \"崔\", \"挫\", \"”\", \"英\", \"勉\", \"ワ\", \"↓\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"、\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"z\", \"幣\", \"見\", \"正\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"Q\", \"報\", \"況\", \"J\", \"s\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"2\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"街\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"火\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"土\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"(\", \"指\", \"能\", \"6\", \"村\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"後\", \" \", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"食\", \"署\", \"摘\", \"─\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"“\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"i\", \"循\", \"®\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"御\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"貝\", \"尚\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"木\", \"頓\", \"菊\", \"華\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"社\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"比\", \"b\", \"窒\", \"至\", \"夫\", \"綬\", \"鼓\", \"亭\", \"ホ\", \"揉\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"軍\", \"内\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"也\", \"狩\", \"歌\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"前\", \"詩\", \"0\", \"傷\", \"曹\", \"や\", \"》\", \"箇\", \"園\", \"瞑\", \"義\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"保\", \"執\", \"楓\", \"w\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"武\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"郎\", \"射\", \"嶽\", \"槃\", \"允\", \"綜\", \"瀬\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"宗\", \"に\", \"鹿\", \"豪\", \"捕\", \"X\", \"逆\", \"郡\", \"日\", \"吹\", \"寺\", \"絞\", \"騰\", \"江\", \"礁\", \"甚\", \"婚\", \"美\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"−\", \"澪\", \"筋\", \"情\", \"典\", \"良\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"省\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"/\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"氷\", \"次\", \"ガ\", \"[\", \"海\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"大\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"Z\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"定\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"分\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"風\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"元\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"京\", \"逸\", \"篤\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"T\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"5\", \"編\", \"心\", \"腹\", \"L\", \"郭\", \"ン\", \"–\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"章\", \"月\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"高\", \"贅\", \"随\", \"捺\", \"ト\", \"加\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"田\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"漢\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"野\", \"ャ\", \"娠\", \"烙\", \"Y\", \"鞄\", \"締\", \"昭\", \"e\", \"簡\", \"最\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"太\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"』\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \":\", \"V\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"手\", \"〟\", \"世\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"!\", \"啜\", \"人\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"″\", \"叫\", \"株\", \"丸\", \"↑\", \"俳\", \"蝶\", \"条\", \"荘\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"士\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"『\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"花\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"事\", \"宿\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"面\", \"主\", \"R\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"‐\", \"m\", \"中\", \"措\", \"語\", \"謬\", \"洩\", \"獄\", \"黙\", \"里\", \"厚\", \"★\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"ウ\", \"用\", \"拶\", \"星\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"真\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"仮\", \"二\", \"頬\", \"邸\", \"目\", \"瑞\", \"t\", \"」\", \"尋\", \"尺\", \"果\", \"k\", \"景\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"張\", \"在\", \"煩\", \"榴\", \"愛\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"下\", \"販\", \"訃\", \"裂\", \"神\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/ko": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 1524839, - "_n_tokens": 203846, - "_n_chars": 655190, - "_n_oov_chars": 500665, - "oov_ratio": 0.7641523832781331, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"族\", \"王\", \"갈\", \"싱\", \"체\", \"多\", \"D\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"竹\", \"백\", \"\", \"규\", \"德\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"三\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"代\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"城\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"部\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"有\", \"八\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"的\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"′\", \"엎\", \"귈\", \"캣\", \"튼\", \"「\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"1\", \"숏\", \"福\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"地\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"行\", \"벽\", \"甲\", \"£\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"F\", \"컸\", \"治\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"民\", \"女\", \"뜯\", \"략\", \"史\", \"따\", \"틸\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"川\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"•\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"十\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"北\", \"갯\", \"틴\", \"채\", \"앎\", \"文\", \"싹\", \"늬\", \"둡\", \"不\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"秋\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"天\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"c\", \"슝\", \"l\", \"왼\", \"㉿\", \"公\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"帝\", \"☆\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"光\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"明\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"’\", \"즙\", \"뺀\", \"道\", \"쳤\", \"a\", \"孝\", \"敬\", \"준\", \"I\", \"얏\", \"m\", \"겔\", \"犬\", \"확\", \"꾀\", \"잴\", \"똘\", \"。\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"±\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"S\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"」\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"永\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"男\", \"朝\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"志\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"春\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"家\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"年\", \"途\", \"©\", \"戊\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"金\", \"貸\", \"꾸\", \"雄\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"一\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"谷\", \"폄\", \"눔\", \"法\", \"方\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"C\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"8\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"和\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"林\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"〈\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"子\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"國\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"原\", \"믿\", \"팩\", \"싸\", \"움\", \"安\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"j\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"皇\", \"둬\", \"식\", \"被\", \"外\", \"얄\", \"α\", \"앰\", \"림\", \"蚩\", \"A\", \"혹\", \"»\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"〉\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"仁\", \"놨\", \"x\", \"됬\", \"立\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"平\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"五\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"之\", \"원\", \"갱\", \"레\", \"堂\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"f\", \"才\", \"—\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"上\", \"푸\", \"客\", \"結\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"‘\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"信\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"同\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"白\", \"9\", \"M\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"y\", \"H\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"新\", \"미\", \"生\", \"ⅲ\", \"7\", \"상\", \"짱\", \"南\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"《\", \"哀\", \"획\", \"뭉\", \"出\", \"젝\", \"合\", \"쩌\", \"탓\", \"페\", \"政\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"ω\", \"🤕\", \"水\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"口\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"山\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"相\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"×\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"古\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"摩\", \"묵\", \"”\", \"英\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"z\", \"빚\", \"덜\", \"◦\", \"正\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"Q\", \"劫\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"火\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"土\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"6\", \"常\", \"납\", \"後\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"食\", \"켐\", \"言\", \"펠\", \"“\", \"랐\", \"습\", \"i\", \"®\", \"侯\", \"강\", \"뛸\", \"색\", \"御\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"好\", \"韜\", \"華\", \"ㅅ\", \"社\", \"큐\", \"얽\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"b\", \"뼈\", \"比\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"0\", \"》\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"w\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"武\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"宗\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"日\", \"둘\", \"득\", \"°\", \"앙\", \"꿔\", \"譯\", \"江\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"美\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"海\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"大\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"Z\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"分\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"京\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"心\", \"L\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"章\", \"月\", \"완\", \"딸\", \"高\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"·\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"し\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"≤\", \"す\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"野\", \"직\", \"Y\", \"답\", \"昭\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"』\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"手\", \"껑\", \"땡\", \"돼\", \"世\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"人\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"『\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"事\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"面\", \"R\", \"主\", \"웠\", \"適\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"中\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"里\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"星\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"目\", \"t\", \"」\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"下\", \"는\", \"神\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google-bert/bert-base-german-cased @ cc100/zh-Hans": { - "tokenizer": "bert-base-german-cased", - "organization": "Google", - "vocab_size": 30000, - "_n_bytes": 2633047, - "_n_tokens": 881138, - "_n_chars": 927311, - "_n_oov_chars": 873542, - "oov_ratio": 0.9420162167816407, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"又\", \"鱼\", \"族\", \"青\", \"⒀\", \"撬\", \"C\", \"王\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \".\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"竹\", \"页\", \"狸\", \"挈\", \"\", \"贵\", \"噌\", \"德\", \"贱\", \"杆\", \"浙\", \"汐\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"示\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"・\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"…\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"三\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"小\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"龚\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"代\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"g\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"氏\", \"城\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"―\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"部\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"吆\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"有\", \"八\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"τ\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"西\", \"河\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"忠\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"→\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"宣\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"近\", \"培\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"崎\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"的\", \"杭\", \"【\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"●\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"「\", \"偿\", \"衬\", \"撐\", \"靴\", \"司\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"1\", \"笃\", \"核\", \"找\", \"闻\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"v\", \"麓\", \"栖\", \"葆\", \"潭\", \"瞠\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"秀\", \"陵\", \"戳\", \"完\", \"戾\", \"限\", \"学\", \"冯\", \"睐\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"地\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"~\", \"陈\", \"裙\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"行\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"本\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"锥\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \",\", \"令\", \"嫁\", \"松\", \"治\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"国\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"民\", \"店\", \"嫂\", \"女\", \"书\", \"跃\", \"耙\", \"史\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"K\", \"痊\", \"曲\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"川\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"耳\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"•\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"p\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"介\", \"骰\", \"捧\", \"体\", \"?\", \"疼\", \"邻\", \"u\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"r\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"十\", \"梦\", \"增\", \"沾\", \"渠\", \"饰\", \"Ø\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"h\", \"止\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"ὐ\", \"北\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"文\", \"冰\", \"蜴\", \"甜\", \"炙\", \"幕\", \"不\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"秋\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"天\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"c\", \"l\", \"公\", \"蟀\", \"馍\", \"咐\", \"帝\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"←\", \"锅\", \"勃\", \"样\", \"光\", \"幅\", \"卷\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"瘀\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"明\", \"藤\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"’\", \"廉\", \"道\", \"a\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"乒\", \"莘\", \"螃\", \"m\", \"犬\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"。\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"吉\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"健\", \"嗨\", \"D\", \"衷\", \"点\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"」\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"永\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"侍\", \"刊\", \"苛\", \"础\", \"佘\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"の\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"男\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"朝\", \"读\", \"蹒\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"戸\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"4\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"志\", \"较\", \"笛\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"版\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"井\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"嘤\", \"严\", \"春\", \"睑\", \"骏\", \"颉\", \"与\", \"骸\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"-\", \"偶\", \"莓\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"四\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"„\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"力\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"o\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"我\", \"煎\", \"颖\", \"九\", \"ê\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"伊\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"ù\", \"家\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"年\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"©\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"阿\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"金\", \"呦\", \"估\", \"值\", \"雄\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"一\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"谷\", \"厮\", \"枉\", \"纷\", \"法\", \"婶\", \"方\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"幸\", \"写\", \"博\", \"补\", \"夕\", \"匾\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"C\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"绽\", \"辈\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"8\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"é\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"和\", \"预\", \"娄\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"千\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"林\", \"瀚\", \"璃\", \"利\", \"矶\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"清\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"q\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"雳\", \"涕\", \"葩\", \"d\", \"掠\", \"付\", \"豚\", \"为\", \"昊\", \"靛\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"〈\", \"摞\", \"霸\", \"唱\", \"再\", \"蟋\", \"郴\", \"徇\", \"异\", \"子\", \"会\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"á\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"原\", \"州\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"へ\", \"安\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"皇\", \"列\", \"阜\", \"珊\", \"麾\", \"被\", \"稍\", \"外\", \"痴\", \"阂\", \"裔\", \"胀\", \"李\", \"论\", \"首\", \"α\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"纹\", \"洗\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"»\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"品\", \"〉\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"坂\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \")\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"成\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"3\", \"蹴\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"ς\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"門\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"仁\", \"激\", \"x\", \"臆\", \"泥\", \"立\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"平\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"五\", \"引\", \"袍\", \"来\", \"锤\", \"畑\", \"讪\", \"忿\", \"疵\", \"ズ\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"之\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"堂\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"空\", \"赞\", \"動\", \"才\", \"f\", \"翅\", \"斧\", \"—\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"上\", \"绞\", \"洒\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"香\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"‘\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"佐\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"ο\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"信\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"夏\", \"助\", \"扣\", \"锂\", \"区\", \"捂\", \"芬\", \"n\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"同\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"白\", \"梵\", \"9\", \"攸\", \"岑\", \"涉\", \"晰\", \"刚\", \"蝉\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"篷\", \"硕\", \"玉\", \"漠\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"哒\", \"伫\", \"畜\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"森\", \"柳\", \"料\", \"虽\", \"先\", \"呆\", \"浴\", \"俨\", \"鄯\", \"恰\", \"镉\", \"欢\", \"殉\", \"新\", \"办\", \"臂\", \"生\", \"惟\", \"7\", \"扼\", \"南\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"î\", \"遂\", \"《\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"出\", \"合\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"政\", \"状\", \"仲\", \"沸\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"水\", \"偎\", \"π\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"\", \"施\", \"口\", \"载\", \"炸\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"P\", \"莴\", \"税\", \"遥\", \"犀\", \"價\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"山\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"名\", \"肃\", \"舆\", \"谬\", \"提\", \"军\", \"撞\", \"久\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"宇\", \"策\", \"瑨\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"石\", \"弈\", \"帜\", \"低\", \"动\", \"奸\", \"相\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"×\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"都\", \"泛\", \"奈\", \"喧\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"古\", \"广\", \"■\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"弘\", \"挫\", \"饷\", \"英\", \"”\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"、\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"z\", \"后\", \"蠢\", \"锐\", \"正\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"2\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"街\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"火\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"土\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"(\", \"指\", \"能\", \"沧\", \"6\", \"村\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \" \", \"檀\", \"血\", \"後\", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"氰\", \"必\", \"均\", \"无\", \"食\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"─\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"“\", \"踱\", \"茄\", \"仕\", \"庄\", \"急\", \"峨\", \"浆\", \"舶\", \"桓\", \"进\", \"i\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"御\", \"辩\", \"朔\", \"柠\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"尚\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"疹\", \"评\", \"好\", \"木\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"择\", \"勇\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"社\", \"岁\", \"战\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"比\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"夫\", \"鼓\", \"舰\", \"诫\", \"伉\", \"亭\", \"曾\", \"揉\", \"茂\", \"皙\", \"旷\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"内\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"也\", \"蚀\", \"狩\", \"歌\", \"啪\", \"聂\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"前\", \"唉\", \"0\", \"剔\", \"曹\", \"》\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"保\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"武\", \"固\", \"玄\", \"禾\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"郎\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"宗\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"咖\", \"薯\", \"郡\", \"逆\", \"日\", \"传\", \"吹\", \"寺\", \"°\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"江\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"ě\", \"莫\", \"美\", \"婚\", \"迭\", \"鹑\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"良\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"省\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"/\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"海\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"大\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"定\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"分\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"元\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"京\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"迩\", \"印\", \"○\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"5\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"心\", \"腹\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"–\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"▪\", \"憋\", \"阎\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"月\", \"奥\", \"章\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"高\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"ト\", \"奖\", \"加\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"·\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"ç\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"田\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"野\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"绰\", \"苏\", \"e\", \"昭\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"太\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"』\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \":\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"手\", \"溉\", \"摹\", \"拆\", \"瞪\", \"世\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"!\", \"啜\", \"人\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"↑\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"士\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"à\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"『\", \"膜\", \"邂\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"花\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"镇\", \"峻\", \"事\", \"眯\", \"晨\", \"宿\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"面\", \"主\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"中\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"里\", \"搜\", \"芙\", \"厚\", \"★\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"星\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"真\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"二\", \"邸\", \"膳\", \"对\", \"目\", \"瑞\", \"测\", \"t\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"k\", \"何\", \"遮\", \"擂\", \"ό\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"下\", \"马\", \"裂\", \"瀛\", \"皑\", \"神\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/ar": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 2813283, - "_n_tokens": 627501, - "_n_chars": 1560987, - "_n_oov_chars": 1842, - "oov_ratio": 0.0011800226395223023, - "_oov_charset": "[\"ع\", \"م\", \"ِ\", \"↩\", \"٧\", \"😊\", \"—\", \"ض\", \"ﻻ\", \"ٱ\", \"١\", \"ﻷ\", \"‏\", \"…\", \"ب\", \"و\", \"أ\", \"‎\", \"⤴\", \"ۚ\", \"”\", \"ۗ\", \"ذ\", \"–\", \"‌\", \"ۖ\", \"😀\", \"“\", \"ۤ\", \"َ\", \"٠\", \"آ\", \"٨\", \"▫\", \"٩\", \"​\", \"‬\", \"‘\", \"ّ\", \"ك\", \"\", \"٢\", \"٦\", \"�\", \"
\", \"ٰ\", \"ث\", \"ح\", \"ﻹ\", \"’\", \"ـ\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/de": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1814876, - "_n_tokens": 445764, - "_n_chars": 1784021, - "_n_oov_chars": 2289, - "oov_ratio": 0.0012830566456336556, - "_oov_charset": "[\"u\", \"↩\", \"f\", \"😂\", \"—\", \"h\", \"\", \"➔\", \"„\", \" \", \"N\", \"G\", \"☺\", \"…\", \"¼\", \"😃\", \"M\", \"‎\", \"–\", \"g\", \"¤\", \"D\", \"K\", \"😈\", \"L\", \"”\", \"x\", \"t\", \"R\", \"k\", \"–\", \"­\", \"❤\", \"😀\", \"Ã\", \"`\", \"p\", \"“\", \"😦\", \"🙄\", \"‽\", \"l\", \"😉\", \"y\", \"w\", \"s\", \"🙁\", \"‐\", \"😆\", \"​\", \"Ÿ\", \"F\", \"‘\", \"ß\", \"“\", \"b\", \"�\", \"😢\", \"n\", \"´\", \"’\", \"̈\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/en": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1124813, - "_n_tokens": 280462, - "_n_chars": 1121360, - "_n_oov_chars": 1668, - "oov_ratio": 0.0014874794891916957, - "_oov_charset": "[\"—\", \"⑧\", \"T\", \"”\", \"…\", \"⑦\", \"”\", \"‑\", \"–\", \"“\", \"😉\", \"😥\", \"​\", \"‘\", \"⑩\", \"\", \"“\", \"�\", \"´\", \"’\", \"\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/es": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1664455, - "_n_tokens": 405970, - "_n_chars": 1630297, - "_n_oov_chars": 2197, - "oov_ratio": 0.0013476072151270596, - "_oov_charset": "[\"✓\", \"—\", \"I\", \"v\", \"„\", \"S\", \"️\", \"…\", \"z\", \"”\", \"–\", \"▷\", \"­\", \"❤\", \"😀\", \"‘\", \"“\", \"😦\", \"😉\", \"🙁\", \"👍\", \"’\", \"‘\", \"✪\", \"✔\", \"\", \"―\", \"👏\", \"´\", \"’\", \"🙂\", \"✖\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/fa": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 2054052, - "_n_tokens": 400799, - "_n_chars": 1145876, - "_n_oov_chars": 8049, - "oov_ratio": 0.0070243202580383916, - "_oov_charset": "[\"٧\", \"✿\", \"‍\", \"️\", \"١\", \"‏\", \"…\", \"♥\", \"ن\", \"‎\", \"ط\", \"ق\", \"▐\", \"”\", \"–\", \"­\", \"‌\", \"❤\", \"◄\", \"“\", \"ڪ\", \"د\", \"گ\", \"٨\", \"​\", \"‘\", \"٢\", \"\", \"�\", \"ﮧ\", \"’\", \"ٴ\", \"★\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/fr": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1540504, - "_n_tokens": 396708, - "_n_chars": 1484970, - "_n_oov_chars": 7211, - "oov_ratio": 0.004855990356707543, - "_oov_charset": "[\"—\", \"h\", \"…\", \"è\", \"”\", \"–\", \"­\", \"😀\", \"❤\", \"“\", \"😉\", \"‐\", \"🤔\", \"’\", \"‘\", \"C\", \"…\", \"―\", \"�\", \"´\", \"’\", \"̂\", \"🙂\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/ja": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1774770, - "_n_tokens": 469446, - "_n_chars": 603065, - "_n_oov_chars": 3448, - "oov_ratio": 0.005717459975292879, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"あ\", \"ペ\", \"5\", \"ら\", \"お\", \"n\", \"サ\", \"つ\", \"タ\", \"N\", \"ア\", \"セ\", \"W\", \"彡\", \"f\", \"C\", \"を\", \"ㅂ\", \"M\", \"L\", \"め\", \"∀\", \"ナ\", \"✨\", \"〆\", \"ラ\", \"び\", \"ム\", \"ハ\", \"よ\", \"フ\", \"M\", \"に\", \"Q\", \"“\", \"゙\", \"嚥\", \"た\", \"し\", \"\", \"~\", \"I\", \"エ\", \"欝\", \"け\", \"噤\", \"Ⅱ\", \"く\", \"K\", \"⑩\", \"じ\", \"😭\", \"カ\", \"Ⅶ\", \"ゃ\", \"’\", \"ア\", \"ぅ\", \"t\", \"a\", \"ネ\", \"R\", \"り\", \"そ\", \"と\", \"ジ\", \"g\", \"ク\", \"ィ\", \"😊\", \"レ\", \"I\", \"が\", \"ル\", \"オ\", \"メ\", \"V\", \"て\", \"4\", \"Z\", \"…\", \"¥\", \"纒\", \"⑪\", \"艸\", \"🌙\", \"”\", \"は\", \"ゎ\", \"フ\", \"へ\", \"o\", \"ほ\", \"▷\", \"か\", \"ワ\", \"d\", \"ち\", \"G\", \"ズ\", \"こ\", \"▽\", \"D\", \"︎\", \"\", \"コ\", \"え\", \"F\", \"◯\", \"う\", \"リ\", \"ゥ\", \"ビ\", \"プ\", \"‐\", \"\\u001b\", \"m\", \"逡\", \"ま\", \"頷\", \"O\", \"E\", \"😌\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"贔\", \"P\", \"ョ\", \"=\", \"̈\", \"ぉ\", \"ホ\", \"み\", \"ウ\", \"ポ\", \"r\", \"せ\", \"3\", \"ド\", \"゚\", \"ゼ\", \"—\", \"ッ\", \"す\", \"H\", \"S\", \"U\", \"ブ\", \"ャ\", \"○\", \"ヨ\", \"و\", \"8\", \"5\", \"e\", \"A\", \"8\", \"Y\", \"K\", \"ず\", \"ン\", \"な\", \"–\", \"イ\", \"A\", \"❤\", \"\\b\", \"‼\", \"⻑\", \"㎞\", \"き\", \"💦\", \"ツ\", \"れ\", \"J\", \"2\", \"モ\", \"丿\", \"コ\", \" \", \"ど\", \"ヽ\", \"​\", \"い\", \"だ\", \"ス\", \"B\", \"テ\", \"2\", \"̀\", \"☆\", \"ヒ\", \"バ\", \"ふ\", \"😢\", \"$\", \"´\", \"゙\", \"⌒\", \"鋲\", \"瘻\", \"●\", \"O\", \"T\", \"ゲ\", \"l\", \"る\", \"ヾ\", \"V\", \"0\", \"シ\", \"ィ\", \"マ\", \"ハ\", \"キ\", \"w\", \"ご\", \"屓\", \"メ\", \"リ\", \"0\", \"の\", \"や\", \"⑧\", \"〟\", \"わ\", \"パ\", \"カ\", \"ミ\", \"詈\", \"ね\", \"S\", \"ロ\", \"ひ\", \"゚\", \"`\", \" ̄\", \"レ\", \"i\", \"も\", \"ん\", \"♫\", \"b\", \"B\", \"^\", \"X\", \"`\", \"6\", \"Д\", \"チ\", \"で\", \"テ\", \"1\", \"躾\", \"ノ\", \"さ\", \"っ\", \"1\", \"―\", \"s\", \"ザ\", \"ト\", \"✧\", \"ノ\", \"ヘ\", \"6\", \"◡\", \"ろ\", \"k\", \"ー\", \"ば\", \"N\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/ko": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 1524839, - "_n_tokens": 427953, - "_n_chars": 655190, - "_n_oov_chars": 8356, - "oov_ratio": 0.012753552404645981, - "_oov_charset": "[\"뮈\", \"ⓒ\", \"잖\", \"은\", \"전\", \"😗\", \"샵\", \"을\", \"필\", \"ㄷ\", \"헛\", \"츠\", \"G\", \"절\", \"빈\", \"e\", \"스\", \"로\", \"갈\", \"체\", \"씹\", \"싱\", \"‎\", \"긴\", \"빤\", \"ㅐ\", \"D\", \"논\", \"갓\", \"놨\", \"됬\", \"잔\", \"틀\", \"윙\", \"각\", \"쨍\", \"ㅛ\", \"섬\", \"쵸\", \"껀\", \"과\", \"🍕\", \"X\", \"댄\", \"맬\", \"🍎\", \"내\", \"킌\", \"🦅\", \"겨\", \"엌\", \"쪄\", \"🚨\", \"득\", \"앙\", \"션\", \"\", \"히\", \"🚿\", \"👏\", \"갑\", \"뱉\", \"’\", \"즙\", \"뺀\", \"💸\", \"활\", \"램\", \"a\", \"짭\", \"망\", \"호\", \"뵐\", \"쫄\", \"얏\", \"솥\", \"왔\", \"라\", \"☎\", \"▒\", \"잠\", \"월\", \"잴\", \"똘\", \"…\", \"임\", \"ㅏ\", \"왠\", \"콩\", \"땀\", \"ㅔ\", \"빠\", \"ㄴ\", \"셔\", \"댁\", \"씬\", \"ㅣ\", \"갉\", \"쭙\", \"죤\", \"간\", \"닭\", \"시\", \"흠\", \"툭\", \"욜\", \"봬\", \"세\", \"검\", \"‬\", \"원\", \"쓰\", \"국\", \"봅\", \"갱\", \"녕\", \"레\", \"췄\", \"팹\", \"첫\", \"력\", \"토\", \"님\", \"⑸\", \"콰\", \"깜\", \"짠\", \"璣\", \"갖\", \"면\", \"엠\", \"쬐\", \"떡\", \"ᴀ\", \"화\", \"쉰\", \"쥬\", \"놔\", \"방\", \"반\", \"—\", \"ㄱ\", \"S\", \"ㆍ\", \"에\", \"햇\", \"ㅈ\", \"진\", \"쭈\", \"찬\", \"숱\", \"ʏ\", \"梁\", \"냈\", \"쒀\", \"⑨\", \"🔹\", \"푸\", \"뜹\", \"한\", \"표\", \"승\", \"ㅕ\", \"陸\", \"🤭\", \"배\", \"먹\", \"커\", \"궜\", \"👨\", \"ᴛ\", \"재\", \"헉\", \"樂\", \"목\", \"선\", \"쎈\", \"테\", \"빗\", \"쫒\", \"‘\", \"◈\", \"골\", \"겠\", \"ㅍ\", \"얀\", \"理\", \"떠\", \"베\", \"텀\", \"욥\", \"꿀\", \"를\", \"밤\", \"더\", \"빴\", \"튄\", \"차\", \"덴\", \"숟\", \"ㅘ\", \"캄\", \"튀\", \"쏠\", \"짖\", \"밉\", \"짢\", \"공\", \"쁠\", \"론\", \"땠\", \"메\", \"든\", \"센\", \"듐\", \"구\", \"블\", \"텔\", \"궈\", \"켜\", \"🍰\", \"숯\", \"뺐\", \"폍\", \"턱\", \"뭥\", \"ⅱ\", \"g\", \"짐\", \"쑥\", \"엡\", \"팠\", \"칵\", \"챗\", \"ⅰ\", \"격\", \"털\", \"ㅞ\", \"탄\", \"동\", \"잣\", \"챙\", \"`\", \"댔\", \"㉣\", \"💅\", \"저\", \"워\", \"Ⅴ\", \"왁\", \"빙\", \"꽁\", \"금\", \"리\", \"◼\", \"맙\", \"\", \"섣\", \"케\", \"ㅟ\", \"㎥\", \"찢\", \"믐\", \"識\", \"🤗\", \"폭\", \"닙\", \"―\", \"풀\", \"솨\", \"신\", \"n\", \"북\", \"4\", \"패\", \"삘\", \"㉰\", \"본\", \"초\", \"쾨\", \"줍\", \"질\", \"🌿\", \"코\", \"뼘\", \"켤\", \"장\", \"역\", \"9\", \"덥\", \"굶\", \"M\", \"셸\", \"➎\", \"뺑\", \"뜰\", \"영\", \"ᴡ\", \"첨\", \"외\", \"탈\", \"셈\", \"눕\", \"Ⅷ\", \"퍽\", \"줬\", \"퓰\", \"🏷\", \"나\", \"켠\", \"려\", \"킁\", \"H\", \"뉴\", \"흐\", \"제\", \"걍\", \"ㅝ\", \"⚀\", \"킷\", \"벨\", \"쩐\", \"ㄹ\", \"낍\", \"쐬\", \"깽\", \"웨\", \"암\", \"띕\", \"갛\", \"짊\", \"㏊\", \"폈\", \"푹\", \"입\", \"ᴍ\", \"소\", \"Ⅵ\", \"쪼\", \"덕\", \"꼴\", \"㎍\", \"뜸\", \"눈\", \"미\", \"ⅲ\", \"셌\", \"7\", \"까\", \"💕\", \"상\", \"볕\", \"취\", \"봉\", \"ㅇ\", \"분\", \"쳇\", \"▷\", \"거\", \"봤\", \"룩\", \"롸\", \"쉘\", \"줏\", \"획\", \"뭉\", \"뽀\", \"쉽\", \"끄\", \"쳐\", \"✈\", \"넉\", \"료\", \"여\", \"페\", \"ⅳ\", \"퀵\", \"�\", \"빨\", \"올\", \"벅\", \"괌\", \"연\", \"쟈\", \"너\", \"녘\", \"😂\", \"△\", \"ⓔ\", \"딤\", \"행\", \"◐\", \"개\", \"고\", \"걱\", \"겟\", \"하\", \"◾\", \"이\", \"꽝\", \"T\", \"○\", \"늘\", \"㎡\", \"평\", \"ㅑ\", \"잤\", \"폿\", \"짚\", \"곡\", \"ㅓ\", \"L\", \"ᴄ\", \"옹\", \"솔\", \"몬\", \"–\", \"뽐\", \"콜\", \"닳\", \"쓕\", \"버\", \"깅\", \"쾅\", \"ㅊ\", \"💦\", \"듯\", \"ㅚ\", \"쫀\", \"긁\", \"쥔\", \"텐\", \"◑\", \"포\", \"염\", \"브\", \"🤔\", \"짝\", \"웁\", \"멘\", \"만\", \"닷\", \"픕\", \"감\", \"맞\", \"켓\", \"카\", \"뻔\", \"딱\", \"ㅆ\", \"튿\", \"☀\", \"칸\", \"적\", \"똥\", \"쫗\", \"쿰\", \"샀\", \"현\", \"비\", \"삭\", \"닉\", \"⑹\", \"◀\", \"떳\", \"왕\", \"달\", \"엎\", \"클\", \"🤕\", \"귈\", \"팎\", \"뮐\", \"㈜\", \"ㅗ\", \"짓\", \"🙇\", \"경\", \"不\", \"퍼\", \"🙆\", \"게\", \"⑦\", \"🍟\", \"란\", \"민\", \"탰\", \"綃\", \"충\", \"밧\", \"있\", \"累\", \"🙋\", \"억\", \"⑵\", \"뱃\", \"ㅠ\", \"P\", \"B\", \"랑\", \"온\", \"맨\", \"🙌\", \"땅\", \"뭘\", \"길\", \"핥\", \"떄\", \"\", \"🌳\", \"중\", \"칼\", \"😱\", \"인\", \"흗\", \"괜\", \"빡\", \"천\", \"ㅎ\", \"1\", \"완\", \"숏\", \"🥁\", \"통\", \"데\", \"급\", \"르\", \"퀀\", \"누\", \"유\", \"얍\", \"번\", \"삐\", \"렵\", \"퍙\", \"릭\", \"째\", \"루\", \"핏\", \"눴\", \"헬\", \"女\", \"💥\", \"趺\", \"N\", \"젠\", \"뻐\", \"령\", \"트\", \"➋\", \"悧\", \"ㅜ\", \"🦄\", \"♀\", \"녜\", \"린\", \"💰\", \"틋\", \"팔\", \"꾸\", \"사\", \"뎅\", \"잡\", \"좋\", \"〮\", \"쏭\", \"좇\", \"쩍\", \"증\", \"타\", \"됩\", \"뺏\", \"꽂\", \"빛\", \"향\", \"줘\", \"빕\", \"몽\", \"➏\", \"걔\", \"쫑\", \"❍\", \"욱\", \"띈\", \"홑\", \"폄\", \"눔\", \"예\", \"찼\", \"썅\", \"힉\", \"볼\", \"😊\", \"캐\", \"햄\", \"섦\", \"그\", \"펩\", \"ㅡ\", \"독\", \"쟤\", \"ㅖ\", \"찜\", \"뻤\", \"뻑\", \"랜\", \"생\", \"대\", \"챨\", \"”\", \"노\", \"냄\", \"뀔\", \"💌\", \"용\", \"산\", \"껴\", \"옵\", \"귤\", \"남\", \"꺄\", \"꿍\", \"즈\", \"렸\", \"족\", \"F\", \"힜\", \"터\", \"샴\", \"돌\", \"C\", \"✔\", \"촘\", \"Ⅹ\", \"디\", \"뎀\", \"크\", \"군\", \"석\", \"정\", \"겼\", \"넵\", \"E\", \"킵\", \"뮤\", \"슬\", \"뗀\", \"뜯\", \"쌩\", \"틸\", \"박\", \"회\", \"뛴\", \"🍔\", \"‍\", \"ㅢ\", \"켰\", \"측\", \"쩡\", \"볶\", \"실\", \"ɪ\", \"8\", \"답\", \"힌\", \"변\", \"덜\", \"K\", \"◦\", \"▶\", \"살\", \"되\", \"썹\", \"깔\", \"오\", \"훑\", \"엘\", \"른\", \"머\", \"와\", \"수\", \"㎞\", \"롬\", \"꽉\", \"난\", \"웖\", \"뜩\", \"니\", \"s\", \"流\", \"👋\", \"🍭\", \"➍\", \"👍\", \"땐\", \"바\", \"​\", \"잰\", \"설\", \"😣\", \"v\", \"2\", \"끽\", \"플\", \"퀄\", \"ᴏ\", \"새\", \"춧\", \"몰\", \"성\", \"러\", \"칫\", \"흥\", \"➌\", \"맴\", \"다\", \"좆\", \"롤\", \"냐\", \"래\", \"냅\", \"金\", \"불\", \"존\", \"들\", \"깐\", \"⑴\", \"물\", \"말\", \"껑\", \"땡\", \"보\", \"져\", \"썸\", \"낯\", \"쏙\", \"뵙\", \"냠\", \"당\", \"뚜\", \"­\", \"랍\", \"락\", \"♧\", \"능\", \"며\", \"했\", \"▣\", \"없\", \"쎄\", \"밥\", \"쐐\", \"요\", \"꺽\", \"던\", \"힘\", \"☞\", \"었\", \"s\", \"업\", \"槪\", \"ᴇ\", \"꿕\", \"6\", \"팅\", \"팬\", \"키\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"❏\", \"춥\", \" \", \"일\", \"빅\", \"잼\", \"팰\", \"릉\", \"텅\", \"잘\", \"우\", \"짤\", \"쨌\", \"켐\", \"안\", \"가\", \"줄\", \"팥\", \"➊\", \"칠\", \"기\", \"“\", \"언\", \"씽\", \"훅\", \"습\", \"🏫\", \"자\", \"i\", \"跏\", \"강\", \"의\", \"뛸\", \"삣\", \"핀\", \"색\", \"😭\", \"판\", \"Ⅶ\", \"퀘\", \"쌈\", \"죠\", \"년\", \"젓\", \"작\", \"권\", \"⑶\", \"낮\", \"훠\", \"밌\", \"두\", \"모\", \"️\", \"채\", \"앎\", \"훌\", \"ㅅ\", \"극\", \"해\", \"큐\", \"집\", \"걸\", \"샷\", \"︎\", \"둡\", \"단\", \"짬\", \"음\", \"팜\", \"출\", \"헨\", \"조\", \"돠\", \"🌵\", \"🗺\", \"틔\", \"근\", \"서\", \"넹\", \"쿡\", \"지\", \"끙\", \"같\", \"결\", \"ㅁ\", \"위\", \"투\", \"삼\", \"픽\", \"창\", \"⬇\", \"꼬\", \"↕\", \"멕\", \"청\", \"츈\", \"캇\", \"웍\", \"쌉\", \"텁\", \"꿰\", \"믄\", \"봐\", \"프\", \"네\", \"둬\", \"㉠\", \"야\", \"피\", \"엔\", \"읊\", \"명\", \"뿜\", \"딘\", \"앰\", \"큽\", \"엽\", \"W\", \"무\", \"ㅋ\", \"글\", \"셨\", \"으\", \"🍞\", \"씻\", \"A\", \"쉼\", \"靈\", \"t\", \"빳\", \"쿵\", \"Ⅸ\", \"k\", \"막\", \"💡\", \"렜\", \"❤\", \"알\", \"뷰\", \"龍\", \"품\", \"얼\", \"슝\", \"뾱\", \"㉿\", \"팁\", \"범\", \"끔\", \"🤟\", \"날\", \" \", \"계\", \"떴\", \"뿍\", \"톡\", \"홍\", \"섭\", \"ʟ\", \"슈\", \"卽\", \"깡\", \"왘\", \"쿠\", \"컴\", \"흄\", \"♤\", \"파\", \"⑥\", \"텨\", \"릅\", \"💣\", \"갭\", \"0\", \"꿇\", \"치\", \"⑧\", \"ㅒ\", \"발\", \"벙\", \"🏻\", \"철\", \"맛\", \"∮\", \"운\", \"광\", \"웰\", \"아\", \"드\", \"함\", \"飮\", \"룬\", \"놓\", \"마\", \"혀\", \"휙\", \"ㅙ\", \"낚\", \"立\", \"합\", \"웅\", \"주\", \"할\", \"울\", \"어\", \"담\", \"듬\", \"부\", \"는\", \"황\", \"객\", \"헝\", \"딛\", \"많\", \"티\", \"형\", \"樂\", \"속\", \"뒤\", \"추\", \"도\", \"3\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-cased @ cc100/zh-Hans": { - "tokenizer": "bert-base-multilingual-cased", - "organization": "Google", - "vocab_size": 119547, - "_n_bytes": 2633047, - "_n_tokens": 878811, - "_n_chars": 927311, - "_n_oov_chars": 29299, - "oov_ratio": 0.03159565668907195, - "_oov_charset": "[\"a\", \"擤\", \"搀\", \"\", \"狈\", \"瘙\", \"叨\", \"锲\", \"噼\", \"⒀\", \"C\", \"撬\", \"淌\", \"浠\", \"蕤\", \"褂\", \"嘣\", \"抡\", \"犄\", \"玷\", \"挈\", \"馕\", \"铛\", \"籁\", \"⑩\", \"\", \"吆\", \"秆\", \"吮\", \"’\", \"惫\", \"t\", \"呸\", \"腭\", \"鹑\", \"苒\", \"剐\", \"孱\", \"嘈\", \"啕\", \"旆\", \"吱\", \"魇\", \"…\", \"跷\", \"旖\", \"嗲\", \"遑\", \"d\", \"憔\", \"旎\", \"⒁\", \"讪\", \"\", \"屄\", \"蹩\", \"炖\", \"掂\", \"懊\", \"⑸\", \"馒\", \"橱\", \"撩\", \"咦\", \"\\u0000\", \"—\", \"嗨\", \"耩\", \"⒂\", \"⑨\", \"霭\", \"撷\", \"喽\", \"磕\", \"\", \"蓦\", \"哧\", \"吭\", \"滢\", \"獗\", \"傥\", \"屉\", \"颧\", \"锏\", \"踹\", \"‘\", \"赘\", \"逑\", \"搡\", \"涣\", \"崽\", \"铩\", \"旳\", \"坯\", \"挲\", \"掰\", \"蘸\", \"粼\", \"嚷\", \"纨\", \"癜\", \"蹒\", \"瑧\", \"`\", \"咙\", \"馋\", \"绉\", \"诙\", \"谧\", \"饽\", \"瘩\", \"盹\", \"刨\", \"\\u0007\", \"―\", \"捂\", \"肮\", \"拧\", \"讦\", \"瞟\", \"窍\", \"翕\", \"撸\", \"缈\", \"镏\", \"饨\", \"阑\", \"楂\", \"鬓\", \"冽\", \"攥\", \"牖\", \"擞\", \"裆\", \"诶\", \"戢\", \"眨\", \"呗\", \"骛\", \"倨\", \"樯\", \"哒\", \"伫\", \"咔\", \"嘤\", \"p\", \"蹿\", \"睑\", \"镉\", \"猬\", \"茏\", \"韪\", \"瞅\", \"攒\", \"诟\", \"臊\", \"毡\", \"懵\", \"D\", \"忪\", \"\", \"掐\", \"墒\", \"h\", \"�\", \"唏\", \"泯\", \"惴\", \"荤\", \"蹭\", \"赅\", \"嵘\", \"纰\", \"啐\", \"璎\", \"–\", \"鹕\", \"\\b\", \"埂\", \"揍\", \"赡\", \"郅\", \"怂\", \"泱\", \"棂\", \"诧\", \"惦\", \"T\", \"憋\", \"峥\", \"偎\", \"嗯\", \"⒌\", \"炝\", \"搐\", \"⑦\", \"狰\", \"咧\", \"瑢\", \"黧\", \"屌\", \"烬\", \"莴\", \"姣\", \"黩\", \"缜\", \"荨\", \"岣\", \"唠\", \"舀\", \"炕\", \"1\", \"矍\", \"惭\", \"礴\", \"瑨\", \"∶\", \"捅\", \"N\", \"瞠\", \"篓\", \"猡\", \"ㄓ\", \"n\", \"嗡\", \"噢\", \"奂\", \"惬\", \"缥\", \"擀\", \"呦\", \"胧\", \"忡\", \"浞\", \"汩\", \"厮\", \"踌\", \"韫\", \"啃\", \"疙\", \"锒\", \"嗔\", \"祛\", \"V\", \"扪\", \"膊\", \"佝\", \"芃\", \"”\", \"o\", \"呃\", \"孪\", \"缄\", \"沏\", \"遢\", \"谆\", \"叼\", \"跚\", \"瑑\", \"惋\", \"狳\", \"搂\", \"犷\", \"痫\", \"挎\", \"臃\", \"睬\", \"嗤\", \"抿\", \"茁\", \"笆\", \"诨\", \"萦\", \"犰\", \"阽\", \"鲎\", \"e\", \"⑿\", \"胫\", \"烊\", \"嗦\", \"倜\", \"​\", \"愣\", \"\", \"肓\", \"黢\", \"邋\", \"鼾\", \"蚯\", \"忐\", \"⑴\", \"瑒\", \"飕\", \"怔\", \"遛\", \"惘\", \"鹌\", \"篢\", \"啬\", \"唬\", \"剁\", \"哎\", \"撅\", \"s\", \"呻\", \"逶\", \" \", \"汹\", \"侥\", \"鼯\", \"屣\", \"馁\", \"馄\", \"“\", \"踱\", \"觑\", \"葩\", \"涮\", \"铤\", \"眯\", \"摞\", \"懑\", \"疴\", \"狞\", \"秸\", \"蛔\", \"⑶\", \"铄\", \"鹜\", \"抠\", \"忑\", \"⑷\", \"犟\", \"咚\", \"婊\", \"铣\", \"谩\", \"〞\", \"龇\", \"偌\", \"聒\", \"\", \"皙\", \"r\", \"镳\", \"噱\", \"偻\", \"阂\", \"怵\", \"熨\", \"啥\", \"谑\", \"缭\", \"\\u0005\", \"溘\", \"瑥\", \"A\", \"酝\", \"\\u0006\", \"睁\", \"蔼\", \"啪\", \"蟀\", \"馍\", \" \", \"迤\", \"晾\", \"鸩\", \"黝\", \"谀\", \"倏\", \"绷\", \"⑥\", \"霈\", \"拎\", \"唉\", \"飚\", \"⑧\", \"唷\", \"⒃\", \"哟\", \"呷\", \"悴\", \"胳\", \"i\", \"嘭\", \"⒋\", \"碴\", \"欸\", \"皑\", \"嘀\", \"拽\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/ar": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 2813283, - "_n_tokens": 586110, - "_n_chars": 1560987, - "_n_oov_chars": 71448, - "oov_ratio": 0.0457710410144351, - "_oov_charset": "[\"م\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"G\", \"à\", \"ب\", \"M\", \"‎\", \"D\", \"إ\", \"ذ\", \"😀\", \"“\", \"ۤ\", \"X\", \"▫\", \"H\", \"\", \"
\", \"ْ\", \"’\", \"ٌ\", \"😊\", \"I\", \"‏\", \"…\", \"⤴\", \"ۚ\", \"â\", \"”\", \"ئ\", \"ۗ\", \"R\", \"ۖ\", \"َ\", \"آ\", \"‬\", \"F\", \"C\", \"ك\", \"ٰ\", \"�\", \"ح\", \"ί\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"—\", \"S\", \"W\", \"T\", \"Y\", \"ö\", \"و\", \"A\", \"K\", \"L\", \"é\", \"–\", \"‌\", \"Х\", \"Q\", \"​\", \"ُ\", \"‘\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"V\", \"ً\", \"ﻷ\", \"ؤ\", \"أ\", \"J\", \"B\", \"P\", \"ή\", \"ä\", \"ّ\", \"ث\", \"Z\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/de": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1814876, - "_n_tokens": 425738, - "_n_chars": 1784021, - "_n_oov_chars": 112881, - "oov_ratio": 0.06327335832930217, - "_oov_charset": "[\"İ\", \"➔\", \" \", \"N\", \"G\", \"à\", \"☺\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"x\", \"Ø\", \"😀\", \"“\", \"😦\", \"y\", \"X\", \"û\", \"H\", \"å\", \"’\", \"ó\", \"I\", \"h\", \"\", \"č\", \"á\", \"…\", \"â\", \"”\", \"R\", \"ç\", \"Ã\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"ú\", \"“\", \"�\", \"ń\", \"≠\", \"ί\", \"̈\", \"🙂\", \"E\", \"😂\", \"↩\", \"f\", \"U\", \"—\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"A\", \"😈\", \"K\", \"L\", \"é\", \"–\", \"k\", \"❤\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"ü\", \"s\", \"😆\", \"​\", \"‘\", \"ā\", \"😢\", \"´\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"g\", \"J\", \"­\", \"š\", \"B\", \"P\", \"`\", \"p\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"n\", \"Z\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/en": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1124813, - "_n_tokens": 271691, - "_n_chars": 1121360, - "_n_oov_chars": 32702, - "oov_ratio": 0.029162802311478917, - "_oov_charset": "[\"V\", \"U\", \"I\", \"—\", \"S\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"…\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"”\", \"é\", \"‑\", \"R\", \"–\", \"B\", \"P\", \"“\", \"Q\", \"😉\", \"X\", \"ï\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"‘\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"Z\", \"´\", \"’\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/es": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1664455, - "_n_tokens": 385564, - "_n_chars": 1630297, - "_n_oov_chars": 70460, - "oov_ratio": 0.04321911897034712, - "_oov_charset": "[\"✓\", \"V\", \"М\", \"U\", \"I\", \"—\", \"v\", \"É\", \"ý\", \"Á\", \"S\", \"„\", \"á\", \"T\", \"N\", \"G\", \"à\", \"W\", \"️\", \"Y\", \"…\", \"ö\", \"í\", \"M\", \"è\", \"A\", \"D\", \"z\", \"K\", \"J\", \"L\", \"”\", \"é\", \"R\", \"–\", \"­\", \"▷\", \"P\", \"B\", \"😀\", \"Í\", \"❤\", \"‘\", \"“\", \"😦\", \"Q\", \"😉\", \"ò\", \"ü\", \"X\", \"🙁\", \"👍\", \"H\", \"’\", \"ñ\", \"C\", \"F\", \"Ñ\", \"‘\", \"✪\", \"ú\", \"✔\", \"\", \"―\", \"Ú\", \"👏\", \"´\", \"Z\", \"’\", \"ô\", \"O\", \"Ó\", \"🙂\", \"✖\", \"ó\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/fa": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 2054052, - "_n_tokens": 398911, - "_n_chars": 1145876, - "_n_oov_chars": 18383, - "oov_ratio": 0.016042748080944184, - "_oov_charset": "[\"ٌ\", \"ٔ\", \"V\", \"ِ\", \"U\", \"I\", \"ً\", \"✿\", \"S\", \"‍\", \"W\", \"T\", \"N\", \"G\", \"️\", \"‏\", \"…\", \"ؤ\", \"Y\", \"أ\", \"M\", \"‎\", \"♥\", \"ن\", \"A\", \"D\", \"K\", \"J\", \"إ\", \"”\", \"ئ\", \"L\", \"▐\", \"R\", \"–\", \"‌\", \"­\", \"B\", \"P\", \"◄\", \"❤\", \"“\", \"َ\", \"ڪ\", \"Q\", \"د\", \"آ\", \"X\", \"ٍ\", \"H\", \"​\", \"ُ\", \"F\", \"C\", \"ۀ\", \"‘\", \"ّ\", \"\", \"�\", \"ּ\", \"Z\", \"ْ\", \"’\", \"O\", \"★\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/fr": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1540504, - "_n_tokens": 379266, - "_n_chars": 1484970, - "_n_oov_chars": 73935, - "oov_ratio": 0.049788884623931794, - "_oov_charset": "[\"V\", \"U\", \"I\", \"—\", \"h\", \"É\", \"̂\", \"S\", \"N\", \"T\", \"W\", \"G\", \"à\", \"Â\", \"Y\", \"…\", \"Î\", \"í\", \"è\", \"ù\", \"M\", \"A\", \"À\", \"D\", \"â\", \"K\", \"J\", \"ğ\", \"L\", \"”\", \"é\", \"́\", \"̧\", \"R\", \"–\", \"­\", \"ç\", \"P\", \"B\", \"ë\", \"❤\", \"😀\", \"î\", \"“\", \"Q\", \"😉\", \"ã\", \"ü\", \"Ê\", \"ï\", \"X\", \"‐\", \"û\", \"🤔\", \"H\", \"’\", \"F\", \"ê\", \"C\", \"‘\", \"…\", \"Ô\", \"ä\", \"È\", \"�\", \"―\", \"Z\", \"´\", \"’\", \"ô\", \"O\", \"Ç\", \"🙂\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/ja": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1774770, - "_n_tokens": 466785, - "_n_chars": 603065, - "_n_oov_chars": 52691, - "oov_ratio": 0.08737200799250495, - "_oov_charset": "[\"y\", \"ー\", \"あ\", \"ペ\", \"お\", \"ら\", \"げ\", \"つ\", \"タ\", \"N\", \"ア\", \"G\", \"W\", \"C\", \"を\", \"M\", \"L\", \"め\", \"∀\", \"D\", \"✨\", \"ベ\", \"ぞ\", \"び\", \"ハ\", \"よ\", \"フ\", \"M\", \"に\", \"Q\", \"“\", \"゙\", \"๑\", \"ぴ\", \"た\", \"し\", \"\", \"X\", \"I\", \"H\", \"ゞ\", \"欝\", \"け\", \"Ⅱ\", \"く\", \"K\", \"じ\", \"⑩\", \"😭\", \"カ\", \"Ⅶ\", \"ゃ\", \"’\", \"R\", \"り\", \"そ\", \"と\", \"ジ\", \"😊\", \"I\", \"レ\", \"が\", \"ゴ\", \"V\", \"て\", \"Z\", \"…\", \"纒\", \"¥\", \"ゾ\", \"⑪\", \"🌙\", \"”\", \"ゎ\", \"フ\", \"R\", \"ぼ\", \"か\", \"▷\", \"ち\", \"ボ\", \"G\", \"ズ\", \"▽\", \"こ\", \"D\", \"ぎ\", \"\", \"リ\", \"え\", \"F\", \"ゥ\", \"う\", \"‐\", \"ビ\", \"プ\", \"\\u001b\", \"︎\", \"ま\", \"ざ\", \"F\", \"C\", \"O\", \"E\", \"😌\", \"ロ\", \"Ⅹ\", \"�\", \"P\", \"=\", \"ぷ\", \"̈\", \"E\", \"ポ\", \"゚\", \"ド\", \"U\", \"ゼ\", \"—\", \"ッ\", \"す\", \"H\", \"S\", \"U\", \"ブ\", \"W\", \"T\", \"○\", \"ヨ\", \"Y\", \"ぜ\", \"و\", \"A\", \"Y\", \"ギ\", \"K\", \"ぱ\", \"L\", \"́\", \"ず\", \"ン\", \"な\", \"–\", \"A\", \"❤\", \"\\b\", \"⻑\", \"き\", \"ぐ\", \"💦\", \"べ\", \"Q\", \"れ\", \"ヴ\", \"J\", \"モ\", \"丿\", \"コ\", \" \", \"ど\", \"づ\", \"ヽ\", \"​\", \"ぶ\", \"だ\", \"い\", \"B\", \"ス\", \"̀\", \"☆\", \"バ\", \"😢\", \"$\", \"´\", \"゙\", \"⌒\", \"ぽ\", \"グ\", \"●\", \"O\", \"T\", \"ゲ\", \"瘻\", \"ヾ\", \"V\", \"ィ\", \"ご\", \"メ\", \"リ\", \"の\", \"⑧\", \"ピ\", \"わ\", \"パ\", \"ね\", \"S\", \"゚\", \"ガ\", \"J\", \"`\", \" ̄\", \"レ\", \"も\", \"ん\", \"♫\", \"b\", \"B\", \"P\", \"^\", \"X\", \"`\", \"Д\", \"で\", \"テ\", \"デ\", \"さ\", \"っ\", \"1\", \"ダ\", \"―\", \"ザ\", \"ト\", \"✧\", \"ノ\", \"Z\", \"ヘ\", \"ウ\", \"ー\", \"ば\", \"N\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/ko": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 1524839, - "_n_tokens": 538172, - "_n_chars": 655190, - "_n_oov_chars": 441027, - "oov_ratio": 0.6731284055006944, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"갈\", \"싱\", \"체\", \"D\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"👏\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"깥\", \"둠\", \"햇\", \"폴\", \"진\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"쫒\", \"◈\", \"촉\", \"욥\", \"텀\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"롯\", \"뿔\", \"셌\", \"꽤\", \"봉\", \"촨\", \"퀸\", \"룩\", \"줏\", \"뽀\", \"여\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"뢰\", \"너\", \"😂\", \"별\", \"똑\", \"행\", \"걱\", \"겟\", \"하\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"깅\", \"ㅚ\", \"텐\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"⑵\", \"땅\", \"\", \"길\", \"칼\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"훈\", \"삐\", \"퍙\", \"루\", \"붐\", \"女\", \"젠\", \"뻐\", \"궐\", \"숙\", \"〮\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"툼\", \"F\", \"컸\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"른\", \"머\", \"수\", \"액\", \"꿈\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"쿤\", \"존\", \"말\", \"옌\", \"보\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"갤\", \"랄\", \"둑\", \"춥\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"➊\", \"훅\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"눌\", \"낮\", \"왓\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"⬇\", \"멕\", \"↕\", \"않\", \"츈\", \"텁\", \"피\", \"읊\", \"명\", \"뿜\", \"흑\", \"딘\", \"W\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"녁\", \"♤\", \"텨\", \"치\", \"벙\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"ㅙ\", \"홋\", \"겪\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"옮\", \"람\", \"핫\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"쇄\", \"각\", \"뭔\", \"쭉\", \"껀\", \"훔\", \"맬\", \"🦅\", \"쪄\", \"션\", \"히\", \"벚\", \"’\", \"즙\", \"뺀\", \"쳤\", \"a\", \"준\", \"I\", \"얏\", \"겔\", \"확\", \"꾀\", \"잴\", \"똘\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"방\", \"반\", \"S\", \"옥\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"텍\", \"폼\", \"선\", \"붉\", \"樂\", \"쎈\", \"겠\", \"골\", \"얀\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"케\", \"멜\", \"🤗\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"코\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"옳\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"퓨\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"돗\", \"곡\", \"핍\", \"옆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"클\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"챔\", \"탰\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"급\", \"누\", \"밟\", \"셰\", \"맷\", \"💥\", \"N\", \"렷\", \"렘\", \"령\", \"트\", \"💰\", \"윗\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"타\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"즈\", \"킥\", \"C\", \"문\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"볶\", \"씌\", \"8\", \"끝\", \"살\", \"웖\", \"👍\", \"바\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"깝\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"슨\", \"었\", \"샐\", \"팬\", \"팅\", \"높\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"쥰\", \"잘\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"압\", \"언\", \"자\", \"널\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"년\", \"잃\", \"볍\", \"큼\", \"휩\", \"훠\", \"밌\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"훨\", \"걸\", \"돠\", \"🌵\", \"서\", \"숭\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"얄\", \"앰\", \"림\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"흄\", \"릅\", \"💣\", \"촬\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"듬\", \"친\", \"냉\", \"힙\", \"팽\", \"헝\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"3\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"톤\", \"절\", \"씹\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"넌\", \"임\", \"ㅔ\", \"런\", \"즐\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"몸\", \"쥬\", \"—\", \"둔\", \"졸\", \"에\", \"젤\", \"톨\", \"냈\", \"푸\", \"배\", \"앤\", \"재\", \"책\", \"‘\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"챗\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"識\", \"믐\", \"n\", \"㉰\", \"본\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"M\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"H\", \"제\", \"⚀\", \"ㅝ\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"견\", \"ᴍ\", \"최\", \"꼴\", \"듈\", \"뜸\", \"탐\", \"미\", \"상\", \"짱\", \"분\", \"건\", \"▷\", \"싣\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"🙆\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"🙌\", \"B\", \"P\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"환\", \"렐\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"퉁\", \"웃\", \"그\", \"렴\", \"생\", \"대\", \"융\", \"묵\", \"”\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"족\", \"닥\", \"힜\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"뗀\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"곧\", \"힌\", \"빚\", \"덜\", \"썹\", \"엘\", \"곱\", \"난\", \"Q\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"⑴\", \"겐\", \"썸\", \"낯\", \"당\", \"닛\", \"쎄\", \"밥\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"꿕\", \"6\", \"납\", \"므\", \"릉\", \"텅\", \"우\", \"켐\", \"펠\", \"“\", \"랐\", \"습\", \"강\", \"뛸\", \"색\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"뱀\", \"조\", \"틔\", \"넹\", \"끙\", \"뚫\", \"뼈\", \"꼬\", \"농\", \"네\", \"쬐\", \"낙\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"💡\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"계\", \"캠\", \"톡\", \"깡\", \"힐\", \"셜\", \"뚝\", \"옴\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"링\", \"끊\", \"혀\", \"웅\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"셉\", \"첸\", \"꼈\", \"전\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"앓\", \"램\", \"💸\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"빠\", \"튬\", \"쩔\", \"숫\", \"죤\", \"툭\", \"흠\", \"검\", \"둥\", \"헌\", \"봅\", \"췄\", \"엠\", \"닉\", \"님\", \"맹\", \"륙\", \"굉\", \"ᴀ\", \"놔\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"👨\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"섞\", \"쑥\", \"엡\", \"뜻\", \"탄\", \"동\", \"잣\", \"챙\", \"㉣\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"웬\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"였\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"짊\", \"㏊\", \"젊\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"큰\", \"폿\", \"옐\", \"징\", \"L\", \"흔\", \"옹\", \"–\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"不\", \"🙇\", \"게\", \"탬\", \"숨\", \"축\", \"충\", \"낼\", \"렛\", \"랑\", \"냄\", \"🌳\", \"약\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"잡\", \"류\", \"향\", \"빵\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"챨\", \"노\", \"율\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"촘\", \"Ⅹ\", \"팟\", \"펙\", \"띤\", \"회\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"땐\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"았\", \"키\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"엄\", \"험\", \"촌\", \"씽\", \"팡\", \"균\", \"🏫\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"모\", \"️\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"삼\", \"착\", \"웍\", \"쌉\", \"믄\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"龍\", \"팍\", \"곁\", \"품\", \"얼\", \"륜\", \"🤟\", \"뿍\", \"홍\", \"쉴\", \"멈\", \"ʟ\", \"슈\", \"못\", \"컴\", \"파\", \"갭\", \"잎\", \"컵\", \"찾\", \"낳\", \"마\", \"탁\", \"주\", \"담\", \"는\", \"폰\", \"띠\", \"속\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google-bert/bert-base-multilingual-uncased @ cc100/zh-Hans": { - "tokenizer": "bert-base-multilingual-uncased", - "organization": "Google", - "vocab_size": 105879, - "_n_bytes": 2633047, - "_n_tokens": 878021, - "_n_chars": 927311, - "_n_oov_chars": 34294, - "oov_ratio": 0.03698219906805807, - "_oov_charset": "[\"瞟\", \"篓\", \"撸\", \"缈\", \"镏\", \"饨\", \"搀\", \"猡\", \"ㄓ\", \"\", \"擤\", \" \", \"瞠\", \"N\", \"锲\", \"G\", \"à\", \"噼\", \"惬\", \"缥\", \"⒀\", \"C\", \"M\", \"D\", \"攥\", \"擀\", \"屣\", \"Ø\", \"牖\", \"擞\", \"馁\", \"裆\", \"馄\", \"“\", \"踱\", \"觑\", \"诶\", \"嘣\", \"X\", \"骛\", \"倨\", \"樯\", \"H\", \"汩\", \"眯\", \"馕\", \"摞\", \"懑\", \"⑩\", \"\", \"吆\", \"嘤\", \"踌\", \"’\", \"蹿\", \"ě\", \"呸\", \"疴\", \"狞\", \"苒\", \"剐\", \"锒\", \"I\", \"⑶\", \"铄\", \"啕\", \"旆\", \"á\", \"ὐ\", \"V\", \"扪\", \"鹜\", \"…\", \"抠\", \"茏\", \"佝\", \"旖\", \"韪\", \"”\", \"瞅\", \"R\", \"ç\", \"臊\", \"旎\", \"忑\", \"⒁\", \"î\", \"⑷\", \"犟\", \"ズ\", \"D\", \"婊\", \"沏\", \"忪\", \"\", \"遢\", \"谆\", \"\", \"屄\", \"蹩\", \"墒\", \"F\", \"C\", \"龇\", \"偌\", \"跚\", \"瑑\", \"�\", \"掂\", \"⑸\", \"搂\", \"聒\", \"\", \"挎\", \"唏\", \"E\", \"咦\", \"臃\", \"U\", \"惴\", \"\\u0000\", \"—\", \"偻\", \"抿\", \"S\", \"诨\", \"W\", \"T\", \"蹭\", \"赅\", \"怵\", \"耩\", \"⒂\", \"纰\", \"Y\", \"阽\", \"A\", \"⑨\", \"啐\", \"K\", \"L\", \"é\", \"喽\", \"\\u0005\", \"溘\", \"璎\", \"–\", \"瑥\", \"A\", \"\", \"\\b\", \"蓦\", \"⑿\", \"ό\", \"Q\", \"烊\", \"吭\", \"\\u0006\", \"嗦\", \"哧\", \"馍\", \"傥\", \" \", \"N\", \"屉\", \"​\", \"颧\", \"锏\", \"‘\", \"ê\", \"搡\", \"愣\", \"惦\", \"\", \"O\", \"T\", \"憋\", \"铩\", \"鸩\", \"V\", \"黢\", \"旳\", \"倏\", \"邋\", \"偎\", \"鼾\", \"拎\", \"挲\", \"唉\", \"忐\", \"⒌\", \"⑴\", \"瑒\", \"炝\", \"飕\", \"⒃\", \"粼\", \"ù\", \"狰\", \"怔\", \"J\", \"黧\", \"遛\", \"嘭\", \"P\", \"B\", \"癜\", \"蹒\", \"`\", \"纨\", \"瑧\", \"黩\", \"⒋\", \"岣\", \"馋\", \"绉\", \"篢\", \"唠\", \"欸\", \"舀\", \"皑\", \"1\", \"饽\", \"盹\", \"嘀\", \"撅\", \"\\u0007\", \"―\", \"捂\", \"瑨\", \"Z\", \"∶\", \"拧\", \"逶\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/ar": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2813283, - "_n_tokens": 1249370, - "_n_chars": 1560987, - "_n_oov_chars": 71627, - "oov_ratio": 0.045885712052694864, - "_oov_charset": "[\"م\", \"۲\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"G\", \"à\", \"ب\", \"M\", \"‎\", \"D\", \"إ\", \"ذ\", \"😀\", \"ۤ\", \"۰\", \"٨\", \"X\", \"▫\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"ٌ\", \"😊\", \"I\", \"█\", \"‹\", \"‏\", \"⤴\", \"ۚ\", \"â\", \"٪\", \"ئ\", \"ۗ\", \"R\", \"ۖ\", \"َ\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ح\", \"ί\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"S\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"A\", \"K\", \"L\", \"é\", \"‌\", \"Х\", \"﴿\", \"؛\", \"Q\", \"٠\", \"؟\", \"​\", \"ُ\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"V\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"ﻷ\", \"ؤ\", \"أ\", \"J\", \"٤\", \"B\", \"P\", \"ή\", \"ä\", \"ّ\", \"ث\", \"Z\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/de": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1814876, - "_n_tokens": 626485, - "_n_chars": 1784021, - "_n_oov_chars": 110980, - "oov_ratio": 0.062207787912810446, - "_oov_charset": "[\"İ\", \"➔\", \" \", \"N\", \"G\", \"à\", \"☺\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"Ø\", \"😀\", \"😦\", \"X\", \"û\", \"H\", \"å\", \"ó\", \"I\", \"\", \"‹\", \"č\", \"á\", \"▼\", \"â\", \"R\", \"ç\", \"Ã\", \"😉\", \"ï\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"ú\", \"“\", \"�\", \"ń\", \"≠\", \"ί\", \"̈\", \"🙂\", \"♡\", \"E\", \"😂\", \"↩\", \"U\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"A\", \"😈\", \"K\", \"L\", \"é\", \"k\", \"❤\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"ü\", \"😆\", \"​\", \"ā\", \"😢\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"J\", \"­\", \"š\", \"B\", \"P\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"Z\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/en": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1124813, - "_n_tokens": 260575, - "_n_chars": 1121360, - "_n_oov_chars": 31075, - "oov_ratio": 0.027711885567525147, - "_oov_charset": "[\"V\", \"U\", \"I\", \"③\", \"S\", \"⑧\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"M\", \"è\", \"⑦\", \"A\", \"D\", \"K\", \"J\", \"L\", \"é\", \"R\", \"P\", \"B\", \"Q\", \"😉\", \"X\", \"ï\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"⑤\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"Z\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/es": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1664455, - "_n_tokens": 538042, - "_n_chars": 1630297, - "_n_oov_chars": 68333, - "oov_ratio": 0.041914448717012914, - "_oov_charset": "[\"✓\", \"V\", \"М\", \"U\", \"I\", \"É\", \"ý\", \"Á\", \"S\", \"„\", \"á\", \"N\", \"T\", \"G\", \"à\", \"W\", \"️\", \"Y\", \"ö\", \"í\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"é\", \"R\", \"­\", \"▷\", \"P\", \"B\", \"😀\", \"Í\", \"❤\", \"‘\", \"😦\", \"Q\", \"😉\", \"ò\", \"ü\", \"X\", \"🙁\", \"👍\", \"H\", \"’\", \"ñ\", \"C\", \"F\", \"Ñ\", \"✪\", \"ú\", \"✔\", \"\", \"Ú\", \"👏\", \"Z\", \"ô\", \"O\", \"Ó\", \"🙂\", \"✖\", \"ó\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/fa": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2054052, - "_n_tokens": 890783, - "_n_chars": 1145876, - "_n_oov_chars": 24082, - "oov_ratio": 0.021016235613626606, - "_oov_charset": "[\"م\", \" \", \"۲\", \"N\", \"G\", \"ب\", \"M\", \"‎\", \"ط\", \"ق\", \"D\", \"إ\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"I\", \"ج\", \"✿\", \"۳\", \"️\", \"‏\", \"♥\", \"ن\", \"ا\", \"پ\", \"ئ\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"٢\", \"�\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"5\", \"A\", \"K\", \"L\", \"t\", \"k\", \"‌\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"O\", \"ٍ\", \"V\", \"۷\", \"ش\", \"٣\", \"س\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"گ\", \"۴\", \"ّ\", \"ص\", \"ּ\", \"n\", \"Z\", \"4\", \"ر\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/fr": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1540504, - "_n_tokens": 484075, - "_n_chars": 1484970, - "_n_oov_chars": 66759, - "oov_ratio": 0.04495646376694479, - "_oov_charset": "[\"V\", \"U\", \"I\", \"É\", \"̂\", \"S\", \"N\", \"T\", \"W\", \"G\", \"à\", \"Â\", \"Y\", \"Î\", \"í\", \"è\", \"ù\", \"M\", \"A\", \"À\", \"D\", \"â\", \"K\", \"J\", \"℃\", \"L\", \"ğ\", \"é\", \"́\", \"̧\", \"R\", \"­\", \"ç\", \"P\", \"B\", \"ë\", \"❤\", \"😀\", \"î\", \"Q\", \"😉\", \"ã\", \"ü\", \"Ê\", \"ï\", \"X\", \"û\", \"🤔\", \"H\", \"♕\", \"’\", \"F\", \"ê\", \"C\", \"…\", \"Ô\", \"ä\", \"È\", \"�\", \"Z\", \"ô\", \"O\", \"Ç\", \"🙂\", \"E\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/ja": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1774770, - "_n_tokens": 560634, - "_n_chars": 603065, - "_n_oov_chars": 182595, - "oov_ratio": 0.3027783074792933, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"G\", \"又\", \"族\", \"C\", \"多\", \"婆\", \"D\", \"ラ\", \"ぃ\", \"✨\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"服\", \"腎\", \"皿\", \"態\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"箭\", \"喜\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"紹\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"布\", \"杏\", \"歓\", \"撮\", \"網\", \"郷\", \"タ\", \"閉\", \"教\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"貧\", \"余\", \"派\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"靴\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"問\", \"旦\", \"副\", \"1\", \"核\", \"幼\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"艦\", \"麓\", \"v\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"完\", \"限\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"憤\", \"プ\", \"讐\", \"F\", \"令\", \"嫁\", \"頷\", \"盤\", \"術\", \"純\", \"薙\", \"遠\", \"標\", \"算\", \"店\", \"則\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"K\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"傘\", \"ヒ\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"詐\", \"u\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"r\", \"索\", \"啓\", \"垠\", \"窪\", \"〆\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"匡\", \"h\", \"浄\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"ヶ\", \"設\", \"幕\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"W\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"c\", \"l\", \"凱\", \"疇\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"J\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"e\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"庁\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"著\", \"エ\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"a\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"I\", \"潟\", \"壊\", \"m\", \"恒\", \"傾\", \"巨\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"銃\", \"閣\", \"衷\", \"点\", \"S\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"´\", \"鋲\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"支\", \"乏\", \"佇\", \"攻\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"4\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"勘\", \"兎\", \"爾\", \"ㅂ\", \"を\", \"還\", \"規\", \"ム\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"汗\", \"黄\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"U\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"o\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"ス\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"蛇\", \"ハ\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"茨\", \"N\", \"途\", \"纏\", \"他\", \"お\", \"云\", \"農\", \"N\", \"赦\", \"要\", \"弁\", \"貸\", \"脇\", \"矢\", \"任\", \"ぴ\", \"愕\", \"漫\", \"\", \"拷\", \"飾\", \"慮\", \"糖\", \"貌\", \"郵\", \"鎖\", \"カ\", \"該\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"写\", \"ゆ\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"C\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"唇\", \"伏\", \"姥\", \"営\", \"E\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"革\", \"8\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"唱\", \"再\", \"桁\", \"😭\", \"Ⅶ\", \"ア\", \"数\", \"滝\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"掃\", \"極\", \"胚\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"被\", \"痴\", \"塵\", \"U\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"A\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"品\", \"練\", \"詞\", \"ふ\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"3\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"ァ\", \"針\", \"資\", \"丁\", \"腫\", \"激\", \"臆\", \"須\", \"泥\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"栽\", \"引\", \"暦\", \"来\", \"ズ\", \"蒙\", \"倍\", \"球\", \"瓦\", \"舞\", \"歪\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"呂\", \"斧\", \"才\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"洒\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"侵\", \"客\", \"移\", \"結\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"O\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"助\", \"丼\", \"ダ\", \"n\", \"賛\", \"背\", \"預\", \"顔\", \"工\", \"朗\", \"炉\", \"賭\", \"蠍\", \"9\", \"M\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"倫\", \"稀\", \"散\", \"H\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"略\", \"ケ\", \"呆\", \"課\", \"悶\", \"料\", \"先\", \"浴\", \"恰\", \"墜\", \"7\", \"纒\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"ゥ\", \"哀\", \"尽\", \"ま\", \"割\", \"且\", \"状\", \"沸\", \"仲\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"腔\", \"末\", \"電\", \"煮\", \"採\", \"重\", \"施\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"B\", \"P\", \"^\", \"遥\", \"税\", \"句\", \"睦\", \"丘\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"懸\", \"提\", \"昇\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"ノ\", \"策\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"低\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"じ\", \"捏\", \"漏\", \"烈\", \"■\", \"磨\", \"弥\", \"忙\", \"應\", \"桑\", \"摩\", \"慈\", \"崔\", \"挫\", \"勉\", \"ワ\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"z\", \"幣\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"Q\", \"報\", \"況\", \"J\", \"s\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"2\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"指\", \"能\", \"6\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"署\", \"摘\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"i\", \"循\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"菊\", \"頓\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"b\", \"窒\", \"至\", \"綬\", \"鼓\", \"亭\", \"揉\", \"ホ\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"狩\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"詩\", \"0\", \"傷\", \"曹\", \"や\", \"箇\", \"園\", \"瞑\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"執\", \"楓\", \"w\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"槃\", \"射\", \"嶽\", \"允\", \"綜\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"に\", \"鹿\", \"豪\", \"捕\", \"X\", \"逆\", \"吹\", \"絞\", \"騰\", \"礁\", \"甚\", \"婚\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"澪\", \"筋\", \"情\", \"典\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"次\", \"ガ\", \"[\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"Z\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"篤\", \"逸\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"T\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"5\", \"編\", \"郭\", \"腹\", \"L\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"贅\", \"随\", \"捺\", \"ト\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"ャ\", \"娠\", \"烙\", \"Y\", \"鞄\", \"締\", \"e\", \"最\", \"簡\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \"V\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"〟\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"啜\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"叫\", \"株\", \"丸\", \"蝶\", \"俳\", \"荘\", \"条\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"R\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"m\", \"措\", \"謬\", \"洩\", \"獄\", \"黙\", \"厚\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"用\", \"拶\", \"ウ\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"頬\", \"邸\", \"瑞\", \"」\", \"t\", \"尋\", \"尺\", \"果\", \"景\", \"k\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"在\", \"煩\", \"榴\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"販\", \"訃\", \"裂\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/ko": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1524839, - "_n_tokens": 884756, - "_n_chars": 655190, - "_n_oov_chars": 440135, - "oov_ratio": 0.671766968360323, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"族\", \"갈\", \"싱\", \"체\", \"多\", \"D\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"罰\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"甲\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"F\", \"컸\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"l\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"a\", \"孝\", \"敬\", \"준\", \"I\", \"얏\", \"겔\", \"m\", \"확\", \"꾀\", \"잴\", \"똘\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"S\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"途\", \"戊\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"C\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"8\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"被\", \"얄\", \"앰\", \"림\", \"蚩\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"씹\", \"資\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"푸\", \"客\", \"結\", \"배\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"H\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"哀\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"생\", \"摩\", \"대\", \"융\", \"묵\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"Q\", \"劫\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"6\", \"常\", \"납\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"i\", \"侯\", \"강\", \"뛸\", \"색\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"好\", \"韜\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"섞\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"員\", \"짊\", \"㏊\", \"젊\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"L\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"對\", \"삼\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"」\", \"t\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"는\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google-bert/bert-base-uncased @ cc100/zh-Hans": { - "tokenizer": "bert-base-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2633047, - "_n_tokens": 878554, - "_n_chars": 927311, - "_n_oov_chars": 573826, - "oov_ratio": 0.6188064198526708, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"G\", \"又\", \"鱼\", \"族\", \"⒀\", \"C\", \"撬\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"D\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"狸\", \"页\", \"挈\", \"吆\", \"\", \"贵\", \"噌\", \"贱\", \"杆\", \"汐\", \"浙\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"氰\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"培\", \"近\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"【\", \"杭\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"偿\", \"衬\", \"撐\", \"靴\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"1\", \"笃\", \"核\", \"找\", \"闻\", \"幼\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"麓\", \"栖\", \"瞠\", \"葆\", \"潭\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"陵\", \"睐\", \"戳\", \"完\", \"戾\", \"限\", \"冯\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"裙\", \"陈\", \"~\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"锥\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \"F\", \"令\", \"嫁\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"嫂\", \"店\", \"书\", \"跃\", \"耙\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"K\", \"痊\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"骰\", \"捧\", \"体\", \"疼\", \"邻\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"梦\", \"沾\", \"增\", \"渠\", \"饰\", \"Ø\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"ὐ\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"冰\", \"蜴\", \"甜\", \"炙\", \"幕\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"W\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"蟀\", \"馍\", \"咐\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"锅\", \"勃\", \"样\", \"卷\", \"幅\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"J\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"廉\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"I\", \"乒\", \"莘\", \"螃\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"嗨\", \"D\", \"衷\", \"点\", \"S\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"苛\", \"刊\", \"佘\", \"础\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"蹒\", \"读\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"4\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"笛\", \"较\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"嘤\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"骸\", \"严\", \"颉\", \"睑\", \"骏\", \"与\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"莓\", \"偶\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"U\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"煎\", \"颖\", \"九\", \"ê\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"ù\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"N\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"呦\", \"估\", \"值\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"厮\", \"枉\", \"纷\", \"婶\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"写\", \"补\", \"夕\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"C\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"E\", \"辈\", \"绽\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"8\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"é\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"價\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"娄\", \"预\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"瀚\", \"矶\", \"璃\", \"利\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"涕\", \"葩\", \"掠\", \"靛\", \"付\", \"豚\", \"为\", \"昊\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"摞\", \"霸\", \"唱\", \"再\", \"蟋\", \"郴\", \"徇\", \"异\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"á\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"阜\", \"列\", \"珊\", \"麾\", \"被\", \"稍\", \"痴\", \"阂\", \"裔\", \"胀\", \"论\", \"首\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"A\", \"洗\", \"纹\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"品\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"瘀\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"蹴\", \"3\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"激\", \"臆\", \"泥\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"锤\", \"引\", \"袍\", \"来\", \"畑\", \"忿\", \"讪\", \"疵\", \"ズ\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"動\", \"赞\", \"斧\", \"才\", \"翅\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"洒\", \"绞\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"龚\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"O\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"助\", \"扣\", \"锂\", \"捂\", \"芬\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"梵\", \"9\", \"攸\", \"岑\", \"涉\", \"晰\", \"刚\", \"蝉\", \"M\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"H\", \"硕\", \"篷\", \"玉\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"漠\", \"哒\", \"畜\", \"伫\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"呆\", \"柳\", \"料\", \"虽\", \"先\", \"浴\", \"鄯\", \"俨\", \"恰\", \"镉\", \"欢\", \"殉\", \"办\", \"臂\", \"惟\", \"7\", \"扼\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"î\", \"遂\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"状\", \"沸\", \"仲\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"偎\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"施\", \"载\", \"炸\", \"匾\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"P\", \"莴\", \"B\", \"税\", \"遥\", \"犀\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"舆\", \"肃\", \"谬\", \"提\", \"军\", \"撞\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"瑨\", \"策\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"帜\", \"弈\", \"低\", \"动\", \"奸\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"喧\", \"泛\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"挫\", \"饷\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"后\", \"蠢\", \"锐\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"Q\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"指\", \"能\", \"沧\", \"6\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \"檀\", \"血\", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"必\", \"均\", \"无\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"踱\", \"峨\", \"茄\", \"仕\", \"庄\", \"急\", \"浆\", \"舶\", \"桓\", \"进\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"辩\", \"柠\", \"朔\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"疹\", \"评\", \"好\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"择\", \"勇\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"战\", \"岁\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"亭\", \"鼓\", \"舰\", \"诫\", \"伉\", \"揉\", \"曾\", \"旷\", \"茂\", \"皙\", \"\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"蚀\", \"狩\", \"聂\", \"啪\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"唉\", \"0\", \"剔\", \"曹\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"X\", \"咖\", \"薯\", \"逆\", \"传\", \"吹\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"ě\", \"莫\", \"婚\", \"鹑\", \"迭\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"Z\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"T\", \"印\", \"○\", \"迩\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"5\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"腹\", \"L\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"阎\", \"憋\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"奥\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"奖\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"ç\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"雳\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"Y\", \"绰\", \"苏\", \"e\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \"V\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"溉\", \"摹\", \"拆\", \"瞪\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"啜\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"à\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"邂\", \"膜\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"峻\", \"眯\", \"晨\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"R\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"搜\", \"芙\", \"厚\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"邸\", \"膳\", \"对\", \"测\", \"瑞\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"擂\", \"何\", \"遮\", \"ό\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"马\", \"裂\", \"瀛\", \"皑\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/ar": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2813283, - "_n_tokens": 558855, - "_n_chars": 1560987, - "_n_oov_chars": 1249848, - "oov_ratio": 0.8006780325524813, - "_oov_charset": "[\"م\", \"©\", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"ذ\", \"😀\", \"خ\", \"×\", \"ۤ\", \"د\", \"۰\", \"٨\", \"τ\", \"▫\", \"\", \"٦\", \"<\", \"
\", \"ْ\", \"}\", \"ٌ\", \"😊\", \"ج\", \"█\", \"¡\", \"‹\", \"‏\", \"…\", \"ن\", \"♥\", \"χ\", \"{\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"ا\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"^\", \"آ\", \"٩\", \"‬\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"μ\", \"α\", \"١\", \"و\", \"‌\", \"Х\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"\\\\\", \"؟\", \"​\", \"ُ\", \"~\", \"٥\", \"ﻹ\", \"ـ\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"←\", \"ً\", \"۸\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"٤\", \"ل\", \"ء\", \"ή\", \"″\", \"ص\", \"ّ\", \"ث\", \"η\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/de": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1814876, - "_n_tokens": 470254, - "_n_chars": 1784021, - "_n_oov_chars": 2035, - "oov_ratio": 0.001140681639958274, - "_oov_charset": "[\"©\", \"u\", \"¶\", \"İ\", \"ς\", \"➔\", \" \", \"¿\", \"☺\", \"ć\", \"·\", \"¼\", \"😃\", \"‎\", \"–\", \"Ø\", \"😀\", \"‚\", \"😦\", \"τ\", \"<\", \"å\", \"}\", \"\", \"‹\", \"č\", \"▼\", \"→\", \"…\", \"♥\", \"{\", \"−\", \"œ\", \"ε\", \"Ã\", \"ρ\", \"^\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"¹\", \"ú\", \"“\", \"™\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"★\", \"̈\", \"🙂\", \"♡\", \"😂\", \"↩\", \"§\", \"α\", \"ι\", \"¬\", \"😈\", \"❤\", \"ė\", \"›\", \"🙄\", \"Ö\", \"\\\\\", \"😆\", \"​\", \"ø\", \"~\", \"ā\", \"😢\", \"´\", \"ớ\", \"„\", \"Á\", \"²\", \"¤\", \"š\", \"`\", \"‽\", \"ư\", \"🙁\", \"↑\", \"♦\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/es": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1664455, - "_n_tokens": 696400, - "_n_chars": 1630297, - "_n_oov_chars": 11598, - "oov_ratio": 0.007114041183906981, - "_oov_charset": "[\"■\", \"✓\", \"М\", \"©\", \"←\", \"¡\", \"ý\", \"Á\", \"„\", \"¿\", \"️\", \"→\", \"…\", \"·\", \"í\", \"²\", \"{\", \"▷\", \"😀\", \"❤\", \"Í\", \"‘\", \"×\", \"^\", \"😦\", \"😉\", \"ò\", \"🙁\", \"👍\", \"\\\\\", \"º\", \"ª\", \"’\", \"ø\", \"ñ\", \"Ñ\", \"✪\", \"″\", \"ú\", \"✔\", \"<\", \"\", \"Ú\", \"―\", \"👏\", \"´\", \"}\", \"Ó\", \"🙂\", \"✖\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/fa": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2054052, - "_n_tokens": 483767, - "_n_chars": 1145876, - "_n_oov_chars": 898637, - "oov_ratio": 0.7842358160917935, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"ب\", \"·\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"٨\", \"ۀ\", \"\", \"<\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"}\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"{\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"‌\", \"❤\", \"ڪ\", \"›\", \"؛\", \"ב\", \"٠\", \"ف\", \"\\\\\", \"؟\", \"​\", \"ُ\", \"٥\", \"٫\", \"ـ\", \"●\", \"ٍ\", \"ش\", \"س\", \"۷\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"ل\", \"ء\", \"گ\", \"۴\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/fr": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1540504, - "_n_tokens": 466133, - "_n_chars": 1484970, - "_n_oov_chars": 1615, - "oov_ratio": 0.001087564058533169, - "_oov_charset": "[\"§\", \"←\", \"♠\", \"Â\", \"…\", \"·\", \"í\", \"²\", \"{\", \"À\", \"̧\", \"℃\", \"ğ\", \"́\", \"µ\", \"œ\", \"❤\", \"😀\", \"ë\", \"^\", \"😉\", \"ã\", \"Ê\", \"ï\", \"‐\", \"\\\\\", \"🤔\", \"♕\", \"’\", \"Ô\", \"″\", \"…\", \"™\", \"<\", \"~\", \"È\", \"�\", \"―\", \"´\", \"Ç\", \"̂\", \"★\", \"}\", \"🙂\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/ja": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1774770, - "_n_tokens": 41947, - "_n_chars": 603065, - "_n_oov_chars": 585967, - "oov_ratio": 0.9716481639624253, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"又\", \"族\", \"青\", \"C\", \"王\", \"多\", \"婆\", \"✨\", \"ラ\", \"ぃ\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \".\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"竹\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"示\", \"馬\", \"服\", \"腎\", \"皿\", \"態\", \"・\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"…\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"三\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"小\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"代\", \"箭\", \"喜\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"氏\", \"紹\", \"城\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"―\", \"布\", \"杏\", \"歓\", \"撮\", \"部\", \"網\", \"間\", \"郷\", \"車\", \"タ\", \"閉\", \"教\", \"有\", \"八\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"陽\", \"貧\", \"余\", \"派\", \"西\", \"河\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"忠\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"→\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"宣\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"場\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"崎\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"的\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"「\", \"靴\", \"司\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"滝\", \"橋\", \"問\", \"旦\", \"副\", \"核\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"艦\", \"麓\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"秀\", \"完\", \"限\", \"学\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"地\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"行\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"本\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"鈴\", \"憤\", \"プ\", \"讐\", \",\", \"令\", \"嫁\", \"頷\", \"盤\", \"松\", \"術\", \"治\", \"純\", \"薙\", \"遠\", \"国\", \"標\", \"算\", \"民\", \"店\", \"女\", \"則\", \"史\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"曲\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"川\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"ヒ\", \"傘\", \"書\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"耳\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"介\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"?\", \"詐\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"索\", \"戦\", \"啓\", \"垠\", \"窪\", \"〆\", \"十\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"楊\", \"匡\", \"浄\", \"止\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"北\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"文\", \"ヶ\", \"ε\", \"設\", \"^\", \"幕\", \"不\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"秋\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"天\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"μ\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"公\", \"凱\", \"疇\", \"帝\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"光\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"明\", \"庁\", \"藤\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"エ\", \"著\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"道\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"潟\", \"壊\", \"犬\", \"勝\", \"恒\", \"傾\", \"巨\", \"。\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"吉\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"健\", \"銃\", \"閣\", \"衷\", \"点\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"」\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"\\\\\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"岡\", \"´\", \"鋲\", \"永\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"侍\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"男\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"朝\", \"支\", \"乏\", \"佇\", \"攻\", \"戸\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"志\", \"勘\", \"兎\", \"葉\", \"爾\", \"ㅂ\", \"を\", \"還\", \"版\", \"ム\", \"規\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"井\", \"汗\", \"黄\", \"春\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"-\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"四\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"力\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"我\", \"ス\", \"樹\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"伊\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"ハ\", \"蛇\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"家\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"年\", \"茨\", \"N\", \"途\", \"纏\", \"©\", \"他\", \"お\", \"云\", \"農\", \"阿\", \"貴\", \"赦\", \"要\", \"弁\", \"金\", \"貸\", \"雄\", \"脇\", \"矢\", \"任\", \"ぴ\", \"東\", \"愕\", \"漫\", \"\", \"拷\", \"一\", \"飾\", \"慮\", \"糖\", \"宮\", \"貌\", \"郵\", \"谷\", \"鎖\", \"カ\", \"法\", \"該\", \"方\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"幸\", \"ゆ\", \"写\", \"博\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"島\", \"唇\", \"伏\", \"姥\", \"営\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"革\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"和\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"千\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"林\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"清\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"〈\", \"唱\", \"再\", \"<\", \"😭\", \"桁\", \"Ⅶ\", \"ア\", \"子\", \"会\", \"数\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"國\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"原\", \"州\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"安\", \"掃\", \"極\", \"胚\", \"発\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"皇\", \"被\", \"外\", \"痴\", \"塵\", \"U\", \"李\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"~\", \"品\", \"練\", \"詞\", \"ふ\", \"〉\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"坂\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \")\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"成\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"門\", \"ァ\", \"針\", \"資\", \"沢\", \"丁\", \"腫\", \"仁\", \"激\", \"臆\", \"須\", \"泥\", \"立\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"平\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"五\", \"引\", \"暦\", \"来\", \"栽\", \"ズ\", \"蒙\", \"倍\", \"之\", \"球\", \"瓦\", \"舞\", \"歪\", \"堂\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"空\", \"呂\", \"斧\", \"才\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"上\", \"洒\", \"〜\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"香\", \"侵\", \"客\", \"移\", \"結\", \"陳\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"佐\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"信\", \"`\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"夏\", \"助\", \"丼\", \"ダ\", \"区\", \"賛\", \"背\", \"預\", \"顔\", \"同\", \"工\", \"朗\", \"炉\", \"賭\", \"白\", \"蠍\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"倫\", \"稀\", \"散\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"ケ\", \"略\", \"森\", \"課\", \"呆\", \"料\", \"悶\", \"先\", \"浴\", \"恰\", \"墜\", \"新\", \"生\", \"纒\", \"南\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"《\", \"ゥ\", \"哀\", \"尽\", \"出\", \"劉\", \"合\", \"ま\", \"割\", \"且\", \"状\", \"政\", \"仲\", \"沸\", \"∇\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"ω\", \"末\", \"腔\", \"水\", \"電\", \"¥\", \"煮\", \"採\", \"重\", \"施\", \"口\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"税\", \"^\", \"遥\", \"句\", \"睦\", \"丘\", \"山\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"名\", \"懸\", \"提\", \"昇\", \"久\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"宇\", \"策\", \"ノ\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"石\", \"低\", \"相\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"都\", \"奈\", \"じ\", \"捏\", \"漏\", \"烈\", \"■\", \"古\", \"磨\", \"長\", \"⇒\", \"弥\", \"忙\", \"應\", \"桑\", \"龍\", \"摩\", \"慈\", \"崔\", \"挫\", \"英\", \"勉\", \"ワ\", \"↓\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"、\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"幣\", \"見\", \"正\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"報\", \"況\", \"J\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"街\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"火\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"土\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"(\", \"指\", \"能\", \"村\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"後\", \" \", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"食\", \"署\", \"摘\", \"─\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"循\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"御\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"貝\", \"尚\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"木\", \"頓\", \"菊\", \"華\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"社\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"比\", \"窒\", \"至\", \"夫\", \"綬\", \"鼓\", \"亭\", \"ホ\", \"揉\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"軍\", \"内\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"也\", \"狩\", \"歌\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"前\", \"詩\", \"傷\", \"曹\", \"や\", \"》\", \"箇\", \"園\", \"瞑\", \"義\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"保\", \"執\", \"楓\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"武\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"郎\", \"射\", \"嶽\", \"槃\", \"允\", \"綜\", \"瀬\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"宗\", \"に\", \"鹿\", \"豪\", \"捕\", \"逆\", \"郡\", \"日\", \"吹\", \"寺\", \"絞\", \"騰\", \"江\", \"礁\", \"甚\", \"婚\", \"美\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"−\", \"澪\", \"筋\", \"情\", \"典\", \"良\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"省\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"/\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"氷\", \"次\", \"ガ\", \"[\", \"海\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"大\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"定\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"分\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"風\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"元\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"京\", \"逸\", \"篤\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"編\", \"心\", \"腹\", \"郭\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"章\", \"月\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"高\", \"贅\", \"随\", \"捺\", \"ト\", \"加\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"田\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"漢\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"野\", \"ャ\", \"娠\", \"烙\", \"鞄\", \"締\", \"昭\", \"e\", \"簡\", \"最\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"太\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"』\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \":\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"手\", \"〟\", \"世\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"!\", \"啜\", \"人\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"″\", \"叫\", \"株\", \"丸\", \"↑\", \"俳\", \"蝶\", \"条\", \"荘\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"士\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"『\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"花\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"事\", \"宿\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"面\", \"主\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"‐\", \"m\", \"中\", \"措\", \"語\", \"謬\", \"洩\", \"獄\", \"黙\", \"里\", \"厚\", \"★\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"ウ\", \"用\", \"拶\", \"星\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"真\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"仮\", \"二\", \"頬\", \"邸\", \"目\", \"瑞\", \"」\", \"尋\", \"尺\", \"果\", \"景\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"張\", \"在\", \"煩\", \"榴\", \"愛\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"下\", \"販\", \"訃\", \"裂\", \"神\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google-t5/t5-large @ cc100/ko": { - "tokenizer": "t5", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1524839, - "_n_tokens": 334457, - "_n_chars": 655190, - "_n_oov_chars": 433242, - "oov_ratio": 0.6612463560188647, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"빈\", \"族\", \"王\", \"갈\", \"싱\", \"체\", \"多\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"竹\", \"백\", \"\", \"규\", \"德\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"三\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"代\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"城\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"部\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"有\", \"八\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"的\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"「\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"숏\", \"福\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"地\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"行\", \"벽\", \"甲\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"컸\", \"治\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"民\", \"女\", \"뜯\", \"략\", \"史\", \"따\", \"틸\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"川\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"十\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"낮\", \"왓\", \"團\", \"北\", \"갯\", \"틴\", \"채\", \"앎\", \"文\", \"싹\", \"늬\", \"^\", \"둡\", \"不\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"秋\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"天\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"公\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"帝\", \"☆\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"光\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"明\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"道\", \"쳤\", \"孝\", \"敬\", \"준\", \"얏\", \"겔\", \"犬\", \"확\", \"꾀\", \"잴\", \"똘\", \"。\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"±\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"」\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"\\\\\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"永\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"男\", \"朝\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"志\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"春\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"家\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"年\", \"途\", \"©\", \"戊\", \"맷\", \"💥\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"金\", \"貸\", \"꾸\", \"雄\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"一\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"谷\", \"폄\", \"눔\", \"法\", \"方\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"킵\", \"뮤\", \"슬\", \"§\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"和\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"林\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"〈\", \"삣\", \"<\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"子\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"國\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"原\", \"믿\", \"팩\", \"싸\", \"움\", \"安\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"皇\", \"둬\", \"식\", \"被\", \"外\", \"얄\", \"α\", \"앰\", \"림\", \"蚩\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"~\", \"〉\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"仁\", \"놨\", \"됬\", \"立\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"平\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"五\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"之\", \"원\", \"갱\", \"레\", \"堂\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"上\", \"푸\", \"客\", \"結\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"信\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"▲\", \"본\", \"㉰\", \"同\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"白\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"}\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"新\", \"미\", \"生\", \"ⅲ\", \"상\", \"짱\", \"南\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"《\", \"哀\", \"획\", \"뭉\", \"出\", \"젝\", \"合\", \"쩌\", \"탓\", \"페\", \"政\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"ω\", \"🤕\", \"水\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"口\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"🙌\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"山\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"相\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"×\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"古\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"摩\", \"묵\", \"英\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"正\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"劫\", \"뜩\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"火\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"土\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"常\", \"납\", \"後\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"食\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"侯\", \"강\", \"뛸\", \"색\", \"御\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"{\", \"죄\", \"훌\", \"好\", \"韜\", \"華\", \"ㅅ\", \"社\", \"큐\", \"얽\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"뼈\", \"比\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"》\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"武\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"宗\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"🍎\", \"내\", \"日\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"江\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"美\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"海\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"大\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"分\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"京\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"○\", \"큰\", \"폿\", \"옐\", \"징\", \"蟄\", \"心\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"章\", \"月\", \"완\", \"딸\", \"高\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"·\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"し\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"≤\", \"す\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"野\", \"직\", \"답\", \"昭\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"』\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"手\", \"껑\", \"땡\", \"돼\", \"世\", \"돋\", \"져\", \"끌\", \"쏙\", \"랍\", \"락\", \"▣\", \"없\", \"人\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"『\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"事\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"面\", \"主\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"中\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"里\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"星\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"目\", \"」\", \"Ⅸ\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"下\", \"는\", \"神\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google/byt5-small @ cc100/ar": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 2813283, - "_n_tokens": 2813283, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/byt5-small @ cc100/de": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1814876, - "_n_tokens": 1814876, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/byt5-small @ cc100/es": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1664455, - "_n_tokens": 1664455, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/byt5-small @ cc100/fa": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 2054052, - "_n_tokens": 2054052, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "google/byt5-small @ cc100/fr": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1540504, - "_n_tokens": 1540504, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/byt5-small @ cc100/ja": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1774770, - "_n_tokens": 1774770, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "google/byt5-small @ cc100/ko": { - "tokenizer": "byt5-small", - "organization": "Google", - "vocab_size": 384, - "_n_bytes": 1524839, - "_n_tokens": 1524839, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "google/gemma-7b @ cc100/ar": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 2813283, - "_n_tokens": 563788, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/de": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1814876, - "_n_tokens": 406876, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/en": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1124813, - "_n_tokens": 258010, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/es": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1664455, - "_n_tokens": 361321, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/fa": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 2054052, - "_n_tokens": 363762, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/fr": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1540504, - "_n_tokens": 364551, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/ja": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1774770, - "_n_tokens": 307873, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/ko": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 1524839, - "_n_tokens": 454410, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/gemma-7b @ cc100/zh-Hans": { - "tokenizer": "gemma-7b", - "organization": "Google", - "vocab_size": 256000, - "_n_bytes": 2633047, - "_n_tokens": 631795, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "google/mobilebert-uncased @ cc100/ar": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2813283, - "_n_tokens": 1249370, - "_n_chars": 1560987, - "_n_oov_chars": 71627, - "oov_ratio": 0.045885712052694864, - "_oov_charset": "[\"م\", \"۲\", \"ض\", \"ﻻ\", \"N\", \"ٱ\", \"ﷺ\", \"G\", \"à\", \"ب\", \"M\", \"‎\", \"D\", \"إ\", \"ذ\", \"😀\", \"ۤ\", \"۰\", \"٨\", \"X\", \"▫\", \"H\", \"\", \"٦\", \"
\", \"ْ\", \"ٌ\", \"😊\", \"I\", \"█\", \"‹\", \"‏\", \"⤴\", \"ۚ\", \"â\", \"٪\", \"ئ\", \"ۗ\", \"R\", \"ۖ\", \"َ\", \"آ\", \"٩\", \"‬\", \"F\", \"C\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ح\", \"ί\", \"🙂\", \"E\", \"ع\", \"ِ\", \"↩\", \"U\", \"S\", \"W\", \"T\", \"١\", \"Y\", \"ö\", \"و\", \"A\", \"K\", \"L\", \"é\", \"‌\", \"Х\", \"﴿\", \"؛\", \"Q\", \"٠\", \"؟\", \"​\", \"ُ\", \"٥\", \"ﻹ\", \"ـ\", \"O\", \"ٍ\", \"V\", \"٣\", \"۷\", \"٧\", \"ً\", \"۸\", \"ﻷ\", \"ؤ\", \"أ\", \"J\", \"٤\", \"B\", \"P\", \"ή\", \"ä\", \"ّ\", \"ث\", \"Z\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/de": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1814876, - "_n_tokens": 626485, - "_n_chars": 1784021, - "_n_oov_chars": 110980, - "oov_ratio": 0.062207787912810446, - "_oov_charset": "[\"İ\", \"➔\", \" \", \"N\", \"G\", \"à\", \"☺\", \"ć\", \"😃\", \"M\", \"‎\", \"è\", \"–\", \"D\", \"Ø\", \"😀\", \"😦\", \"X\", \"û\", \"H\", \"å\", \"ó\", \"I\", \"\", \"‹\", \"č\", \"á\", \"▼\", \"â\", \"R\", \"ç\", \"Ã\", \"😉\", \"ï\", \"Ÿ\", \"Ä\", \"F\", \"C\", \"ú\", \"“\", \"�\", \"ń\", \"≠\", \"ί\", \"̈\", \"🙂\", \"♡\", \"E\", \"😂\", \"↩\", \"U\", \"É\", \"S\", \"W\", \"T\", \"ö\", \"Y\", \"A\", \"😈\", \"K\", \"L\", \"é\", \"k\", \"❤\", \"ė\", \"🙄\", \"Q\", \"Ö\", \"ü\", \"😆\", \"​\", \"ā\", \"😢\", \"ô\", \"O\", \"V\", \"ớ\", \"„\", \"Á\", \"J\", \"­\", \"š\", \"B\", \"P\", \"Ü\", \"‽\", \"ư\", \"🙁\", \"ä\", \"Z\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/en": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1124813, - "_n_tokens": 260575, - "_n_chars": 1121360, - "_n_oov_chars": 31075, - "oov_ratio": 0.027711885567525147, - "_oov_charset": "[\"V\", \"U\", \"I\", \"③\", \"S\", \"⑧\", \"W\", \"T\", \"N\", \"G\", \"”\", \"Y\", \"M\", \"è\", \"⑦\", \"A\", \"D\", \"K\", \"J\", \"L\", \"é\", \"R\", \"P\", \"B\", \"Q\", \"😉\", \"X\", \"ï\", \"H\", \"​\", \"😥\", \"F\", \"C\", \"⑤\", \"ñ\", \"⑩\", \"\", \"“\", \"�\", \"Z\", \"\", \"O\", \"🙂\", \"ó\", \"E\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/es": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1664455, - "_n_tokens": 538042, - "_n_chars": 1630297, - "_n_oov_chars": 68333, - "oov_ratio": 0.041914448717012914, - "_oov_charset": "[\"✓\", \"V\", \"М\", \"U\", \"I\", \"É\", \"ý\", \"Á\", \"S\", \"„\", \"á\", \"N\", \"T\", \"G\", \"à\", \"W\", \"️\", \"Y\", \"ö\", \"í\", \"M\", \"è\", \"A\", \"D\", \"K\", \"J\", \"L\", \"é\", \"R\", \"­\", \"▷\", \"P\", \"B\", \"😀\", \"Í\", \"❤\", \"‘\", \"😦\", \"Q\", \"😉\", \"ò\", \"ü\", \"X\", \"🙁\", \"👍\", \"H\", \"’\", \"ñ\", \"C\", \"F\", \"Ñ\", \"✪\", \"ú\", \"✔\", \"\", \"Ú\", \"👏\", \"Z\", \"ô\", \"O\", \"Ó\", \"🙂\", \"✖\", \"ó\", \"E\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/fa": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2054052, - "_n_tokens": 890783, - "_n_chars": 1145876, - "_n_oov_chars": 24082, - "oov_ratio": 0.021016235613626606, - "_oov_charset": "[\"م\", \" \", \"۲\", \"N\", \"G\", \"ب\", \"M\", \"‎\", \"ط\", \"ق\", \"D\", \"إ\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"y\", \"٨\", \"X\", \"i\", \"H\", \"ۀ\", \"\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"a\", \"۶\", \"ٔ\", \"ٌ\", \"I\", \"ج\", \"✿\", \"۳\", \"️\", \"‏\", \"♥\", \"ن\", \"ا\", \"پ\", \"ئ\", \"٪\", \"R\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"F\", \"C\", \"٢\", \"�\", \"ح\", \"ت\", \"★\", \"ی\", \"E\", \"ع\", \"ِ\", \"U\", \"S\", \"‍\", \"W\", \"T\", \"١\", \"Y\", \"و\", \"5\", \"A\", \"K\", \"L\", \"t\", \"k\", \"‌\", \"❤\", \"ڪ\", \"c\", \"؛\", \"Q\", \"l\", \"٠\", \"ف\", \"s\", \"؟\", \"​\", \"ُ\", \"2\", \"٥\", \"٫\", \"O\", \"ٍ\", \"V\", \"۷\", \"ش\", \"٣\", \"س\", \"٧\", \"ً\", \"۸\", \"۔\", \"0\", \"ه\", \"ؤ\", \"أ\", \"ز\", \"J\", \"٤\", \"­\", \"P\", \"B\", \"p\", \"ل\", \"گ\", \"۴\", \"ّ\", \"ص\", \"ּ\", \"n\", \"Z\", \"4\", \"ر\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/fr": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1540504, - "_n_tokens": 484075, - "_n_chars": 1484970, - "_n_oov_chars": 66759, - "oov_ratio": 0.04495646376694479, - "_oov_charset": "[\"V\", \"U\", \"I\", \"É\", \"̂\", \"S\", \"N\", \"T\", \"W\", \"G\", \"à\", \"Â\", \"Y\", \"Î\", \"í\", \"è\", \"ù\", \"M\", \"A\", \"À\", \"D\", \"â\", \"K\", \"J\", \"℃\", \"L\", \"ğ\", \"é\", \"́\", \"̧\", \"R\", \"­\", \"ç\", \"P\", \"B\", \"ë\", \"❤\", \"😀\", \"î\", \"Q\", \"😉\", \"ã\", \"ü\", \"Ê\", \"ï\", \"X\", \"û\", \"🤔\", \"H\", \"♕\", \"’\", \"F\", \"ê\", \"C\", \"…\", \"Ô\", \"ä\", \"È\", \"�\", \"Z\", \"ô\", \"O\", \"Ç\", \"🙂\", \"E\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/ja": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1774770, - "_n_tokens": 560634, - "_n_chars": 603065, - "_n_oov_chars": 182595, - "oov_ratio": 0.3027783074792933, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"G\", \"又\", \"族\", \"C\", \"多\", \"婆\", \"D\", \"ラ\", \"ぃ\", \"✨\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"服\", \"腎\", \"皿\", \"態\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"箭\", \"喜\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"紹\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"布\", \"杏\", \"歓\", \"撮\", \"網\", \"郷\", \"タ\", \"閉\", \"教\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"貧\", \"余\", \"派\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"靴\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"問\", \"旦\", \"副\", \"1\", \"核\", \"幼\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"艦\", \"麓\", \"v\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"完\", \"限\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"憤\", \"プ\", \"讐\", \"F\", \"令\", \"嫁\", \"頷\", \"盤\", \"術\", \"純\", \"薙\", \"遠\", \"標\", \"算\", \"店\", \"則\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"K\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"傘\", \"ヒ\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"詐\", \"u\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"r\", \"索\", \"啓\", \"垠\", \"窪\", \"〆\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"匡\", \"h\", \"浄\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"ヶ\", \"設\", \"幕\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"W\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"c\", \"l\", \"凱\", \"疇\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"J\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"e\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"庁\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"著\", \"エ\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"a\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"I\", \"潟\", \"壊\", \"m\", \"恒\", \"傾\", \"巨\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"銃\", \"閣\", \"衷\", \"点\", \"S\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"´\", \"鋲\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"支\", \"乏\", \"佇\", \"攻\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"4\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"勘\", \"兎\", \"爾\", \"ㅂ\", \"を\", \"還\", \"規\", \"ム\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"汗\", \"黄\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"U\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"o\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"ス\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"蛇\", \"ハ\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"茨\", \"N\", \"途\", \"纏\", \"他\", \"お\", \"云\", \"農\", \"N\", \"赦\", \"要\", \"弁\", \"貸\", \"脇\", \"矢\", \"任\", \"ぴ\", \"愕\", \"漫\", \"\", \"拷\", \"飾\", \"慮\", \"糖\", \"貌\", \"郵\", \"鎖\", \"カ\", \"該\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"写\", \"ゆ\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"C\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"唇\", \"伏\", \"姥\", \"営\", \"E\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"革\", \"8\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"唱\", \"再\", \"桁\", \"😭\", \"Ⅶ\", \"ア\", \"数\", \"滝\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"掃\", \"極\", \"胚\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"被\", \"痴\", \"塵\", \"U\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"A\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"品\", \"練\", \"詞\", \"ふ\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"3\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"ァ\", \"針\", \"資\", \"丁\", \"腫\", \"激\", \"臆\", \"須\", \"泥\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"栽\", \"引\", \"暦\", \"来\", \"ズ\", \"蒙\", \"倍\", \"球\", \"瓦\", \"舞\", \"歪\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"呂\", \"斧\", \"才\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"洒\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"侵\", \"客\", \"移\", \"結\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"O\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"助\", \"丼\", \"ダ\", \"n\", \"賛\", \"背\", \"預\", \"顔\", \"工\", \"朗\", \"炉\", \"賭\", \"蠍\", \"9\", \"M\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"倫\", \"稀\", \"散\", \"H\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"略\", \"ケ\", \"呆\", \"課\", \"悶\", \"料\", \"先\", \"浴\", \"恰\", \"墜\", \"7\", \"纒\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"ゥ\", \"哀\", \"尽\", \"ま\", \"割\", \"且\", \"状\", \"沸\", \"仲\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"腔\", \"末\", \"電\", \"煮\", \"採\", \"重\", \"施\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"B\", \"P\", \"^\", \"遥\", \"税\", \"句\", \"睦\", \"丘\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"懸\", \"提\", \"昇\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"ノ\", \"策\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"低\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"じ\", \"捏\", \"漏\", \"烈\", \"■\", \"磨\", \"弥\", \"忙\", \"應\", \"桑\", \"摩\", \"慈\", \"崔\", \"挫\", \"勉\", \"ワ\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"z\", \"幣\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"Q\", \"報\", \"況\", \"J\", \"s\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"2\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"指\", \"能\", \"6\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"署\", \"摘\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"i\", \"循\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"菊\", \"頓\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"b\", \"窒\", \"至\", \"綬\", \"鼓\", \"亭\", \"揉\", \"ホ\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"狩\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"詩\", \"0\", \"傷\", \"曹\", \"や\", \"箇\", \"園\", \"瞑\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"執\", \"楓\", \"w\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"槃\", \"射\", \"嶽\", \"允\", \"綜\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"に\", \"鹿\", \"豪\", \"捕\", \"X\", \"逆\", \"吹\", \"絞\", \"騰\", \"礁\", \"甚\", \"婚\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"澪\", \"筋\", \"情\", \"典\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"次\", \"ガ\", \"[\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"Z\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"篤\", \"逸\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"T\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"5\", \"編\", \"郭\", \"腹\", \"L\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"贅\", \"随\", \"捺\", \"ト\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"ャ\", \"娠\", \"烙\", \"Y\", \"鞄\", \"締\", \"e\", \"最\", \"簡\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \"V\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"〟\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"啜\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"叫\", \"株\", \"丸\", \"蝶\", \"俳\", \"荘\", \"条\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"R\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"m\", \"措\", \"謬\", \"洩\", \"獄\", \"黙\", \"厚\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"用\", \"拶\", \"ウ\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"頬\", \"邸\", \"瑞\", \"」\", \"t\", \"尋\", \"尺\", \"果\", \"景\", \"k\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"在\", \"煩\", \"榴\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"販\", \"訃\", \"裂\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/ko": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 1524839, - "_n_tokens": 884756, - "_n_chars": 655190, - "_n_oov_chars": 440135, - "oov_ratio": 0.671766968360323, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"G\", \"빈\", \"族\", \"갈\", \"싱\", \"체\", \"多\", \"D\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"백\", \"\", \"규\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"월\", \"罰\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"g\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"픈\", \"딥\", \"먼\", \"심\", \"굶\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"1\", \"숏\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"v\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"벽\", \"甲\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"F\", \"컸\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"뜯\", \"략\", \"틸\", \"따\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"K\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"p\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"u\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"r\", \"릿\", \"쨌\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"h\", \"낮\", \"왓\", \"團\", \"갯\", \"틴\", \"채\", \"앎\", \"싹\", \"늬\", \"둡\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"穀\", \"츈\", \"텁\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"W\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"l\", \"왼\", \"㉿\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"J\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"e\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"쳤\", \"a\", \"孝\", \"敬\", \"준\", \"I\", \"얏\", \"겔\", \"m\", \"확\", \"꾀\", \"잴\", \"똘\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"S\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"4\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"U\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"o\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"途\", \"戊\", \"맷\", \"💥\", \"N\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"貸\", \"꾸\", \"뎅\", \"좋\", \"찔\", \"쩍\", \"․\", \"타\", \"飾\", \"몽\", \"빕\", \"접\", \"폄\", \"눔\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"C\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"E\", \"킵\", \"뮤\", \"슬\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"8\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"d\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"삣\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"믿\", \"팩\", \"싸\", \"움\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"둬\", \"식\", \"被\", \"얄\", \"앰\", \"림\", \"蚩\", \"A\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"3\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"씹\", \"資\", \"논\", \"빤\", \"놨\", \"됬\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"원\", \"갱\", \"레\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"푸\", \"客\", \"結\", \"배\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"O\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"ㅞ\", \"앨\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"n\", \"▲\", \"본\", \"㉰\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"9\", \"M\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"H\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"미\", \"ⅲ\", \"7\", \"상\", \"짱\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"哀\", \"획\", \"뭉\", \"젝\", \"쩌\", \"탓\", \"페\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"🤕\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"B\", \"P\", \"온\", \"🙌\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"젖\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"생\", \"摩\", \"대\", \"융\", \"묵\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"Q\", \"劫\", \"뜩\", \"s\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"2\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"6\", \"常\", \"납\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"i\", \"侯\", \"강\", \"뛸\", \"색\", \"쌈\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"죄\", \"훌\", \"好\", \"韜\", \"ㅅ\", \"얽\", \"큐\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"뚫\", \"b\", \"뼈\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"쏟\", \"처\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"0\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"X\", \"🍎\", \"내\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"섞\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"Z\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"員\", \"짊\", \"㏊\", \"젊\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"T\", \"○\", \"큰\", \"폿\", \"옐\", \"5\", \"징\", \"蟄\", \"L\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"완\", \"딸\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"ç\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"직\", \"Y\", \"답\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \"댓\", \"V\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"껑\", \"땡\", \"돼\", \"돋\", \"져\", \"끌\", \"쏙\", \"­\", \"랍\", \"락\", \"▣\", \"없\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"R\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"쿡\", \"캉\", \"對\", \"삼\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"」\", \"t\", \"Ⅸ\", \"k\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"는\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google/mobilebert-uncased @ cc100/zh-Hans": { - "tokenizer": "mobilebert-uncased", - "organization": "Google", - "vocab_size": 30522, - "_n_bytes": 2633047, - "_n_tokens": 878554, - "_n_chars": 927311, - "_n_oov_chars": 573826, - "oov_ratio": 0.6188064198526708, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"G\", \"又\", \"鱼\", \"族\", \"⒀\", \"C\", \"撬\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"D\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"狸\", \"页\", \"挈\", \"吆\", \"\", \"贵\", \"噌\", \"贱\", \"杆\", \"汐\", \"浙\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"氰\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"培\", \"近\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"【\", \"杭\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"偿\", \"衬\", \"撐\", \"靴\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"1\", \"笃\", \"核\", \"找\", \"闻\", \"幼\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"麓\", \"栖\", \"瞠\", \"葆\", \"潭\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"陵\", \"睐\", \"戳\", \"完\", \"戾\", \"限\", \"冯\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"裙\", \"陈\", \"~\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"锥\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \"F\", \"令\", \"嫁\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"嫂\", \"店\", \"书\", \"跃\", \"耙\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"K\", \"痊\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"骰\", \"捧\", \"体\", \"疼\", \"邻\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"梦\", \"沾\", \"增\", \"渠\", \"饰\", \"Ø\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"ὐ\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"冰\", \"蜴\", \"甜\", \"炙\", \"幕\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"W\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"蟀\", \"馍\", \"咐\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"锅\", \"勃\", \"样\", \"卷\", \"幅\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"J\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"廉\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"I\", \"乒\", \"莘\", \"螃\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"嗨\", \"D\", \"衷\", \"点\", \"S\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"苛\", \"刊\", \"佘\", \"础\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"蹒\", \"读\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"4\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"笛\", \"较\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"嘤\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"骸\", \"严\", \"颉\", \"睑\", \"骏\", \"与\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"莓\", \"偶\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"U\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"煎\", \"颖\", \"九\", \"ê\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"ù\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"N\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"呦\", \"估\", \"值\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"厮\", \"枉\", \"纷\", \"婶\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"写\", \"补\", \"夕\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"C\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"E\", \"辈\", \"绽\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"8\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"é\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"價\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"娄\", \"预\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"瀚\", \"矶\", \"璃\", \"利\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"涕\", \"葩\", \"掠\", \"靛\", \"付\", \"豚\", \"为\", \"昊\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"摞\", \"霸\", \"唱\", \"再\", \"蟋\", \"郴\", \"徇\", \"异\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"á\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"阜\", \"列\", \"珊\", \"麾\", \"被\", \"稍\", \"痴\", \"阂\", \"裔\", \"胀\", \"论\", \"首\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"A\", \"洗\", \"纹\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"品\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"瘀\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"蹴\", \"3\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"激\", \"臆\", \"泥\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"锤\", \"引\", \"袍\", \"来\", \"畑\", \"忿\", \"讪\", \"疵\", \"ズ\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"動\", \"赞\", \"斧\", \"才\", \"翅\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"洒\", \"绞\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"龚\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"O\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"助\", \"扣\", \"锂\", \"捂\", \"芬\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"梵\", \"9\", \"攸\", \"岑\", \"涉\", \"晰\", \"刚\", \"蝉\", \"M\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"H\", \"硕\", \"篷\", \"玉\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"漠\", \"哒\", \"畜\", \"伫\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"呆\", \"柳\", \"料\", \"虽\", \"先\", \"浴\", \"鄯\", \"俨\", \"恰\", \"镉\", \"欢\", \"殉\", \"办\", \"臂\", \"惟\", \"7\", \"扼\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"î\", \"遂\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"状\", \"沸\", \"仲\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"偎\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"施\", \"载\", \"炸\", \"匾\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"P\", \"莴\", \"B\", \"税\", \"遥\", \"犀\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"舆\", \"肃\", \"谬\", \"提\", \"军\", \"撞\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"瑨\", \"策\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"帜\", \"弈\", \"低\", \"动\", \"奸\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"喧\", \"泛\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"挫\", \"饷\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"后\", \"蠢\", \"锐\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"Q\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"指\", \"能\", \"沧\", \"6\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \"檀\", \"血\", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"必\", \"均\", \"无\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"踱\", \"峨\", \"茄\", \"仕\", \"庄\", \"急\", \"浆\", \"舶\", \"桓\", \"进\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"辩\", \"柠\", \"朔\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"疹\", \"评\", \"好\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"择\", \"勇\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"战\", \"岁\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"亭\", \"鼓\", \"舰\", \"诫\", \"伉\", \"揉\", \"曾\", \"旷\", \"茂\", \"皙\", \"\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"蚀\", \"狩\", \"聂\", \"啪\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"唉\", \"0\", \"剔\", \"曹\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"X\", \"咖\", \"薯\", \"逆\", \"传\", \"吹\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"ě\", \"莫\", \"婚\", \"鹑\", \"迭\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"Z\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"T\", \"印\", \"○\", \"迩\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"5\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"腹\", \"L\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"阎\", \"憋\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"奥\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"奖\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"ç\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"雳\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"Y\", \"绰\", \"苏\", \"e\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \"V\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"溉\", \"摹\", \"拆\", \"瞪\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"啜\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"à\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"邂\", \"膜\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"峻\", \"眯\", \"晨\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"R\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"搜\", \"芙\", \"厚\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"邸\", \"膳\", \"对\", \"测\", \"瑞\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"擂\", \"何\", \"遮\", \"ό\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"马\", \"裂\", \"瀛\", \"皑\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "google/mt5-large @ cc100/ar": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 2813283, - "_n_tokens": 621736, - "_n_chars": 1560987, - "_n_oov_chars": 767, - "oov_ratio": 0.0004913557896382225, - "_oov_charset": "[\"‏\", \"…\", \"″\", \"‎\", \"\", \"�\", \"
\", \"½\", \"ﻹ\", \"ﻻ\", \"ﷺ\", \"​\", \"‌\", \"ﻷ\"]", - "reversible": false - }, - "google/mt5-large @ cc100/de": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1814876, - "_n_tokens": 470418, - "_n_chars": 1784021, - "_n_oov_chars": 524, - "oov_ratio": 0.0002937185156452755, - "_oov_charset": "[\"…\", \"¼\", \"²\", \"u\", \"‎\", \"¹\", \"™\", \"�\", \"½\", \"´\", \" \", \"̈\", \"​\"]", - "reversible": false - }, - "google/mt5-large @ cc100/es": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1664455, - "_n_tokens": 462231, - "_n_chars": 1630297, - "_n_oov_chars": 552, - "oov_ratio": 0.0003385886129950555, - "_oov_charset": "[\"…\", \"″\", \"²\", \"\", \"´\", \"º\", \"ª\"]", - "reversible": false - }, - "google/mt5-large @ cc100/fa": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 2054052, - "_n_tokens": 419922, - "_n_chars": 1145876, - "_n_oov_chars": 7690, - "oov_ratio": 0.006711022833186139, - "_oov_charset": "[\"‏\", \"…\", \"‎\", \"\", \" \", \"�\", \"ﮧ\", \"‍\", \"​\", \"‌\"]", - "reversible": false - }, - "google/mt5-large @ cc100/fr": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1540504, - "_n_tokens": 460944, - "_n_chars": 1484970, - "_n_oov_chars": 870, - "oov_ratio": 0.0005858704216246792, - "_oov_charset": "[\"…\", \"″\", \"²\", \"™\", \"�\", \"̧\", \"℃\", \"´\", \"́\", \"µ\", \"̂\"]", - "reversible": false - }, - "google/mt5-large @ cc100/ja": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1774770, - "_n_tokens": 290542, - "_n_chars": 603065, - "_n_oov_chars": 6762, - "oov_ratio": 0.011212721680084236, - "_oov_charset": "[\"y\", \"a\", \"ー\", \"]\", \" \", \"③\", \"5\", \"n\", \"*\", \"9\", \"ア\", \"W\", \"f\", \"@\", \"C\", \"ㅂ\", \"L\", \"ハ\", \"フ\", \"M\", \"Q\", \".\", \"゙\", \"④\", \"I\", \"Ⅱ\", \"⑩\", \"K\", \"カ\", \"Ⅶ\", \"t\", \"R\", \"g\", \"<\", \"-\", \"V\", \"4\", \"Z\", \"…\", \"¥\", \"纒\", \"⑪\", \"℃\", \"①\", \"o\", \"d\", \"G\", \"D\", \"F\", \"ゥ\", \">\", \"7\", \"\\u001b\", \"m\", \",\", \"O\", \"E\", \"ロ\", \"Ⅹ\", \"�\", \"h\", \"・\", \"②\", \"P\", \"=\", \"ウ\", \"r\", \"3\", \"゚\", \"H\", \"U\", \"+\", \"ヨ\", \"\\", \"e\", \"Y\", \"8\", \"。\", \"」\", \"&\", \"A\", \"⻑\", \"\\b\", \"‼\", \"㎞\", \"「\", \"_\", \"J\", \"2\", \"コ\", \"‥\", \" \", \"​\", \"B\", \"$\", \"´\", \"T\", \"l\", \":\", \"0\", \"ィ\", \"%\", \"|\", \"w\", \"/\", \"メ\", \"リ\", \"⑧\", \"S\", \"[\", \"`\", \" ̄\", \"レ\", \"i\", \"b\", \"^\", \"X\", \"!\", \")\", \"6\", \";\", \"テ\", \"″\", \"1\", \"(\", \"s\", \"ノ\", \"ヘ\", \"、\", \"k\", \"N\", \"?\"]", - "reversible": false - }, - "google/mt5-large @ cc100/ko": { - "tokenizer": "mt5-large", - "organization": "Google", - "vocab_size": 250100, - "_n_bytes": 1524839, - "_n_tokens": 424586, - "_n_chars": 655190, - "_n_oov_chars": 1365, - "oov_ratio": 0.0020833651307254385, - "_oov_charset": "[\"ⓒ\", \"③\", \"女\", \"*\", \"ㄷ\", \"@\", \"‎\", \"ㅜ\", \"ㅐ\", \"〮\", \"Ⅷ\", \"ㅛ\", \"④\", \"킌\", \"․\", \"ㅝ\", \"삣\", \"Ⅱ\", \"ㄹ\", \"\", \"➏\", \"Ⅶ\", \"㏊\", \"힉\", \"Ⅵ\", \"⑶\", \"㎍\", \"ㅡ\", \"ㅖ\", \"…\", \"ⅲ\", \"ㅏ\", \"ㅔ\", \"ㅇ\", \"℃\", \"ㅅ\", \"챨\", \"①\", \"ㄴ\", \"ㅣ\", \"Ⅰ\", \"힜\", \"¹\", \"ㅁ\", \"ⅳ\", \"Ⅹ\", \"�\", \"②\", \"⑸\", \"璣\", \"츈\", \"ⓔ\", \"㉠\", \"ㄱ\", \"ㆍ\", \"‍\", \"ㅢ\", \"퍙\", \"ㅈ\", \"ㅋ\", \"㎡\", \"ㅑ\", \"梁\", \"쒀\", \"⑨\", \"ㅓ\", \"靈\", \"」\", \"Ⅸ\", \"ㅕ\", \"陸\", \"렜\", \"쓕\", \"⁴\", \"㎞\", \"ㅊ\", \"「\", \"龍\", \"ㅚ\", \"웖\", \"뾱\", \"㉿\", \"‥\", \" \", \"樂\", \"流\", \"​\", \"v\", \"⑤\", \"ㅍ\", \"理\", \"왘\", \"ㅆ\", \"쫗\", \"ㅘ\", \":\", \"⑹\", \"%\", \"|\", \"⑥\", \"金\", \"㈜\", \"ㅗ\", \"⑧\", \"ㅒ\", \"⑴\", \"不\", \"²\", \"폍\", \"뭥\", \"⑦\", \"ⅱ\", \"ⅰ\", \"綃\", \"ㅞ\", \"累\", \"⑵\", \"ㅠ\", \"ㅙ\", \"立\", \"Ⅲ\", \"㉣\", \"Ⅴ\", \"흗\", \"ㅎ\", \"\", \"㎥\", \"識\", \"Ⅳ\", \"s\", \"꿕\", \"樂\", \"㉰\", \"ㅟ\", \"良\", \"?\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/ar": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2813283, - "_n_tokens": 558855, - "_n_chars": 1560987, - "_n_oov_chars": 1249848, - "oov_ratio": 0.8006780325524813, - "_oov_charset": "[\"م\", \"©\", \"۲\", \"κ\", \"ض\", \"ﻻ\", \"ٱ\", \"ﷺ\", \"ب\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"ذ\", \"😀\", \"خ\", \"×\", \"ۤ\", \"د\", \"۰\", \"٨\", \"τ\", \"▫\", \"\", \"٦\", \"<\", \"
\", \"ْ\", \"}\", \"ٌ\", \"😊\", \"ج\", \"█\", \"¡\", \"‹\", \"‏\", \"…\", \"ن\", \"♥\", \"χ\", \"{\", \"⤴\", \"ۚ\", \"ة\", \"چ\", \"ا\", \"ھ\", \"٪\", \"ئ\", \"پ\", \"ۗ\", \"ٹ\", \"ۖ\", \"ک\", \"ρ\", \"َ\", \"ي\", \"^\", \"آ\", \"٩\", \"‬\", \"ك\", \"٢\", \"ٰ\", \"�\", \"﴾\", \"ظ\", \"½\", \"ح\", \"ί\", \"ت\", \"ی\", \"🙂\", \"ع\", \"ِ\", \"↩\", \"μ\", \"α\", \"١\", \"و\", \"‌\", \"Х\", \"﴿\", \"›\", \"؛\", \"٠\", \"ف\", \"\\\\\", \"؟\", \"​\", \"ُ\", \"~\", \"٥\", \"ﻹ\", \"ـ\", \"ٍ\", \"▪\", \"ش\", \"س\", \"٣\", \"۷\", \"٧\", \"←\", \"ً\", \"۸\", \"ه\", \"ﻷ\", \"ؤ\", \"أ\", \"ز\", \"٤\", \"ل\", \"ء\", \"ή\", \"″\", \"ص\", \"ّ\", \"ث\", \"η\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/de": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1814876, - "_n_tokens": 470254, - "_n_chars": 1784021, - "_n_oov_chars": 2035, - "oov_ratio": 0.001140681639958274, - "_oov_charset": "[\"©\", \"u\", \"¶\", \"İ\", \"ς\", \"➔\", \" \", \"¿\", \"☺\", \"ć\", \"·\", \"¼\", \"😃\", \"‎\", \"–\", \"Ø\", \"😀\", \"‚\", \"😦\", \"τ\", \"<\", \"å\", \"}\", \"\", \"‹\", \"č\", \"▼\", \"→\", \"…\", \"♥\", \"{\", \"−\", \"œ\", \"ε\", \"Ã\", \"ρ\", \"^\", \"😉\", \"ï\", \"‐\", \"Ÿ\", \"Ä\", \"¹\", \"ú\", \"“\", \"™\", \"�\", \"ń\", \"½\", \"≠\", \"ί\", \"★\", \"̈\", \"🙂\", \"♡\", \"😂\", \"↩\", \"§\", \"α\", \"ι\", \"¬\", \"😈\", \"❤\", \"ė\", \"›\", \"🙄\", \"Ö\", \"\\\\\", \"😆\", \"​\", \"ø\", \"~\", \"ā\", \"😢\", \"´\", \"ớ\", \"„\", \"Á\", \"²\", \"¤\", \"š\", \"`\", \"‽\", \"ư\", \"🙁\", \"↑\", \"♦\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/en": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1124813, - "_n_tokens": 280104, - "_n_chars": 1121360, - "_n_oov_chars": 136, - "oov_ratio": 0.00012128130127702077, - "_oov_charset": "[\"③\", \"¡\", \"⑧\", \"¦\", \"”\", \"…\", \"{\", \"⑦\", \"‑\", \"^\", \"😉\", \"ï\", \"😥\", \"​\", \"⑤\", \"ñ\", \"⑩\", \"<\", \"~\", \"“\", \"\", \"�\", \"´\", \"\", \"}\", \"🙂\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/es": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1664455, - "_n_tokens": 696400, - "_n_chars": 1630297, - "_n_oov_chars": 11598, - "oov_ratio": 0.007114041183906981, - "_oov_charset": "[\"■\", \"✓\", \"М\", \"©\", \"←\", \"¡\", \"ý\", \"Á\", \"„\", \"¿\", \"️\", \"→\", \"…\", \"·\", \"í\", \"²\", \"{\", \"▷\", \"😀\", \"❤\", \"Í\", \"‘\", \"×\", \"^\", \"😦\", \"😉\", \"ò\", \"🙁\", \"👍\", \"\\\\\", \"º\", \"ª\", \"’\", \"ø\", \"ñ\", \"Ñ\", \"✪\", \"″\", \"ú\", \"✔\", \"<\", \"\", \"Ú\", \"―\", \"👏\", \"´\", \"}\", \"Ó\", \"🙂\", \"✖\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/fa": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2054052, - "_n_tokens": 483767, - "_n_chars": 1145876, - "_n_oov_chars": 898637, - "oov_ratio": 0.7842358160917935, - "_oov_charset": "[\"م\", \"©\", \" \", \"۲\", \"ض\", \"ب\", \"·\", \"‎\", \"ق\", \"ط\", \"إ\", \"ى\", \"▐\", \"ذ\", \"خ\", \"×\", \"د\", \"۰\", \"٨\", \"ۀ\", \"\", \"<\", \"ژ\", \"ﮧ\", \"۵\", \"ْ\", \"۹\", \"۱\", \"ٴ\", \"}\", \"۶\", \"ٔ\", \"ٌ\", \"ج\", \"✿\", \"ے\", \"۳\", \"ט\", \"️\", \"‏\", \"…\", \"ن\", \"♥\", \"{\", \"چ\", \"ة\", \"ا\", \"ھ\", \"پ\", \"ئ\", \"٪\", \"◄\", \"ک\", \"َ\", \"ي\", \"آ\", \"٩\", \"ۆ\", \"ك\", \"٢\", \"�\", \"ظ\", \"ح\", \"ت\", \"★\", \"ی\", \"ع\", \"ِ\", \"‍\", \"١\", \"و\", \"‌\", \"❤\", \"ڪ\", \"›\", \"؛\", \"ב\", \"٠\", \"ف\", \"\\\\\", \"؟\", \"​\", \"ُ\", \"٥\", \"٫\", \"ـ\", \"●\", \"ٍ\", \"ش\", \"س\", \"۷\", \"٣\", \"٧\", \"ً\", \"۸\", \"۔\", \"ه\", \"ؤ\", \"ز\", \"أ\", \"٤\", \"ل\", \"ء\", \"گ\", \"۴\", \"ص\", \"ّ\", \"ּ\", \"ث\", \"،\", \"غ\", \"ر\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/fr": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1540504, - "_n_tokens": 466133, - "_n_chars": 1484970, - "_n_oov_chars": 1615, - "oov_ratio": 0.001087564058533169, - "_oov_charset": "[\"§\", \"←\", \"♠\", \"Â\", \"…\", \"·\", \"í\", \"²\", \"{\", \"À\", \"̧\", \"℃\", \"ğ\", \"́\", \"µ\", \"œ\", \"❤\", \"😀\", \"ë\", \"^\", \"😉\", \"ã\", \"Ê\", \"ï\", \"‐\", \"\\\\\", \"🤔\", \"♕\", \"’\", \"Ô\", \"″\", \"…\", \"™\", \"<\", \"~\", \"È\", \"�\", \"―\", \"´\", \"Ç\", \"̂\", \"★\", \"}\", \"🙂\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/ja": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1774770, - "_n_tokens": 41947, - "_n_chars": 603065, - "_n_oov_chars": 585967, - "oov_ratio": 0.9716481639624253, - "_oov_charset": "[\"蜂\", \"濫\", \"募\", \"茫\", \"惨\", \"慄\", \"又\", \"族\", \"青\", \"C\", \"王\", \"多\", \"婆\", \"✨\", \"ラ\", \"ぃ\", \"声\", \"修\", \"細\", \"よ\", \"廊\", \"膚\", \".\", \"僕\", \"妬\", \"囲\", \"I\", \"欝\", \"眼\", \"赴\", \"竹\", \"K\", \"噌\", \"貿\", \"疾\", \"坊\", \"ぅ\", \"t\", \"示\", \"馬\", \"服\", \"腎\", \"皿\", \"態\", \"・\", \"筈\", \"牲\", \"咽\", \"耶\", \"罰\", \"讃\", \"形\", \"癖\", \"…\", \"徴\", \"洪\", \"¥\", \"考\", \"例\", \"ょ\", \"姿\", \"縮\", \"建\", \"帆\", \"G\", \"緩\", \"認\", \"旋\", \"猿\", \"悟\", \"因\", \"念\", \"円\", \"茶\", \"債\", \"炒\", \"・\", \"卑\", \"返\", \"泄\", \"優\", \"朴\", \"ぉ\", \"三\", \"為\", \"項\", \"退\", \"液\", \"轢\", \"穢\", \"叉\", \"離\", \"薦\", \"小\", \"梁\", \"威\", \"&\", \"怨\", \"壮\", \"未\", \"槌\", \"俄\", \"詠\", \"怪\", \"埃\", \"埋\", \"謗\", \"ど\", \"誌\", \"脚\", \"淡\", \"推\", \"蘇\", \"粧\", \"辱\", \"概\", \"ぽ\", \"殿\", \"労\", \"逐\", \"緑\", \"瘻\", \"拳\", \"マ\", \"縄\", \"姓\", \"|\", \"ご\", \"代\", \"箭\", \"喜\", \"域\", \"S\", \"忌\", \"漂\", \"礫\", \"附\", \"椿\", \"告\", \"了\", \"舌\", \"ぬ\", \"獣\", \"訝\", \"撒\", \"填\", \"氏\", \"紹\", \"城\", \"轄\", \"励\", \"融\", \"堪\", \"斡\", \"媛\", \"貪\", \"豊\", \"―\", \"布\", \"杏\", \"歓\", \"撮\", \"部\", \"網\", \"間\", \"郷\", \"車\", \"タ\", \"閉\", \"教\", \"有\", \"八\", \"括\", \"蒔\", \"促\", \"容\", \"役\", \"吐\", \"酔\", \"姦\", \"M\", \"織\", \"袖\", \"陽\", \"貧\", \"余\", \"派\", \"西\", \"河\", \"梓\", \"険\", \"七\", \"侮\", \"湘\", \"百\", \"錠\", \"桜\", \"祇\", \"件\", \"截\", \"姫\", \"承\", \"洞\", \"準\", \"毛\", \"が\", \"忠\", \"憧\", \"戯\", \"泉\", \"得\", \"厨\", \"接\", \"嫌\", \"→\", \"醐\", \"察\", \"誹\", \"は\", \"①\", \"袈\", \"喇\", \"影\", \"杖\", \"包\", \"緒\", \"庫\", \"D\", \"伸\", \"蓄\", \"屋\", \"え\", \"読\", \"杜\", \"晴\", \"桂\", \"表\", \"旺\", \"魏\", \"努\", \"逡\", \"息\", \"机\", \"娯\", \"邪\", \"払\", \"祥\", \"=\", \"開\", \"題\", \"♡\", \"聾\", \"残\", \"ポ\", \"△\", \"系\", \"宣\", \"銘\", \"托\", \"症\", \"倭\", \"誤\", \"根\", \"遡\", \"飼\", \"制\", \"透\", \"場\", \"ブ\", \"閃\", \"押\", \"虐\", \"酒\", \"跳\", \"隕\", \"詰\", \"膨\", \"近\", \"培\", \"嘲\", \"克\", \"勿\", \"強\", \"砕\", \"崎\", \"渡\", \"闊\", \"童\", \"催\", \"今\", \"倒\", \"的\", \"【\", \"バ\", \"砦\", \"●\", \"隠\", \"沿\", \"脆\", \"慶\", \"骨\", \"凶\", \"「\", \"靴\", \"司\", \"カ\", \"雰\", \"泌\", \"棄\", \"斂\", \"`\", \"扉\", \"従\", \"〔\", \"物\", \"折\", \"享\", \"謀\", \"雅\", \"滝\", \"橋\", \"問\", \"旦\", \"副\", \"核\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"虎\", \"某\", \"即\", \"ろ\", \"ウ\", \"依\", \"ば\", \"艦\", \"麓\", \"療\", \"累\", \"母\", \"脱\", \"5\", \"】\", \"n\", \"座\", \"懐\", \"*\", \"添\", \"岐\", \"陵\", \"遍\", \"及\", \"履\", \"秀\", \"完\", \"限\", \"学\", \"幡\", \"絶\", \"湧\", \"当\", \"び\", \"地\", \"陥\", \"存\", \"๑\", \"渦\", \"嚥\", \"弾\", \"奨\", \"製\", \"縦\", \"県\", \"~\", \"側\", \"担\", \"髭\", \"行\", \"災\", \"恩\", \"<\", \"甲\", \"匂\", \"誇\", \"庭\", \"鐘\", \"メ\", \"本\", \"駅\", \"彙\", \"愉\", \"府\", \"職\", \"巡\", \"旅\", \"墾\", \"醜\", \"売\", \"曖\", \"雪\", \"鈴\", \"憤\", \"プ\", \"讐\", \",\", \"令\", \"嫁\", \"頷\", \"盤\", \"松\", \"術\", \"治\", \"純\", \"薙\", \"遠\", \"国\", \"標\", \"算\", \"民\", \"店\", \"女\", \"則\", \"史\", \"占\", \"等\", \"峠\", \"堀\", \"縫\", \"渉\", \"尊\", \"戴\", \"ぜ\", \"凄\", \"卵\", \"曲\", \"銀\", \"枢\", \"焼\", \"米\", \"㎞\", \"構\", \"雇\", \"膿\", \"川\", \"芸\", \"ヽ\", \"縁\", \"争\", \"泰\", \"だ\", \"縞\", \"堅\", \"拠\", \"ヒ\", \"傘\", \"書\", \"麹\", \"狐\", \"l\", \"灰\", \"嶋\", \"守\", \"映\", \"〝\", \"耳\", \"掲\", \"怠\", \"初\", \"試\", \"垣\", \"致\", \"滋\", \"泳\", \"慨\", \"追\", \"妖\", \"肺\", \"責\", \"伴\", \"剰\", \"督\", \"飛\", \"虫\", \"匠\", \"塾\", \"似\", \"ザ\", \"叶\", \"介\", \"ヘ\", \"蓋\", \"較\", \"捧\", \"体\", \"?\", \"詐\", \"胎\", \"あ\", \"曜\", \"衣\", \"少\", \"庇\", \"頃\", \"遜\", \"官\", \"飢\", \"げ\", \"つ\", \"髪\", \"索\", \"戦\", \"啓\", \"垠\", \"窪\", \"〆\", \"十\", \"濯\", \"釣\", \"た\", \"勢\", \"む\", \"湯\", \"儲\", \"身\", \"充\", \"謎\", \"Ⅱ\", \"旧\", \"翼\", \"箱\", \"草\", \"毒\", \"楊\", \"匡\", \"浄\", \"止\", \"徘\", \"放\", \"ゴ\", \"詳\", \"磯\", \"北\", \"去\", \"汚\", \"琴\", \"舐\", \"賀\", \"窃\", \"ゎ\", \"文\", \"ヶ\", \"ε\", \"設\", \"^\", \"幕\", \"不\", \"煙\", \"澤\", \"妥\", \"﨑\", \"\\u001b\", \"秋\", \"沖\", \"怯\", \"階\", \"械\", \"窮\", \"偽\", \"兼\", \"爆\", \"紛\", \"天\", \"穀\", \"堵\", \"狂\", \"評\", \"軟\", \"尖\", \"μ\", \"ゼ\", \"頼\", \"裏\", \"半\", \"熟\", \"央\", \"業\", \"+\", \"憑\", \"湾\", \"旭\", \"敷\", \"摂\", \"Y\", \"油\", \"幹\", \"票\", \"操\", \"悪\", \"作\", \"A\", \"隆\", \"臓\", \"公\", \"凱\", \"疇\", \"帝\", \"揶\", \"厳\", \"芝\", \"鍵\", \"籠\", \"☆\", \"睡\", \"断\", \"盛\", \"霧\", \"咎\", \"◎\", \"距\", \"芳\", \"継\", \"諏\", \"←\", \"頭\", \"メ\", \"痢\", \"光\", \"幅\", \"滲\", \"遙\", \"浦\", \"匙\", \"笠\", \"障\", \"独\", \"ね\", \"足\", \"総\", \"流\", \"曽\", \"買\", \"股\", \"犯\", \"破\", \"筆\", \"6\", \"ェ\", \"鼻\", \"寝\", \"1\", \"洋\", \"椒\", \"k\", \"ー\", \"宏\", \"灌\", \"a\", \"ー\", \"思\", \"褒\", \"蛍\", \"濡\", \"サ\", \"監\", \"9\", \"戚\", \"f\", \"釘\", \"∀\", \"以\", \"紐\", \"諸\", \"嘗\", \"載\", \"量\", \"匹\", \"杼\", \"如\", \"明\", \"庁\", \"藤\", \"徐\", \"者\", \"昆\", \"屹\", \"特\", \"疎\", \"絡\", \"市\", \"裾\", \"眩\", \"肢\", \"腰\", \"判\", \"エ\", \"著\", \"鉢\", \"搬\", \"撰\", \"硝\", \"噴\", \"悩\", \"聖\", \"字\", \"昏\", \"⑩\", \"投\", \"貰\", \"両\", \"廉\", \"道\", \"嘆\", \"孝\", \"敬\", \"ク\", \"ィ\", \"潟\", \"壊\", \"犬\", \"勝\", \"恒\", \"傾\", \"巨\", \"。\", \"喉\", \"夢\", \"陛\", \"牙\", \"理\", \"d\", \"差\", \"鑑\", \"F\", \"駆\", \">\", \"痕\", \"翻\", \"弊\", \"辛\", \"暁\", \"棚\", \"靄\", \"孤\", \"吉\", \"気\", \"却\", \"耗\", \"幻\", \"共\", \"然\", \"霞\", \"健\", \"銃\", \"閣\", \"衷\", \"点\", \"午\", \"欲\", \"視\", \"穏\", \"匿\", \"亡\", \"知\", \"班\", \"\\", \"毎\", \"و\", \"亮\", \"涙\", \"働\", \"罪\", \"梶\", \"駄\", \"」\", \"隔\", \"夜\", \"韮\", \"圏\", \"淵\", \"べ\", \"丿\", \"意\", \"\\\\\", \"求\", \"鉄\", \"紅\", \"帳\", \"澄\", \"恣\", \"瘍\", \"岡\", \"´\", \"鋲\", \"永\", \"礎\", \"伽\", \"る\", \"ニ\", \"泊\", \"0\", \"秘\", \"キ\", \"刊\", \"苛\", \"侍\", \"揃\", \"の\", \"斐\", \"蛮\", \"暖\", \"爽\", \"位\", \"抑\", \"党\", \"含\", \"訳\", \"超\", \"侶\", \"勲\", \"億\", \"男\", \"需\", \"恨\", \"味\", \"闘\", \"恵\", \"計\", \"朝\", \"支\", \"乏\", \"佇\", \"攻\", \"戸\", \"菜\", \"輪\", \"救\", \"♪\", \"許\", \"伐\", \"落\", \"符\", \"径\", \"舎\", \"夷\", \"疑\", \"魔\", \"崖\", \"④\", \"拙\", \"研\", \"潮\", \"袴\", \"霊\", \"惹\", \"笛\", \"志\", \"勘\", \"兎\", \"葉\", \"爾\", \"ㅂ\", \"を\", \"還\", \"版\", \"ム\", \"規\", \"釜\", \"挟\", \"経\", \"於\", \"軒\", \"虚\", \"待\", \"配\", \"燃\", \"向\", \"可\", \"揄\", \"院\", \"談\", \"辿\", \"垢\", \"宅\", \"井\", \"汗\", \"黄\", \"春\", \"彫\", \"与\", \"捐\", \"鬱\", \"送\", \"基\", \"餌\", \"-\", \"偶\", \"児\", \"遊\", \"▼\", \"鬼\", \"衆\", \"仏\", \"冊\", \"℃\", \"四\", \"焙\", \"盲\", \"皆\", \"罠\", \"自\", \"延\", \"剃\", \"\", \"否\", \"踪\", \"択\", \"7\", \"謡\", \"力\", \"藻\", \"序\", \"�\", \"硬\", \"応\", \"剣\", \"み\", \"属\", \"撲\", \"図\", \"済\", \"捲\", \"鏡\", \"識\", \"奪\", \"奏\", \"躇\", \"ギ\", \"́\", \"委\", \"誰\", \"覆\", \"柄\", \"器\", \"干\", \"⻑\", \"\\b\", \"雀\", \"き\", \"ぐ\", \"潰\", \"れ\", \"ヴ\", \"モ\", \"_\", \"掴\", \"づ\", \"我\", \"ス\", \"樹\", \"煎\", \"九\", \"狭\", \"ゥ\", \"単\", \"膝\", \"😢\", \"⌒\", \"舟\", \"T\", \"伝\", \"伊\", \"綺\", \"通\", \"振\", \"屈\", \"商\", \"ハ\", \"蛇\", \"係\", \"続\", \"飲\", \"柱\", \"俵\", \"ピ\", \"第\", \"家\", \"届\", \"駒\", \"除\", \"捜\", \"順\", \"危\", \"灘\", \"源\", \"改\", \"簿\", \"厄\", \"恥\", \"Д\", \"育\", \"僅\", \"溢\", \"私\", \"擦\", \"祖\", \"就\", \"年\", \"茨\", \"N\", \"途\", \"纏\", \"©\", \"他\", \"お\", \"云\", \"農\", \"阿\", \"貴\", \"赦\", \"要\", \"弁\", \"金\", \"貸\", \"雄\", \"脇\", \"矢\", \"任\", \"ぴ\", \"東\", \"愕\", \"漫\", \"\", \"拷\", \"一\", \"飾\", \"慮\", \"糖\", \"宮\", \"貌\", \"郵\", \"谷\", \"鎖\", \"カ\", \"法\", \"該\", \"方\", \"顕\", \"と\", \"g\", \"😊\", \"遽\", \"曇\", \"涅\", \"将\", \"潜\", \"受\", \"V\", \"麺\", \"快\", \"或\", \"幸\", \"ゆ\", \"写\", \"博\", \"塚\", \"夕\", \"輸\", \"迫\", \"唐\", \"荷\", \"校\", \"喰\", \"欽\", \"▽\", \"団\", \"コ\", \"己\", \"困\", \"珍\", \"抵\", \"鱈\", \"入\", \"拡\", \"交\", \"E\", \"函\", \"律\", \"宝\", \"島\", \"唇\", \"伏\", \"姥\", \"営\", \"躍\", \"3\", \"親\", \"綱\", \"塊\", \"峰\", \"牧\", \"琉\", \"浣\", \"喚\", \"鞘\", \"礼\", \"異\", \"革\", \"欺\", \"捗\", \"丹\", \"領\", \"負\", \"希\", \"昼\", \"集\", \"番\", \"ツ\", \"頑\", \"欠\", \"舘\", \"複\", \"爪\", \"潤\", \"瞳\", \"擬\", \"擢\", \"眉\", \"燥\", \"栃\", \"号\", \"遵\", \"グ\", \"沼\", \"叭\", \"抱\", \"汎\", \"シ\", \"ィ\", \"贋\", \"友\", \"凡\", \"噂\", \"屓\", \"愚\", \"齢\", \"酵\", \"蔓\", \"免\", \"和\", \"暇\", \"周\", \"漱\", \"覇\", \"剥\", \"脂\", \"回\", \"貢\", \"千\", \"奢\", \"組\", \"媒\", \"遅\", \"費\", \"査\", \"チ\", \"菌\", \"裟\", \"林\", \"利\", \"度\", \"弟\", \"韓\", \"s\", \"拘\", \"述\", \"清\", \"餓\", \"敵\", \"連\", \"起\", \"ア\", \"界\", \"@\", \"確\", \"漁\", \"種\", \"範\", \"貯\", \"験\", \"値\", \"淳\", \"゙\", \"込\", \"紀\", \"付\", \"豚\", \"掛\", \"癒\", \"飯\", \"〈\", \"唱\", \"再\", \"<\", \"😭\", \"桁\", \"Ⅶ\", \"ア\", \"子\", \"会\", \"数\", \"節\", \"ネ\", \"抽\", \"避\", \"肯\", \"り\", \"怒\", \"駐\", \"乳\", \"築\", \"札\", \"岸\", \"羽\", \"巷\", \"卒\", \"國\", \"漑\", \"率\", \"観\", \"解\", \"牛\", \"悲\", \"原\", \"州\", \"奔\", \"嬢\", \"刷\", \"嗜\", \"へ\", \"安\", \"掃\", \"極\", \"胚\", \"発\", \"乙\", \"リ\", \"閲\", \"斉\", \"廃\", \"胸\", \"銭\", \"聞\", \"欧\", \"邦\", \"換\", \"◆\", \"奮\", \"挑\", \"廻\", \"鉱\", \"失\", \"各\", \"晶\", \"碓\", \"做\", \"r\", \"瞭\", \"阜\", \"列\", \"皇\", \"被\", \"外\", \"痴\", \"塵\", \"U\", \"李\", \"首\", \"軌\", \"頒\", \"防\", \"痩\", \"洗\", \"8\", \"慰\", \"。\", \"亀\", \"な\", \"露\", \"譲\", \"捉\", \"短\", \"黒\", \"2\", \" \", \"覧\", \"挙\", \"斬\", \"厭\", \"い\", \"祈\", \"把\", \"B\", \"医\", \"囁\", \"這\", \"~\", \"品\", \"練\", \"詞\", \"ふ\", \"〉\", \"壇\", \"樺\", \"辰\", \"傑\", \"閑\", \"盗\", \"菓\", \"早\", \"勤\", \"坂\", \"披\", \"耕\", \"喋\", \"輔\", \"証\", \"訣\", \"溜\", \"琳\", \"⑧\", \"賑\", \"叱\", \"偵\", \"進\", \"凍\", \"牽\", \"β\", \"復\", \"説\", \"補\", \"灯\", \"寧\", \"抹\", \"湖\", \")\", \"荻\", \"底\", \"で\", \"留\", \"暮\", \"さ\", \"隈\", \"現\", \"室\", \"豆\", \"浩\", \"成\", \"具\", \"陰\", \"眠\", \"麦\", \"◡\", \"蹴\", \"妹\", \"活\", \"姑\", \"③\", \"セ\", \"門\", \"ァ\", \"針\", \"資\", \"沢\", \"丁\", \"腫\", \"仁\", \"激\", \"臆\", \"須\", \"泥\", \"立\", \"塗\", \"飽\", \"迷\", \"筒\", \"到\", \"綾\", \"彿\", \"ヲ\", \"対\", \"蔑\", \"肘\", \"穫\", \"刑\", \"羞\", \"平\", \"損\", \"噤\", \"臣\", \"蓮\", \"競\", \"別\", \"誠\", \"画\", \"晒\", \"套\", \"沈\", \"戒\", \"オ\", \"昧\", \"稲\", \"槽\", \"糞\", \"て\", \"湿\", \"角\", \"降\", \"害\", \"🌙\", \"誘\", \"畑\", \"話\", \"臭\", \"五\", \"引\", \"暦\", \"来\", \"栽\", \"ズ\", \"蒙\", \"倍\", \"之\", \"球\", \"瓦\", \"舞\", \"歪\", \"堂\", \"帰\", \"秒\", \"犠\", \"獲\", \"雲\", \"動\", \"空\", \"呂\", \"斧\", \"才\", \"゚\", \"蔽\", \"跨\", \"藁\", \"炭\", \"兵\", \"抜\", \"墓\", \"選\", \"論\", \"批\", \"上\", \"洒\", \"〜\", \"鍋\", \"衰\", \"忘\", \"鳴\", \"ヵ\", \"香\", \"侵\", \"客\", \"移\", \"結\", \"陳\", \"ヘ\", \"枚\", \"疲\", \"帽\", \"コ\", \"幌\", \"娘\", \"栗\", \"診\", \"拒\", \"迅\", \"猟\", \"阪\", \"架\", \"臨\", \"刀\", \"ゲ\", \"測\", \"偏\", \"頻\", \"嵐\", \"%\", \"貨\", \"佐\", \"借\", \"眺\", \"祀\", \"躊\", \"辞\", \"傍\", \"控\", \"慣\", \"パ\", \"嵩\", \"停\", \"乃\", \"反\", \"゚\", \"津\", \"召\", \"置\", \"信\", \"`\", \"耐\", \"収\", \"綴\", \"植\", \"台\", \"陣\", \"週\", \"焦\", \"隊\", \"騒\", \"始\", \"夏\", \"助\", \"丼\", \"ダ\", \"区\", \"賛\", \"背\", \"預\", \"顔\", \"同\", \"工\", \"朗\", \"炉\", \"賭\", \"白\", \"蠍\", \"望\", \"涼\", \"怖\", \"ぞ\", \"杉\", \"転\", \"訊\", \"倫\", \"稀\", \"散\", \"養\", \"玉\", \"漠\", \"凝\", \"肉\", \"難\", \"畜\", \"悠\", \"ゃ\", \"唯\", \"隼\", \"滑\", \"宙\", \"咳\", \"篠\", \"象\", \"扱\", \"緻\", \"参\", \"麻\", \"ケ\", \"略\", \"森\", \"課\", \"呆\", \"料\", \"悶\", \"先\", \"浴\", \"恰\", \"墜\", \"新\", \"生\", \"纒\", \"南\", \"艸\", \"絆\", \"幾\", \"兄\", \"▷\", \"か\", \"殻\", \"ボ\", \"踏\", \"遂\", \"《\", \"ゥ\", \"哀\", \"尽\", \"出\", \"劉\", \"合\", \"ま\", \"割\", \"且\", \"状\", \"政\", \"仲\", \"沸\", \"∇\", \"祠\", \"殆\", \"昔\", \"訓\", \"非\", \"俺\", \"征\", \"運\", \"珠\", \"憩\", \"諾\", \"唸\", \"誉\", \"剤\", \"圧\", \"聴\", \"篇\", \"缶\", \"笑\", \"羨\", \"馳\", \"鉛\", \"畳\", \"馴\", \"麗\", \"俊\", \"濃\", \"滞\", \"テ\", \"尾\", \"誕\", \"型\", \"乱\", \"宛\", \"裸\", \"蛋\", \"゙\", \"房\", \"裕\", \"艶\", \"梱\", \"ω\", \"末\", \"腔\", \"水\", \"電\", \"¥\", \"煮\", \"採\", \"重\", \"施\", \"口\", \"叩\", \"姜\", \"惣\", \"葬\", \"堤\", \"併\", \"狼\", \"升\", \"溶\", \"暑\", \"税\", \"^\", \"遥\", \"句\", \"睦\", \"丘\", \"山\", \"闖\", \"巣\", \";\", \"肝\", \"垂\", \"名\", \"懸\", \"提\", \"昇\", \"久\", \"戻\", \"契\", \"互\", \"削\", \"凛\", \"雑\", \"宇\", \"策\", \"ノ\", \"炎\", \"徨\", \"格\", \"紋\", \"ら\", \"脳\", \"没\", \"闇\", \"軽\", \"悔\", \"船\", \"L\", \"石\", \"低\", \"相\", \"左\", \"譚\", \"討\", \"盾\", \"Q\", \"×\", \"緯\", \"質\", \"腸\", \"矛\", \"頂\", \"喧\", \"癌\", \"都\", \"奈\", \"じ\", \"捏\", \"漏\", \"烈\", \"■\", \"古\", \"磨\", \"長\", \"⇒\", \"弥\", \"忙\", \"應\", \"桑\", \"龍\", \"摩\", \"慈\", \"崔\", \"挫\", \"英\", \"勉\", \"ワ\", \"↓\", \"絵\", \"胆\", \"精\", \"造\", \"贈\", \"酷\", \"、\", \"雨\", \"触\", \"ざ\", \"渋\", \"潔\", \"壌\", \"謙\", \"町\", \"ぷ\", \"統\", \"棒\", \"居\", \"池\", \"舗\", \"償\", \"瞬\", \"梳\", \"倉\", \"H\", \"床\", \"援\", \"媚\", \"俯\", \"楽\", \"秤\", \"直\", \"弓\", \"稼\", \"幣\", \"見\", \"正\", \"替\", \"葵\", \"記\", \"妙\", \"毅\", \"薄\", \"描\", \"椅\", \"装\", \"報\", \"況\", \"J\", \"磋\", \"老\", \"​\", \"竜\", \"窟\", \"供\", \"感\", \"苗\", \"詮\", \"徒\", \"枯\", \"飴\", \"街\", \"猛\", \"氾\", \"額\", \"授\", \"圃\", \"わ\", \"寓\", \"創\", \"火\", \"酸\", \" ̄\", \"熱\", \"季\", \"貶\", \"ん\", \"警\", \"鍛\", \"嬉\", \"唄\", \"過\", \"覗\", \"ォ\", \"慎\", \"彼\", \"土\", \"惧\", \"議\", \"俗\", \"寿\", \"撤\", \"琵\", \"看\", \"(\", \"指\", \"能\", \"村\", \"、\", \"常\", \"喝\", \"繰\", \"罵\", \"拍\", \"万\", \"錯\", \"後\", \" \", \"檀\", \"血\", \"肪\", \"奴\", \"涯\", \"必\", \"W\", \"均\", \"食\", \"署\", \"摘\", \"─\", \"妊\", \"繍\", \"脅\", \"懲\", \"路\", \"煽\", \"フ\", \"言\", \"満\", \"峨\", \"仕\", \"摯\", \"急\", \"庄\", \"僭\", \"賠\", \"循\", \"普\", \"駿\", \"浜\", \"肥\", \"陶\", \"兆\", \"御\", \"餅\", \"納\", \"糸\", \"そ\", \"栓\", \"撃\", \"貝\", \"尚\", \"囚\", \"挨\", \"苦\", \"輝\", \"恭\", \"疹\", \"嵌\", \"好\", \"木\", \"頓\", \"菊\", \"華\", \"痛\", \"勇\", \"ほ\", \"温\", \"琶\", \"跡\", \"社\", \"但\", \"只\", \"穂\", \"色\", \"梅\", \"綻\", \"う\", \"々\", \"僧\", \"痒\", \"絨\", \"虹\", \"杞\", \"想\", \"襲\", \"音\", \"専\", \"😌\", \"響\", \"比\", \"窒\", \"至\", \"夫\", \"綬\", \"鼓\", \"亭\", \"ホ\", \"揉\", \"茂\", \"突\", \"腱\", \"滓\", \"是\", \"唆\", \"驚\", \"斗\", \"ヨ\", \"陸\", \"妻\", \"緊\", \"命\", \"誓\", \"軍\", \"内\", \"ぱ\", \"徊\", \"ず\", \"帯\", \"賞\", \"疫\", \"探\", \"逢\", \"也\", \"狩\", \"歌\", \"掻\", \"演\", \"析\", \"ぶ\", \"病\", \"$\", \"吾\", \"悍\", \"喫\", \"墟\", \"祉\", \"ヾ\", \"効\", \"稜\", \"浪\", \"抗\", \"亜\", \"隙\", \"前\", \"詩\", \"傷\", \"曹\", \"や\", \"》\", \"箇\", \"園\", \"瞑\", \"義\", \"護\", \"釈\", \"伯\", \"式\", \"稚\", \"堺\", \"ロ\", \"興\", \"桃\", \"尻\", \"妄\", \"□\", \"板\", \"レ\", \"群\", \"i\", \"混\", \"染\", \"淹\", \"保\", \"執\", \"楓\", \"端\", \"テ\", \"粘\", \"袋\", \"萼\", \"類\", \"刺\", \"胃\", \"梗\", \"遼\", \"減\", \"謄\", \"武\", \"固\", \"玄\", \"材\", \"斜\", \"踊\", \"増\", \"拉\", \"籍\", \"播\", \"ペ\", \"程\", \"禁\", \"郎\", \"射\", \"嶽\", \"槃\", \"允\", \"綜\", \"瀬\", \"祭\", \"め\", \"録\", \"据\", \"ベ\", \"ハ\", \"遭\", \"嗅\", \"瓢\", \"浅\", \"宗\", \"に\", \"鹿\", \"豪\", \"捕\", \"逆\", \"郡\", \"日\", \"吹\", \"寺\", \"絞\", \"騰\", \"江\", \"礁\", \"甚\", \"婚\", \"美\", \"R\", \"喩\", \"迭\", \"莫\", \"斑\", \"導\", \"様\", \"枕\", \"携\", \"嗚\", \"企\", \"腑\", \"乗\", \"撫\", \"梨\", \"凪\", \"梯\", \"−\", \"澪\", \"筋\", \"情\", \"典\", \"良\", \"宜\", \"衝\", \"若\", \"寮\", \"迎\", \"婦\", \"遺\", \"協\", \"壁\", \"坪\", \"遣\", \"砂\", \"打\", \"箋\", \"汰\", \"謳\", \"拭\", \"翔\", \"模\", \"全\", \"ロ\", \"検\", \"②\", \"師\", \"埼\", \"時\", \"糾\", \"楠\", \"財\", \"省\", \"珪\", \"昂\", \"ド\", \"燭\", \"辣\", \"鎮\", \"暢\", \"隅\", \"紙\", \"珂\", \"晩\", \"揚\", \"殊\", \"酬\", \"曝\", \"擁\", \"桟\", \"揮\", \"暫\", \"輩\", \"偉\", \"イ\", \"俸\", \"寡\", \"冷\", \"決\", \"予\", \"「\", \"攫\", \"ゝ\", \"館\", \"渓\", \"嵯\", \"熊\", \"持\", \"究\", \"乞\", \"殴\", \"化\", \"槍\", \"違\", \"候\", \"走\", \"儀\", \"ュ\", \"/\", \"父\", \"期\", \"寒\", \"審\", \"級\", \"氷\", \"次\", \"ガ\", \"[\", \"海\", \"寛\", \"b\", \"臥\", \"広\", \"X\", \"喪\", \"大\", \"衡\", \"取\", \"敗\", \"碌\", \"躾\", \"賃\", \"欣\", \"更\", \"灼\", \"祝\", \"っ\", \"棟\", \"痺\", \"務\", \"沙\", \"✧\", \"展\", \"旗\", \"寇\", \"浮\", \"鶴\", \"]\", \"岳\", \"岬\", \"鮮\", \"塔\", \"琢\", \"彡\", \"鴻\", \"刻\", \"敏\", \"片\", \"胞\", \"鳥\", \"ナ\", \"拾\", \"性\", \"定\", \"科\", \"冬\", \"咲\", \"穴\", \"称\", \"狙\", \"密\", \"握\", \"貫\", \"粗\", \"く\", \"分\", \"横\", \"員\", \"錬\", \"捩\", \"甘\", \"貼\", \"孫\", \"並\", \"ジ\", \"暗\", \"晋\", \"粋\", \"坐\", \"卓\", \"レ\", \"風\", \"懇\", \"腕\", \"嫉\", \"惑\", \"仰\", \"4\", \"Z\", \"窓\", \"諺\", \"寸\", \"達\", \"ゾ\", \"伺\", \"元\", \"呟\", \"個\", \"ぼ\", \"盆\", \"変\", \"翌\", \"繁\", \"峙\", \"漬\", \"掘\", \"ビ\", \"淫\", \"着\", \"案\", \"◇\", \"h\", \"実\", \"呑\", \"P\", \"双\", \"京\", \"逸\", \"篤\", \"賊\", \"杓\", \"冗\", \"挿\", \"訟\", \"肌\", \"滴\", \"印\", \"○\", \"⇔\", \"冒\", \"嘩\", \"薪\", \"編\", \"心\", \"腹\", \"郭\", \"ン\", \"顎\", \"婿\", \"楚\", \"越\", \"💦\", \"岩\", \"訂\", \"紫\", \"請\", \"ヤ\", \"詫\", \"切\", \"像\", \"鋭\", \"賢\", \"注\", \"績\", \"乾\", \"枝\", \"膏\", \"w\", \"粉\", \"趨\", \"殖\", \"恋\", \"訪\", \"莽\", \"衛\", \"寂\", \"静\", \"詈\", \"ひ\", \"滅\", \"虜\", \"僚\", \"技\", \"も\", \"ソ\", \"調\", \"腐\", \"ぇ\", \"♫\", \"〕\", \"章\", \"月\", \"奥\", \"巻\", \"休\", \"魂\", \"憂\", \"デ\", \"境\", \"ノ\", \"ぁ\", \"鎌\", \"高\", \"贅\", \"随\", \"捺\", \"ト\", \"加\", \"薬\", \"ぎ\", \"波\", \"震\", \"歴\", \"昨\", \"y\", \"患\", \"璧\", \"給\", \"醤\", \"譜\", \"右\", \"憲\", \"管\", \"劣\", \"約\", \"饉\", \"庶\", \"浸\", \"献\", \"積\", \"鵜\", \"宋\", \"吠\", \"産\", \"逃\", \"君\", \"申\", \"軸\", \"拓\", \"備\", \"し\", \"紗\", \"萎\", \"謂\", \"使\", \"曰\", \"迦\", \"雷\", \"ゞ\", \"繊\", \"け\", \"招\", \"席\", \"泡\", \"駕\", \"搭\", \"攘\", \"欄\", \"宴\", \"恐\", \"盟\", \"醸\", \"劇\", \"排\", \"凌\", \"ヌ\", \"券\", \"遇\", \"冨\", \"蝋\", \"趣\", \"⑪\", \"憎\", \"局\", \"所\", \"仙\", \"奇\", \"o\", \"こ\", \"死\", \"憶\", \"◯\", \"整\", \"旨\", \"田\", \"〇\", \"忍\", \"墳\", \"O\", \"航\", \"Ⅹ\", \"贔\", \"※\", \"慢\", \"佳\", \"鶏\", \"斎\", \"般\", \"ョ\", \"̈\", \"終\", \"漢\", \"尿\", \"尼\", \"段\", \"答\", \"裁\", \"勧\", \"ッ\", \"杯\", \"す\", \"噛\", \"奉\", \"吸\", \"甥\", \"野\", \"ャ\", \"娠\", \"烙\", \"鞄\", \"締\", \"昭\", \"e\", \"簡\", \"最\", \"歩\", \"柏\", \"‼\", \"ゅ\", \"太\", \"吟\", \"康\", \"魅\", \"富\", \"弄\", \"歳\", \"呼\", \"旬\", \"機\", \"烹\", \"』\", \"̀\", \"辺\", \"丈\", \"弱\", \"餃\", \"脈\", \"傲\", \":\", \"諦\", \"掬\", \"拝\", \"幽\", \"那\", \"猶\", \"リ\", \"手\", \"〟\", \"世\", \"歯\", \"衿\", \"些\", \"嫡\", \"巾\", \"益\", \"!\", \"啜\", \"人\", \"渕\", \"忽\", \"暴\", \"微\", \"ユ\", \"″\", \"叫\", \"株\", \"丸\", \"↑\", \"俳\", \"蝶\", \"条\", \"荘\", \"無\", \"願\", \"拗\", \"塩\", \"蒸\", \"士\", \"封\", \"堡\", \"徳\", \"層\", \"処\", \"深\", \"捨\", \"『\", \"便\", \"碍\", \"膜\", \"巧\", \"肩\", \"覚\", \"善\", \"権\", \"彦\", \"腺\", \"汲\", \"関\", \"住\", \"軋\", \"花\", \"妨\", \"泣\", \"堰\", \"妃\", \"訴\", \"事\", \"宿\", \"阻\", \"素\", \"赤\", \"唾\", \"菅\", \"輿\", \"線\", \"繋\", \"ル\", \"謝\", \"彷\", \"猫\", \"彌\", \"登\", \"祐\", \"環\", \"消\", \"渇\", \"照\", \"汁\", \"フ\", \"面\", \"主\", \"適\", \"ち\", \"騙\", \"往\", \"︎\", \"功\", \"柔\", \"逼\", \"紡\", \"荒\", \"‐\", \"m\", \"中\", \"措\", \"語\", \"謬\", \"洩\", \"獄\", \"黙\", \"里\", \"厚\", \"★\", \"縛\", \"仔\", \"講\", \"簗\", \"せ\", \"ウ\", \"用\", \"拶\", \"星\", \"瓶\", \"易\", \"慌\", \"託\", \"顧\", \"壬\", \"殺\", \"真\", \"鈍\", \"速\", \"既\", \"蔵\", \"港\", \"寄\", \"彰\", \"殲\", \"六\", \"刃\", \"羊\", \"仮\", \"二\", \"頬\", \"邸\", \"目\", \"瑞\", \"」\", \"尋\", \"尺\", \"果\", \"景\", \"哲\", \"❤\", \"揺\", \"何\", \"塞\", \"‥\", \"徹\", \"貞\", \"購\", \"醍\", \"苑\", \"栄\", \"堆\", \"秩\", \"稿\", \"習\", \"魚\", \"枠\", \"践\", \"彩\", \"張\", \"在\", \"煩\", \"榴\", \"愛\", \"惜\", \"嘘\", \"逮\", \"ミ\", \"際\", \"棲\", \"鯖\", \"惚\", \"粒\", \"皮\", \"掌\", \"冥\", \"姉\", \"薩\", \"故\", \"価\", \"下\", \"販\", \"訃\", \"裂\", \"神\", \"崩\", \"維\", \"ヨ\", \"隣\", \"羅\", \"串\", \"糧\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/ko": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 1524839, - "_n_tokens": 334457, - "_n_chars": 655190, - "_n_oov_chars": 433242, - "oov_ratio": 0.6612463560188647, - "_oov_charset": "[\"ⓒ\", \"잖\", \"췌\", \"은\", \"빈\", \"族\", \"王\", \"갈\", \"싱\", \"체\", \"多\", \"修\", \"윙\", \"혁\", \"썰\", \"컨\", \"ã\", \"과\", \"댄\", \"킌\", \"삽\", \"탱\", \"낱\", \"竹\", \"백\", \"\", \"규\", \"德\", \"貿\", \"👏\", \"濟\", \"짭\", \"쫄\", \"솥\", \"률\", \"・\", \"월\", \"罰\", \"…\", \"딧\", \"콩\", \"ㅏ\", \"왠\", \"땀\", \"堯\", \"낌\", \"템\", \"닭\", \"쫓\", \"국\", \"쓰\", \"혔\", \"녕\", \"첫\", \"팹\", \"종\", \"밖\", \"읍\", \"토\", \"⑸\", \"짠\", \"獻\", \"깥\", \"三\", \"液\", \"둠\", \"햇\", \"폴\", \"진\", \"離\", \"쭈\", \"찬\", \"낭\", \"梁\", \"쒀\", \"⑨\", \"승\", \"ㅕ\", \"커\", \"먹\", \"詠\", \"깃\", \"ᴛ\", \"후\", \"헉\", \"목\", \"테\", \"떤\", \"緞\", \"쫒\", \"◈\", \"촉\", \"吳\", \"텀\", \"욥\", \"애\", \"꿀\", \"ㅘ\", \"캄\", \"허\", \"밉\", \"짢\", \"앞\", \"|\", \"쁠\", \"론\", \"代\", \"든\", \"쏜\", \"교\", \"🍰\", \"흙\", \"턱\", \"펼\", \"칵\", \"ⅰ\", \"좌\", \"털\", \"태\", \"믹\", \"돕\", \"Ⅲ\", \"저\", \"城\", \"꽁\", \"금\", \"◼\", \"럴\", \"㎥\", \"괄\", \"듭\", \"쪽\", \"앱\", \"닙\", \"끓\", \"―\", \"횡\", \"희\", \"布\", \"십\", \"삘\", \"질\", \"흡\", \"部\", \"픈\", \"間\", \"딥\", \"먼\", \"심\", \"굶\", \"有\", \"八\", \"칭\", \"탈\", \"뽑\", \"떻\", \"값\", \"淨\", \"🏷\", \"쥐\", \"陽\", \"킁\", \"뉴\", \"걍\", \"벨\", \"七\", \"百\", \"돈\", \"웨\", \"깽\", \"띕\", \"병\", \"흘\", \"소\", \"洞\", \"毛\", \"롯\", \"擒\", \"뿔\", \"→\", \"셌\", \"꽤\", \"봉\", \"ㅇ\", \"촨\", \"は\", \"퀸\", \"①\", \"≫\", \"룩\", \"包\", \"줏\", \"뽀\", \"여\", \"琪\", \"퀵\", \"빨\", \"뜬\", \"올\", \"엿\", \"연\", \"벼\", \"♡\", \"뢰\", \"너\", \"題\", \"😂\", \"별\", \"△\", \"똑\", \"系\", \"행\", \"걱\", \"겟\", \"하\", \"制\", \"이\", \"늘\", \"평\", \"ㅑ\", \"잤\", \"깊\", \"줌\", \"ㅓ\", \"죽\", \"靑\", \"몬\", \"닮\", \"솔\", \"뽐\", \"버\", \"⁴\", \"깅\", \"ㅚ\", \"텐\", \"童\", \"專\", \"【\", \"的\", \"잦\", \"닷\", \"픕\", \"켓\", \"딱\", \"카\", \"받\", \"튿\", \"똥\", \"●\", \"벵\", \"름\", \"왕\", \"떳\", \"엎\", \"귈\", \"캣\", \"튼\", \"「\", \"퍼\", \"릇\", \"끼\", \"란\", \"덟\", \"🍟\", \"민\", \"켄\", \"억\", \"〔\", \"⑵\", \"蜀\", \"땅\", \"\", \"길\", \"칼\", \"副\", \"ㅎ\", \"숏\", \"福\", \"귀\", \"뮌\", \"某\", \"훈\", \"삐\", \"퍙\", \"루\", \"脱\", \"붐\", \"女\", \"】\", \"*\", \"젠\", \"뻐\", \"榜\", \"궐\", \"邑\", \"숙\", \"〮\", \"地\", \"存\", \"쏭\", \"좇\", \"걷\", \"증\", \"뺏\", \"줘\", \"꽂\", \"行\", \"벽\", \"甲\", \"鐘\", \"독\", \"또\", \"ㅡ\", \"ㅖ\", \"랜\", \"巡\", \"칙\", \"💌\", \"옵\", \"례\", \"꺄\", \"雪\", \"學\", \"툼\", \"컸\", \"治\", \"術\", \"參\", \"곳\", \"크\", \"넵\", \"석\", \"정\", \"標\", \"랙\", \"民\", \"女\", \"뜯\", \"략\", \"史\", \"따\", \"틸\", \"뛴\", \"🍔\", \"뱅\", \"솜\", \"혐\", \"춘\", \"깔\", \"총\", \"銀\", \"른\", \"米\", \"머\", \"수\", \"㎞\", \"액\", \"꿈\", \"川\", \"實\", \"설\", \"삿\", \"슐\", \"끽\", \"립\", \"쁘\", \"퀄\", \"書\", \"새\", \"성\", \"몰\", \"륨\", \"춧\", \"랫\", \"➌\", \"守\", \"쿤\", \"존\", \"初\", \"말\", \"옌\", \"보\", \"致\", \"샌\", \"뵙\", \"며\", \"능\", \"♧\", \"했\", \"늦\", \"점\", \"밀\", \"법\", \"항\", \"읽\", \"쿄\", \"관\", \"ᴇ\", \"?\", \"갤\", \"랄\", \"둑\", \"춥\", \"衣\", \"빅\", \"꼭\", \"팰\", \"쿨\", \"육\", \"릿\", \"쨌\", \"十\", \"안\", \"씀\", \"가\", \"줄\", \"쯔\", \"칠\", \"겁\", \"기\", \"齋\", \"➊\", \"훅\", \"勢\", \"떼\", \"Ⅱ\", \"퀘\", \"썼\", \"뛰\", \"草\", \"毒\", \"눌\", \"낮\", \"왓\", \"團\", \"北\", \"갯\", \"틴\", \"채\", \"앎\", \"文\", \"싹\", \"늬\", \"^\", \"둡\", \"不\", \"짬\", \"음\", \"딜\", \"팜\", \"훗\", \"출\", \"헨\", \"秋\", \"밑\", \"지\", \"위\", \"결\", \"투\", \"픽\", \"窮\", \"⬇\", \"멕\", \"↕\", \"않\", \"天\", \"穀\", \"츈\", \"텁\", \"μ\", \"피\", \"명\", \"읊\", \"뿜\", \"흑\", \"딘\", \"業\", \"무\", \"셨\", \"쉼\", \"막\", \"눠\", \"슛\", \"슝\", \"왼\", \"㉿\", \"公\", \"曆\", \"휴\", \"헐\", \"겸\", \"곰\", \"帝\", \"☆\", \"쿠\", \"◎\", \"녁\", \"經\", \"♤\", \"←\", \"頭\", \"텨\", \"치\", \"光\", \"벙\", \"笠\", \"닐\", \"운\", \"광\", \"것\", \"웰\", \"아\", \"함\", \"룬\", \"놓\", \"榮\", \"ㅙ\", \"└\", \"홋\", \"겪\", \"洋\", \"딛\", \"렌\", \"및\", \"樂\", \"뒤\", \"뭇\", \"낄\", \"思\", \"옮\", \"람\", \"핫\", \"渴\", \"贖\", \"샵\", \"을\", \"필\", \"ㄷ\", \"쏘\", \"스\", \"긴\", \"ㅐ\", \"갓\", \"잔\", \"샘\", \"載\", \"悖\", \"쇄\", \"明\", \"각\", \"뭔\", \"者\", \"쭉\", \"特\", \"껀\", \"훔\", \"變\", \"맬\", \"🦅\", \"쪄\", \"假\", \"聖\", \"션\", \"字\", \"히\", \"投\", \"벚\", \"歲\", \"즙\", \"뺀\", \"道\", \"쳤\", \"孝\", \"敬\", \"준\", \"얏\", \"겔\", \"犬\", \"확\", \"꾀\", \"잴\", \"똘\", \"。\", \"理\", \"잭\", \"캡\", \"씬\", \"시\", \"욜\", \"봬\", \"앉\", \"잉\", \"弊\", \"된\", \"댐\", \"력\", \"랩\", \"±\", \"콰\", \"면\", \"화\", \"쉰\", \"共\", \"然\", \"방\", \"반\", \"옥\", \"知\", \"냥\", \"협\", \"뜹\", \"한\", \"」\", \"陸\", \"夜\", \"텍\", \"意\", \"폼\", \"선\", \"붉\", \"樂\", \"求\", \"\\\\\", \"쎈\", \"겠\", \"골\", \"얀\", \"茅\", \"밋\", \"굳\", \"더\", \"츄\", \"빴\", \"밸\", \"永\", \"튀\", \"짖\", \"쑤\", \"굿\", \"듐\", \"켈\", \"구\", \"롱\", \"짐\", \"팠\", \"뭥\", \"얕\", \"갔\", \"격\", \"男\", \"朝\", \"섹\", \"궤\", \"빙\", \"俠\", \"케\", \"멜\", \"🤗\", \"♪\", \"깨\", \"솨\", \"패\", \"묘\", \"줍\", \"魔\", \"코\", \"④\", \"🌿\", \"듣\", \"썬\", \"志\", \"릴\", \"혈\", \"셸\", \"➎\", \"송\", \"멍\", \"듀\", \"셈\", \"찌\", \"軒\", \"쁨\", \"줬\", \"룸\", \"걀\", \"넬\", \"켠\", \"向\", \"옳\", \"可\", \"院\", \"갇\", \"낍\", \"암\", \"春\", \"폈\", \"푹\", \"입\", \"Ⅵ\", \"꺾\", \"랴\", \"매\", \"▼\", \"퓨\", \"℃\", \"쳇\", \"뜨\", \"봤\", \"퇴\", \"쉘\", \"自\", \"否\", \"꽃\", \"띄\", \"✈\", \"료\", \"넉\", \"序\", \"툴\", \"혼\", \"덤\", \"�\", \"겹\", \"엉\", \"룰\", \"녘\", \"고\", \"◾\", \"㎡\", \"돗\", \"곡\", \"핍\", \"옆\", \"覆\", \"됨\", \"닳\", \"쥔\", \"랭\", \"◑\", \"🤔\", \"좀\", \"멘\", \"樹\", \"만\", \"九\", \"맞\", \"ㅆ\", \"적\", \"삭\", \"킹\", \"현\", \"◀\", \"달\", \"商\", \"클\", \"係\", \"녔\", \"뮐\", \"싶\", \"㈜\", \"순\", \"第\", \"家\", \"챔\", \"탰\", \"綃\", \"핵\", \"밧\", \"있\", \"累\", \"얘\", \"🙋\", \"뱃\", \"ㅠ\", \"改\", \"욕\", \"맨\", \"뀌\", \"뭘\", \"중\", \"😱\", \"흗\", \"붕\", \"빡\", \"쾌\", \"Ⅳ\", \"諒\", \"급\", \"누\", \"밟\", \"셰\", \"年\", \"途\", \"©\", \"戊\", \"맷\", \"💥\", \"農\", \"렷\", \"렘\", \"령\", \"트\", \"黃\", \"悧\", \"💰\", \"윗\", \"金\", \"貸\", \"꾸\", \"雄\", \"뎅\", \"좋\", \"찔\", \"東\", \"쩍\", \"․\", \"一\", \"타\", \"飾\", \"몽\", \"빕\", \"宮\", \"접\", \"谷\", \"폄\", \"눔\", \"法\", \"方\", \"찼\", \"힉\", \"휠\", \"😊\", \"캐\", \"펩\", \"싼\", \"쟤\", \"뻑\", \"찜\", \"겉\", \"닫\", \"뤼\", \"唐\", \"윌\", \"껴\", \"택\", \"렀\", \"꿍\", \"봇\", \"瀧\", \"즈\", \"킥\", \"巳\", \"己\", \"문\", \"交\", \"✔\", \"군\", \"픔\", \"킵\", \"뮤\", \"슬\", \"§\", \"될\", \"쌩\", \"푼\", \"峰\", \"볶\", \"씌\", \"革\", \"끝\", \"살\", \"集\", \"웖\", \"👍\", \"바\", \"v\", \"녀\", \"칫\", \"다\", \"샹\", \"래\", \"友\", \"金\", \"불\", \"물\", \"꺼\", \"和\", \"혜\", \"졌\", \"냠\", \"뚜\", \"回\", \"깝\", \"賣\", \"쐐\", \"꺽\", \"던\", \"팝\", \"힘\", \"林\", \"利\", \"슨\", \"었\", \"샐\", \"弟\", \"韓\", \"s\", \"팬\", \"拘\", \"팅\", \"높\", \"述\", \"‪\", \"良\", \"느\", \"쁜\", \"굴\", \"일\", \"淘\", \"쥰\", \"잘\", \"界\", \"@\", \"種\", \"짤\", \"섯\", \"핸\", \"펌\", \"팥\", \"雙\", \"압\", \"언\", \"紀\", \"자\", \"널\", \"呪\", \"눅\", \"의\", \"〈\", \"삣\", \"<\", \"😭\", \"Ⅶ\", \"찰\", \"맥\", \"죠\", \"子\", \"節\", \"년\", \"잃\", \"駐\", \"볍\", \"乳\", \"國\", \"큼\", \"卒\", \"휩\", \"훠\", \"밌\", \"解\", \"벗\", \"붙\", \"原\", \"믿\", \"팩\", \"싸\", \"움\", \"安\", \"쿼\", \"집\", \"옛\", \"↔\", \"極\", \"훨\", \"걸\", \"乙\", \"돠\", \"🌵\", \"서\", \"邦\", \"숭\", \"換\", \"◆\", \"같\", \"창\", \"ㅁ\", \"께\", \"ń\", \"뤄\", \"청\", \"캇\", \"넣\", \"꿰\", \"皇\", \"둬\", \"식\", \"被\", \"外\", \"얄\", \"α\", \"앰\", \"림\", \"蚩\", \"혹\", \"렜\", \"즌\", \"뷰\", \"닦\", \"왜\", \"팁\", \" \", \"떴\", \"섭\", \"い\", \"~\", \"〉\", \"왘\", \"樺\", \"辰\", \"흄\", \"耕\", \"릅\", \"💣\", \"촬\", \"⑧\", \"층\", \"묶\", \"🏻\", \"∮\", \"휘\", \"드\", \"열\", \"셀\", \"휙\", \"낚\", \"빌\", \"立\", \"합\", \"藥\", \"할\", \"캔\", \"벤\", \"어\", \"울\", \"븐\", \"곶\", \"첼\", \"荻\", \"듬\", \"留\", \"친\", \"敎\", \"냉\", \"現\", \"힙\", \"팽\", \"헝\", \"陰\", \"티\", \"형\", \"짙\", \"덧\", \"추\", \"껏\", \"윤\", \"홉\", \"펄\", \"뮈\", \"③\", \"獨\", \"톤\", \"절\", \"門\", \"씹\", \"資\", \"논\", \"빤\", \"仁\", \"놨\", \"됬\", \"立\", \"갚\", \"끈\", \"섬\", \"ㅛ\", \"꾼\", \"딩\", \"겨\", \"엌\", \"🚨\", \"平\", \"닝\", \"🚿\", \"갑\", \"뱉\", \"활\", \"릎\", \"럭\", \"왔\", \"뀐\", \"☎\", \"뉘\", \"▒\", \"슴\", \"詔\", \"넌\", \"て\", \"角\", \"임\", \"ㅔ\", \"體\", \"런\", \"즐\", \"ㄴ\", \"셔\", \"五\", \"댁\", \"ㅣ\", \"갉\", \"쭙\", \"간\", \"앵\", \"蒙\", \"세\", \"엑\", \"‬\", \"之\", \"원\", \"갱\", \"레\", \"堂\", \"긋\", \"탠\", \"깜\", \"갖\", \"틈\", \"떡\", \"雲\", \"動\", \"몸\", \"쥬\", \"才\", \"둔\", \"ㄱ\", \"臀\", \"졸\", \"ㆍ\", \"에\", \"젤\", \"ㅈ\", \"選\", \"論\", \"톨\", \"냈\", \"上\", \"푸\", \"客\", \"結\", \"陳\", \"배\", \"›\", \"앤\", \"재\", \"책\", \"ㅍ\", \"理\", \"떠\", \"녹\", \"밤\", \"를\", \"렁\", \"툰\", \"쏠\", \"맵\", \"싫\", \"%\", \"공\", \"튜\", \"블\", \"궈\", \"굽\", \"켜\", \"뺐\", \"폍\", \"乃\", \"反\", \"峴\", \"津\", \"챗\", \"信\", \"ㅞ\", \"앨\", \"`\", \"댔\", \"워\", \"💅\", \"첩\", \"Ⅴ\", \"왁\", \"춰\", \"몫\", \"섣\", \"始\", \"識\", \"믐\", \"▲\", \"본\", \"㉰\", \"同\", \"工\", \"關\", \"켤\", \"장\", \"역\", \"앗\", \"싯\", \"白\", \"望\", \"낡\", \"ᴡ\", \"익\", \"외\", \"눕\", \"Ⅷ\", \"퍽\", \"玉\", \"제\", \"⚀\", \"ㅝ\", \"肉\", \"낫\", \"쐬\", \"뭐\", \"쓸\", \"묻\", \"갛\", \"}\", \"숍\", \"濁\", \"견\", \"ᴍ\", \"최\", \"略\", \"꼴\", \"課\", \"料\", \"先\", \"듈\", \"뜸\", \"탐\", \"新\", \"미\", \"生\", \"ⅲ\", \"상\", \"짱\", \"南\", \"분\", \"건\", \"兄\", \"▷\", \"싣\", \"《\", \"哀\", \"획\", \"뭉\", \"出\", \"젝\", \"合\", \"쩌\", \"탓\", \"페\", \"政\", \"仲\", \"굵\", \"벅\", \"쟈\", \"긍\", \"멀\", \"닌\", \"렇\", \"랬\", \"짚\", \"ᴄ\", \"콜\", \"벳\", \"펴\", \"뻗\", \"쓕\", \"쾅\", \"넘\", \"ㅊ\", \"듯\", \"쫀\", \"샤\", \"브\", \"염\", \"멤\", \"덩\", \"웁\", \"감\", \"房\", \"샀\", \"쿰\", \"술\", \"비\", \"⑹\", \"ω\", \"🤕\", \"水\", \"팎\", \"틱\", \"ㅗ\", \"짓\", \"콤\", \"경\", \"룡\", \"口\", \"姜\", \"🙆\", \"⑦\", \"댈\", \"곽\", \"빼\", \"델\", \"킴\", \"찮\", \"價\", \"🙌\", \"온\", \"맡\", \"셋\", \"괴\", \"괜\", \"핥\", \"山\", \"인\", \"톰\", \"천\", \"핑\", \"통\", \"데\", \"르\", \"킨\", \"콕\", \"빔\", \"번\", \"렵\", \"록\", \"뇨\", \"핏\", \"紋\", \"환\", \"렐\", \"♣\", \"➋\", \"밝\", \"🦄\", \"린\", \"틋\", \"몹\", \"相\", \"악\", \"팔\", \"사\", \"뿌\", \"곤\", \"×\", \"봄\", \"펜\", \"맺\", \"좁\", \"됩\", \"빛\", \"짧\", \"➏\", \"걔\", \"쫑\", \"❍\", \"띈\", \"홑\", \"■\", \"古\", \"젖\", \"長\", \"⇒\", \"퉁\", \"웃\", \"그\", \"應\", \"렴\", \"龍\", \"생\", \"♥\", \"대\", \"융\", \"摩\", \"묵\", \"英\", \"璿\", \"량\", \"뀔\", \"효\", \"산\", \"렬\", \"풍\", \"↓\", \"魯\", \"응\", \"돔\", \"렸\", \"딴\", \"늄\", \"誡\", \"족\", \"닥\", \"힜\", \"會\", \"샴\", \"삶\", \"디\", \"뎀\", \"겼\", \"居\", \"뗀\", \"亨\", \"멋\", \"박\", \"쌓\", \"측\", \"짜\", \"쩡\", \"뉜\", \"ɪ\", \"실\", \"直\", \"곧\", \"힌\", \"빚\", \"덜\", \"◦\", \"正\", \"썹\", \"엘\", \"薄\", \"곱\", \"난\", \"劫\", \"뜩\", \"🍭\", \"😣\", \"​\", \"잰\", \"럼\", \"홈\", \"팀\", \"플\", \"ᴏ\", \"枯\", \"엇\", \"흥\", \"맴\", \"롤\", \"좆\", \"냐\", \"촛\", \"授\", \"⑴\", \"火\", \"겐\", \"∙\", \"썸\", \"낯\", \"당\", \"警\", \"닛\", \"쎄\", \"胡\", \"밥\", \"土\", \"≪\", \"俗\", \"☞\", \"편\", \"몇\", \"룹\", \"콥\", \"업\", \"槪\", \"能\", \"꿕\", \"常\", \"납\", \"後\", \" \", \"므\", \"릉\", \"戮\", \"發\", \"텅\", \"우\", \"食\", \"켐\", \"言\", \"펠\", \"랐\", \"습\", \"侯\", \"강\", \"뛸\", \"색\", \"御\", \"쌈\", \"そ\", \"권\", \"슷\", \"두\", \"탕\", \"쇼\", \"{\", \"죄\", \"훌\", \"好\", \"韜\", \"華\", \"ㅅ\", \"社\", \"큐\", \"얽\", \"뫼\", \"섰\", \"단\", \"色\", \"뱀\", \"廟\", \"조\", \"틔\", \"넹\", \"끙\", \"⋅\", \"뚫\", \"뼈\", \"比\", \"꼬\", \"농\", \"至\", \"亭\", \"네\", \"쬐\", \"낙\", \"驚\", \"斗\", \"妻\", \"命\", \"즘\", \"軍\", \"튠\", \"靈\", \"빳\", \"쿵\", \"⊙\", \"💡\", \"禮\", \"알\", \"끗\", \"처\", \"쏟\", \"뾱\", \"범\", \"낀\", \"끔\", \"날\", \"析\", \"계\", \"캠\", \"톡\", \"病\", \"깡\", \"힐\", \"셜\", \"祉\", \"뚝\", \"옴\", \"抗\", \"탭\", \"꿇\", \"》\", \"ㅒ\", \"발\", \"철\", \"맛\", \"손\", \"됐\", \"□\", \"링\", \"群\", \"끊\", \"혀\", \"웅\", \"朱\", \"텝\", \"멸\", \"부\", \"톱\", \"넛\", \"類\", \"황\", \"객\", \"륭\", \"많\", \"武\", \"눈\", \"도\", \"弛\", \"셉\", \"籍\", \"첸\", \"꼈\", \"程\", \"전\", \"射\", \"😗\", \"헛\", \"츠\", \"로\", \"‎\", \"퀴\", \"틀\", \"껍\", \"宗\", \"쨍\", \"벌\", \"쵸\", \"🍕\", \"🍎\", \"내\", \"日\", \"둘\", \"득\", \"앙\", \"꿔\", \"譯\", \"江\", \"앓\", \"램\", \"💸\", \"婚\", \"망\", \"美\", \"호\", \"뵐\", \"덮\", \"라\", \"잠\", \"情\", \"典\", \"빠\", \"튬\", \"쩔\", \"協\", \"숫\", \"죤\", \"툭\", \"흠\", \"壽\", \"검\", \"둥\", \"汰\", \"헌\", \"봅\", \"췄\", \"全\", \"엠\", \"닉\", \"님\", \"맹\", \"②\", \"璣\", \"륙\", \"굉\", \"師\", \"時\", \"戌\", \"ᴀ\", \"燭\", \"놔\", \"紙\", \"궁\", \"숱\", \"ʏ\", \"놈\", \"🔹\", \"표\", \"🤭\", \"궜\", \"롭\", \"「\", \"👨\", \"劍\", \"빗\", \"베\", \"튄\", \"차\", \"덴\", \"숟\", \"化\", \"썩\", \"땠\", \"메\", \"센\", \"놀\", \"텔\", \"숯\", \"²\", \"섞\", \"氷\", \"ⅱ\", \"쑥\", \"엡\", \"뜻\", \"次\", \"海\", \"寛\", \"탄\", \"동\", \"잣\", \"챙\", \"臥\", \"㉣\", \"大\", \"衡\", \"리\", \"맙\", \"\", \"컬\", \"뷔\", \"찢\", \"폭\", \"뮬\", \"풀\", \"신\", \"북\", \"흩\", \"칩\", \"초\", \"쾨\", \"뼘\", \"壞\", \"웬\", \"鮮\", \"덥\", \"쇠\", \"뺑\", \"영\", \"침\", \"뜰\", \"첨\", \"잇\", \"性\", \"였\", \"科\", \"燦\", \"冬\", \"풋\", \"퓰\", \"때\", \"숲\", \"나\", \"려\", \"킷\", \"흐\", \"꼽\", \"닿\", \"쩐\", \"ㄹ\", \"分\", \"員\", \"짊\", \"㏊\", \"젊\", \"將\", \"坐\", \"쪼\", \"컷\", \"넷\", \"덕\", \"㎍\", \"💕\", \"까\", \"볕\", \"취\", \"뿐\", \"캘\", \"거\", \"났\", \"롸\", \"춤\", \"峙\", \"맘\", \"렉\", \"흰\", \"끄\", \"쉽\", \"쳐\", \"ⅳ\", \"◇\", \"쟁\", \"폐\", \"괌\", \"京\", \"넓\", \"ⓔ\", \"딤\", \"개\", \"◐\", \"넥\", \"꽝\", \"○\", \"큰\", \"폿\", \"옐\", \"징\", \"蟄\", \"心\", \"흔\", \"옹\", \"긁\", \"💦\", \"깁\", \"럽\", \"포\", \"짝\", \"찍\", \"참\", \"뻔\", \"칸\", \"옷\", \"☀\", \"像\", \"킬\", \"쫗\", \"뒀\", \"턴\", \"쌀\", \"∼\", \"不\", \"🙇\", \"衛\", \"게\", \"탬\", \"숨\", \"축\", \"滅\", \"충\", \"낼\", \"技\", \"렛\", \"랑\", \"냄\", \"〕\", \"약\", \"🌳\", \"떄\", \"章\", \"月\", \"완\", \"딸\", \"高\", \"🥁\", \"학\", \"퀀\", \"얻\", \"륵\", \"유\", \"얍\", \"딪\", \"씨\", \"횟\", \"릭\", \"째\", \"눴\", \"헬\", \"趺\", \"管\", \"·\", \"觸\", \"얹\", \"ㅜ\", \"♀\", \"녜\", \"쯤\", \"宋\", \"君\", \"잡\", \"申\", \"し\", \"曰\", \"류\", \"說\", \"향\", \"빵\", \"‧\", \"써\", \"욱\", \"예\", \"썅\", \"즉\", \"盟\", \"콘\", \"볼\", \"햄\", \"쌍\", \"섦\", \"양\", \"뻤\", \"씩\", \"所\", \"챨\", \"노\", \"율\", \"氣\", \"용\", \"Ⅰ\", \"남\", \"귤\", \"死\", \"臺\", \"넨\", \"복\", \"훼\", \"터\", \"돌\", \"¹\", \"촘\", \"Ⅹ\", \"※\", \"팟\", \"鎭\", \"펙\", \"띤\", \"漢\", \"≤\", \"す\", \"회\", \"奉\", \"‍\", \"ㅢ\", \"켰\", \"野\", \"직\", \"답\", \"昭\", \"변\", \"▶\", \"되\", \"오\", \"훑\", \"와\", \"롬\", \"康\", \"꽉\", \"밭\", \"니\", \"流\", \"👋\", \"➍\", \"藝\", \"땐\", \"機\", \"』\", \"뇌\", \"러\", \"척\", \"잊\", \"윈\", \":\", \"댓\", \"특\", \"럿\", \"엣\", \"냅\", \"들\", \"펑\", \"깐\", \"手\", \"껑\", \"땡\", \"돼\", \"世\", \"돋\", \"져\", \"끌\", \"쏙\", \"랍\", \"락\", \"▣\", \"없\", \"人\", \"요\", \"념\", \"뒷\", \"眞\", \"았\", \"↑\", \"키\", \"無\", \"밍\", \"❏\", \"맑\", \"잼\", \"얇\", \"徳\", \"엄\", \"험\", \"『\", \"촌\", \"善\", \"씽\", \"팡\", \"균\", \"數\", \"🏫\", \"拜\", \"跏\", \"엮\", \"事\", \"핀\", \"판\", \"붓\", \"낸\", \"샬\", \"젓\", \"작\", \"헤\", \"⑶\", \"쉬\", \"謝\", \"모\", \"️\", \"祐\", \"밴\", \"꿨\", \"극\", \"해\", \"面\", \"主\", \"適\", \"웠\", \"샷\", \"︎\", \"홀\", \"김\", \"솟\", \"등\", \"🗺\", \"근\", \"中\", \"쿡\", \"캉\", \"語\", \"對\", \"삼\", \"里\", \"착\", \"★\", \"웍\", \"쌉\", \"믄\", \"用\", \"봐\", \"프\", \"탑\", \"련\", \"星\", \"㉠\", \"야\", \"흉\", \"엔\", \"펀\", \"易\", \"殺\", \"큽\", \"엽\", \"ㅋ\", \"글\", \"으\", \"🍞\", \"六\", \"늑\", \"떨\", \"씻\", \"챌\", \"늙\", \"目\", \"」\", \"Ⅸ\", \"❤\", \"웹\", \"뤘\", \"烏\", \"팍\", \"곁\", \"何\", \"품\", \"얼\", \"龍\", \"륜\", \"🤟\", \"‥\", \"뿍\", \"홍\", \"쉴\", \"⑤\", \"멈\", \"ʟ\", \"슈\", \"卽\", \"못\", \"魚\", \"컴\", \"파\", \"⑥\", \"갭\", \"잎\", \"屠\", \"컵\", \"愛\", \"찾\", \"際\", \"낳\", \"飮\", \"마\", \"탁\", \"皮\", \"掌\", \"內\", \"주\", \"故\", \"담\", \"下\", \"는\", \"神\", \"폰\", \"띠\", \"尤\", \"속\", \"拮\", \"쓴\", \"ㅟ\"]", - "reversible": false - }, - "google/switch-c-2048 @ cc100/zh-Hans": { - "tokenizer": "switch-c-2048", - "organization": "Google", - "vocab_size": 32100, - "_n_bytes": 2633047, - "_n_tokens": 163519, - "_n_chars": 927311, - "_n_oov_chars": 865446, - "oov_ratio": 0.9332855967415462, - "_oov_charset": "[\"蜂\", \"嘎\", \"腾\", \"募\", \"\", \"现\", \"茫\", \"门\", \"话\", \"叨\", \"惨\", \"又\", \"鱼\", \"族\", \"青\", \"⒀\", \"撬\", \"C\", \"王\", \"多\", \"呈\", \"婆\", \"赌\", \"涎\", \"袱\", \"蕤\", \"声\", \"修\", \"聚\", \"廊\", \"皂\", \"恢\", \".\", \"湄\", \"恪\", \"當\", \"踞\", \"朋\", \"卉\", \"葱\", \"训\", \"玷\", \"巴\", \"词\", \"眼\", \"赴\", \"竹\", \"页\", \"狸\", \"挈\", \"\", \"贵\", \"噌\", \"德\", \"贱\", \"杆\", \"浙\", \"汐\", \"吮\", \"疾\", \"禄\", \"统\", \"坊\", \"t\", \"示\", \"呸\", \"脯\", \"术\", \"仄\", \"剽\", \"服\", \"谔\", \"尴\", \"继\", \"蒂\", \"皿\", \"卍\", \"・\", \"牲\", \"咽\", \"蝌\", \"耶\", \"吱\", \"形\", \"癖\", \"级\", \"啤\", \"…\", \"蹦\", \"络\", \"洪\", \"旖\", \"懂\", \"员\", \"睹\", \"考\", \"锡\", \"胥\", \"例\", \"戍\", \"纱\", \"建\", \"姿\", \"姻\", \"贴\", \"帆\", \"玖\", \"⒁\", \"腿\", \"狄\", \"渗\", \"饥\", \"悦\", \"仇\", \"旋\", \"聪\", \"悟\", \"因\", \"禧\", \"蹩\", \"念\", \"喀\", \"渐\", \"円\", \"茶\", \"掂\", \"炒\", \"・\", \"卑\", \"⑸\", \"葫\", \"浏\", \"返\", \"泄\", \"朴\", \"脊\", \"邃\", \"筷\", \"侣\", \"咦\", \"肿\", \"桔\", \"劑\", \"三\", \"酋\", \"為\", \"冠\", \"娼\", \"退\", \"诀\", \"液\", \"敛\", \"斩\", \"馨\", \"挣\", \"擘\", \"佬\", \"惺\", \"叉\", \"耩\", \"滚\", \"摧\", \"畴\", \"小\", \"吴\", \"梁\", \"⑨\", \"威\", \"敦\", \"祟\", \"灿\", \"&\", \"壮\", \"怨\", \"未\", \"调\", \"泠\", \"俄\", \"孜\", \"蓦\", \"谋\", \"槌\", \"怪\", \"埃\", \"哧\", \"埋\", \"项\", \"滢\", \"獗\", \"魁\", \"脚\", \"嘉\", \"曦\", \"淡\", \"翡\", \"搡\", \"缉\", \"推\", \"闹\", \"汕\", \"辱\", \"概\", \"逐\", \"殿\", \"辄\", \"拳\", \"袒\", \"沃\", \"钦\", \"坯\", \"际\", \"姓\", \"怎\", \"厘\", \"炫\", \"代\", \"拌\", \"箭\", \"喜\", \"谱\", \"痰\", \"锻\", \"域\", \"氛\", \"挂\", \"佟\", \"忌\", \"漂\", \"揽\", \"附\", \"告\", \"了\", \"臧\", \"舌\", \"惬\", \"质\", \"牺\", \"寥\", \"撒\", \"刮\", \"蓝\", \"奶\", \""\", \"漩\", \"填\", \"驳\", \"氏\", \"城\", \"坷\", \"么\", \"徽\", \"玲\", \"励\", \"融\", \"堪\", \"忱\", \"弦\", \"妈\", \"媛\", \"趾\", \"―\", \"聆\", \"垒\", \"棍\", \"布\", \"树\", \"这\", \"杏\", \"部\", \"贫\", \"網\", \"镏\", \"证\", \"冲\", \"菇\", \"吆\", \"荆\", \"沛\", \"挽\", \"挚\", \"楂\", \"闸\", \"教\", \"有\", \"八\", \"离\", \"鬓\", \"括\", \"记\", \"斯\", \"促\", \"挺\", \"吐\", \"砸\", \"容\", \"竣\", \"役\", \"辟\", \"冈\", \"猥\", \"擞\", \"诶\", \"窿\", \"袖\", \"τ\", \"逞\", \"眨\", \"倨\", \"余\", \"刹\", \"派\", \"西\", \"河\", \"牵\", \"七\", \"侮\", \"百\", \"湘\", \"媳\", \"矣\", \"件\", \"颌\", \"p\", \"截\", \"厌\", \"帘\", \"苇\", \"护\", \"禅\", \"承\", \"洞\", \"毛\", \"汽\", \"忠\", \"憧\", \"盈\", \"泉\", \"得\", \"厨\", \"接\", \"窜\", \"愤\", \"嫌\", \"聊\", \"东\", \"→\", \"驴\", \"醐\", \"察\", \"诱\", \"丽\", \"弗\", \"黑\", \"软\", \"①\", \"咨\", \"喇\", \"邓\", \"影\", \"杖\", \"椭\", \"包\", \"遴\", \"碧\", \"伸\", \"杜\", \"屋\", \"旺\", \"蓄\", \"围\", \"惮\", \"表\", \"晴\", \"业\", \"迈\", \"桂\", \"魏\", \"努\", \"息\", \"机\", \"琪\", \"众\", \"邪\", \"汪\", \"祥\", \"哪\", \"霖\", \"鹰\", \"残\", \"泯\", \"赏\", \"筛\", \"翊\", \"系\", \"宣\", \"笋\", \"轻\", \"托\", \"她\", \"症\", \"根\", \"制\", \"透\", \"节\", \"雏\", \"押\", \"删\", \"虐\", \"酒\", \"萝\", \"赅\", \"跳\", \"濒\", \"蛊\", \"顿\", \"膨\", \"润\", \"懦\", \"近\", \"培\", \"嘲\", \"躯\", \"燎\", \"头\", \"克\", \"镀\", \"册\", \"风\", \"勿\", \"強\", \"缩\", \"崎\", \"渡\", \"〖\", \"童\", \"揍\", \"陡\", \"催\", \"倒\", \"今\", \"库\", \"的\", \"杭\", \"【\", \"癫\", \"怂\", \"剩\", \"泱\", \"宁\", \"恳\", \"陪\", \"珏\", \"惦\", \"●\", \"呐\", \"猖\", \"尔\", \"挠\", \"峥\", \"紧\", \"喊\", \"脆\", \"沿\", \"跪\", \"拯\", \"庚\", \"霹\", \"亵\", \"县\", \"骨\", \"凶\", \"「\", \"偿\", \"衬\", \"撐\", \"靴\", \"司\", \"检\", \"零\", \"黏\", \"泌\", \"黧\", \"圆\", \"烬\", \"扉\", \"〔\", \"蜀\", \"姣\", \"物\", \"缥\", \"柘\", \"黩\", \"荨\", \"折\", \"享\", \"见\", \"毯\", \"瑶\", \"雅\", \"權\", \"踩\", \"旦\", \"闭\", \"副\", \"枷\", \"炕\", \"笃\", \"核\", \"找\", \"闻\", \"智\", \"幼\", \"福\", \"由\", \"束\", \"楼\", \"矗\", \"虎\", \"粱\", \"某\", \"即\", \"瘾\", \"依\", \"罩\", \"麓\", \"栖\", \"瞠\", \"葆\", \"潭\", \"冤\", \"累\", \"岚\", \"母\", \"脱\", \"拼\", \"據\", \"5\", \"】\", \"n\", \"绍\", \"座\", \"添\", \"岐\", \"遍\", \"凹\", \"凉\", \"及\", \"履\", \"秀\", \"陵\", \"戳\", \"完\", \"戾\", \"限\", \"学\", \"冯\", \"睐\", \"粟\", \"顺\", \"蔬\", \"当\", \"榜\", \"阀\", \"邑\", \"地\", \"帕\", \"存\", \"侧\", \"狱\", \"盖\", \"呵\", \"~\", \"陈\", \"裙\", \"婉\", \"辉\", \"邬\", \"糠\", \"担\", \"汩\", \"蚊\", \"罕\", \"钩\", \"甯\", \"刘\", \"行\", \"宸\", \"药\", \"芥\", \"剪\", \"钥\", \"畸\", \"吃\", \"忆\", \"臼\", \"镭\", \"萍\", \"恩\", \"甲\", \"庭\", \"嘻\", \"俞\", \"祛\", \"メ\", \"队\", \"沉\", \"颈\", \"本\", \"抛\", \"薇\", \"陆\", \"烘\", \"憨\", \"荟\", \"禽\", \"彙\", \"锥\", \"愉\", \"咀\", \"府\", \"巡\", \"芃\", \"旅\", \"哺\", \"喔\", \"猜\", \"樱\", \"惩\", \"庙\", \"瑜\", \"贬\", \"轰\", \"竭\", \"雪\", \",\", \"令\", \"嫁\", \"松\", \"治\", \"乌\", \"壶\", \"蔷\", \"讶\", \"鲱\", \"国\", \"粤\", \"痫\", \"算\", \"识\", \"標\", \"瘠\", \"民\", \"店\", \"嫂\", \"女\", \"书\", \"跃\", \"耙\", \"史\", \"抿\", \"占\", \"霜\", \"蟑\", \"歼\", \"褪\", \"等\", \"跟\", \"酿\", \"萦\", \"诨\", \"龟\", \"雯\", \"尊\", \"澎\", \"验\", \"耀\", \"戴\", \"瑰\", \"阽\", \"凄\", \"鲎\", \"匪\", \"卵\", \"箔\", \"痊\", \"曲\", \"远\", \"绣\", \"开\", \"掖\", \"枢\", \"篮\", \"鸭\", \"彻\", \"米\", \"墅\", \"练\", \"雇\", \"荫\", \"川\", \"疸\", \"咱\", \"张\", \"莎\", \"争\", \"泰\", \"姗\", \"褐\", \"嘟\", \"翰\", \"盎\", \"愣\", \"狐\", \"悚\", \"盒\", \"梭\", \"牟\", \"灰\", \"榻\", \"驮\", \"躬\", \"响\", \"喷\", \"守\", \"玫\", \"映\", \"桥\", \"〝\", \"蚯\", \"耳\", \"俩\", \"怠\", \"初\", \"茉\", \"瑒\", \"终\", \"黔\", \"毋\", \"尝\", \"砍\", \"垣\", \"致\", \"滋\", \"挤\", \"泳\", \"经\", \"慨\", \"追\", \"妖\", \"肺\", \"荣\", \"伴\", \"疮\", \"鹌\", \"笼\", \"督\", \"诊\", \"铜\", \"虫\", \"匠\", \"扛\", \"棋\", \"似\", \"姨\", \"牌\", \"赣\", \"撅\", \"吧\", \"叶\", \"介\", \"骰\", \"捧\", \"体\", \"?\", \"疼\", \"邻\", \"胎\", \"悉\", \"衣\", \"少\", \"庇\", \"份\", \"官\", \"蓟\", \" \", \"郸\", \"锄\", \"爻\", \"索\", \"逾\", \"醇\", \"垠\", \"壳\", \"庐\", \"十\", \"梦\", \"增\", \"沾\", \"渠\", \"饰\", \"Ø\", \"强\", \"窥\", \"迄\", \"翩\", \"辗\", \"蔚\", \"翠\", \"什\", \"朽\", \"陕\", \"咕\", \"凭\", \"身\", \"充\", \"懑\", \"驼\", \"暧\", \"旧\", \"箱\", \"翼\", \"缓\", \"隋\", \"闪\", \"疴\", \"歉\", \"窗\", \"草\", \"毒\", \"衔\", \"产\", \"止\", \"徘\", \"煌\", \"龙\", \"姚\", \"鹈\", \"筐\", \"放\", \"佼\", \"ὐ\", \"北\", \"镜\", \"胁\", \"去\", \"踵\", \"骆\", \"孽\", \"屡\", \"琴\", \"煤\", \"舐\", \"窃\", \"赋\", \"文\", \"冰\", \"蜴\", \"甜\", \"炙\", \"^\", \"幕\", \"不\", \"轮\", \"阵\", \"阔\", \"腥\", \"牡\", \"巅\", \"妥\", \"亟\", \"岌\", \"秋\", \"谩\", \"债\", \"怯\", \"械\", \"邵\", \"崇\", \"聒\", \"兼\", \"爆\", \"圣\", \"丧\", \"插\", \"穹\", \"天\", \"铣\", \"堵\", \"跤\", \"狂\", \"彗\", \"镳\", \"尖\", \"噱\", \"热\", \"汀\", \"半\", \"劝\", \"伦\", \"熟\", \"谴\", \"央\", \"奎\", \"+\", \"柚\", \"啥\", \"湾\", \"凤\", \"旭\", \"油\", \"敷\", \"瞥\", \"驰\", \"陷\", \"票\", \"兔\", \"操\", \"惕\", \"佰\", \"孀\", \"\\u0005\", \"作\", \"隆\", \"违\", \"喘\", \"A\", \"聿\", \"公\", \"蟀\", \"馍\", \"咐\", \"帝\", \"拇\", \"庆\", \"芝\", \"场\", \"竞\", \"瞻\", \"绑\", \"晟\", \"氮\", \"睡\", \"巢\", \"断\", \"诵\", \"盛\", \"咎\", \"距\", \"芳\", \"咯\", \"辆\", \"乘\", \"谀\", \"倏\", \"迟\", \"衫\", \"划\", \"←\", \"锅\", \"勃\", \"样\", \"光\", \"幅\", \"卷\", \"屯\", \"浦\", \"棵\", \"匙\", \"曼\", \"障\", \"芹\", \"观\", \"独\", \"嗣\", \"哟\", \"足\", \"悴\", \"弑\", \"洛\", \"缚\", \"洼\", \"弧\", \"流\", \"贼\", \"股\", \"犯\", \"破\", \"铸\", \"剑\", \"迪\", \"6\", \"气\", \"楔\", \"剂\", \"欸\", \"弹\", \"鼻\", \"歹\", \"寝\", \"1\", \"备\", \"洋\", \"椒\", \"鲜\", \"桌\", \"宏\", \"灌\", \"瘀\", \"a\", \"纾\", \"思\", \"褒\", \"恙\", \"饼\", \"屎\", \"趋\", \"腓\", \"渴\", \"狈\", \"难\", \"嚎\", \"钜\", \"9\", \"渎\", \"扑\", \"戚\", \"莲\", \"厦\", \"以\", \"抬\", \"铁\", \"毫\", \"层\", \"睽\", \"匹\", \"浠\", \"量\", \"悖\", \"如\", \"明\", \"藤\", \"两\", \"穿\", \"陇\", \"者\", \"徐\", \"昆\", \"屹\", \"特\", \"秽\", \"市\", \"犄\", \"谐\", \"冶\", \"肢\", \"腰\", \"眩\", \"判\", \"假\", \"著\", \"赵\", \"撰\", \"昏\", \"搬\", \"溺\", \"噴\", \"字\", \"铛\", \"耸\", \"⑩\", \"投\", \"廉\", \"道\", \"腭\", \"孝\", \"敬\", \"苒\", \"剐\", \"樟\", \"乒\", \"莘\", \"螃\", \"犬\", \"柯\", \"霄\", \"揭\", \"嘈\", \"旆\", \"蟹\", \"恒\", \"纬\", \"胶\", \"栅\", \"魇\", \"蜥\", \"巨\", \"杨\", \"。\", \"牙\", \"螺\", \"喉\", \"摆\", \"陛\", \"理\", \"毁\", \"于\", \"d\", \"昵\", \"憔\", \"差\", \"旎\", \"旌\", \"逛\", \"谜\", \"汇\", \"痕\", \"蜒\", \"翻\", \"弊\", \"辛\", \"\", \"妓\", \"兢\", \"棚\", \"绳\", \"炖\", \"躺\", \"邮\", \"懊\", \"孤\", \"绘\", \"吉\", \"乓\", \"诅\", \"巍\", \"却\", \"耗\", \"幻\", \"飘\", \"尬\", \"磺\", \"共\", \"然\", \"叙\", \"\\u0000\", \"霞\", \"健\", \"嗨\", \"D\", \"衷\", \"点\", \"孔\", \"辐\", \"午\", \"欲\", \"录\", \"缝\", \"摊\", \"匿\", \"结\", \"亡\", \"知\", \"班\", \"睿\", \"覃\", \"茜\", \"毎\", \"鹃\", \"亮\", \"霭\", \"鞠\", \"撷\", \"罪\", \"喽\", \"拐\", \"磕\", \"」\", \"隔\", \"夜\", \"撕\", \"审\", \"赠\", \"邹\", \"漲\", \"营\", \"宪\", \"蕃\", \"意\", \"赢\", \"嚣\", \"求\", \"\\\\\", \"问\", \"潇\", \"赘\", \"逑\", \"澄\", \"拣\", \"茅\", \"恣\", \"煜\", \"遁\", \"掏\", \"崽\", \"邯\", \"题\", \"永\", \"伽\", \"焚\", \"泊\", \"拖\", \"0\", \"秘\", \"甄\", \"侍\", \"刊\", \"苛\", \"础\", \"佘\", \"达\", \"掰\", \"挲\", \"〗\", \"麟\", \"谢\", \"の\", \"蛮\", \"斐\", \"陀\", \"款\", \"暖\", \"爽\", \"位\", \"酣\", \"党\", \"抑\", \"粼\", \"啼\", \"含\", \"遗\", \"超\", \"杀\", \"匈\", \"彬\", \"塑\", \"辑\", \"囊\", \"夺\", \"男\", \"需\", \"恨\", \"味\", \"瘦\", \"须\", \"兑\", \"橘\", \"朝\", \"读\", \"蹒\", \"褚\", \"馋\", \"支\", \"乏\", \"弃\", \"稻\", \"冀\", \"攻\", \"戸\", \"腻\", \"菜\", \"救\", \"坠\", \"盹\", \"羔\", \"犹\", \"粥\", \"榄\", \"砥\", \"默\", \"泻\", \"芽\", \"币\", \"帷\", \"伐\", \"符\", \"落\", \"径\", \"舎\", \"夷\", \"疑\", \"矮\", \"魔\", \"崖\", \"讦\", \"④\", \"丢\", \"拙\", \"研\", \"翕\", \"牠\", \"牒\", \"飙\", \"饨\", \"潮\", \"骤\", \"惹\", \"丑\", \"霊\", \"勘\", \"志\", \"较\", \"笛\", \"阑\", \"肋\", \"柑\", \"惯\", \"侬\", \"髦\", \"灶\", \"徙\", \"靓\", \"靶\", \"靖\", \"版\", \"釜\", \"垮\", \"炊\", \"挟\", \"於\", \"兜\", \"晚\", \"氨\", \"虚\", \"待\", \"配\", \"鸥\", \"设\", \"朵\", \"燃\", \"棉\", \"呗\", \"向\", \"职\", \"可\", \"负\", \"嘴\", \"瞧\", \"骛\", \"樯\", \"院\", \"稠\", \"咔\", \"垢\", \"宅\", \"砺\", \"讳\", \"蹊\", \"井\", \"汗\", \"黄\", \"靠\", \"诣\", \"嘛\", \"豁\", \"谣\", \"嘤\", \"严\", \"春\", \"睑\", \"骏\", \"颉\", \"与\", \"骸\", \"攀\", \"芷\", \"铝\", \"捐\", \"鹅\", \"送\", \"衍\", \"基\", \"很\", \"毕\", \"谓\", \"-\", \"偶\", \"莓\", \"粪\", \"坑\", \"耘\", \"鬼\", \"涤\", \"烦\", \"凯\", \"揣\", \"茏\", \"趁\", \"虔\", \"聋\", \"℃\", \"四\", \"疯\", \"瓷\", \"焙\", \"盲\", \"掩\", \"皆\", \"荧\", \"轴\", \"毡\", \"自\", \"延\", \"懵\", \"忪\", \"否\", \"踪\", \"罚\", \"纺\", \"捡\", \"7\", \"种\", \"圜\", \"力\", \"效\", \"茵\", \"序\", \"�\", \"硬\", \"蓁\", \"亦\", \"执\", \"铂\", \"瞩\", \"险\", \"肚\", \"属\", \"铨\", \"惴\", \"圈\", \"构\", \"乐\", \"萧\", \"琦\", \"豌\", \"倪\", \"珉\", \"嵘\", \"跌\", \"亂\", \"奏\", \"躇\", \"豹\", \"肤\", \"踢\", \"逝\", \"委\", \"鞍\", \"屏\", \"覆\", \"尧\", \"塘\", \"柄\", \"导\", \"器\", \"干\", \"圳\", \"\\b\", \"雀\", \"埂\", \"枣\", \"佛\", \"耻\", \"熄\", \"扶\", \"_\", \"厂\", \"郜\", \"汤\", \"勋\", \"我\", \"煎\", \"颖\", \"九\", \"蜜\", \"狭\", \"膝\", \"骇\", \"舟\", \"T\", \"皖\", \"伊\", \"账\", \"盯\", \"显\", \"秦\", \"通\", \"商\", \"儿\", \"屈\", \"蛇\", \"振\", \"俘\", \"瑄\", \"缀\", \"决\", \"柱\", \"坏\", \"⒌\", \"俱\", \"第\", \"吩\", \"铃\", \"家\", \"届\", \"鼎\", \"鬣\", \"瑢\", \"除\", \"过\", \"危\", \"链\", \"璀\", \"源\", \"改\", \"厄\", \"簿\", \"讨\", \"旱\", \"岣\", \"黯\", \"腊\", \"唠\", \"绅\", \"育\", \"剧\", \"溢\", \"私\", \"摔\", \"矍\", \"祷\", \"鼠\", \"游\", \"擦\", \"览\", \"疏\", \"棱\", \"洁\", \"祖\", \"就\", \"悄\", \"哗\", \"年\", \"茨\", \"抢\", \"灸\", \"N\", \"途\", \"恤\", \"寻\", \"咪\", \"©\", \"苹\", \"膛\", \"他\", \"萨\", \"镑\", \"云\", \"嗡\", \"阿\", \"噢\", \"扬\", \"锯\", \"仅\", \"迁\", \"钻\", \"卧\", \"涟\", \"尸\", \"要\", \"擀\", \"金\", \"呦\", \"估\", \"值\", \"雄\", \"辫\", \"矢\", \"任\", \"仍\", \"岛\", \"坚\", \"拷\", \"漫\", \"饶\", \"昕\", \"愕\", \"莺\", \"绊\", \"暨\", \"一\", \"奘\", \"糖\", \"驱\", \"击\", \"慮\", \"貌\", \"晓\", \"锁\", \"谷\", \"厮\", \"枉\", \"纷\", \"法\", \"婶\", \"方\", \"纲\", \"渺\", \"劲\", \"涅\", \"将\", \"潜\", \"受\", \"扪\", \"或\", \"快\", \"锌\", \"V\", \"骁\", \"幸\", \"写\", \"博\", \"补\", \"夕\", \"匾\", \"氧\", \"迫\", \"唐\", \"荷\", \"校\", \"岗\", \"缄\", \"亩\", \"伞\", \"巳\", \"遢\", \"卿\", \"己\", \"困\", \"珍\", \"丐\", \"馆\", \"抵\", \"跑\", \"入\", \"怀\", \"交\", \"函\", \"叼\", \"律\", \"宝\", \"惋\", \"狳\", \"乍\", \"伏\", \"挎\", \"姥\", \"蚓\", \"绽\", \"辈\", \"捷\", \"桶\", \"3\", \"计\", \"砧\", \"碳\", \"陋\", \"冻\", \"峰\", \"牧\", \"琉\", \"鞘\", \"涡\", \"礼\", \"革\", \"欺\", \"瞎\", \"丹\", \"矩\", \"枪\", \"郝\", \"楷\", \"希\", \"猪\", \"集\", \"淅\", \"番\", \"钉\", \"⑿\", \"欠\", \"胫\", \"祢\", \"它\", \"爪\", \"瞳\", \"瓣\", \"报\", \"诚\", \"眉\", \"燥\", \"号\", \"骼\", \"遵\", \"雾\", \"纽\", \"亿\", \"尹\", \"\", \"沼\", \"叭\", \"抱\", \"荼\", \"户\", \"阱\", \"シ\", \"戏\", \"黢\", \"愚\", \"友\", \"鼾\", \"凡\", \"爰\", \"洽\", \"蔓\", \"酵\", \"免\", \"靡\", \"觉\", \"和\", \"预\", \"娄\", \"暇\", \"周\", \"躲\", \"漱\", \"羹\", \"剥\", \"脂\", \"回\", \"簇\", \"抖\", \"喃\", \"千\", \"惘\", \"奢\", \"黎\", \"爷\", \"賣\", \"娇\", \"媒\", \"鄂\", \"陨\", \"猾\", \"菌\", \"啬\", \"铲\", \"唬\", \"颇\", \"林\", \"瀚\", \"璃\", \"利\", \"矶\", \"剁\", \"帅\", \"韩\", \"度\", \"弟\", \"s\", \"蓬\", \"岂\", \"说\", \"蜘\", \"鸟\", \"拘\", \"述\", \"兹\", \"浓\", \"清\", \"辽\", \"碰\", \"艺\", \"查\", \"淘\", \"摄\", \"霉\", \"农\", \"起\", \"玻\", \"侥\", \"界\", \"盼\", \"確\", \"屑\", \"济\", \"扰\", \"隧\", \"舒\", \"歧\", \"哉\", \"辙\", \"蕉\", \"鼯\", \"聘\", \"极\", \"缸\", \"屣\", \"睫\", \"译\", \"谁\", \"摸\", \"渝\", \"淳\", \"馁\", \"觑\", \"朦\", \"雳\", \"涕\", \"葩\", \"掠\", \"靛\", \"付\", \"豚\", \"为\", \"昊\", \"邀\", \"铤\", \"渥\", \"倦\", \"甩\", \"窘\", \"俏\", \"妆\", \"贾\", \"〈\", \"摞\", \"霸\", \"唱\", \"再\", \"<\", \"蟋\", \"郴\", \"徇\", \"异\", \"子\", \"会\", \"数\", \"苣\", \"抽\", \"避\", \"肯\", \"岸\", \"怒\", \"唇\", \"范\", \"札\", \"狞\", \"乳\", \"羽\", \"巷\", \"粹\", \"蛔\", \"铄\", \"处\", \"杠\", \"椰\", \"勒\", \"率\", \"擎\", \"优\", \"嚼\", \"解\", \"牛\", \"凿\", \"飞\", \"悲\", \"逗\", \"烂\", \"吓\", \"竿\", \"抠\", \"穰\", \"原\", \"州\", \"奔\", \"巫\", \"璨\", \"刷\", \"嗜\", \"へ\", \"安\", \"忧\", \"妇\", \"伤\", \"碎\", \"胚\", \"篱\", \"⑷\", \"贿\", \"犟\", \"渊\", \"诗\", \"乙\", \"婊\", \"绒\", \"疤\", \"胸\", \"搁\", \"课\", \"欧\", \"扳\", \"旁\", \"邦\", \"◆\", \"斋\", \"丙\", \"挑\", \"瞰\", \"失\", \"各\", \"晶\", \"怡\", \"窖\", \"呀\", \"壕\", \"做\", \"r\", \"峭\", \"销\", \"皇\", \"列\", \"阜\", \"珊\", \"麾\", \"被\", \"稍\", \"外\", \"痴\", \"阂\", \"裔\", \"胀\", \"李\", \"论\", \"首\", \"α\", \"怵\", \"曳\", \"防\", \"灭\", \"霆\", \"纹\", \"洗\", \"8\", \"纯\", \"潦\", \"鹦\", \"绪\", \"步\", \"慰\", \"汛\", \"露\", \"沫\", \"苍\", \"颤\", \"壑\", \"诃\", \"捉\", \"短\", \"酝\", \"赖\", \"涛\", \"\\u0006\", \"睁\", \"蔼\", \"鹤\", \"2\", \"芭\", \"缔\", \"阐\", \" \", \"厅\", \"庸\", \"祈\", \"把\", \"医\", \"~\", \"品\", \"〉\", \"犁\", \"芋\", \"沐\", \"辰\", \"盗\", \"黝\", \"鸩\", \"早\", \"勤\", \"披\", \"线\", \"乎\", \"耕\", \"栋\", \"躁\", \"坂\", \"嫩\", \"讥\", \"裴\", \"琳\", \"溜\", \"俪\", \"舵\", \"蜃\", \"⑧\", \"另\", \"椎\", \"环\", \"潘\", \"址\", \"胳\", \"鲤\", \"拂\", \"柜\", \"帖\", \"灯\", \"韵\", \"抹\", \"卢\", \"瘤\", \"眷\", \"楞\", \"龄\", \"湖\", \")\", \"凸\", \"齿\", \"袭\", \"荻\", \"底\", \"窝\", \"闾\", \"留\", \"暮\", \"诸\", \"姆\", \"亳\", \"室\", \"豆\", \"浩\", \"则\", \"成\", \"具\", \"惊\", \"眠\", \"麦\", \"拽\", \"炮\", \"悯\", \"败\", \"菲\", \"倚\", \"伍\", \"蹴\", \"谛\", \"妹\", \"糊\", \"活\", \"姑\", \"擤\", \"ς\", \"③\", \"琐\", \"沥\", \"沽\", \"橇\", \"别\", \"锲\", \"赃\", \"噼\", \"鸠\", \"罄\", \"門\", \"魄\", \"搅\", \"資\", \"捍\", \"暄\", \"丁\", \"淌\", \"仁\", \"激\", \"臆\", \"泥\", \"立\", \"榆\", \"迷\", \"筒\", \"碱\", \"厢\", \"抒\", \"皱\", \"到\", \"漪\", \"嘣\", \"恺\", \"糯\", \"煲\", \"蔑\", \"肘\", \"刑\", \"羞\", \"栈\", \"壤\", \"平\", \"傻\", \"寰\", \"馕\", \"損\", \"籁\", \"杰\", \"臣\", \"诩\", \"娜\", \"別\", \"画\", \"睛\", \"晒\", \"啡\", \"趟\", \"套\", \"沈\", \"弯\", \"扔\", \"戒\", \"耽\", \"澜\", \"昧\", \"啕\", \"淤\", \"墙\", \"槽\", \"剿\", \"烧\", \"湿\", \"恃\", \"淋\", \"磅\", \"钧\", \"角\", \"降\", \"害\", \"嗲\", \"淼\", \"涵\", \"栽\", \"脸\", \"臭\", \"五\", \"引\", \"袍\", \"来\", \"锤\", \"畑\", \"讪\", \"忿\", \"疵\", \"ズ\", \"氢\", \"适\", \"蒙\", \"暹\", \"倍\", \"玛\", \"讲\", \"之\", \"球\", \"揖\", \"瓦\", \"舞\", \"髓\", \"歪\", \"堂\", \"卻\", \"妮\", \"垃\", \"馒\", \"园\", \"俑\", \"秒\", \"腋\", \"耍\", \"槛\", \"码\", \"厕\", \"空\", \"赞\", \"動\", \"才\", \"斧\", \"翅\", \"臀\", \"跨\", \"蔽\", \"炭\", \"竖\", \"兵\", \"针\", \"贝\", \"橄\", \"肇\", \"袜\", \"羚\", \"墓\", \"邕\", \"選\", \"赔\", \"批\", \"上\", \"绞\", \"洒\", \"拨\", \"衰\", \"扎\", \"忘\", \"洲\", \"香\", \"侵\", \"客\", \"移\", \"泾\", \"\", \"墉\", \"吭\", \"枚\", \"疲\", \"帽\", \"玩\", \"娘\", \"迅\", \"拒\", \"栗\", \"屉\", \"颧\", \"卸\", \"锏\", \"屁\", \"踹\", \"稽\", \"阪\", \"龚\", \"架\", \"涣\", \"标\", \"颂\", \"碑\", \"刀\", \"熙\", \"泪\", \"貂\", \"篡\", \"偏\", \"维\", \"羡\", \"涌\", \"铩\", \"吏\", \"苟\", \"贡\", \"%\", \"佐\", \"旳\", \"借\", \"眺\", \"祀\", \"每\", \"辞\", \"选\", \"傍\", \"控\", \"彪\", \"钝\", \"ο\", \"几\", \"萤\", \"停\", \"乃\", \"反\", \"津\", \"诉\", \"召\", \"信\", \"置\", \"萌\", \"溯\", \"嚷\", \"坦\", \"瑧\", \"约\", \"癜\", \"`\", \"耐\", \"炳\", \"植\", \"噩\", \"台\", \"脑\", \"绉\", \"孕\", \"娴\", \"站\", \"诈\", \"焦\", \"谧\", \"檬\", \"笔\", \"轨\", \"饽\", \"兽\", \"瘩\", \"始\", \"凰\", \"夏\", \"助\", \"扣\", \"锂\", \"区\", \"捂\", \"芬\", \"肮\", \"闯\", \"哮\", \"背\", \"藏\", \"怕\", \"胱\", \"▲\", \"诠\", \"瞟\", \"刁\", \"桢\", \"同\", \"工\", \"吊\", \"叠\", \"窍\", \"霍\", \"朗\", \"瀑\", \"炉\", \"斌\", \"炅\", \"白\", \"梵\", \"岑\", \"攸\", \"涉\", \"晰\", \"刚\", \"蝉\", \"望\", \"冽\", \"怖\", \"攥\", \"纤\", \"琛\", \"杉\", \"牖\", \"租\", \"苯\", \"裆\", \"拟\", \"戢\", \"颠\", \"噬\", \"侈\", \"稀\", \"散\", \"兴\", \"篷\", \"硕\", \"玉\", \"漠\", \"凝\", \"纪\", \"肉\", \"崛\", \"释\", \"浇\", \"哒\", \"伫\", \"畜\", \"溪\", \"囤\", \"掀\", \"悠\", \"唯\", \"银\", \"嘱\", \"滑\", \"认\", \"咳\", \"鸦\", \"宙\", \"}\", \"雌\", \"蚪\", \"楣\", \"象\", \"匆\", \"参\", \"麻\", \"琅\", \"略\", \"堕\", \"漓\", \"森\", \"柳\", \"料\", \"虽\", \"先\", \"呆\", \"浴\", \"俨\", \"鄯\", \"恰\", \"镉\", \"欢\", \"殉\", \"新\", \"办\", \"臂\", \"生\", \"惟\", \"扼\", \"南\", \"涩\", \"珞\", \"迹\", \"跻\", \"兄\", \"攒\", \"舛\", \"诟\", \"臊\", \"踏\", \"遂\", \"《\", \"减\", \"\", \"掐\", \"尽\", \"哀\", \"圩\", \"出\", \"合\", \"墒\", \"确\", \"栾\", \"割\", \"恿\", \"且\", \"政\", \"状\", \"仲\", \"沸\", \"畅\", \"砾\", \"甬\", \"殆\", \"昔\", \"炼\", \"芜\", \"亲\", \"非\", \"秉\", \"俺\", \"征\", \"耦\", \"運\", \"猝\", \"珠\", \"蹭\", \"贤\", \"哑\", \"誉\", \"纰\", \"眶\", \"荡\", \"单\", \"悼\", \"篇\", \"笑\", \"车\", \"陌\", \"倾\", \"扮\", \"搏\", \"醛\", \"们\", \"卫\", \"渣\", \"壹\", \"赡\", \"俊\", \"爱\", \"舍\", \"翁\", \"孵\", \"滞\", \"尾\", \"妞\", \"咬\", \"珀\", \"购\", \"型\", \"乱\", \"晕\", \"棂\", \"愧\", \"诧\", \"蛋\", \"勖\", \"裸\", \"宛\", \"房\", \"栩\", \"膀\", \"轩\", \"裕\", \"仑\", \"售\", \"扒\", \"腔\", \"末\", \"水\", \"偎\", \"π\", \"漉\", \"電\", \"煮\", \"採\", \"坟\", \"傅\", \"重\", \"\", \"施\", \"口\", \"载\", \"炸\", \"锋\", \"裳\", \"姜\", \"呕\", \"娛\", \"逊\", \"竟\", \"叩\", \"葬\", \"⑦\", \"堤\", \"併\", \"狼\", \"升\", \"爵\", \"务\", \"块\", \"谍\", \"诲\", \"溶\", \"暑\", \"税\", \"莴\", \"遥\", \"犀\", \"價\", \"燕\", \"句\", \"蛛\", \"睦\", \"丘\", \"山\", \"曙\", \"偷\", \"泵\", \";\", \"肝\", \"垂\", \"名\", \"肃\", \"舆\", \"谬\", \"提\", \"军\", \"撞\", \"久\", \"劾\", \"梢\", \"疗\", \"契\", \"互\", \"削\", \"凛\", \"锚\", \"宇\", \"策\", \"瑨\", \"炎\", \"∶\", \"蘑\", \"孰\", \"碟\", \"编\", \"蒜\", \"徨\", \"粕\", \"格\", \"篓\", \"灵\", \"蹈\", \"愈\", \"猡\", \"ㄓ\", \"巩\", \"虑\", \"个\", \"棘\", \"缪\", \"咏\", \"没\", \"贷\", \"舅\", \"悔\", \"厥\", \"船\", \"石\", \"弈\", \"帜\", \"低\", \"动\", \"奸\", \"相\", \"狗\", \"左\", \"胧\", \"骅\", \"盾\", \"艰\", \"×\", \"呜\", \"浞\", \"咆\", \"矛\", \"晖\", \"熹\", \"驶\", \"敢\", \"夥\", \"转\", \"乔\", \"宠\", \"习\", \"寞\", \"桩\", \"驿\", \"积\", \"癌\", \"都\", \"泛\", \"奈\", \"喧\", \"夯\", \"寅\", \"茎\", \"茸\", \"脾\", \"踌\", \"捏\", \"翘\", \"鞭\", \"卡\", \"漏\", \"烈\", \"媲\", \"剖\", \"古\", \"广\", \"■\", \"磨\", \"郑\", \"赛\", \"锒\", \"艾\", \"忙\", \"弥\", \"墨\", \"嗔\", \"监\", \"贺\", \"哼\", \"叹\", \"梧\", \"晃\", \"桑\", \"摩\", \"膊\", \"辅\", \"慈\", \"滇\", \"崔\", \"弘\", \"挫\", \"饷\", \"英\", \"钊\", \"倘\", \"勉\", \"呃\", \"孪\", \"衅\", \"烃\", \"胆\", \"精\", \"淞\", \"坎\", \"造\", \"酷\", \"、\", \"扁\", \"雨\", \"触\", \"町\", \"溃\", \"糕\", \"搂\", \"蹄\", \"蜷\", \"涨\", \"棒\", \"凳\", \"居\", \"池\", \"蝗\", \"瞬\", \"义\", \"梳\", \"亨\", \"臃\", \"呢\", \"栏\", \"吼\", \"冉\", \"床\", \"茁\", \"恶\", \"硅\", \"笆\", \"援\", \"媚\", \"综\", \"俯\", \"讷\", \"滨\", \"净\", \"秤\", \"直\", \"阴\", \"谦\", \"棣\", \"弓\", \"后\", \"蠢\", \"锐\", \"正\", \"替\", \"规\", \"葵\", \"语\", \"奋\", \"鳌\", \"妙\", \"爸\", \"暂\", \"毅\", \"薄\", \"描\", \"椅\", \"蚂\", \"装\", \"劫\", \"報\", \"恼\", \"鸡\", \"僵\", \"觅\", \"磋\", \"钓\", \"老\", \"​\", \"喱\", \"窟\", \"诺\", \"供\", \"感\", \"亚\", \"宵\", \"苗\", \"喻\", \"让\", \"徒\", \"骄\", \"枯\", \"撼\", \"喆\", \"赂\", \"兰\", \"夹\", \"街\", \"麽\", \"猛\", \"纵\", \"铮\", \"涝\", \"邋\", \"烫\", \"忐\", \"授\", \"⑴\", \"樊\", \"鑫\", \"收\", \"飕\", \"寓\", \"火\", \"怔\", \"酸\", \"采\", \"遛\", \"季\", \"况\", \"警\", \"嬉\", \"组\", \"货\", \"慎\", \"纠\", \"敌\", \"玳\", \"胡\", \"够\", \"织\", \"俭\", \"廖\", \"彼\", \"土\", \"惧\", \"妤\", \"俗\", \"撤\", \"寿\", \"价\", \"哎\", \"〃\", \"骑\", \"钱\", \"看\", \"(\", \"指\", \"能\", \"沧\", \"村\", \"淖\", \"呻\", \"常\", \"皈\", \"喝\", \"吕\", \"亥\", \"拍\", \"权\", \"涸\", \"坤\", \"万\", \"翱\", \"茱\", \"愿\", \" \", \"檀\", \"血\", \"後\", \"肪\", \"奴\", \"戮\", \"涯\", \"汹\", \"發\", \"氰\", \"必\", \"均\", \"无\", \"食\", \"摒\", \"署\", \"辨\", \"湮\", \"摘\", \"妊\", \"─\", \"跋\", \"贮\", \"煽\", \"路\", \"鹏\", \"鄙\", \"兮\", \"宽\", \"言\", \"带\", \"访\", \"踱\", \"峨\", \"茄\", \"仕\", \"庄\", \"急\", \"浆\", \"舶\", \"桓\", \"进\", \"循\", \"稳\", \"劈\", \"普\", \"侯\", \"颐\", \"边\", \"肥\", \"陶\", \"婴\", \"兆\", \"御\", \"辩\", \"朔\", \"柠\", \"乖\", \"长\", \"韧\", \"哭\", \"钮\", \"谅\", \"逍\", \"酥\", \"虏\", \"豫\", \"淮\", \"栓\", \"侃\", \"尚\", \"囚\", \"蚌\", \"糟\", \"议\", \"扯\", \"苦\", \"嘿\", \"恭\", \"挨\", \"澈\", \"夸\", \"埠\", \"抉\", \"壓\", \"熔\", \"鹜\", \"{\", \"疹\", \"评\", \"好\", \"木\", \"嵌\", \"菊\", \"痛\", \"拢\", \"敖\", \"择\", \"勇\", \"琶\", \"温\", \"敞\", \"脐\", \"罹\", \"社\", \"岁\", \"战\", \"但\", \"只\", \"沂\", \"忑\", \"襄\", \"临\", \"梅\", \"色\", \"咚\", \"桐\", \"僧\", \"痒\", \"虹\", \"想\", \"询\", \"电\", \"音\", \"缴\", \"图\", \"比\", \"懈\", \"伪\", \"类\", \"至\", \"窒\", \"夫\", \"鼓\", \"舰\", \"诫\", \"伉\", \"亭\", \"曾\", \"揉\", \"茂\", \"皙\", \"旷\", \"突\", \"丫\", \"准\", \"肆\", \"拦\", \"是\", \"狮\", \"滓\", \"棠\", \"腱\", \"襟\", \"唆\", \"虞\", \"斗\", \"该\", \"妻\", \"满\", \"命\", \"誓\", \"掳\", \"内\", \"缭\", \"猴\", \"淀\", \"畔\", \"徊\", \"绸\", \"疫\", \"瑥\", \"探\", \"丝\", \"镶\", \"镕\", \"逢\", \"趴\", \"坝\", \"馅\", \"也\", \"蚀\", \"狩\", \"歌\", \"啪\", \"聂\", \"演\", \"析\", \"骚\", \"谈\", \"沓\", \"蜕\", \"病\", \"胰\", \"蚁\", \"婺\", \"蝇\", \"甸\", \"矿\", \"吾\", \"裘\", \"摇\", \"悍\", \"槿\", \"喂\", \"浊\", \"墟\", \"祉\", \"霓\", \"浪\", \"抗\", \"绷\", \"隙\", \"前\", \"唉\", \"剔\", \"曹\", \"》\", \"缺\", \"唤\", \"涂\", \"⒃\", \"伯\", \"式\", \"奚\", \"稚\", \"碗\", \"桃\", \"妄\", \"磊\", \"板\", \"慷\", \"群\", \"财\", \"混\", \"嘭\", \"i\", \"韦\", \"染\", \"穆\", \"淹\", \"葡\", \"朱\", \"叛\", \"保\", \"董\", \"瞄\", \"箍\", \"端\", \"粘\", \"袋\", \"萼\", \"澳\", \"婪\", \"启\", \"刺\", \"胃\", \"梗\", \"灑\", \"锦\", \"武\", \"固\", \"玄\", \"禾\", \"材\", \"斜\", \"踊\", \"籍\", \"拉\", \"弛\", \"播\", \"猎\", \"搀\", \"榷\", \"程\", \"禁\", \"允\", \"射\", \"坛\", \"槃\", \"缮\", \"郎\", \"殷\", \"瘙\", \"漆\", \"祭\", \"號\", \"惠\", \"据\", \"憾\", \"矫\", \"沁\", \"钵\", \"遭\", \"还\", \"嗅\", \"瓢\", \"褂\", \"浅\", \"宗\", \"吁\", \"艘\", \"砌\", \"您\", \"肴\", \"抡\", \"鹿\", \"豪\", \"捕\", \"咖\", \"薯\", \"郡\", \"逆\", \"日\", \"传\", \"吹\", \"寺\", \"贸\", \"歇\", \"颜\", \"归\", \"秆\", \"江\", \"礁\", \"惶\", \"勾\", \"侨\", \"惫\", \"甚\", \"沮\", \"ě\", \"莫\", \"美\", \"婚\", \"迭\", \"鹑\", \"竺\", \"斑\", \"慕\", \"枕\", \"柬\", \"携\", \"企\", \"爹\", \"孱\", \"腑\", \"戈\", \"协\", \"梨\", \"梯\", \"跷\", \"蜡\", \"柿\", \"吵\", \"盏\", \"蒿\", \"筋\", \"情\", \"遑\", \"典\", \"此\", \"良\", \"宜\", \"馈\", \"若\", \"误\", \"颓\", \"阅\", \"谚\", \"关\", \"耿\", \"迎\", \"壁\", \"坪\", \"遣\", \"挡\", \"华\", \"砂\", \"闫\", \"打\", \"肖\", \"专\", \"盐\", \"纳\", \"噪\", \"汰\", \"艇\", \"屄\", \"烯\", \"俚\", \"拭\", \"翔\", \"模\", \"全\", \"绩\", \"②\", \"额\", \"铭\", \"隶\", \"叔\", \"撩\", \"仆\", \"橱\", \"時\", \"楠\", \"省\", \"昂\", \"辣\", \"筹\", \"纸\", \"订\", \"扩\", \"瘫\", \"绿\", \"慧\", \"⒂\", \"廓\", \"殊\", \"酬\", \"曝\", \"鸣\", \"焯\", \"哈\", \"骗\", \"郁\", \"疆\", \"厉\", \"寡\", \"イ\", \"冷\", \"脏\", \"缅\", \"芯\", \"予\", \"窦\", \"卦\", \"蚤\", \"攫\", \"总\", \"挪\", \"揪\", \"赐\", \"傥\", \"罐\", \"吗\", \"熊\", \"持\", \"鲸\", \"僻\", \"铺\", \"圾\", \"嗪\", \"究\", \"乞\", \"娃\", \"踝\", \"屿\", \"戛\", \"殴\", \"化\", \"候\", \"贞\", \"走\", \"泸\", \"吞\", \"熏\", \"宫\", \"蘸\", \"/\", \"驻\", \"损\", \"滕\", \"雁\", \"父\", \"掉\", \"期\", \"哦\", \"发\", \"寒\", \"污\", \"愁\", \"凋\", \"淑\", \"次\", \"[\", \"簧\", \"拥\", \"海\", \"岔\", \"纨\", \"颊\", \"咙\", \"匕\", \"大\", \"衡\", \"闺\", \"诙\", \"取\", \"绥\", \"碌\", \"欣\", \"更\", \"赶\", \"灼\", \"祝\", \"档\", \"盘\", \"淄\", \"\\u0007\", \"刨\", \"吻\", \"芮\", \"沙\", \"鳃\", \"荐\", \"展\", \"侄\", \"旗\", \"滥\", \"寇\", \"变\", \"卜\", \"拧\", \"辖\", \"浮\", \"撸\", \"缈\", \"岳\", \"]\", \"遏\", \"淆\", \"砖\", \"塔\", \"哄\", \"沦\", \"琢\", \"醉\", \"荏\", \"刻\", \"敏\", \"片\", \"胞\", \"夭\", \"阮\", \"晗\", \"毙\", \"烁\", \"拾\", \"厝\", \"性\", \"续\", \"炬\", \"饱\", \"定\", \"甫\", \"科\", \"给\", \"冬\", \"舱\", \"狙\", \"穴\", \"称\", \"扭\", \"密\", \"仿\", \"握\", \"疚\", \"粗\", \"分\", \"泼\", \"横\", \"員\", \"举\", \"错\", \"蹿\", \"抚\", \"甘\", \"並\", \"遐\", \"仪\", \"沟\", \"暗\", \"晋\", \"掺\", \"坐\", \"卓\", \"莱\", \"肾\", \"滩\", \"莹\", \"婷\", \"腕\", \"岱\", \"并\", \"嫉\", \"惑\", \"榭\", \"猬\", \"瑕\", \"仰\", \"4\", \"势\", \"寸\", \"恕\", \"伺\", \"元\", \"韪\", \"娑\", \"换\", \"轼\", \"瞅\", \"奂\", \"個\", \"逻\", \"鸽\", \"畏\", \"盆\", \"翌\", \"闵\", \"坞\", \"繁\", \"峙\", \"垛\", \"姊\", \"臻\", \"掘\", \"祸\", \"帮\", \"淫\", \"掷\", \"驭\", \"案\", \"着\", \"敲\", \"霾\", \"h\", \"双\", \"轶\", \"肠\", \"妍\", \"唏\", \"京\", \"逸\", \"听\", \"檐\", \"隘\", \"啊\", \"恍\", \"间\", \"莞\", \"荤\", \"赫\", \"肌\", \"阶\", \"滴\", \"迩\", \"印\", \"○\", \"篝\", \"扫\", \"冒\", \"毗\", \"薪\", \"缠\", \"讽\", \"诞\", \"璇\", \"宾\", \"啐\", \"郭\", \"心\", \"腹\", \"咒\", \"饲\", \"胖\", \"璎\", \"榨\", \"舔\", \"鹕\", \"憬\", \"婿\", \"楚\", \"越\", \"詹\", \"橙\", \"岩\", \"资\", \"烷\", \"钢\", \"谊\", \"郅\", \"紫\", \"猩\", \"沪\", \"镍\", \"切\", \"蔡\", \"钰\", \"倩\", \"像\", \"贯\", \"姐\", \"肛\", \"▪\", \"憋\", \"阎\", \"注\", \"姬\", \"汉\", \"乾\", \"费\", \"运\", \"枝\", \"膏\", \"澡\", \"窄\", \"嗯\", \"芒\", \"粉\", \"啦\", \"殖\", \"复\", \"恋\", \"从\", \"搐\", \"琼\", \"寂\", \"静\", \"连\", \"狰\", \"咧\", \"帐\", \"藉\", \"屌\", \"闷\", \"痹\", \"僚\", \"技\", \"渔\", \"畿\", \"顾\", \"腐\", \"ソ\", \"虾\", \"霏\", \"酌\", \"仓\", \"岭\", \"缜\", \"绛\", \"〕\", \"颗\", \"拿\", \"月\", \"奥\", \"章\", \"滔\", \"骂\", \"休\", \"蕴\", \"萄\", \"佩\", \"魂\", \"舀\", \"惰\", \"境\", \"ノ\", \"高\", \"晦\", \"阁\", \"惭\", \"随\", \"抓\", \"浑\", \"礴\", \"捺\", \"简\", \"孟\", \"匮\", \"ト\", \"奖\", \"加\", \"黛\", \"态\", \"谨\", \"哨\", \"汶\", \"波\", \"创\", \"昨\", \"震\", \"患\", \"捅\", \"已\", \"璧\", \"尉\", \"磁\", \"顷\", \"鲨\", \"右\", \"灾\", \"碾\", \"桦\", \"管\", \"匀\", \"顽\", \"劣\", \"·\", \"艳\", \"锣\", \"庶\", \"浸\", \"献\", \"撇\", \"庞\", \"宋\", \"譬\", \"吠\", \"脖\", \"逃\", \"顶\", \"申\", \"君\", \"铎\", \"忡\", \"赚\", \"阳\", \"师\", \"狠\", \"拓\", \"萎\", \"薰\", \"菩\", \"使\", \"雷\", \"迦\", \"曰\", \"应\", \"氯\", \"赁\", \"招\", \"席\", \"泡\", \"搭\", \"锈\", \"拔\", \"馏\", \"攘\", \"韫\", \"宴\", \"啃\", \"疙\", \"娩\", \"筑\", \"恐\", \"盟\", \"斤\", \"排\", \"凌\", \"焉\", \"寐\", \"絮\", \"绚\", \"鹉\", \"券\", \"遇\", \"湛\", \"莉\", \"妒\", \"历\", \"侠\", \"缕\", \"趣\", \"颁\", \"佝\", \"焕\", \"炝\", \"局\", \"所\", \"棕\", \"仙\", \"莅\", \"锢\", \"艋\", \"奇\", \"o\", \"彤\", \"稣\", \"弩\", \"死\", \"沏\", \"整\", \"旨\", \"娶\", \"买\", \"田\", \"谆\", \"侦\", \"瑟\", \"忍\", \"鸿\", \"潢\", \"娥\", \"倡\", \"航\", \"跚\", \"瑑\", \"团\", \"慢\", \"※\", \"佳\", \"蹲\", \"葛\", \"犷\", \"般\", \"拱\", \"你\", \"讯\", \"尿\", \"尼\", \"段\", \"裁\", \"答\", \"杯\", \"试\", \"睬\", \"嗤\", \"废\", \"雕\", \"撑\", \"养\", \"缘\", \"吸\", \"亏\", \"奉\", \"野\", \"胜\", \"诬\", \"斛\", \"邱\", \"韬\", \"犰\", \"娠\", \"烙\", \"绰\", \"苏\", \"e\", \"昭\", \"嫖\", \"最\", \"寨\", \"鲍\", \"歩\", \"饿\", \"斥\", \"柏\", \"贩\", \"捆\", \"太\", \"弄\", \"富\", \"康\", \"魅\", \"吟\", \"昌\", \"嗦\", \"烊\", \"痪\", \"罔\", \"捞\", \"煞\", \"获\", \"呼\", \"隐\", \"倜\", \"闲\", \"丛\", \"旬\", \"焊\", \"菱\", \"缆\", \"烹\", \"输\", \"』\", \"伙\", \"联\", \"勺\", \"丈\", \"弱\", \"蒋\", \"坡\", \"傲\", \":\", \"肓\", \"钞\", \"悬\", \"掬\", \"幽\", \"驾\", \"那\", \"绵\", \"签\", \"穗\", \"手\", \"溉\", \"摹\", \"拆\", \"瞪\", \"世\", \"薛\", \"硫\", \"绕\", \"衿\", \"些\", \"储\", \"巾\", \"罢\", \"益\", \"!\", \"啜\", \"人\", \"垫\", \"粽\", \"网\", \"篢\", \"慑\", \"丰\", \"绎\", \"忽\", \"暴\", \"微\", \"擅\", \"抨\", \"叫\", \"株\", \"丸\", \"幢\", \"蝶\", \"劳\", \"条\", \"↑\", \"拗\", \"汝\", \"岖\", \"逶\", \"娟\", \"蒸\", \"粮\", \"奠\", \"紊\", \"绝\", \"璜\", \"羁\", \"士\", \"哇\", \"藕\", \"渤\", \"卖\", \"封\", \"濮\", \"堡\", \"橡\", \"胺\", \"啸\", \"饭\", \"徳\", \"蜿\", \"玮\", \"埔\", \"溅\", \"诡\", \"深\", \"便\", \"碍\", \"渲\", \"『\", \"膜\", \"邂\", \"巧\", \"肩\", \"馄\", \"善\", \"醒\", \"彦\", \"腺\", \"汲\", \"噶\", \"涮\", \"餐\", \"秃\", \"住\", \"挖\", \"花\", \"吨\", \"妨\", \"泣\", \"拜\", \"堰\", \"妃\", \"镇\", \"峻\", \"事\", \"眯\", \"晨\", \"宿\", \"彭\", \"领\", \"阻\", \"许\", \"峡\", \"素\", \"虱\", \"穷\", \"唾\", \"赤\", \"渍\", \"按\", \"晤\", \"秸\", \"邢\", \"抄\", \"⑶\", \"吝\", \"廷\", \"鞋\", \"挝\", \"蓉\", \"猫\", \"彷\", \"伟\", \"圭\", \"登\", \"键\", \"消\", \"泽\", \"照\", \"实\", \"湃\", \"籽\", \"烟\", \"懒\", \"汁\", \"咋\", \"面\", \"主\", \"酪\", \"柴\", \"往\", \"乡\", \"详\", \"功\", \"淇\", \"逼\", \"柔\", \"讼\", \"牢\", \"仗\", \"荒\", \"筝\", \"烤\", \"宰\", \"藐\", \"中\", \"措\", \"〞\", \"龇\", \"敝\", \"尘\", \"偌\", \"里\", \"搜\", \"芙\", \"厚\", \"★\", \"孩\", \"请\", \"责\", \"娱\", \"仔\", \"钟\", \"槐\", \"郊\", \"卤\", \"滤\", \"用\", \"星\", \"袁\", \"偻\", \"瓶\", \"饵\", \"易\", \"慌\", \"託\", \"菁\", \"真\", \"鳞\", \"细\", \"速\", \"既\", \"齐\", \"港\", \"寄\", \"熨\", \"彰\", \"髻\", \"纂\", \"笨\", \"镐\", \"孙\", \"焰\", \"酱\", \"羊\", \"六\", \"刃\", \"谑\", \"二\", \"邸\", \"膳\", \"对\", \"目\", \"瑞\", \"测\", \"溘\", \"压\", \"果\", \"景\", \"尺\", \"脉\", \"哲\", \"瞒\", \"擂\", \"何\", \"遮\", \"ό\", \"叮\", \"狡\", \"塞\", \"垄\", \"浚\", \"茧\", \"呛\", \"迤\", \"而\", \"苑\", \"⑤\", \"醍\", \"堆\", \"秩\", \"扇\", \"棺\", \"稿\", \"佣\", \"瓜\", \"鹭\", \"儒\", \"框\", \"塌\", \"践\", \"赎\", \"彩\", \"轿\", \"晾\", \"时\", \"递\", \"贪\", \"在\", \"搞\", \"⑥\", \"裤\", \"拎\", \"霈\", \"频\", \"飚\", \"辜\", \"屠\", \"痘\", \"榴\", \"唷\", \"惜\", \"蕾\", \"鳗\", \"杂\", \"嘘\", \"逮\", \"鉴\", \"红\", \"逅\", \"螂\", \"怜\", \"呷\", \"桅\", \"惚\", \"娅\", \"粒\", \"裹\", \"熬\", \"皮\", \"⒋\", \"掌\", \"飓\", \"饮\", \"凑\", \"碴\", \"冥\", \"嗓\", \"內\", \"芦\", \"故\", \"辕\", \"视\", \"薩\", \"爬\", \"下\", \"马\", \"裂\", \"瀛\", \"皑\", \"神\", \"崩\", \"醋\", \"哥\", \"挥\", \"萃\", \"嘀\", \"鲁\", \"ヨ\", \"尤\", \"罗\", \"咸\", \"谭\", \"蛙\", \"谎\", \"烛\", \"串\", \"雍\", \"其\"]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/ar": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 2813283, - "_n_tokens": 615514, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/de": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1814876, - "_n_tokens": 499766, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/en": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1124813, - "_n_tokens": 254944, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/es": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1664455, - "_n_tokens": 433289, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/fa": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 2054052, - "_n_tokens": 387448, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/fr": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1540504, - "_n_tokens": 412146, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/ja": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1774770, - "_n_tokens": 414715, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/ko": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 1524839, - "_n_tokens": 412595, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/zh-Hans": { - "tokenizer": "llama3", - "organization": "Meta", - "vocab_size": 128256, - "_n_bytes": 2633047, - "_n_tokens": 747405, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "hfl/chinese-alpaca-lora-7b @ cc100/ar": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 2813283, - "_n_tokens": 1411469, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/de": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1814876, - "_n_tokens": 513706, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/en": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1124813, - "_n_tokens": 281471, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/es": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1664455, - "_n_tokens": 476720, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/fa": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 2054052, - "_n_tokens": 1140740, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/fr": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1540504, - "_n_tokens": 440299, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/ja": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1774770, - "_n_tokens": 604112, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/ko": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 1524839, - "_n_tokens": 903453, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-alpaca-lora-7b @ cc100/zh-Hans": { - "tokenizer": "chinese-alpaca-lora-7b", - "organization": "-", - "vocab_size": 49954, - "_n_bytes": 2633047, - "_n_tokens": 613993, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/ar": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/de": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1814876, - "_n_tokens": 527318, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/en": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/es": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/fa": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 2054052, - "_n_tokens": 1145078, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/fr": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/ja": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1774770, - "_n_tokens": 614367, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/ko": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 1524839, - "_n_tokens": 953427, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-2-7b @ cc100/zh-Hans": { - "tokenizer": "chinese-llama-2-7b", - "organization": "-", - "vocab_size": 55296, - "_n_bytes": 2633047, - "_n_tokens": 616545, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/ar": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 2813283, - "_n_tokens": 1411469, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/de": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1814876, - "_n_tokens": 513706, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/en": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1124813, - "_n_tokens": 281471, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/es": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1664455, - "_n_tokens": 476720, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/fa": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 2054052, - "_n_tokens": 1140740, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/fr": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1540504, - "_n_tokens": 440299, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/ja": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1774770, - "_n_tokens": 604112, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/ko": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 1524839, - "_n_tokens": 903453, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/chinese-llama-lora-7b @ cc100/zh-Hans": { - "tokenizer": "chinese-llama-lora-7b", - "organization": "-", - "vocab_size": 49953, - "_n_bytes": 2633047, - "_n_tokens": 613993, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hfl/llama-3-chinese-8b @ cc100/ar": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 2813283, - "_n_tokens": 614186, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/de": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1814876, - "_n_tokens": 499766, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/en": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1124813, - "_n_tokens": 254944, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/es": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1664455, - "_n_tokens": 433286, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/fa": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 2054052, - "_n_tokens": 384591, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/fr": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1540504, - "_n_tokens": 412141, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/ja": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1774770, - "_n_tokens": 414715, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/ko": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 1524839, - "_n_tokens": 412433, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "hfl/llama-3-chinese-8b @ cc100/zh-Hans": { - "tokenizer": "llama-3-chinese-8b", - "organization": "-", - "vocab_size": 128256, - "_n_bytes": 2633047, - "_n_tokens": 747405, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "hpcai-tech/grok-1 @ cc100/ar": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 2813283, - "_n_tokens": 1392088, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/de": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1814876, - "_n_tokens": 505220, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/en": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1124813, - "_n_tokens": 258048, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/es": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1664455, - "_n_tokens": 449392, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/fa": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 2054052, - "_n_tokens": 1073281, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/fr": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1540504, - "_n_tokens": 428298, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/ja": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1774770, - "_n_tokens": 497590, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/ko": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 1524839, - "_n_tokens": 1152005, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "hpcai-tech/grok-1 @ cc100/zh-Hans": { - "tokenizer": "grok-1", - "organization": "xAI", - "vocab_size": 131072, - "_n_bytes": 2633047, - "_n_tokens": 1414508, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/ar": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/de": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/en": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/es": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/fa": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/fr": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/ja": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/ko": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "huggyllama/llama-7b @ cc100/zh-Hans": { - "tokenizer": "llama", - "organization": "Meta", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm-chat-7b @ cc100/ar": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2813283, - "_n_tokens": 522046, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/de": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1814876, - "_n_tokens": 570489, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/en": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1124813, - "_n_tokens": 261293, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/es": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1664455, - "_n_tokens": 506572, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/fa": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2054052, - "_n_tokens": 630945, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/fr": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1540504, - "_n_tokens": 485045, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/ja": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1774770, - "_n_tokens": 438212, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/ko": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1524839, - "_n_tokens": 829609, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-chat-7b @ cc100/zh-Hans": { - "tokenizer": "internlm-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2633047, - "_n_tokens": 569109, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/ar": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2813283, - "_n_tokens": 522046, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/de": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1814876, - "_n_tokens": 570489, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/en": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1124813, - "_n_tokens": 261293, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/es": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1664455, - "_n_tokens": 506572, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/fa": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2054052, - "_n_tokens": 630945, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/fr": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1540504, - "_n_tokens": 485045, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/ja": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1774770, - "_n_tokens": 438212, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/ko": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 1524839, - "_n_tokens": 829609, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "internlm/internlm-xcomposer-7b @ cc100/zh-Hans": { - "tokenizer": "internlm-xcomposer-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 103168, - "_n_bytes": 2633047, - "_n_tokens": 569109, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "internlm/internlm2-chat-7b @ cc100/ar": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2813283, - "_n_tokens": 1625378, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/de": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1814876, - "_n_tokens": 573917, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/en": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1124813, - "_n_tokens": 261583, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/es": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1664455, - "_n_tokens": 508871, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/fa": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2054052, - "_n_tokens": 1185032, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/fr": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1540504, - "_n_tokens": 486629, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/ja": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1774770, - "_n_tokens": 585803, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/ko": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1524839, - "_n_tokens": 998524, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-chat-7b @ cc100/zh-Hans": { - "tokenizer": "internlm2-chat-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2633047, - "_n_tokens": 569976, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/ar": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2813283, - "_n_tokens": 1625378, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/de": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1814876, - "_n_tokens": 573917, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/en": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1124813, - "_n_tokens": 261583, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/es": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1664455, - "_n_tokens": 508871, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/fa": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2054052, - "_n_tokens": 1185032, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/fr": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1540504, - "_n_tokens": 486629, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/ja": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1774770, - "_n_tokens": 585803, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/ko": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 1524839, - "_n_tokens": 998524, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "internlm/internlm2-math-7b @ cc100/zh-Hans": { - "tokenizer": "internlm2-math-7b", - "organization": "Shanghai AI Lab", - "vocab_size": 92544, - "_n_bytes": 2633047, - "_n_tokens": 569976, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/ar": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 2813283, - "_n_tokens": 822267, - "_n_chars": 1560987, - "_n_oov_chars": 1248838, - "oov_ratio": 0.8000310060237529, - "_oov_charset": "[\"½\", \"​\", \"ً\", \"ۗ\", \"█\", \"ظ\", \"ح\", \"ۤ\", \"ل\", \"μ\", \"↩\", \"ک\", \"ی\", \"ج\", \"ة\", \"ب\", \"ع\", \"ذ\", \"″\", \"٠\", \"﴾\", \"د\", \"ض\", \"۸\", \"‬\", \"ُ\", \"▫\", \"ز\", \"٤\", \"٥\", \"ق\", \"٪\", \"…\", \"و\", \"ي\", \"χ\", \"ﻹ\", \"ٱ\", \"أ\", \"آ\", \"خ\", \"😊\", \"α\", \"ή\", \"😀\", \"�\", \"۰\", \"‌\", \"٣\", \"~\", \"َ\", \"⤴\", \"٩\", \"ٹ\", \"ۖ\", \"س\", \"ۚ\", \"ْ\", \"ί\", \"ن\", \"🙂\", \"\", \"Х\", \"،\", \"ك\", \"¡\", \"ﷺ\", \"ھ\", \"ء\", \"٦\", \"ر\", \"×\", \"ؤ\", \"پ\", \"٢\", \"ا\", \"▪\", \"ِ\", \"‹\", \"←\", \"ﻻ\", \"‎\", \"٧\", \"♥\", \"م\", \"ف\", \"ّ\", \"τ\", \"چ\", \"ه\", \"ث\", \"؟\", \"غ\", \"ﻷ\", \"؛\", \"۷\", \"ρ\", \"﴿\", \"إ\", \"©\", \"ت\", \"ـ\", \"η\", \"›\", \"
\", \"ش\", \"ٌ\", \"ٍ\", \"ى\", \"٨\", \"ص\", \"‏\", \"ٰ\", \"١\", \"ئ\", \"κ\", \"۲\", \"ط\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/de": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1814876, - "_n_tokens": 726989, - "_n_chars": 1784021, - "_n_oov_chars": 1931, - "oov_ratio": 0.0010823863620439446, - "_oov_charset": "[\"²\", \"½\", \"​\", \"ú\", \"★\", \"↩\", \"œ\", \"😈\", \"Ä\", \"¬\", \"🙁\", \"ι\", \"☺\", \"Ã\", \" \", \"…\", \"ε\", \"u\", \"Á\", \"α\", \"ï\", \"😀\", \"�\", \"♡\", \"§\", \"İ\", \"Ö\", \"~\", \"ė\", \"¿\", \"å\", \"ć\", \"≠\", \"č\", \"ø\", \"♦\", \"ί\", \"–\", \"🙂\", \"̈\", \"ā\", \"😃\", \"“\", \"¹\", \"↑\", \"😦\", \"😉\", \"´\", \"‹\", \"‎\", \"♥\", \"‽\", \"¶\", \"‐\", \"❤\", \"τ\", \"ớ\", \"🙄\", \"Ø\", \"😢\", \"„\", \"→\", \"ς\", \"ρ\", \"¤\", \"©\", \"¼\", \"š\", \"›\", \"\", \"−\", \"·\", \"™\", \"Ÿ\", \"ń\", \"😆\", \"➔\", \"‚\", \"😂\", \"▼\", \"ư\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/es": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1664455, - "_n_tokens": 960105, - "_n_chars": 1630297, - "_n_oov_chars": 11584, - "oov_ratio": 0.007105453791548411, - "_oov_charset": "[\"²\", \"ª\", \"✪\", \"Ó\", \"Í\", \"🙂\", \"✖\", \"ú\", \"„\", \"→\", \"í\", \"\", \"Á\", \"Ñ\", \"ñ\", \"¡\", \"º\", \"©\", \"😀\", \"Ú\", \"’\", \"■\", \"×\", \"🙁\", \"·\", \"😦\", \"″\", \"ý\", \"😉\", \"´\", \"←\", \"―\", \"¿\", \"ò\", \"✓\", \"✔\", \"▷\", \"❤\", \"ø\", \"👍\", \"М\", \"️\", \"‘\", \"👏\", \"…\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/fa": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 2054052, - "_n_tokens": 702443, - "_n_chars": 1145876, - "_n_oov_chars": 898585, - "oov_ratio": 0.7841904359634027, - "_oov_charset": "[\"✿\", \"​\", \"ً\", \"◄\", \"ظ\", \"ح\", \"★\", \"ل\", \"ﮧ\", \"ک\", \"ּ\", \"ی\", \"ج\", \"ة\", \"ب\", \"ع\", \"ذ\", \"٠\", \"د\", \"ض\", \"۸\", \"۱\", \"ُ\", \"ز\", \"٤\", \"٥\", \"ٴ\", \"ق\", \"گ\", \"٪\", \"…\", \"ي\", \"و\", \"أ\", \"آ\", \"خ\", \"ژ\", \"�\", \"۰\", \"‌\", \"۵\", \"٣\", \"َ\", \"ٔ\", \"٩\", \"س\", \"ْ\", \"️\", \"ن\", \"ڪ\", \"\", \"●\", \"‍\", \"،\", \"٫\", \"ك\", \"۶\", \"ט\", \"ھ\", \"ء\", \"ر\", \"پ\", \"×\", \"ؤ\", \"ۀ\", \"٢\", \"ا\", \"ِ\", \"‎\", \"٧\", \"♥\", \"م\", \"ف\", \"ّ\", \"❤\", \"ه\", \"چ\", \"ث\", \"؟\", \"غ\", \"ے\", \"؛\", \"۔\", \"۷\", \"۹\", \"۳\", \"إ\", \"©\", \"ت\", \"ـ\", \"ב\", \"›\", \"▐\", \"ش\", \"ۆ\", \"ٌ\", \"·\", \"ٍ\", \"ى\", \"٨\", \"ص\", \"‏\", \"١\", \"ئ\", \"۲\", \"۴\", \"ط\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/fr": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1540504, - "_n_tokens": 707675, - "_n_chars": 1484970, - "_n_oov_chars": 1363, - "oov_ratio": 0.0009178636605453309, - "_oov_charset": "[\"²\", \"🙂\", \"ë\", \"🤔\", \"ã\", \"★\", \"í\", \"℃\", \"♕\", \"…\", \"♠\", \"Ê\", \"À\", \"Ô\", \"µ\", \"œ\", \"̧\", \"ï\", \"ğ\", \"😀\", \"�\", \"§\", \"’\", \"·\", \"™\", \"~\", \"″\", \"😉\", \"´\", \"È\", \"←\", \"―\", \"́\", \"̂\", \"‐\", \"Ç\", \"❤\", \"…\", \"Â\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/ja": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1774770, - "_n_tokens": 43915, - "_n_chars": 603065, - "_n_oov_chars": 585664, - "oov_ratio": 0.9711457305597241, - "_oov_charset": "[\"T\", \"申\", \"釘\", \"曇\", \"婿\", \"博\", \"力\", \"委\", \"¥\", \"Q\", \"疎\", \"叉\", \"滓\", \"獄\", \"1\", \"液\", \"福\", \"楊\", \"祇\", \"穂\", \"全\", \"似\", \"験\", \"墳\", \"V\", \"ゴ\", \"牲\", \"装\", \"核\", \"k\", \"ぬ\", \"賛\", \"迎\", \"記\", \"猟\", \"庫\", \"冷\", \"娯\", \"栄\", \"リ\", \"□\", \"法\", \"呆\", \"麗\", \"袖\", \"憂\", \"整\", \"髪\", \"炒\", \"艦\", \"ギ\", \"舐\", \"藻\", \"抑\", \"爆\", \"倭\", \"懸\", \"泡\", \"的\", \"秒\", \"至\", \"嫉\", \"聾\", \"桟\", \"逮\", \"封\", \"排\", \"寺\", \"圏\", \"情\", \"嗅\", \"泌\", \"匙\", \"む\", \"涯\", \"幽\", \"迷\", \"殊\", \"慰\", \"坐\", \"罰\", \"微\", \"差\", \"傲\", \"棄\", \"ぎ\", \"ネ\", \"耶\", \"😌\", \"ジ\", \"曲\", \"燃\", \"快\", \"託\", \"ユ\", \"撫\", \"坂\", \"惧\", \"喪\", \"嚥\", \"寸\", \"衆\", \"塗\", \"澤\", \"欺\", \"会\", \"❤\", \"猛\", \"看\", \"局\", \"僭\", \"矛\", \"徊\", \"逢\", \"豚\", \"羞\", \"帯\", \"生\", \"把\", \"肉\", \"嬢\", \"出\", \"尋\", \"躊\", \"う\", \"先\", \"劇\", \"与\", \"遣\", \"拍\", \"面\", \"ゼ\", \"埋\", \"[\", \"托\", \"詩\", \"巧\", \"延\", \"杯\", \"恥\", \"捨\", \"摘\", \"能\", \"寿\", \"抜\", \"よ\", \"侍\", \"盲\", \"給\", \"焼\", \"捏\", \"或\", \"借\", \"堅\", \"垢\", \"溜\", \"洋\", \"柱\", \"伺\", \"\", \"洪\", \"賀\", \"章\", \"辣\", \"手\", \"隕\", \"泣\", \"者\", \"営\", \"典\", \"胚\", \"県\", \"倉\", \"豪\", \"懲\", \"注\", \"因\", \"擢\", \"剥\", \"甘\", \"選\", \"喝\", \"m\", \"顧\", \"痺\", \"齢\", \"孤\", \"等\", \"享\", \"淳\", \"硝\", \"大\", \"従\", \"歴\", \"و\", \"眩\", \"ε\", \"丘\", \"束\", \"男\", \"摯\", \"璧\", \"罵\", \"良\", \"釣\", \"絡\", \"絞\", \"寝\", \"ゝ\", \"河\", \"敬\", \"庁\", \"⌒\", \"隅\", \"乙\", \"女\", \"彌\", \"顎\", \"史\", \"範\", \"羅\", \"紹\", \"天\", \"焦\", \"誉\", \"対\", \"答\", \"罪\", \"寓\", \"敗\", \"風\", \"捧\", \"腱\", \"俄\", \"銭\", \"更\", \"消\", \"揃\", \"妹\", \"憑\", \"霧\", \"o\", \"祥\", \"匂\", \"峨\", \"弟\", \"品\", \"※\", \"峠\", \"猫\", \"徹\", \"窒\", \"揮\", \"隙\", \"夷\", \"専\", \"唯\", \"間\", \"欧\", \"F\", \"楓\", \"謎\", \"W\", \"ば\", \"再\", \"帆\", \"相\", \"短\", \"雄\", \"梁\", \"闘\", \"檀\", \"保\", \"要\", \"秋\", \"州\", \"脚\", \"覚\", \"房\", \"鱈\", \"隊\", \"ふ\", \"地\", \"下\", \"貰\", \"慣\", \"堡\", \"四\", \"富\", \"礁\", \"飾\", \"世\", \"毎\", \"湘\", \"余\", \"ガ\", \"糧\", \"座\", \"ブ\", \"雲\", \"魅\", \"椿\", \"i\", \"淹\", \"認\", \"幸\", \"−\", \"英\", \"我\", \"戸\", \"5\", \"雇\", \"墾\", \"媒\", \"讐\", \"妊\", \"頷\", \"殖\", \"纏\", \"睦\", \"餌\", \"脆\", \"吠\", \"除\", \"是\", \"採\", \"厳\", \"度\", \"尻\", \"宿\", \"d\", \"葉\", \"唆\", \"境\", \"カ\", \"ず\", \"霞\", \"凌\", \"邦\", \"陵\", \"丹\", \"七\", \"杓\", \"物\", \"ゥ\", \"幼\", \"媛\", \"急\", \"痕\", \"麦\", \"憤\", \"貸\", \".\", \"鍛\", \"丼\", \"去\", \"¥\", \"煩\", \"ア\", \"古\", \"街\", \"喉\", \"之\", \"巾\", \"熊\", \"該\", \"随\", \"話\", \"祠\", \"臨\", \"交\", \"莽\", \"S\", \"於\", \"干\", \"オ\", \"く\", \"痛\", \"起\", \"旺\", \"植\", \"募\", \"数\", \"ペ\", \"潟\", \"破\", \"膚\", \"淫\", \"惑\", \"暢\", \"げ\", \"畜\", \"媚\", \"恨\", \"綬\", \"魏\", \"幻\", \"奢\", \"高\", \"渡\", \"石\", \"彷\", \"区\", \"版\", \"獲\", \"小\", \"渦\", \"譚\", \"コ\", \"互\", \"績\", \"薩\", \"痩\", \"午\", \"潮\", \"勢\", \"翼\", \"値\", \"桃\", \"利\", \"あ\", \"島\", \"ズ\", \"ァ\", \"梨\", \"粉\", \"貫\", \"_\", \"塵\", \"咽\", \"身\", \"俵\", \"少\", \"音\", \"鬱\", \"森\", \"汲\", \"聖\", \"脈\", \"蓋\", \"嘆\", \"G\", \"渓\", \"泊\", \"姑\", \"喇\", \"後\", \"纒\", \"費\", \"違\", \"鞄\", \"俯\", \"網\", \"興\", \"回\", \"倍\", \"震\", \"灰\", \"飼\", \"▽\", \"印\", \"麓\", \"打\", \"D\", \"←\", \"る\", \"西\", \"威\", \"芳\", \"楚\", \"M\", \"現\", \"舟\", \"舎\", \"何\", \"文\", \"椅\", \"泉\", \"早\", \"絵\", \"浜\", \"積\", \"繰\", \"応\", \"氷\", \"通\", \"遺\", \"す\", \"偽\", \"押\", \"傷\", \"習\", \"飯\", \"勇\", \"合\", \"3\", \"母\", \"灼\", \"裁\", \"́\", \"層\", \"填\", \"云\", \"R\", \"撃\", \"岬\", \"偏\", \"釜\", \"眼\", \"濡\", \"水\", \"妖\", \"中\", \"刊\", \"耳\", \"留\", \"杖\", \"厄\", \"半\", \"危\", \"慮\", \"平\", \"述\", \"明\", \"儲\", \"曽\", \"農\", \"怠\", \"技\", \"腑\", \"献\", \"月\", \"滋\", \"N\", \"斗\", \"視\", \"蹴\", \"噤\", \"疑\", \"彫\", \"腔\", \"💦\", \"八\", \"Z\", \"匠\", \"扉\", \"席\", \"虫\", \"毒\", \"搬\", \"解\", \"沿\", \"倫\", \"正\", \"些\", \"✨\", \"傑\", \"๑\", \"浄\", \"韓\", \"雷\", \"酸\", \"証\", \"肌\", \"場\", \"妻\", \"牙\", \"谷\", \"病\", \"砕\", \"線\", \"亡\", \"玄\", \"桂\", \"特\", \"み\", \"悔\", \"存\", \"○\", \"包\", \"び\", \"穴\", \"腫\", \"ね\", \"移\", \"類\", \"姥\", \"寮\", \"説\", \"ク\", \"雰\", \"推\", \"輸\", \"薬\", \"陽\", \"結\", \"副\", \"掴\", \"界\", \"但\", \"挑\", \"‥\", \"琴\", \"戯\", \"詰\", \"じ\", \"僅\", \"造\", \"係\", \"症\", \"垠\", \"功\", \"奥\", \"科\", \"-\", \"綜\", \"戻\", \"竹\", \"舞\", \"誇\", \"覗\", \"検\", \"居\", \"即\", \"れ\", \"縫\", \"個\", \"宋\", \"継\", \"理\", \"行\", \"励\", \"甥\", \"ゞ\", \"苑\", \"景\", \"嘩\", \"嫌\", \"コ\", \"巻\", \"e\", \"膿\", \"受\", \"著\", \"⇔\", \"光\", \"浸\", \"宣\", \"ま\", \"C\", \"t\", \"疾\", \"蔓\", \"遥\", \"」\", \"点\", \"儀\", \"布\", \"播\", \"【\", \"闊\", \"背\", \"©\", \"字\", \"敵\", \"超\", \"停\", \"菓\", \"脳\", \"拠\", \"潰\", \"本\", \"礎\", \"稿\", \"寇\", \"召\", \"取\", \"躾\", \"稚\", \"熟\", \"眉\", \"閣\", \"歯\", \"凶\", \"遵\", \"髭\", \"K\", \"ゆ\", \"け\", \"乏\", \"喩\", \"f\", \"例\", \"嵌\", \"キ\", \"如\", \"笠\", \"襲\", \"守\", \"録\", \"橋\", \"譲\", \"枢\", \"悩\", \"轢\", \"套\", \"軟\", \"珪\", \"護\", \"宜\", \"蝶\", \"帽\", \"逐\", \"向\", \"渇\", \"億\", \"斡\", \"彦\", \"拳\", \"貪\", \"詫\", \"成\", \"融\", \"関\", \"郭\", \"血\", \"電\", \"鉱\", \"芝\", \"柄\", \"創\", \"Д\", \"攻\", \"悠\", \"潤\", \"監\", \"補\", \"刺\", \"府\", \"劣\", \"◇\", \"駆\", \"惣\", \"輪\", \"隼\", \"影\", \"退\", \"肪\", \"鋲\", \"露\", \"圧\", \"虹\", \"拙\", \"換\", \"附\", \"稲\", \"祝\", \"宏\", \"ω\", \"蓄\", \"窮\", \"捲\", \"肩\", \"糖\", \"意\", \"込\", \"辞\", \"勉\", \"締\", \"笑\", \"鉄\", \"題\", \"勘\", \"否\", \"裏\", \"▷\", \"育\", \"ト\", \"箇\", \"趨\", \"雑\", \"目\", \"甚\", \"却\", \"盗\", \"語\", \"婚\", \"側\", \"尾\", \"照\", \"縞\", \"凍\", \"漢\", \"挨\", \"武\", \"具\", \"寄\", \"菜\", \"崩\", \"贔\", \"訊\", \"班\", \"乾\", \"「\", \"鈍\", \"海\", \"〔\", \"藁\", \"途\", \"淵\", \"掌\", \"喚\", \"こ\", \"羽\", \"へ\", \"た\", \"太\", \"兆\", \"浪\", \"⑧\", \"散\", \"陶\", \"温\", \"茂\", \"遼\", \"℃\", \"愉\", \"寂\", \"終\", \"粒\", \"詐\", \"遠\", \"ド\", \"複\", \"峙\", \"宮\", \"戚\", \"了\", \"憧\", \"翌\", \"唄\", \"リ\", \"り\", \"刻\", \"暴\", \"序\", \"箱\", \"据\", \"華\", \"曜\", \"腐\", \"繁\", \"含\", \"n\", \"裾\", \"腎\", \"誤\", \"賭\", \"垂\", \"に\", \"鼓\", \"救\", \"I\", \"炎\", \"虐\", \"乗\", \"町\", \"刀\", \"航\", \"阿\", \"ノ\", \"盛\", \"嫁\", \"テ\", \"゙\", \"─\", \"仔\", \"兼\", \"偶\", \"か\", \"駕\", \"牛\", \"邸\", \"車\", \"軸\", \"珍\", \"滴\", \"拷\", \"壊\", \"堰\", \"メ\", \"戒\", \"嗜\", \"伏\", \"配\", \"拓\", \"縮\", \"掃\", \"冥\", \"体\", \"限\", \"直\", \"空\", \"周\", \"逸\", \"協\", \"廻\", \"漂\", \"親\", \"錬\", \"床\", \"遅\", \"ナ\", \"占\", \"膨\", \"穢\", \"も\", \"衿\", \"濃\", \"多\", \"諾\", \"票\", \"診\", \"凄\", \"鎌\", \"才\", \"躇\", \"揶\", \"だ\", \"冬\", \"允\", \"晩\", \"盤\", \"派\", \"完\", \"氏\", \"丈\", \"堤\", \"荻\", \"め\", \"培\", \"想\", \"池\", \"各\", \"種\", \"ォ\", \"墟\", \"供\", \"催\", \"窓\", \"拘\", \"付\", \"製\", \"院\", \"飢\", \"a\", \"煎\", \"擬\", \"聞\", \"堀\", \"練\", \"捜\", \"炭\", \"逼\", \"ざ\", \"崎\", \"ゥ\", \"︎\", \"Ⅹ\", \"痒\", \"奉\", \"撤\", \"壇\", \"型\", \"阪\", \"咳\", \"姜\", \"惜\", \"瀬\", \"柔\", \"索\", \"縦\", \"欝\", \"同\", \"』\", \"朗\", \"商\", \"昼\", \"遇\", \"週\", \"噛\", \"◎\", \"彩\", \"有\", \"臆\", \"候\", \"丿\", \"欣\", \"韮\", \"旧\", \"領\", \"覧\", \"続\", \"\\b\", \"斑\", \"架\", \"兎\", \"滅\", \"溢\", \"堂\", \"沖\", \"剣\", \"逃\", \"組\", \"穏\", \"極\", \"馳\", \"服\", \"楼\", \"グ\", \"聴\", \"球\", \"缶\", \"懇\", \"由\", \"普\", \"跨\", \"伐\", \"裸\", \"知\", \"癒\", \"昭\", \"吸\", \"困\", \"運\", \"憲\", \"扱\", \"せ\", \"ろ\", \"慈\", \"深\", \"ラ\", \"織\", \"信\", \"達\", \"故\", \"ぅ\", \"括\", \"棚\", \"狐\", \"標\", \"準\", \"憩\", \"謂\", \"城\", \"曹\", \"油\", \"制\", \"右\", \"》\", \"策\", \"怪\", \"旗\", \"貢\", \"撒\", \"需\", \"…\", \"盆\", \"連\", \"郡\", \"障\", \"⇒\", \"施\", \"鵜\", \"備\", \"カ\", \"路\", \"眺\", \"暑\", \"充\", \"截\", \"士\", \"嶋\", \"揉\", \"入\", \"波\", \"言\", \"越\", \"机\", \"〈\", \"心\", \"ヵ\", \"―\", \"枝\", \"侮\", \"ピ\", \"遊\", \"厨\", \"紋\", \"授\", \"友\", \"挫\", \"沼\", \"横\", \"夜\", \"①\", \"昧\", \"ャ\", \"執\", \"浩\", \"棒\", \"徘\", \" ̄\", \"煽\", \"し\", \"゙\", \"↓\", \"問\", \"『\", \"負\", \"〟\", \"克\", \"黄\", \"穀\", \"漑\", \"駐\", \"止\", \"密\", \"ィ\", \"掛\", \"銘\", \"朝\", \"灘\", \"‼\", \"詈\", \"箋\", \"様\", \"騰\", \"頑\", \"ア\", \"隆\", \"康\", \"尼\", \"射\", \"教\", \"叶\", \"X\", \"\", \"倒\", \"陳\", \"況\", \"田\", \"ヌ\", \"姓\", \"青\", \"健\", \"弊\", \"依\", \"暦\", \"来\", \"総\", \"ぞ\", \"仙\", \"ツ\", \"頭\", \"鐘\", \"昏\", \"六\", \"香\", \"潜\", \"枯\", \"讃\", \"糾\", \"符\", \"謄\", \"板\", \"て\", \"抵\", \"曖\", \"獣\", \"剤\", \"ぁ\", \"丁\", \"江\", \"巡\", \"議\", \"鈴\", \"恋\", \"b\", \"⑩\", \"嘗\", \"褒\", \"遙\", \"不\", \"イ\", \"鼻\", \"染\", \"葬\", \"仰\", \"尚\", \"H\", \"鋭\", \"竜\", \"擁\", \"室\", \"◯\", \"ー\", \"政\", \"管\", \"清\", \"雨\", \"桁\", \"殆\", \"昆\", \"討\", \"ベ\", \"量\", \"き\", \"呼\", \"綻\", \"川\", \"態\", \"べ\", \"順\", \"の\", \"息\", \"紅\", \"鉢\", \"外\", \"松\", \"忍\", \"羨\", \"逆\", \"揄\", \"啜\", \"パ\", \"徨\", \"緻\", \",\", \"狙\", \"条\", \"迅\", \"蘇\", \"緒\", \"歓\", \"焙\", \"軌\", \"弓\", \"隔\", \"豆\", \"ダ\", \"嵯\", \"萎\", \"勧\", \"嘲\", \"愕\", \"争\", \"騙\", \"怨\", \"亭\", \"壬\", \"梗\", \"�\", \"掬\", \"悍\", \"2\", \"胸\", \"膏\", \"材\", \"忠\", \"~\", \"訓\", \"減\", \"時\", \"苦\", \"追\", \"匡\", \"誕\", \"拡\", \"論\", \"々\", \"疲\", \"秘\", \"腺\", \"絶\", \"唐\", \"木\", \"共\", \"僕\", \"暖\", \"漫\", \"恒\", \"宛\", \"輝\", \"宇\", \"揺\", \"霊\", \"誓\", \"端\", \"第\", \"ご\", \"改\", \"被\", \"攘\", \"駒\", \"殴\", \"ぴ\", \"⻑\", \"犯\", \"嵩\", \"輩\", \"価\", \"撲\", \"津\", \"貿\", \"喰\", \"淡\", \"蔵\", \"梯\", \"ほ\", \"と\", \"ム\", \"東\", \"わ\", \"ロ\", \"省\", \"衛\", \"懐\", \"囚\", \"ぃ\", \"犠\", \"幅\", \"捕\", \"✧\", \"激\", \"蒔\", \"寒\", \"壮\", \"晶\", \"孝\", \"贈\", \"厭\", \"酔\", \"ヘ\", \"」\", \"屓\", \"栓\", \"摩\", \"歳\", \"約\", \"〇\", \"酬\", \"携\", \"事\", \"俺\", \"頒\", \"菊\", \"愚\", \"動\", \"握\", \"錯\", \"​\", \"速\", \"塞\", \"警\", \"句\", \"為\", \"滞\", \"過\", \"巨\", \"楽\", \"駄\", \"屈\", \"堵\", \"蛇\", \"俗\", \"比\", \"祭\", \"飲\", \"瓢\", \"党\", \"幡\", \"◆\", \"ソ\", \"陣\", \"館\", \"衝\", \"琶\", \"吐\", \"脇\", \"欽\", \"好\", \"゚\", \"変\", \"銀\", \"彰\", \"茨\", \"往\", \"尽\", \"テ\", \"欠\", \"納\", \"冒\", \"域\", \"瞑\", \"モ\", \"蛍\", \"蒙\", \"秤\", \"狭\", \"灯\", \"夏\", \"枠\", \"弱\", \"閉\", \"慶\", \"着\", \"辛\", \"は\", \"損\", \"金\", \"9\", \"ロ\", \"尿\", \"誌\", \"凡\", \"忽\", \"狼\", \"刑\", \"糞\", \"触\", \"佇\", \"ハ\", \"腸\", \"在\", \"環\", \"ヲ\", \"然\", \"窃\", \"ぜ\", \"近\", \"李\", \"閑\", \"祀\", \"令\", \"遍\", \"賠\", \"角\", \"弄\", \"校\", \"諏\", \"渕\", \"狂\", \"持\", \"休\", \"械\", \"円\", \"佳\", \"逡\", \"率\", \"呟\", \"報\", \"秩\", \"傍\", \"犬\", \"ぱ\", \"家\", \"②\", \"奮\", \"杏\", \"B\", \"異\", \"漱\", \"凝\", \"感\", \"形\", \"胎\", \"顔\", \"燥\", \"臣\", \"磨\", \"ヽ\", \"綾\", \"暇\", \"踪\", \"串\", \"使\", \"愛\", \"売\", \"趣\", \"律\", \"刷\", \"払\", \"裟\", \"添\", \"敏\", \"乞\", \"紐\", \"亮\", \"悶\", \"増\", \"償\", \"勲\", \"独\", \"賑\", \"尊\", \"芸\", \"綺\", \"紀\", \"祐\", \"〆\", \"澪\", \"針\", \"磋\", \"弾\", \"童\", \"食\", \"免\", \"昨\", \"担\", \"系\", \"厚\", \"構\", \"寛\", \"夕\", \"粋\", \"住\", \"咲\", \"強\", \"熱\", \"徳\", \"が\", \"十\", \"船\", \"柏\", \"醍\", \"惨\", \"ホ\", \"幣\", \"奏\", \"】\", \"勝\", \"叫\", \"復\", \"謀\", \"概\", \"鎮\", \"振\", \"赴\", \"諺\", \"煙\", \"榴\", \"貼\", \"汗\", \"謡\", \"宗\", \"そ\", \"門\", \"己\", \"児\", \"叭\", \"閃\", \"慎\", \"ぉ\", \"蜂\", \"蔽\", \"害\", \"捗\", \"優\", \"兄\", \"訴\", \"猶\", \"均\", \"/\", \"指\", \"仕\", \"ぼ\", \"幹\", \"鍋\", \"集\", \"梅\", \"考\", \"真\", \"奨\", \"濯\", \"槃\", \"仁\", \"舗\", \"づ\", \"質\", \"ぇ\", \"混\", \"学\", \"次\", \"烹\", \"定\", \"資\", \"客\", \"削\", \"ッ\", \"瓦\", \"彙\", \"虜\", \"表\", \"ワ\", \"俳\", \"貌\", \"浦\", \"堪\", \"購\", \"所\", \"=\", \"火\", \"樺\", \"苛\", \"伯\", \"賃\", \"暁\", \"冨\", \"😭\", \"断\", \"味\", \"固\", \"乱\", \"裂\", \"燭\", \"審\", \"ゲ\", \"鶴\", \"猿\", \"伸\", \"左\", \"仏\", \"摂\", \"ゃ\", \"離\", \"漠\", \"嫡\", \"轄\", \"雅\", \"梳\", \"奴\", \"紛\", \"団\", \"届\", \"碍\", \"伽\", \"殲\", \"帰\", \"拒\", \"貨\", \"和\", \"反\", \"距\", \"部\", \"紡\", \"屹\", \"化\", \"´\", \"惚\", \"経\", \"妃\", \"仮\", \"私\", \"ニ\", \"憎\", \"ぐ\", \"箭\", \"送\", \"財\", \"瞭\", \"陰\", \"許\", \"→\", \"﨑\", \"重\", \"替\", \"夢\", \"奪\", \"浴\", \"隈\", \"描\", \"精\", \"J\", \"預\", \"神\", \"販\", \"北\", \"④\", \"未\", \"^\", \"季\", \"名\", \"繋\", \"企\", \"◡\", \"抱\", \"粘\", \"荒\", \"圃\", \"庭\", \"稀\", \"遽\", \"え\", \"当\", \"号\", \"丸\", \"駿\", \"▼\", \"杞\", \"加\", \"勿\", \"姿\", \"防\", \"機\", \"レ\", \"援\", \"札\", \"ゎ\", \"債\", \"。\", \"哲\", \"永\", \"塊\", \"台\", \"労\", \"杼\", \"慌\", \"患\", \"槍\", \"傘\", \"敷\", \"期\", \"鬼\", \"悲\", \"殺\", \"凱\", \"腕\", \"△\", \"細\", \"牧\", \"容\", \"槌\", \"偉\", \"将\", \"善\", \"舌\", \"念\", \"喧\", \"旬\", \"日\", \"模\", \"臭\", \"声\", \"阜\", \"肝\", \"待\", \"③\", \"列\", \"袈\", \"叱\", \"書\", \"涼\", \"い\", \"気\", \"状\", \"耗\", \"冗\", \"鉛\", \"遭\", \"郷\", \"腰\", \"園\", \"♡\", \"醐\", \"幌\", \"晋\", \"支\", \"歌\", \"属\", \"旨\", \"靄\", \"恭\", \"さ\", \"拉\", \"粗\", \"易\", \"彿\", \"承\", \"溶\", \"見\", \"麻\", \"貯\", \"欄\", \"辰\", \"径\", \"君\", \"誹\", \"捉\", \"∇\", \"自\", \"井\", \"職\", \"進\", \"編\", \"馴\", \"切\", \"訣\", \"衡\", \"観\", \"詞\", \"ン\", \"盾\", \"疇\", \"較\", \"煮\", \"恐\", \"諸\", \"源\", \"済\", \"陥\", \"噌\", \"〉\", \"草\", \"壁\", \"P\", \"旦\", \"唾\", \"徐\", \"踏\", \"↑\", \"足\", \"叩\", \"百\", \"杉\", \"這\", \"塩\", \"載\", \"響\", \"辱\", \"仲\", \"毅\", \"・\", \" \", \"貞\", \"征\", \"饉\", \"基\", \"捐\", \"作\", \"琳\", \"査\", \"星\", \"笛\", \"脅\", \"社\", \"̀\", \"😢\", \"立\", \"得\", \"甲\", \"責\", \"縄\", \"嶽\", \"蔑\", \"寧\", \"促\", \"啓\", \"誘\", \"察\", \"窟\", \"到\", \"塔\", \"卵\", \"栃\", \"片\", \"頼\", \"Y\", \"契\", \"予\", \"ュ\", \"汎\", \"五\", \"位\", \"ゾ\", \"翔\", \"象\", \"碌\", \"低\", \"洗\", \"籠\", \"方\", \"&\", \"碓\", \"匿\", \"7\", \"斎\", \"浅\", \"幾\", \"際\", \"茫\", \"ザ\", \"羊\", \"μ\", \"覇\", \"漏\", \"株\", \"則\", \"堺\", \"頂\", \"塾\", \"実\", \"銃\", \"]\", \"挿\", \"g\", \"昂\", \"戴\", \"調\", \"底\", \"椒\", \"弁\", \"原\", \"泄\", \"廊\", \"庇\", \"権\", \"ち\", \"菅\", \"訂\", \"殿\", \"☆\", \"券\", \"4\", \"鮮\", \"メ\", \"那\", \"絆\", \"沢\", \"刃\", \"紫\", \"娘\", \"展\", \"婆\", \"千\", \"段\", \"♫\", \"嗚\", \"白\", \"氾\", \"穫\", \"性\", \"槽\", \"緑\", \"九\", \"新\", \"酷\", \"擦\", \"濫\", \"奇\", \"ㅂ\", \"珠\", \"諦\", \"晒\", \"始\", \"累\", \">\", \"請\", \"怯\", \"妥\", \"督\", \"僧\", \"墓\", \"残\", \"年\", \"薄\", \"爪\", \"必\", \"膝\", \"単\", \"忙\", \"汰\", \"O\", \"藤\", \"晴\", \"謬\", \"人\", \"還\", \"詠\", \"鯖\", \"w\", \"泰\", \"函\", \"式\", \"瘍\", \"疫\", \"炉\", \"米\", \"棲\", \"×\", \"険\", \"建\", \"で\", \"ボ\", \"つ\", \"ル\", \"菌\", \"鹿\", \"参\", \"國\", \"恣\", \"且\", \"+\", \"悟\", \"貝\", \"〜\", \"爽\", \"Ⅶ\", \"開\", \"輿\", \"偵\", \")\", \"贋\", \"王\", \"沸\", \"慨\", \"洒\", \"尖\", \"就\", \"醤\", \"酒\", \"贅\", \"滑\", \"酵\", \"赤\", \"8\", \"訝\", \"並\", \"掘\", \"湧\", \"斜\", \"揚\", \"内\", \"買\", \"朴\", \"簡\", \"闖\", \"降\", \"節\", \"卓\", \"活\", \"捩\", \"巣\", \"訳\", \"呑\", \"若\", \"宙\", \"格\", \"葵\", \"ぽ\", \"父\", \"件\", \"亀\", \"置\", \"誰\", \"軒\", \"助\", \"隣\", \"彡\", \"喜\", \"噴\", \"麹\", \"案\", \"伴\", \"致\", \"瞳\", \"雪\", \"タ\", \"《\", \"〝\", \"訪\", \"嘘\", \"坊\", \"沈\", \"遡\", \"吟\", \"只\", \"益\", \"樹\", \"、\", \"額\", \"料\", \"埃\", \"便\", \"掻\", \"%\", \"囁\", \"詮\", \"?\", \"死\", \"陛\", \"称\", \"賞\", \"騒\", \"エ\", \"斉\", \"秀\", \"プ\", \"肥\", \"呂\", \"洞\", \"須\", \"掲\", \"噂\", \"龍\", \"失\", \"湿\", \"稼\", \"夫\", \"養\", \"剰\", \"莫\", \"萼\", \"司\", \"港\", \"革\", \"撰\", \"黙\", \"競\", \"働\", \"筆\", \"烈\", \"昔\", \"舘\", \"規\", \"砦\", \"用\", \"研\", \"員\", \"弥\", \"屋\", \"循\", \"咎\", \"頻\", \"疹\", \"放\", \"拾\", \"簗\", \"斬\", \"$\", \"税\", \"計\", \"侵\", \"評\", \"麺\", \"湯\", \"口\", \"昇\", \"ヶ\", \"痢\", \"薙\", \"投\", \"\\", \"喫\", \"腹\", \"0\", \"写\", \"別\", \"斂\", \"垣\", \"E\", \"凪\", \"虎\", \"♪\", \"貧\", \"訃\", \"像\", \"覆\", \"祈\", \"貴\", \"稜\", \"頬\", \"釈\", \"琵\", \"楠\", \"浮\", \"飛\", \"眠\", \"脂\", \"宝\", \"脱\", \"智\", \"ス\", \"荘\", \"h\", \"な\", \"主\", \"姫\", \"ぶ\", \"ヨ\", \"旅\", \"透\", \"導\", \"処\", \"鍵\", \"娠\", \"躍\", \"識\", \"馬\", \"慄\", \"器\", \"坪\", \"義\", \"膜\", \"唇\", \"分\", \"走\", \"渉\", \"妨\", \"示\", \"老\", \"緯\", \"★\", \"幕\", \"壌\", \"衣\", \"ょ\", \"恵\", \"肺\", \"野\", \"醜\", \"転\", \"皿\", \"謝\", \"上\", \"択\", \"岸\", \"誠\", \"暮\", \"魔\", \"両\", \"L\", \"癖\", \"毛\", \"南\", \"湾\", \"袴\", \"旋\", \"控\", \"艸\", \"万\", \"瘻\", \"サ\", \"医\", \"窪\", \"硬\", \"禁\", \"肯\", \"衷\", \"治\", \"謙\", \"や\", \"頃\", \"訟\", \"鏡\", \"公\", \"林\", \"y\", \"斐\", \"阻\", \"歪\", \"畑\", \"披\", \"粧\", \"筋\", \"演\", \"ビ\", \"思\", \"縁\", \"曰\", \"侶\", \"梱\", \"ヨ\", \"(\", \"桑\", \"お\", \"姦\", \"読\", \"師\", \"ぷ\", \"貶\", \"静\", \"奔\", \"斧\", \"棟\", \"~\", \"瑞\", \"を\", \"汁\", \"伝\", \"祖\", \"蓮\", \"鶏\", \"滝\", \"埼\", \"⑪\", \"フ\", \"琉\", \"努\", \"セ\", \"紙\", \"初\", \"嬉\", \"皆\", \"飴\", \"‐\", \"祉\", \"工\", \"錠\", \"都\", \"妙\", \"根\", \"適\", \"骨\", \"張\", \"告\", \"統\", \"岡\", \"群\", \"鞘\", \"衰\", \"美\", \"s\", \"浣\", \"長\", \"翻\", \"ヾ\", \"🌙\", \"店\", \"析\", \"澄\", \"暫\", \"ヴ\", \"純\", \"御\", \"課\", \"鎖\", \"薪\", \"挙\", \"割\", \"妬\", \"求\", \"併\", \"闇\", \"ポ\", \"亜\", \"某\", \"蛋\", \"滲\", \"京\", \"介\", \"欲\", \"艶\", \"乃\", \"民\", \"皇\", \"画\", \"唸\", \"墜\", \"臓\", \"哀\", \"飽\", \"僚\", \"ゅ\", \"靴\", \"術\", \"遂\", \"果\", \"難\", \"築\", \"栗\", \"涙\", \"應\", \"凛\", \"苗\", \"|\", \"算\", \"β\", \"挟\", \"マ\", \"姉\", \"胆\", \"〕\", \";\", \"抹\", \"糸\", \"駅\", \"荷\", \"孫\", \"傾\", \"抽\", \"希\", \"陸\", \"措\", \"廉\", \"決\", \"蠍\", \"臥\", \"怖\", \"詳\", \"「\", \"収\", \"ノ\", \"族\", \"避\", \"操\", \"署\", \"茶\", \"\\u001b\", \"ミ\", \"久\", \"兵\", \"綴\", \"鳴\", \"跳\", \"迫\", \"罠\", \"元\", \"魂\", \"色\", \"首\", \"引\", \"代\", \"瞬\", \"級\", \"簿\", \"他\", \"邪\", \"拭\", \"無\", \"頓\", \"袋\", \"非\", \"怒\", \"謳\", \"突\", \"痴\", \"岩\", \"確\", \"恩\", \"レ\", \"緊\", \"蒸\", \"市\", \"賊\", \"゚\", \"願\", \"l\", \"雀\", \"灌\", \"堆\", \"<\", \"湖\", \"餃\", \"登\", \"̈\", \"究\", \"胃\", \"譜\", \"郵\", \"官\", \"項\", \"A\", \"瓶\", \"縛\", \"探\", \"佐\", \"村\", \"筈\", \"庶\", \"鴻\", \"耐\", \"也\", \"勤\", \"発\", \"畳\", \"拝\", \"戦\", \"篠\", \"忘\", \"婦\", \"映\", \"餅\", \"殻\", \"尺\", \"履\", \"役\", \"宴\", \"顕\", \"・\", \"Ⅱ\", \"*\", \"里\", \"枕\", \"志\", \"妄\", \"漬\", \"国\", \"撮\", \"ウ\", \"判\", \"黒\", \"談\", \"ひ\", \"辺\", \"今\", \"軽\", \"唱\", \"任\", \"潔\", \"曝\", \"喋\", \"緩\", \"既\", \"ハ\", \"`\", \"梓\", \"慢\", \"醸\", \"r\", \"シ\", \"双\", \"升\", \"可\", \"∀\", \"ケ\", \"試\", \"郎\", \"謗\", \"憶\", \"輔\", \"廃\", \"抗\", \"没\", \"鑑\", \"春\", \"耕\", \"巷\", \"烙\", \"栽\", \"崖\", \"俸\", \"豊\", \"6\", \"魚\", \"迦\", \"軍\", \"賢\", \"驚\", \"ヤ\", \"彼\", \"繊\", \"搭\", \"バ\", \"砂\", \"災\", \"爾\", \"″\", \"践\", \"蝋\", \"般\", \"攫\", \"惹\", \"命\", \"伊\", \"ど\", \"U\", \"一\", \"効\", \"招\", \"塚\", \":\", \"階\", \"フ\", \"皮\", \"盟\", \"ョ\", \"卒\", \"設\", \"チ\", \"做\", \"流\", \"泳\", \"前\", \"!\", \"嵐\", \"維\", \"最\", \"。\", \"😊\", \"暗\", \"奈\", \"筒\", \"旭\", \"ェ\", \"吾\", \"ん\", \"子\", \"提\", \"帝\", \"ウ\", \"山\", \"修\", \"枚\", \"デ\", \"裕\", \"程\", \"二\", \"礫\", \"素\", \"講\", \"㎞\", \"番\", \"又\", \"洩\", \"迭\", \"股\", \"沙\", \"渋\", \"央\", \"返\", \"略\", \"狩\", \"蛮\", \"拶\", \"満\", \"矢\", \"珂\", \"恰\", \"拗\", \"薦\", \"剃\", \"睡\", \"玉\", \"悪\", \"及\", \"踊\", \"批\", \"岳\", \"宅\", \"乳\", \"岐\", \"綱\", \"ヒ\", \"広\", \"徒\", \"磯\", \"●\", \"肢\", \"俊\", \"接\", \"卑\", \"杜\", \"落\", \"■\", \"跡\", \"忌\", \"務\", \"桜\", \"末\", \"以\", \"辿\", \"峰\", \"梶\", \"赦\", \"望\", \"遜\", \"劉\", \"涅\", \"漁\", \"虚\", \"道\", \"崔\", \"隠\", \"@\", \"餓\", \"囲\", \"紗\", \"ィ\", \"寡\", \"鳥\", \"肘\", \"琢\", \"軋\", \"っ\", \"捺\", \"図\", \"庄\", \"篤\", \"匹\", \"籍\", \"業\", \"閲\", \"泥\", \"、\", \"胞\", \"帳\", \"常\", \"三\", \"産\", \"癌\", \"ー\", \"安\", \"絨\", \"ヘ\", \"吹\", \"礼\", \"冊\", \"徴\", \"繍\", \"折\", \"篇\", \"吉\", \"花\", \"汚\", \"歩\", \"測\", \"牽\", \"ら\", \"土\", \"療\"]", - "reversible": false - }, - "lmsys/fastchat-t5-3b-v1.0 @ cc100/ko": { - "tokenizer": "fastchat-t5-3b-v1.0", - "organization": "LMSYS", - "vocab_size": 32110, - "_n_bytes": 1524839, - "_n_tokens": 474953, - "_n_chars": 655190, - "_n_oov_chars": 432679, - "oov_ratio": 0.6603870632946168, - "_oov_charset": "[\"申\", \"칸\", \"었\", \"끄\", \"峴\", \"贖\", \"긴\", \"얘\", \"취\", \"液\", \"福\", \"흐\", \"ㆍ\", \"갉\", \"全\", \"팜\", \"맘\", \"낭\", \"땀\", \"龍\", \"슷\", \"햄\", \"굽\", \"잎\", \"ㅇ\", \"쏙\", \"꺽\", \"□\", \"法\", \"활\", \"좌\", \"부\", \"멤\", \"겔\", \"的\", \"갯\", \"쿵\", \"至\", \"달\", \"코\", \"름\", \"둬\", \"💸\", \"총\", \"젠\", \"웹\", \"情\", \"떡\", \"전\", \"헛\", \"뛸\", \"룸\", \"緞\", \"찮\", \"픔\", \"베\", \"왁\", \"켓\", \"줍\", \"罰\", \"본\", \"갭\", \"坐\", \"瀧\", \"멍\", \"찬\", \"燦\", \"압\", \"팔\", \"험\", \"랄\", \"썅\", \"랫\", \"ㅟ\", \"억\", \"뽀\", \"흥\", \"잦\", \"ㅏ\", \"침\", \"릉\", \"눈\", \"펴\", \"밋\", \"즙\", \"밥\", \"며\", \"안\", \"▣\", \"❤\", \"킴\", \"섭\", \"찜\", \"찼\", \"生\", \"肉\", \"희\", \"싶\", \"폰\", \"出\", \"슴\", \"🍕\", \"쌈\", \"격\", \"先\", \"面\", \"럽\", \"축\", \"뺀\", \"齋\", \"能\", \"명\", \"윌\", \"💕\", \"북\", \"효\", \"펄\", \"처\", \"뿔\", \"쯔\", \"섞\", \"겐\", \"띕\", \"에\", \"룬\", \"洋\", \"등\", \"제\", \"章\", \"뎅\", \"짢\", \"약\", \"手\", \"👨\", \"것\", \"껑\", \"팍\", \"빔\", \"쿠\", \"념\", \"캘\", \"者\", \"∙\", \"典\", \"뮈\", \"맞\", \"둘\", \"딜\", \"릴\", \"큰\", \"긍\", \"챙\", \"選\", \"탱\", \"낀\", \"㉿\", \"단\", \"즈\", \"랍\", \"맨\", \"솔\", \"大\", \"느\", \"머\", \"암\", \"男\", \"휘\", \"떻\", \"연\", \"敬\", \"납\", \"乙\", \"女\", \"허\", \"邑\", \"꾀\", \"史\", \"도\", \"커\", \"천\", \"跏\", \"ⓔ\", \"낱\", \"天\", \"쨍\", \"졌\", \"뼘\", \"數\", \"뜰\", \"烏\", \"홍\", \"듯\", \"뿌\", \"렐\", \"월\", \"불\", \"댔\", \"곁\", \"깃\", \"弟\", \"※\", \"솥\", \"장\", \"갖\", \"♤\", \"금\", \"씨\", \"꽁\", \"‍\", \"間\", \"녘\", \"범\", \"쟈\", \"회\", \"찰\", \"㉰\", \"너\", \"옌\", \"相\", \"雄\", \"색\", \"꺼\", \"秋\", \"흄\", \"‎\", \"겸\", \"房\", \"地\", \"下\", \"渴\", \"飾\", \"世\", \"뚫\", \"꿇\", \"닿\", \"ᴇ\", \"雲\", \"닦\", \"혜\", \"췌\", \"판\", \"淨\", \"🏷\", \"英\", \"램\", \"좇\", \"넌\", \"참\", \"茅\", \"고\", \"짬\", \"았\", \"벨\", \"땡\", \"멋\", \"형\", \"멀\", \"빌\", \"없\", \"칫\", \"춥\", \"튜\", \"➊\", \"다\", \"⑨\", \"臺\", \"邦\", \"폿\", \"七\", \"써\", \"원\", \"책\", \"팥\", \"貸\", \"르\", \"폼\", \"궁\", \"之\", \"古\", \"신\", \"객\", \"壞\", \"륜\", \"깨\", \"≫\", \"交\", \"탐\", \"당\", \"울\", \"蟄\", \"볕\", \"툭\", \"샬\", \"위\", \"풋\", \"흡\", \"띄\", \"룡\", \"잇\", \"할\", \"高\", \"툰\", \"멸\", \"잣\", \"큽\", \"밍\", \"셈\", \"勢\", \"롤\", \"쥰\", \"담\", \"利\", \"답\", \"⑵\", \"빅\", \"젝\", \"빼\", \"ㅍ\", \"껍\", \"퇴\", \"聖\", \"션\", \"솨\", \"團\", \"깜\", \"율\", \"後\", \"겪\", \"그\", \"回\", \"듬\", \"샤\", \"륭\", \"절\", \"씻\", \"←\", \"🗺\", \"렴\", \"컷\", \"現\", \"막\", \"◐\", \"何\", \"文\", \"헝\", \"돕\", \"않\", \"탑\", \"‧\", \"눴\", \"擒\", \"듭\", \"떤\", \"氷\", \"풍\", \"멘\", \"빴\", \"す\", \"ㅑ\", \"펜\", \"괄\", \"엉\", \"딴\", \"·\", \"셰\", \"合\", \"민\", \"플\", \"촬\", \"價\", \"덜\", \"뱀\", \"놔\", \"옥\", \"ㅖ\", \"닝\", \"쿨\", \"水\", \"거\", \"中\", \"훔\", \"留\", \"지\", \"톨\", \"테\", \"平\", \"明\", \"述\", \"ㄴ\", \"훌\", \"핍\", \"윗\", \"점\", \"댈\", \"農\", \"률\", \"논\", \"技\", \"🍞\", \"쯤\", \"빚\", \"月\", \"斗\", \"쉼\", \"禮\", \"냐\", \"합\", \"아\", \"💦\", \"八\", \"골\", \"毒\", \"뜨\", \"둥\", \"黃\", \"한\", \"끙\", \"解\", \"즘\", \"正\", \"띤\", \"➎\", \"젖\", \"묶\", \"韓\", \"妻\", \"臀\", \"谷\", \"온\", \"病\", \"근\", \"特\", \"찾\", \"얍\", \"存\", \"○\", \"包\", \"오\", \"사\", \"되\", \"Ⅴ\", \"꿍\", \"륙\", \"立\", \"類\", \"삣\", \"ᴍ\", \"응\", \"티\", \"왔\", \"짠\", \"🍔\", \"陽\", \"結\", \"副\", \"혐\", \"界\", \"‥\", \"굶\", \"습\", \"🍭\", \"係\", \"科\", \"❏\", \"낯\", \"려\", \"竹\", \"삭\", \"廟\", \"밀\", \"물\", \"居\", \"떠\", \"걍\", \"宋\", \"Ⅸ\", \"닫\", \"理\", \"行\", \"엌\", \"떼\", \"상\", \"눅\", \"꽉\", \"퀘\", \"펠\", \"보\", \"받\", \"웬\", \"밧\", \"¹\", \"Ⅳ\", \"킁\", \"둔\", \"초\", \"뭉\", \"光\", \"悧\", \"💌\", \"왕\", \"겟\", \"♥\", \"께\", \"첫\", \"훑\", \"ㄹ\", \"왼\", \"링\", \"펼\", \"💡\", \"」\", \"넷\", \"챨\", \"蜀\", \"썰\", \"학\", \"씀\", \"布\", \"멈\", \"【\", \"♣\", \"렇\", \"©\", \"짝\", \"字\", \"參\", \"녕\", \"쪽\", \"뭔\", \"죤\", \"淘\", \"떨\", \"學\", \"있\", \"궐\", \"렜\", \"쌉\", \"짚\", \"🌳\", \"몰\", \"笠\", \"守\", \"듈\", \"☎\", \"쏠\", \"츠\", \"붙\", \"쟁\", \"갱\", \"낫\", \"요\", \"훼\", \"췄\", \"向\", \"韜\", \"릭\", \"꿀\", \"죄\", \"🤟\", \"歲\", \"ㅚ\", \"ⅲ\", \"칠\", \"잼\", \"흙\", \"꺄\", \"엑\", \"킌\", \"덧\", \"욜\", \"잉\", \"◇\", \"죠\", \"긋\", \"챔\", \"벽\", \"헉\", \"재\", \"쎈\", \"양\", \"換\", \"푼\", \"웠\", \"➏\", \"워\", \"펌\", \"체\", \"⑴\", \"ω\", \"닥\", \"누\", \"뤘\", \"窮\", \"툼\", \"⬇\", \"意\", \"팰\", \"옵\", \"낼\", \"쓸\", \"題\", \"否\", \"▷\", \"ㅗ\", \"듐\", \"ⅳ\", \"디\", \"감\", \"늘\", \"將\", \"目\", \"러\", \"계\", \"솜\", \"語\", \"婚\", \"拮\", \"漢\", \"될\", \"뛴\", \"슝\", \"콕\", \"🙆\", \"武\", \"會\", \"캄\", \"봇\", \"뻑\", \"뀐\", \"롭\", \"쌩\", \"「\", \"海\", \"과\", \"琪\", \"〔\", \"딥\", \"ㅘ\", \"途\", \"掌\", \"퉁\", \"賣\", \"횟\", \"든\", \"굵\", \"⑧\", \"💰\", \"벅\", \"똘\", \"액\", \"℃\", \"넵\", \"읍\", \"쉘\", \"壽\", \"셜\", \"峙\", \"카\", \"宮\", \"靑\", \"끗\", \"듀\", \"序\", \"능\", \"華\", \"퀀\", \"마\", \"쟤\", \"ɪ\", \"誡\", \"깥\", \"릿\", \"끼\", \"槪\", \"놓\", \"꿨\", \"얕\", \"삿\", \"샌\", \"ㅒ\", \"석\", \"국\", \"턴\", \"엣\", \"겨\", \"역\", \"卽\", \"藥\", \"탈\", \"끊\", \"펀\", \"經\", \"겠\", \"만\", \"렛\", \"드\", \"섣\", \"콩\", \"캉\", \"칭\", \"뺏\", \"탁\", \"앞\", \"땐\", \"直\", \"꾸\", \"쉰\", \"빠\", \"숙\", \"섰\", \"뼈\", \"協\", \"핵\", \"괌\", \"슨\", \"댐\", \"씬\", \"曆\", \"첩\", \"어\", \"多\", \"했\", \"냥\", \"건\", \"걷\", \"크\", \"才\", \"창\", \"좁\", \"冬\", \"룩\", \"승\", \"런\", \"뮌\", \"세\", \"촌\", \"뜩\", \"곰\", \"荻\", \"호\", \"種\", \"음\", \"깅\", \"拘\", \"院\", \"식\", \"샴\", \"뭐\", \"펩\", \"딩\", \"팠\", \"쒀\", \"영\", \"뚜\", \"벳\", \"친\", \"랜\", \"빗\", \"셔\", \"Ⅹ\", \"둑\", \"︎\", \"奉\", \"항\", \"휠\", \"쫄\", \"인\", \"±\", \"姜\", \"품\", \"갇\", \"쨌\", \"녁\", \"쁘\", \"롱\", \"뮬\", \"뻐\", \"꿰\", \"◦\", \"同\", \"』\", \"팁\", \"商\", \"몬\", \"ᴡ\", \"◎\", \"템\", \"틸\", \"有\", \"⁴\", \"져\", \"덟\", \"랙\", \"뿜\", \"익\", \"滅\", \"류\", \"堂\", \"증\", \"잰\", \"켐\", \"횡\", \"極\", \"얽\", \"렀\", \"꽝\", \"쏭\", \"방\", \"갚\", \"吳\", \"넹\", \"榜\", \"털\", \"복\", \"知\", \"텨\", \"욱\", \"기\", \"봅\", \"昭\", \"향\", \"칩\", \"견\", \"락\", \"콥\", \"옳\", \"엇\", \"信\", \"림\", \"故\", \"핀\", \"ㅈ\", \"녹\", \"소\", \"널\", \"標\", \"벵\", \"쾅\", \"城\", \"制\", \"》\", \"귀\", \"십\", \"🌿\", \"😣\", \"떳\", \"…\", \"윤\", \"났\", \"졸\", \"⇒\", \"툴\", \"🤕\", \"잤\", \"렸\", \"넨\", \"셨\", \"뜻\", \"🏫\", \"묻\", \"🦅\", \"濟\", \"두\", \"ⅱ\", \"言\", \"🚨\", \"귤\", \"〈\", \"끈\", \"心\", \"악\", \"집\", \"뜸\", \"쪄\", \"―\", \"숫\", \"金\", \"紋\", \"授\", \"友\", \"선\", \"줄\", \"헐\", \"夜\", \"①\", \"☀\", \"클\", \"뫼\", \"튼\", \"꿈\", \"컵\", \"궜\", \"덴\", \"し\", \"↓\", \"묵\", \"을\", \"키\", \"『\", \"줘\", \"뭇\", \"표\", \"킨\", \"穀\", \"戮\", \"駐\", \"🦄\", \"朝\", \"홉\", \"돌\", \"젤\", \"잊\", \"꾼\", \"씽\", \"귈\", \"숨\", \"뢰\", \"존\", \"쳐\", \"넬\", \"륨\", \"쑤\", \"태\", \"康\", \"욕\", \"럿\", \"射\", \"닷\", \"發\", \"詔\", \"陳\", \"델\", \"밉\", \"로\", \"쉬\", \"톡\", \"헬\", \"弊\", \"셉\", \"🍰\", \"갤\", \"캠\", \"앓\", \"후\", \"확\", \"頭\", \"ㅜ\", \"鐘\", \"六\", \"뺐\", \"봤\", \"결\", \"른\", \"녀\", \"🌵\", \"枯\", \"히\", \"해\", \"구\", \"て\", \"무\", \"켄\", \"략\", \"힉\", \"낡\", \"江\", \"巡\", \"춰\", \"뇌\", \"맡\", \"퀸\", \"不\", \"균\", \"타\", \"政\", \"완\", \"管\", \"곤\", \"侯\", \"飮\", \"때\", \"데\", \"川\", \"팬\", \"둡\", \"外\", \"냈\", \"교\", \"觸\", \"찔\", \"콜\", \"대\", \"덤\", \"임\", \"텅\", \"옮\", \"최\", \"쫀\", \"∼\", \"가\", \"樂\", \"亭\", \"�\", \"눠\", \"․\", \"§\", \"튀\", \"출\", \"즉\", \"군\", \"님\", \"~\", \"끝\", \"딤\", \"문\", \"쪼\", \"⑦\", \"時\", \"봄\", \"곽\", \"쥐\", \"착\", \"論\", \"ㅣ\", \"섹\", \"맛\", \"컨\", \"唐\", \"共\", \"뗀\", \"숯\", \"홀\", \"벚\", \"릇\", \"녔\", \"깔\", \"흑\", \"햇\", \"왠\", \"第\", \"改\", \"쌓\", \"먼\", \"被\", \"돗\", \"앵\", \"德\", \"짜\", \"네\", \"폍\", \"貿\", \"津\", \"올\", \"얻\", \"헨\", \"혼\", \"걀\", \"東\", \"엄\", \"록\", \"衛\", \"걸\", \"쫓\", \"샵\", \"내\", \"팩\", \"孝\", \"륵\", \"갈\", \"굿\", \"➍\", \"」\", \"㎡\", \"摩\", \"⑶\", \"事\", \"텁\", \"쓰\", \"動\", \"​\", \"턱\", \"ᴛ\", \"警\", \"준\", \"쩌\", \"蚩\", \"ᴏ\", \"닙\", \"劍\", \"유\", \"俗\", \"比\", \"흘\", \"ㅞ\", \"◆\", \"엠\", \"關\", \"綃\", \"好\", \"짭\", \"銀\", \"튠\", \"움\", \"앉\", \"蒙\", \"엿\", \"ᴀ\", \"흔\", \"앗\", \"척\", \"괴\", \"쓴\", \"눔\", \"우\", \"둠\", \"は\", \"멜\", \"眞\", \"첨\", \"씌\", \"金\", \"〮\", \"탓\", \"까\", \"서\", \"켤\", \"👋\", \"Ⅵ\", \"줏\", \"현\", \"뱅\", \"시\", \"밖\", \"웁\", \"️\", \"◼\", \"然\", \"弛\", \"뀔\", \"쐐\", \"됨\", \"ㅅ\", \"게\", \"낮\", \"角\", \"댄\", \"푹\", \"✈\", \"먹\", \"🤭\", \"犬\", \"②\", \"家\", \"뿍\", \"뱉\", \"쁜\", \"➌\", \"경\", \"ㅕ\", \"쉴\", \"理\", \"섯\", \"츈\", \"뮤\", \"愛\", \"璿\", \"넥\", \"야\", \"뽐\", \"입\", \"꿕\", \"및\", \"터\", \"퍽\", \"운\", \"픽\", \"팹\", \"紀\", \"祐\", \"㈜\", \"짙\", \"팝\", \"쿰\", \"童\", \"食\", \"캡\", \"系\", \"寛\", \"🙋\", \"💣\", \"榮\", \"徳\", \"十\", \"팟\", \"혔\", \"쏘\", \"싯\", \"광\", \"】\", \"들\", \"용\", \"잔\", \"뉘\", \"김\", \"듣\", \"룰\", \"뤄\", \"랑\", \"줌\", \"닛\", \"꼈\", \"람\", \"껏\", \"숏\", \"새\", \"宗\", \"잖\", \"己\", \"門\", \"そ\", \"난\", \"쁠\", \"엔\", \"관\", \"㎍\", \"良\", \"일\", \"뻤\", \"립\", \"兄\", \"첸\", \"벗\", \"璣\", \"쭉\", \"맹\", \"흰\", \"集\", \"ㄷ\", \"앙\", \"仁\", \"하\", \"긁\", \"次\", \"⚀\", \"資\", \"함\", \"봬\", \"客\", \"징\", \"삽\", \"巳\", \"칙\", \"덕\", \"웍\", \"렉\", \"킬\", \"몫\", \"펙\", \"所\", \"火\", \"으\", \"래\", \"뛰\", \"값\", \"늬\", \"樺\", \"쭙\", \"딱\", \"엽\", \"따\", \"😭\", \"띠\", \"燭\", \"◾\", \"뜹\", \"깊\", \"넘\", \"탠\", \"쫒\", \"씹\", \"동\", \"촛\", \"尤\", \"촉\", \"離\", \"꼽\", \"찌\", \"흩\", \"女\", \"💅\", \"셸\", \"돔\", \"뇨\", \"냉\", \"궤\", \"뒀\", \"똥\", \"텍\", \"옐\", \"켈\", \"톰\", \"㎥\", \"럼\", \"넣\", \"反\", \"和\", \"部\", \"化\", \"겼\", \"돠\", \"쿼\", \"숍\", \"폈\", \"굉\", \"덮\", \"닉\", \"샐\", \"훗\", \"핫\", \"렷\", \"뿐\", \"俠\", \"맑\", \"陰\", \"→\", \"깁\", \"픕\", \"짐\", \"훈\", \"㏊\", \"프\", \"톱\", \"神\", \"껀\", \"北\", \"④\", \"흗\", \"뭘\", \"🤗\", \"겹\", \"번\", \"탕\", \"킹\", \"ㅝ\", \"▶\", \"▼\", \"힙\", \"브\", \"└\", \"핥\", \"機\", \"층\", \"니\", \"땠\", \"열\", \"읊\", \"를\", \"바\", \"永\", \"늄\", \"나\", \"자\", \"얏\", \"땅\", \"殺\", \"핸\", \"심\", \"반\", \"△\", \"폄\", \"善\", \"찢\", \"뒤\", \"日\", \"↕\", \"롬\", \"던\", \"닮\", \"쿄\", \"\", \"트\", \"미\", \"빳\", \"趺\", \"③\", \"밤\", \"뎀\", \"書\", \"い\", \"좆\", \"녜\", \"은\", \"팀\", \"♡\", \"걔\", \"벼\", \"와\", \"易\", \"끔\", \"낍\", \"識\", \"벤\", \"쩔\", \"백\", \"辰\", \"君\", \"예\", \"왜\", \"自\", \"ㅙ\", \"밴\", \"衡\", \"셋\", \"⑥\", \"힌\", \"Ⅷ\", \"묘\", \"샘\", \"년\", \"〉\", \"草\", \"박\", \"질\", \"쩐\", \"說\", \"틋\", \"↑\", \"딪\", \"百\", \"ㅛ\", \"글\", \"맥\", \"버\", \"載\", \"렬\", \"ʟ\", \"仲\", \"웰\", \"곧\", \" \", \"諒\", \"・\", \"탭\", \"뀌\", \"ⅰ\", \"배\", \"星\", \"Ⅰ\", \"社\", \"쏜\", \"立\", \"밭\", \"싫\", \"拜\", \"甲\", \"v\", \"셌\", \"悖\", \"슐\", \"≤\", \"노\", \"수\", \"밟\", \"엮\", \"쭈\", \"홑\", \"五\", \"텔\", \"즌\", \"劫\", \"순\", \"족\", \"꼬\", \"량\", \"쌀\", \"方\", \"병\", \"냅\", \"끌\", \"밝\", \"밌\", \"붓\", \"😂\", \"쎄\", \"별\", \"닭\", \"득\", \"雙\", \"퀄\", \"ⓒ\", \"높\", \"際\", \"μ\", \"극\", \"왓\", \"됩\", \"촘\", \"갔\", \"흉\", \"짤\", \"팎\", \"행\", \"팽\", \"날\", \"필\", \"콰\", \"쫑\", \"썬\", \"읽\", \"뵙\", \"넓\", \"原\", \"강\", \"급\", \"술\", \"☆\", \"얼\", \"꿔\", \"힜\", \"ㅠ\", \"통\", \"鮮\", \"캣\", \"◈\", \"엡\", \"농\", \"간\", \"분\", \"낳\", \"황\", \"꽂\", \"탄\", \"솟\", \"白\", \"性\", \"쇠\", \"α\", \"ㅐ\", \"잴\", \"겉\", \"新\", \"九\", \"슬\", \"屠\", \"꽃\", \"始\", \"쐬\", \"실\", \"뾱\", \"\", \"퀴\", \"年\", \"薄\", \"큐\", \"汰\", \"므\", \"뚝\", \"藝\", \"닳\", \"똑\", \"맴\", \"푸\", \"人\", \"몹\", \"堯\", \"詠\", \"\", \"쌍\", \"패\", \"법\", \"흠\", \"쉽\", \"킥\", \"米\", \"헤\", \"ㅡ\", \"×\", \"뺑\", \"몸\", \"냠\", \"홈\", \"⑸\", \"웖\", \"면\", \"國\", \"말\", \"찍\", \"츄\", \"맺\", \"퍙\", \"탬\", \"體\", \"작\", \"뜯\", \"◀\", \"깽\", \"靈\", \"는\", \"Ⅶ\", \"청\", \"랬\", \"붐\", \"🍟\", \"틔\", \"눕\", \"對\", \"王\", \"빈\", \"쳤\", \"좀\", \"진\", \"옆\", \"혁\", \"겁\", \"假\", \"믐\", \"칼\", \"쥬\", \"삐\", \"딸\", \"캔\", \"혀\", \"짓\", \"節\", \"붕\", \"피\", \"적\", \"譯\", \"👏\", \"▲\", \"걱\", \"맬\", \"볍\", \"훨\", \"왘\", \"같\", \"볼\", \"뉜\", \"차\", \"軒\", \"⑹\", \"저\", \"致\", \"㉠\", \"ㅊ\", \"덥\", \"雪\", \"짊\", \"됐\", \"《\", \"산\", \"잃\", \"싱\", \"검\", \"캐\", \"폐\", \"累\", \"춘\", \"❍\", \"樹\", \"짖\", \"랭\", \"렁\", \"페\", \"料\", \"픈\", \"뷔\", \"獻\", \"%\", \"슈\", \"옛\", \"낚\", \"?\", \"死\", \"잡\", \"린\", \"ㅎ\", \"낸\", \"종\", \"옴\", \"앰\", \"살\", \"氣\", \"洞\", \"쾌\", \"뜬\", \"龍\", \"ㅔ\", \"삘\", \"쿡\", \"革\", \"⋅\", \"훅\", \"갑\", \"옹\", \"정\", \"빡\", \"괜\", \"ㅋ\", \"ㄱ\", \"즐\", \"👍\", \"ᴄ\", \"윈\", \"쫗\", \"쇄\", \"넉\", \"用\", \"앨\", \"빵\", \"員\", \"추\", \"ㅓ\", \"♧\", \"섦\", \"口\", \"칵\", \"投\", \"텝\", \"🙌\", \"깐\", \"빨\", \"놈\", \"롸\", \"♪\", \"늙\", \"像\", \"覆\", \"뒷\", \"망\", \"킵\", \"샀\", \"ã\", \"공\", \"🏻\", \"힐\", \"脱\", \"또\", \"內\", \"닌\", \"ㅁ\", \"㉣\", \"主\", \"론\", \"발\", \"늑\", \"빕\", \"굴\", \"됬\", \"分\", \"싹\", \"접\", \"🥁\", \"핑\", \"🤔\", \"딛\", \"★\", \"衣\", \"野\", \"권\", \"⊙\", \"옷\", \"謝\", \"上\", \"꺾\", \"맵\", \"슛\", \"텀\", \"魔\", \"설\", \"블\", \"💥\", \"쑥\", \"였\", \"南\", \"毛\", \"못\", \"삶\", \"♀\", \"쏟\", \"🍎\", \"렘\", \"틴\", \"벙\", \"직\", \"럭\", \"治\", \"협\", \"줬\", \"촨\", \"싸\", \"公\", \"쇼\", \"컸\", \"林\", \"陸\", \"댓\", \"🚿\", \"퀵\", \"끓\", \"씩\", \"思\", \"충\", \"획\", \"曰\", \"모\", \"꼭\", \"✔\", \"휴\", \"눌\", \"師\", \"깡\", \"뻗\", \"톤\", \"욥\", \"樂\", \"퍼\", \"쾨\", \"껴\", \"쩍\", \"놀\", \"훠\", \"폴\", \"짱\", \"튿\", \"춤\", \"‪\", \"빤\", \"낌\", \"紙\", \"初\", \"랴\", \"↔\", \"켰\", \"∮\", \"딧\", \"祉\", \"뱃\", \"工\", \"염\", \"스\", \"떄\", \"適\", \"뤼\", \"케\", \"랐\", \"갓\", \"戌\", \"포\", \"群\", \"변\", \"美\", \"s\", \"長\", \"析\", \"남\", \"몽\", \"첼\", \"御\", \"課\", \"철\", \"섬\", \"굳\", \"랩\", \"혈\", \"윙\", \"목\", \"퓨\", \"펑\", \"求\", \"힘\", \"얀\", \"릅\", \"某\", \"ㅢ\", \"곡\", \"몇\", \"京\", \"놨\", \"밸\", \"렵\", \"乃\", \"民\", \"²\", \"皇\", \"언\", \"컬\", \"낙\", \"틱\", \"측\", \"哀\", \"朱\", \"벌\", \"術\", \"流\", \"應\", \"뭥\", \"휩\", \"|\", \"력\", \"胡\", \"루\", \"〕\", \"센\", \"곱\", \"숟\", \"챌\", \"맷\", \"臥\", \"≪\", \"외\", \"업\", \"「\", \"쓕\", \"族\", \"썹\", \"길\", \"삼\", \"롯\", \"븐\", \"앤\", \"➋\", \"냄\", \"싼\", \"뉴\", \"딘\", \"좋\", \"獨\", \"토\", \"젊\", \"썩\", \"色\", \"代\", \"쳇\", \"채\", \"컴\", \"튬\", \"혹\", \"無\", \"變\", \"웃\", \"닐\", \"봐\", \"챗\", \"샷\", \"잘\", \"돋\", \"꽤\", \"례\", \"쿤\", \"웅\", \"앱\", \"켠\", \"🔹\", \"梁\", \"째\", \"곳\", \"럴\", \"파\", \"튄\", \"앎\", \"맙\", \"메\", \"숱\", \"비\", \"렌\", \"봉\", \"밑\", \"련\", \"켜\", \"이\", \"콘\", \"콤\", \"잭\", \"戊\", \"틀\", \"깝\", \"믹\", \"매\", \"웨\", \"얇\", \"敎\", \"싣\", \"Ⅲ\", \"ㅆ\", \"조\", \"얹\", \"멕\", \"뮐\", \"뷰\", \"손\", \"엘\", \"Ⅱ\", \"*\", \"평\", \"里\", \"릎\", \"주\", \"志\", \"鎭\", \"잠\", \"떴\", \"궈\", \"썼\", \"꼴\", \"實\", \"돼\", \"›\", \"짧\", \"편\", \"얄\", \"퓰\", \"룹\", \"😗\", \"뽑\", \"쬐\", \"可\", \"죽\", \"속\", \"셀\", \"抗\", \"송\", \"亨\", \"여\", \"春\", \"耕\", \"魯\", \"큼\", \"애\", \"란\", \"투\", \"령\", \"치\", \"화\", \"魚\", \"軍\", \"특\", \"빙\", \"성\", \"驚\", \"레\", \"띈\", \"틈\", \"命\", \"의\", \"‬\", \"덩\", \"一\", \"믄\", \"료\", \"알\", \":\", \"😱\", \"핏\", \"盟\", \"皮\", \"넛\", \"卒\", \"◑\", \"탰\", \"댁\", \"。\", \"😊\", \"팡\", \"독\", \"子\", \"帝\", \"갛\", \"濁\", \"홋\", \"텐\", \"修\", \"山\", \"숲\", \"☞\", \"程\", \"된\", \"빛\", \"㎞\", \"낄\", \"붉\", \"略\", \"玉\", \"캇\", \"젓\", \"썸\", \"▒\", \"乳\", \"●\", \"쩡\", \"늦\", \"샹\", \"不\", \"믿\", \"헌\", \"⑤\", \"■\", \"돈\", \"專\", \"춧\", \"중\", \"육\", \"峰\", \"휙\", \"엎\", \"쵸\", \"각\", \"望\", \"더\", \"규\", \"쁨\", \"道\", \"끽\", \"@\", \"폭\", \"숭\", \"곶\", \"🙇\", \"환\", \"택\", \"팅\", \"볶\", \"籍\", \"業\", \"ʏ\", \"常\", \"三\", \"呪\", \"쥔\", \"安\", \"리\", \"뻔\", \"풀\", \"개\", \"뵐\", \"많\", \"ń\", \"킷\", \"생\", \"융\", \"라\", \"土\"]", - "reversible": false - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/ar": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 2813283, - "_n_tokens": 1422081, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/de": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1814876, - "_n_tokens": 527320, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/en": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1124813, - "_n_tokens": 284627, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/es": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1664455, - "_n_tokens": 482235, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/fa": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 2054052, - "_n_tokens": 1145076, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/fr": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1540504, - "_n_tokens": 447243, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/ja": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1774770, - "_n_tokens": 718461, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/ko": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 1524839, - "_n_tokens": 954428, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/Phi-3-mini-4k-instruct @ cc100/zh-Hans": { - "tokenizer": "Phi-3-mini-4k-instruct", - "organization": "Microsoft", - "vocab_size": 32011, - "_n_bytes": 2633047, - "_n_tokens": 1320093, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "microsoft/phi-1 @ cc100/ar": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2813283, - "_n_tokens": 1558111, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/de": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1814876, - "_n_tokens": 684665, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/en": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1124813, - "_n_tokens": 258409, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/es": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1664455, - "_n_tokens": 569853, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/fa": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2054052, - "_n_tokens": 1292300, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/fr": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1540504, - "_n_tokens": 521776, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/ja": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1774770, - "_n_tokens": 844362, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/ko": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1524839, - "_n_tokens": 1308988, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-1 @ cc100/zh-Hans": { - "tokenizer": "phi-1", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2633047, - "_n_tokens": 1876809, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/ar": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2813283, - "_n_tokens": 1558111, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/de": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1814876, - "_n_tokens": 684665, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/en": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1124813, - "_n_tokens": 258409, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/es": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1664455, - "_n_tokens": 569853, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/fa": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2054052, - "_n_tokens": 1292300, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/fr": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1540504, - "_n_tokens": 521776, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/ja": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1774770, - "_n_tokens": 844362, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/ko": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 1524839, - "_n_tokens": 1308988, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "microsoft/phi-2 @ cc100/zh-Hans": { - "tokenizer": "phi-2", - "organization": "Microsoft", - "vocab_size": 50295, - "_n_bytes": 2633047, - "_n_tokens": 1876809, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "mistralai/Mistral-7B-v0.1 @ cc100/ar": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 1396319, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/de": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 567526, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/en": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 275801, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/es": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 503915, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/fa": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 1123278, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/fr": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 466666, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/ja": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 675134, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/ko": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 718766, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mistral-7B-v0.1 @ cc100/zh-Hans": { - "tokenizer": "Mistral-7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1031023, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/ar": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 1396319, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/de": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 567526, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/en": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 275801, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/es": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 503915, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/fa": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 1123278, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/fr": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 466666, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/ja": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 675134, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/ko": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 718766, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "mistralai/Mixtral-8x7B-v0.1 @ cc100/zh-Hans": { - "tokenizer": "Mixtral-8x7B-v0.1", - "organization": "Mistral", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 1031023, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai-community/gpt2 @ cc100/ar": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 2813283, - "_n_tokens": 1558111, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/de": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1814876, - "_n_tokens": 684669, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/es": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1664455, - "_n_tokens": 569853, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/fa": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 2054052, - "_n_tokens": 1292300, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/fr": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1540504, - "_n_tokens": 521776, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/ja": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1774770, - "_n_tokens": 844362, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "openai-community/gpt2 @ cc100/ko": { - "tokenizer": "gpt2", - "organization": "OpenAI", - "vocab_size": 50257, - "_n_bytes": 1524839, - "_n_tokens": 1309029, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "openai/code-davinci-002 @ cc100/ar": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2813283, - "_n_tokens": 1558111, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/de": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1814876, - "_n_tokens": 684666, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/es": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1664455, - "_n_tokens": 569853, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/fa": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2054052, - "_n_tokens": 1292300, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/fr": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1540504, - "_n_tokens": 521776, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/ja": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1774770, - "_n_tokens": 844362, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/code-davinci-002 @ cc100/ko": { - "tokenizer": "code-davinci-002", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1524839, - "_n_tokens": 1308993, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/ar": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2813283, - "_n_tokens": 1105640, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/de": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1814876, - "_n_tokens": 500870, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/es": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1664455, - "_n_tokens": 433875, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/fa": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2054052, - "_n_tokens": 818067, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/fr": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1540504, - "_n_tokens": 412685, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/ja": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1774770, - "_n_tokens": 630348, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-3.5-turbo @ cc100/ko": { - "tokenizer": "gpt-3.5-turbo", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1524839, - "_n_tokens": 652277, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/ar": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2813283, - "_n_tokens": 1105640, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/de": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1814876, - "_n_tokens": 500870, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/es": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1664455, - "_n_tokens": 433875, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/fa": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 2054052, - "_n_tokens": 818067, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/fr": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1540504, - "_n_tokens": 412685, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/ja": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1774770, - "_n_tokens": 630348, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4 @ cc100/ko": { - "tokenizer": "gpt-4", - "organization": "OpenAI", - "vocab_size": 100277, - "_n_bytes": 1524839, - "_n_tokens": 652277, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/ar": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 2813283, - "_n_tokens": 514909, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/de": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1814876, - "_n_tokens": 412599, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/es": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1664455, - "_n_tokens": 367655, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/fa": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 2054052, - "_n_tokens": 379156, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/fr": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1540504, - "_n_tokens": 353101, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/ja": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1774770, - "_n_tokens": 452794, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/gpt-4o @ cc100/ko": { - "tokenizer": "gpt-4o", - "organization": "OpenAI", - "vocab_size": 200019, - "_n_bytes": 1524839, - "_n_tokens": 405624, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/ar": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2813283, - "_n_tokens": 1558111, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/de": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1814876, - "_n_tokens": 684666, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/es": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1664455, - "_n_tokens": 569853, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/fa": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 2054052, - "_n_tokens": 1292300, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/fr": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1540504, - "_n_tokens": 521776, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/ja": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1774770, - "_n_tokens": 844362, - "_n_chars": 603065, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "openai/text-davinci-003 @ cc100/ko": { - "tokenizer": "text-davinci-003", - "organization": "OpenAI", - "vocab_size": 50281, - "_n_bytes": 1524839, - "_n_tokens": 1308993, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "paust/pko-t5-large @ cc100/ar": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 2813283, - "_n_tokens": 2805586, - "_n_chars": 1560987, - "_n_oov_chars": 202, - "oov_ratio": 0.00012940530574565964, - "_oov_charset": "[\"½\", \"ﻷ\", \"ﻹ\", \"ﷺ\", \"″\", \"ﻻ\", \"…\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/de": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1814876, - "_n_tokens": 1244350, - "_n_chars": 1784021, - "_n_oov_chars": 484, - "oov_ratio": 0.0002712972549089949, - "_oov_charset": "[\"²\", \"½\", \" \", \"u\", \"™\", \"¼\", \"̈\", \"´\", \"¹\", \"…\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/es": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1664455, - "_n_tokens": 1124056, - "_n_chars": 1630297, - "_n_oov_chars": 528, - "oov_ratio": 0.0003238673689517922, - "_oov_charset": "[\"²\", \"ª\", \"º\", \"″\", \"´\", \"…\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/fa": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 2054052, - "_n_tokens": 2051040, - "_n_chars": 1145876, - "_n_oov_chars": 606, - "oov_ratio": 0.0005288530347088167, - "_oov_charset": "[\"ﮧ\", \"…\", \" \"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/fr": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1540504, - "_n_tokens": 1034665, - "_n_chars": 1484970, - "_n_oov_chars": 864, - "oov_ratio": 0.0005818299359583021, - "_oov_charset": "[\"²\", \"µ\", \"̧\", \"™\", \"″\", \"℃\", \"´\", \"̂\", \"́\", \"…\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/ja": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1774770, - "_n_tokens": 1756950, - "_n_chars": 603065, - "_n_oov_chars": 7382, - "oov_ratio": 0.012240803230165902, - "_oov_charset": "[\"T\", \"d\", \"I\", \"レ\", \"⑩\", \"b\", \"カ\", \"。\", \"Q\", \"゙\", \"H\", \"N\", \"ー\", \"]\", \"g\", \"1\", \"6\", \"か\", \"せ\", \"Z\", \".\", \"/\", \"|\", \"¥\", \"″\", \"V\", \"L\", \"メ\", \"k\", \"m\", \";\", \"U\", \"4\", \"゚\", \",\", \":\", \"フ\", \"テ\", \"S\", \"…\", \"ノ\", \"③\", \"%\", \"!\", \"?\", \"く\", \"は\", \"ㅂ\", \"y\", \"=\", \"2\", \">\", \"9\", \"ロ\", \"‥\", \"コ\", \"㎞\", \"ハ\", \"-\", \"(\", \"o\", \"ト\", \"O\", \"゚\", \"①\", \"l\", \"<\", \"_\", \"a\", \"ヒ\", \"~\", \" ̄\", \"w\", \"し\", \"゙\", \"$\", \"A\", \"F\", \"G\", \"P\", \"W\", \"コ\", \"⑪\", \"フ\", \"つ\", \"\\", \"e\", \"ゥ\", \"0\", \"Ⅹ\", \"②\", \"B\", \"ィ\", \"D\", \"´\", \"「\", \"+\", \"C\", \"E\", \"M\", \"t\", \"‼\", \"ふ\", \" \", \"・\", \"Ⅶ\", \"へ\", \"た\", \"ア\", \"」\", \"Ⅱ\", \"*\", \"@\", \"と\", \"⑧\", \")\", \"X\", \"℃\", \" \", \"ス\", \"s\", \"i\", \"h\", \"ウ\", \"リ\", \"J\", \"す\", \"[\", \"、\", \"ヨ\", \"ひ\", \"④\", \"Y\", \"8\", \"^\", \"5\", \"ハ\", \"ヘ\", \"`\", \"3\", \"r\", \"n\", \"シ\", \"ホ\", \"R\", \"K\", \"&\", \"て\", \"f\", \"7\"]", - "reversible": false - }, - "paust/pko-t5-large @ cc100/ko": { - "tokenizer": "pko-t5-large", - "organization": "PAUST", - "vocab_size": 50358, - "_n_bytes": 1524839, - "_n_tokens": 461643, - "_n_chars": 655190, - "_n_oov_chars": 1311, - "oov_ratio": 0.0020009462903890474, - "_oov_charset": "[\"²\", \"ⓒ\", \"⑨\", \"ㄴ\", \"ㅒ\", \"㎍\", \"良\", \"⑹\", \"流\", \"ㆍ\", \"㉠\", \"ㅞ\", \"ㅊ\", \"|\", \"ㅈ\", \"ㅚ\", \"累\", \"ㅠ\", \"ㄷ\", \"ⅲ\", \"龍\", \":\", \"ㅇ\", \"…\", \"③\", \"%\", \"?\", \"Ⅴ\", \"ㅎ\", \"樂\", \"ㅐ\", \"立\", \"⑴\", \"陸\", \"․\", \"ㅔ\", \"ⅱ\", \"ⓔ\", \"‥\", \"識\", \"㎞\", \"Ⅵ\", \"⑦\", \"ㅋ\", \"金\", \"ㄱ\", \"ㅗ\", \"ㅙ\", \"①\", \"ㅣ\", \"ⅳ\", \"梁\", \"⑵\", \"⑥\", \"樂\", \"Ⅷ\", \"Ⅸ\", \"ㅅ\", \"ㅍ\", \"ㅓ\", \"女\", \"ㅟ\", \"不\", \"㉰\", \"¹\", \"ㅡ\", \"⑤\", \"㎥\", \"Ⅳ\", \"ㅏ\", \"②\", \"Ⅹ\", \"⑸\", \"ㅛ\", \"「\", \"ㅕ\", \"Ⅲ\", \"ㅆ\", \"ㅘ\", \"理\", \" \", \"靈\", \"ㄹ\", \"Ⅶ\", \"ⅰ\", \"」\", \"Ⅰ\", \"Ⅱ\", \"⑧\", \"@\", \"*\", \"v\", \"℃\", \"⁴\", \"s\", \"㏊\", \"ㅁ\", \"㉣\", \"ㅑ\", \"㈜\", \"④\", \"ㅜ\", \"㎡\", \"ㅢ\", \"ㅖ\", \"ㅝ\", \"⑶\"]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/ar": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 2813283, - "_n_tokens": 1421847, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/de": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1814876, - "_n_tokens": 619822, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/en": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1124813, - "_n_tokens": 269347, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/es": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1664455, - "_n_tokens": 546501, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/fa": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 2054052, - "_n_tokens": 1145051, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/fr": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1540504, - "_n_tokens": 495052, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/ja": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1774770, - "_n_tokens": 581380, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/ko": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 1524839, - "_n_tokens": 652160, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "thu-coai/CharacterGLM-6B @ cc100/zh-Hans": { - "tokenizer": "CharacterGLM-6B", - "organization": "Tsinghua", - "vocab_size": 64789, - "_n_bytes": 2633047, - "_n_tokens": 563646, - "_n_chars": 927311, - "_n_oov_chars": 13, - "oov_ratio": 1.4019029214578496e-05, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/ar": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2813283, - "_n_tokens": 1597443, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/de": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1814876, - "_n_tokens": 497054, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/en": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1124813, - "_n_tokens": 262509, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/es": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1664455, - "_n_tokens": 442138, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/fa": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2054052, - "_n_tokens": 1246580, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/fr": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1540504, - "_n_tokens": 407853, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/ja": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1774770, - "_n_tokens": 842458, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/ko": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1524839, - "_n_tokens": 1330568, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-180b @ cc100/zh-Hans": { - "tokenizer": "falcon-180b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2633047, - "_n_tokens": 1124681, - "_n_chars": 927311, - "_n_oov_chars": 2313, - "oov_ratio": 0.0024943088133323123, - "_oov_charset": "[\"\\u0005\", \" \"]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/ar": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2813283, - "_n_tokens": 1597443, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/de": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1814876, - "_n_tokens": 497054, - "_n_chars": 1784021, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/en": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1124813, - "_n_tokens": 262509, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/es": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1664455, - "_n_tokens": 442138, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/fa": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2054052, - "_n_tokens": 1246580, - "_n_chars": 1145876, - "_n_oov_chars": 1, - "oov_ratio": 8.726947767472222e-07, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/fr": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1540504, - "_n_tokens": 407853, - "_n_chars": 1484970, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/ja": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1774770, - "_n_tokens": 842458, - "_n_chars": 603065, - "_n_oov_chars": 2, - "oov_ratio": 3.3163920970376326e-06, - "_oov_charset": "[\" \"]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/ko": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 1524839, - "_n_tokens": 1330568, - "_n_chars": 655190, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "tiiuae/falcon-7b @ cc100/zh-Hans": { - "tokenizer": "falcon-7b", - "organization": "TII", - "vocab_size": 65024, - "_n_bytes": 2633047, - "_n_tokens": 1124681, - "_n_chars": 927311, - "_n_oov_chars": 2313, - "oov_ratio": 0.0024943088133323123, - "_oov_charset": "[\"\\u0005\", \" \"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/ar": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 2813283, - "_n_tokens": 313168, - "_n_chars": 1560987, - "_n_oov_chars": 1140153, - "oov_ratio": 0.7304051859496588, - "_oov_charset": "[\"½\", \"​\", \"ً\", \".\", \"ۗ\", \"█\", \"ظ\", \"ح\", \"ۤ\", \"ل\", \"‘\", \"«\", \"μ\", \"↩\", \"•\", \"ک\", \"®\", \"ی\", \"ج\", \"ة\", \"ب\", \"ع\", \"ذ\", \"″\", \"٠\", \")\", \"﴾\", \"د\", \"ض\", \"۸\", \"‬\", \"ُ\", \"▫\", \"ز\", \"٤\", \"٥\", \"ق\", \"٪\", \"…\", \"و\", \"ي\", \"χ\", \"ﻹ\", \"ٱ\", \"أ\", \"آ\", \"خ\", \"😊\", \"α\", \"ή\", \"-\", \"😀\", \"�\", \"۰\", \"‌\", \"٣\", \"!\", \"َ\", \"⤴\", \"٩\", \"ٹ\", \"ۖ\", \"س\", \"ۚ\", \"ْ\", \"ί\", \"\\\"\", \"ن\", \"🙂\", \"\", \"Х\", \"^\", \"،\", \"ك\", \"¡\", \"ﷺ\", \"ھ\", \"ء\", \"٦\", \"ر\", \"پ\", \"ؤ\", \"٢\", \"ا\", \"▪\", \"ِ\", \"‹\", \"←\", \"ﻻ\", \"‎\", \"٧\", \"♥\", \"م\", \"ف\", \"ّ\", \"]\", \"τ\", \"[\", \"ه\", \"چ\", \"â\", \"ث\", \"؟\", \"»\", \"غ\", \"ﻷ\", \"؛\", \" \", \"_\", \"۷\", \"ρ\", \"﴿\", \"إ\", \"©\", \"ت\", \"ـ\", \"η\", \"›\", \"
\", \"ش\", \"ٌ\", \"ٍ\", \"ى\", \"٨\", \"ص\", \"‏\", \",\", \"ٰ\", \"١\", \"ئ\", \"κ\", \"۲\", \"*\", \":\", \"(\", \"ط\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/de": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1814876, - "_n_tokens": 851962, - "_n_chars": 1784021, - "_n_oov_chars": 4556, - "oov_ratio": 0.002553781597862357, - "_oov_charset": "[\"²\", \"½\", \"​\", \"j\", \".\", \"/\", \"‘\", \"«\", \"ö\", \"v\", \"N\", \"y\", \"↩\", \"m\", \"œ\", \"•\", \"😈\", \"H\", \"û\", \"s\", \"Ä\", \"¬\", \"🙁\", \"ι\", \"☺\", \")\", \";\", \"Ã\", \" \", \"I\", \"E\", \"M\", \"h\", \"G\", \"K\", \"…\", \"`\", \"B\", \"ε\", \"u\", \"S\", \"Á\", \"α\", \"b\", \"-\", \"ï\", \"k\", \"😀\", \"�\", \"♡\", \"§\", \"İ\", \"Ö\", \"á\", \"ė\", \"R\", \"£\", \"¿\", \"å\", \"≠\", \"♦\", \"ί\", \"–\", \"🙂\", \"­\", \"ß\", \"i\", \"̈\", \"t\", \"n\", \"c\", \"^\", \"Ü\", \"T\", \"e\", \"„\", \"😃\", \"a\", \"“\", \"C\", \"¹\", \"↑\", \"😦\", \"r\", \"😉\", \"´\", \"à\", \"‹\", \"ü\", \"‎\", \"♥\", \"‽\", \"¶\", \"F\", \"❤\", \"τ\", \"ớ\", \"o\", \"Ø\", \"[\", \"🙄\", \"â\", \"D\", \"p\", \"»\", \"😢\", \"l\", \"„\", \"z\", \"g\", \"L\", \"ς\", \"_\", \"ρ\", \"¤\", \"©\", \"ä\", \"¼\", \"d\", \"›\", \"\", \"f\", \"U\", \"q\", \"™\", \"Ÿ\", \"?\", \",\", \"J\", \"ń\", \"😆\", \"➔\", \"€\", \"*\", \"‚\", \"V\", \"A\", \"😂\", \"▼\", \"(\", \"ư\", \"w\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/en": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1124813, - "_n_tokens": 463681, - "_n_chars": 1121360, - "_n_oov_chars": 222, - "oov_ratio": 0.00019797388884925448, - "_oov_charset": "[\"③\", \"​\", \"⑧\", \"»\", \"🙂\", \"⑩\", \"\", \"_\", \"‘\", \"«\", \"\", \"^\", \"•\", \"¡\", \"ï\", \"😥\", \"¦\", \"®\", \"�\", \"“\", \"⑤\", \"‑\", \"😉\", \"´\", \"£\", \"⑦\", \"”\", \"…\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/es": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1664455, - "_n_tokens": 779440, - "_n_chars": 1630297, - "_n_oov_chars": 4110, - "oov_ratio": 0.002521013042408837, - "_oov_charset": "[\"²\", \"ª\", \"✪\", \"Ó\", \"Í\", \".\", \"ú\", \"/\", \"‘\", \"O\", \"«\", \"ö\", \"N\", \"m\", \"•\", \"®\", \"Ú\", \"H\", \"s\", \"🙁\", \"″\", \")\", \";\", \"✓\", \"I\", \"E\", \"M\", \"G\", \"K\", \"…\", \"—\", \"B\", \"S\", \"x\", \"Á\", \"b\", \"º\", \"-\", \"😀\", \"k\", \"’\", \"á\", \"ý\", \"R\", \"―\", \"¿\", \"ò\", \"✔\", \"▷\", \"👍\", \"️\", \"🙂\", \"­\", \"✖\", \"X\", \"i\", \"Q\", \"\", \"t\", \"n\", \"c\", \"^\", \"T\", \"¡\", \"C\", \"Z\", \"😦\", \"r\", \"😉\", \"´\", \"←\", \"é\", \"F\", \"❤\", \"o\", \"М\", \"[\", \"D\", \"»\", \"p\", \"l\", \"„\", \"g\", \"í\", \"L\", \"_\", \"Ñ\", \"©\", \"'\", \"d\", \"f\", \"U\", \"ó\", \",\", \"?\", \"J\", \"€\", \"A\", \"V\", \"P\", \"(\", \"‘\", \"👏\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/fa": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 2054052, - "_n_tokens": 268077, - "_n_chars": 1145876, - "_n_oov_chars": 891183, - "oov_ratio": 0.7777307492259198, - "_oov_charset": "[\"✿\", \"​\", \"ً\", \".\", \"◄\", \"ظ\", \"ح\", \"★\", \"ل\", \"‘\", \"«\", \"+\", \"ﮧ\", \"•\", \"ک\", \"ּ\", \"ی\", \"ج\", \"ة\", \"ب\", \"ع\", \"ذ\", \")\", \"٠\", \"د\", \"ض\", \"۸\", \"۱\", \"ُ\", \"ز\", \"٤\", \"٥\", \"ٴ\", \"ق\", \"گ\", \"٪\", \"…\", \"ي\", \"و\", \"أ\", \"آ\", \"خ\", \"ژ\", \"�\", \"۰\", \"‌\", \"۵\", \"٣\", \"!\", \"َ\", \"ٔ\", \"٩\", \"س\", \"ْ\", \"️\", \"ن\", \"­\", \"ڪ\", \"\", \"‍\", \"،\", \"٫\", \"ك\", \"۶\", \"ט\", \"ھ\", \"ء\", \"ر\", \"پ\", \"ؤ\", \"ۀ\", \"٢\", \"ا\", \"ِ\", \"‎\", \"٧\", \"♥\", \"م\", \"ف\", \"ّ\", \"]\", \"❤\", \"”\", \"[\", \"ه\", \"چ\", \"ث\", \"؟\", \"»\", \"غ\", \"ے\", \"؛\", \" \", \"۔\", \"۷\", \"۹\", \"۳\", \"إ\", \"©\", \"ت\", \"ـ\", \"ב\", \"›\", \"▐\", \"ش\", \"ۆ\", \"ٌ\", \"ٍ\", \"ى\", \"٨\", \"ص\", \"‏\", \"١\", \"ئ\", \"۲\", \":\", \"(\", \"۴\", \"ط\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/fr": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1540504, - "_n_tokens": 695164, - "_n_chars": 1484970, - "_n_oov_chars": 12806, - "oov_ratio": 0.008623743240604187, - "_oov_charset": "[\"²\", \".\", \"ë\", \"🤔\", \"/\", \"ç\", \"‘\", \"«\", \"O\", \"♠\", \"v\", \"N\", \"y\", \"m\", \"œ\", \"•\", \"è\", \"®\", \"H\", \"û\", \"s\", \"″\", \")\", \"Ç\", \"I\", \"E\", \"M\", \"G\", \"h\", \"…\", \"î\", \"B\", \"u\", \"S\", \"x\", \"♕\", \"…\", \"À\", \"Ê\", \"b\", \"̧\", \"ï\", \"😀\", \"�\", \"§\", \"’\", \"É\", \"R\", \"È\", \"ù\", \"🙂\", \"­\", \"i\", \"Q\", \"t\", \"n\", \"c\", \"µ\", \"^\", \"T\", \"ê\", \"a\", \"C\", \"r\", \"à\", \"´\", \"😉\", \"←\", \"̂\", \"é\", \"F\", \"❤\", \"o\", \"â\", \"D\", \"p\", \"»\", \"ã\", \"l\", \"z\", \"g\", \"L\", \"℃\", \"_\", \"Ô\", \"ô\", \"ğ\", \"'\", \"d\", \"f\", \"q\", \"™\", \",\", \"?\", \"Î\", \"́\", \"€\", \"A\", \"P\", \"Â\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/ja": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1774770, - "_n_tokens": 384900, - "_n_chars": 603065, - "_n_oov_chars": 8217, - "oov_ratio": 0.013625396930679113, - "_oov_charset": "[\"T\", \"捩\", \"​\", \"¥\", \"Q\", \"滓\", \"彡\", \"1\", \"液\", \"瓢\", \"◆\", \"験\", \"貪\", \"〝\", \"V\", \"k\", \"柄\", \"゚\", \"好\", \"Д\", \"テ\", \"□\", \"埃\", \"呆\", \"`\", \"◇\", \"%\", \"囁\", \"憂\", \"?\", \"舐\", \"鋲\", \"拙\", \"-\", \"着\", \"は\", \"聾\", \"ω\", \"金\", \"捲\", \"9\", \"ロ\", \"意\", \"忽\", \"匙\", \"む\", \"佇\", \"ハ\", \"▷\", \"腸\", \"ト\", \"然\", \"趨\", \"傲\", \"目\", \"😌\", \"弄\", \"^\", \"簗\", \"$\", \"快\", \"逡\", \"呟\", \"\\", \"0\", \"②\", \"贔\", \"嚥\", \"B\", \"斂\", \"「\", \"E\", \"凪\", \"❤\", \"磨\", \"♪\", \"ヽ\", \"僭\", \"へ\", \"た\", \"徊\", \"⑧\", \"羞\", \"生\", \"℃\", \"出\", \"愉\", \"悶\", \"ス\", \"リ\", \"h\", \"り\", \"[\", \"〆\", \"托\", \"ヨ\", \"ぶ\", \"澪\", \"磋\", \"恥\", \"熱\", \"n\", \"ホ\", \"慄\", \"義\", \"諺\", \"I\", \".\", \"\", \"«\", \"叭\", \"野\", \"ぉ\", \"゙\", \"─\", \"か\", \"/\", \"L\", \"メ\", \"m\", \"真\", \"艸\", \"瘻\", \"槃\", \"烹\", \"و\", \"眩\", \"直\", \"摯\", \"罵\", \"ゝ\", \"⌒\", \"y\", \"彌\", \"=\", \"衿\", \"😭\", \"俄\", \"(\", \"め\", \"お\", \"o\", \"貶\", \"峠\", \"a\", \"~\", \"梳\", \"F\", \"W\", \"逼\", \"碍\", \"帰\", \"⑪\", \"フ\", \"崎\", \"ゥ\", \"︎\", \"Ⅹ\", \"痒\", \"屹\", \"´\", \"咳\", \"瀬\", \"飴\", \"鱈\", \"欝\", \"ふ\", \"下\", \"』\", \"箭\", \"◎\", \"臆\", \"s\", \"i\", \"浣\", \"丿\", \"韮\", \"精\", \"🌙\", \"淹\", \"ヾ\", \"J\", \"覧\", \"\\b\", \"④\", \"^\", \"5\", \"◡\", \"割\", \"?\", \"頷\", \"え\", \"吠\", \"滲\", \"▼\", \"杞\", \"欲\", \"(\", \"d\", \"レ\", \"唆\", \"唸\", \"画\", \"/\", \"ゎ\", \"カ\", \"。\", \"杼\", \"®\", \"杓\", \"せ\", \".\", \"ぅ\", \"細\", \"|\", \"¥\", \";\", \";\", \"巾\", \"怪\", \"蠍\", \"莽\", \"S\", \"…\", \"ノ\", \"収\", \"③\", \"\\u001b\", \"く\", \"障\", \"⇒\", \"迫\", \"い\", \"色\", \"截\", \"淫\", \"惑\", \"♡\", \"媚\", \"入\", \"奢\", \"拭\", \"彷\", \"越\", \"靄\", \"さ\", \"心\", \"コ\", \"痴\", \"誹\", \"∇\", \"゚\", \"①\", \"馴\", \"切\", \"l\", \"<\", \"餃\", \"徘\", \"_\", \"咽\", \"̈\", \" ̄\", \"し\", \"゙\", \"草\", \"↓\", \"A\", \"G\", \"姑\", \"P\", \"唾\", \"喇\", \"纒\", \"鞄\", \"〟\", \"↑\", \"筈\", \"▽\", \"ィ\", \"D\", \"←\", \"る\", \"M\", \"‼\", \"詈\", \" \", \"・\", \"捐\", \"ア\", \"̀\", \"Ⅱ\", \"*\", \"😢\", \"立\", \"X\", \"\", \"_\", \"氷\", \"ウ\", \"す\", \"ひ\", \"押\", \"Y\", \"ハ\", \"合\", \"`\", \"碌\", \"3\", \"灼\", \"慢\", \"r\", \"シ\", \"́\", \"R\", \"謄\", \"&\", \"碓\", \"て\", \"∀\", \"謗\", \"7\", \"巡\", \"⑩\", \"b\", \"茫\", \"嘗\", \"巷\", \"烙\", \"不\", \"•\", \"腑\", \"H\", \"N\", \"噤\", \"ー\", \"]\", \"◯\", \"g\", \"6\", \"💦\", \"Z\", \"き\", \"″\", \")\", \"攫\", \"些\", \"鉢\", \"羨\", \"✨\", \"ど\", \"U\", \"4\", \"啜\", \"徨\", \"๑\", \",\", \":\", \"フ\", \"病\", \"焙\", \"弓\", \"千\", \"み\", \"!\", \"♫\", \"○\", \"び\", \"嗚\", \"😊\", \"愕\", \"ん\", \"姥\", \"�\", \"子\", \"掬\", \"ㅂ\", \"悍\", \"2\", \"膏\", \">\", \"‥\", \"残\", \"㎞\", \"垠\", \"-\", \"O\", \"恰\", \"れ\", \"ヒ\", \"w\", \"ゞ\", \"コ\", \"つ\", \"e\", \"膿\", \"⇔\", \"恣\", \"+\", \"ま\", \"C\", \"t\", \"⻑\", \"遜\", \"涅\", \"Ⅶ\", \"」\", \"@\", \"»\", \"と\", \")\", \"東\", \"琢\", \"わ\", \"捺\", \"闊\", \"っ\", \"©\", \"✧\", \"、\", \"8\", \"訝\", \"ヘ\", \"取\", \"躾\", \"闖\", \"K\", \"屓\", \"歩\", \"f\", \"嵌\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/ko": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 1524839, - "_n_tokens": 207392, - "_n_chars": 655190, - "_n_oov_chars": 466530, - "oov_ratio": 0.7120529922617866, - "_oov_charset": "[\"칸\", \"었\", \"끄\", \"峴\", \"贖\", \"긴\", \"얘\", \"취\", \"흐\", \"ㆍ\", \"갉\", \"팜\", \"맘\", \"낭\", \"땀\", \"龍\", \"슷\", \"햄\", \"굽\", \"잎\", \"ㅇ\", \"쏙\", \"꺽\", \"□\", \"활\", \"좌\", \"부\", \"멤\", \"겔\", \"갯\", \"쿵\", \"달\", \"코\", \"름\", \"둬\", \"💸\", \"총\", \"젠\", \"웹\", \"떡\", \"전\", \"헛\", \"뛸\", \"룸\", \"緞\", \"찮\", \"픔\", \"베\", \"왁\", \"켓\", \"줍\", \"坐\", \"본\", \"갭\", \"멍\", \"찬\", \"燦\", \"압\", \"팔\", \"험\", \"랄\", \"썅\", \"랫\", \"ㅟ\", \"억\", \"뽀\", \"흥\", \"잦\", \"ㅏ\", \"침\", \"릉\", \"눈\", \"펴\", \"밋\", \"즙\", \"밥\", \"며\", \"안\", \"▣\", \"❤\", \"킴\", \"섭\", \"찜\", \"찼\", \"희\", \"싶\", \"폰\", \"슴\", \"🍕\", \"쌈\", \"격\", \"面\", \"럽\", \"축\", \"뺀\", \"명\", \"윌\", \"💕\", \"북\", \"효\", \"펄\", \"처\", \"뿔\", \"쯔\", \"섞\", \"겐\", \"띕\", \"에\", \"룬\", \"등\", \"제\", \"章\", \"뎅\", \"짢\", \"약\", \"👨\", \"것\", \"껑\", \"팍\", \"빔\", \"쿠\", \"념\", \"캘\", \"∙\", \"뮈\", \"맞\", \"둘\", \"딜\", \"릴\", \"큰\", \"긍\", \"챙\", \"탱\", \"낀\", \"㉿\", \"단\", \"즈\", \"랍\", \"맨\", \"솔\", \"느\", \"머\", \"암\", \"휘\", \"떻\", \"연\", \"납\", \"허\", \"꾀\", \"도\", \"커\", \"천\", \"跏\", \"ⓔ\", \"낱\", \"天\", \"쨍\", \"졌\", \"뼘\", \"數\", \"뜰\", \"홍\", \"듯\", \"뿌\", \"렐\", \"월\", \"불\", \"댔\", \"곁\", \"깃\", \"솥\", \"장\", \"갖\", \"♤\", \"금\", \"씨\", \"꽁\", \"‍\", \"녘\", \"범\", \"쟈\", \"회\", \"찰\", \"㉰\", \"너\", \"옌\", \"相\", \"색\", \"꺼\", \"秋\", \"흄\", \"‎\", \"겸\", \"渴\", \"世\", \"뚫\", \"꿇\", \"닿\", \"ᴇ\", \"雲\", \"닦\", \"혜\", \"췌\", \"판\", \"淨\", \"🏷\", \"램\", \"좇\", \"넌\", \"참\", \"고\", \"짬\", \"았\", \"벨\", \"?\", \"땡\", \"멋\", \"형\", \"멀\", \"빌\", \"없\", \"칫\", \"춥\", \"튜\", \"➊\", \"다\", \"⑨\", \"臺\", \"폿\", \"®\", \"써\", \"원\", \"책\", \"팥\", \"르\", \"폼\", \"궁\", \"신\", \"객\", \"壞\", \"륜\", \"깨\", \"≫\", \"탐\", \"당\", \"울\", \"蟄\", \"볕\", \"툭\", \"샬\", \"위\", \"풋\", \"흡\", \"띄\", \"룡\", \"잇\", \"할\", \"툰\", \"멸\", \"잣\", \"큽\", \"밍\", \"셈\", \"勢\", \"롤\", \"쥰\", \"담\", \"⑵\", \"답\", \"빅\", \"젝\", \"빼\", \"ㅍ\", \"껍\", \"퇴\", \"션\", \"솨\", \"깜\", \"율\", \"겪\", \"그\", \"듬\", \"샤\", \"륭\", \"절\", \"씻\", \"←\", \"🗺\", \"렴\", \"컷\", \"막\", \"◐\", \"文\", \"헝\", \"돕\", \"않\", \"탑\", \"‧\", \"눴\", \"擒\", \"듭\", \"떤\", \"#\", \"풍\", \"멘\", \"빴\", \"ㅑ\", \"펜\", \"괄\", \"엉\", \"딴\", \"셰\", \"민\", \"플\", \"촬\", \"價\", \"덜\", \"뱀\", \"놔\", \"옥\", \"ㅖ\", \"닝\", \"쿨\", \"水\", \"거\", \"훔\", \"지\", \"톨\", \"테\", \"述\", \"ㄴ\", \"훌\", \"핍\", \"윗\", \"점\", \"댈\", \"률\", \"논\", \"•\", \"🍞\", \"쯤\", \"빚\", \"쉼\", \"斗\", \"禮\", \"냐\", \"합\", \"아\", \"💦\", \"골\", \"뜨\", \"둥\", \"黃\", \"한\", \"끙\", \"즘\", \"띤\", \"➎\", \"젖\", \"묶\", \"臀\", \"온\", \"근\", \"찾\", \"얍\", \"오\", \"사\", \"되\", \"Ⅴ\", \"꿍\", \"륙\", \"立\", \"삣\", \"ᴍ\", \"응\", \"티\", \"왔\", \"짠\", \"🍔\", \"혐\", \"‥\", \"굶\", \"습\", \"🍭\", \"係\", \"❏\", \"낯\", \"려\", \"삭\", \"밀\", \"물\", \"떠\", \"걍\", \"Ⅸ\", \"닫\", \"理\", \"엌\", \"떼\", \"상\", \"눅\", \"꽉\", \"퀘\", \"펠\", \"보\", \"받\", \"웬\", \"밧\", \"¹\", \"Ⅳ\", \"킁\", \"둔\", \"초\", \"뭉\", \"光\", \"悧\", \"💌\", \"왕\", \"겟\", \"♥\", \"께\", \"첫\", \"훑\", \"ㄹ\", \"왼\", \"링\", \"펼\", \"💡\", \"」\", \"넷\", \"챨\", \"썰\", \"학\", \"씀\", \"멈\", \"♣\", \"렇\", \"©\", \"짝\", \"參\", \"녕\", \"쪽\", \"뭔\", \"죤\", \"떨\", \"있\", \"궐\", \"렜\", \"쌉\", \"짚\", \"🌳\", \"몰\", \"듈\", \"☎\", \"쏠\", \"츠\", \"붙\", \"쟁\", \"갱\", \"낫\", \"요\", \"훼\", \"췄\", \"韜\", \"릭\", \"꿀\", \"죄\", \"🤟\", \"歲\", \"ㅚ\", \"ⅲ\", \"칠\", \"잼\", \"흙\", \"꺄\", \"엑\", \"킌\", \"덧\", \"욜\", \"잉\", \"`\", \"◇\", \"죠\", \"긋\", \"챔\", \"벽\", \"헉\", \"재\", \"쎈\", \"양\", \"푼\", \"웠\", \"➏\", \"-\", \"워\", \"펌\", \"체\", \"k\", \"⑴\", \"ω\", \"닥\", \"누\", \"뤘\", \"툼\", \"⬇\", \"팰\", \"옵\", \"낼\", \"쓸\", \"▷\", \"ㅗ\", \"듐\", \"ⅳ\", \"디\", \"감\", \"늘\", \"將\", \"러\", \"계\", \"솜\", \"될\", \"뛴\", \"슝\", \"콕\", \"🙆\", \"캄\", \"봇\", \"뻑\", \"뀐\", \"롭\", \"쌩\", \"「\", \"과\", \"琪\", \"딥\", \"ㅘ\", \"퉁\", \"賣\", \"횟\", \"든\", \"굵\", \"⑧\", \"💰\", \"벅\", \"똘\", \"액\", \"℃\", \"넵\", \"읍\", \"쉘\", \"峙\", \"셜\", \"카\", \"靑\", \"끗\", \"듀\", \"능\", \"퀀\", \"마\", \"쟤\", \"ɪ\", \"誡\", \"깥\", \"릿\", \"끼\", \"槪\", \"놓\", \"꿨\", \".\", \"얕\", \"삿\", \"샌\", \"ㅒ\", \"석\", \"국\", \"턴\", \"엣\", \"겨\", \"역\", \"卽\", \"藥\", \"탈\", \"끊\", \"펀\", \"經\", \"겠\", \"만\", \"렛\", \"드\", \"섣\", \"콩\", \"캉\", \"칭\", \"뺏\", \"탁\", \"앞\", \"땐\", \"꾸\", \"쉰\", \"빠\", \"숙\", \"섰\", \"뼈\", \"핵\", \"괌\", \"슨\", \"댐\", \"씬\", \"曆\", \"첩\", \"어\", \"했\", \"냥\", \"건\", \"걷\", \"크\", \"창\", \"좁\", \"룩\", \"승\", \"런\", \"뮌\", \"세\", \"촌\", \"뜩\", \"곰\", \"호\", \"음\", \"깅\", \"식\", \"샴\", \"뭐\", \"펩\", \"딩\", \"팠\", \"쒀\", \"영\", \"뚜\", \"벳\", \"친\", \"랜\", \"빗\", \"셔\", \"Ⅹ\", \"둑\", \"︎\", \"奉\", \"항\", \"휠\", \"쫄\", \"인\", \"품\", \"갇\", \"쨌\", \"녁\", \"쁘\", \"롱\", \"뮬\", \"뻐\", \"꿰\", \"◦\", \"팁\", \"몬\", \"ᴡ\", \"◎\", \"템\", \"틸\", \"⁴\", \"져\", \"덟\", \"랙\", \"뿜\", \"익\", \"류\", \"증\", \"잰\", \"켐\", \"횡\", \"얽\", \"렀\", \"꽝\", \"쏭\", \"방\", \"갚\", \"(\", \"吳\", \"넹\", \"榜\", \"털\", \"복\", \"텨\", \"욱\", \"기\", \"봅\", \"향\", \"칩\", \"견\", \"락\", \"콥\", \"옳\", \"엇\", \"림\", \"핀\", \"ㅈ\", \"녹\", \"소\", \"널\", \"벵\", \"쾅\", \"制\", \"귀\", \"십\", \"🌿\", \"😣\", \"떳\", \"…\", \"윤\", \"났\", \"졸\", \"⇒\", \"툴\", \"🤕\", \"잤\", \"렸\", \"넨\", \"셨\", \"뜻\", \"🏫\", \"묻\", \"🦅\", \"濟\", \"두\", \"ⅱ\", \"🚨\", \"!\", \"귤\", \"끈\", \"악\", \"집\", \"뜸\", \"쪄\", \"숫\", \"金\", \"선\", \"줄\", \"헐\", \"①\", \"☀\", \"클\", \"뫼\", \"튼\", \"꿈\", \"컵\", \"궜\", \"덴\", \"↓\", \"묵\", \"을\", \"키\", \"줘\", \"뭇\", \"표\", \"킨\", \"戮\", \"🦄\", \"홉\", \"돌\", \"젤\", \"잊\", \"꾼\", \"씽\", \"귈\", \"숨\", \"뢰\", \"존\", \"쳐\", \"넬\", \"륨\", \"쑤\", \"태\", \"康\", \"욕\", \"럿\", \"닷\", \"發\", \"델\", \"밉\", \"로\", \"쉬\", \"톡\", \"헬\", \"셉\", \"🍰\", \"갤\", \"캠\", \"앓\", \"후\", \"확\", \"ㅜ\", \"뺐\", \"봤\", \"결\", \"른\", \"녀\", \"🌵\", \"枯\", \"히\", \"해\", \"구\", \"무\", \"켄\", \"략\", \"힉\", \"낡\", \"춰\", \"뇌\", \"맡\", \"퀸\", \"균\", \"타\", \"완\", \"곤\", \"侯\", \"飮\", \"때\", \"데\", \"팬\", \")\", \"둡\", \"냈\", \"교\", \"觸\", \"찔\", \"콜\", \"대\", \"덤\", \"임\", \"텅\", \"옮\", \"최\", \"쫀\", \"∼\", \"가\", \"樂\", \"�\", \"눠\", \"․\", \"§\", \"튀\", \"출\", \"즉\", \"군\", \"님\", \"~\", \"끝\", \"딤\", \"문\", \"쪼\", \"£\", \"⑦\", \"봄\", \"곽\", \"쥐\", \"착\", \"ㅣ\", \"섹\", \"맛\", \"컨\", \"뗀\", \"숯\", \"홀\", \"벚\", \"릇\", \"녔\", \"깔\", \"흑\", \"햇\", \"왠\", \"쌓\", \"먼\", \"돗\", \"앵\", \"德\", \"짜\", \"네\", \"폍\", \"올\", \"얻\", \"헨\", \"혼\", \"걀\", \" \", \"엄\", \"록\", \"걸\", \"쫓\", \"샵\", \"내\", \"팩\", \"륵\", \"갈\", \"굿\", \"➍\", \"€\", \"㎡\", \"⑶\", \"텁\", \"쓰\", \"​\", \"턱\", \"ᴛ\", \"준\", \"쩌\", \"蚩\", \"ᴏ\", \"닙\", \"劍\", \"유\", \"흘\", \"ㅞ\", \"◆\", \"엠\", \"關\", \"綃\", \"짭\", \"튠\", \"움\", \"앉\", \"엿\", \"ᴀ\", \"흔\", \"앗\", \"척\", \"괴\", \"쓴\", \"눔\", \"우\", \"둠\", \"멜\", \"첨\", \"씌\", \"〮\", \"탓\", \"까\", \"서\", \"켤\", \"👋\", \"Ⅵ\", \"줏\", \"현\", \"뱅\", \"시\", \"밖\", \"웁\", \"️\", \"◼\", \"弛\", \"뀔\", \"쐐\", \"됨\", \"ㅅ\", \"게\", \"낮\", \"댄\", \"푹\", \"✈\", \"먹\", \"🤭\", \"②\", \"뿍\", \"뱉\", \"쁜\", \"➌\", \"경\", \"ㅕ\", \"쉴\", \"理\", \"섯\", \"츈\", \"뮤\", \"璿\", \"넥\", \"야\", \"뽐\", \"입\", \"꿕\", \"및\", \"터\", \"퍽\", \"운\", \"픽\", \"팹\", \"㈜\", \"짙\", \"팝\", \"쿰\", \"童\", \"食\", \"캡\", \"🙋\", \"💣\", \"榮\", \"팟\", \"혔\", \"쏘\", \"싯\", \"광\", \"들\", \"용\", \"잔\", \"뉘\", \"김\", \"듣\", \"룰\", \"뤄\", \"랑\", \"줌\", \"닛\", \"꼈\", \"람\", \"껏\", \"숏\", \"새\", \"잖\", \"난\", \"쁠\", \"엔\", \"관\", \"㎍\", \"良\", \"일\", \"뻤\", \"립\", \"첸\", \"벗\", \"璣\", \"쭉\", \"맹\", \"흰\", \"ㄷ\", \"앙\", \"하\", \"긁\", \"⚀\", \"함\", \"봬\", \"징\", \"삽\", \"칙\", \"덕\", \"웍\", \"렉\", \"킬\", \"몫\", \"펙\", \"으\", \"래\", \"뛰\", \"값\", \"늬\", \"쭙\", \"딱\", \"엽\", \"따\", \"😭\", \"띠\", \"燭\", \"◾\", \"뜹\", \"깊\", \"넘\", \"탠\", \"쫒\", \"씹\", \"동\", \"촛\", \"­\", \"尤\", \"촉\", \"꼽\", \"찌\", \"흩\", \"女\", \"💅\", \"셸\", \"돔\", \"뇨\", \"냉\", \"궤\", \"뒀\", \"똥\", \"텍\", \"옐\", \"켈\", \"톰\", \"㎥\", \"럼\", \"넣\", \"部\", \"겼\", \"돠\", \"쿼\", \"숍\", \"폈\", \"굉\", \"덮\", \"닉\", \"샐\", \"훗\", \"핫\", \"렷\", \"뿐\", \"俠\", \"맑\", \"깁\", \"픕\", \"짐\", \"훈\", \"㏊\", \"프\", \"톱\", \"껀\", \"④\", \"흗\", \"뭘\", \"🤗\", \"겹\", \"번\", \"탕\", \"킹\", \"ㅝ\", \"▶\", \"▼\", \"힙\", \"브\", \"└\", \"핥\", \"층\", \"니\", \"땠\", \"열\", \"‘\", \"읊\", \"를\", \"바\", \"늄\", \"나\", \"자\", \"얏\", \"땅\", \"핸\", \"심\", \"반\", \"폄\", \";\", \"찢\", \"뒤\", \"↕\", \"롬\", \"던\", \"닮\", \"쿄\", \"\", \"트\", \"미\", \"빳\", \"趺\", \"③\", \"밤\", \"뎀\", \"좆\", \"녜\", \"은\", \"팀\", \"♡\", \"걔\", \"벼\", \"와\", \"끔\", \"낍\", \"識\", \"벤\", \"쩔\", \"백\", \"예\", \"왜\", \"ㅙ\", \"밴\", \"셋\", \"⑥\", \"힌\", \"Ⅷ\", \"묘\", \"샘\", \"년\", \"박\", \"질\", \"쩐\", \"說\", \"틋\", \"↑\", \"딪\", \"ㅛ\", \"글\", \"맥\", \"버\", \"載\", \"렬\", \"ʟ\", \"웰\", \"곧\", \" \", \"諒\", \"탭\", \"뀌\", \"ⅰ\", \"배\", \"Ⅰ\", \"쏜\", \"拜\", \"밭\", \"싫\", \"v\", \"셌\", \"悖\", \"슐\", \"≤\", \"노\", \"수\", \"밟\", \"엮\", \"쭈\", \"홑\", \"텔\", \"즌\", \"劫\", \"순\", \"족\", \"꼬\", \"량\", \"쌀\", \"냅\", \"끌\", \"밝\", \"밌\", \"붓\", \"P\", \"😂\", \"쎄\", \"별\", \"닭\", \"득\", \"雙\", \"퀄\", \"ⓒ\", \"높\", \"극\", \"왓\", \"됩\", \"촘\", \"갔\", \"흉\", \"짤\", \"팎\", \"행\", \"팽\", \"날\", \"필\", \"콰\", \"쫑\", \"썬\", \"읽\", \"뵙\", \"넓\", \"강\", \"급\", \"술\", \"얼\", \"꿔\", \"힜\", \"ㅠ\", \"통\", \"캣\", \"◈\", \"엡\", \"농\", \"간\", \"분\", \"낳\", \"%\", \"황\", \"꽂\", \"탄\", \"솟\", \"쇠\", \"ㅐ\", \"잴\", \"겉\", \"슬\", \"屠\", \"꽃\", \"쐬\", \"실\", \"뾱\", \"\", \"퀴\", \"큐\", \"므\", \"뚝\", \"닳\", \"똑\", \"맴\", \"푸\", \"人\", \"몹\", \"\", \"쌍\", \"패\", \"법\", \"흠\", \"쉽\", \"킥\", \"헤\", \"ㅡ\", \"뺑\", \"몸\", \"냠\", \"홈\", \"⑸\", \"웖\", \"면\", \"말\", \"찍\", \"츄\", \"맺\", \"퍙\", \"탬\", \"]\", \"體\", \"작\", \"뜯\", \"◀\", \"깽\", \"靈\", \"는\", \"Ⅶ\", \"청\", \"랬\", \"붐\", \"🍟\", \"틔\", \"눕\", \"對\", \"빈\", \"쳤\", \"좀\", \"진\", \"옆\", \"혁\", \"겁\", \"假\", \"믐\", \"칼\", \"쥬\", \"삐\", \"딸\", \"캔\", \"혀\", \"짓\", \"節\", \"붕\", \"피\", \"적\", \"譯\", \"👏\", \"걱\", \"맬\", \"볍\", \"훨\", \"왘\", \"같\", \"볼\", \"뉜\", \"차\", \"⑹\", \"저\", \"㉠\", \"ㅊ\", \"덥\", \"짊\", \"됐\", \"산\", \"잃\", \"싱\", \"검\", \"캐\", \"폐\", \"累\", \"춘\", \"❍\", \"짖\", \"랭\", \"렁\", \"페\", \"픈\", \"뷔\", \"獻\", \"%\", \"슈\", \"옛\", \"낚\", \"?\", \"死\", \"잡\", \"린\", \"ㅎ\", \"낸\", \"종\", \"옴\", \"앰\", \"살\", \"氣\", \"쾌\", \"뜬\", \"ㅔ\", \"삘\", \"쿡\", \"⋅\", \"훅\", \"갑\", \"옹\", \"정\", \"빡\", \"괜\", \"ㅋ\", \"ㄱ\", \"즐\", \"👍\", \"ᴄ\", \"윈\", \"쫗\", \"쇄\", \"넉\", \"앨\", \"빵\", \"추\", \"ㅓ\", \"^\", \"♧\", \"섦\", \"칵\", \"投\", \"텝\", \"🙌\", \"깐\", \"빨\", \"놈\", \"롸\", \"늙\", \"像\", \"뒷\", \"망\", \"킵\", \"샀\", \"ã\", \"공\", \"🏻\", \"힐\", \"또\", \"內\", \"닌\", \"ㅁ\", \"㉣\", \"론\", \"발\", \"늑\", \"빕\", \"굴\", \"됬\", \"싹\", \"접\", \"🥁\", \"핑\", \"🤔\", \"딛\", \"권\", \"⊙\", \"옷\", \"꺾\", \"맵\", \"슛\", \"텀\", \"설\", \"블\", \"💥\", \"쑥\", \"였\", \"못\", \"삶\", \"♀\", \"쏟\", \"🍎\", \"렘\", \"틴\", \"벙\", \"직\", \"럭\", \"협\", \"줬\", \"촨\", \"싸\", \"쇼\", \"컸\", \"陸\", \"댓\", \"🚿\", \"퀵\", \"끓\", \"씩\", \"충\", \"획\", \"모\", \"꼭\", \"✔\", \"土\", \"휴\", \"눌\", \"깡\", \"뻗\", \"톤\", \"욥\", \"樂\", \"퍼\", \"쾨\", \"껴\", \"쩍\", \"놀\", \"훠\", \"폴\", \"짱\", \"튿\", \"춤\", \"‪\", \"Z\", \"빤\", \"낌\", \"初\", \"랴\", \"↔\", \"켰\", \"∮\", \"딧\", \"뱃\", \"염\", \"스\", \"떄\", \"뤼\", \"케\", \"랐\", \"갓\", \"戌\", \"포\", \"변\", \"s\", \"남\", \"몽\", \"첼\", \"철\", \"섬\", \"굳\", \"랩\", \"혈\", \"윙\", \"목\", \"퓨\", \"펑\", \"힘\", \"얀\", \"릅\", \"ㅢ\", \"곡\", \"몇\", \"놨\", \"밸\", \"렵\", \"²\", \"언\", \"컬\", \"낙\", \"틱\", \"측\", \"벌\", \"流\", \"應\", \"뭥\", \"휩\", \"|\", \"력\", \"루\", \"센\", \"곱\", \"숟\", \"챌\", \"맷\", \"≪\", \"외\", \"업\", \"쓕\", \"썹\", \"길\", \"삼\", \"롯\", \"븐\", \"앤\", \"➋\", \"냄\", \"싼\", \"뉴\", \"딘\", \"좋\", \"獨\", \"토\", \"젊\", \"썩\", \"色\", \"쳇\", \"채\", \"컴\", \"튬\", \"혹\", \"變\", \"웃\", \"닐\", \"봐\", \"챗\", \"샷\", \"잘\", \"돋\", \"꽤\", \"례\", \"쿤\", \"웅\", \"앱\", \"켠\", \"🔹\", \"梁\", \"째\", \"곳\", \"럴\", \"파\", \"튄\", \"앎\", \"맙\", \"메\", \"숱\", \"비\", \"렌\", \"봉\", \"밑\", \"련\", \"켜\", \"이\", \"콘\", \"콤\", \"잭\", \"틀\", \"깝\", \"믹\", \"매\", \"웨\", \"얇\", \"敎\", \"싣\", \"Ⅲ\", \"ㅆ\", \"조\", \"얹\", \"멕\", \"뮐\", \"뷰\", \"손\", \"엘\", \"Ⅱ\", \"*\", \"평\", \"릎\", \"주\", \"鎭\", \"_\", \"잠\", \"떴\", \"궈\", \"썼\", \"꼴\", \"돼\", \"›\", \"짧\", \"편\", \"얄\", \"퓰\", \"룹\", \"😗\", \"뽑\", \"쬐\", \"죽\", \"속\", \"셀\", \"송\", \"여\", \"春\", \"큼\", \"애\", \"란\", \"투\", \"령\", \"치\", \"화\", \"軍\", \"특\", \"빙\", \"성\", \"레\", \"띈\", \"틈\", \"의\", \"‬\", \"덩\", \"믄\", \"료\", \"알\", \":\", \"😱\", \"핏\", \"넛\", \"◑\", \"탰\", \"댁\", \"😊\", \"팡\", \"독\", \"갛\", \"홋\", \"텐\", \"숲\", \"☞\", \"된\", \"빛\", \"㎞\", \"낄\", \"붉\", \"略\", \"캇\", \"젓\", \"썸\", \"▒\", \"쩡\", \"늦\", \"샹\", \"不\", \"믿\", \"헌\", \"⑤\", \"돈\", \"專\", \"춧\", \"중\", \"육\", \"휙\", \"엎\", \"쵸\", \"각\", \"더\", \"규\", \"쁨\", \"끽\", \"@\", \"»\", \"폭\", \"숭\", \"곶\", \"🙇\", \"환\", \"택\", \"팅\", \"볶\", \"ʏ\", \"쥔\", \"리\", \"뻔\", \"풀\", \"개\", \"뵐\", \"많\", \"ń\", \"킷\", \"생\", \"융\", \"라\", \"병\"]", - "reversible": false - }, - "tohoku-nlp/bert-base-japanese @ cc100/zh-Hans": { - "tokenizer": "bert-base-japanese", - "organization": "Tohoku", - "vocab_size": 32000, - "_n_bytes": 2633047, - "_n_tokens": 633038, - "_n_chars": 927311, - "_n_oov_chars": 391681, - "oov_ratio": 0.42238364475348616, - "_oov_charset": "[\"T\", \"申\", \"舰\", \"辩\", \"赡\", \"卷\", \"哎\", \"博\", \"谀\", \"岂\", \"力\", \"委\", \"唏\", \"婺\", \"叉\", \"滓\", \"黯\", \"1\", \"液\", \"烘\", \"福\", \"蓝\", \"饭\", \"全\", \"敝\", \"净\", \"漓\", \"似\", \"翘\", \"丫\", \"粽\", \"啃\", \"喻\", \"V\", \"龇\", \"牲\", \"装\", \"核\", \"惰\", \"报\", \"寨\", \"缸\", \"掏\", \"颈\", \"箍\", \"晰\", \"迎\", \"窗\", \"雏\", \"猎\", \"雌\", \"拨\", \"冷\", \"M\", \"法\", \"呆\", \"汐\", \"袖\", \"砖\", \"菁\", \"整\", \"晕\", \"炒\", \"锤\", \"舐\", \"抑\", \"爆\", \"墙\", \"败\", \"碳\", \"泡\", \"的\", \"惯\", \"鉴\", \"秒\", \"壕\", \"瀛\", \"坡\", \"至\", \"浏\", \"嫉\", \"营\", \"礴\", \"怵\", \"彪\", \"谜\", \"娅\", \"辜\", \"封\", \"排\", \"凹\", \"咀\", \"寺\", \"统\", \"烬\", \"爸\", \"耸\", \"壓\", \"丛\", \"带\", \"砍\", \"撩\", \"尔\", \"情\", \"撞\", \"嗅\", \"匙\", \"时\", \"听\", \"犰\", \"涯\", \"递\", \"幽\", \"惮\", \"哒\", \"迷\", \"殊\", \"慰\", \"俨\", \"茵\", \"窿\", \"柳\", \"坐\", \"鹕\", \"沓\", \"微\", \"差\", \"珀\", \"傲\", \"匀\", \"优\", \"耶\", \"骰\", \"阀\", \"纰\", \"栏\", \"燃\", \"贾\", \"曲\", \"庚\", \"卡\", \"快\", \"经\", \"宾\", \"姻\", \"龟\", \"撸\", \"ό\", \"烊\", \"谱\", \"坂\", \"惧\", \"讨\", \"兴\", \"寸\", \"烛\", \"芮\", \"瘦\", \"叙\", \"虞\", \"槿\", \"瑰\", \"莉\", \"篱\", \"欺\", \"会\", \"顷\", \"傻\", \"猛\", \"籽\", \"看\", \"局\", \"开\", \"插\", \"坏\", \"矛\", \"马\", \"铛\", \"徊\", \"逢\", \"陆\", \"墅\", \"羞\", \"剂\", \"生\", \"把\", \"肉\", \"饶\", \"勺\", \"出\", \"扭\", \"髦\", \"先\", \"澳\", \"与\", \"拍\", \"面\", \"埋\", \"缪\", \"[\", \"醉\", \"托\", \"啡\", \"蹊\", \"罐\", \"蓉\", \"巧\", \"延\", \"嘴\", \"杯\", \"旁\", \"呜\", \"能\", \"摘\", \"樊\", \"寿\", \"笆\", \"颇\", \"侍\", \"盲\", \"熹\", \"话\", \"贝\", \"侠\", \"邹\", \"幢\", \"或\", \"捏\", \"计\", \"借\", \"哮\", \"垢\", \"溜\", \"穿\", \"仓\", \"洋\", \"综\", \"曳\", \"黔\", \"柱\", \"伺\", \"洪\", \"臂\", \"章\", \"淇\", \"辣\", \"挥\", \"手\", \"个\", \"朦\", \"泣\", \"糯\", \"愿\", \"者\", \"赃\", \"涩\", \"典\", \"领\", \"稳\", \"唬\", \"墉\", \"巩\", \"豪\", \"藐\", \"注\", \"因\", \"凯\", \"剥\", \"甘\", \"選\", \"悉\", \"喝\", \"苏\", \"畴\", \"冈\", \"链\", \"贵\", \"俭\", \"秃\", \"剧\", \"孤\", \"等\", \"享\", \"汉\", \"贮\", \"铎\", \"恃\", \"大\", \"帖\", \"已\", \"眩\", \"栖\", \"弃\", \"束\", \"男\", \"丘\", \"璧\", \"页\", \"良\", \"记\", \"茎\", \"河\", \"咙\", \"钦\", \"饥\", \"敬\", \"蹦\", \"喃\", \"镳\", \"乙\", \"女\", \"搜\", \"斋\", \"邑\", \"滚\", \"蚀\", \"邮\", \"史\", \"邯\", \"璎\", \"溅\", \"犹\", \"譬\", \"眨\", \"兽\", \"伍\", \"天\", \"焦\", \"寓\", \"答\", \"线\", \"偻\", \"誉\", \"凰\", \"钓\", \"罪\", \"捧\", \"俄\", \"质\", \"脾\", \"消\", \"更\", \"祷\", \"妹\", \"嚷\", \"铸\", \"o\", \"识\", \"续\", \"糟\", \"雁\", \"娴\", \"罢\", \"祥\", \"毯\", \"碗\", \"弟\", \"品\", \"钝\", \"辕\", \"鞋\", \"猫\", \"单\", \"蠢\", \"髓\", \"爰\", \"隙\", \"浇\", \"夷\", \"唯\", \"欧\", \"虱\", \"厥\", \"烷\", \"还\", \"钧\", \"值\", \"绝\", \"再\", \"毗\", \"帆\", \"相\", \"短\", \"姐\", \"雄\", \"斯\", \"扯\", \"湃\", \"梁\", \"嫂\", \"跃\", \"r\", \"屏\", \"魇\", \"瑥\", \"保\", \"要\", \"秋\", \"州\", \"稣\", \"浙\", \"脚\", \"窥\", \"辽\", \"房\", \"藉\", \"轼\", \"下\", \"地\", \"狗\", \"堡\", \"雍\", \"绕\", \"聚\", \"采\", \"喷\", \"澈\", \"四\", \"艳\", \"富\", \"礁\", \"渴\", \"徽\", \"世\", \"萍\", \"偿\", \"锚\", \"徙\", \"湘\", \"余\", \"愤\", \"耦\", \"彤\", \"炝\", \"座\", \"远\", \"捅\", \"魅\", \"俑\", \"i\", \"篓\", \"价\", \"狡\", \"聋\", \"泵\", \"鸠\", \"熨\", \"污\", \"淹\", \"肋\", \"犷\", \"幸\", \"违\", \"靛\", \"肚\", \"嘟\", \"英\", \"我\", \"戸\", \"伞\", \"5\", \"导\", \"撇\", \"茅\", \"雇\", \"媒\", \"殖\", \"圩\", \"昵\", \"彭\", \"陕\", \"吠\", \"除\", \"韩\", \"是\", \"渊\", \"度\", \"啤\", \"逗\", \"饰\", \"惺\", \"宿\", \"绣\", \"谬\", \"d\", \"瞒\", \"⑨\", \"队\", \"境\", \"祟\", \"彬\", \"筝\", \"霞\", \"凌\", \"邦\", \"爻\", \"术\", \"肆\", \"臃\", \"锈\", \"陵\", \"七\", \"丹\", \"槛\", \"壳\", \"镏\", \"刘\", \"晨\", \"炕\", \"物\", \"闲\", \"幼\", \"媛\", \"急\", \"躲\", \"痕\", \"麦\", \"树\", \"偎\", \".\", \"屄\", \"卢\", \"去\", \"之\", \"乓\", \"街\", \"古\", \"哦\", \"吱\", \"喉\", \"库\", \"严\", \"撼\", \"巾\", \"于\", \"找\", \"熊\", \"随\", \"门\", \"罩\", \"诙\", \"测\", \"皱\", \"贞\", \"屁\", \"竟\", \"熏\", \"交\", \"减\", \"沂\", \"干\", \"於\", \"啪\", \"瞧\", \"痛\", \"起\", \"腥\", \"旺\", \"蹈\", \"植\", \"蕴\", \"募\", \"仇\", \"数\", \"泱\", \"破\", \"珞\", \"淫\", \"惑\", \"畜\", \"媚\", \"恨\", \"∶\", \"辆\", \"魏\", \"陈\", \"幻\", \"纨\", \"奢\", \"高\", \"渡\", \"石\", \"编\", \"竞\", \"彷\", \"区\", \"搂\", \"邵\", \"版\", \"嘈\", \"小\", \"缥\", \"互\", \"菇\", \"⒀\", \"沮\", \"午\", \"刹\", \"潮\", \"绛\", \"翼\", \"叨\", \"鹰\", \"此\", \"牺\", \"憔\", \"鹌\", \"桃\", \"榻\", \"利\", \"层\", \"躁\", \"迁\", \"啥\", \"睫\", \"芜\", \"劝\", \"梧\", \"芒\", \"萃\", \"遏\", \"梨\", \"馒\", \"粉\", \"关\", \"撐\", \"而\", \"针\", \"_\", \"身\", \"t\", \"少\", \"音\", \"挺\", \"唠\", \"森\", \"滩\", \"冰\", \"锂\", \"姑\", \"泊\", \"胳\", \"扛\", \"喇\", \"职\", \"俯\", \"乐\", \"回\", \"倍\", \"凿\", \"牌\", \"震\", \"灰\", \"屑\", \"印\", \"麓\", \"打\", \"搡\", \"颓\", \"抄\", \"D\", \""\", \"←\", \"西\", \"威\", \"芳\", \"渐\", \"楚\", \"脖\", \"裴\", \"颁\", \"寞\", \"贯\", \"舟\", \"酌\", \"何\", \"文\", \"龚\", \"莴\", \"\", \"椅\", \"杂\", \"泉\", \"蘸\", \"辈\", \"懊\", \"铝\", \"泼\", \"灶\", \"早\", \"请\", \"嘎\", \"蚌\", \"噱\", \"通\", \"僻\", \"匆\", \"妇\", \"潘\", \"吵\", \"摸\", \"押\", \"馆\", \"勇\", \"淞\", \"圆\", \"合\", \"蒋\", \"昕\", \"3\", \"烫\", \"泪\", \"灼\", \"母\", \"哄\", \"漪\", \"赁\", \"裁\", \"谨\", \"陷\", \"踢\", \"填\", \"云\", \"價\", \"鬣\", \"苒\", \"茱\", \"璃\", \"牠\", \"偏\", \"眼\", \"恿\", \"水\", \"吊\", \"腓\", \"妖\", \"中\", \"刊\", \"耳\", \"留\", \"玮\", \"杖\", \"掩\", \"半\", \"危\", \"平\", \"明\", \"适\", \"述\", \"咖\", \"儒\", \"篷\", \"抬\", \"扔\", \"爬\", \"靶\", \"盈\", \"崛\", \"薯\", \"寻\", \"怠\", \"凭\", \"举\", \"y\", \"沐\", \"•\", \"技\", \"献\", \"挝\", \"月\", \"腑\", \"N\", \"斗\", \"骄\", \"滋\", \"滇\", \"苇\", \"疑\", \"踩\", \"\", \"八\", \"s\", \"匠\", \"峥\", \"席\", \"虫\", \"毒\", \"浠\", \"搬\", \"渣\", \"解\", \"棠\", \"墨\", \"沿\", \"蜡\", \"柬\", \"“\", \"正\", \"蚓\", \"熬\", \"些\", \"杰\", \"芯\", \"另\", \"长\", \"辐\", \"雷\", \"酸\", \"锒\", \"飞\", \"态\", \"肌\", \"憬\", \"妻\", \"晖\", \"牙\", \"臀\", \"谷\", \"病\", \"亡\", \"陨\", \"囤\", \"嘻\", \"讳\", \"遐\", \"甫\", \"特\", \"悔\", \"桂\", \"存\", \"虏\", \"包\", \"义\", \"穴\", \"巅\", \"醛\", \"按\", \"书\", \"拂\", \"脐\", \"移\", \"遗\", \"车\", \"筛\", \"咚\", \"姥\", \"氰\", \"凉\", \"垒\", \"溉\", \"收\", \"膊\", \"炊\", \"推\", \"蜷\", \"斩\", \"厢\", \"浚\", \"副\", \"界\", \"但\", \"挑\", \"贤\", \"琴\", \"焕\", \"对\", \"脑\", \"蔬\", \"造\", \"伫\", \"症\", \"拐\", \"垠\", \"功\", \"驶\", \"科\", \"奥\", \"-\", \"鲤\", \"疙\", \"竹\", \"钊\", \"购\", \"舞\", \"裘\", \"仿\", \"轶\", \"居\", \"垄\", \"餐\", \"即\", \"壤\", \"该\", \"蜴\", \"個\", \"运\", \"侄\", \"宋\", \"理\", \"行\", \"阶\", \"悄\", \"袭\", \"牒\", \"璀\", \"邀\", \"励\", \"苑\", \"景\", \"绽\", \"侥\", \"锯\", \"8\", \"钱\", \"嫌\", \"葆\", \"袁\", \"刨\", \"e\", \"哈\", \"哭\", \"受\", \"著\", \"妤\", \"郊\", \"光\", \"浸\", \"耩\", \"宣\", \"擅\", \"萌\", \"删\", \"C\", \"赵\", \"t\", \"疾\", \"茜\", \"Ø\", \"涛\", \"询\", \"砺\", \"蔓\", \"邓\", \"遥\", \"劈\", \"兮\", \"趁\", \"峻\", \"叔\", \"娶\", \"煲\", \"拱\", \"灾\", \"⒃\", \"点\", \"ς\", \"布\", \"播\", \"笨\", \"⑿\", \"亲\", \"霹\", \"塘\", \"碱\", \"玻\", \"扳\", \"惕\", \"瞰\", \"遮\", \"背\", \"抛\", \"疵\", \"赢\", \"揣\", \"字\", \"©\", \"缭\", \"辫\", \"揍\", \"d\", \"超\", \"玫\", \"停\", \"狈\", \"焊\", \"钥\", \"阮\", \"糠\", \"棱\", \"骆\", \"本\", \"煤\", \"掺\", \"稿\", \"召\", \"错\", \"取\", \"淘\", \"熟\", \"荣\", \"敖\", \"零\", \"眉\", \"凶\", \"遵\", \"涣\", \"顿\", \"乏\", \"例\", \"嵌\", \"舒\", \"如\", \"眯\", \"守\", \"伦\", \"吃\", \"芃\", \"橇\", \"枢\", \"套\", \"喂\", \"跷\", \"垛\", \"笼\", \"宜\", \"缝\", \"曼\", \"帽\", \"逐\", \"汤\", \"稽\", \"燕\", \"向\", \"猬\", \"囊\", \"朋\", \"疴\", \"拳\", \"彦\", \"迪\", \"跪\", \"成\", \"融\", \"郭\", \"肇\", \"血\", \"芝\", \"嘱\", \"柄\", \"农\", \"萝\", \"璨\", \"鼾\", \"攻\", \"啬\", \"咬\", \"悠\", \"焉\", \"藕\", \"羔\", \"资\", \"腾\", \"h\", \"玷\", \"显\", \"凳\", \"刺\", \"`\", \"劣\", \"缈\", \"府\", \"译\", \"妓\", \"屌\", \"辄\", \"梵\", \"滔\", \"轿\", \"影\", \"贴\", \"退\", \"铜\", \"颉\", \"露\", \"螂\", \"掳\", \"蜕\", \"呛\", \"拙\", \"赏\", \"虹\", \"揖\", \"庆\", \"锦\", \"邱\", \"附\", \"颖\", \"给\", \"-\", \"裆\", \"k\", \"祝\", \"宏\", \"犀\", \"⑴\", \"红\", \"睿\", \"砥\", \"蓄\", \"濒\", \"晤\", \"卫\", \"黛\", \"呢\", \"肩\", \"糖\", \"意\", \"览\", \"峡\", \"咒\", \"扮\", \"辞\", \"勉\", \"忿\", \"胫\", \"琅\", \"轮\", \"貂\", \"6\", \"笑\", \"毕\", \"晓\", \"勘\", \"否\", \"炸\", \"育\", \"趴\", \"证\", \"癜\", \"苟\", \"胧\", \"桅\", \"目\", \"瑧\", \"甚\", \"蚯\", \"娄\", \"牖\", \"却\", \"盗\", \"帷\", \"馨\", \"婚\", \"尾\", \"奂\", \"照\", \"爷\", \"哟\", \"俱\", \"桓\", \"挨\", \"葫\", \"武\", \"驼\", \"贬\", \"具\", \"寄\", \"逍\", \"菜\", \"崩\", \"拯\", \"电\", \"孜\", \"茧\", \"闾\", \"孰\", \"蝉\", \"鲁\", \"犟\", \"班\", \"à\", \"乾\", \"辅\", \"稠\", \"冲\", \"霈\", \"海\", \"毁\", \"苍\", \"舅\", \"琪\", \"屡\", \"啕\", \"耘\", \"途\", \"掌\", \"呸\", \"屎\", \"攸\", \"众\", \"游\", \"太\", \"轻\", \"姨\", \"险\", \"羽\", \"賣\", \"罔\", \"兆\", \"浪\", \"锡\", \"⑧\", \"散\", \"恳\", \"温\", \"茂\", \"屿\", \"陶\", \"矗\", \"慕\", \"℃\", \"宁\", \"馄\", \"软\", \"寂\", \"愉\", \"粒\", \"聪\", \"俚\", \"峭\", \"了\", \"峙\", \"戚\", \"鸟\", \"嚣\", \"憧\", \"邢\", \"图\", \"劲\", \"刻\", \"淋\", \"暴\", \"序\", \"箱\", \"渤\", \"绊\", \"据\", \"畸\", \"鼯\", \"腐\", \"鸦\", \"繁\", \"螃\", \"柜\", \"含\", \"惘\", \"湄\", \"咏\", \"荧\", \"剽\", \"呀\", \"號\", \"n\", \"废\", \"\", \"朵\", \"负\", \"逻\", \"飚\", \"银\", \"讪\", \"篢\", \"佝\", \"垂\", \"戳\", \"鼓\", \"救\", \"炎\", \"穰\", \"〖\", \"际\", \"叹\", \"倾\", \"师\", \"航\", \"虐\", \"刀\", \".\", \"阿\", \"匾\", \"旌\", \"盛\", \"贱\", \"赫\", \"掀\", \"飘\", \"棘\", \"头\", \"挖\", \"攒\", \"项\", \"嫁\", \"侨\", \"甬\", \"潢\", \"韧\", \"协\", \"仔\", \"H\", \"镑\", \"兼\", \"偶\", \"烤\", \"缄\", \"牛\", \"颐\", \"执\", \"拆\", \"铲\", \"顺\", \"两\", \"丽\", \"旆\", \"珍\", \"滴\", \"挂\", \"拷\", \"准\", \"懒\", \"锋\", \"栾\", \"倨\", \"孱\", \"堰\", \"养\", \"凤\", \"怀\", \"戒\", \"聘\", \"伏\", \"润\", \"配\", \"镉\", \"窍\", \"拓\", \"笔\", \"观\", \"翠\", \"渝\", \"训\", \"惋\", \"怕\", \"淼\", \"铄\", \"级\", \"限\", \"体\", \"踱\", \"殉\", \"卦\", \"哥\", \"直\", \"缴\", \"空\", \"轩\", \"周\", \"逸\", \"邂\", \"终\", \"异\", \"漂\", \"鼎\", \"郴\", \"驮\", \"嵘\", \"决\", \"床\", \"腻\", \"蔡\", \"鸡\", \"占\", \"膨\", \"挡\", \"喆\", \"ὐ\", \"确\", \"禧\", \"偷\", \"误\", \"抢\", \"珊\", \"衿\", \"抡\", \"戛\", \"挚\", \"饷\", \"亂\", \"多\", \"票\", \"才\", \"躇\", \"允\", \"临\", \"冬\", \"贺\", \"气\", \"几\", \"纹\", \"壹\", \"嗨\", \"钵\", \"盐\", \"琐\", \"派\", \"完\", \"丈\", \"氏\", \"堤\", \"荻\", \"ù\", \"启\", \"迈\", \"培\", \"想\", \"池\", \"揭\", \"各\", \"魄\", \"让\", \"浓\", \"阔\", \"3\", \"墟\", \"供\", \"催\", \"嫩\", \"拘\", \"付\", \"院\", \"甸\", \"a\", \"这\", \"蛙\", \"煎\", \"毫\", \"贫\", \"晃\", \"驾\", \"嘭\", \"锲\", \"炭\", \"逼\", \"粥\", \"扇\", \"鹑\", \"崎\", \"敛\", \"涌\", \"痒\", \"奉\", \"织\", \"撤\", \"裹\", \"型\", \"咳\", \"惜\", \"柔\", \"睬\", \"索\", \"兹\", \"蒿\", \"挈\", \"倩\", \"同\", \"汝\", \"瓣\", \"猪\", \"灑\", \"衅\", \"翰\", \"朗\", \"商\", \"畏\", \"憨\", \"遇\", \"坑\", \"饮\", \"锐\", \"呗\", \"荆\", \"摒\", \"疮\", \"枪\", \"蚂\", \"揽\", \"彩\", \"茸\", \"有\", \"彗\", \"臆\", \"候\", \"橱\", \"总\", \"欣\", \"旧\", \"鄯\", \"钩\", \"亿\", \"歧\", \"颠\", \"巍\", \"勋\", \"\\b\", \"斑\", \"组\", \"架\", \"镶\", \"锢\", \"溢\", \"堂\", \"坛\", \"逃\", \"补\", \"挠\", \"蔚\", \"谛\", \"服\", \"甯\", \"楼\", \"剔\", \"摊\", \"楷\", \"球\", \"黝\", \"蹒\", \"ο\", \"奸\", \"覃\", \"棍\", \"由\", \":\", \"普\", \"聒\", \"侃\", \"瘾\", \"迤\", \"邬\", \"跨\", \"类\", \"伐\", \"茏\", \"榜\", \"涕\", \"绑\", \"裸\", \"知\", \"桶\", \"钉\", \"慷\", \"隧\", \"馏\", \"诣\", \"豌\", \"秉\", \"吸\", \"昭\", \"耽\", \"困\", \"鸥\", \"橡\", \"题\", \"许\", \"剿\", \"轨\", \"倏\", \"慈\", \"深\", \"薰\", \"信\", \"故\", \"谩\", \"屉\", \"括\", \"侈\", \"谑\", \"悼\", \"佼\", \"棚\", \"狐\", \"標\", \"城\", \"缓\", \"浑\", \"制\", \"油\", \"邻\", \"曹\", \"右\", \"玳\", \"为\", \"策\", \"怪\", \"旗\", \"酪\", \"撒\", \"需\", \"…\", \"盆\", \"瞥\", \"孀\", \"甄\", \"隶\", \"B\", \"戾\", \"钰\", \"郡\", \"镇\", \"甜\", \"障\", \"揪\", \"溯\", \"施\", \"路\", \"充\", \"暑\", \"4\", \"检\", \"结\", \"语\", \"毙\", \"阅\", \"截\", \"士\", \"紊\", \"卿\", \"忐\", \"熔\", \"揉\", \"拖\", \"霉\", \"入\", \"胺\", \"藏\", \"阽\", \"波\", \"狞\", \"言\", \"越\", \"机\", \"骚\", \"侦\", \"皑\", \"诩\", \"糊\", \"心\", \"硅\", \"枝\", \"铭\", \"仄\", \"吓\", \"厨\", \"撕\", \"夹\", \"佣\", \"佟\", \"授\", \"友\", \"蒂\", \"矶\", \"挫\", \"苯\", \"沼\", \"夜\", \"横\", \"①\", \"昧\", \"冯\", \"纾\", \"籁\", \"练\", \"瘠\", \"鲨\", \"棂\", \"浩\", \"棒\", \"谍\", \"县\", \"徘\", \"倡\", \"蝗\", \"煽\", \"c\", \"衬\", \"垃\", \"珏\", \"董\", \"楣\", \"张\", \"爹\", \"姚\", \"喔\", \"阵\", \"腭\", \"沏\", \"牟\", \"垮\", \"克\", \"黄\", \"嗤\", \"戮\", \"逑\", \"奚\", \"炼\", \"止\", \"密\", \"牵\", \"诃\", \"朝\", \"2\", \"逞\", \"勖\", \"吝\", \"纬\", \"\\u0007\", \"拢\", \"变\", \"尝\", \"讦\", \"乎\", \"响\", \"喽\", \"隆\", \"康\", \"尼\", \"射\", \"奖\", \"教\", \"叶\", \"發\", \"秆\", \"倒\", \"帘\", \"田\", \"姓\", \"坦\", \"简\", \"蕉\", \"青\", \"灸\", \"怎\", \"健\", \"浊\", \"弊\", \"满\", \"依\", \"晚\", \"铺\", \"来\", \"仙\", \"傥\", \"圭\", \"鸿\", \"廓\", \"六\", \"样\", \"妈\", \"饼\", \"昏\", \"詹\", \"香\", \"樯\", \"荨\", \"柠\", \"潜\", \"枯\", \"渺\", \"符\", \"潭\", \"阴\", \"板\", \"辗\", \"绞\", \"鲎\", \"抵\", \"臊\", \"丁\", \"绘\", \"江\", \"瞠\", \"巡\", \"监\", \"圜\", \"恋\", \"泽\", \"⑩\", \"褒\", \"汀\", \"ç\", \"浞\", \"肛\", \"岁\", \"不\", \"骤\", \"噪\", \"v\", \"鼻\", \"染\", \"仰\", \"极\", \"m\", \"尚\", \"泠\", \"觉\", \"莞\", \"室\", \"暂\", \"酱\", \"政\", \"管\", \"清\", \"查\", \"雨\", \"侯\", \"昆\", \"量\", \"谓\", \"莓\", \"捂\", \"豹\", \"逝\", \"炬\", \"呼\", \"莺\", \"鬓\", \"处\", \"苣\", \"川\", \")\", \"嘣\", \"恙\", \"松\", \"息\", \"外\", \"忍\", \"寐\", \"逆\", \"啜\", \"沉\", \"徨\", \"逊\", \"麽\", \",\", \"狙\", \"条\", \"迅\", \"睐\", \"讷\", \"讯\", \"恺\", \"骑\", \"霄\", \"焙\", \"豆\", \"隔\", \"敦\", \"凋\", \"嚎\", \"雾\", \"萎\", \"蜒\", \"乍\", \"\", \"啸\", \"剁\", \"砸\", \"愕\", \"争\", \"嘲\", \"怨\", \"咪\", \"亭\", \"虾\", \"压\", \"权\", \"梗\", \"�\", \"唷\", \"掬\", \"翊\", \"悍\", \"烁\", \"势\", \"膏\", \"胸\", \"2\", \"材\", \"遴\", \"忠\", \"蜘\", \"频\", \"碾\", \"⑦\", \"追\", \"苦\", \"济\", \"糕\", \"腺\", \"圈\", \"疲\", \"秘\", \"岭\", \"谧\", \"卍\", \"衍\", \"访\", \"嗲\", \"镀\", \"呃\", \"赠\", \"洼\", \"萧\", \"脸\", \"唐\", \"木\", \"乌\", \"桩\", \"咱\", \"i\", \"婶\", \"共\", \"暖\", \"娟\", \"漫\", \"恒\", \"絮\", \"谴\", \"俘\", \"饨\", \"佬\", \"宛\", \"惩\", \"宇\", \"锁\", \"溘\", \"扪\", \"涉\", \"汕\", \"曾\", \"誓\", \"咨\", \"巢\", \"第\", \"端\", \"改\", \"磕\", \"夸\", \"被\", \"袍\", \"德\", \"啼\", \"犯\", \"缅\", \"缘\", \"淆\", \"津\", \"惬\", \"节\", \"淡\", \"梯\", \"稻\", \"边\", \"晗\", \"亏\", \"么\", \"鹃\", \"扶\", \"砧\", \"莱\", \"省\", \"瞪\", \"廖\", \"倪\", \"黑\", \"囚\", \"幅\", \"辉\", \"捕\", \"岚\", \"激\", \"寒\", \"逅\", \"壮\", \"孝\", \"晶\", \"崽\", \"庞\", \"醋\", \"扁\", \"屯\", \"飙\", \"暹\", \"鲜\", \"圾\", \"漲\", \"哧\", \"忧\", \"渗\", \"则\", \"卧\", \"摩\", \"栈\", \"⑶\", \"驴\", \"诺\", \"酬\", \"事\", \"携\", \"孪\", \"愚\", \"霖\", \"握\", \"华\", \"骸\", \"抠\", \"​\", \"速\", \"句\", \"塞\", \"丢\", \"警\", \"吆\", \"验\", \"颗\", \"滞\", \"漩\", \"忑\", \"擞\", \"溺\", \"巨\", \"膛\", \"锏\", \"桔\", \"热\", \"蚁\", \"剩\", \"规\", \"洁\", \"厝\", \"屈\", \"萄\", \"堵\", \"擂\", \"详\", \"蛇\", \"迹\", \"俗\", \"躬\", \"比\", \"况\", \"瓢\", \"党\", \"煌\", \"◆\", \"燎\", \"徇\", \"琶\", \"p\", \"吐\", \"荫\", \"〞\", \"赎\", \"捆\", \"谚\", \"蜃\", \"绪\", \"获\", \"暄\", \"攀\", \"铃\", \"钜\", \"雯\", \"嘛\", \"罚\", \"斛\", \"闵\", \"妒\", \"棣\", \"好\", \"哪\", \"霓\", \"它\", \"户\", \"茨\", \"往\", \"尽\", \"奘\", \"欠\", \"叠\", \"绿\", \"茁\", \"冒\", \"讲\", \"域\", \"辨\", \"蒙\", \"战\", \"椰\", \"5\", \"秤\", \"狭\", \"遛\", \"灯\", \"联\", \"x\", \"夏\", \"岌\", \"扰\", \"弱\", \"铩\", \"\\u0000\", \"贡\", \"姣\", \"款\", \"着\", \"辛\", \"翁\", \"矩\", \"熄\", \"岔\", \"聿\", \"金\", \"嗯\", \"9\", \"尿\", \"妆\", \"忽\", \"凡\", \"顶\", \"狼\", \"湮\", \"黧\", \"刑\", \"每\", \"孟\", \"触\", \"踞\", \"吗\", \"在\", \"翡\", \"洽\", \"氯\", \"酣\", \"滤\", \"窃\", \"然\", \"弛\", \"近\", \"呐\", \"鳗\", \"谈\", \"李\", \"盹\", \"歹\", \"遍\", \"令\", \"角\", \"弄\", \"校\", \"\", \"达\", \"婷\", \"甩\", \"休\", \"虑\", \"持\", \"械\", \"萤\", \"狂\", \"樱\", \"佳\", \"琛\", \"率\", \"漉\", \"霾\", \"惫\", \"秩\", \"涸\", \"谣\", \"犬\", \"傍\", \"家\", \"②\", \"涤\", \"褚\", \"杏\", \"增\", \"闹\", \"奠\", \"趟\", \"凝\", \"感\", \"埔\", \"形\", \"胎\", \"玛\", \"应\", \"渠\", \"臣\", \"燥\", \"饽\", \"艺\", \"磨\", \"坚\", \"懈\", \"踪\", \"串\", \"使\", \"暇\", \"⒌\", \"鹜\", \"换\", \"趣\", \"律\", \"阁\", \"萦\", \"刷\", \"泻\", \"缚\", \"忱\", \"旨\", \"磊\", \"鸩\", \"帕\", \"添\", \"敏\", \"汶\", \"赚\", \"畅\", \"馈\", \"乞\", \"瑢\", \"迟\", \"岣\", \"亮\", \"蛊\", \"扼\", \"恍\", \"塑\", \"独\", \"岖\", \"尊\", \"橄\", \"阑\", \"嗪\", \"唤\", \"矣\", \"慧\", \"磋\", \"淌\", \"童\", \"眶\", \"免\", \"食\", \"昨\", \"〗\", \"担\", \"系\", \"厚\", \"醇\", \"竺\", \"〃\", \"夕\", \"住\", \"范\", \"皖\", \"十\", \"娛\", \"船\", \"柏\", \"惨\", \"榨\", \"ㄓ\", \"迄\", \"佛\", \"瑕\", \"奏\", \"丙\", \"娑\", \"叫\", \"媳\", \"涂\", \"陡\", \"兢\", \"概\", \"沁\", \"务\", \"驻\", \"娱\", \"缕\", \"赴\", \"振\", \"榴\", \"汗\", \"梦\", \"挣\", \"沧\", \"宗\", \"龄\", \"己\", \"惠\", \"帐\", \"叭\", \"扬\", \"效\", \"慎\", \"熙\", \"穹\", \"侬\", \"蜂\", \"岛\", \"蔽\", \"害\", \"绵\", \"售\", \"蘑\", \"兄\", \"澎\", \"尘\", \"均\", \"别\", \"/\", \"赶\", \"酝\", \"指\", \"噩\", \"讽\", \"诬\", \"仕\", \"佰\", \"集\", \"梅\", \"考\", \"悯\", \"真\", \"员\", \"槃\", \"仁\", \"烯\", \"缜\", \"混\", \"懦\", \"奶\", \"学\", \"次\", \"烹\", \"蟑\", \"定\", \"蜜\", \"蔷\", \"鹏\", \"搁\", \"客\", \"纯\", \"蕤\", \"削\", \"瓦\", \"彙\", \"丝\", \"栅\", \"表\", \"汽\", \"调\", \"朔\", \"围\", \"貌\", \"嚼\", \"飕\", \"瞻\", \"堪\", \"孽\", \"爱\", \"袱\", \"劾\", \"所\", \"火\", \"伟\", \"苛\", \"\\u0006\", \"刁\", \"绳\", \"伯\", \"獗\", \"肮\", \"舀\", \"粹\", \"裔\", \"阂\", \"疤\", \"ě\", \"齐\", \"榆\", \"棋\", \"玲\", \"乘\", \"捞\", \"断\", \"味\", \"弯\", \"诊\", \"裂\", \"乱\", \"固\", \"烃\", \"’\", \"疸\", \"紧\", \"叼\", \"诲\", \"粮\", \"约\", \"伸\", \"左\", \"狮\", \"瓜\", \"尤\", \"辖\", \"蟀\", \"漠\", \"诗\", \"桢\", \"雅\", \"梳\", \"奴\", \"槐\", \"届\", \"碍\", \"闭\", \"拒\", \"怡\", \"鹦\", \"和\", \"反\", \"嗓\", \"權\", \"距\", \"滢\", \"鹅\", \"部\", \"屹\", \"亳\", \"化\", \"惚\", \"磺\", \"词\", \"镍\", \"课\", \"矿\", \"镭\", \"叛\", \"骅\", \"私\", \"狄\", \"τ\", \"俏\", \"箭\", \"茄\", \"送\", \"莹\", \"闯\", \"沪\", \"忪\", \"椭\", \"仪\", \"檬\", \"黢\", \"坷\", \"怔\", \"替\", \"重\", \"瀑\", \"觑\", \"莲\", \"浴\", \"环\", \"弘\", \"叮\", \"描\", \"精\", \"较\", \"瘩\", \"巴\", \"神\", \"蜿\", \"殷\", \"筐\", \"北\", \"④\", \"拧\", \"未\", \"樟\", \"季\", \"鹉\", \"名\", \"彻\", \"企\", \"厅\", \"靓\", \"砌\", \"怂\", \"抱\", \"荒\", \"隐\", \"馅\", \"矫\", \"趋\", \"亵\", \"庭\", \"吁\", \"稀\", \"婊\", \"当\", \"霭\", \"霆\", \"号\", \"绩\", \"丸\", \"牢\", \"禾\", \"冽\", \"租\", \"忡\", \"加\", \"枣\", \"诫\", \"踝\", \"仆\", \"勿\", \"姿\", \"妞\", \"羡\", \"防\", \"袜\", \"舱\", \"援\", \"亚\", \"夥\", \"溃\", \"诚\", \"‘\", \"议\", \"娼\", \"创\", \"羹\", \"哇\", \"哲\", \"永\", \"昌\", \"拎\", \"台\", \"髻\", \"欢\", \"慌\", \"患\", \"锄\", \"郅\", \"沟\", \"说\", \"期\", \"鬼\", \"弧\", \"悲\", \"胖\", \"镐\", \"疏\", \"脏\", \"绍\", \"牧\", \"容\", \"搅\", \"将\", \"善\", \"网\", \"舌\", \";\", \"瞎\", \"念\", \"喧\", \"旬\", \"日\", \"模\", \"臭\", \"声\", \"涮\", \"阜\", \"尴\", \"摞\", \"骏\", \"尬\", \"撅\", \"镕\", \"肝\", \"鲱\", \"待\", \"③\", \"列\", \"î\", \"竭\", \"渎\", \"鳌\", \"咧\", \"泾\", \"屣\", \"淖\", \"玖\", \"饵\", \"扫\", \"贩\", \"产\", \"豫\", \"诵\", \"闷\", \"状\", \"抖\", \"耗\", \"遭\", \"卉\", \"腰\", \"恤\", \"莘\", \"宵\", \"晋\", \"庐\", \"歌\", \"支\", \"谢\", \"炳\", \"晟\", \"厌\", \"认\", \"属\", \"尹\", \"馍\", \"谅\", \"恭\", \"实\", \"郜\", \"犄\", \"遢\", \"踵\", \"锥\", \"拉\", \"粗\", \"噼\", \"易\", \"姬\", \"潇\", \"瑄\", \"您\", \"承\", \"艘\", \"麻\", \"溶\", \"蹿\", \"辰\", \"园\", \"径\", \"郑\", \"捉\", \"闺\", \"井\", \"自\", \"柯\", \"妍\", \"切\", \"衡\", \"嘿\", \"棕\", \"细\", \"杨\", \"盾\", \"⑥\", \"睛\", \"哑\", \"煮\", \"讶\", \"恐\", \"蚊\", \"跻\", \"源\", \"涨\", \"噌\", \"驭\", \"懑\", \"草\", \"罗\", \"怜\", \"绷\", \"壁\", \"旦\", \"唾\", \"狳\", \"孕\", \"煜\", \"徐\", \"喱\", \"蹭\", \"踏\", \"↑\", \"足\", \"躯\", \"鸣\", \"叩\", \"劳\", \"百\", \"忆\", \"敌\", \"啦\", \"姆\", \"毋\", \"瑑\", \"骇\", \"杉\", \"眷\", \"谁\", \"昊\", \"恢\", \"赣\", \"蹲\", \"辱\", \"进\", \"戈\", \"闸\", \"仲\", \"猜\", \"麟\", \"刚\", \"征\", \" \", \"毅\", \"⒂\", \"诀\", \"基\", \"桥\", \"作\", \"琳\", \"捐\", \"星\", \"沃\", \"社\", \"击\", \"扎\", \"尸\", \"立\", \"拜\", \"蟹\", \"得\", \"甲\", \"芷\", \"躺\", \"厦\", \"诟\", \"药\", \"纷\", \"悖\", \"促\", \"垫\", \"塔\", \"蔑\", \"察\", \"到\", \"纺\", \"诶\", \"窟\", \"卵\", \"东\", \"军\", \"陌\", \"讼\", \"穷\", \"片\", \"耍\", \"戢\", \"泯\", \"铣\", \"晦\", \"弗\", \"契\", \"予\", \"檐\", \"五\", \"颧\", \"位\", \"盏\", \"翔\", \"傅\", \"象\", \"捡\", \"碌\", \"低\", \"劫\", \"贸\", \"纽\", \"洗\", \"涎\", \"方\", \"&\", \"猾\", \"匿\", \"丧\", \"诡\", \"抉\", \"亩\", \"历\", \"挤\", \"碎\", \"辟\", \"蕃\", \"7\", \"菱\", \"懂\", \"孙\", \"浅\", \"码\", \"歉\", \"肿\", \"茫\", \"诠\", \"灿\", \"戍\", \"冤\", \"羊\", \"漏\", \"株\", \"驳\", \"杆\", \"侣\", \"抒\", \"损\", \"梢\", \"载\", \"耙\", \"赌\", \"逶\", \"]\", \"诱\", \"昂\", \"戴\", \"底\", \"烦\", \"拦\", \"过\", \"勃\", \"椒\", \"秽\", \"裳\", \"诞\", \"原\", \"泄\", \"坝\", \"础\", \"廊\", \"佩\", \"伉\", \"搐\", \"纠\", \"赔\", \"殿\", \"储\", \"顾\", \"鲍\", \"券\", \"4\", \"芽\", \"那\", \"筷\", \"挪\", \"紫\", \"羁\", \"娘\", \"展\", \"倚\", \"剖\", \"千\", \"段\", \"婆\", \"琦\", \"窘\", \"丐\", \"冀\", \"岑\", \"悚\", \"S\", \"胶\", \"嘀\", \"白\", \"肤\", \"性\", \"槽\", \"兰\", \"b\", \"蜥\", \"噢\", \"仍\", \"虽\", \"飓\", \"墒\", \"九\", \"纳\", \"新\", \"桐\", \"酷\", \"擦\", \"陪\", \"屠\", \"奇\", \"珠\", \"掖\", \"砾\", \"晒\", \"始\", \"累\", \"怯\", \"肠\", \"肾\", \"凸\", \"弈\", \"轴\", \"莅\", \"拌\", \"妥\", \"俩\", \"赞\", \"歇\", \"澜\", \"诉\", \"媲\", \"祸\", \"滥\", \"督\", \"疆\", \"墓\", \"残\", \"年\", \"凑\", \"薄\", \"枷\", \"庙\", \"趾\", \"沽\", \"必\", \"沦\", \"惭\", \"归\", \"夺\", \"咆\", \"膝\", \"忙\", \"臻\", \"汰\", \"舍\", \"睽\", \"辙\", \"输\", \"贪\", \"谭\", \"栋\", \"瘀\", \"藤\", \"萨\", \"晴\", \"淑\", \"腊\", \"人\", \"懵\", \"艰\", \"蓬\", \"\", \"颤\", \"婪\", \"冠\", \"坟\", \"皙\", \"匮\", \"靡\", \"泰\", \"函\", \"式\", \"疼\", \"转\", \"颊\", \"韬\", \"汪\", \"疫\", \"戏\", \"米\", \"炉\", \"楂\", \"痊\", \"建\", \"拽\", \"皈\", \"寥\", \"痰\", \"菌\", \"纪\", \"纵\", \"帜\", \"⑸\", \"鹿\", \"参\", \"郸\", \"⒋\", \"恣\", \"且\", \"+\", \"摔\", \"磁\", \"胁\", \"葩\", \"暧\", \"悟\", \"é\", \"粪\", \"爽\", \"棺\", \"卤\", \"塌\", \"阱\", \"锌\", \"遁\", \"筑\", \"厘\", \"榭\", \"炖\", \"鹤\", \"澡\", \"艋\", \"涝\", \"艇\", \"猡\", \"旳\", \"扒\", \"试\", \"褪\", \")\", \"雳\", \"王\", \"慨\", \"榄\", \"洒\", \"尖\", \"剪\", \"就\", \"宽\", \"酒\", \"疚\", \"憋\", \"荏\", \"廷\", \"猩\", \"辑\", \"郝\", \"滑\", \"旖\", \"猴\", \"汛\", \"孔\", \"蚪\", \"皂\", \"蓦\", \"赤\", \"8\", \"假\", \"杭\", \"划\", \"掘\", \"吼\", \"奋\", \"⒁\", \"鸭\", \"斜\", \"选\", \"内\", \"朴\", \"挽\", \"拔\", \"抚\", \"降\", \"碰\", \"僵\", \"扣\", \"瑜\", \"蒜\", \"骼\", \"柘\", \"卓\", \"业\", \"活\", \"赛\", \"宙\", \"粱\", \"若\", \"芙\", \"键\", \"菲\", \"舆\", \"沛\", \"格\", \"掐\", \"擤\", \"葵\", \"狠\", \"件\", \"父\", \"绰\", \"置\", \"嘤\", \"浆\", \"读\", \"铮\", \"助\", \"捍\", \"埠\", \"婴\", \"喜\", \"诅\", \"噴\", \"裙\", \"栩\", \"案\", \"择\", \"致\", \"伴\", \"蚤\", \"晾\", \"雪\", \"抓\", \"斥\", \"〝\", \"闻\", \"沫\", \"婉\", \"咦\", \"纤\", \"沈\", \"坊\", \"筹\", \"嘘\", \"鄙\", \"氧\", \"预\", \"吟\", \" \", \"只\", \"益\", \"宪\", \"呦\", \"葛\", \"鸽\", \"、\", \"侧\", \"氮\", \"她\", \"料\", \"饱\", \"雕\", \"K\", \"埃\", \"噬\", \"便\", \"%\", \"冉\", \"咸\", \"死\", \"?\", \"卜\", \"涡\", \"陛\", \"称\", \"剑\", \"瓷\", \"粼\", \"缉\", \"吕\", \"绅\", \"竣\", \"秀\", \"洞\", \"肥\", \"诈\", \"址\", \"销\", \"扩\", \"潦\", \"沥\", \"团\", \"坠\", \"刮\", \"失\", \"湿\", \"谊\", \"夫\", \"谦\", \"离\", \"钻\", \"莫\", \"萼\", \"烂\", \"攥\", \"司\", \"港\", \"佘\", \"恶\", \"革\", \"撰\", \"荡\", \"吩\", \"兑\", \"烈\", \"聊\", \"买\", \"踹\", \"秦\", \"讥\", \"驿\", \"蔼\", \"用\", \"疗\", \"场\", \"研\", \"弥\", \"循\", \"惴\", \"屋\", \"寰\", \"咎\", \"n\", \"疹\", \"放\", \"拾\", \"唉\", \"撬\", \"闫\", \"惶\", \"^\", \"税\", \"睑\", \"竖\", \"擘\", \"„\", \"侵\", \"郁\", \"蝌\", \"泛\", \"口\", \"─\", \"荟\", \"撷\", \"投\", \"惊\", \"勒\", \"钢\", \"腹\", \"0\", \"姊\", \"写\", \"备\", \"芭\", \"別\", \"娇\", \"肓\", \"档\", \"绚\", \"耿\", \"瑶\", \"虎\", \"缆\", \"茉\", \"勾\", \"标\", \"帮\", \"霏\", \"拣\", \"卖\", \"麾\", \"像\", \"覆\", \"搞\", \"仅\", \"从\", \"弹\", \"炫\", \"伪\", \"楠\", \"艾\", \"泸\", \"浮\", \"豁\", \"l\", \"猖\", \"z\", \"眠\", \"乡\", \"宝\", \"脱\", \"旷\", \"嫖\", \"智\", \"肃\", \"订\", \"倦\", \"h\", \"內\", \"财\", \"洲\", \"鳃\", \"薛\", \"主\", \"纱\", \"喘\", \"庸\", \"咋\", \"透\", \"旅\", \"撑\", \"穗\", \"币\", \"绒\", \"嗔\", \"赘\", \"黏\", \"娃\", \"吮\", \"间\", \"葡\", \"斌\", \"积\", \"姗\", \"膀\", \"吞\", \"器\", \"坪\", \"啊\", \"坎\", \"帅\", \"评\", \"恼\", \"贼\", \"偌\", \"埂\", \"胜\", \"祛\", \"膜\", \"强\", \"卸\", \"唇\", \"涟\", \"罄\", \"分\", \"走\", \"妨\", \"螺\", \"咕\", \"铂\", \"示\", \"韦\", \"老\", \"蛔\", \"幕\", \"诸\", \"摧\", \"邃\", \"衣\", \"瑨\", \"跟\", \"陀\", \"肺\", \"邋\", \"铤\", \"邕\", \"野\", \"炅\", \"无\", \"莎\", \"扑\", \"嘉\", \"瞟\", \"构\", \"纲\", \"癫\", \"痫\", \"馋\", \"馕\", \"上\", \"赐\", \"丰\", \"谋\", \"岸\", \"據\", \"袒\", \"谐\", \"乔\", \"驰\", \"匪\", \"其\", \"铨\", \"魔\", \"络\", \"顽\", \"问\", \"难\", \"钮\", \"毛\", \"呵\", \"南\", \"肴\", \"矮\", \"蟋\", \"湾\", \"岱\", \"龙\", \"楞\", \"氛\", \"控\", \"旋\", \"万\", \"厮\", \"腿\", \"医\", \"硬\", \"醒\", \"禁\", \"炮\", \"耻\", \"曦\", \"兔\", \"鞠\", \"肯\", \"摹\", \"涵\", \"维\", \"衷\", \"翕\", \"猝\", \"翅\", \"犁\", \"现\", \"治\", \"焰\", \"沾\", \"悬\", \"框\", \"乒\", \"\\u0005\", \"粕\", \"公\", \"氢\", \"伤\", \"胰\", \"继\", \"陋\", \"够\", \"签\", \"林\", \"睹\", \"韫\", \"斐\", \"呕\", \"阻\", \"遑\", \"歪\", \"芬\", \"瞩\", \"赂\", \"谆\", \"歼\", \"厉\", \"披\", \"筋\", \"演\", \"思\", \"拿\", \"审\", \"鹭\", \"(\", \"桑\", \"霍\", \"觅\", \"伙\", \"盘\", \"踌\", \"静\", \"奎\", \"舔\", \"奔\", \"嗦\", \"~\", \"瑞\", \"濮\", \"汁\", \"祖\", \"份\", \"疯\", \"匕\", \"敞\", \"广\", \"ê\", \"亦\", \"呻\", \"旱\", \"璇\", \"习\", \"倜\", \"禽\", \"喀\", \"琉\", \"努\", \"咔\", \"簧\", \"汇\", \"嗡\", \"缺\", \"荐\", \"初\", \"吨\", \"债\", \"兜\", \"竿\", \"跑\", \"惦\", \"皆\", \"嬉\", \"呷\", \"柿\", \"工\", \"圣\", \"阎\", \"漆\", \"都\", \"旎\", \"阐\", \"妙\", \"根\", \"厕\", \"骨\", \"告\", \"贷\", \"拼\", \"群\", \"妮\", \"纂\", \"坤\", \"衰\", \"美\", \"褂\", \"s\", \"见\", \"缮\", \"汩\", \"翻\", \"店\", \"悦\", \"析\", \"什\", \"澄\", \"聆\", \"窄\", \"摄\", \"御\", \"咐\", \"瘤\", \"薪\", \"赖\", \"割\", \"擎\", \"求\", \"娜\", \"坞\", \"碑\", \"某\", \"驱\", \"蛋\", \"步\", \"京\", \"渲\", \"介\", \"淅\", \"欲\", \"钟\", \"桌\", \"乃\", \"民\", \"芦\", \"皇\", \"猥\", \"搀\", \"掉\", \"笋\", \"画\", \"荤\", \"儿\", \"瘫\", \"绥\", \"须\", \"铁\", \"吻\", \"稍\", \"圳\", \"哀\", \"宫\", \"锅\", \"朱\", \"悴\", \"齿\", \"酋\", \"鹈\", \"靴\", \"苹\", \"绸\", \"脉\", \"遂\", \"跚\", \"果\", \"棉\", \"凛\", \"灵\", \"壑\", \"舛\", \"苗\", \"丑\", \"吴\", \"论\", \"算\", \"胡\", \"骂\", \"挟\", \"劑\", \"窖\", \"默\", \"胆\", \"黎\", \";\", \"抹\", \"胥\", \"饿\", \"盼\", \"罕\", \"⑷\", \"荷\", \"设\", \"溪\", \"抽\", \"措\", \"希\", \"骛\", \"廉\", \"估\", \"榷\", \"族\", \"操\", \"滕\", \"避\", \"署\", \"茶\", \"羚\", \"盯\", \"久\", \"岗\", \"兵\", \"滨\", \"骗\", \"锻\", \"跳\", \"迫\", \"尧\", \"元\", \"魂\", \"哗\", \"色\", \"蓟\", \"复\", \"首\", \"愣\", \"代\", \"引\", \"淄\", \"亟\", \"掰\", \"恕\", \"喊\", \"狰\", \"瞬\", \"擀\", \"簿\", \"坯\", \"憾\", \"他\", \"炙\", \"邪\", \"拭\", \"硕\", \"谔\", \"袋\", \"瑒\", \"非\", \"怒\", \"释\", \"突\", \"痴\", \"璜\", \"岩\", \"缀\", \"恩\", \"馁\", \"闪\", \"篮\", \"摇\", \"啐\", \"蒸\", \"市\", \"账\", \"盎\", \"镜\", \"吧\", \"敲\", \"乖\", \"胱\", \"睁\", \"堆\", \"灌\", \"湖\", \"酥\", \"登\", \"瑟\", \"究\", \"拇\", \"瞄\", \"胃\", \"官\", \"A\", \"韵\", \"俪\", \"瓶\", \"桦\", \"哨\", \"视\", \"录\", \"a\", \"鲸\", \"探\", \"斤\", \"呈\", \"恪\", \"村\", \"壶\", \"佐\", \"纸\", \"崇\", \"仑\", \"灭\", \"也\", \"勤\", \"耐\", \"酿\", \"蝇\", \"杠\", \"▪\", \"忘\", \"映\", \"轰\", \"陇\", \"鑫\", \"尺\", \"发\", \"履\", \"颜\", \"宴\", \"役\", \"办\", \"痹\", \"蕾\", \"淀\", \"并\", \"・\", \"诨\", \"橙\", \"玩\", \"胀\", \"册\", \"里\", \"聂\", \"枕\", \"霸\", \"志\", \"弑\", \"妄\", \"g\", \"迩\", \"绉\", \"窦\", \"国\", \"责\", \"咯\", \"逾\", \"判\", \"梭\", \"葱\", \"慑\", \"盖\", \"绎\", \"今\", \"颌\", \"冻\", \"唱\", \"瀚\", \"任\", \"曝\", \"禅\", \"既\", \"愁\", \"哼\", \"娥\", \"瞅\", \"慢\", \"杀\", \"r\", \"双\", \"升\", \"渔\", \"可\", \"痪\", \"郎\", \"烧\", \"磅\", \"没\", \"抗\", \"魁\", \"愈\", \"亨\", \"春\", \"耕\", \"巷\", \"诧\", \"烙\", \"栽\", \"崖\", \"韪\", \"盒\", \"6\", \"蛛\", \"迦\", \"碴\", \"噶\", \"簇\", \"彼\", \"褐\", \"搭\", \"夯\", \"砂\", \"珉\", \"烟\", \"践\", \"般\", \"动\", \"拟\", \"攫\", \"鼠\", \"惹\", \"命\", \"淤\", \"粟\", \"伊\", \"一\", \"拥\", \"风\", \"招\", \"种\", \":\", \"衔\", \"鱼\", \"盟\", \"皮\", \"琼\", \"做\", \"靠\", \"流\", \"泳\", \"前\", \"!\", \"衫\", \"粤\", \"最\", \"u\", \"毡\", \"蹩\", \"。\", \"柴\", \"煞\", \"暗\", \"捷\", \"奈\", \"筒\", \"欸\", \"脯\", \"孩\", \"敢\", \"跌\", \"翩\", \"棵\", \"阳\", \"吾\", \"旭\", \"很\", \"汹\", \"子\", \"渍\", \"焯\", \"提\", \"块\", \"帝\", \"洛\", \"专\", \"山\", \"修\", \"枉\", \"氨\", \"们\", \"枚\", \"裕\", \"程\", \"二\", \"耀\", \"抨\", \"厂\", \"素\", \"愧\", \"番\", \"瘙\", \"又\", \"迭\", \"股\", \"沙\", \"蛮\", \"略\", \"返\", \"倘\", \"吭\", \"篝\", \"央\", \"恰\", \"笃\", \"拗\", \"睡\", \"玉\", \"护\", \"及\", \"缩\", \"秸\", \"批\", \"费\", \"岳\", \"宅\", \"额\", \"剐\", \"乳\", \"徒\", \"俊\", \"后\", \"肢\", \"挎\", \"缔\", \"鳞\", \"谎\", \"矍\", \"钞\", \"逛\", \"接\", \"卑\", \"杜\", \"落\", \"抿\", \"⑤\", \"忌\", \"你\", \"俞\", \"肖\", \"峰\", \"以\", \"末\", \"暨\", \"卻\", \"宸\", \"狱\", \"传\", \"望\", \"霜\", \"涅\", \"焚\", \"虚\", \"鄂\", \"道\", \"»\", \"冶\", \"蓁\", \"祢\", \"连\", \"寡\", \"宠\", \"饲\", \"跤\", \"琢\", \"捺\", \"挲\", \"薇\", \"锣\", \"赅\", \"庄\", \"贿\", \"當\", \"碟\", \"掂\", \"匹\", \"站\", \"翱\", \"籍\", \"赋\", \"泥\", \"胞\", \"常\", \"三\", \"篡\", \"缠\", \"癌\", \"安\", \"黩\", \"颂\", \"吹\", \"礼\", \"臧\", \"骁\", \"折\", \"篇\", \"\", \"吉\", \"花\", \"货\", \"掷\", \"窝\", \"窜\", \"仗\", \"搏\", \"土\", \"摆\", \"裤\"]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/ar": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2813283, - "_n_tokens": 614959, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/de": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1814876, - "_n_tokens": 503561, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"u\", \"̈\"]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/en": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1124813, - "_n_tokens": 257983, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-1.8B @ cc100/es": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1664455, - "_n_tokens": 434264, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-1.8B @ cc100/fa": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2054052, - "_n_tokens": 643421, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/fr": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1540504, - "_n_tokens": 413637, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/ja": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1774770, - "_n_tokens": 377144, - "_n_chars": 603065, - "_n_oov_chars": 463, - "oov_ratio": 0.000767744770464212, - "_oov_charset": "[\"へ\", \"コ\", \"て\", \"゙\", \"し\", \"た\", \"か\", \"は\", \"フ\", \"つ\", \"ス\", \"ホ\", \"く\", \"す\", \"ト\", \"ふ\", \"せ\", \"ヒ\", \"シ\", \"と\", \"ハ\", \"゚\", \"ひ\"]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/ko": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1524839, - "_n_tokens": 457492, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"金\", \"立\", \"理\", \"龍\", \"良\", \"梁\", \"陸\", \"樂\", \"靈\", \"女\", \"識\", \"樂\", \"流\", \"累\", \"不\"]", - "reversible": false - }, - "Qwen/Qwen1.5-1.8B @ cc100/zh-Hans": { - "tokenizer": "Qwen1.5-1.8B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2633047, - "_n_tokens": 589211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-110B @ cc100/ar": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2813283, - "_n_tokens": 614959, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/de": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1814876, - "_n_tokens": 503561, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"u\", \"̈\"]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/en": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1124813, - "_n_tokens": 257983, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-110B @ cc100/es": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1664455, - "_n_tokens": 434264, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-110B @ cc100/fa": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2054052, - "_n_tokens": 643421, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/fr": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1540504, - "_n_tokens": 413637, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/ja": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1774770, - "_n_tokens": 377144, - "_n_chars": 603065, - "_n_oov_chars": 463, - "oov_ratio": 0.000767744770464212, - "_oov_charset": "[\"へ\", \"コ\", \"て\", \"゙\", \"し\", \"た\", \"か\", \"は\", \"フ\", \"つ\", \"ス\", \"ホ\", \"く\", \"す\", \"ト\", \"ふ\", \"せ\", \"ヒ\", \"シ\", \"と\", \"ハ\", \"゚\", \"ひ\"]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/ko": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1524839, - "_n_tokens": 457492, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"金\", \"立\", \"理\", \"龍\", \"良\", \"梁\", \"陸\", \"樂\", \"靈\", \"女\", \"識\", \"樂\", \"流\", \"累\", \"不\"]", - "reversible": false - }, - "Qwen/Qwen1.5-110B @ cc100/zh-Hans": { - "tokenizer": "Qwen1.5-110B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2633047, - "_n_tokens": 589211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B @ cc100/ar": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2813283, - "_n_tokens": 614959, - "_n_chars": 1560987, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/de": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1814876, - "_n_tokens": 503561, - "_n_chars": 1784021, - "_n_oov_chars": 27, - "oov_ratio": 1.5134350996989385e-05, - "_oov_charset": "[\"u\", \"̈\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/en": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1124813, - "_n_tokens": 257983, - "_n_chars": 1121360, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B @ cc100/es": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1664455, - "_n_tokens": 434264, - "_n_chars": 1630297, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - }, - "Qwen/Qwen1.5-14B @ cc100/fa": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2054052, - "_n_tokens": 643421, - "_n_chars": 1145876, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/fr": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1540504, - "_n_tokens": 413637, - "_n_chars": 1484970, - "_n_oov_chars": 31, - "oov_ratio": 2.087584260961501e-05, - "_oov_charset": "[\"̂\", \"́\", \"̧\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/ja": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1774770, - "_n_tokens": 377144, - "_n_chars": 603065, - "_n_oov_chars": 463, - "oov_ratio": 0.000767744770464212, - "_oov_charset": "[\"へ\", \"コ\", \"て\", \"゙\", \"し\", \"た\", \"か\", \"は\", \"フ\", \"つ\", \"ス\", \"ホ\", \"く\", \"す\", \"ト\", \"ふ\", \"せ\", \"ヒ\", \"シ\", \"と\", \"ハ\", \"゚\", \"ひ\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/ko": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 1524839, - "_n_tokens": 457492, - "_n_chars": 655190, - "_n_oov_chars": 25, - "oov_ratio": 3.815687052610693e-05, - "_oov_charset": "[\"金\", \"立\", \"理\", \"龍\", \"良\", \"梁\", \"陸\", \"樂\", \"靈\", \"女\", \"識\", \"樂\", \"流\", \"累\", \"不\"]", - "reversible": false - }, - "Qwen/Qwen1.5-14B @ cc100/zh-Hans": { - "tokenizer": "Qwen1.5-14B", - "organization": "Alibaba", - "vocab_size": 151646, - "_n_bytes": 2633047, - "_n_tokens": 589211, - "_n_chars": 927311, - "_n_oov_chars": 0, - "oov_ratio": 0.0, - "_oov_charset": "[]", - "reversible": true - } +{ + "01-ai/Yi-34B @ cc100/ar": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2813283, + "_n_tokens": 1795801, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/de": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1814876, + "_n_tokens": 698366, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/en": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1124813, + "_n_tokens": 270400, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/es": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1664455, + "_n_tokens": 577018, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/fa": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2054052, + "_n_tokens": 1337264, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/fr": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1540504, + "_n_tokens": 533106, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/ja": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1774770, + "_n_tokens": 740791, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/ko": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1524839, + "_n_tokens": 1203134, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-34B @ cc100/zh-Hans": { + "tokenizer": "Yi-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2633047, + "_n_tokens": 588729, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/ar": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2813283, + "_n_tokens": 1795801, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/de": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1814876, + "_n_tokens": 698366, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/en": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1124813, + "_n_tokens": 270400, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/es": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1664455, + "_n_tokens": 577018, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/fa": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2054052, + "_n_tokens": 1337264, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/fr": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1540504, + "_n_tokens": 533106, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/ja": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1774770, + "_n_tokens": 740791, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/ko": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1524839, + "_n_tokens": 1203134, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-6B @ cc100/zh-Hans": { + "tokenizer": "Yi-6B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2633047, + "_n_tokens": 588729, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/ar": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2813283, + "_n_tokens": 1803957, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/de": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1814876, + "_n_tokens": 697065, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/en": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1124813, + "_n_tokens": 269738, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/es": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1664455, + "_n_tokens": 576794, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/fa": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2054052, + "_n_tokens": 1346819, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/fr": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1540504, + "_n_tokens": 532288, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/ja": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1774770, + "_n_tokens": 749927, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/ko": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 1524839, + "_n_tokens": 1210021, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "01-ai/Yi-VL-34B @ cc100/zh-Hans": { + "tokenizer": "Yi-VL-34B", + "organization": "Yi", + "vocab_size": 64000, + "_n_bytes": 2633047, + "_n_tokens": 596166, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ClassCat/gpt2-base-french @ cc100/ar": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2813283, + "_n_tokens": 1362808, + "_n_chars": 1560987, + "_n_oov_chars": 1895, + "oov_ratio": 0.001213975516772401, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"Х\", \"H\", \"U\", \"G\", \"ﷺ\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"ﻹ\", \"T\", \"O\", \"X\", \"½\", \"M\", \"F\", \"S\", \"W\", \"D\", \"ﻻ\", \"L\", \"ﻷ\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/de": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1814876, + "_n_tokens": 598773, + "_n_chars": 1784021, + "_n_oov_chars": 90245, + "oov_ratio": 0.050585166878641, + "_oov_charset": "[\"A\", \"…\", \"Ä\", \"N\", \"P\", \"™\", \"H\", \"G\", \"U\", \"Ã\", \" \", \"R\", \"Y\", \"Ü\", \"Q\", \"¹\", \"É\", \"I\", \"Á\", \"V\", \"J\", \"K\", \"Ö\", \"B\", \"E\", \"Ÿ\", \"Z\", \"C\", \"´\", \"²\", \"T\", \"O\", \"X\", \"½\", \"M\", \"F\", \"S\", \"W\", \"D\", \"İ\", \"L\", \"Ø\", \"¼\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/en": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1124813, + "_n_tokens": 319127, + "_n_chars": 1121360, + "_n_oov_chars": 31089, + "oov_ratio": 0.02772437040736249, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"③\", \"H\", \"U\", \"G\", \"‑\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"⑦\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"⑩\", \"´\", \"T\", \"O\", \"X\", \"⑤\", \"M\", \"F\", \"S\", \"⑧\", \"W\", \"D\", \"L\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/es": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1664455, + "_n_tokens": 529060, + "_n_chars": 1630297, + "_n_oov_chars": 40703, + "oov_ratio": 0.02496661651220606, + "_oov_charset": "[\"A\", \"…\", \"Ú\", \"N\", \"P\", \"Ñ\", \"М\", \"H\", \"U\", \"G\", \"R\", \"Y\", \"º\", \"Ó\", \"Q\", \"É\", \"I\", \"ª\", \"Á\", \"V\", \"J\", \"K\", \"B\", \"E\", \"²\", \"´\", \"C\", \"Z\", \"T\", \"O\", \"X\", \"M\", \"F\", \"S\", \"W\", \"D\", \"L\", \"Í\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/fa": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2054052, + "_n_tokens": 1093333, + "_n_chars": 1145876, + "_n_oov_chars": 1472, + "oov_ratio": 0.001284606711371911, + "_oov_charset": "[\"…\", \"A\", \"N\", \"P\", \"H\", \"G\", \"U\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"T\", \"O\", \"X\", \"M\", \"F\", \"ﮧ\", \"S\", \"W\", \"D\", \"L\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/fr": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1540504, + "_n_tokens": 341687, + "_n_chars": 1484970, + "_n_oov_chars": 28762, + "oov_ratio": 0.01936874145605635, + "_oov_charset": "[\"A\", \"…\", \"Ê\", \"N\", \"P\", \"Ç\", \"™\", \"H\", \"U\", \"G\", \"Â\", \"È\", \"R\", \"Y\", \"Q\", \"É\", \"I\", \"℃\", \"V\", \"J\", \"K\", \"Î\", \"B\", \"E\", \"²\", \"Z\", \"C\", \"´\", \"T\", \"O\", \"X\", \"M\", \"Ô\", \"F\", \"S\", \"µ\", \"W\", \"À\", \"D\", \"L\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/ja": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1774770, + "_n_tokens": 1149553, + "_n_chars": 603065, + "_n_oov_chars": 9978, + "oov_ratio": 0.01654548017212075, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"R\", \"]\", \"V\", \"J\", \"7\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"C\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"W\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"U\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"@\", \"s\", \"Д\", \"M\", \"I\", \"「\", \"¥\", \"\\u001b\", \"B\", \"E\", \"Z\", \"´\", \"‼\", \"T\", \"1\", \"P\", \"<\", \"+\", \"9\", \"M\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"L\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"P\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \"H\", \";\", \")\", \"[\", \"Ⅱ\", \"Y\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"K\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"X\", \"テ\", \"F\", \"゚\", \"J\", \"*\", \"S\", \"D\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \"A\", \".\", \"N\", \"C\", \"ウ\", \"2\", \"G\", \"‥\", \"ア\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"Q\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \"O\", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"~\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/ko": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1524839, + "_n_tokens": 1411369, + "_n_chars": 655190, + "_n_oov_chars": 10124, + "oov_ratio": 0.015452006288252263, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"R\", \"樂\", \"ㅈ\", \"ㅟ\", \"ㅋ\", \"ㅍ\", \"㎡\", \"ㅎ\", \"V\", \"J\", \"ㆍ\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"C\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \":\", \"①\", \"W\", \"ㅜ\", \"ㄹ\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"U\", \"v\", \"識\", \"ㅆ\", \"s\", \"@\", \"I\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"B\", \"E\", \"Z\", \"Ⅰ\", \"ㅅ\", \"T\", \"⑤\", \"ㄱ\", \"累\", \"M\", \"樂\", \"L\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"ㅕ\", \"P\", \"ㅛ\", \"ㅏ\", \"H\", \"龍\", \"㉰\", \"Ⅱ\", \"Y\", \"ㅓ\", \"⑨\", \"℃\", \"」\", \"K\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"X\", \"ㅐ\", \"⑵\", \"ㅔ\", \"良\", \"F\", \"ㅚ\", \"S\", \"*\", \"㎍\", \"D\", \"理\", \"梁\", \"A\", \"N\", \"Ⅲ\", \"陸\", \"G\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"Q\", \"¹\", \"ㅝ\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"ㅖ\", \"⑦\", \"?\", \"O\", \"金\", \"ⅱ\", \"Ⅹ\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\"]", + "lossless": false + }, + "ClassCat/gpt2-base-french @ cc100/zh-Hans": { + "tokenizer": "gpt2-base-french", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2633047, + "_n_tokens": 1921438, + "_n_chars": 927311, + "_n_oov_chars": 74022, + "oov_ratio": 0.07982435234780996, + "_oov_charset": "[\"%\", \"⑥\", \"⒋\", \"\\b\", \"R\", \"]\", \"\", \"V\", \"J\", \"7\", \"\\u0000\", \"\", \"8\", \"-\", \"②\", \"C\", \"⑴\", \",\", \":\", \"①\", \"W\", \"…\", \""\", \"_\", \"③\", \"p\", \"・\", \"⑶\", \"n\", \"6\", \"U\", \"\", \"T\", \"⒁\", \"3\", \"/\", \"\", \"s\", \"I\", \"B\", \"E\", \"Z\", \"T\", \"1\", \"⑤\", \"+\", \"\", \"9\", \"M\", \"⒃\", \"5\", \"⒂\", \"a\", \"h\", \"L\", \"r\", \"Ø\", \"④\", \"⑸\", \"P\", \"0\", \"d\", \"H\", \" \", \";\", \")\", \"[\", \"Y\", \"⑨\", \"℃\", \"K\", \" \", \"o\", \"⑩\", \"X\", \"F\", \"⒀\", \"S\", \"D\", \"D\", \"⑿\", \"(\", \"N\", \"A\", \".\", \"N\", \"⑷\", \"C\", \"2\", \"G\", \"Q\", \"t\", \"\\u0006\", \"!\", \"\", \"\\u0005\", \"⑦\", \"\\u0007\", \"?\", \"O\", \"V\", \"⒌\", \"e\", \"4\", \"⑧\", \"A\", \"&\", \"~\", \"i\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/ar": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2813283, + "_n_tokens": 1414504, + "_n_chars": 1560987, + "_n_oov_chars": 1895, + "oov_ratio": 0.001213975516772401, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"Х\", \"H\", \"U\", \"G\", \"ﷺ\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"ﻹ\", \"T\", \"O\", \"X\", \"½\", \"M\", \"F\", \"S\", \"W\", \"D\", \"ﻻ\", \"L\", \"ﻷ\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/de": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1814876, + "_n_tokens": 623279, + "_n_chars": 1784021, + "_n_oov_chars": 90245, + "oov_ratio": 0.050585166878641, + "_oov_charset": "[\"A\", \"…\", \"Ä\", \"N\", \"P\", \"™\", \"H\", \"G\", \"U\", \"Ã\", \" \", \"R\", \"Y\", \"Ü\", \"Q\", \"¹\", \"É\", \"I\", \"Á\", \"V\", \"J\", \"K\", \"Ö\", \"B\", \"E\", \"Ÿ\", \"Z\", \"C\", \"´\", \"²\", \"T\", \"O\", \"X\", \"½\", \"M\", \"F\", \"S\", \"W\", \"D\", \"İ\", \"L\", \"Ø\", \"¼\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/en": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1124813, + "_n_tokens": 322348, + "_n_chars": 1121360, + "_n_oov_chars": 31089, + "oov_ratio": 0.02772437040736249, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"③\", \"H\", \"U\", \"G\", \"‑\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"⑦\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"⑩\", \"´\", \"T\", \"O\", \"X\", \"⑤\", \"M\", \"F\", \"S\", \"⑧\", \"W\", \"D\", \"L\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/es": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1664455, + "_n_tokens": 340022, + "_n_chars": 1630297, + "_n_oov_chars": 40703, + "oov_ratio": 0.02496661651220606, + "_oov_charset": "[\"A\", \"…\", \"Ú\", \"N\", \"P\", \"Ñ\", \"М\", \"H\", \"U\", \"G\", \"R\", \"Y\", \"º\", \"Ó\", \"Q\", \"É\", \"I\", \"ª\", \"Á\", \"V\", \"J\", \"K\", \"B\", \"E\", \"²\", \"´\", \"C\", \"Z\", \"T\", \"O\", \"X\", \"M\", \"F\", \"S\", \"W\", \"D\", \"L\", \"Í\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/fa": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2054052, + "_n_tokens": 1119673, + "_n_chars": 1145876, + "_n_oov_chars": 1472, + "oov_ratio": 0.001284606711371911, + "_oov_charset": "[\"…\", \"A\", \"N\", \"P\", \"H\", \"G\", \"U\", \"R\", \"Y\", \"Q\", \"I\", \"V\", \"J\", \"K\", \"B\", \"E\", \"Z\", \"C\", \"T\", \"O\", \"X\", \"M\", \"F\", \"ﮧ\", \"S\", \"W\", \"D\", \"L\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/fr": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1540504, + "_n_tokens": 500750, + "_n_chars": 1484970, + "_n_oov_chars": 28762, + "oov_ratio": 0.01936874145605635, + "_oov_charset": "[\"A\", \"…\", \"Ê\", \"N\", \"P\", \"Ç\", \"™\", \"H\", \"U\", \"G\", \"Â\", \"È\", \"R\", \"Y\", \"Q\", \"É\", \"I\", \"℃\", \"V\", \"J\", \"K\", \"Î\", \"B\", \"E\", \"²\", \"Z\", \"C\", \"´\", \"T\", \"O\", \"X\", \"M\", \"Ô\", \"F\", \"S\", \"µ\", \"W\", \"À\", \"D\", \"L\", \"″\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/ja": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1774770, + "_n_tokens": 1191203, + "_n_chars": 603065, + "_n_oov_chars": 9978, + "oov_ratio": 0.01654548017212075, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"R\", \"]\", \"V\", \"J\", \"7\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"C\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"W\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"U\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"@\", \"s\", \"Д\", \"M\", \"I\", \"「\", \"¥\", \"\\u001b\", \"B\", \"E\", \"Z\", \"´\", \"‼\", \"T\", \"1\", \"P\", \"<\", \"+\", \"9\", \"M\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"L\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"P\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \"H\", \";\", \")\", \"[\", \"Ⅱ\", \"Y\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"K\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"X\", \"テ\", \"F\", \"゚\", \"J\", \"*\", \"S\", \"D\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \"A\", \".\", \"N\", \"C\", \"ウ\", \"2\", \"G\", \"‥\", \"ア\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"Q\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \"O\", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"~\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/ko": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 1524839, + "_n_tokens": 1377796, + "_n_chars": 655190, + "_n_oov_chars": 10124, + "oov_ratio": 0.015452006288252263, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"R\", \"樂\", \"ㅈ\", \"ㅟ\", \"ㅋ\", \"ㅍ\", \"㎡\", \"ㅎ\", \"V\", \"J\", \"ㆍ\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"C\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \":\", \"①\", \"W\", \"ㅜ\", \"ㄹ\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"U\", \"v\", \"識\", \"ㅆ\", \"s\", \"@\", \"I\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"B\", \"E\", \"Z\", \"Ⅰ\", \"ㅅ\", \"T\", \"⑤\", \"ㄱ\", \"累\", \"M\", \"樂\", \"L\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"ㅕ\", \"P\", \"ㅛ\", \"ㅏ\", \"H\", \"龍\", \"㉰\", \"Ⅱ\", \"Y\", \"ㅓ\", \"⑨\", \"℃\", \"」\", \"K\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"X\", \"ㅐ\", \"⑵\", \"ㅔ\", \"良\", \"F\", \"ㅚ\", \"S\", \"*\", \"㎍\", \"D\", \"理\", \"梁\", \"A\", \"N\", \"Ⅲ\", \"陸\", \"G\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"Q\", \"¹\", \"ㅝ\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"ㅖ\", \"⑦\", \"?\", \"O\", \"金\", \"ⅱ\", \"Ⅹ\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\"]", + "lossless": false + }, + "ClassCat/gpt2-base-spanish @ cc100/zh-Hans": { + "tokenizer": "gpt2-base-spanish", + "organization": "ClassCat", + "vocab_size": 50000, + "_n_bytes": 2633047, + "_n_tokens": 1978056, + "_n_chars": 927311, + "_n_oov_chars": 74022, + "oov_ratio": 0.07982435234780996, + "_oov_charset": "[\"%\", \"⑥\", \"⒋\", \"\\b\", \"R\", \"]\", \"\", \"V\", \"J\", \"7\", \"\\u0000\", \"\", \"8\", \"-\", \"②\", \"C\", \"⑴\", \",\", \":\", \"①\", \"W\", \"…\", \""\", \"_\", \"③\", \"p\", \"・\", \"⑶\", \"n\", \"6\", \"U\", \"\", \"T\", \"⒁\", \"3\", \"/\", \"\", \"s\", \"I\", \"B\", \"E\", \"Z\", \"T\", \"1\", \"⑤\", \"+\", \"\", \"9\", \"M\", \"⒃\", \"5\", \"⒂\", \"a\", \"h\", \"L\", \"r\", \"Ø\", \"④\", \"⑸\", \"P\", \"0\", \"d\", \"H\", \" \", \";\", \")\", \"[\", \"Y\", \"⑨\", \"℃\", \"K\", \" \", \"o\", \"⑩\", \"X\", \"F\", \"⒀\", \"S\", \"D\", \"D\", \"⑿\", \"(\", \"N\", \"A\", \".\", \"N\", \"⑷\", \"C\", \"2\", \"G\", \"Q\", \"t\", \"\\u0006\", \"!\", \"\", \"\\u0005\", \"⑦\", \"\\u0007\", \"?\", \"O\", \"V\", \"⒌\", \"e\", \"4\", \"⑧\", \"A\", \"&\", \"~\", \"i\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/ar": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2813283, + "_n_tokens": 996313, + "_n_chars": 1560987, + "_n_oov_chars": 928499, + "oov_ratio": 0.5948153315818774, + "_oov_charset": "[\"﴾\", \"😀\", \"ة\", \"ِ\", \"إ\", \"«\", \"ن\", \"ـ\", \"�\", \"​\", \"ھ\", \"چ\", \"©\", \"█\", \"‬\", \"٩\", \"ُ\", \"‏\", \"ک\", \"ت\", \"؛\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ﻻ\", \"ﻷ\", \"ج\", \"″\", \"…\", \"
\", \"ف\", \"ص\", \"ﷺ\", \"ۚ\", \"â\", \"ع\", \"٪\", \"😊\", \"ٱ\", \"،\", \"٣\", \"۸\", \"س\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"ئ\", \"ْ\", \"Х\", \"ί\", \"ٌ\", \"▪\", \"۰\", \"خ\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"κ\", \"¡\", \"٨\", \"؟\", \"ي\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"⤴\", \"ء\", \"ب\", \"۷\", \"ή\", \"ٹ\", \"›\", \"ٰ\", \"ى\", \"ر\", \"غ\", \"‹\", \"٢\", \"٦\", \"‎\", \"ط\", \"م\", \"پ\", \"ً\", \"χ\", \"ٍ\", \"▫\", \"ّ\", \"♥\", \"و\", \"٧\", \"↩\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/de": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1814876, + "_n_tokens": 960463, + "_n_chars": 1784021, + "_n_oov_chars": 5169, + "oov_ratio": 0.0028973874186458567, + "_oov_charset": "[\"…\", \"›\", \"Ä\", \"😀\", \"😢\", \"😉\", \"❤\", \"û\", \"å\", \"ί\", \"œ\", \"“\", \"™\", \"¤\", \"č\", \"Ã\", \"ư\", \" \", \"‹\", \"«\", \"Ü\", \"☺\", \"😆\", \"¹\", \"â\", \"ô\", \"ė\", \"�\", \"ï\", \"ς\", \"¶\", \"Á\", \"🙁\", \"​\", \"😃\", \"ø\", \"♦\", \"Ö\", \"‽\", \"€\", \"‎\", \"➔\", \"©\", \"😦\", \"Ÿ\", \"²\", \"´\", \"😈\", \"ι\", \"😂\", \"¿\", \"🙂\", \"‐\", \"ń\", \"\", \"🙄\", \"„\", \"½\", \"ć\", \"ß\", \"§\", \"š\", \"–\", \"‚\", \"♥\", \"¬\", \"♡\", \"„\", \"İ\", \"ớ\", \"↩\", \"Ø\", \"̈\", \"£\", \"¼\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/en": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1124813, + "_n_tokens": 526033, + "_n_chars": 1121360, + "_n_oov_chars": 141, + "oov_ratio": 0.00012574017264749946, + "_oov_charset": "[\"…\", \"😉\", \"③\", \"“\", \"¦\", \"‑\", \"«\", \"😥\", \"�\", \"¡\", \"ï\", \"ñ\", \"”\", \"​\", \"⑦\", \"\", \"´\", \"⑩\", \"🙂\", \"⑤\", \"⑧\", \"\", \"£\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/es": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1664455, + "_n_tokens": 879530, + "_n_chars": 1630297, + "_n_oov_chars": 3885, + "oov_ratio": 0.002383001379503244, + "_oov_charset": "[\"…\", \"😀\", \"▷\", \"✪\", \"Ú\", \"😉\", \"❤\", \"Ñ\", \"‘\", \"👏\", \"º\", \"«\", \"Ó\", \"¡\", \"ñ\", \"ª\", \"️\", \"Á\", \"✖\", \"🙁\", \"ø\", \"✓\", \"€\", \"©\", \"😦\", \"²\", \"✔\", \"´\", \"¿\", \"🙂\", \"ý\", \"👍\", \"\", \"„\", \"Í\", \"’\", \"ô\", \"″\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/fa": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2054052, + "_n_tokens": 730377, + "_n_chars": 1145876, + "_n_oov_chars": 744234, + "oov_ratio": 0.6494891244776921, + "_oov_charset": "[\"۹\", \"ة\", \"ۆ\", \"ِ\", \"إ\", \"«\", \"ن\", \"ـ\", \"�\", \"​\", \"ھ\", \"چ\", \"©\", \"ב\", \"٩\", \"ُ\", \"‏\", \"ک\", \"ت\", \"؛\", \"۶\", \"۴\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ج\", \"ט\", \"…\", \"ف\", \"۔\", \"ژ\", \"‍\", \"ص\", \"ۀ\", \"ے\", \"ڪ\", \"ع\", \"٪\", \"۳\", \"️\", \"،\", \"٣\", \"۸\", \"س\", \"ی\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"٫\", \"ئ\", \"ْ\", \"ٌ\", \"۰\", \"خ\", \"٠\", \"ٴ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"٨\", \"؟\", \"ي\", \"ٔ\", \"آ\", \"ظ\", \"▐\", \"ء\", \"ب\", \"۷\", \"›\", \"ى\", \"❤\", \"ر\", \"۵\", \"غ\", \"۱\", \"٢\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"ط\", \"م\", \"پ\", \"ً\", \"✿\", \"ﮧ\", \"ٍ\", \"ّ\", \"♥\", \"و\", \"٧\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/fr": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1540504, + "_n_tokens": 812012, + "_n_chars": 1484970, + "_n_oov_chars": 5476, + "oov_ratio": 0.003687616584846832, + "_oov_charset": "[\"…\", \"😀\", \"Ê\", \"̧\", \"😉\", \"❤\", \"û\", \"♕\", \"…\", \"̂\", \"œ\", \"Ç\", \"ğ\", \"™\", \"♠\", \"🤔\", \"Â\", \"È\", \"«\", \"î\", \"â\", \"�\", \"ï\", \"ê\", \"℃\", \"ë\", \"Î\", \"€\", \"²\", \"´\", \"ã\", \"🙂\", \"‐\", \"§\", \"Ô\", \"µ\", \"À\", \"’\", \"ô\", \"″\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/ja": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1774770, + "_n_tokens": 565505, + "_n_chars": 603065, + "_n_oov_chars": 26633, + "oov_ratio": 0.044162735360201634, + "_oov_charset": "[\"%\", \"臨\", \"徴\", \"償\", \"営\", \"馳\", \"揶\", \"ぬ\", \"懸\", \"緒\", \"鐘\", \"樺\", \"\\b\", \"摂\", \"姦\", \"|\", \"◯\", \"納\", \"嶽\", \"噛\", \"脳\", \"監\", \"熱\", \"塵\", \"幣\", \"閑\", \"倫\", \"麗\", \"豊\", \"雑\", \"7\", \"嘆\", \"​\", \"ィ\", \"塊\", \"8\", \"価\", \"聴\", \"喫\", \"F\", \"-\", \"閉\", \"⇔\", \"締\", \"紋\", \"詩\", \"S\", \"‐\", \"貴\", \"諏\", \"餃\", \"糞\", \"測\", \"斉\", \"貨\", \"貢\", \"輝\", \"①\", \"陣\", \"獣\", \"〝\", \"漬\", \"財\", \"釣\", \"窮\", \"諦\", \"診\", \"腎\", \"…\", \"レ\", \"▷\", \"詳\", \"ゎ\", \"ぱ\", \"ぽ\", \"頬\", \"桟\", \"託\", \"偽\", \"n\", \"凪\", \"T\", \"X\", \"奪\", \"課\", \"仏\", \"g\", \"遅\", \"/\", \"姉\", \"靄\", \"髭\", \"輿\", \"M\", \"😊\", \"飽\", \"濫\", \"換\", \"ぁ\", \"猟\", \"済\", \"¥\", \"繋\", \"\\u001b\", \"駆\", \"´\", \"‼\", \"✨\", \"P\", \"儲\", \"<\", \"訳\", \"腸\", \"灘\", \"憲\", \"園\", \"斬\", \"遡\", \"H\", \"賃\", \"嬢\", \"載\", \"恥\", \"減\", \"競\", \"I\", \"呟\", \"凱\", \"コ\", \"郵\", \"拶\", \"穂\", \"f\", \"陥\", \"軌\", \"墾\", \"浄\", \"複\", \"図\", \"喚\", \"曇\", \"練\", \"隣\", \"Ⅱ\", \"捩\", \"職\", \"彌\", \"麹\", \"y\", \"倉\", \"銀\", \"b\", \"痺\", \"廃\", \"⻑\", \"蠍\", \"興\", \"臓\", \"薬\", \"掴\", \"紛\", \"敗\", \"艶\", \"鞄\", \"遜\", \"⑩\", \"Ⅶ\", \"戻\", \"齢\", \"絡\", \"訟\", \"テ\", \"霧\", \"賭\", \"紡\", \"猶\", \"綱\", \"須\", \".\", \"彫\", \"乗\", \"貫\", \"燭\", \"謀\", \"❤\", \"◡\", \"誌\", \"誤\", \"揚\", \"児\", \"円\", \"爾\", \"⇒\", \"塚\", \"飴\", \"ア\", \"篤\", \"。\", \"訓\", \"ゾ\", \"Y\", \"亀\", \"腫\", \"隠\", \"勧\", \"醸\", \"t\", \"誠\", \"駕\", \"ぉ\", \"産\", \"m\", \"圧\", \"妬\", \"楓\", \"執\", \"責\", \"鑑\", \"?\", \"繰\", \"譚\", \"掛\", \"丿\", \"貸\", \"L\", \"ー\", \"塗\", \"損\", \"蛍\", \"轄\", \"拡\", \"ぇ\", \"傾\", \"嘩\", \"臥\", \"A\", \"韓\", \"純\", \"舗\", \"籠\", \"終\", \"巣\", \"蓋\", \"鯖\", \"カ\", \"💦\", \"縄\", \"i\", \"駄\", \"厳\", \"頓\", \"欽\", \"週\", \"悪\", \"僅\", \"滲\", \"剤\", \"悶\", \"艦\", \"聖\", \"淵\", \"縛\", \"織\", \"闘\", \"欝\", \"彙\", \"復\", \"膿\", \"�\", \"呂\", \"紀\", \"綺\", \"騙\", \"尋\", \"闊\", \"両\", \"訃\", \"鉄\", \"遺\", \"繍\", \"鍋\", \"唄\", \"険\", \"Q\", \"訂\", \"庁\", \"渦\", \"曽\", \"鍵\", \"獄\", \"\", \"蒔\", \"纏\", \"頃\", \"編\", \"団\", \"ゼ\", \"贅\", \"″\", \"鮮\", \"゙\", \"飛\", \"馴\", \"薩\", \"餌\", \"薦\", \"・\", \"鴻\", \"呑\", \"捗\", \"氾\", \"慶\", \"湧\", \"賞\", \"喪\", \"3\", \"衝\", \"`\", \"頒\", \"讃\", \"墳\", \"粋\", \"@\", \"謳\", \"磯\", \"緻\", \"紗\", \"「\", \"輩\", \"歩\", \"誕\", \"餓\", \"闖\", \"鳥\", \"飯\", \"輪\", \"貿\", \"駐\", \"鍛\", \"採\", \"貶\", \"縁\", \"謂\", \"+\", \"洩\", \"⌒\", \"躾\", \"棄\", \"辿\", \"謬\", \"癒\", \"橋\", \"稲\", \"✧\", \"襲\", \"覧\", \"㎞\", \"脈\", \"憶\", \"階\", \"筆\", \"E\", \"喰\", \"庫\", \"枠\", \"韮\", \"d\", \"鉛\", \"ぜ\", \"厭\", \"騰\", \"飾\", \"飲\", \"」\", \"渇\", \"慣\", \"ぴ\", \"賀\", \"冨\", \"剰\", \"談\", \"遼\", \"頼\", \"メ\", \"異\", \"贔\", \"粧\", \"屓\", \"揺\", \"帯\", \"゚\", \"検\", \"J\", \"*\", \"黙\", \"絵\", \"養\", \"髪\", \"違\", \"抜\", \"輸\", \"晩\", \"顔\", \"棟\", \"N\", \"銃\", \"帳\", \"贋\", \"ノ\", \"諾\", \"艸\", \"丼\", \"寧\", \"紐\", \"鳴\", \"釈\", \"脅\", \"滝\", \"欄\", \"2\", \"恵\", \"曖\", \"環\", \"婦\", \"孫\", \"証\", \"‥\", \"ヲ\", \"鎮\", \"陰\", \"K\", \"=\", \"潰\", \"ヘ\", \"!\", \"潔\", \"讐\", \"梱\", \"篠\", \"鉢\", \"銘\", \"囲\", \"礎\", \"穫\", \"謄\", \"訣\", \"満\", \"贈\", \"渉\", \" \", \"軟\", \"誹\", \"汚\", \"膚\", \"^\", \"澤\", \"k\", \"筈\", \"牽\", \"饉\", \"鉱\", \"澪\", \"و\", \"債\", \"貝\", \"畳\", \"憤\", \"範\", \"貼\", \"焼\", \"棲\", \"審\", \"戯\", \"譜\", \"鋭\", \"適\", \"捲\", \"協\", \"夢\", \"俵\", \"荘\", \"聞\", \"«\", \"顧\", \"択\", \"遙\", \"瘍\", \"錠\", \"]\", \"綜\", \"謙\", \"謗\", \"喩\", \"傷\", \"増\", \"惣\", \"額\", \"涼\", \"暦\", \"誘\", \"②\", \"麺\", \"継\", \"凍\", \"痩\", \"鶏\", \":\", \"維\", \"R\", \"ゝ\", \"針\", \"擬\", \"〟\", \"趨\", \"罠\", \"砕\", \"預\", \"縦\", \"ㅂ\", \"絆\", \"ゥ\", \"③\", \"湯\", \"勢\", \"滅\", \"顎\", \"6\", \"貯\", \"慮\", \"唸\", \"総\", \"箋\", \"\", \"専\", \"購\", \"緩\", \"涙\", \"噴\", \"醤\", \"揃\", \"煩\", \"剣\", \"羨\", \"売\", \"亜\", \"誇\", \"9\", \"飢\", \"桜\", \"貧\", \"輔\", \"餅\", \"宮\", \"汎\", \"釘\", \"a\", \"懐\", \"h\", \"壊\", \"ヨ\", \"r\", \"鈴\", \"築\", \"掃\", \"壌\", \"羅\", \"賠\", \"0\", \"嗚\", \"w\", \"弾\", \"ぷ\", \"l\", \"掻\", \"療\", \"︎\", \"駿\", \"郷\", \"鎌\", \"ゞ\", \"災\", \"軽\", \"飼\", \"漑\", \"嚥\", \"啓\", \"島\", \"℃\", \"軸\", \"濃\", \"覗\", \"ヘ\", \"侶\", \" \", \"擁\", \"o\", \"閲\", \"♪\", \"糧\", \"噂\", \"僕\", \"隕\", \"幹\", \"ぅ\", \"賊\", \"墜\", \"﨑\", \"歓\", \"貞\", \"紙\", \"綻\", \"Z\", \"(\", \"😢\", \"槍\", \"訴\", \"娯\", \"傑\", \"諸\", \"C\", \"潤\", \"寛\", \"驚\", \"挙\", \"B\", \"鏡\", \"冊\", \"併\", \"頂\", \"🌙\", \"獲\", \"緊\", \"傘\", \"頑\", \"リ\", \"億\", \"観\", \"奨\", \"跡\", \"瀬\", \"氷\", \"験\", \"陽\", \"賑\", \"疇\", \"緑\", \"詈\", \"処\", \"綾\", \"簗\", \"憑\", \"嘗\", \"嵐\", \"Ⅹ\", \"詮\", \"従\", \"⑧\", \"憂\", \"&\", \"頻\", \"♡\", \"罵\", \"縫\", \"ヾ\", \"護\", \"歯\", \"O\", \"漁\", \"側\", \"謎\", \"辺\", \"毎\", \"G\", \"領\", \"繊\", \"壇\", \"⑪\", \"訪\", \"偉\", \"込\", \"ハ\", \"😭\", \"騒\", \"錬\", \"覇\", \"頷\", \"๑\", \"勲\", \"穀\", \"犠\", \"轢\", \"詰\", \"駅\", \"©\", \"鱈\", \"緯\", \",\", \"賢\", \"霊\", \"😌\", \"$\", \"絶\", \"囁\", \">\", \"農\", \"蔵\", \"撲\", \"ぃ\", \"逡\", \"龍\", \"̈\", \"躊\", \"仮\", \"_\", \"悩\", \"〆\", \"醜\", \"値\", \"雰\", \"販\", \"U\", \"脇\", \"ぞ\", \"聾\", \"積\", \"殺\", \"扱\", \"、\", \"費\", \"渋\", \"訊\", \"撫\", \"儀\", \"s\", \"Д\", \"縞\", \"雲\", \"権\", \"ヶ\", \"捨\", \"順\", \"1\", \"績\", \"拝\", \"項\", \"勝\", \"摯\", \"殻\", \"蝋\", \"纒\", \"広\", \"紹\", \"5\", \"閣\", \"備\", \"軒\", \"渕\", \"拠\", \"鎖\", \"徹\", \"穢\", \"罰\", \"貪\", \"④\", \"歴\", \"匂\", \"駒\", \" ̄\", \"∇\", \"鵜\", \"暢\", \"顕\", \"樹\", \"殲\", \"袴\", \"斂\", \";\", \")\", \"[\", \"礫\", \"暁\", \"゚\", \"説\", \"W\", \"渓\", \"衆\", \"峠\", \"梶\", \"̀\", \"栄\", \"舎\", \"ヨ\", \"詐\", \"瘻\", \"暫\", \"負\", \"彿\", \"帰\", \"鬱\", \"挿\", \"穏\", \"捜\", \"ヵ\", \"慄\", \"敵\", \"ぼ\", \"諺\", \"煙\", \"兎\", \"窪\", \"謡\", \"層\", \"ヌ\", \"斎\", \"懇\", \"蓮\", \"∀\", \"効\", \"陳\", \"堅\", \"払\", \"ロ\", \"閃\", \"D\", \"綴\", \"沖\", \"銭\", \"懲\", \"軋\", \"鶴\", \"譲\", \"糾\", \"酔\", \"魚\", \"訝\", \"鋲\", \"虜\", \"鈍\", \"転\", \"ウ\", \"縮\", \"窓\", \"岡\", \"賛\", \"詠\", \"綬\", \"絞\", \"絨\", \"覚\", \"佇\", \"揮\", \"劉\", \"塩\", \"♫\", \"躍\", \"彡\", \"ゥ\", \"貰\", \"゙\", \"詫\", \"楊\", \"栃\", \"フ\", \"V\", \"舘\", \"廻\", \"働\", \"e\", \"4\", \"\\", \"圏\", \"奮\", \"労\", \"偵\", \"衛\", \"館\", \"掲\", \"構\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/ko": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1524839, + "_n_tokens": 344411, + "_n_chars": 655190, + "_n_oov_chars": 430264, + "oov_ratio": 0.656701109601795, + "_oov_charset": "[\"%\", \"먼\", \"ᴇ\", \"셔\", \"버\", \"증\", \"량\", \"禮\", \"鐘\", \"웅\", \"樺\", \"석\", \"옆\", \"깽\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"²\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"댈\", \"녀\", \"남\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"v\", \"콘\", \"홈\", \"험\", \"분\", \"직\", \"廟\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"콥\", \"≪\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"것\", \"새\", \"곰\", \"룹\", \"🚨\", \"🗺\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"⇒\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"겁\", \"낀\", \"혁\", \"판\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"吳\", \"롱\", \"얏\", \"팍\", \"힉\", \"댔\", \"眞\", \"쌍\", \"높\", \"쾅\", \"굽\", \"더\", \"줏\", \"보\", \"淨\", \"긍\", \"쌈\", \"폿\", \"紀\", \"닳\", \"닷\", \"젝\", \"겨\", \"€\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"🔹\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"「\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"융\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"贖\", \"飾\", \"웍\", \"퀸\", \"뀔\", \"면\", \"諒\", \"끄\", \"할\", \"홋\", \"뗀\", \"툼\", \"흐\", \"룩\", \"ㅇ\", \"문\", \"슷\", \"不\", \"陰\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"퀘\", \"라\", \"◐\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"맵\", \"킹\", \"광\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"틋\", \"헛\", \"머\", \"②\", \"염\", \"겔\", \"째\", \"밌\", \":\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"濁\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"滅\", \"‍\", \"월\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"귤\", \"쏠\", \"릭\", \"헌\", \"🙋\", \"앗\", \"코\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"℃\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"훼\", \"척\", \"쵸\", \"🍟\", \"驚\", \"ㅙ\", \"재\", \"충\", \"왔\", \"떳\", \"떻\", \"채\", \"삘\", \"얽\", \"웬\", \"찌\", \"➍\", \"주\", \"푸\", \"맺\", \"🏫\", \"찮\", \"템\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"©\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"잇\", \"뇌\", \"獻\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"칼\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"ㄱ\", \"닮\", \"俠\", \"싼\", \"동\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"ⅳ\", \"꾀\", \"갇\", \"챨\", \"돼\", \"네\", \"헤\", \"陳\", \"껑\", \"샹\", \"퀵\", \"푹\", \"魚\", \"튀\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"ⓒ\", \"렇\", \"ㅝ\", \"테\", \"핍\", \"헨\", \"창\", \"🍔\", \"곳\", \"포\", \"걱\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"烏\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"|\", \"궐\", \"릉\", \"힜\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"⑴\", \"향\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"⑶\", \"뻤\", \"땐\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"투\", \"ᴍ\", \"Ⅰ\", \"載\", \"응\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"堯\", \"화\", \"넵\", \"銀\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"캘\", \"폰\", \"곤\", \"❤\", \"🥁\", \"개\", \"윗\", \"壽\", \"ʏ\", \"축\", \"듀\", \"봅\", \"◦\", \"밟\", \"?\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"협\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"💦\", \"올\", \"취\", \"켰\", \"틱\", \"흰\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"濟\", \"밍\", \"캉\", \"넛\", \"돗\", \"숏\", \"ⓔ\", \"걀\", \"득\", \"🌵\", \"밭\", \"팠\", \"쁜\", \"륜\", \"@\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"긋\", \"력\", \"ㅅ\", \"駐\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"⑸\", \"🍰\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"졸\", \"엣\", \"칠\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"*\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"넥\", \"냥\", \"‥\", \"젠\", \"뻑\", \"닙\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"♥\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"適\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"㎡\", \"ㅎ\", \"빅\", \"쿨\", \"뒷\", \"ⅰ\", \"쨍\", \"🙆\", \"쾨\", \"침\", \"🚿\", \"요\", \"蟄\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"년\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"듣\", \"찔\", \"켓\", \"열\", \"즌\", \"태\", \"宮\", \"樂\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"습\", \"럭\", \"랙\", \"길\", \"탬\", \"잤\", \" \", \"줌\", \"♪\", \"딱\", \"장\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"과\", \"꿕\", \"였\", \"위\", \"숙\", \"ⅲ\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"陽\", \"雙\", \"넘\", \"氷\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"촌\", \"뮌\", \"빌\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"ㄹ\", \"꼬\", \"龍\", \"핏\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"쒀\", \"공\", \"🙇\", \"토\", \"죄\", \"골\", \"쁘\", \"빔\", \"뾱\", \"준\", \"슴\", \"罰\", \"쩍\", \"얄\", \"퓨\", \"④\", \"뚝\", \"峴\", \"킥\", \"벽\", \"➋\", \"데\", \"璿\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"靑\", \"내\", \"陸\", \"줍\", \"詔\", \"톱\", \"온\", \"▶\", \"킁\", \"을\", \"😂\", \"ⅱ\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"韜\", \"🍭\", \"펠\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"紋\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"썅\", \"①\", \"훠\", \"탄\", \"窮\", \"두\", \"꽂\", \"…\", \"쏘\", \"궁\", \"팽\", \"톡\", \"🦄\", \"緞\", \"져\", \"칫\", \"돈\", \"換\", \"탕\", \"삶\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"쓴\", \"벳\", \"틈\", \"빕\", \"옷\", \"👍\", \"턴\", \"❍\", \"폼\", \"∙\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"誡\", \"썹\", \"➏\", \"놈\", \"燭\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"敎\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"좌\", \"쿠\", \"떠\", \"└\", \"낮\", \"臥\", \"굉\", \"터\", \"🤟\", \"닥\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"鮮\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"貿\", \"툴\", \"램\", \"앎\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"에\", \"좋\", \"벤\", \"뚜\", \"택\", \"운\", \"뛸\", \"얼\", \"벙\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"協\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"고\", \"했\", \"퍽\", \"뮬\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"켜\", \"꽝\", \"😱\", \"왜\", \"③\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"깡\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"옮\", \"펩\", \"맑\", \"혀\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"캣\", \"鎭\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"紙\", \"쯔\", \"壞\", \"결\", \"엇\", \"›\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"‎\", \"담\", \"뽑\", \"✔\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"Ⅹ\", \"며\", \"힌\", \"⑧\", \"♡\", \"텝\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"킬\", \"씽\", \"😭\", \"맬\", \"기\", \"팡\", \"핥\", \"穀\", \"ㆍ\", \"및\", \"맨\", \"큰\", \"륨\", \"훈\", \"렛\", \"펑\", \"§\", \"효\", \"農\", \"∮\", \"볕\", \"흙\", \"각\", \"체\", \"링\", \"벼\", \"륵\", \"殺\", \"콰\", \"槪\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"국\", \"많\", \"卽\", \"낸\", \"☀\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"쫑\", \"읽\", \"앞\", \"늬\", \"츈\", \"픈\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"ᴛ\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"詠\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"衛\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"魯\", \"샬\", \"덤\", \"멍\", \"튄\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"⑹\", \"곁\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"멘\", \"👏\", \"감\", \"課\", \"識\", \"텨\", \"😊\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"럿\", \"엽\", \"숟\", \"브\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"\", \"췄\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"貸\", \"홍\", \"시\", \"韓\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"⋅\", \"껴\", \"곱\", \"聖\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"뮤\", \"랐\", \"족\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"닌\", \"累\", \"후\", \"늑\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"웨\", \"휙\", \"당\", \"」\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"푼\", \"워\", \"💰\", \"싯\", \"먹\", \"🍞\", \"굴\", \"뭔\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"¹\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \" \", \"널\", \"콤\", \"≫\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"⑥\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"😣\", \"정\", \"꼴\", \"쭙\", \"떴\", \"☞\", \"규\", \"군\", \"줬\", \"樂\", \"앱\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"뻐\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"勢\", \"밤\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"❏\", \"잼\", \"쭈\", \"컸\", \"쫄\", \"몸\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"란\", \"⑨\", \"몽\", \"넓\", \"혐\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"寛\", \"💅\", \"됬\", \"멀\", \"든\", \"⑦\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"유\", \"서\", \"누\", \"삐\", \"쿰\", \"된\", \"처\", \"♣\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"휩\", \"훑\", \"황\", \"역\", \"s\", \"웠\", \"셰\", \"렬\", \"雲\", \"눕\", \"⑤\", \"씻\", \"익\", \"軒\", \"찼\", \"얇\", \"팀\", \"£\", \"펄\", \"뷔\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"樹\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"샐\", \"독\", \"꿍\", \"춥\", \"㉿\", \"얹\", \"자\", \"끼\", \"땠\", \"ㅐ\", \"⑵\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"ʟ\", \"燦\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "ClueAI/ChatYuan-large-v2 @ cc100/zh-Hans": { + "tokenizer": "ChatYuan-large-v2", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2633047, + "_n_tokens": 554154, + "_n_chars": 927311, + "_n_oov_chars": 68599, + "oov_ratio": 0.0739762603916054, + "_oov_charset": "[\"%\", \"⑥\", \"撐\", \"毎\", \"⒋\", \"铩\", \"\\b\", \"嘣\", \"瑥\", \"篢\", \"龇\", \"彙\", \"逑\", \"î\", \"黩\", \"]\", \"�\", \"戢\", \"唷\", \"旆\", \"\", \"​\", \"7\", \"\\u0000\", \"\", \"8\", \"-\", \"©\", \"②\", \"⑴\", \",\", \"霊\", \":\", \"ὐ\", \"①\", \"〝\", \"\", \"…\", \""\", \"浞\", \"_\", \"漲\", \"③\", \"薩\", \"p\", \"娛\", \"・\", \"⑶\", \"託\", \"n\", \"6\", \"黢\", \"狳\", \"\", \"T\", \"倨\", \"⒁\", \"3\", \"慮\", \"/\", \"\", \"亂\", \"忪\", \"s\", \"屣\", \"犰\", \"阽\", \"瑢\", \"歩\", \"镏\", \"疴\", \"噴\", \"岣\", \"欸\", \"1\", \"矍\", \"⑤\", \"採\", \"+\", \"屄\", \"9\", \"\", \"挲\", \"⒃\", \"5\", \"瑒\", \"⒂\", \"〃\", \"a\", \"h\", \"r\", \"ヨ\", \"Ø\", \"旳\", \"擤\", \"④\", \"⑸\", \"艋\", \"0\", \"d\", \"▪\", \"韪\", \"鲎\", \" \", \";\", \")\", \"[\", \"卍\", \"⑨\", \"賣\", \"ê\", \"℃\", \"舎\", \"溘\", \" \", \"o\", \"⑩\", \"„\", \"⒀\", \"D\", \"⑿\", \"(\", \"N\", \".\", \"⑷\", \"耩\", \"C\", \"円\", \"2\", \"瑑\", \"瑧\", \"锒\", \"t\", \"ㄓ\", \"併\", \"\\u0006\", \"!\", \"ς\", \"猡\", \"\", \"\\u0005\", \"瑨\", \"⑦\", \"\\u0007\", \"劑\", \"?\", \"鼯\", \"灑\", \"壓\", \" \", \"損\", \"啐\", \"V\", \"⒌\", \"e\", \"4\", \"讦\", \"ό\", \"⑧\", \"A\", \"&\", \"黧\", \"i\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/ar": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2813283, + "_n_tokens": 996313, + "_n_chars": 1560987, + "_n_oov_chars": 928499, + "oov_ratio": 0.5948153315818774, + "_oov_charset": "[\"﴾\", \"😀\", \"ة\", \"ِ\", \"إ\", \"«\", \"ن\", \"ـ\", \"�\", \"​\", \"ھ\", \"چ\", \"©\", \"█\", \"‬\", \"٩\", \"ُ\", \"‏\", \"ک\", \"ت\", \"؛\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ﻻ\", \"ﻷ\", \"ج\", \"″\", \"…\", \"
\", \"ف\", \"ص\", \"ﷺ\", \"ۚ\", \"â\", \"ع\", \"٪\", \"😊\", \"ٱ\", \"،\", \"٣\", \"۸\", \"س\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"ئ\", \"ْ\", \"Х\", \"ί\", \"ٌ\", \"▪\", \"۰\", \"خ\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"κ\", \"¡\", \"٨\", \"؟\", \"ي\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"⤴\", \"ء\", \"ب\", \"۷\", \"ή\", \"ٹ\", \"›\", \"ٰ\", \"ى\", \"ر\", \"غ\", \"‹\", \"٢\", \"٦\", \"‎\", \"ط\", \"م\", \"پ\", \"ً\", \"χ\", \"ٍ\", \"▫\", \"ّ\", \"♥\", \"و\", \"٧\", \"↩\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/de": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1814876, + "_n_tokens": 960463, + "_n_chars": 1784021, + "_n_oov_chars": 5169, + "oov_ratio": 0.0028973874186458567, + "_oov_charset": "[\"…\", \"›\", \"Ä\", \"😀\", \"😢\", \"😉\", \"❤\", \"û\", \"å\", \"ί\", \"œ\", \"“\", \"™\", \"¤\", \"č\", \"Ã\", \"ư\", \" \", \"‹\", \"«\", \"Ü\", \"☺\", \"😆\", \"¹\", \"â\", \"ô\", \"ė\", \"�\", \"ï\", \"ς\", \"¶\", \"Á\", \"🙁\", \"​\", \"😃\", \"ø\", \"♦\", \"Ö\", \"‽\", \"€\", \"‎\", \"➔\", \"©\", \"😦\", \"Ÿ\", \"²\", \"´\", \"😈\", \"ι\", \"😂\", \"¿\", \"🙂\", \"‐\", \"ń\", \"\", \"🙄\", \"„\", \"½\", \"ć\", \"ß\", \"§\", \"š\", \"–\", \"‚\", \"♥\", \"¬\", \"♡\", \"„\", \"İ\", \"ớ\", \"↩\", \"Ø\", \"̈\", \"£\", \"¼\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/en": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1124813, + "_n_tokens": 526033, + "_n_chars": 1121360, + "_n_oov_chars": 141, + "oov_ratio": 0.00012574017264749946, + "_oov_charset": "[\"…\", \"😉\", \"③\", \"“\", \"¦\", \"‑\", \"«\", \"😥\", \"�\", \"¡\", \"ï\", \"ñ\", \"”\", \"​\", \"⑦\", \"\", \"´\", \"⑩\", \"🙂\", \"⑤\", \"⑧\", \"\", \"£\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/es": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1664455, + "_n_tokens": 879530, + "_n_chars": 1630297, + "_n_oov_chars": 3885, + "oov_ratio": 0.002383001379503244, + "_oov_charset": "[\"…\", \"😀\", \"▷\", \"✪\", \"Ú\", \"😉\", \"❤\", \"Ñ\", \"‘\", \"👏\", \"º\", \"«\", \"Ó\", \"¡\", \"ñ\", \"ª\", \"️\", \"Á\", \"✖\", \"🙁\", \"ø\", \"✓\", \"€\", \"©\", \"😦\", \"²\", \"✔\", \"´\", \"¿\", \"🙂\", \"ý\", \"👍\", \"\", \"„\", \"Í\", \"’\", \"ô\", \"″\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/fa": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2054052, + "_n_tokens": 730377, + "_n_chars": 1145876, + "_n_oov_chars": 744234, + "oov_ratio": 0.6494891244776921, + "_oov_charset": "[\"۹\", \"ة\", \"ۆ\", \"ِ\", \"إ\", \"«\", \"ن\", \"ـ\", \"�\", \"​\", \"ھ\", \"چ\", \"©\", \"ב\", \"٩\", \"ُ\", \"‏\", \"ک\", \"ت\", \"؛\", \"۶\", \"۴\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ج\", \"ט\", \"…\", \"ف\", \"۔\", \"ژ\", \"‍\", \"ص\", \"ۀ\", \"ے\", \"ڪ\", \"ع\", \"٪\", \"۳\", \"️\", \"،\", \"٣\", \"۸\", \"س\", \"ی\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"٫\", \"ئ\", \"ْ\", \"ٌ\", \"۰\", \"خ\", \"٠\", \"ٴ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"٨\", \"؟\", \"ي\", \"ٔ\", \"آ\", \"ظ\", \"▐\", \"ء\", \"ب\", \"۷\", \"›\", \"ى\", \"❤\", \"ر\", \"۵\", \"غ\", \"۱\", \"٢\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"ط\", \"م\", \"پ\", \"ً\", \"✿\", \"ﮧ\", \"ٍ\", \"ّ\", \"♥\", \"و\", \"٧\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/fr": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1540504, + "_n_tokens": 812012, + "_n_chars": 1484970, + "_n_oov_chars": 5476, + "oov_ratio": 0.003687616584846832, + "_oov_charset": "[\"…\", \"😀\", \"Ê\", \"̧\", \"😉\", \"❤\", \"û\", \"♕\", \"…\", \"̂\", \"œ\", \"Ç\", \"ğ\", \"™\", \"♠\", \"🤔\", \"Â\", \"È\", \"«\", \"î\", \"â\", \"�\", \"ï\", \"ê\", \"℃\", \"ë\", \"Î\", \"€\", \"²\", \"´\", \"ã\", \"🙂\", \"‐\", \"§\", \"Ô\", \"µ\", \"À\", \"’\", \"ô\", \"″\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/ja": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1774770, + "_n_tokens": 565505, + "_n_chars": 603065, + "_n_oov_chars": 26633, + "oov_ratio": 0.044162735360201634, + "_oov_charset": "[\"%\", \"臨\", \"徴\", \"償\", \"営\", \"馳\", \"揶\", \"ぬ\", \"懸\", \"緒\", \"鐘\", \"樺\", \"\\b\", \"摂\", \"姦\", \"|\", \"◯\", \"納\", \"嶽\", \"噛\", \"脳\", \"監\", \"熱\", \"塵\", \"幣\", \"閑\", \"倫\", \"麗\", \"豊\", \"雑\", \"7\", \"嘆\", \"​\", \"ィ\", \"塊\", \"8\", \"価\", \"聴\", \"喫\", \"F\", \"-\", \"閉\", \"⇔\", \"締\", \"紋\", \"詩\", \"S\", \"‐\", \"貴\", \"諏\", \"餃\", \"糞\", \"測\", \"斉\", \"貨\", \"貢\", \"輝\", \"①\", \"陣\", \"獣\", \"〝\", \"漬\", \"財\", \"釣\", \"窮\", \"諦\", \"診\", \"腎\", \"…\", \"レ\", \"▷\", \"詳\", \"ゎ\", \"ぱ\", \"ぽ\", \"頬\", \"桟\", \"託\", \"偽\", \"n\", \"凪\", \"T\", \"X\", \"奪\", \"課\", \"仏\", \"g\", \"遅\", \"/\", \"姉\", \"靄\", \"髭\", \"輿\", \"M\", \"😊\", \"飽\", \"濫\", \"換\", \"ぁ\", \"猟\", \"済\", \"¥\", \"繋\", \"\\u001b\", \"駆\", \"´\", \"‼\", \"✨\", \"P\", \"儲\", \"<\", \"訳\", \"腸\", \"灘\", \"憲\", \"園\", \"斬\", \"遡\", \"H\", \"賃\", \"嬢\", \"載\", \"恥\", \"減\", \"競\", \"I\", \"呟\", \"凱\", \"コ\", \"郵\", \"拶\", \"穂\", \"f\", \"陥\", \"軌\", \"墾\", \"浄\", \"複\", \"図\", \"喚\", \"曇\", \"練\", \"隣\", \"Ⅱ\", \"捩\", \"職\", \"彌\", \"麹\", \"y\", \"倉\", \"銀\", \"b\", \"痺\", \"廃\", \"⻑\", \"蠍\", \"興\", \"臓\", \"薬\", \"掴\", \"紛\", \"敗\", \"艶\", \"鞄\", \"遜\", \"⑩\", \"Ⅶ\", \"戻\", \"齢\", \"絡\", \"訟\", \"テ\", \"霧\", \"賭\", \"紡\", \"猶\", \"綱\", \"須\", \".\", \"彫\", \"乗\", \"貫\", \"燭\", \"謀\", \"❤\", \"◡\", \"誌\", \"誤\", \"揚\", \"児\", \"円\", \"爾\", \"⇒\", \"塚\", \"飴\", \"ア\", \"篤\", \"。\", \"訓\", \"ゾ\", \"Y\", \"亀\", \"腫\", \"隠\", \"勧\", \"醸\", \"t\", \"誠\", \"駕\", \"ぉ\", \"産\", \"m\", \"圧\", \"妬\", \"楓\", \"執\", \"責\", \"鑑\", \"?\", \"繰\", \"譚\", \"掛\", \"丿\", \"貸\", \"L\", \"ー\", \"塗\", \"損\", \"蛍\", \"轄\", \"拡\", \"ぇ\", \"傾\", \"嘩\", \"臥\", \"A\", \"韓\", \"純\", \"舗\", \"籠\", \"終\", \"巣\", \"蓋\", \"鯖\", \"カ\", \"💦\", \"縄\", \"i\", \"駄\", \"厳\", \"頓\", \"欽\", \"週\", \"悪\", \"僅\", \"滲\", \"剤\", \"悶\", \"艦\", \"聖\", \"淵\", \"縛\", \"織\", \"闘\", \"欝\", \"彙\", \"復\", \"膿\", \"�\", \"呂\", \"紀\", \"綺\", \"騙\", \"尋\", \"闊\", \"両\", \"訃\", \"鉄\", \"遺\", \"繍\", \"鍋\", \"唄\", \"険\", \"Q\", \"訂\", \"庁\", \"渦\", \"曽\", \"鍵\", \"獄\", \"\", \"蒔\", \"纏\", \"頃\", \"編\", \"団\", \"ゼ\", \"贅\", \"″\", \"鮮\", \"゙\", \"飛\", \"馴\", \"薩\", \"餌\", \"薦\", \"・\", \"鴻\", \"呑\", \"捗\", \"氾\", \"慶\", \"湧\", \"賞\", \"喪\", \"3\", \"衝\", \"`\", \"頒\", \"讃\", \"墳\", \"粋\", \"@\", \"謳\", \"磯\", \"緻\", \"紗\", \"「\", \"輩\", \"歩\", \"誕\", \"餓\", \"闖\", \"鳥\", \"飯\", \"輪\", \"貿\", \"駐\", \"鍛\", \"採\", \"貶\", \"縁\", \"謂\", \"+\", \"洩\", \"⌒\", \"躾\", \"棄\", \"辿\", \"謬\", \"癒\", \"橋\", \"稲\", \"✧\", \"襲\", \"覧\", \"㎞\", \"脈\", \"憶\", \"階\", \"筆\", \"E\", \"喰\", \"庫\", \"枠\", \"韮\", \"d\", \"鉛\", \"ぜ\", \"厭\", \"騰\", \"飾\", \"飲\", \"」\", \"渇\", \"慣\", \"ぴ\", \"賀\", \"冨\", \"剰\", \"談\", \"遼\", \"頼\", \"メ\", \"異\", \"贔\", \"粧\", \"屓\", \"揺\", \"帯\", \"゚\", \"検\", \"J\", \"*\", \"黙\", \"絵\", \"養\", \"髪\", \"違\", \"抜\", \"輸\", \"晩\", \"顔\", \"棟\", \"N\", \"銃\", \"帳\", \"贋\", \"ノ\", \"諾\", \"艸\", \"丼\", \"寧\", \"紐\", \"鳴\", \"釈\", \"脅\", \"滝\", \"欄\", \"2\", \"恵\", \"曖\", \"環\", \"婦\", \"孫\", \"証\", \"‥\", \"ヲ\", \"鎮\", \"陰\", \"K\", \"=\", \"潰\", \"ヘ\", \"!\", \"潔\", \"讐\", \"梱\", \"篠\", \"鉢\", \"銘\", \"囲\", \"礎\", \"穫\", \"謄\", \"訣\", \"満\", \"贈\", \"渉\", \" \", \"軟\", \"誹\", \"汚\", \"膚\", \"^\", \"澤\", \"k\", \"筈\", \"牽\", \"饉\", \"鉱\", \"澪\", \"و\", \"債\", \"貝\", \"畳\", \"憤\", \"範\", \"貼\", \"焼\", \"棲\", \"審\", \"戯\", \"譜\", \"鋭\", \"適\", \"捲\", \"協\", \"夢\", \"俵\", \"荘\", \"聞\", \"«\", \"顧\", \"択\", \"遙\", \"瘍\", \"錠\", \"]\", \"綜\", \"謙\", \"謗\", \"喩\", \"傷\", \"増\", \"惣\", \"額\", \"涼\", \"暦\", \"誘\", \"②\", \"麺\", \"継\", \"凍\", \"痩\", \"鶏\", \":\", \"維\", \"R\", \"ゝ\", \"針\", \"擬\", \"〟\", \"趨\", \"罠\", \"砕\", \"預\", \"縦\", \"ㅂ\", \"絆\", \"ゥ\", \"③\", \"湯\", \"勢\", \"滅\", \"顎\", \"6\", \"貯\", \"慮\", \"唸\", \"総\", \"箋\", \"\", \"専\", \"購\", \"緩\", \"涙\", \"噴\", \"醤\", \"揃\", \"煩\", \"剣\", \"羨\", \"売\", \"亜\", \"誇\", \"9\", \"飢\", \"桜\", \"貧\", \"輔\", \"餅\", \"宮\", \"汎\", \"釘\", \"a\", \"懐\", \"h\", \"壊\", \"ヨ\", \"r\", \"鈴\", \"築\", \"掃\", \"壌\", \"羅\", \"賠\", \"0\", \"嗚\", \"w\", \"弾\", \"ぷ\", \"l\", \"掻\", \"療\", \"︎\", \"駿\", \"郷\", \"鎌\", \"ゞ\", \"災\", \"軽\", \"飼\", \"漑\", \"嚥\", \"啓\", \"島\", \"℃\", \"軸\", \"濃\", \"覗\", \"ヘ\", \"侶\", \" \", \"擁\", \"o\", \"閲\", \"♪\", \"糧\", \"噂\", \"僕\", \"隕\", \"幹\", \"ぅ\", \"賊\", \"墜\", \"﨑\", \"歓\", \"貞\", \"紙\", \"綻\", \"Z\", \"(\", \"😢\", \"槍\", \"訴\", \"娯\", \"傑\", \"諸\", \"C\", \"潤\", \"寛\", \"驚\", \"挙\", \"B\", \"鏡\", \"冊\", \"併\", \"頂\", \"🌙\", \"獲\", \"緊\", \"傘\", \"頑\", \"リ\", \"億\", \"観\", \"奨\", \"跡\", \"瀬\", \"氷\", \"験\", \"陽\", \"賑\", \"疇\", \"緑\", \"詈\", \"処\", \"綾\", \"簗\", \"憑\", \"嘗\", \"嵐\", \"Ⅹ\", \"詮\", \"従\", \"⑧\", \"憂\", \"&\", \"頻\", \"♡\", \"罵\", \"縫\", \"ヾ\", \"護\", \"歯\", \"O\", \"漁\", \"側\", \"謎\", \"辺\", \"毎\", \"G\", \"領\", \"繊\", \"壇\", \"⑪\", \"訪\", \"偉\", \"込\", \"ハ\", \"😭\", \"騒\", \"錬\", \"覇\", \"頷\", \"๑\", \"勲\", \"穀\", \"犠\", \"轢\", \"詰\", \"駅\", \"©\", \"鱈\", \"緯\", \",\", \"賢\", \"霊\", \"😌\", \"$\", \"絶\", \"囁\", \">\", \"農\", \"蔵\", \"撲\", \"ぃ\", \"逡\", \"龍\", \"̈\", \"躊\", \"仮\", \"_\", \"悩\", \"〆\", \"醜\", \"値\", \"雰\", \"販\", \"U\", \"脇\", \"ぞ\", \"聾\", \"積\", \"殺\", \"扱\", \"、\", \"費\", \"渋\", \"訊\", \"撫\", \"儀\", \"s\", \"Д\", \"縞\", \"雲\", \"権\", \"ヶ\", \"捨\", \"順\", \"1\", \"績\", \"拝\", \"項\", \"勝\", \"摯\", \"殻\", \"蝋\", \"纒\", \"広\", \"紹\", \"5\", \"閣\", \"備\", \"軒\", \"渕\", \"拠\", \"鎖\", \"徹\", \"穢\", \"罰\", \"貪\", \"④\", \"歴\", \"匂\", \"駒\", \" ̄\", \"∇\", \"鵜\", \"暢\", \"顕\", \"樹\", \"殲\", \"袴\", \"斂\", \";\", \")\", \"[\", \"礫\", \"暁\", \"゚\", \"説\", \"W\", \"渓\", \"衆\", \"峠\", \"梶\", \"̀\", \"栄\", \"舎\", \"ヨ\", \"詐\", \"瘻\", \"暫\", \"負\", \"彿\", \"帰\", \"鬱\", \"挿\", \"穏\", \"捜\", \"ヵ\", \"慄\", \"敵\", \"ぼ\", \"諺\", \"煙\", \"兎\", \"窪\", \"謡\", \"層\", \"ヌ\", \"斎\", \"懇\", \"蓮\", \"∀\", \"効\", \"陳\", \"堅\", \"払\", \"ロ\", \"閃\", \"D\", \"綴\", \"沖\", \"銭\", \"懲\", \"軋\", \"鶴\", \"譲\", \"糾\", \"酔\", \"魚\", \"訝\", \"鋲\", \"虜\", \"鈍\", \"転\", \"ウ\", \"縮\", \"窓\", \"岡\", \"賛\", \"詠\", \"綬\", \"絞\", \"絨\", \"覚\", \"佇\", \"揮\", \"劉\", \"塩\", \"♫\", \"躍\", \"彡\", \"ゥ\", \"貰\", \"゙\", \"詫\", \"楊\", \"栃\", \"フ\", \"V\", \"舘\", \"廻\", \"働\", \"e\", \"4\", \"\\", \"圏\", \"奮\", \"労\", \"偵\", \"衛\", \"館\", \"掲\", \"構\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/ko": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 1524839, + "_n_tokens": 344411, + "_n_chars": 655190, + "_n_oov_chars": 430264, + "oov_ratio": 0.656701109601795, + "_oov_charset": "[\"%\", \"먼\", \"ᴇ\", \"셔\", \"버\", \"증\", \"량\", \"禮\", \"鐘\", \"웅\", \"樺\", \"석\", \"옆\", \"깽\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"²\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"댈\", \"녀\", \"남\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"v\", \"콘\", \"홈\", \"험\", \"분\", \"직\", \"廟\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"콥\", \"≪\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"것\", \"새\", \"곰\", \"룹\", \"🚨\", \"🗺\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"⇒\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"겁\", \"낀\", \"혁\", \"판\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"吳\", \"롱\", \"얏\", \"팍\", \"힉\", \"댔\", \"眞\", \"쌍\", \"높\", \"쾅\", \"굽\", \"더\", \"줏\", \"보\", \"淨\", \"긍\", \"쌈\", \"폿\", \"紀\", \"닳\", \"닷\", \"젝\", \"겨\", \"€\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"🔹\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"「\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"융\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"贖\", \"飾\", \"웍\", \"퀸\", \"뀔\", \"면\", \"諒\", \"끄\", \"할\", \"홋\", \"뗀\", \"툼\", \"흐\", \"룩\", \"ㅇ\", \"문\", \"슷\", \"不\", \"陰\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"퀘\", \"라\", \"◐\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"맵\", \"킹\", \"광\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"틋\", \"헛\", \"머\", \"②\", \"염\", \"겔\", \"째\", \"밌\", \":\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"濁\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"滅\", \"‍\", \"월\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"귤\", \"쏠\", \"릭\", \"헌\", \"🙋\", \"앗\", \"코\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"℃\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"훼\", \"척\", \"쵸\", \"🍟\", \"驚\", \"ㅙ\", \"재\", \"충\", \"왔\", \"떳\", \"떻\", \"채\", \"삘\", \"얽\", \"웬\", \"찌\", \"➍\", \"주\", \"푸\", \"맺\", \"🏫\", \"찮\", \"템\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"©\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"잇\", \"뇌\", \"獻\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"칼\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"ㄱ\", \"닮\", \"俠\", \"싼\", \"동\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"ⅳ\", \"꾀\", \"갇\", \"챨\", \"돼\", \"네\", \"헤\", \"陳\", \"껑\", \"샹\", \"퀵\", \"푹\", \"魚\", \"튀\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"ⓒ\", \"렇\", \"ㅝ\", \"테\", \"핍\", \"헨\", \"창\", \"🍔\", \"곳\", \"포\", \"걱\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"烏\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"|\", \"궐\", \"릉\", \"힜\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"⑴\", \"향\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"⑶\", \"뻤\", \"땐\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"투\", \"ᴍ\", \"Ⅰ\", \"載\", \"응\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"堯\", \"화\", \"넵\", \"銀\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"캘\", \"폰\", \"곤\", \"❤\", \"🥁\", \"개\", \"윗\", \"壽\", \"ʏ\", \"축\", \"듀\", \"봅\", \"◦\", \"밟\", \"?\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"협\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"💦\", \"올\", \"취\", \"켰\", \"틱\", \"흰\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"濟\", \"밍\", \"캉\", \"넛\", \"돗\", \"숏\", \"ⓔ\", \"걀\", \"득\", \"🌵\", \"밭\", \"팠\", \"쁜\", \"륜\", \"@\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"긋\", \"력\", \"ㅅ\", \"駐\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"⑸\", \"🍰\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"졸\", \"엣\", \"칠\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"*\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"넥\", \"냥\", \"‥\", \"젠\", \"뻑\", \"닙\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"♥\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"適\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"㎡\", \"ㅎ\", \"빅\", \"쿨\", \"뒷\", \"ⅰ\", \"쨍\", \"🙆\", \"쾨\", \"침\", \"🚿\", \"요\", \"蟄\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"년\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"듣\", \"찔\", \"켓\", \"열\", \"즌\", \"태\", \"宮\", \"樂\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"습\", \"럭\", \"랙\", \"길\", \"탬\", \"잤\", \" \", \"줌\", \"♪\", \"딱\", \"장\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"과\", \"꿕\", \"였\", \"위\", \"숙\", \"ⅲ\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"陽\", \"雙\", \"넘\", \"氷\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"촌\", \"뮌\", \"빌\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"ㄹ\", \"꼬\", \"龍\", \"핏\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"쒀\", \"공\", \"🙇\", \"토\", \"죄\", \"골\", \"쁘\", \"빔\", \"뾱\", \"준\", \"슴\", \"罰\", \"쩍\", \"얄\", \"퓨\", \"④\", \"뚝\", \"峴\", \"킥\", \"벽\", \"➋\", \"데\", \"璿\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"靑\", \"내\", \"陸\", \"줍\", \"詔\", \"톱\", \"온\", \"▶\", \"킁\", \"을\", \"😂\", \"ⅱ\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"韜\", \"🍭\", \"펠\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"紋\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"썅\", \"①\", \"훠\", \"탄\", \"窮\", \"두\", \"꽂\", \"…\", \"쏘\", \"궁\", \"팽\", \"톡\", \"🦄\", \"緞\", \"져\", \"칫\", \"돈\", \"換\", \"탕\", \"삶\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"쓴\", \"벳\", \"틈\", \"빕\", \"옷\", \"👍\", \"턴\", \"❍\", \"폼\", \"∙\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"誡\", \"썹\", \"➏\", \"놈\", \"燭\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"敎\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"좌\", \"쿠\", \"떠\", \"└\", \"낮\", \"臥\", \"굉\", \"터\", \"🤟\", \"닥\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"鮮\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"貿\", \"툴\", \"램\", \"앎\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"에\", \"좋\", \"벤\", \"뚜\", \"택\", \"운\", \"뛸\", \"얼\", \"벙\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"協\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"고\", \"했\", \"퍽\", \"뮬\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"켜\", \"꽝\", \"😱\", \"왜\", \"③\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"깡\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"옮\", \"펩\", \"맑\", \"혀\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"캣\", \"鎭\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"紙\", \"쯔\", \"壞\", \"결\", \"엇\", \"›\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"‎\", \"담\", \"뽑\", \"✔\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"Ⅹ\", \"며\", \"힌\", \"⑧\", \"♡\", \"텝\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"킬\", \"씽\", \"😭\", \"맬\", \"기\", \"팡\", \"핥\", \"穀\", \"ㆍ\", \"및\", \"맨\", \"큰\", \"륨\", \"훈\", \"렛\", \"펑\", \"§\", \"효\", \"農\", \"∮\", \"볕\", \"흙\", \"각\", \"체\", \"링\", \"벼\", \"륵\", \"殺\", \"콰\", \"槪\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"국\", \"많\", \"卽\", \"낸\", \"☀\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"쫑\", \"읽\", \"앞\", \"늬\", \"츈\", \"픈\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"ᴛ\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"詠\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"衛\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"魯\", \"샬\", \"덤\", \"멍\", \"튄\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"⑹\", \"곁\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"멘\", \"👏\", \"감\", \"課\", \"識\", \"텨\", \"😊\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"럿\", \"엽\", \"숟\", \"브\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"\", \"췄\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"貸\", \"홍\", \"시\", \"韓\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"⋅\", \"껴\", \"곱\", \"聖\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"뮤\", \"랐\", \"족\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"닌\", \"累\", \"후\", \"늑\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"웨\", \"휙\", \"당\", \"」\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"푼\", \"워\", \"💰\", \"싯\", \"먹\", \"🍞\", \"굴\", \"뭔\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"¹\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \" \", \"널\", \"콤\", \"≫\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"⑥\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"😣\", \"정\", \"꼴\", \"쭙\", \"떴\", \"☞\", \"규\", \"군\", \"줬\", \"樂\", \"앱\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"뻐\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"勢\", \"밤\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"❏\", \"잼\", \"쭈\", \"컸\", \"쫄\", \"몸\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"란\", \"⑨\", \"몽\", \"넓\", \"혐\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"寛\", \"💅\", \"됬\", \"멀\", \"든\", \"⑦\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"유\", \"서\", \"누\", \"삐\", \"쿰\", \"된\", \"처\", \"♣\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"휩\", \"훑\", \"황\", \"역\", \"s\", \"웠\", \"셰\", \"렬\", \"雲\", \"눕\", \"⑤\", \"씻\", \"익\", \"軒\", \"찼\", \"얇\", \"팀\", \"£\", \"펄\", \"뷔\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"樹\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"샐\", \"독\", \"꿍\", \"춥\", \"㉿\", \"얹\", \"자\", \"끼\", \"땠\", \"ㅐ\", \"⑵\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"ʟ\", \"燦\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "ClueAI/PromptCLUE-base @ cc100/zh-Hans": { + "tokenizer": "PromptCLUE-base", + "organization": "CLUE", + "vocab_size": 32128, + "_n_bytes": 2633047, + "_n_tokens": 554154, + "_n_chars": 927311, + "_n_oov_chars": 68599, + "oov_ratio": 0.0739762603916054, + "_oov_charset": "[\"%\", \"⑥\", \"撐\", \"毎\", \"⒋\", \"铩\", \"\\b\", \"嘣\", \"瑥\", \"篢\", \"龇\", \"彙\", \"逑\", \"î\", \"黩\", \"]\", \"�\", \"戢\", \"唷\", \"旆\", \"\", \"​\", \"7\", \"\\u0000\", \"\", \"8\", \"-\", \"©\", \"②\", \"⑴\", \",\", \"霊\", \":\", \"ὐ\", \"①\", \"〝\", \"\", \"…\", \""\", \"浞\", \"_\", \"漲\", \"③\", \"薩\", \"p\", \"娛\", \"・\", \"⑶\", \"託\", \"n\", \"6\", \"黢\", \"狳\", \"\", \"T\", \"倨\", \"⒁\", \"3\", \"慮\", \"/\", \"\", \"亂\", \"忪\", \"s\", \"屣\", \"犰\", \"阽\", \"瑢\", \"歩\", \"镏\", \"疴\", \"噴\", \"岣\", \"欸\", \"1\", \"矍\", \"⑤\", \"採\", \"+\", \"屄\", \"9\", \"\", \"挲\", \"⒃\", \"5\", \"瑒\", \"⒂\", \"〃\", \"a\", \"h\", \"r\", \"ヨ\", \"Ø\", \"旳\", \"擤\", \"④\", \"⑸\", \"艋\", \"0\", \"d\", \"▪\", \"韪\", \"鲎\", \" \", \";\", \")\", \"[\", \"卍\", \"⑨\", \"賣\", \"ê\", \"℃\", \"舎\", \"溘\", \" \", \"o\", \"⑩\", \"„\", \"⒀\", \"D\", \"⑿\", \"(\", \"N\", \".\", \"⑷\", \"耩\", \"C\", \"円\", \"2\", \"瑑\", \"瑧\", \"锒\", \"t\", \"ㄓ\", \"併\", \"\\u0006\", \"!\", \"ς\", \"猡\", \"\", \"\\u0005\", \"瑨\", \"⑦\", \"\\u0007\", \"劑\", \"?\", \"鼯\", \"灑\", \"壓\", \" \", \"損\", \"啐\", \"V\", \"⒌\", \"e\", \"4\", \"讦\", \"ό\", \"⑧\", \"A\", \"&\", \"黧\", \"i\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/ar": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 2813283, + "_n_tokens": 621736, + "_n_chars": 1560987, + "_n_oov_chars": 767, + "oov_ratio": 0.0004913557896382225, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﷺ\", \"‎\", \"‌\", \"
\", \"�\", \"ﻹ\", \"\", \"ﻻ\", \"ﻷ\", \"½\", \"″\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/de": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1814876, + "_n_tokens": 470418, + "_n_chars": 1784021, + "_n_oov_chars": 497, + "oov_ratio": 0.00027858416464828607, + "_oov_charset": "[\"…\", \"​\", \"‎\", \"¹\", \"²\", \"´\", \"�\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/en": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1124813, + "_n_tokens": 307881, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"…\", \"​\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"�\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/es": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1664455, + "_n_tokens": 462231, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"\", \"ª\", \"″\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/fa": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 2054052, + "_n_tokens": 419922, + "_n_chars": 1145876, + "_n_oov_chars": 7690, + "oov_ratio": 0.006711022833186139, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﮧ\", \"‌\", \"‎\", \"�\", \" \", \"\", \"‍\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/fr": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1540504, + "_n_tokens": 460944, + "_n_chars": 1484970, + "_n_oov_chars": 839, + "oov_ratio": 0.0005649945790150643, + "_oov_charset": "[\"…\", \"µ\", \"²\", \"´\", \"�\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/ja": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1774770, + "_n_tokens": 290542, + "_n_chars": 603065, + "_n_oov_chars": 6762, + "oov_ratio": 0.011212721680084236, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"]\", \"�\", \"7\", \"​\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"@\", \"s\", \"M\", \"「\", \"¥\", \"\\u001b\", \"´\", \"‼\", \"1\", \"P\", \"<\", \"+\", \"9\", \"纒\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \";\", \")\", \"[\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"⻑\", \"」\", \"ヨ\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \".\", \"C\", \"ウ\", \"2\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \" \", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/ko": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 1524839, + "_n_tokens": 424586, + "_n_chars": 655190, + "_n_oov_chars": 1365, + "oov_ratio": 0.0020833651307254385, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"〮\", \"힜\", \"樂\", \"ㅈ\", \"�\", \"ㅟ\", \"ㅋ\", \"뭥\", \"ㅍ\", \"㎡\", \"ㅎ\", \"​\", \"ㆍ\", \"흗\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \"璣\", \":\", \"①\", \"ㅜ\", \"ㄹ\", \"\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"‍\", \"v\", \"識\", \"ㅆ\", \"쒀\", \"s\", \"@\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"Ⅰ\", \"ㅅ\", \"⑤\", \"ㄱ\", \"쓕\", \"累\", \"뾱\", \"樂\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"쫗\", \"ㅕ\", \"킌\", \"ㅛ\", \"츈\", \"ㅏ\", \"龍\", \"㉰\", \"Ⅱ\", \"ㅓ\", \"⑨\", \"℃\", \"삣\", \"」\", \"㉿\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"ㅐ\", \"⑵\", \"챨\", \"ㅔ\", \"퍙\", \"良\", \"ㅚ\", \"*\", \"㎍\", \"理\", \"梁\", \"웖\", \"꿕\", \"\", \"➏\", \"Ⅲ\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"ㅝ\", \"¹\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"왘\", \"폍\", \"綃\", \"ㅖ\", \"⑦\", \"?\", \"‎\", \"金\", \"ⅱ\", \"Ⅹ\", \"렜\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\", \"힉\"]", + "lossless": false + }, + "CohereForAI/aya-101 @ cc100/zh-Hans": { + "tokenizer": "aya-101", + "organization": "Cohere For AI", + "vocab_size": 250100, + "_n_bytes": 2633047, + "_n_tokens": 621182, + "_n_chars": 927311, + "_n_oov_chars": 68514, + "oov_ratio": 0.07388459750827932, + "_oov_charset": "[\"%\", \"⑥\", \"⒋\", \"\\b\", \"瑥\", \"篢\", \"黩\", \"]\", \"�\", \"\", \"​\", \"7\", \"\\u0000\", \"8\", \"-\", \"②\", \"⑴\", \",\", \":\", \"①\", \"\", \"…\", \""\", \"_\", \"③\", \"鲱\", \"p\", \"・\", \"⑶\", \"n\", \"6\", \"黢\", \"\", \"T\", \"⒁\", \"3\", \"/\", \"\", \"s\", \"犰\", \"阽\", \"瑢\", \"犄\", \"1\", \"⑤\", \"+\", \"9\", \"⒃\", \"5\", \"瑒\", \"⒂\", \"a\", \"h\", \"r\", \"擤\", \"④\", \"⑸\", \"0\", \"d\", \" \", \";\", \")\", \"[\", \"腭\", \"⑨\", \"℃\", \" \", \"o\", \"⑩\", \"⒀\", \"D\", \"⑿\", \"(\", \"N\", \".\", \"棂\", \"⑷\", \"耩\", \"C\", \"2\", \"瑑\", \"锒\", \"t\", \"\\u0006\", \"!\", \"猡\", \"佝\", \"\", \"\\u0005\", \"瑨\", \"⑦\", \"\\u0007\", \"?\", \"鼯\", \" \", \"V\", \"⒌\", \"e\", \"4\", \"⑧\", \"A\", \"&\", \"i\"]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/ar": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 2813283, + "_n_tokens": 1106277, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/de": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1814876, + "_n_tokens": 583628, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/en": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1124813, + "_n_tokens": 259357, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/es": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1664455, + "_n_tokens": 494577, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/fa": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 2054052, + "_n_tokens": 866434, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/fr": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1540504, + "_n_tokens": 458961, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/ja": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1774770, + "_n_tokens": 605168, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/ko": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 1524839, + "_n_tokens": 973288, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "EleutherAI/gpt-neox-20b @ cc100/zh-Hans": { + "tokenizer": "gpt-neox-20b", + "organization": "EleutherAI", + "vocab_size": 50277, + "_n_bytes": 2633047, + "_n_tokens": 1220529, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/ar": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 2813283, + "_n_tokens": 498287, + "_n_chars": 1560987, + "_n_oov_chars": 767, + "oov_ratio": 0.0004913557896382225, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﷺ\", \"‎\", \"‌\", \"
\", \"�\", \"ﻹ\", \"\", \"ﻻ\", \"ﻷ\", \"½\", \"″\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/de": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1814876, + "_n_tokens": 412571, + "_n_chars": 1784021, + "_n_oov_chars": 498, + "oov_ratio": 0.0002791446961666931, + "_oov_charset": "[\"…\", \"​\", \"‽\", \"‎\", \"¹\", \"²\", \"´\", \"�\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/en": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1124813, + "_n_tokens": 280026, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"…\", \"​\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"�\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/es": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1664455, + "_n_tokens": 379850, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"\", \"ª\", \"″\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/fa": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 2054052, + "_n_tokens": 310926, + "_n_chars": 1145876, + "_n_oov_chars": 7690, + "oov_ratio": 0.006711022833186139, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﮧ\", \"‌\", \"‎\", \"�\", \" \", \"\", \"‍\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/fr": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1540504, + "_n_tokens": 385041, + "_n_chars": 1484970, + "_n_oov_chars": 841, + "oov_ratio": 0.0005663414075705233, + "_oov_charset": "[\"…\", \"µ\", \"…\", \"²\", \"´\", \"�\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/ja": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1774770, + "_n_tokens": 324820, + "_n_chars": 603065, + "_n_oov_chars": 6779, + "oov_ratio": 0.011240911012909057, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"欝\", \"]\", \"�\", \"7\", \"​\", \"ィ\", \"8\", \"F\", \"-\", \"杼\", \"②\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"ゎ\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"\", \"@\", \"s\", \"M\", \"「\", \"¥\", \"\\u001b\", \"´\", \"‼\", \"1\", \"P\", \"<\", \"+\", \"9\", \"纒\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"0\", \" ̄\", \"w\", \"l\", \"韮\", \"d\", \";\", \")\", \"[\", \"漑\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"⻑\", \"」\", \"ヨ\", \"瘻\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"﨑\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \"贋\", \".\", \"鋲\", \"C\", \"ウ\", \"2\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"!\", \"碓\", \"m\", \"リ\", \"?\", \"詈\", \"L\", \" \", \"ー\", \"簗\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"饉\", \"⑧\", \"A\", \"&\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/ko": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 1524839, + "_n_tokens": 354571, + "_n_chars": 655190, + "_n_oov_chars": 1403, + "oov_ratio": 0.002141363573925121, + "_oov_charset": "[\"%\", \"⑥\", \"쟤\", \"Ⅳ\", \"蚩\", \"㉣\", \"立\", \"|\", \"🍭\", \"〮\", \"힜\", \"樂\", \"ㅈ\", \"�\", \"ㅟ\", \"ㅋ\", \"뭥\", \"ㅍ\", \"㎡\", \"ㅎ\", \"​\", \"ㆍ\", \"흗\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \"🚿\", \":\", \"썅\", \"①\", \"ㅜ\", \"ㄹ\", \"🏷\", \"\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"🌵\", \"流\", \"ㄷ\", \"⑶\", \"‍\", \"v\", \"\", \"識\", \"槪\", \"ㅆ\", \"쒀\", \"s\", \"@\", \"➎\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"趺\", \"🤕\", \"Ⅰ\", \"ㅅ\", \"⑤\", \"卽\", \"ㄱ\", \"쓕\", \"累\", \"뾱\", \"樂\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"쫗\", \"ㅕ\", \"킌\", \"ㅛ\", \"츈\", \"ㅏ\", \"龍\", \"跏\", \"㉰\", \"Ⅱ\", \"짢\", \"ㅓ\", \"⑨\", \"℃\", \"삣\", \"」\", \"㉿\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"ㅐ\", \"⑵\", \"챨\", \"ㅔ\", \"퍙\", \"良\", \"ㅚ\", \"➌\", \"⚀\", \"🗺\", \"*\", \"㎍\", \"理\", \"梁\", \"웖\", \"꿕\", \"\", \"➏\", \"🍞\", \"🥁\", \"Ⅲ\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"🍟\", \"悧\", \"ⓒ\", \"ㅝ\", \"¹\", \"섦\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"왘\", \"믐\", \"綃\", \"ㅖ\", \"⑦\", \"폍\", \"?\", \"‎\", \"킁\", \"金\", \"ⅱ\", \"삘\", \"Ⅹ\", \"렜\", \"⑧\", \"ㅊ\", \"띕\", \"女\", \"Ⅵ\", \"ㅢ\", \"➍\"]", + "lossless": false + }, + "FacebookAI/xlm-roberta-base @ cc100/zh-Hans": { + "tokenizer": "xlm-roberta-base", + "organization": "Facebook", + "vocab_size": 250002, + "_n_bytes": 2633047, + "_n_tokens": 599844, + "_n_chars": 927311, + "_n_oov_chars": 68556, + "oov_ratio": 0.07392988975651103, + "_oov_charset": "[\"浠\", \"%\", \"⑥\", \"⒋\", \"牖\", \"\\b\", \"樯\", \"鄯\", \"瑥\", \"篢\", \"勖\", \"黩\", \"]\", \"�\", \"戢\", \"旆\", \"\", \"​\", \"7\", \"\\u0000\", \"\", \"8\", \"-\", \"②\", \"韫\", \"⑴\", \",\", \":\", \"穰\", \"①\", \"\", \"…\", \""\", \"浞\", \"_\", \"③\", \"鲱\", \"p\", \"・\", \"⑶\", \"n\", \"6\", \"狳\", \"\", \"T\", \"倨\", \"⒁\", \"3\", \"绉\", \"/\", \"\", \"s\", \"屣\", \"犰\", \"阽\", \"瑢\", \"镏\", \"疴\", \"飕\", \"犄\", \"岣\", \"1\", \"矍\", \"⑤\", \"+\", \"\", \"9\", \"⒃\", \"5\", \"瑒\", \"⒂\", \"a\", \"h\", \"r\", \"擤\", \"④\", \"⑸\", \"0\", \"d\", \"韪\", \"鲎\", \" \", \";\", \")\", \"[\", \"⑨\", \"℃\", \"纰\", \" \", \"o\", \"⑩\", \"偻\", \"⒀\", \"D\", \"⑿\", \"鳃\", \"(\", \"翕\", \"N\", \".\", \"逶\", \"棂\", \"聒\", \"⑷\", \"傥\", \"耩\", \"C\", \"2\", \"瑑\", \"瑧\", \"撷\", \"t\", \"\\u0006\", \"!\", \"猡\", \"\", \"\\u0005\", \"瑨\", \"⑦\", \"\\u0007\", \"?\", \"鼯\", \" \", \"嘭\", \"V\", \"⒌\", \"诨\", \"4\", \"e\", \"讦\", \"⑧\", \"A\", \"&\", \"黧\", \"茏\", \"i\"]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/ar": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 2813283, + "_n_tokens": 1195640, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/de": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1814876, + "_n_tokens": 620541, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/en": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1124813, + "_n_tokens": 288965, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/es": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1664455, + "_n_tokens": 530592, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/fa": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 2054052, + "_n_tokens": 851630, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/fr": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1540504, + "_n_tokens": 509958, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/ja": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1774770, + "_n_tokens": 546876, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/ko": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 1524839, + "_n_tokens": 580873, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/starchat-alpha @ cc100/zh-Hans": { + "tokenizer": "starchat-alpha", + "organization": "-", + "vocab_size": 49156, + "_n_bytes": 2633047, + "_n_tokens": 882018, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/ar": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 2813283, + "_n_tokens": 1396319, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/de": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1814876, + "_n_tokens": 567526, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/en": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 275801, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/es": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 503915, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/fa": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 2054052, + "_n_tokens": 1123278, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/fr": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 466666, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/ja": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1774770, + "_n_tokens": 675134, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/ko": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 1524839, + "_n_tokens": 718766, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "HuggingFaceH4/zephyr-7b-beta @ cc100/zh-Hans": { + "tokenizer": "zephyr-7b-beta", + "organization": "HuggingFace", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1031023, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/ar": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 2813283, + "_n_tokens": 1422081, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/de": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1814876, + "_n_tokens": 527320, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/en": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/es": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/fa": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 2054052, + "_n_tokens": 1145076, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/fr": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/ja": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1774770, + "_n_tokens": 718461, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/ko": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 1524839, + "_n_tokens": 954428, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "LLM360/CrystalCoder @ cc100/zh-Hans": { + "tokenizer": "CrystalCoder", + "organization": "MBZUAI", + "vocab_size": 32022, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/ar": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 2813283, + "_n_tokens": 1422081, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/de": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1814876, + "_n_tokens": 527320, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/en": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/es": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/fa": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 2054052, + "_n_tokens": 1145076, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/fr": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/ja": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1774770, + "_n_tokens": 718461, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/ko": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 1524839, + "_n_tokens": 954428, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "NousResearch/Llama-2-7b-chat-hf @ cc100/zh-Hans": { + "tokenizer": "llama2", + "organization": "Meta", + "vocab_size": 32001, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "OrionStarAI/Orion-14B-Chat @ cc100/ar": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 2813283, + "_n_tokens": 1531053, + "_n_chars": 1560987, + "_n_oov_chars": 1513, + "oov_ratio": 0.0009692585524415002, + "_oov_charset": "[\"…\", \"﴾\", \"ٰ\", \"
\", \"ٌ\", \"ﷺ\", \"ۚ\", \"ۖ\", \"�\", \"٪\", \"ٱ\", \"​\", \"‎\", \"ۤ\", \"ﻹ\", \"ۗ\", \"½\", \"⤴\", \"‏\", \"؛\", \"‌\", \"﴿\", \"\", \"ﻻ\", \"ﻷ\", \"″\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/de": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1814876, + "_n_tokens": 744404, + "_n_chars": 1784021, + "_n_oov_chars": 497, + "oov_ratio": 0.00027858416464828607, + "_oov_charset": "[\"…\", \"​\", \"‎\", \"¹\", \"²\", \"´\", \"�\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/en": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1124813, + "_n_tokens": 265948, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"…\", \"​\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"�\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/es": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1664455, + "_n_tokens": 628571, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"\", \"ª\", \"″\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/fa": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 2054052, + "_n_tokens": 1131108, + "_n_chars": 1145876, + "_n_oov_chars": 8144, + "oov_ratio": 0.007107226261829378, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"؛\", \"ۀ\", \"‌\", \"ﮧ\", \"‎\", \"ٴ\", \"ٔ\", \"�\", \"ٌ\", \"\", \"٪\", \"۔\", \"ۆ\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/fr": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1540504, + "_n_tokens": 564107, + "_n_chars": 1484970, + "_n_oov_chars": 839, + "oov_ratio": 0.0005649945790150643, + "_oov_charset": "[\"…\", \"µ\", \"²\", \"´\", \"�\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/ja": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1774770, + "_n_tokens": 324956, + "_n_chars": 603065, + "_n_oov_chars": 3909, + "oov_ratio": 0.006481888353660053, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"]\", \"�\", \"7\", \"​\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"\", \"@\", \"s\", \"M\", \"「\", \"¥\", \"\\u001b\", \"´\", \"‼\", \"1\", \"P\", \"<\", \"+\", \"9\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \")\", \"[\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \".\", \"C\", \"ウ\", \"2\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \"ー\", \"簗\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/ko": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 1524839, + "_n_tokens": 351149, + "_n_chars": 655190, + "_n_oov_chars": 1443, + "oov_ratio": 0.002202414566766892, + "_oov_charset": "[\"%\", \"⑥\", \"쟤\", \"Ⅳ\", \"쭙\", \"㉣\", \"立\", \"|\", \"깽\", \"힜\", \"樂\", \"맬\", \"ㅈ\", \"�\", \"ㅟ\", \"쫒\", \"ㅋ\", \"튄\", \"뭥\", \"ㅍ\", \"㎡\", \"ㅎ\", \"돠\", \"​\", \"ㆍ\", \"흗\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"쾨\", \"Ⅷ\", \"⁴\", \"ㅞ\", \":\", \"썅\", \"①\", \"ㅜ\", \"ㄹ\", \"훠\", \"\", \"꺄\", \"잴\", \"쳇\", \"…\", \"뜹\", \"ⓔ\", \"ㅗ\", \"뮈\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"쥰\", \"v\", \"궜\", \"識\", \"팹\", \"ㅆ\", \"쒀\", \"s\", \"@\", \"얍\", \"Ⅴ\", \"「\", \"ㅁ\", \"죤\", \"靈\", \"ㅠ\", \"㏊\", \"Ⅰ\", \"ㅅ\", \"쐬\", \"⑤\", \"ㄱ\", \"쓕\", \"累\", \"앎\", \"롸\", \"뾱\", \"樂\", \"홑\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"쫗\", \"ㅕ\", \"쫑\", \"킌\", \"ㅛ\", \"츈\", \"ㅏ\", \"빳\", \"龍\", \"㉰\", \"Ⅱ\", \"짢\", \"휙\", \"ㅓ\", \"⑨\", \"℃\", \"삣\", \"」\", \"틔\", \"봬\", \"㉿\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"픕\", \"ㅐ\", \"⑵\", \"챨\", \"뼘\", \"ㅔ\", \"퍙\", \"良\", \"ㅚ\", \"⚀\", \"*\", \"㎍\", \"튿\", \"셌\", \"理\", \"갉\", \"뗀\", \"梁\", \"웖\", \"탰\", \"꿕\", \"\", \"넹\", \"Ⅲ\", \"갛\", \"쌉\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"ㅝ\", \"¹\", \"섦\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"왘\", \"믐\", \"폍\", \"ㅖ\", \"⑦\", \"녜\", \"?\", \"‎\", \"킁\", \"뮐\", \"金\", \"ⅱ\", \"삘\", \"Ⅹ\", \"렜\", \"⑧\", \"ㅊ\", \"귈\", \"솨\", \"띕\", \"女\", \"Ⅵ\", \"ㅢ\", \"흄\", \"껀\", \"힉\"]", + "lossless": false + }, + "OrionStarAI/Orion-14B-Chat @ cc100/zh-Hans": { + "tokenizer": "Orion-14B-Chat", + "organization": "OrionStar", + "vocab_size": 84608, + "_n_bytes": 2633047, + "_n_tokens": 529926, + "_n_chars": 927311, + "_n_oov_chars": 21462, + "oov_ratio": 0.02314433884640644, + "_oov_charset": "[\"…\", \"%\", \".\", \"⑸\", \"⑥\", \""\", \"⒋\", \"_\", \"0\", \"⑷\", \"③\", \"d\", \"C\", \"p\", \"・\", \"2\", \"\\b\", \"⑶\", \"n\", \"6\", \" \", \"T\", \")\", \"[\", \"⒁\", \"3\", \"/\", \"t\", \"]\", \"�\", \"\\u0006\", \"⑨\", \"s\", \"℃\", \"\\u0005\", \"​\", \"7\", \"\\u0007\", \"\\u0000\", \"⑦\", \"8\", \"-\", \"i\", \"②\", \" \", \"o\", \"⑩\", \"⑴\", \"1\", \"⑤\", \",\", \"V\", \"+\", \"⒌\", \"9\", \":\", \"⒃\", \"e\", \"4\", \"⒀\", \"5\", \"⒂\", \"①\", \"A\", \"⑧\", \"a\", \"&\", \"\", \"h\", \"r\", \"D\", \"⑿\", \"(\", \"N\", \"④\"]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/ar": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 2813283, + "_n_tokens": 614959, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/de": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1814876, + "_n_tokens": 503561, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/en": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1124813, + "_n_tokens": 257983, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen-7B-Chat @ cc100/es": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1664455, + "_n_tokens": 434264, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen-7B-Chat @ cc100/fa": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 2054052, + "_n_tokens": 643421, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/fr": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1540504, + "_n_tokens": 413637, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/ja": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1774770, + "_n_tokens": 377144, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/ko": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 1524839, + "_n_tokens": 457492, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "Qwen/Qwen-7B-Chat @ cc100/zh-Hans": { + "tokenizer": "Qwen", + "organization": "Alibaba", + "vocab_size": 151851, + "_n_bytes": 2633047, + "_n_tokens": 589211, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-1.8B @ cc100/ar": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2813283, + "_n_tokens": 614959, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/de": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1814876, + "_n_tokens": 503561, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/en": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1124813, + "_n_tokens": 257983, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-1.8B @ cc100/es": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1664455, + "_n_tokens": 434264, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-1.8B @ cc100/fa": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2054052, + "_n_tokens": 643421, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/fr": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1540504, + "_n_tokens": 413637, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/ja": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1774770, + "_n_tokens": 377144, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/ko": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1524839, + "_n_tokens": 457492, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "Qwen/Qwen1.5-1.8B @ cc100/zh-Hans": { + "tokenizer": "Qwen1.5-1.8B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2633047, + "_n_tokens": 589211, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-110B @ cc100/ar": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2813283, + "_n_tokens": 614959, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/de": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1814876, + "_n_tokens": 503561, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/en": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1124813, + "_n_tokens": 257983, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-110B @ cc100/es": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1664455, + "_n_tokens": 434264, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-110B @ cc100/fa": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2054052, + "_n_tokens": 643421, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/fr": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1540504, + "_n_tokens": 413637, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/ja": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1774770, + "_n_tokens": 377144, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/ko": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1524839, + "_n_tokens": 457492, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "Qwen/Qwen1.5-110B @ cc100/zh-Hans": { + "tokenizer": "Qwen1.5-110B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2633047, + "_n_tokens": 589211, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-14B @ cc100/ar": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2813283, + "_n_tokens": 614959, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/de": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1814876, + "_n_tokens": 503561, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/en": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1124813, + "_n_tokens": 257983, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-14B @ cc100/es": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1664455, + "_n_tokens": 434264, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Qwen/Qwen1.5-14B @ cc100/fa": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2054052, + "_n_tokens": 643421, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/fr": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1540504, + "_n_tokens": 413637, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/ja": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1774770, + "_n_tokens": 377144, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/ko": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 1524839, + "_n_tokens": 457492, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "Qwen/Qwen1.5-14B @ cc100/zh-Hans": { + "tokenizer": "Qwen1.5-14B", + "organization": "Alibaba", + "vocab_size": 151646, + "_n_bytes": 2633047, + "_n_tokens": 589211, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/ar": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2813283, + "_n_tokens": 1422065, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/de": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1814876, + "_n_tokens": 527308, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/en": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1124813, + "_n_tokens": 284617, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/es": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1664455, + "_n_tokens": 482211, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/fa": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2054052, + "_n_tokens": 1145072, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/fr": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1540504, + "_n_tokens": 447233, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/ja": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1774770, + "_n_tokens": 593613, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/ko": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1524839, + "_n_tokens": 952744, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-Math @ cc100/zh-Hans": { + "tokenizer": "Skywork-13B-Math", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2633047, + "_n_tokens": 653923, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/ar": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2813283, + "_n_tokens": 1422065, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/de": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1814876, + "_n_tokens": 527308, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/en": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1124813, + "_n_tokens": 284617, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/es": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1664455, + "_n_tokens": 482211, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/fa": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2054052, + "_n_tokens": 1145072, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/fr": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1540504, + "_n_tokens": 447233, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/ja": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1774770, + "_n_tokens": 593613, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/ko": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 1524839, + "_n_tokens": 952744, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Skywork/Skywork-13B-base @ cc100/zh-Hans": { + "tokenizer": "Skywork-13B-base", + "organization": "Kunlun", + "vocab_size": 65519, + "_n_bytes": 2633047, + "_n_tokens": 653923, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm-6b @ cc100/ar": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 2813283, + "_n_tokens": 1077200, + "_n_chars": 1560987, + "_n_oov_chars": 767, + "oov_ratio": 0.0004913557896382225, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﷺ\", \"‎\", \"‌\", \"
\", \"�\", \"ﻹ\", \"\", \"ﻻ\", \"ﻷ\", \"½\", \"″\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/de": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1814876, + "_n_tokens": 569464, + "_n_chars": 1784021, + "_n_oov_chars": 497, + "oov_ratio": 0.00027858416464828607, + "_oov_charset": "[\"…\", \"​\", \"‎\", \"¹\", \"²\", \"´\", \"�\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/en": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1124813, + "_n_tokens": 264761, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"…\", \"​\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"�\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/es": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1664455, + "_n_tokens": 494848, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"\", \"ª\", \"″\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/fa": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 2054052, + "_n_tokens": 890808, + "_n_chars": 1145876, + "_n_oov_chars": 7690, + "oov_ratio": 0.006711022833186139, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﮧ\", \"‌\", \"‎\", \"�\", \" \", \"\", \"‍\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/fr": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1540504, + "_n_tokens": 479261, + "_n_chars": 1484970, + "_n_oov_chars": 839, + "oov_ratio": 0.0005649945790150643, + "_oov_charset": "[\"…\", \"µ\", \"²\", \"´\", \"�\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/ja": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1774770, + "_n_tokens": 469930, + "_n_chars": 603065, + "_n_oov_chars": 6759, + "oov_ratio": 0.01120774709193868, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"]\", \"�\", \"7\", \"​\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"@\", \"s\", \"M\", \"「\", \"¥\", \"\\u001b\", \"´\", \"‼\", \"1\", \"P\", \"<\", \"+\", \"9\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \";\", \")\", \"[\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \".\", \"C\", \"ウ\", \"2\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \" \", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/ko": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 1524839, + "_n_tokens": 919630, + "_n_chars": 655190, + "_n_oov_chars": 1337, + "oov_ratio": 0.002040629435736199, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"樂\", \"ㅈ\", \"�\", \"ㅟ\", \"ㅋ\", \"ㅍ\", \"㎡\", \"ㅎ\", \"​\", \"ㆍ\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \":\", \"①\", \"ㅜ\", \"ㄹ\", \"\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"‍\", \"v\", \"識\", \"ㅆ\", \"s\", \"@\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"Ⅰ\", \"ㅅ\", \"⑤\", \"ㄱ\", \"累\", \"樂\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"ㅕ\", \"ㅛ\", \"ㅏ\", \"龍\", \"㉰\", \"Ⅱ\", \"ㅓ\", \"⑨\", \"℃\", \"」\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"ㅐ\", \"⑵\", \"ㅔ\", \"良\", \"ㅚ\", \"*\", \"㎍\", \"理\", \"梁\", \"Ⅲ\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"ㅝ\", \"¹\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"ㅖ\", \"⑦\", \"?\", \"‎\", \"金\", \"ⅱ\", \"Ⅹ\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\"]", + "lossless": false + }, + "THUDM/chatglm-6b @ cc100/zh-Hans": { + "tokenizer": "chatglm-6b", + "organization": "Tsinghua", + "vocab_size": 130344, + "_n_bytes": 2633047, + "_n_tokens": 507384, + "_n_chars": 927311, + "_n_oov_chars": 68481, + "oov_ratio": 0.07384901074181154, + "_oov_charset": "[\"%\", \"⑥\", \"⒋\", \"\\b\", \"]\", \"�\", \"​\", \"7\", \"8\", \"-\", \"②\", \"⑴\", \",\", \":\", \"①\", \"\", \"…\", \""\", \"_\", \"③\", \"p\", \"・\", \"⑶\", \"n\", \"6\", \"T\", \"⒁\", \"3\", \"/\", \"s\", \"1\", \"⑤\", \"+\", \"9\", \"⒃\", \"5\", \"⒂\", \"a\", \"h\", \"r\", \"④\", \"⑸\", \"0\", \"d\", \" \", \";\", \")\", \"[\", \"⑨\", \"℃\", \" \", \"o\", \"⑩\", \"⒀\", \"D\", \"⑿\", \"(\", \"N\", \".\", \"⑷\", \"C\", \"2\", \"t\", \"\\u0006\", \"!\", \"\\u0005\", \"⑦\", \"\\u0007\", \"?\", \" \", \"V\", \"⒌\", \"e\", \"4\", \"⑧\", \"A\", \"&\", \"i\"]", + "lossless": false + }, + "THUDM/chatglm2-6b @ cc100/ar": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 2813283, + "_n_tokens": 1421847, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/de": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1814876, + "_n_tokens": 619757, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/en": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1124813, + "_n_tokens": 269329, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/es": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1664455, + "_n_tokens": 546476, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/fa": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 2054052, + "_n_tokens": 1145051, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/fr": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1540504, + "_n_tokens": 495028, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/ja": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1774770, + "_n_tokens": 581380, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/ko": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 1524839, + "_n_tokens": 652156, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm2-6b @ cc100/zh-Hans": { + "tokenizer": "chatglm2-6b", + "organization": "Tsinghua", + "vocab_size": 64787, + "_n_bytes": 2633047, + "_n_tokens": 563646, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm3-6b @ cc100/ar": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 2813283, + "_n_tokens": 1421847, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm3-6b @ cc100/de": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1814876, + "_n_tokens": 619822, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "THUDM/chatglm3-6b @ cc100/en": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1124813, + "_n_tokens": 269347, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "THUDM/chatglm3-6b @ cc100/es": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1664455, + "_n_tokens": 546501, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "THUDM/chatglm3-6b @ cc100/fa": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 2054052, + "_n_tokens": 1145051, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm3-6b @ cc100/fr": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1540504, + "_n_tokens": 495052, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "THUDM/chatglm3-6b @ cc100/ja": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1774770, + "_n_tokens": 581380, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "THUDM/chatglm3-6b @ cc100/ko": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 1524839, + "_n_tokens": 652160, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "THUDM/chatglm3-6b @ cc100/zh-Hans": { + "tokenizer": "chatglm3-6b", + "organization": "Tsinghua", + "vocab_size": 64796, + "_n_bytes": 2633047, + "_n_tokens": 563646, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ar": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 2813283, + "_n_tokens": 1422070, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/de": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1814876, + "_n_tokens": 528918, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/en": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1124813, + "_n_tokens": 285652, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/es": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1664455, + "_n_tokens": 482553, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/fa": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 2054052, + "_n_tokens": 1145046, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/fr": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1540504, + "_n_tokens": 447372, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ja": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1774770, + "_n_tokens": 567792, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/ko": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 1524839, + "_n_tokens": 793053, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-13b-chat-v2 @ cc100/zh-Hans": { + "tokenizer": "tigerbot-13b-chat-v2", + "organization": "Tigerobo", + "vocab_size": 60515, + "_n_bytes": 2633047, + "_n_tokens": 577385, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ar": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 2813283, + "_n_tokens": 1422073, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/de": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1814876, + "_n_tokens": 529170, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/en": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1124813, + "_n_tokens": 286946, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/es": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1664455, + "_n_tokens": 484099, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/fa": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 2054052, + "_n_tokens": 1145048, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/fr": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1540504, + "_n_tokens": 448567, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ja": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1774770, + "_n_tokens": 406571, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/ko": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 1524839, + "_n_tokens": 484082, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "TigerResearch/tigerbot-70b-chat-v4-4k @ cc100/zh-Hans": { + "tokenizer": "tigerbot-70b-chat-v4-4k", + "organization": "Tigerobo", + "vocab_size": 65110, + "_n_bytes": 2633047, + "_n_tokens": 577211, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/ar": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2813283, + "_n_tokens": 1396319, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/de": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1814876, + "_n_tokens": 567526, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/en": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 275801, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/es": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 503915, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/fa": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2054052, + "_n_tokens": 1123278, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/fr": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 466666, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/ja": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1774770, + "_n_tokens": 675134, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/ko": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1524839, + "_n_tokens": 718766, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "Upstage/SOLAR-10.7B-v1.0 @ cc100/zh-Hans": { + "tokenizer": "SOLAR-10.7B-v1.0", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1031023, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/ar": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 2813283, + "_n_tokens": 1195640, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/de": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1814876, + "_n_tokens": 620541, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/en": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1124813, + "_n_tokens": 288965, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/es": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1664455, + "_n_tokens": 530592, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/fa": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 2054052, + "_n_tokens": 851630, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/fr": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1540504, + "_n_tokens": 509958, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/ja": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1774770, + "_n_tokens": 546876, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/ko": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 1524839, + "_n_tokens": 580873, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-15B-V1.0 @ cc100/zh-Hans": { + "tokenizer": "WizardCoder-15B-V1.0", + "organization": "Microsoft", + "vocab_size": 49153, + "_n_bytes": 2633047, + "_n_tokens": 882018, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ar": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2813283, + "_n_tokens": 1422081, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/de": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1814876, + "_n_tokens": 527320, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/en": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/es": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/fa": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2054052, + "_n_tokens": 1145076, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/fr": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ja": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1774770, + "_n_tokens": 718461, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/ko": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1524839, + "_n_tokens": 954428, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardCoder-Python-7B-V1.0 @ cc100/zh-Hans": { + "tokenizer": "WizardCoder-Python-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/ar": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2813283, + "_n_tokens": 1422081, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/de": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1814876, + "_n_tokens": 527320, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/en": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/es": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/fa": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2054052, + "_n_tokens": 1145076, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/fr": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/ja": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1774770, + "_n_tokens": 718461, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/ko": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 1524839, + "_n_tokens": 954428, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardLM-7B-V1.0 @ cc100/zh-Hans": { + "tokenizer": "WizardLM-7B-V1.0", + "organization": "Microsoft", + "vocab_size": 32001, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/ar": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 2813283, + "_n_tokens": 1422081, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/de": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1814876, + "_n_tokens": 527320, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/en": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/es": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/fa": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 2054052, + "_n_tokens": 1145076, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/fr": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/ja": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1774770, + "_n_tokens": 718461, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/ko": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 1524839, + "_n_tokens": 954428, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "WizardLM/WizardMath-70B-V1.0 @ cc100/zh-Hans": { + "tokenizer": "WizardMath-70B-V1.0", + "organization": "Microsoft", + "vocab_size": 32002, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/ar": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 2813283, + "_n_tokens": 2809195, + "_n_chars": 1560987, + "_n_oov_chars": 1250131, + "oov_ratio": 0.8008593281045903, + "_oov_charset": "[\"﴾\", \"ة\", \"–\", \"ِ\", \"إ\", \"”\", \"«\", \"ن\", \"ـ\", \"​\", \"ھ\", \"چ\", \"©\", \"█\", \"‬\", \"٩\", \"à\", \"ُ\", \"‏\", \"ρ\", \"ک\", \"ت\", \"؛\", \"↩\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ﻻ\", \"ﻷ\", \"ج\", \"″\", \"
\", \"ف\", \"‘\", \"ص\", \"ﷺ\", \"ۚ\", \"’\", \"â\", \"ع\", \"٪\", \"😊\", \"ٱ\", \"τ\", \"،\", \"٣\", \"۸\", \"س\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"ئ\", \"ْ\", \"ا\", \"Х\", \"ί\", \"ٌ\", \"▪\", \"“\", \"۰\", \"خ\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"κ\", \"¡\", \"٨\", \"؟\", \"ي\", \"ل\", \"η\", \"•\", \"α\", \"é\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"⤴\", \"ء\", \"ب\", \"۷\", \"ή\", \"ٹ\", \"»\", \"ٰ\", \"›\", \"ى\", \"ر\", \"μ\", \"—\", \"غ\", \"‹\", \"٢\", \"ö\", \"٦\", \"‎\", \"ط\", \"م\", \"پ\", \"ً\", \"χ\", \"ٍ\", \"▫\", \"ّ\", \"♥\", \"ä\", \"و\", \"٧\", \"®\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/de": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1814876, + "_n_tokens": 1807780, + "_n_chars": 1784021, + "_n_oov_chars": 26647, + "oov_ratio": 0.01493648337099171, + "_oov_charset": "[\"û\", \"–\", \"è\", \"¤\", \"č\", \"”\", \"«\", \"ė\", \"🙁\", \"​\", \"ó\", \"€\", \"©\", \"²\", \"ι\", \"¿\", \"🙄\", \"á\", \"‐\", \"ā\", \"ń\", \"ć\", \"°\", \"à\", \"ρ\", \"„\", \"İ\", \"ô\", \"̈\", \"😉\", \"‘\", \"Ü\", \"’\", \"☺\", \"â\", \"Á\", \"τ\", \"♦\", \"Ö\", \"´\", \"\", \"ε\", \"½\", \"ß\", \"š\", \"ç\", \"−\", \"Ø\", \"£\", \"¼\", \"Ä\", \"ί\", \"œ\", \"“\", \"™\", \"≠\", \"ư\", \" \", \"­\", \"ï\", \"😃\", \"‽\", \"•\", \"α\", \"➔\", \"é\", \"😈\", \"🙂\", \"„\", \"ü\", \"¬\", \"ớ\", \"😆\", \"»\", \"›\", \"😢\", \"å\", \"“\", \"Ã\", \"—\", \"‹\", \"·\", \"¹\", \"É\", \"ö\", \"ς\", \"ø\", \"‎\", \"😦\", \"Ÿ\", \"😂\", \"–\", \"‚\", \"♥\", \"ú\", \"ä\", \"♡\", \"↩\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/en": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 1121413, + "_n_chars": 1121360, + "_n_oov_chars": 1703, + "oov_ratio": 0.0015186915887850467, + "_oov_charset": "[\"»\", \"😉\", \"③\", \"‘\", \"“\", \"“\", \"–\", \"è\", \"—\", \"¦\", \"”\", \"‑\", \"«\", \"’\", \"😥\", \"¡\", \"ï\", \"ñ\", \"”\", \"​\", \"⑦\", \"\", \"•\", \"ó\", \"é\", \"´\", \"⑩\", \"🙂\", \"⑤\", \"⑧\", \"\", \"®\", \"£\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/es": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 1658946, + "_n_chars": 1630297, + "_n_oov_chars": 31423, + "oov_ratio": 0.01927440214881092, + "_oov_charset": "[\"»\", \"▷\", \"✪\", \"Ú\", \"😉\", \"Ñ\", \"‘\", \"М\", \"“\", \"‘\", \"–\", \"è\", \"—\", \"👏\", \"”\", \"í\", \"―\", \"·\", \"º\", \"«\", \"Ó\", \"’\", \"É\", \"ö\", \"­\", \"¡\", \"ñ\", \"ª\", \"️\", \"Á\", \"✖\", \"🙁\", \"ø\", \"•\", \"ó\", \"✓\", \"€\", \"©\", \"é\", \"²\", \"✔\", \"´\", \"😦\", \"¿\", \"🙂\", \"á\", \"ò\", \"°\", \"ý\", \"à\", \"ú\", \"ü\", \"′\", \"👍\", \"\", \"„\", \"Í\", \"’\", \"®\", \"ô\", \"″\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/fa": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 2054052, + "_n_tokens": 2036715, + "_n_chars": 1145876, + "_n_oov_chars": 899514, + "oov_ratio": 0.7850011694110008, + "_oov_charset": "[\"۹\", \"ة\", \"–\", \"ۆ\", \"ِ\", \"إ\", \"”\", \"«\", \"ن\", \"ـ\", \"​\", \"ھ\", \"چ\", \"©\", \"ב\", \"٩\", \"ُ\", \"‏\", \"ک\", \"ت\", \"؛\", \"۶\", \"۴\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ج\", \"ט\", \"ف\", \"‘\", \"۔\", \"ژ\", \"‍\", \"ص\", \"ۀ\", \"ے\", \"’\", \"ڪ\", \"ع\", \"٪\", \"۳\", \"️\", \"،\", \"٣\", \"۸\", \"س\", \"ی\", \"ذ\", \"ه\", \"ح\", \"۲\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"٫\", \"ئ\", \"ْ\", \"ا\", \"ٌ\", \"“\", \"۰\", \"خ\", \"٠\", \"ٴ\", \"ؤ\", \"١\", \"ض\", \"أ\", \"َ\", \"­\", \"٨\", \"؟\", \"ل\", \"ي\", \"•\", \"ٔ\", \"آ\", \"ظ\", \"▐\", \"ء\", \"ب\", \"۷\", \"»\", \"›\", \"ى\", \"ر\", \"۵\", \"غ\", \"۱\", \"·\", \"٢\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"ط\", \"م\", \"پ\", \"ً\", \"✿\", \"ﮧ\", \"ٍ\", \"ّ\", \"♥\", \"و\", \"٧\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/fr": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 1524129, + "_n_chars": 1484970, + "_n_oov_chars": 47360, + "oov_ratio": 0.031892900193269895, + "_oov_charset": "[\"»\", \"Ê\", \"̧\", \"😉\", \"̂\", \"û\", \"♕\", \"…\", \"ù\", \"‘\", \"œ\", \"Ç\", \"“\", \"–\", \"è\", \"ğ\", \"™\", \"♠\", \"—\", \"🤔\", \"Â\", \"”\", \"í\", \"―\", \"·\", \"È\", \"«\", \"’\", \"î\", \"â\", \"É\", \"­\", \"ï\", \"ê\", \"℃\", \"ë\", \"•\", \"Î\", \"€\", \"é\", \"²\", \"´\", \"ã\", \"🙂\", \"‐\", \"°\", \"à\", \"Ô\", \"ü\", \"µ\", \"ç\", \"ä\", \"À\", \"’\", \"®\", \"ô\", \"́\", \"″\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/ja": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1774770, + "_n_tokens": 410803, + "_n_chars": 603065, + "_n_oov_chars": 1588, + "oov_ratio": 0.0026332153250478805, + "_oov_charset": "[\"⑪\", \"–\", \"ハ\", \"◯\", \"”\", \"嶽\", \"😭\", \"«\", \"欝\", \"๑\", \"​\", \"💦\", \"ィ\", \"⇔\", \"©\", \"②\", \"‐\", \"😌\", \"①\", \"〝\", \"\", \"〟\", \"龍\", \"̈\", \"″\", \"レ\", \"▷\", \"ゥ\", \"ㅂ\", \"③\", \"゙\", \"〆\", \"頬\", \"・\", \"、\", \"’\", \"\", \"Д\", \"😊\", \"「\", \"ヶ\", \"¥\", \"凛\", \"´\", \"‼\", \"✨\", \"ε\", \"⌒\", \"纒\", \"ω\", \"─\", \"國\", \"−\", \"渕\", \"✧\", \"コ\", \"㎞\", \"́\", \"④\", \" ̄\", \"∇\", \"︎\", \"“\", \"剥\", \"―\", \"〇\", \"Ⅱ\", \"゚\", \"彌\", \"嚥\", \"垠\", \"壬\", \"̀\", \"〉\", \"℃\", \"⻑\", \"」\", \"ヨ\", \"冨\", \"•\", \"ヘ\", \" \", \"メ\", \"⑩\", \"Ⅶ\", \"曰\", \"兎\", \"屓\", \"テ\", \"﨑\", \"゚\", \"∀\", \"ロ\", \"藁\", \"ノ\", \"β\", \"»\", \"😢\", \"◡\", \"堺\", \"嶋\", \"μ\", \"ウ\", \"⇒\", \"ア\", \"—\", \"。\", \"做\", \"🌙\", \"♫\", \"填\", \"※\", \"》\", \"リ\", \"゙\", \"〈\", \" \", \"ー\", \"舘\", \"フ\", \"《\", \"澤\", \"Ⅹ\", \"⑧\", \"و\", \"♡\", \"應\", \"®\", \"カ\", \"叱\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/ko": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 1524839, + "_n_tokens": 1512832, + "_n_chars": 655190, + "_n_oov_chars": 433188, + "oov_ratio": 0.6611639371785284, + "_oov_charset": "[\"먼\", \"ᴇ\", \"셔\", \"버\", \"증\", \"량\", \"禮\", \"웅\", \"석\", \"옆\", \"깽\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"²\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"댈\", \"녀\", \"남\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"챙\", \"필\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"콘\", \"經\", \"홈\", \"험\", \"분\", \"직\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"콥\", \"≪\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"說\", \"것\", \"새\", \"곰\", \"룹\", \"🚨\", \"🗺\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"⇒\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"겁\", \"낀\", \"혁\", \"판\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"吳\", \"關\", \"롱\", \"얏\", \"팍\", \"힉\", \"댔\", \"眞\", \"쌍\", \"높\", \"쾅\", \"굽\", \"더\", \"줏\", \"보\", \"淨\", \"긍\", \"쌈\", \"폿\", \"닳\", \"닷\", \"젝\", \"겨\", \"€\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"🔹\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"「\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"융\", \"國\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"웍\", \"퀸\", \"뀔\", \"면\", \"끄\", \"할\", \"홋\", \"뗀\", \"툼\", \"흐\", \"룩\", \"ㅇ\", \"‧\", \"문\", \"슷\", \"不\", \"왓\", \"·\", \"믹\", \"탐\", \"엎\", \"계\", \"퀘\", \"라\", \"◐\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"맵\", \"킹\", \"광\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"틋\", \"헛\", \"머\", \"②\", \"염\", \"겔\", \"째\", \"밌\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"‍\", \"월\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"귤\", \"쏠\", \"릭\", \"헌\", \"🙋\", \"앗\", \"코\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"℃\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"훼\", \"척\", \"쵸\", \"🍟\", \"ㅙ\", \"재\", \"》\", \"충\", \"왔\", \"떳\", \"떻\", \"채\", \"삘\", \"《\", \"얽\", \"웬\", \"찌\", \"®\", \"➍\", \"주\", \"푸\", \"맺\", \"🏫\", \"찮\", \"템\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"©\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"잇\", \"뇌\", \"獻\", \"拜\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"칼\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"ㄱ\", \"닮\", \"俠\", \"♀\", \"싼\", \"동\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"•\", \"ⅳ\", \"꾀\", \"갇\", \"챨\", \"돼\", \"네\", \"헤\", \"團\", \"껑\", \"샹\", \"퀵\", \"푹\", \"μ\", \"튀\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"ⓒ\", \"렇\", \"ㅝ\", \"테\", \"※\", \"핍\", \"헨\", \"창\", \"🍔\", \"곳\", \"포\", \"걱\", \"發\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"궐\", \"릉\", \"힜\", \"氣\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"⑴\", \"향\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"⑶\", \"뻤\", \"땐\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"투\", \"ᴍ\", \"Ⅰ\", \"응\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"화\", \"넵\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"캘\", \"폰\", \"곤\", \"개\", \"윗\", \"壽\", \"ʏ\", \"축\", \"듀\", \"봅\", \"獨\", \"◦\", \"밟\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"협\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"💦\", \"올\", \"취\", \"켰\", \"틱\", \"”\", \"흰\", \"≤\", \"민\", \"쌀\", \"흗\", \"예\", \"濟\", \"밍\", \"캉\", \"넛\", \"돗\", \"숏\", \"ⓔ\", \"걀\", \"득\", \"🌵\", \"밭\", \"팠\", \"쁜\", \"륜\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"對\", \"긋\", \"력\", \"ㅅ\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"⑸\", \"🍰\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"졸\", \"엣\", \"칠\", \"曰\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"넥\", \"냥\", \"—\", \"젠\", \"뻑\", \"닙\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"♥\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"㎡\", \"ㅎ\", \"빅\", \"쿨\", \"뒷\", \"ⅰ\", \"쨍\", \"🙆\", \"쾨\", \"침\", \"🚿\", \"요\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"년\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"듣\", \"찔\", \"켓\", \"열\", \"즌\", \"태\", \"樂\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"습\", \"럭\", \"랙\", \"길\", \"탬\", \"잤\", \"α\", \" \", \"줌\", \"딱\", \"장\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"과\", \"꿕\", \"였\", \"위\", \"숙\", \"⊙\", \"ⅲ\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"雙\", \"넘\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"촌\", \"뮌\", \"빌\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"ㄹ\", \"꼬\", \"龍\", \"핏\", \"德\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"쒀\", \"공\", \"🙇\", \"토\", \"臺\", \"죄\", \"골\", \"쁘\", \"빔\", \"뾱\", \"ç\", \"준\", \"슴\", \"쩍\", \"얄\", \"퓨\", \"④\", \"뚝\", \"킥\", \"벽\", \"➋\", \"데\", \"價\", \"璿\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"靑\", \"내\", \"陸\", \"줍\", \"會\", \"톱\", \"온\", \"▶\", \"將\", \"킁\", \"을\", \"😂\", \"ⅱ\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"🍭\", \"펠\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"썅\", \"①\", \"훠\", \"탄\", \"두\", \"꽂\", \"쏘\", \"궁\", \"‘\", \"팽\", \"톡\", \"🦄\", \"져\", \"實\", \"칫\", \"돈\", \"탕\", \"삶\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"學\", \"쓴\", \"벳\", \"틈\", \"빕\", \"옷\", \"👍\", \"턴\", \"❍\", \"폼\", \"∙\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"썹\", \"➏\", \"»\", \"놈\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"敎\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"좌\", \"쿠\", \"떠\", \"└\", \"낮\", \"굉\", \"터\", \"🤟\", \"닥\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"툴\", \"램\", \"앎\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"에\", \"좋\", \"벤\", \"뚜\", \"택\", \"운\", \"뛸\", \"얼\", \"벙\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"體\", \"고\", \"했\", \"퍽\", \"뮬\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"켜\", \"꽝\", \"😱\", \"왜\", \"③\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"깡\", \"숍\", \"컵\", \"얻\", \"닐\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"戊\", \"옮\", \"펩\", \"맑\", \"ω\", \"혀\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"캣\", \"鎭\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"쯔\", \"壞\", \"결\", \"엇\", \"›\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"‎\", \"담\", \"뽑\", \"✔\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"Ⅹ\", \"며\", \"힌\", \"⑧\", \"♡\", \"應\", \"텝\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"킬\", \"씽\", \"😭\", \"맬\", \"기\", \"팡\", \"핥\", \"ㆍ\", \"및\", \"맨\", \"큰\", \"륨\", \"훈\", \"렛\", \"펑\", \"효\", \"∮\", \"볕\", \"흙\", \"각\", \"체\", \"링\", \"參\", \"벼\", \"륵\", \"專\", \"콰\", \"槪\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"국\", \"變\", \"많\", \"渴\", \"卽\", \"낸\", \"☀\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"쫑\", \"읽\", \"앞\", \"늬\", \"츈\", \"픈\", \"―\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"ᴛ\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"샬\", \"덤\", \"멍\", \"튄\", \"∼\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"⑹\", \"곁\", \"±\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"멘\", \"👏\", \"감\", \"識\", \"텨\", \"😊\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"럿\", \"엽\", \"숟\", \"브\", \"內\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"\", \"췄\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"〈\", \"홍\", \"시\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"⋅\", \"껴\", \"곱\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"뮤\", \"랐\", \"족\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"닌\", \"累\", \"후\", \"늑\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"웨\", \"휙\", \"당\", \"」\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"푼\", \"假\", \"워\", \"💰\", \"싯\", \"먹\", \"🍞\", \"굴\", \"뭔\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"¹\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \"널\", \"콤\", \"≫\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"⑥\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"😣\", \"정\", \"꼴\", \"쭙\", \"–\", \"떴\", \"☞\", \"규\", \"군\", \"줬\", \"樂\", \"앱\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"°\", \"루\", \"ㅞ\", \"뻐\", \"′\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"밤\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"❏\", \"잼\", \"쭈\", \"컸\", \"쫄\", \"몸\", \"“\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"­\", \"란\", \"⑨\", \"몽\", \"넓\", \"〉\", \"혐\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"💅\", \"됬\", \"멀\", \"든\", \"⑦\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"유\", \"서\", \"누\", \"삐\", \"쿰\", \"된\", \"처\", \"♣\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"數\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"’\", \"휩\", \"훑\", \"황\", \"역\", \"웠\", \"셰\", \"렬\", \"눕\", \"⑤\", \"씻\", \"익\", \"찼\", \"얇\", \"팀\", \"£\", \"펄\", \"뷔\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"룸\", \"뉴\", \"괌\", \"팔\", \"샐\", \"독\", \"꿍\", \"춥\", \"㉿\", \"얹\", \"자\", \"끼\", \"땠\", \"ㅐ\", \"⑵\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"ʟ\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "abeja/gpt-neox-japanese-2.7b @ cc100/zh-Hans": { + "tokenizer": "gpt-neox-japanese-2.7b", + "organization": "ABEJA", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1049033, + "_n_chars": 927311, + "_n_oov_chars": 165802, + "oov_ratio": 0.17879869860273415, + "_oov_charset": "[\"调\", \"饶\", \"痫\", \"瘠\", \"缝\", \"讥\", \"篢\", \"玛\", \"饿\", \"逑\", \"黩\", \"俭\", \"沧\", \"旆\", \"榭\", \"场\", \"曾\", \"挈\", \"诶\", \"岖\", \"份\", \"荣\", \"鲍\", \"逊\", \"睿\", \"籽\", \"揽\", \"划\", \"娇\", \"醋\", \"诱\", \"馏\", \"唬\", \"轩\", \"浞\", \"桥\", \"泽\", \"捍\", \"皱\", \"压\", \"闸\", \"饰\", \"喔\", \"\", \"睐\", \"虽\", \"闫\", \"钞\", \"饮\", \"缔\", \"卤\", \"涤\", \"坚\", \"纬\", \"毙\", \"钦\", \"蜡\", \"疙\", \"欸\", \"卷\", \"夺\", \"鸩\", \"歉\", \"挲\", \"涮\", \"赖\", \"找\", \"赢\", \"饽\", \"冰\", \"值\", \"筷\", \"嵘\", \"熄\", \"仓\", \"韧\", \"轶\", \"够\", \"秆\", \"浇\", \"赠\", \"层\", \"溃\", \"谴\", \"谛\", \"溯\", \"轨\", \"脯\", \"剧\", \"乔\", \"孽\", \"渲\", \"晾\", \"哒\", \"恺\", \"绚\", \"总\", \"萦\", \"厌\", \"玫\", \"睬\", \"谐\", \"阶\", \"佝\", \"伦\", \"询\", \"瘾\", \"忑\", \"财\", \"垛\", \"酿\", \"伤\", \"郜\", \"眨\", \"皈\", \"谢\", \"栏\", \"铩\", \"飙\", \"焊\", \"颓\", \"懵\", \"俩\", \"畴\", \"炖\", \"诠\", \"挪\", \"础\", \"远\", \"掺\", \"谧\", \"怕\", \"萧\", \"吞\", \"戍\", \"嘛\", \"臊\", \"逛\", \"鉴\", \"冯\", \"钢\", \"锄\", \"辽\", \"驳\", \"读\", \"剩\", \"栈\", \"簇\", \"针\", \"溉\", \"颜\", \"抢\", \"抖\", \"浊\", \"烊\", \"亿\", \"义\", \"缚\", \"胳\", \"髓\", \"岣\", \"笨\", \"\", \"鹭\", \"侦\", \"赎\", \"旖\", \"荨\", \"曦\", \"呗\", \"侬\", \"桦\", \"锋\", \"兴\", \"舰\", \"祛\", \"嫖\", \"睁\", \"疗\", \"盏\", \"茧\", \"枪\", \"叼\", \"渊\", \"嗪\", \"蓟\", \"呕\", \"开\", \"犷\", \"楞\", \"传\", \"稳\", \"册\", \"险\", \"训\", \"车\", \"毕\", \"邋\", \"涌\", \"馒\", \"吩\", \"瘙\", \"撷\", \"·\", \"扎\", \"衔\", \"裆\", \"韦\", \"扳\", \"呐\", \"挖\", \"佛\", \"傻\", \"窜\", \"买\", \"辐\", \"啬\", \"搅\", \"茏\", \"收\", \"耸\", \"炅\", \"铛\", \"钩\", \"显\", \"噢\", \"憋\", \"泻\", \"润\", \"倏\", \"嗓\", \"②\", \"韫\", \"赚\", \"售\", \"臻\", \"贡\", \"袒\", \"阵\", \"镭\", \"擎\", \"犟\", \"队\", \"ὐ\", \"废\", \"婪\", \"泾\", \"肤\", \"荤\", \"驻\", \"忡\", \"壑\", \"薯\", \"挠\", \"柬\", \"碱\", \"屣\", \"宪\", \"绥\", \"咱\", \"蚪\", \"砍\", \"费\", \"锚\", \"巢\", \"π\", \"擞\", \"篮\", \"晖\", \"构\", \"抡\", \"挥\", \"嚎\", \"橱\", \"丐\", \"炕\", \"效\", \"耍\", \"绅\", \"辙\", \"淖\", \"妈\", \"℃\", \"饷\", \"猬\", \"尘\", \"谩\", \"ě\", \"鹃\", \"棵\", \"脸\", \"撑\", \"柜\", \"涡\", \"姆\", \"袭\", \"扭\", \"啡\", \"帐\", \"辫\", \"帜\", \"颈\", \"晚\", \"坟\", \"饨\", \"济\", \"渎\", \"懒\", \"ς\", \"储\", \"填\", \"瑨\", \"杂\", \"》\", \"胶\", \"《\", \"逻\", \"缠\", \"鹕\", \"默\", \"诞\", \"恶\", \"馆\", \"婶\", \"帕\", \"挤\", \"轻\", \"稻\", \"诅\", \"县\", \"惩\", \"铲\", \"狈\", \"脖\", \"连\", \"绎\", \"页\", \"篡\", \"姊\", \"郴\", \"钻\", \"憨\", \"澜\", \"遴\", \"铝\", \"聆\", \"圾\", \"©\", \"á\", \"肃\", \"倾\", \"氰\", \"绒\", \"拜\", \"扪\", \"缜\", \"韵\", \"鲱\", \"忧\", \"蚂\", \"赂\", \"厕\", \"\", \"纱\", \"熬\", \"捡\", \"龚\", \"叹\", \"饵\", \"惘\", \"阽\", \"绸\", \"躲\", \"顺\", \"挎\", \"弹\", \"撇\", \"带\", \"忐\", \"鲨\", \"墒\", \"纪\", \"赡\", \"罩\", \"韪\", \"缩\", \"聪\", \"瓣\", \"贸\", \"删\", \"嘈\", \"馋\", \"瓜\", \"庞\", \"驰\", \"饼\", \"•\", \"祢\", \"岔\", \"绽\", \"黯\", \"饱\", \"斌\", \"势\", \"骛\", \"〖\", \"拎\", \"这\", \"锻\", \"娱\", \"诚\", \"栋\", \"质\", \"缮\", \"硕\", \"奖\", \"腊\", \"讼\", \"藐\", \"价\", \"\", \"涂\", \"※\", \"垃\", \"鼯\", \"矗\", \"涉\", \"渗\", \"凿\", \"泸\", \"厢\", \"牠\", \"發\", \"荆\", \"啦\", \"敌\", \"瑄\", \"聋\", \"泵\", \"牖\", \"罐\", \"樯\", \"军\", \"骄\", \"脑\", \"喂\", \"宾\", \"赔\", \"鹤\", \"贫\", \"嘟\", \"蜿\", \"盎\", \"芜\", \"衬\", \"⑴\", \"攥\", \"霉\", \"〝\", \"绪\", \"让\", \"贝\", \"贬\", \"苹\", \"烧\", \"闵\", \"⑶\", \"熙\", \"峭\", \"艰\", \"讪\", \"单\", \"璎\", \"瓷\", \"狠\", \"啃\", \"烟\", \"瑢\", \"挡\", \"涣\", \"侥\", \"凑\", \"缺\", \"败\", \"墉\", \"遗\", \"拦\", \"尝\", \"椭\", \"鹅\", \"耙\", \"瑒\", \"职\", \"恳\", \"旳\", \"晤\", \"呃\", \"舔\", \"邬\", \"项\", \"碎\", \"孙\", \"兑\", \"豫\", \"慑\", \"袜\", \"拂\", \"赅\", \"賣\", \"逾\", \"闯\", \"拯\", \"咚\", \"羁\", \"捞\", \"帅\", \"赏\", \"轴\", \"仿\", \"榄\", \"阱\", \"莺\", \"纹\", \"飞\", \"朵\", \"权\", \"签\", \"陡\", \"喷\", \"垮\", \"镉\", \"畅\", \"暨\", \"业\", \"滨\", \"侧\", \"赁\", \"币\", \"产\", \"肠\", \"铁\", \"瞩\", \"嘤\", \"寻\", \"谑\", \"颁\", \"睑\", \"掂\", \"晕\", \"啐\", \"减\", \"凳\", \"岭\", \"驼\", \"哎\", \"鸥\", \"龟\", \"块\", \"厮\", \"姣\", \"您\", \"醉\", \"备\", \"响\", \"竭\", \"琐\", \"办\", \"榷\", \"岚\", \"”\", \"巩\", \"爰\", \"谣\", \"匾\", \"惶\", \"湮\", \"掰\", \"佟\", \"阎\", \"楣\", \"凯\", \"笼\", \"书\", \"卫\", \"锂\", \"诃\", \"蓁\", \"甯\", \"离\", \"跷\", \"亟\", \"极\", \"偌\", \"踱\", \"戾\", \"掀\", \"狳\", \"霏\", \"灭\", \"宁\", \"捂\", \"喱\", \"τ\", \"铨\", \"凛\", \"拨\", \"吵\", \"哟\", \"骏\", \"啪\", \"鲤\", \"剂\", \"杆\", \"瞟\", \"Ø\", \"⑸\", \"宫\", \"择\", \"插\", \"淅\", \"绕\", \"斋\", \"揭\", \"鹜\", \"伫\", \"惊\", \"戳\", \"拔\", \"虑\", \"伙\", \"讶\", \"撸\", \"丢\", \"终\", \"舱\", \"湄\", \"躺\", \"摆\", \"岛\", \"曰\", \"严\", \"熏\", \"呜\", \"护\", \"丽\", \"钓\", \"狱\", \"咒\", \"裤\", \"挣\", \"—\", \"键\", \"骆\", \"眯\", \"馁\", \"蜒\", \"骗\", \"粮\", \"乘\", \"奋\", \"辩\", \"瞒\", \"顽\", \"骅\", \"霸\", \"轮\", \"甩\", \"氛\", \"创\", \"岗\", \"嘎\", \"嘣\", \"渍\", \"么\", \"递\", \"搡\", \"怔\", \"鳗\", \"莴\", \"\", \"萝\", \"浑\", \"盐\", \"绍\", \"脐\", \"欢\", \"剔\", \"锁\", \"协\", \"狰\", \"辖\", \"贿\", \"贮\", \"锥\", \"颌\", \"赋\", \"蓝\", \"擘\", \"钥\", \"咕\", \"氮\", \"焰\", \"结\", \"峥\", \"夸\", \"鸟\", \"苍\", \"亵\", \"爹\", \"兹\", \"屄\", \"粼\", \"舆\", \"骼\", \"损\", \"丰\", \"谚\", \"藕\", \"沏\", \"谬\", \"柠\", \"继\", \"决\", \"释\", \"溅\", \"癫\", \"习\", \"浓\", \"垠\", \"叠\", \"絮\", \"谱\", \"锢\", \"擀\", \"碰\", \"妒\", \"α\", \"扣\", \"惫\", \"彻\", \" \", \"笔\", \"酱\", \"肾\", \"艺\", \"檐\", \"桌\", \"辅\", \"佣\", \"淌\", \"计\", \"撩\", \"刘\", \"挝\", \"趁\", \"聒\", \"⑷\", \"捅\", \"耩\", \"坯\", \"惭\", \"绞\", \"诫\", \"啤\", \"订\", \"伞\", \"劑\", \"莲\", \"拟\", \"蹩\", \"涟\", \"壓\", \"赐\", \"舍\", \"诊\", \"跤\", \"蝇\", \"邹\", \"暄\", \"咯\", \"沟\", \"咙\", \"圈\", \"沾\", \"浆\", \"秸\", \"热\", \"资\", \"铂\", \"唠\", \"哪\", \"灵\", \"贴\", \"仅\", \"嗲\", \"鸠\", \"尴\", \"\", \"晗\", \"觉\", \"抨\", \"筹\", \"估\", \"缥\", \"矶\", \"讨\", \"蚀\", \"谦\", \"栾\", \"喆\", \"兰\", \"闷\", \"德\", \"霾\", \"弃\", \"闾\", \"菇\", \"贾\", \"悬\", \"秽\", \"姗\", \"扑\", \"每\", \"咐\", \"过\", \"毗\", \"厂\", \"娄\", \"璇\", \"荧\", \"镐\", \"暧\", \"纸\", \"骤\", \"匀\", \"⒃\", \"怵\", \"戏\", \"ç\", \"埂\", \"苯\", \"诬\", \"砾\", \"剑\", \"驾\", \"啕\", \"④\", \"瘫\", \"组\", \"缉\", \"惯\", \"扛\", \"價\", \"權\", \"览\", \"澡\", \"芷\", \"胫\", \"灶\", \"盘\", \"诩\", \"盯\", \"拧\", \"滤\", \"镶\", \"庆\", \"膛\", \"虾\", \"讯\", \"搐\", \"访\", \"绛\", \"肮\", \"盹\", \"疯\", \"谎\", \"铃\", \"踹\", \"喻\", \"镀\", \"辉\", \"垒\", \"虏\", \"迟\", \"妆\", \"皂\", \"轼\", \"潦\", \"狞\", \"娴\", \"偎\", \"懑\", \"蚌\", \"浏\", \"吱\", \"杀\", \"涝\", \"⒋\", \"搀\", \"蹿\", \"胖\", \"钉\", \"颇\", \"摧\", \"齿\", \"筛\", \"监\", \"恼\", \"​\", \"绊\", \"议\", \"娅\", \"摔\", \"汩\", \"识\", \"①\", \"贷\", \"骁\", \"圣\", \"胺\", \"摄\", \"‘\", \"撕\", \"黢\", \"纯\", \"联\", \"违\", \"陕\", \"乌\", \"窥\", \"谓\", \"忪\", \"嗔\", \"壹\", \"紧\", \"亚\", \"烷\", \"凉\", \"帘\", \"嗦\", \"哼\", \"题\", \"验\", \"关\", \"瞧\", \"冲\", \"铤\", \"腻\", \"滩\", \"遛\", \"耦\", \"玮\", \"澈\", \"噼\", \"旎\", \"凤\", \"赘\", \"噬\", \"倜\", \"蔷\", \"窦\", \"忆\", \"锦\", \"簧\", \"嗨\", \"锣\", \"铣\", \"覃\", \"恿\", \"滚\", \"汉\", \"贪\", \"遑\", \"匮\", \"宠\", \"悚\", \"»\", \"误\", \"卖\", \"棂\", \"迤\", \"拖\", \"鹑\", \"锤\", \"戛\", \"陨\", \"竞\", \"谈\", \"缭\", \"榆\", \"猡\", \"冈\", \"锏\", \"氨\", \"汹\", \"尬\", \"绷\", \"尧\", \"吴\", \"蔼\", \"诀\", \"赣\", \"踩\", \"漩\", \"临\", \"酝\", \"圩\", \"优\", \"啸\", \"耻\", \"ù\", \"魇\", \"钱\", \"龇\", \"卢\", \"记\", \"鸽\", \"î\", \"毁\", \"唷\", \"瘩\", \"摇\", \"據\", \"搜\", \"噩\", \"啥\", \"乡\", \"标\", \"谨\", \"哑\", \"蛔\", \"阳\", \"缈\", \"团\", \"级\", \"见\", \"吊\", \"嘀\", \"扯\", \"载\", \"试\", \"树\", \"囤\", \"丧\", \"・\", \"倨\", \"吆\", \"灾\", \"妞\", \"夯\", \"颖\", \"译\", \"筝\", \"铮\", \"驱\", \"净\", \"帮\", \"阑\", \"郸\", \"跑\", \"诣\", \"煲\", \"穗\", \"你\", \"蕴\", \"户\", \"霭\", \"选\", \"态\", \"罄\", \"玷\", \"馕\", \"鳞\", \"荟\", \"荡\", \"姬\", \"扩\", \"跃\", \"锈\", \"郑\", \"墅\", \"许\", \"妇\", \"贱\", \"岌\", \"纷\", \"汤\", \"搞\", \"导\", \"偻\", \"⒀\", \"剁\", \"陆\", \"盼\", \"榨\", \"鳃\", \"佬\", \"钵\", \"认\", \"销\", \"约\", \"负\", \"讳\", \"桅\", \"增\", \"竖\", \"撬\", \"劝\", \"臃\", \"术\", \"爸\", \"辆\", \"秃\", \"羡\", \"罚\", \"粱\", \"倘\", \"鸣\", \"拢\", \"坝\", \"惦\", \"唏\", \"绝\", \"桩\", \"扰\", \"环\", \"沦\", \"裹\", \"阂\", \"茁\", \"叨\", \"辑\", \"绳\", \"鹈\", \"穰\", \"给\", \"趟\", \"缴\", \"烦\", \"镳\", \"烁\", \"讲\", \"赵\", \"猎\", \"兢\", \"③\", \"颉\", \"囊\", \"圜\", \"确\", \"怀\", \"壤\", \"镏\", \"牺\", \"蒂\", \"硅\", \"犄\", \"趋\", \"沪\", \"勋\", \"拣\", \"痪\", \"铎\", \"须\", \"厉\", \"笃\", \"藏\", \"墙\", \"夹\", \"艋\", \"纺\", \"钰\", \"咧\", \"蜕\", \"瘦\", \"别\", \"哗\", \"歧\", \"鲎\", \"汛\", \"贯\", \"杰\", \"嗯\", \"邻\", \"检\", \"歼\", \"卧\", \"雏\", \"惴\", \"锲\", \"则\", \"录\", \"顿\", \"屌\", \"狮\", \"纠\", \"谆\", \"颗\", \"惮\", \"击\", \"轿\", \"蛊\", \"礴\", \"屉\", \"蹦\", \"碟\", \"〗\", \"ㄓ\", \"遢\", \"泠\", \"详\", \"银\", \"处\", \"琼\", \"靓\", \"嗡\", \"颠\", \"肿\", \"璨\", \"迩\", \"⑧\", \"规\", \"垫\", \"馍\", \"肓\", \"账\", \"综\", \"勖\", \"翱\", \"馅\", \"哧\", \"孀\", \"仆\", \"猝\", \"媳\", \"渐\", \"奂\", \"缪\", \"隶\", \"醛\", \"编\", \"咏\", \"鹉\", \"运\", \"劲\", \"鸦\", \"坷\", \"羔\", \"查\", \"婺\", \"获\", \"诗\", \"乓\", \"苒\", \"沉\", \"赃\", \"蚁\", \"俪\", \"娛\", \"瞅\", \"贵\", \"號\", \"觑\", \"辄\", \"莘\", \"钧\", \"亂\", \"谅\", \"坞\", \"胜\", \"归\", \"疴\", \"绑\", \"缘\", \"壳\", \"扬\", \"渴\", \"晓\", \"炼\", \"敝\", \"莅\", \"鹰\", \"叮\", \"碳\", \"雳\", \"洁\", \"蹭\", \"鬓\", \"褂\", \"抠\", \"剐\", \"诉\", \"夭\", \"购\", \"宽\", \"缀\", \"诙\", \"祸\", \"梦\", \"―\", \"踢\", \"籁\", \"槛\", \"预\", \"缕\", \"绩\", \"ê\", \"纰\", \"骂\", \"锡\", \"掐\", \"颧\", \"链\", \"阅\", \"„\", \"迹\", \"图\", \"亲\", \"觅\", \"聂\", \"抿\", \"毋\", \"颊\", \"粹\", \"趴\", \"耀\", \"荫\", \"馄\", \"踌\", \"铸\", \"艳\", \"樱\", \"瑧\", \"苇\", \"纽\", \"饥\", \"赌\", \"馈\", \"鸭\", \"咦\", \"报\", \"库\", \"捆\", \"黏\", \"绣\", \"滥\", \"鲁\", \"烯\", \"绿\", \"旷\", \"讦\", \"ό\", \"纨\", \"炝\", \"慷\", \"莓\", \"缅\", \"绘\", \"枣\", \"皑\", \"观\", \"锅\", \"评\", \"贺\", \"顾\", \"众\", \"脉\", \"哥\", \"节\", \"启\", \"塌\", \"网\", \"烂\", \"颐\", \"胧\", \"厝\", \"坛\", \"摹\", \"匆\", \"磅\", \"鲸\", \"颤\", \"惋\", \"穷\", \"à\", \"轰\", \"续\", \"窗\", \"偿\", \"骇\", \"溪\", \"错\", \"镍\", \"刨\", \"跚\", \"氯\", \"湃\", \"斩\", \"蹒\", \"诡\", \"骚\", \"陈\", \"媲\", \"论\", \"飕\", \"鹦\", \"垄\", \"搁\", \"脏\", \"执\", \"时\", \"沥\", \"视\", \"掷\", \"贤\", \"厅\", \"呸\", \" \", \"辕\", \"腭\", \"烬\", \"噱\", \"懂\", \"拥\", \"渔\", \"睹\", \"档\", \"〞\", \"缆\", \"劳\", \"边\", \"辗\", \"內\", \"⑩\", \"螃\", \"张\", \"亏\", \"阁\", \"霈\", \"谔\", \"俞\", \"焕\", \"齐\", \"歹\", \"铭\", \"鲜\", \"诧\", \"钊\", \"风\", \"瘀\", \"玳\", \"测\", \"睽\", \"愤\", \"钜\", \"际\", \"锒\", \"牵\", \"还\", \"窝\", \"镕\", \"〈\", \"咔\", \"萤\", \"寐\", \"闪\", \"潢\", \"璀\", \"陇\", \"胀\", \"鱼\", \"唉\", \"亩\", \"讷\", \"侨\", \"黧\", \"饭\", \"鸿\", \"珏\", \"钝\", \"诟\", \"瞪\", \"绵\", \"丝\", \"鳌\", \"麽\", \"哦\", \"烘\", \"闹\", \"砖\", \"钮\", \"难\", \"顶\", \"钟\", \"举\", \"雯\", \"缄\", \"驶\", \"缸\", \"摊\", \"瞄\", \"巅\", \"镇\", \"犰\", \"偷\", \"涩\", \"衅\", \"织\", \"仪\", \"闻\", \"庙\", \"梭\", \"频\", \"尔\", \"软\", \"靛\", \"迈\", \"稣\", \"漪\", \"擤\", \"圆\", \"崽\", \"阴\", \"驴\", \"飚\", \"磕\", \"潇\", \"伟\", \"贞\", \"锐\", \"赞\", \"证\", \"怂\", \"篱\", \"练\", \"鹌\", \"讽\", \"雾\", \"谍\", \"撅\", \"摞\", \"烫\", \"涨\", \"课\", \"吕\", \"假\", \"唤\", \"拽\", \"个\", \"仑\", \"孪\", \"飓\", \"芃\", \"庐\", \"赶\", \"骑\", \"萨\", \"犹\", \"阐\", \"杨\", \"做\", \"薰\", \"伉\", \"韩\", \"磺\", \"丛\", \"腾\", \" \", \"嘭\", \"寰\", \"听\", \"怎\", \"驿\", \"氧\", \"蓦\", \"⑥\", \"闭\", \"步\", \"搂\", \"纤\", \"审\", \"–\", \"揪\", \"敛\", \"吭\", \"毡\", \"嚷\", \"戢\", \"诵\", \"责\", \"绰\", \"兽\", \"阔\", \"线\", \"呦\", \"°\", \"胰\", \"镑\", \"驮\", \"货\", \"茵\", \"\", \"满\", \"咪\", \"丫\", \"谀\", \"吮\", \"⒁\", \"债\", \"绉\", \"两\", \"弈\", \"瞎\", \"锯\", \"窿\", \"转\", \"谋\", \"鸡\", \"彤\", \"侣\", \"扔\", \"蕤\", \"况\", \"吓\", \"嚣\", \"⒂\", \"─\", \"纳\", \"辈\", \"专\", \"词\", \"愿\", \"历\", \"颂\", \"灿\", \"痊\", \"▪\", \"“\", \"胁\", \"悯\", \"纾\", \"焯\", \"剥\", \"裳\", \"从\", \"扫\", \"喽\", \"疮\", \"烛\", \"⑨\", \"呛\", \"〉\", \"莹\", \"當\", \"飘\", \"扒\", \"倡\", \"药\", \"掳\", \"邓\", \"纵\", \"诈\", \"愣\", \"污\", \"嘻\", \"镜\", \"龄\", \"翕\", \"逶\", \"粪\", \"疤\", \"输\", \"砸\", \"泱\", \"缓\", \"傥\", \"儿\", \"滢\", \"刚\", \"迁\", \"靶\", \"篓\", \"铜\", \"楂\", \"俏\", \"⑦\", \"棱\", \"犁\", \"窍\", \"⒌\", \"诨\", \"摒\", \"癜\", \"嘿\", \"冻\", \"浠\", \"抚\", \"撐\", \"抬\", \"另\", \"俨\", \"领\", \"瑥\", \"膊\", \"孱\", \"贼\", \"煞\", \"养\", \"马\", \"笆\", \"贩\", \"氢\", \"痹\", \"眶\", \"额\", \"较\", \"矿\", \"坠\", \"攒\", \"篷\", \"崛\", \"积\", \"佘\", \"锌\", \"姐\", \"惠\", \"’\", \"汇\", \"韬\", \"濒\", \"俱\", \"罢\", \"蘸\", \"烃\", \"栅\", \"婴\", \"泪\", \"⑤\", \"师\", \"诸\", \"岂\", \"适\", \"驭\", \"阀\", \"侄\", \"伪\", \"补\", \"谭\", \"诲\", \"壶\", \"惬\", \"达\", \"婊\", \"蝌\", \"惕\", \"谊\", \"卻\", \"洼\", \"谁\", \"铄\", \"挚\", \"黑\", \"农\", \"异\", \"é\", \"矫\", \"陷\", \"细\", \"碴\", \"屿\", \"纲\", \"盖\", \"桢\", \"营\", \"蘑\", \"蟑\", \"闲\", \"跻\", \"⑿\", \"笋\", \"哇\", \"ο\", \"铺\", \"翘\", \"瑑\", \"红\", \"强\", \"∶\", \"吨\", \"乒\", \"辨\", \"饲\", \"隐\", \"揍\", \"换\", \"荐\", \"闺\", \"邮\", \"泼\", \"岁\", \"鹏\", \"暂\", \"甬\", \"烤\", \"谜\", \"舀\", \"顷\"]", + "lossless": false + }, + "ai21labs/Jamba-v0.1 @ cc100/ar": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 2813283, + "_n_tokens": 717886, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/de": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1814876, + "_n_tokens": 525856, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/en": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1124813, + "_n_tokens": 264242, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/es": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1664455, + "_n_tokens": 410883, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/fa": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 2054052, + "_n_tokens": 722550, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/fr": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1540504, + "_n_tokens": 402899, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/ja": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1774770, + "_n_tokens": 673256, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/ko": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 1524839, + "_n_tokens": 705688, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ai21labs/Jamba-v0.1 @ cc100/zh-Hans": { + "tokenizer": "Jamba-v0.1", + "organization": "AI21", + "vocab_size": 65536, + "_n_bytes": 2633047, + "_n_tokens": 1057054, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "allenai/OLMo-7B @ cc100/ar": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 2813283, + "_n_tokens": 1106277, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/de": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1814876, + "_n_tokens": 583628, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/en": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1124813, + "_n_tokens": 259357, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/es": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1664455, + "_n_tokens": 494577, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/fa": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 2054052, + "_n_tokens": 866434, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/fr": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1540504, + "_n_tokens": 458961, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/ja": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1774770, + "_n_tokens": 605168, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/ko": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 1524839, + "_n_tokens": 973288, + "_n_chars": 655190, + "_n_oov_chars": 25, + "oov_ratio": 3.815687052610693e-05, + "_oov_charset": "[\"靈\", \"不\", \"良\", \"女\", \"樂\", \"識\", \"樂\", \"流\", \"理\", \"金\", \"梁\", \"陸\", \"立\", \"龍\", \"累\"]", + "lossless": false + }, + "allenai/OLMo-7B @ cc100/zh-Hans": { + "tokenizer": "OLMo-7B", + "organization": "Allen AI", + "vocab_size": 50280, + "_n_bytes": 2633047, + "_n_tokens": 1220529, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/ar": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2813283, + "_n_tokens": 373371, + "_n_chars": 1560987, + "_n_oov_chars": 70253, + "oov_ratio": 0.04500549972549419, + "_oov_charset": "[\"A\", \"ٰ\", \"N\", \"P\", \"ْ\", \"
\", \"Х\", \"ί\", \"ٌ\", \"H\", \"ِ\", \"U\", \"إ\", \"G\", \"ۚ\", \"R\", \"ؤ\", \"Y\", \"ۖ\", \"Q\", \"أ\", \"َ\", \"â\", \"�\", \"ö\", \"I\", \"V\", \"J\", \"​\", \"K\", \"‎\", \"B\", \"E\", \"é\", \"Z\", \"C\", \"‬\", \"ۤ\", \"آ\", \"T\", \"O\", \"ۗ\", \"X\", \"⤴\", \"M\", \"à\", \"ً\", \"ُ\", \"‏\", \"ٍ\", \"F\", \"ّ\", \"‌\", \"S\", \"W\", \"ä\", \"ή\", \"D\", \"\", \"L\", \"↩\", \"ئ\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/de": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1814876, + "_n_tokens": 831523, + "_n_chars": 1784021, + "_n_oov_chars": 110861, + "oov_ratio": 0.06214108466212001, + "_oov_charset": "[\"û\", \"è\", \"č\", \"R\", \"�\", \"ė\", \"V\", \"J\", \"​\", \"ó\", \"C\", \"🙄\", \"á\", \"‐\", \"ā\", \"ń\", \"ć\", \"à\", \"W\", \"„\", \"İ\", \"ô\", \"̈\", \"U\", \"Ü\", \"â\", \"I\", \"Á\", \"Ö\", \"B\", \"E\", \"Z\", \"T\", \"\", \"M\", \"š\", \"ç\", \"L\", \"Ø\", \"Ä\", \"P\", \"ί\", \"H\", \"≠\", \"ư\", \" \", \"Y\", \"­\", \"ï\", \"😃\", \"‽\", \"K\", \"➔\", \"é\", \"😈\", \"X\", \"F\", \"S\", \"ü\", \"D\", \"ớ\", \"😆\", \"A\", \"😢\", \"N\", \"å\", \"“\", \"G\", \"Ã\", \"Q\", \"É\", \"ö\", \"‎\", \"😦\", \"Ÿ\", \"O\", \"–\", \"ú\", \"ä\", \"↩\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/en": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 428095, + "_n_chars": 1121360, + "_n_oov_chars": 31072, + "oov_ratio": 0.02770921024470286, + "_oov_charset": "[\"A\", \"N\", \"P\", \"③\", \"“\", \"è\", \"H\", \"U\", \"G\", \"R\", \"Y\", \"Q\", \"😥\", \"�\", \"ï\", \"ñ\", \"I\", \"”\", \"V\", \"J\", \"​\", \"⑦\", \"K\", \"\", \"ó\", \"B\", \"E\", \"é\", \"Z\", \"C\", \"⑩\", \"T\", \"O\", \"X\", \"⑤\", \"M\", \"F\", \"S\", \"⑧\", \"W\", \"D\", \"L\", \"\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/es": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 712440, + "_n_chars": 1630297, + "_n_oov_chars": 68311, + "oov_ratio": 0.04190095424330659, + "_oov_charset": "[\"A\", \"▷\", \"✪\", \"Ú\", \"N\", \"P\", \"Ñ\", \"М\", \"‘\", \"è\", \"H\", \"U\", \"G\", \"í\", \"―\", \"R\", \"Y\", \"Ó\", \"Q\", \"É\", \"ö\", \"­\", \"ñ\", \"I\", \"️\", \"Á\", \"V\", \"✖\", \"J\", \"K\", \"ó\", \"é\", \"E\", \"B\", \"Z\", \"C\", \"😦\", \"T\", \"O\", \"á\", \"X\", \"ò\", \"ý\", \"M\", \"à\", \"F\", \"S\", \"ú\", \"ü\", \"W\", \"D\", \"\", \"„\", \"L\", \"Í\", \"’\", \"ô\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/fa": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2054052, + "_n_tokens": 490998, + "_n_chars": 1145876, + "_n_oov_chars": 17493, + "oov_ratio": 0.015266049729639158, + "_oov_charset": "[\"A\", \"N\", \"P\", \"ْ\", \"ٌ\", \"H\", \"‍\", \"U\", \"G\", \"ِ\", \"إ\", \"R\", \"ؤ\", \"Y\", \"ۀ\", \"Q\", \"أ\", \"ٴ\", \"َ\", \"­\", \"�\", \"I\", \"️\", \"V\", \"J\", \"​\", \"K\", \"‎\", \"B\", \"E\", \"Z\", \"ٔ\", \"C\", \"ּ\", \"آ\", \"T\", \"O\", \"X\", \"▐\", \"M\", \"‏\", \"ً\", \"ُ\", \"ٍ\", \"F\", \"‌\", \"ّ\", \"S\", \"W\", \"D\", \"\", \"L\", \"ئ\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/fr": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 635419, + "_n_chars": 1484970, + "_n_oov_chars": 66823, + "oov_ratio": 0.044999562280719475, + "_oov_charset": "[\"A\", \"Ê\", \"N\", \"P\", \"̂\", \"̧\", \"û\", \"…\", \"ù\", \"Ç\", \"è\", \"H\", \"ğ\", \"U\", \"G\", \"🤔\", \"Â\", \"í\", \"―\", \"È\", \"R\", \"Y\", \"Q\", \"î\", \"â\", \"É\", \"�\", \"­\", \"ï\", \"ê\", \"I\", \"ë\", \"V\", \"J\", \"K\", \"Î\", \"B\", \"é\", \"E\", \"Z\", \"C\", \"ã\", \"T\", \"O\", \"‐\", \"X\", \"M\", \"à\", \"Ô\", \"F\", \"S\", \"ü\", \"ç\", \"W\", \"ä\", \"À\", \"D\", \"L\", \"’\", \"ô\", \"́\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/ja": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1774770, + "_n_tokens": 513394, + "_n_chars": 603065, + "_n_oov_chars": 179949, + "oov_ratio": 0.29839072073491246, + "_oov_charset": "[\"%\", \"臨\", \"償\", \"共\", \"馳\", \"敏\", \"緒\", \"墓\", \"称\", \"鐘\", \"樺\", \"\\b\", \"ろ\", \"熱\", \"株\", \"欠\", \"幣\", \"祐\", \"倫\", \"洋\", \"雑\", \"巧\", \"価\", \"⇔\", \"C\", \"滞\", \"咎\", \"徘\", \"機\", \"隈\", \"原\", \"斉\", \"馬\", \"珠\", \"昂\", \"陣\", \"拗\", \"甘\", \"漬\", \"係\", \"ガ\", \"嫡\", \"枝\", \"席\", \"六\", \"ぱ\", \"解\", \"T\", \"叩\", \"/\", \"肘\", \"丹\", \"M\", \"濫\", \"済\", \"ボ\", \"啜\", \"括\", \"申\", \"‼\", \"P\", \"供\", \"探\", \"賃\", \"恥\", \"減\", \"I\", \"呟\", \"峨\", \"コ\", \"微\", \"拶\", \"璧\", \"穂\", \"紫\", \"軌\", \"需\", \"外\", \"浄\", \"旋\", \"墾\", \"噤\", \"窒\", \"斧\", \"献\", \"倉\", \"痺\", \"◎\", \"鬼\", \"埋\", \"役\", \"埃\", \"粉\", \"遜\", \"弓\", \"戻\", \"唆\", \"遂\", \"武\", \"標\", \"雅\", \"賭\", \"困\", \"猶\", \"糖\", \"セ\", \"船\", \"乗\", \"泄\", \"◡\", \"衰\", \"穴\", \"円\", \"蔓\", \"⇒\", \"坂\", \"飴\", \"。\", \"線\", \"買\", \"毛\", \"勧\", \"眩\", \"t\", \"域\", \"幅\", \"唐\", \"首\", \"虫\", \"執\", \"責\", \"箭\", \"致\", \"枕\", \"丿\", \"卵\", \"L\", \"梯\", \"損\", \"轄\", \"漂\", \"這\", \"精\", \"純\", \"死\", \"再\", \"常\", \"江\", \"カ\", \"縄\", \"妹\", \"応\", \"頓\", \"拍\", \"『\", \"蓄\", \"滲\", \"催\", \"較\", \"特\", \"演\", \"磨\", \"淵\", \"塔\", \"織\", \"復\", \"却\", \"酵\", \"岳\", \"角\", \"紀\", \"綺\", \"騙\", \"赤\", \"資\", \"仕\", \"』\", \"筋\", \"プ\", \"逃\", \"鉄\", \"茨\", \"尊\", \"達\", \"皿\", \"栽\", \"庁\", \"瞳\", \"味\", \"畜\", \"蒔\", \"獄\", \"頃\", \"ゼ\", \"藤\", \"゙\", \"耶\", \"捗\", \"慶\", \"管\", \"3\", \"墳\", \"ベ\", \"粋\", \"善\", \"謳\", \"対\", \"「\", \"輩\", \"誕\", \"丈\", \"餓\", \"飯\", \"組\", \"隆\", \"採\", \"琢\", \"縁\", \"尿\", \"呆\", \"國\", \"橋\", \"稲\", \"覧\", \"点\", \"張\", \"侮\", \"喰\", \"尾\", \"鉛\", \"暇\", \"試\", \"功\", \"泊\", \"奏\", \"虎\", \"建\", \"横\", \"眼\", \"火\", \"渡\", \"ワ\", \"飾\", \"余\", \"祭\", \"沈\", \"寓\", \"慣\", \"関\", \"賀\", \"場\", \"K\", \"冨\", \"豆\", \"炒\", \"遼\", \"メ\", \"礁\", \"乱\", \"粧\", \"X\", \"稚\", \"揺\", \"棚\", \"J\", \"辣\", \"違\", \"届\", \"抜\", \"友\", \"辞\", \"銃\", \"寧\", \"棒\", \"拘\", \"付\", \"脅\", \"臣\", \"姓\", \"旨\", \"桁\", \"亡\", \"陰\", \"乞\", \"K\", \"侵\", \"ず\", \"耐\", \"帝\", \"礎\", \"阜\", \"鹿\", \"食\", \"胆\", \"軟\", \"誹\", \"床\", \"汚\", \"暖\", \"^\", \"栗\", \"躇\", \"希\", \"饉\", \"還\", \"寄\", \"澪\", \"奔\", \"貝\", \"畳\", \"速\", \"裂\", \"焼\", \"妙\", \"話\", \"光\", \"病\", \"曝\", \"截\", \"伽\", \"俵\", \"虐\", \"荘\", \"遙\", \"舐\", \"錠\", \"拉\", \"座\", \"梁\", \"汰\", \"怨\", \"②\", \"継\", \"鶏\", \"袋\", \"更\", \"担\", \"替\", \"R\", \"〟\", \"拷\", \"抱\", \"難\", \"劣\", \"ㅂ\", \"避\", \"逮\", \"滅\", \"登\", \"研\", \"脆\", \"寡\", \"U\", \"商\", \"薄\", \"践\", \"慮\", \"酬\", \"添\", \"宿\", \"唸\", \"蝶\", \"循\", \"専\", \"梅\", \"片\", \"算\", \"兼\", \"示\", \"兆\", \"妨\", \"介\", \"評\", \"E\", \"象\", \"股\", \"疎\", \"攻\", \"改\", \"華\", \"9\", \"爆\", \"撤\", \"斗\", \"犬\", \"足\", \"今\", \"壊\", \"次\", \"題\", \"L\", \"鈴\", \"r\", \"荷\", \"或\", \"念\", \"欧\", \"擦\", \"篇\", \"潟\", \"ゞ\", \"漑\", \"単\", \"慌\", \"婚\", \"糸\", \"捐\", \"盲\", \"結\", \"啓\", \"推\", \"侶\", \"握\", \"戦\", \"楚\", \"隕\", \"ぅ\", \"種\", \"黄\", \"散\", \"恨\", \"Z\", \"抹\", \"端\", \"政\", \"訴\", \"反\", \"累\", \"恩\", \"令\", \"戴\", \"浸\", \"愉\", \"驚\", \"ひ\", \"弊\", \"🌙\", \"獲\", \"撮\", \"填\", \"通\", \"腐\", \"ジ\", \"件\", \"浮\", \"逼\", \"督\", \"君\", \"肢\", \"堪\", \"延\", \"詮\", \"従\", \"親\", \"感\", \"送\", \"縫\", \"ヾ\", \"急\", \"側\", \"否\", \"毎\", \"質\", \"長\", \"素\", \"巨\", \"末\", \"奉\", \"経\", \"宣\", \"車\", \"猿\", \"等\", \"消\", \"覇\", \"察\", \"固\", \"羞\", \"惜\", \"詰\", \"丸\", \"戸\", \"召\", \"番\", \"塾\", \"裕\", \"陸\", \"拭\", \"笠\", \"赦\", \"境\", \"木\", \"堡\", \"茶\", \"密\", \"簡\", \"_\", \"〆\", \"阿\", \"瓶\", \"敬\", \"げ\", \"姜\", \"号\", \"ぞ\", \"干\", \"訊\", \"儀\", \"モ\", \"即\", \"判\", \"権\", \"滴\", \"ヶ\", \"煮\", \"黒\", \"周\", \"制\", \"勝\", \"摯\", \"杞\", \"紹\", \"◇\", \"渕\", \"グ\", \"極\", \"遍\", \"何\", \"拠\", \"鎖\", \"匂\", \"隼\", \"憧\", \"旗\", \"板\", \"踊\", \"∇\", \"暢\", \"揄\", \"撃\", \"響\", \"翻\", \"俯\", \"培\", \"岐\", \"゚\", \"突\", \"掘\", \"̀\", \"哲\", \"栄\", \"舎\", \"芸\", \"荒\", \"詐\", \"狼\", \"葬\", \"仙\", \"彿\", \"伏\", \"肝\", \"捜\", \"謡\", \"兎\", \"層\", \"装\", \"浦\", \"斎\", \"S\", \"履\", \"陳\", \"松\", \"D\", \"ロ\", \"藁\", \"綴\", \"使\", \"譲\", \"鶴\", \"忙\", \"酔\", \"魚\", \"勉\", \"淡\", \"浜\", \"ウ\", \"妻\", \"ユ\", \"那\", \"賛\", \"某\", \"絞\", \"絨\", \"覚\", \"坐\", \"掌\", \"性\", \"普\", \"留\", \"術\", \"捕\", \"救\", \"※\", \"彡\", \"苗\", \"迫\", \"伴\", \"初\", \"授\", \"淫\", \"摩\", \"楊\", \"フ\", \"残\", \"習\", \"4\", \"泉\", \"勘\", \"圏\", \"痴\", \"井\", \"庄\", \"幡\", \"秒\", \"菅\", \"画\", \"ュ\", \"構\", \"砂\", \"徴\", \"嗅\", \"醍\", \"碌\", \"姦\", \"派\", \"|\", \"納\", \"噛\", \"寿\", \"麗\", \"麦\", \"況\", \"豊\", \"雨\", \"ィ\", \"塊\", \"喫\", \"洪\", \"肌\", \"珂\", \"椒\", \"諏\", \"宇\", \"測\", \"液\", \"匠\", \"貢\", \"剃\", \"〝\", \"パ\", \"諦\", \"認\", \"降\", \"庶\", \"詳\", \"ゎ\", \"同\", \"圃\", \"桟\", \"偽\", \"祀\", \"n\", \"恰\", \"裾\", \"故\", \"魂\", \"疾\", \"刀\", \"輿\", \"飽\", \"寺\", \"ぁ\", \"¥\", \"附\", \"俗\", \"嵩\", \"漠\", \"〜\", \"舞\", \"章\", \"被\", \"均\", \"危\", \"灘\", \"既\", \"嬢\", \"載\", \"科\", \"遵\", \"凱\", \"向\", \"郵\", \"怖\", \"彰\", \"f\", \"婿\", \"邸\", \"導\", \"萼\", \"ぶ\", \"複\", \"滓\", \"卓\", \"距\", \"講\", \"へ\", \"浅\", \"y\", \"銀\", \"宏\", \"舟\", \"廃\", \"⻑\", \"臓\", \"肩\", \"琴\", \"薬\", \"巻\", \"牧\", \"鞄\", \"ど\", \"Ⅶ\", \"回\", \"凡\", \"ァ\", \"訟\", \"絡\", \"便\", \"霧\", \"芝\", \"牛\", \"殴\", \"些\", \"郎\", \"俸\", \"〕\", \"怒\", \"類\", \"児\", \"問\", \"篤\", \"訓\", \"愕\", \"又\", \"亀\", \"Q\", \"尺\", \"誠\", \"勿\", \"ぉ\", \"業\", \"産\", \"m\", \"圧\", \"置\", \"鑑\", \"逆\", \"恣\", \"?\", \"匙\", \"易\", \"発\", \"屹\", \"蛍\", \"勇\", \"炉\", \"捉\", \"拡\", \"系\", \"腺\", \"書\", \"籠\", \"終\", \"半\", \"祉\", \"叱\", \"i\", \"💦\", \"釜\", \"槽\", \"切\", \"李\", \"僅\", \"決\", \"軍\", \"縛\", \"欝\", \"膿\", \"盤\", \"�\", \"陛\", \"景\", \"嗜\", \"尋\", \"墟\", \"訃\", \"核\", \"惚\", \"吐\", \"欺\", \"毒\", \"確\", \"丁\", \"字\", \"Q\", \"渦\", \"鍵\", \"腱\", \"就\", \"編\", \"峰\", \"序\", \"完\", \"飛\", \"扉\", \"馴\", \"持\", \"薦\", \"選\", \"胸\", \"衝\", \"敷\", \"擢\", \"ゲ\", \"紗\", \"串\", \"尻\", \"闖\", \"泳\", \"眺\", \"凛\", \"表\", \"駐\", \"音\", \"弁\", \"潮\", \"鞘\", \"掬\", \"暑\", \"連\", \"勤\", \"依\", \"襲\", \"忍\", \"昇\", \"E\", \"意\", \"属\", \"湖\", \"態\", \"d\", \"欣\", \"池\", \"開\", \"少\", \"ぜ\", \"迅\", \"医\", \"濯\", \"ノ\", \"バ\", \"渇\", \"妃\", \"於\", \"剰\", \"談\", \"委\", \"第\", \"頼\", \"嘘\", \"孤\", \"蔑\", \"喉\", \"凄\", \"曰\", \"壁\", \"仔\", \"*\", \"排\", \"辱\", \"黙\", \"党\", \"旬\", \"七\", \"薪\", \"髪\", \"棟\", \"浩\", \"秋\", \"艸\", \"N\", \"瞑\", \"釈\", \"滝\", \"2\", \"曖\", \"族\", \"孫\", \"証\", \"瓦\", \"佐\", \"‥\", \"曜\", \"民\", \"随\", \"宜\", \"展\", \"偏\", \"殖\", \"鉢\", \"屈\", \"強\", \"穫\", \"謄\", \"淹\", \"訣\", \"妄\", \"疫\", \"烙\", \"兵\", \"沿\", \"幌\", \"挨\", \"運\", \"砦\", \"範\", \"審\", \"短\", \"健\", \"適\", \"滑\", \"捲\", \"障\", \"埼\", \"聞\", \"吸\", \"顧\", \"沸\", \"ね\", \"ヽ\", \"祥\", \"冬\", \"ゅ\", \"宅\", \"胞\", \"惣\", \"額\", \"活\", \"射\", \"染\", \"魔\", \"拓\", \"痩\", \"面\", \"堤\", \"才\", \"維\", \"倒\", \"針\", \"朗\", \"瞬\", \"咽\", \"ご\", \"趨\", \"砕\", \"材\", \"雀\", \"ゥ\", \"絆\", \"然\", \"邦\", \"集\", \"笛\", \"羽\", \"様\", \"乃\", \"竹\", \"顎\", \"洗\", \"犯\", \"貯\", \"昆\", \"総\", \"箋\", \"員\", \"炭\", \"冒\", \"寸\", \"購\", \"緩\", \"僚\", \"涙\", \"根\", \"媒\", \"魅\", \"Z\", \"径\", \"僭\", \"壮\", \"剣\", \"菌\", \"芳\", \"売\", \"誇\", \"伊\", \"志\", \"飢\", \"慨\", \"宮\", \"釘\", \"稜\", \"懐\", \"革\", \"数\", \"ヤ\", \"披\", \"堆\", \"羅\", \"彼\", \"古\", \"相\", \"w\", \"掻\", \"漏\", \"H\", \"乳\", \"務\", \"刻\", \"郷\", \"只\", \"免\", \"嚥\", \"蒸\", \"垠\", \"討\", \"島\", \"灯\", \"悠\", \"腑\", \"逸\", \" \", \"擁\", \"嘲\", \"徐\", \"閲\", \"糧\", \"瑞\", \"蒙\", \"幹\", \"己\", \"賊\", \"奈\", \"良\", \"居\", \"菓\", \"栓\", \"般\", \"仁\", \"綻\", \"享\", \"浪\", \"弥\", \"厄\", \"諸\", \"爪\", \"崖\", \"腹\", \"英\", \"告\", \"潤\", \"G\", \"昏\", \"命\", \"格\", \"挙\", \"B\", \"併\", \"底\", \"冗\", \"拾\", \"塞\", \"厨\", \"陽\", \"氷\", \"府\", \"綾\", \"簗\", \"弄\", \"嘗\", \"休\", \"走\", \"署\", \"振\", \"頻\", \"寂\", \"拳\", \"雪\", \"起\", \"謎\", \"G\", \"々\", \"秘\", \"訪\", \"至\", \"込\", \"条\", \"康\", \"汲\", \"詞\", \"港\", \"勲\", \"J\", \"県\", \"節\", \"枚\", \"犠\", \"杼\", \"左\", \"拙\", \"榴\", \"梓\", \"鱈\", \"荻\", \"緯\", \"霊\", \"葵\", \"杯\", \"昔\", \"絶\", \"$\", \"囁\", \"W\", \"匹\", \"晶\", \"没\", \"撲\", \"逡\", \"幾\", \"草\", \"龍\", \"̈\", \"狂\", \"規\", \"灰\", \"漫\", \"暴\", \"妥\", \"脇\", \"乙\", \"扱\", \"攫\", \"撫\", \"指\", \"迎\", \"模\", \"函\", \"惹\", \"夷\", \"史\", \"朝\", \"白\", \"拝\", \"思\", \"娘\", \"準\", \"考\", \"5\", \"涯\", \"盗\", \"貪\", \"徹\", \"穢\", \"罰\", \"④\", \"堵\", \"雇\", \"歴\", \"駒\", \"疑\", \"季\", \" ̄\", \"堰\", \"顕\", \"毅\", \"袴\", \"謝\", \";\", \"求\", \"膨\", \"[\", \"灌\", \"優\", \"踏\", \"ヨ\", \"柔\", \"触\", \"ょ\", \"含\", \"穏\", \"論\", \"露\", \"敵\", \"笑\", \"盆\", \"挟\", \"且\", \"懇\", \"哀\", \"住\", \"並\", \"む\", \"琉\", \"D\", \"椅\", \"沖\", \"閃\", \"銭\", \"懲\", \"軋\", \"宙\", \"唯\", \"糾\", \"鋲\", \"鈍\", \"転\", \"隅\", \"院\", \"岡\", \"析\", \"斜\", \"静\", \"萎\", \"塩\", \"泥\", \"企\", \"ゥ\", \"乾\", \"正\", \"益\", \"叉\", \"林\", \"硝\", \"慢\", \"叫\", \"劇\", \"照\", \"詫\", \"午\", \"抵\", \"狩\", \"巷\", \"珪\", \"労\", \"揶\", \"媛\", \"凝\", \"◯\", \"嶽\", \"途\", \"背\", \"脳\", \"監\", \"塵\", \"閑\", \"将\", \"乏\", \"7\", \"​\", \"止\", \"8\", \"-\", \"聴\", \"閉\", \"紋\", \"S\", \"苦\", \"卑\", \"貌\", \"餃\", \"溢\", \"翌\", \"弟\", \"貨\", \"透\", \"俳\", \"赴\", \"①\", \"契\", \"釣\", \"拒\", \"窮\", \"嬉\", \"△\", \"診\", \"搬\", \"粗\", \"ぎ\", \"ぽ\", \"失\", \"洞\", \"傍\", \"莫\", \"ゴ\", \"充\", \"奪\", \"腔\", \"恒\", \"茫\", \"袈\", \"形\", \"I\", \"烈\", \"噌\", \"焦\", \"換\", \"猟\", \"携\", \"婆\", \"駆\", \"五\", \"料\", \"踪\", \"喋\", \"訳\", \"腸\", \"姥\", \"園\", \"H\", \"巡\", \"競\", \"造\", \"房\", \"́\", \"冷\", \"智\", \"娠\", \"烹\", \"玄\", \"離\", \"淳\", \"図\", \"曇\", \"甥\", \"〇\", \"捩\", \"重\", \"彌\", \"停\", \"麹\", \"無\", \"琵\", \"興\", \"霞\", \"腰\", \"森\", \"募\", \"怠\", \"敗\", \"艶\", \"威\", \"彷\", \"ば\", \"癖\", \"托\", \"F\", \"源\", \"炎\", \"伸\", \"紡\", \"春\", \"須\", \"燥\", \"彫\", \"電\", \"貫\", \"燭\", \"誤\", \"揚\", \"折\", \"爾\", \"袖\", \"見\", \"ゾ\", \"句\", \"竜\", \"腫\", \"醸\", \"枢\", \"駕\", \"碓\", \"愛\", \"睦\", \"斐\", \"繰\", \"寝\", \"悔\", \"掛\", \"室\", \"門\", \"臆\", \"ー\", \"煎\", \"頭\", \"湘\", \"槃\", \"ぇ\", \"臥\", \"A\", \"蓋\", \"震\", \"駄\", \"厳\", \"欽\", \"孝\", \"ほ\", \"週\", \"悪\", \"控\", \"悶\", \"風\", \"祖\", \"流\", \"闘\", \"彙\", \"迷\", \"徳\", \"両\", \"衿\", \"遺\", \"惨\", \"鍋\", \"唄\", \"ド\", \"訂\", \"跨\", \"奴\", \"纏\", \"撒\", \"団\", \"贅\", \"店\", \"鮮\", \"沢\", \"胚\", \"餌\", \"・\", \"耗\", \"呑\", \"氾\", \"激\", \"招\", \"頒\", \"讃\", \"磯\", \"悍\", \"囚\", \"吟\", \"教\", \"鳥\", \"創\", \"昨\", \"与\", \"輪\", \"貿\", \"俊\", \"千\", \"貶\", \"計\", \"粒\", \"M\", \"洒\", \"辿\", \"狙\", \"薙\", \"ゃ\", \"脈\", \"階\", \"筆\", \"崔\", \"痛\", \"服\", \"朴\", \"迭\", \"韮\", \"び\", \"治\", \"例\", \"杏\", \"飲\", \"窃\", \"実\", \"ぴ\", \"低\", \"祈\", \"裟\", \"凶\", \"崎\", \"移\", \"声\", \"贔\", \"細\", \"狐\", \"琳\", \"仰\", \"゚\", \"検\", \"輸\", \"攘\", \"顔\", \"N\", \"究\", \"贋\", \"母\", \"断\", \"ギ\", \"紐\", \"遇\", \"嶋\", \"非\", \"欄\", \"略\", \"恵\", \"環\", \"婦\", \"予\", \"莽\", \"ヲ\", \"航\", \"=\", \"潰\", \"苑\", \"逐\", \"裸\", \"肉\", \"囲\", \"虚\", \"叭\", \"満\", \"O\", \"級\", \"里\", \"混\", \"澤\", \"放\", \"牽\", \"椿\", \"鉱\", \"奇\", \"引\", \"望\", \"譜\", \"打\", \"だ\", \"鋭\", \"筒\", \"協\", \"案\", \"刃\", \"惑\", \"斑\", \"粘\", \"択\", \"油\", \"魏\", \"刷\", \"近\", \"阪\", \"誘\", \"暦\", \"量\", \"遠\", \"凍\", \"珍\", \"布\", \"封\", \"悲\", \"ゆ\", \"把\", \"桃\", \"批\", \"尼\", \"宋\", \"録\", \"桂\", \"蛇\", \"唇\", \"削\", \"具\", \"預\", \"祝\", \"③\", \"喜\", \"殊\", \"色\", \"皮\", \"隙\", \"借\", \"嵌\", \"追\", \"度\", \"祇\", \"硬\", \"恭\", \"偶\", \"彦\", \"柱\", \"菜\", \"隔\", \"揃\", \"裏\", \"禁\", \"着\", \"汎\", \"現\", \"ブ\", \"a\", \"套\", \"わ\", \"掃\", \"率\", \"該\", \"裁\", \"嗚\", \"賠\", \"0\", \"廊\", \"l\", \"弾\", \"療\", \"駿\", \"程\", \"稼\", \"軽\", \"骨\", \"桑\", \"基\", \"濃\", \"覗\", \"杓\", \"因\", \"ヘ\", \"ポ\", \"o\", \"摘\", \"噂\", \"妖\", \"清\", \"苛\", \"遭\", \"遊\", \"墜\", \"癌\", \"搭\", \"衷\", \"紙\", \"券\", \"姑\", \"😢\", \"槍\", \"娯\", \"傑\", \"膏\", \"別\", \"徊\", \"箇\", \"右\", \"▽\", \"路\", \"蹴\", \"冊\", \"頂\", \"深\", \"熟\", \"刊\", \"雷\", \"目\", \"肯\", \"刑\", \"リ\", \"億\", \"観\", \"跡\", \"束\", \"賑\", \"琶\", \"各\", \"設\", \"械\", \"羊\", \"堂\", \"Ⅹ\", \"楠\", \"梗\", \"読\", \"べ\", \"争\", \"磋\", \"⑧\", \"&\", \"應\", \"岬\", \"罵\", \"状\", \"漁\", \"醐\", \"辺\", \"省\", \"記\", \"植\", \"偉\", \"像\", \"挑\", \"怯\", \"煽\", \"R\", \"北\", \"花\", \"男\", \"憎\", \"騒\", \"四\", \"症\", \"錬\", \"迦\", \"吠\", \"穀\", \"型\", \"個\", \"駅\", \"間\", \"也\", \"提\", \"始\", \"賢\", \"祠\", \"😌\", \"街\", \">\", \"蜂\", \"農\", \"蔵\", \"ぃ\", \"老\", \"跳\", \"垢\", \"土\", \"仮\", \"段\", \"痢\", \"値\", \"雰\", \"坊\", \"積\", \"殺\", \"、\", \"渋\", \"助\", \"卒\", \"盛\", \"Д\", \"縞\", \"央\", \"師\", \"捨\", \"葉\", \"峙\", \"施\", \"項\", \"夕\", \"忠\", \"殻\", \"蝋\", \"広\", \"整\", \"備\", \"昼\", \"気\", \"尖\", \"P\", \"燃\", \"存\", \"暁\", \"槌\", \"―\", \"索\", \"坪\", \"説\", \"峠\", \"暮\", \"瘻\", \"暫\", \"負\", \"帰\", \"鬱\", \"約\", \"宗\", \"□\", \"町\", \"茂\", \"ヵ\", \"慄\", \"溶\", \"八\", \"匡\", \"杜\", \"諺\", \"煙\", \"窪\", \"防\", \"ヌ\", \"∀\", \"蔽\", \"堅\", \"払\", \"脂\", \"岩\", \"候\", \"云\", \"越\", \"伝\", \"統\", \"虜\", \"当\", \"佳\", \"堺\", \"咳\", \"待\", \"涅\", \"詠\", \"綬\", \"揮\", \"劉\", \"褒\", \"躍\", \"慈\", \"ヴ\", \"趣\", \"貰\", \"狭\", \"栃\", \"舘\", \"V\", \"班\", \"斡\", \"衛\", \"館\", \"映\", \"巾\", \"補\", \"梳\", \"営\", \"澄\", \"ぬ\", \"懸\", \"際\", \"摂\", \"牲\", \"撰\", \"盟\", \"が\", \"嘆\", \"F\", \"締\", \"詩\", \"請\", \"御\", \"南\", \"貴\", \"‐\", \"肪\", \"沼\", \"嵯\", \"糞\", \"輝\", \"血\", \"必\", \"獣\", \"典\", \"財\", \"夫\", \"腎\", \"レ\", \"▷\", \"窟\", \"殿\", \"冥\", \"幼\", \"頬\", \"受\", \"概\", \"託\", \"靴\", \"凪\", \"枯\", \"身\", \"X\", \"課\", \"仏\", \"g\", \"遅\", \"姉\", \"靄\", \"髭\", \"群\", \"厚\", \"繋\", \"符\", \"\\u001b\", \"播\", \"幸\", \"づ\", \"儲\", \"<\", \"憲\", \"客\", \"斬\", \"陵\", \"遡\", \"伯\", \"柄\", \"楽\", \"喝\", \"促\", \"秩\", \"庭\", \"尚\", \"捧\", \"陥\", \"描\", \"吹\", \"惧\", \"昭\", \"喚\", \"練\", \"邪\", \"歌\", \"奢\", \"隣\", \"Ⅱ\", \"亭\", \"職\", \"ォ\", \"吾\", \"b\", \"痕\", \"壬\", \"退\", \"蠍\", \"灼\", \"掴\", \"紛\", \"⑩\", \"唾\", \"僧\", \"齢\", \"テ\", \"浣\", \"媚\", \"警\", \"綱\", \".\", \"割\", \"矛\", \"包\", \"晋\", \"忘\", \"恐\", \"式\", \"謀\", \"缶\", \"独\", \"誌\", \"村\", \"衣\", \"塚\", \"ア\", \"Y\", \"版\", \"遥\", \"隠\", \"抽\", \"楓\", \"妬\", \"伐\", \"ョ\", \"譚\", \"識\", \"翼\", \"〈\", \"貸\", \"杉\", \"征\", \"塗\", \"双\", \"議\", \"叶\", \"ザ\", \"傾\", \"湿\", \"嘩\", \"韓\", \"舗\", \"承\", \"巣\", \"鯖\", \"但\", \"旭\", \"夜\", \"返\", \"豚\", \"述\", \"剤\", \"艦\", \"歳\", \"秀\", \"聖\", \"檀\", \"柏\", \"局\", \"呂\", \"闊\", \"如\", \"繍\", \"猫\", \"険\", \"濡\", \"帽\", \"籍\", \"列\", \"曽\", \"慎\", \"仲\", \"\", \"旦\", \"辛\", \"酒\", \"鼻\", \"悟\", \"ピ\", \"薩\", \"鴻\", \"位\", \"未\", \"賞\", \"湧\", \"喪\", \"`\", \"直\", \"製\", \"丘\", \"歪\", \"緻\", \"デ\", \"歩\", \"じ\", \"支\", \"傲\", \"え\", \"蘇\", \"交\", \"T\", \"鍛\", \"修\", \"暗\", \"謂\", \"隊\", \"潜\", \"守\", \"+\", \"洩\", \"⌒\", \"躾\", \"棄\", \"謬\", \"私\", \"癒\", \"稀\", \"✧\", \"札\", \"校\", \"咲\", \"㎞\", \"泌\", \"焙\", \"視\", \"憶\", \"報\", \"早\", \"害\", \"慰\", \"限\", \"庫\", \"ぐ\", \"枠\", \"ダ\", \"王\", \"抗\", \"息\", \"厭\", \"続\", \"騰\", \"」\", \"眠\", \"揉\", \"碍\", \"去\", \"異\", \"廉\", \"果\", \"措\", \"寮\", \"税\", \"妊\", \"屓\", \"帯\", \"怪\", \"昧\", \"絵\", \"養\", \"知\", \"晩\", \"融\", \"崩\", \"査\", \"幽\", \"ノ\", \"帳\", \"滋\", \"侍\", \"A\", \"諾\", \"丼\", \"落\", \"任\", \"鳴\", \"ざ\", \"印\", \"甲\", \"曹\", \"岸\", \"鎮\", \"胃\", \"誓\", \"做\", \"潔\", \"讐\", \"梱\", \"由\", \"篠\", \"堀\", \"励\", \"庇\", \"呼\", \"銘\", \"青\", \"波\", \"給\", \"渉\", \"贈\", \"罪\", \"膚\", \"k\", \"筈\", \"ビ\", \"麓\", \"姫\", \"夏\", \"晒\", \"配\", \"債\", \"汁\", \"策\", \"憤\", \"腕\", \"貼\", \"棲\", \"嫉\", \"舌\", \"ふ\", \"戯\", \"占\", \"唱\", \"夢\", \"界\", \"菊\", \"瘍\", \"]\", \"綜\", \"謙\", \"謗\", \"喩\", \"兄\", \"膜\", \"〔\", \"傷\", \"V\", \"増\", \"郭\", \"涼\", \"欲\", \"麺\", \"寇\", \"胎\", \"ゝ\", \"疹\", \"刺\", \"擬\", \"罠\", \"で\", \"許\", \"縦\", \"患\", \"梨\", \"旧\", \"湯\", \"勢\", \"6\", \"汗\", \"幕\", \"器\", \"互\", \"寒\", \"漢\", \"杖\", \"\", \"皆\", \"喇\", \"似\", \"温\", \"噴\", \"写\", \"醤\", \"煩\", \"羨\", \"亜\", \"垣\", \"衡\", \"晴\", \"桜\", \"貧\", \"輔\", \"ペ\", \"童\", \"匿\", \"餅\", \"─\", \"h\", \"ヨ\", \"築\", \"俄\", \"米\", \"升\", \"壌\", \"容\", \"超\", \"ぷ\", \"︎\", \"答\", \"膝\", \"鎌\", \"剥\", \"災\", \"飼\", \"幻\", \"屋\", \"帆\", \"〉\", \"軸\", \"谷\", \"倭\", \"酷\", \"肥\", \"僕\", \"睡\", \"若\", \"﨑\", \"歓\", \"逢\", \"貞\", \"宴\", \"動\", \"浴\", \"熊\", \"憩\", \"礼\", \"克\", \"著\", \"C\", \"吉\", \"漱\", \"忌\", \"寛\", \"鏡\", \"参\", \"盾\", \"紅\", \"矢\", \"捏\", \"緊\", \"傘\", \"頑\", \"牙\", \"奨\", \"瀬\", \"緑\", \"詈\", \"験\", \"接\", \"疇\", \"殆\", \"楼\", \"俺\", \"処\", \"憑\", \"猛\", \"嵐\", \"蛮\", \"甚\", \"票\", \"憂\", \"~\", \"徒\", \"嫌\", \"護\", \"忽\", \"O\", \"雄\", \"歯\", \"⑪\", \"領\", \"繊\", \"壇\", \"辰\", \"津\", \"抑\", \"愚\", \"倍\", \"耳\", \"据\", \"溜\", \"之\", \"ハ\", \"押\", \"変\", \"久\", \"頷\", \"せ\", \"郡\", \"箱\", \"轢\", \"収\", \"及\", \"遽\", \"臭\", \"爽\", \"戒\", \"覆\", \"往\", \"過\", \"快\", \"躊\", \"阻\", \"悩\", \"醜\", \"調\", \"販\", \"U\", \"操\", \"聾\", \"眉\", \"錯\", \"湾\", \"費\", \"旺\", \"s\", \"副\", \"疲\", \"允\", \"泣\", \"雲\", \"言\", \"影\", \"父\", \"順\", \"B\", \"秤\", \"1\", \"尽\", \"陶\", \"戚\", \"誰\", \"口\", \"績\", \"瞭\", \"捺\", \"努\", \"期\", \"纒\", \"亮\", \"姿\", \"閣\", \"伺\", \"奥\", \"曲\", \"軒\", \"ネ\", \"遣\", \"架\", \"耕\", \"旅\", \"鵜\", \"酸\", \"樹\", \"則\", \"殲\", \"斂\", \"肺\", \"後\", \"玉\", \"願\", \"痒\", \"想\", \"礫\", \"泡\", \"Y\", \"麻\", \"垂\", \"弱\", \"渓\", \"ズ\", \"除\", \"W\", \"脱\", \"衆\", \"空\", \"蛋\", \"梶\", \"脚\", \"看\", \"先\", \"挿\", \"藻\", \"ぼ\", \"闇\", \"凌\", \"蓮\", \"喧\", \"宛\", \"効\", \"繁\", \"簿\", \"翔\", \"瓢\", \"徨\", \"士\", \"虹\", \"訝\", \"泰\", \"他\", \"縮\", \"窓\", \"網\", \"義\", \"佇\", \"氏\", \"畑\", \"進\", \"嫁\", \"゙\", \"挫\", \"援\", \"稿\", \"河\", \"鼓\", \"恋\", \"東\", \"廻\", \"為\", \"働\", \"e\", \"\\", \"奮\", \"差\", \"偵\", \"破\", \"掲\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/ko": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 1524839, + "_n_tokens": 596422, + "_n_chars": 655190, + "_n_oov_chars": 440721, + "oov_ratio": 0.672661365405455, + "_oov_charset": "[\"%\", \"먼\", \"ᴇ\", \"셔\", \"共\", \"버\", \"증\", \"량\", \"禮\", \"鐘\", \"웅\", \"樺\", \"석\", \"옆\", \"깽\", \"祐\", \"洋\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"C\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"機\", \"댈\", \"原\", \"녀\", \"남\", \"係\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"六\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"v\", \"解\", \"콘\", \"經\", \"홈\", \"험\", \"분\", \"직\", \"廟\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"申\", \"콥\", \"≪\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"外\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"◎\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"♧\", \"점\", \"똑\", \"榜\", \"說\", \"것\", \"새\", \"곰\", \"룹\", \"琪\", \"🚨\", \"🗺\", \"武\", \"標\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"⇒\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"毛\", \"겁\", \"唐\", \"낀\", \"혁\", \"판\", \"致\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"吳\", \"關\", \"롱\", \"얏\", \"팍\", \"死\", \"江\", \"常\", \"힉\", \"댔\", \"眞\", \"쌍\", \"『\", \"높\", \"쾅\", \"굽\", \"特\", \"더\", \"줏\", \"보\", \"淨\", \"긍\", \"쌈\", \"角\", \"폿\", \"紀\", \"닳\", \"닷\", \"資\", \"젝\", \"겨\", \"』\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"管\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"善\", \"「\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"劫\", \"융\", \"國\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"贖\", \"火\", \"飾\", \"웍\", \"K\", \"퀸\", \"뀔\", \"면\", \"X\", \"諒\", \"끄\", \"할\", \"홋\", \"뗀\", \"友\", \"툼\", \"흐\", \"拘\", \"룩\", \"ㅇ\", \"‧\", \"문\", \"슷\", \"不\", \"陰\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"帝\", \"퀘\", \"라\", \"◐\", \"食\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"光\", \"病\", \"맵\", \"킹\", \"광\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"汰\", \"헛\", \"머\", \"틋\", \"②\", \"염\", \"겔\", \"째\", \"밌\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"濁\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"滅\", \"‍\", \"월\", \"U\", \"商\", \"薄\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"E\", \"귤\", \"쏠\", \"릭\", \"改\", \"華\", \"헌\", \"🙋\", \"斗\", \"犬\", \"앗\", \"코\", \"L\", \"題\", \"次\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"婚\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"結\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"種\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"政\", \"反\", \"훼\", \"척\", \"쵸\", \"🍟\", \"驚\", \"弊\", \"ㅙ\", \"재\", \"충\", \"왔\", \"떳\", \"떻\", \"君\", \"채\", \"삘\", \"얽\", \"웬\", \"찌\", \"➍\", \"否\", \"주\", \"푸\", \"長\", \"맺\", \"🏫\", \"찮\", \"템\", \"奉\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"笠\", \"잇\", \"뇌\", \"獻\", \"拜\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"敬\", \"칼\", \"姜\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"制\", \"ㄱ\", \"닮\", \"俠\", \"◇\", \"♀\", \"싼\", \"弛\", \"동\", \"極\", \"何\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"ⅳ\", \"꾀\", \"갇\", \"챨\", \"侯\", \"돼\", \"네\", \"S\", \"헤\", \"陳\", \"D\", \"團\", \"껑\", \"샹\", \"퀵\", \"푹\", \"魚\", \"튀\", \"妻\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"某\", \"ⓒ\", \"렇\", \"ㅝ\", \"坐\", \"掌\", \"테\", \"性\", \"留\", \"術\", \"※\", \"핍\", \"헨\", \"初\", \"창\", \"🍔\", \"授\", \"곳\", \"摩\", \"포\", \"걱\", \"發\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"烏\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"|\", \"궐\", \"릉\", \"힜\", \"氣\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"⑴\", \"향\", \"液\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"同\", \"⑶\", \"뻤\", \"땐\", \"故\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"俗\", \"투\", \"拮\", \"章\", \"Ⅰ\", \"被\", \"載\", \"科\", \"응\", \"向\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"堯\", \"화\", \"넵\", \"銀\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"回\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"擒\", \"캘\", \"폰\", \"邑\", \"곤\", \"〕\", \"類\", \"🥁\", \"개\", \"윗\", \"壽\", \"ʏ\", \"尤\", \"축\", \"Q\", \"듀\", \"봅\", \"業\", \"獨\", \"밟\", \"?\", \"易\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"系\", \"협\", \"書\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"祉\", \"💦\", \"올\", \"취\", \"軍\", \"켰\", \"틱\", \"흰\", \"≤\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"毒\", \"濟\", \"字\", \"밍\", \"캉\", \"넛\", \"돗\", \"峰\", \"숏\", \"ⓔ\", \"걀\", \"序\", \"득\", \"🌵\", \"밭\", \"팠\", \"選\", \"쁜\", \"륜\", \"균\", \"덜\", \"쪄\", \"️\", \"🤗\", \"對\", \"긋\", \"력\", \"ㅅ\", \"駐\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"⑸\", \"🍰\", \"意\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"第\", \"졸\", \"엣\", \"칠\", \"曰\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"*\", \"七\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"秋\", \"N\", \"넥\", \"냥\", \"族\", \"‥\", \"젠\", \"뻑\", \"닙\", \"民\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"適\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"㎡\", \"ㅎ\", \"빅\", \"쿨\", \"冬\", \"뒷\", \"射\", \"ⅰ\", \"쨍\", \"🙆\", \"魔\", \"쾨\", \"面\", \"침\", \"🚿\", \"요\", \"才\", \"蟄\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"然\", \"邦\", \"년\", \"集\", \"乃\", \"竹\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"員\", \"얍\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"Z\", \"듣\", \"찔\", \"켓\", \"志\", \"열\", \"즌\", \"태\", \"宮\", \"樂\", \"革\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"古\", \"相\", \"습\", \"럭\", \"H\", \"乳\", \"랙\", \"길\", \"탬\", \"잤\", \" \", \"줌\", \"蒙\", \"딱\", \"장\", \"己\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"居\", \"仁\", \"과\", \"꿕\", \"英\", \"였\", \"G\", \"위\", \"숙\", \"⊙\", \"ⅲ\", \"命\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"陽\", \"雙\", \"넘\", \"氷\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"雪\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"至\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"康\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"J\", \"節\", \"촌\", \"뮌\", \"빌\", \"荻\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"W\", \"ㄹ\", \"꼬\", \"草\", \"龍\", \"핏\", \"德\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"乙\", \"쒀\", \"공\", \"🙇\", \"토\", \"史\", \"朝\", \"臺\", \"죄\", \"白\", \"골\", \"쁘\", \"思\", \"빔\", \"뾱\", \"ç\", \"준\", \"슴\", \"罰\", \"쩍\", \"얄\", \"퓨\", \"④\", \"뚝\", \"峴\", \"킥\", \"벽\", \"➋\", \"데\", \"價\", \"謝\", \"求\", \"璿\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"論\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"哀\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"院\", \"靑\", \"내\", \"陸\", \"줍\", \"析\", \"詔\", \"會\", \"톱\", \"온\", \"正\", \"將\", \"林\", \"킁\", \"을\", \"ⅱ\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"韜\", \"🍭\", \"펠\", \"途\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"紋\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"弟\", \"썅\", \"①\", \"훠\", \"탄\", \"窮\", \"두\", \"△\", \"꽂\", \"쏘\", \"궁\", \"洞\", \"팽\", \"톡\", \"🦄\", \"緞\", \"져\", \"實\", \"칫\", \"I\", \"돈\", \"臀\", \"換\", \"탕\", \"趺\", \"五\", \"삶\", \"料\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"學\", \"쓴\", \"벳\", \"틈\", \"빕\", \"巡\", \"옷\", \"턴\", \"❍\", \"房\", \"폼\", \"離\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"無\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"誡\", \"F\", \"썹\", \"春\", \"➏\", \"놈\", \"燭\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"敎\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"愛\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"門\", \"좌\", \"쿠\", \"떠\", \"└\", \"頭\", \"낮\", \"臥\", \"굉\", \"터\", \"🤟\", \"닥\", \"孝\", \"략\", \"딸\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"徳\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"鮮\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"貿\", \"툴\", \"램\", \"앎\", \"M\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"治\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"略\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"肉\", \"에\", \"좋\", \"O\", \"벤\", \"뚜\", \"택\", \"里\", \"운\", \"뛸\", \"얼\", \"벙\", \"望\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"協\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"體\", \"고\", \"했\", \"퍽\", \"뮬\", \"布\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"宋\", \"켜\", \"꽝\", \"왜\", \"③\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"色\", \"깡\", \"皮\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"戊\", \"옮\", \"펩\", \"맑\", \"혀\", \"現\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"程\", \"캣\", \"鎭\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"紙\", \"쯔\", \"壞\", \"결\", \"엇\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"目\", \"‎\", \"담\", \"뽑\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"堂\", \"Ⅹ\", \"며\", \"힌\", \"⑧\", \"텝\", \"應\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"像\", \"킬\", \"씽\", \"R\", \"北\", \"맬\", \"男\", \"기\", \"팡\", \"핥\", \"穀\", \"ㆍ\", \"및\", \"맨\", \"큰\", \"륨\", \"間\", \"戌\", \"훈\", \"始\", \"렛\", \"펑\", \"蜀\", \"효\", \"農\", \"∮\", \"볕\", \"흙\", \"土\", \"각\", \"체\", \"링\", \"參\", \"벼\", \"륵\", \"專\", \"殺\", \"콰\", \"槪\", \"卒\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"師\", \"峙\", \"국\", \"變\", \"많\", \"渴\", \"卽\", \"낸\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"P\", \"쫑\", \"읽\", \"앞\", \"늬\", \"츈\", \"存\", \"픈\", \"―\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"巳\", \"□\", \"宗\", \"ᴛ\", \"八\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"詠\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"胡\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"衛\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"際\", \"魯\", \"샬\", \"덤\", \"屠\", \"盟\", \"멍\", \"튄\", \"∼\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"南\", \"御\", \"곁\", \"⑹\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"典\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"枯\", \"멘\", \"감\", \"課\", \"識\", \"텨\", \"群\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"客\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"昭\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"亭\", \"럿\", \"엽\", \"숟\", \"브\", \"內\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"警\", \"\", \"包\", \"췄\", \"衣\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"悖\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"〈\", \"貸\", \"홍\", \"시\", \"韓\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"⋅\", \"夜\", \"껴\", \"述\", \"곱\", \"聖\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"籍\", \"뮤\", \"랐\", \"족\", \"仲\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"直\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"交\", \"T\", \"修\", \"닌\", \"守\", \"累\", \"후\", \"늑\", \"朱\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"王\", \"抗\", \"웨\", \"휙\", \"당\", \"亨\", \"」\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"知\", \"푼\", \"假\", \"워\", \"💰\", \"싯\", \"A\", \"먹\", \"🍞\", \"굴\", \"뭔\", \"甲\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"가\", \" \", \"널\", \"콤\", \"≫\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"⑥\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"蚩\", \"😣\", \"정\", \"꼴\", \"쭙\", \"떴\", \"界\", \"규\", \"군\", \"줬\", \"樂\", \"戮\", \"兄\", \"앱\", \"〔\", \"V\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"뻐\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"勢\", \"밤\", \"漢\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"衡\", \"童\", \"❏\", \"잼\", \"쭈\", \"米\", \"컸\", \"쫄\", \"몸\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"­\", \"란\", \"⑨\", \"몽\", \"넓\", \"〉\", \"혐\", \"谷\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"動\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"寛\", \"💅\", \"됬\", \"멀\", \"든\", \"⑦\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"雄\", \"유\", \"서\", \"누\", \"辰\", \"삐\", \"津\", \"쿰\", \"之\", \"된\", \"처\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"數\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"覆\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"휩\", \"훑\", \"황\", \"역\", \"s\", \"副\", \"웠\", \"셰\", \"렬\", \"雲\", \"言\", \"B\", \"눕\", \"⑤\", \"口\", \"씻\", \"익\", \"軒\", \"찼\", \"얇\", \"팀\", \"茅\", \"펄\", \"뷔\", \"耕\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"樹\", \"玉\", \"後\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"Y\", \"샐\", \"독\", \"꿍\", \"脱\", \"춥\", \"淘\", \"㉿\", \"얹\", \"자\", \"끼\", \"先\", \"땠\", \"ㅐ\", \"⑵\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"東\", \"ʟ\", \"燦\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "asafaya/bert-base-arabic @ cc100/zh-Hans": { + "tokenizer": "bert-base-arabic", + "organization": "-", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 882108, + "_n_chars": 927311, + "_n_oov_chars": 481828, + "oov_ratio": 0.5195969852616867, + "_oov_charset": "[\"%\", \"调\", \"共\", \"骰\", \"饶\", \"痫\", \"芬\", \"瘠\", \"缝\", \"弗\", \"敏\", \"姚\", \"称\", \"\\b\", \"墓\", \"讥\", \"丙\", \"篢\", \"玛\", \"陪\", \"株\", \"饿\", \"欠\", \"其\", \"黩\", \"俭\", \"沧\", \"逑\", \"洋\", \"硫\", \"旆\", \"敞\", \"弘\", \"榭\", \"曾\", \"糠\", \"挈\", \"巧\", \"诶\", \"码\", \"份\", \"岖\", \"C\", \"徘\", \"滞\", \"荣\", \"咎\", \"扇\", \"鲍\", \"逊\", \"凭\", \"原\", \"睿\", \"袱\", \"籽\", \"珠\", \"揽\", \"划\", \"昂\", \"拗\", \"娇\", \"甘\", \"醋\", \"浚\", \"诱\", \"枝\", \"姻\", \"芙\", \"曼\", \"馏\", \"唬\", \"席\", \"轩\", \"浞\", \"六\", \"篝\", \"桥\", \"泽\", \"咖\", \"劈\", \"捍\", \"皱\", \"解\", \"压\", \"闸\", \"叩\", \"淆\", \"T\", \"蝉\", \"豁\", \"饰\", \"喔\", \"/\", \"肘\", \"\", \"丹\", \"虽\", \"睐\", \"闫\", \"钞\", \"饮\", \"曳\", \"缔\", \"卤\", \"涤\", \"坚\", \"纬\", \"毙\", \"啜\", \"括\", \"钦\", \"蜡\", \"申\", \"疙\", \"蜥\", \"欸\", \"厥\", \"供\", \"卷\", \"夺\", \"鸩\", \"寥\", \"歉\", \"挲\", \"涮\", \"探\", \"挽\", \"赖\", \"峨\", \"种\", \"微\", \"璧\", \"紫\", \"找\", \"赢\", \"饽\", \"需\", \"外\", \"旋\", \"炫\", \"瑕\", \"冰\", \"窒\", \"勃\", \"侃\", \"值\", \"斧\", \"筷\", \"孜\", \"嵘\", \"献\", \"熄\", \"仓\", \"鬼\", \"撼\", \"韧\", \"埋\", \"役\", \"轶\", \"迄\", \"埃\", \"陌\", \"刹\", \"够\", \"秆\", \"粉\", \"肛\", \"榜\", \"弓\", \"浇\", \"吃\", \"赠\", \"唆\", \"蒋\", \"该\", \"简\", \"层\", \"琪\", \"嫂\", \"武\", \"溃\", \"遂\", \"谴\", \"雅\", \"谛\", \"標\", \"溯\", \"孩\", \"困\", \"寨\", \"轨\", \"脯\", \"糖\", \"船\", \"剧\", \"泄\", \"乔\", \"孽\", \"渲\", \"柿\", \"衰\", \"晾\", \"歇\", \"惰\", \"穴\", \"蔓\", \"哒\", \"豌\", \"长\", \"哨\", \"坂\", \"辜\", \"裘\", \"円\", \"绚\", \"恺\", \"总\", \"萦\", \"厌\", \"玫\", \"毛\", \"t\", \"擂\", \"眩\", \"吏\", \"腓\", \"睬\", \"幅\", \"域\", \"谐\", \"阶\", \"佝\", \"塘\", \"粽\", \"唐\", \"首\", \"跪\", \"虫\", \"箭\", \"\\u0007\", \"伦\", \"员\", \"致\", \"询\", \"枕\", \"瘾\", \"卵\", \"梯\", \"損\", \"忑\", \"漂\", \"舶\", \"财\", \"垛\", \"酿\", \"精\", \"伤\", \"死\", \"江\", \"常\", \"再\", \"郜\", \"眨\", \"妹\", \"皈\", \"谢\", \"拍\", \"『\", \"栏\", \"铩\", \"飙\", \"冀\", \"蓄\", \"颓\", \"菩\", \"焊\", \"催\", \"特\", \"演\", \"懵\", \"磨\", \"塔\", \"俩\", \"娑\", \"畴\", \"岳\", \"却\", \"酵\", \"角\", \"蕾\", \"炖\", \"赤\", \"诠\", \"挪\", \"惺\", \"础\", \"远\", \"仕\", \"資\", \"掺\", \"』\", \"筋\", \"谧\", \"怕\", \"逃\", \"萧\", \"吞\", \"戍\", \"茨\", \"嘛\", \"尊\", \"臊\", \"皿\", \"敢\", \"畸\", \"逛\", \"栽\", \"瞳\", \"味\", \"鉴\", \"冯\", \"孕\", \"畜\", \"钢\", \"锄\", \"辽\", \"驳\", \"读\", \"藤\", \"剩\", \"藉\", \"栈\", \"簇\", \"庚\", \"针\", \"耶\", \"溉\", \"颜\", \"汀\", \"管\", \"抢\", \"抖\", \"3\", \"浊\", \"盒\", \"彗\", \"善\", \"棺\", \"烊\", \"亿\", \"丈\", \"义\", \"缚\", \"蹲\", \"竿\", \"羚\", \"胳\", \"跋\", \"咸\", \"髓\", \"岣\", \"隆\", \"笨\", \"琢\", \"採\", \"尿\", \"\", \"鹭\", \"侦\", \"语\", \"赎\", \"旖\", \"呆\", \"荨\", \"劫\", \"曦\", \"呈\", \"玻\", \"点\", \"呗\", \"侬\", \"侮\", \"锋\", \"桦\", \"兴\", \"舰\", \"祛\", \"尾\", \"嫖\", \"暇\", \"楔\", \"功\", \"泊\", \"奏\", \"虎\", \"建\", \"睁\", \"横\", \"眼\", \"晰\", \"火\", \"渡\", \"疗\", \"茧\", \"盏\", \"枪\", \"叼\", \"吻\", \"余\", \"渊\", \"沈\", \"祭\", \"寓\", \"焉\", \"蓟\", \"嗪\", \"呕\", \"晨\", \"祟\", \"经\", \"K\", \"犷\", \"豆\", \"炒\", \"楞\", \"樊\", \"挂\", \"汽\", \"传\", \"礁\", \"芒\", \"乱\", \"X\", \"稚\", \"岱\", \"卿\", \"棚\", \"辣\", \"稳\", \"届\", \"酪\", \"友\", \"辞\", \"准\", \"棠\", \"棒\", \"险\", \"训\", \"车\", \"拘\", \"付\", \"毕\", \"邋\", \"涌\", \"臣\", \"姓\", \"旨\", \"馒\", \"坑\", \"亡\", \"乞\", \"吩\", \"撷\", \"靡\", \"瘙\", \"扎\", \"侵\", \"衔\", \"裆\", \"韦\", \"扳\", \"呐\", \"肚\", \"挺\", \"耐\", \"挖\", \"帝\", \"佛\", \"此\", \"阜\", \"傻\", \"胆\", \"食\", \"鹿\", \"窜\", \"弦\", \"棋\", \"床\", \"荼\", \"买\", \"暖\", \"框\", \"吝\", \"辐\", \"栗\", \"躇\", \"希\", \"寄\", \"啬\", \"尹\", \"濮\", \"奔\", \"霓\", \"搅\", \"莱\", \"速\", \"裂\", \"收\", \"茏\", \"妙\", \"耸\", \"光\", \"炅\", \"病\", \"曝\", \"截\", \"伽\", \"铛\", \"钩\", \"显\", \"虐\", \"鄯\", \"汐\", \"樟\", \"噢\", \"舐\", \"鬣\", \"拉\", \"憋\", \"泻\", \"润\", \"座\", \"穿\", \"梁\", \"甜\", \"汰\", \"倏\", \"嗓\", \"怨\", \"呷\", \"②\", \"韫\", \"赚\", \"售\", \"窖\", \"瞻\", \"臻\", \"贡\", \"袋\", \"袒\", \"阵\", \"镭\", \"更\", \"擎\", \"犟\", \"担\", \"队\", \"替\", \"萄\", \"ὐ\", \"废\", \"拷\", \"婪\", \"抱\", \"躁\", \"泾\", \"肤\", \"堕\", \"劣\", \"荤\", \"驻\", \"避\", \"逮\", \"咋\", \"登\", \"研\", \"脆\", \"寡\", \"U\", \"商\", \"忡\", \"薄\", \"践\", \"弯\", \"酬\", \"壑\", \"添\", \"宿\", \"慮\", \"蝶\", \"循\", \"薯\", \"挠\", \"柬\", \"蛛\", \"狄\", \"梅\", \"片\", \"兼\", \"算\", \"碱\", \"屣\", \"舅\", \"示\", \"宪\", \"兆\", \"绥\", \"咱\", \"妨\", \"蚪\", \"介\", \"砍\", \"E\", \"费\", \"象\", \"股\", \"懊\", \"攻\", \"锚\", \"改\", \"巢\", \"9\", \"爆\", \"擞\", \"篮\", \"仗\", \"撤\", \"塑\", \"斗\", \"晖\", \"竺\", \"构\", \"犬\", \"足\", \"今\", \"L\", \"次\", \"挥\", \"r\", \"抡\", \"殉\", \"芯\", \"嚎\", \"湛\", \"或\", \"荷\", \"橱\", \"念\", \"欧\", \"很\", \"芦\", \"嘉\", \"俘\", \"篇\", \"擦\", \"丐\", \"炕\", \"邯\", \"效\", \"耍\", \"婚\", \"慌\", \"绅\", \"捐\", \"辙\", \"盲\", \"裴\", \"淖\", \"推\", \"妈\", \"饷\", \"猬\", \"尘\", \"谩\", \"ě\", \"悉\", \"握\", \"鞍\", \"楚\", \"鹃\", \"棵\", \"脸\", \"赛\", \"撑\", \"柜\", \"涡\", \"姆\", \"黄\", \"散\", \"袭\", \"扭\", \"啡\", \"恨\", \"帐\", \"抹\", \"端\", \"辫\", \"政\", \"妮\", \"帜\", \"鑫\", \"怜\", \"反\", \"拐\", \"颈\", \"晚\", \"禾\", \"坟\", \"饨\", \"累\", \"恩\", \"令\", \"戴\", \"济\", \"泯\", \"浸\", \"渎\", \"愉\", \"懒\", \"弊\", \"储\", \"填\", \"通\", \"瑨\", \"腐\", \"杂\", \"件\", \"浮\", \"逼\", \"茎\", \"督\", \"君\", \"胶\", \"廖\", \"肢\", \"堪\", \"延\", \"逻\", \"缠\", \"鹕\", \"默\", \"诞\", \"恶\", \"馆\", \"婶\", \"感\", \"刮\", \"帕\", \"送\", \"挤\", \"轻\", \"急\", \"稻\", \"沐\", \"诅\", \"县\", \"否\", \"奶\", \"恍\", \"惩\", \"矩\", \"毎\", \"铲\", \"狈\", \"脖\", \"巨\", \"连\", \"绎\", \"素\", \"页\", \"末\", \"奉\", \"篡\", \"宣\", \"姊\", \"郴\", \"等\", \"钻\", \"茉\", \"消\", \"憨\", \"察\", \"澜\", \"遴\", \"哄\", \"桐\", \"固\", \"聆\", \"羞\", \"惜\", \"圾\", \"铝\", \"召\", \"丸\", \"戸\", \"统\", \"番\", \"á\", \"裕\", \"肃\", \"孔\", \"拭\", \"逅\", \"蕉\", \"倾\", \"氰\", \"绒\", \"箔\", \"邕\", \"儒\", \"拜\", \"彭\", \"扪\", \"漉\", \"缜\", \"殷\", \"皙\", \"境\", \"堡\", \"木\", \"密\", \"韵\", \"茶\", \"_\", \"鲱\", \"忧\", \"徙\", \"蚂\", \"阿\", \"瓶\", \"敬\", \"眷\", \"姜\", \"赂\", \"号\", \"厕\", \"\", \"纱\", \"磁\", \"熬\", \"干\", \"捡\", \"龚\", \"卜\", \"滇\", \"即\", \"叹\", \"牟\", \"饵\", \"判\", \"阽\", \"绸\", \"惘\", \"滴\", \"煮\", \"鞭\", \"竟\", \"瑜\", \"躲\", \"顺\", \"挎\", \"周\", \"制\", \"弹\", \"疵\", \"撇\", \"蒜\", \"问\", \"带\", \"恪\", \"忐\", \"弛\", \"遍\", \"何\", \"凰\", \"鲨\", \"墒\", \"啼\", \"纪\", \"赡\", \"旗\", \"溺\", \"板\", \"憧\", \"踊\", \"罩\", \"韪\", \"袁\", \"褐\", \"腋\", \"翻\", \"俯\", \"培\", \"岐\", \"缩\", \"聪\", \"瓣\", \"突\", \"贸\", \"掘\", \"柳\", \"删\", \"嘈\", \"瓜\", \"馋\", \"哲\", \"舎\", \"逍\", \"荒\", \"庞\", \"狼\", \"诺\", \"葬\", \"驰\", \"仙\", \"饼\", \"祢\", \"岔\", \"伏\", \"肝\", \"柘\", \"侯\", \"绽\", \"黯\", \"饱\", \"斌\", \"煌\", \"遮\", \"岑\", \"装\", \"浦\", \"势\", \"俚\", \"S\", \"骛\", \"履\", \"蔬\", \"松\", \"D\", \"〖\", \"拎\", \"粤\", \"恙\", \"使\", \"这\", \"锻\", \"忙\", \"勉\", \"酌\", \"诚\", \"淡\", \"栋\", \"质\", \"妻\", \"那\", \"掏\", \"悼\", \"缮\", \"硕\", \"奖\", \"某\", \"腊\", \"坐\", \"讼\", \"掌\", \"藐\", \"璜\", \"价\", \"性\", \"留\", \"普\", \"\", \"捕\", \"涂\", \"※\", \"救\", \"垃\", \"苗\", \"迫\", \"鼯\", \"伴\", \"霄\", \"初\", \"矗\", \"涉\", \"躯\", \"授\", \"渗\", \"泸\", \"凿\", \"淫\", \"摩\", \"厢\", \"膳\", \"残\", \"牠\", \"發\", \"荆\", \"泉\", \"勘\", \"4\", \"畏\", \"痴\", \"井\", \"巴\", \"啦\", \"庄\", \"敌\", \"秒\", \"禧\", \"画\", \"抉\", \"瑄\", \"砂\", \"聋\", \"聚\", \"炳\", \"泵\", \"嗅\", \"醍\", \"奠\", \"碌\", \"牖\", \"派\", \"罐\", \"樯\", \"军\", \"骄\", \"脑\", \"糟\", \"喂\", \"寿\", \"赔\", \"鹤\", \"贫\", \"麦\", \"雕\", \"嘟\", \"揣\", \"蜿\", \"雨\", \"拌\", \"盎\", \"忱\", \"芜\", \"洪\", \"衬\", \"筑\", \"肌\", \"⑴\", \"稽\", \"矣\", \"呀\", \"椒\", \"肖\", \"攥\", \"宇\", \"液\", \"匠\", \"耘\", \"霉\", \"〝\", \"绪\", \"让\", \"寅\", \"贝\", \"贬\", \"砺\", \"降\", \"庶\", \"苹\", \"同\", \"烧\", \"闵\", \"⑶\", \"髻\", \"褪\", \"n\", \"祀\", \"恰\", \"熙\", \"峭\", \"艰\", \"故\", \"单\", \"讪\", \"璎\", \"魂\", \"疾\", \"瓷\", \"淋\", \"橡\", \"厘\", \"狠\", \"刀\", \"睫\", \"啃\", \"淑\", \"烟\", \"枉\", \"寺\", \"瑢\", \"挡\", \"涣\", \"侥\", \"詹\", \"螺\", \"凑\", \"缺\", \"败\", \"附\", \"俗\", \"漠\", \"舞\", \"章\", \"舛\", \"墉\", \"遗\", \"被\", \"均\", \"拦\", \"亥\", \"危\", \"尝\", \"椭\", \"鹅\", \"既\", \"瑒\", \"耙\", \"沓\", \"科\", \"遵\", \"蜴\", \"向\", \"蚤\", \"职\", \"恳\", \"怖\", \"旳\", \"晤\", \"呃\", \"舔\", \"彰\", \"瘤\", \"邬\", \"婿\", \"邸\", \"屑\", \"辟\", \"项\", \"滓\", \"萼\", \"卓\", \"佩\", \"距\", \"碎\", \"孙\", \"へ\", \"燎\", \"浅\", \"兑\", \"豫\", \"慑\", \"袜\", \"拂\", \"赅\", \"宏\", \"賣\", \"舟\", \"矮\", \"逾\", \"肩\", \"闯\", \"琴\", \"拯\", \"哭\", \"咚\", \"牧\", \"羁\", \"捞\", \"回\", \"帅\", \"赏\", \"轴\", \"凡\", \"仿\", \"便\", \"芝\", \"榄\", \"阱\", \"莺\", \"牛\", \"殴\", \"纹\", \"些\", \"飞\", \"郎\", \"朵\", \"邑\", \"权\", \"楷\", \"〕\", \"怒\", \"鼠\", \"签\", \"陡\", \"渺\", \"喷\", \"垮\", \"镉\", \"畅\", \"勾\", \"暨\", \"粟\", \"尤\", \"滨\", \"又\", \"侧\", \"赁\", \"愕\", \"Q\", \"尺\", \"勿\", \"币\", \"产\", \"呵\", \"啊\", \"聊\", \"肠\", \"置\", \"恣\", \"逆\", \"铁\", \"?\", \"匙\", \"易\", \"寻\", \"瞩\", \"甄\", \"嘤\", \"谑\", \"颁\", \"睑\", \"掂\", \"屹\", \"晕\", \"啐\", \"减\", \"凳\", \"勇\", \"炉\", \"捉\", \"噶\", \"系\", \"腺\", \"蠢\", \"哎\", \"驼\", \"鸥\", \"琛\", \"岭\", \"龟\", \"半\", \"块\", \"厮\", \"祉\", \"姣\", \"i\", \"您\", \"釜\", \"醉\", \"槽\", \"响\", \"叙\", \"切\", \"李\", \"竭\", \"琐\", \"办\", \"榷\", \"岚\", \"榻\", \"巩\", \"狡\", \"爰\", \"�\", \"陛\", \"景\", \"谣\", \"匾\", \"嗜\", \"铮\", \"惶\", \"墟\", \"湮\", \"核\", \"惚\", \"掰\", \"佟\", \"阎\", \"吐\", \"欺\", \"毒\", \"楣\", \"凯\", \"笼\", \"书\", \"丁\", \"亦\", \"確\", \"字\", \"卫\", \"锂\", \"诃\", \"蓁\", \"甯\", \"离\", \"腱\", \"就\", \"聿\", \"跷\", \"峰\", \"涛\", \"痘\", \"亟\", \"序\", \"完\", \"扉\", \"极\", \"持\", \"偌\", \"踱\", \"戾\", \"掀\", \"選\", \"胸\", \"纂\", \"狳\", \"霏\", \"茸\", \"茄\", \"敷\", \"灭\", \"瀛\", \"踝\", \"弑\", \"肋\", \"葛\", \"疏\", \"串\", \"宁\", \"亳\", \"间\", \"董\", \"捂\", \"喱\", \"铨\", \"泳\", \"眺\", \"凛\", \"表\", \"遁\", \"拨\", \"吵\", \"哟\", \"音\", \"骏\", \"啪\", \"潮\", \"鞘\", \"怡\", \"掬\", \"鲤\", \"剂\", \"暑\", \"杆\", \"勤\", \"依\", \"忍\", \"瞟\", \"Ø\", \"昵\", \"⑸\", \"妤\", \"意\", \"跌\", \"宫\", \"择\", \"插\", \"珞\", \"属\", \"淅\", \"湖\", \"绕\", \"斋\", \"翡\", \"d\", \"欣\", \"哉\", \"揭\", \"池\", \"鹜\", \"少\", \"渤\", \"惊\", \"戳\", \"伫\", \"拔\", \"虑\", \"迅\", \"潘\", \"医\", \"砧\", \"采\", \"ノ\", \"伙\", \"气\", \"讶\", \"妃\", \"於\", \"撸\", \"卉\", \"仄\", \"委\", \"第\", \"丢\", \"终\", \"舱\", \"湄\", \"嘘\", \"孤\", \"蔑\", \"喉\", \"凄\", \"壁\", \"摆\", \"躺\", \"岛\", \"严\", \"熏\", \"曰\", \"呜\", \"仔\", \"斛\", \"排\", \"旬\", \"薪\", \"党\", \"护\", \"七\", \"丽\", \"辱\", \"钓\", \"髦\", \"浩\", \"狱\", \"煜\", \"哈\", \"秋\", \"咒\", \"N\", \"裤\", \"2\", \"族\", \"挣\", \"瓦\", \"佐\", \"民\", \"随\", \"键\", \"宜\", \"汝\", \"展\", \"眯\", \"馁\", \"骆\", \"偏\", \"窄\", \"峡\", \"蜒\", \"骗\", \"尉\", \"殖\", \"屈\", \"莎\", \"粮\", \"強\", \"掖\", \"霆\", \"蝗\", \"乘\", \"淹\", \"毫\", \"奋\", \"黛\", \"辩\", \"妄\", \"游\", \"疫\", \"粥\", \"烙\", \"兵\", \"瞒\", \"蚓\", \"顽\", \"沿\", \"袍\", \"挨\", \"骅\", \"霸\", \"運\", \"轮\", \"疼\", \"甩\", \"氛\", \"创\", \"短\", \"哺\", \"岗\", \"健\", \"滑\", \"嘎\", \"障\", \"嘣\", \"渍\", \"猥\", \"么\", \"递\", \"吸\", \"祥\", \"沸\", \"噪\", \"搡\", \"怔\", \"冬\", \"鳗\", \"宅\", \"胞\", \"莴\", \"\", \"活\", \"猪\", \"浑\", \"射\", \"萝\", \"盐\", \"染\", \"擅\", \"绍\", \"魔\", \"拓\", \"脐\", \"拱\", \"堤\", \"面\", \"翰\", \"欢\", \"才\", \"薇\", \"翠\", \"倒\", \"孰\", \"剔\", \"朗\", \"锁\", \"瞬\", \"咽\", \"材\", \"协\", \"雀\", \"蔡\", \"狰\", \"辖\", \"然\", \"邦\", \"涕\", \"集\", \"笛\", \"贿\", \"羽\", \"乃\", \"竹\", \"奘\", \"贮\", \"颌\", \"锥\", \"洗\", \"娥\", \"犯\", \"赋\", \"蓝\", \"擘\", \"昆\", \"鄂\", \"应\", \"钥\", \"咕\", \"氮\", \"寸\", \"炭\", \"结\", \"冒\", \"焰\", \"員\", \"穆\", \"僚\", \"根\", \"峥\", \"夸\", \"媒\", \"刁\", \"鸟\", \"苍\", \"魅\", \"Z\", \"径\", \"亵\", \"壮\", \"爹\", \"兹\", \"菌\", \"芳\", \"伊\", \"屄\", \"志\", \"粼\", \"慨\", \"舆\", \"骼\", \"损\", \"炙\", \"丰\", \"革\", \"蜷\", \"淀\", \"谚\", \"蹄\", \"数\", \"僵\", \"藕\", \"隘\", \"披\", \"堆\", \"沏\", \"谬\", \"彼\", \"古\", \"相\", \"柠\", \"继\", \"决\", \"漏\", \"释\", \"H\", \"乳\", \"溅\", \"刻\", \"只\", \"癫\", \"免\", \"习\", \"浓\", \"蒸\", \"躬\", \"垠\", \"荏\", \"桓\", \"灯\", \"坡\", \"絮\", \"谱\", \"叠\", \"脊\", \"悠\", \"锢\", \"擀\", \"碰\", \"腑\", \"妒\", \"扣\", \"逸\", \"惫\", \"彻\", \" \", \"笔\", \"蒙\", \"徐\", \"瑞\", \"嘲\", \"酱\", \"肾\", \"芽\", \"话\", \"己\", \"艺\", \"檐\", \"奈\", \"棉\", \"珉\", \"桌\", \"良\", \"辅\", \"居\", \"舒\", \"栓\", \"般\", \"淌\", \"仁\", \"享\", \"计\", \"佣\", \"娼\", \"虞\", \"浪\", \"撩\", \"晦\", \"刘\", \"炊\", \"弥\", \"趁\", \"聒\", \"挝\", \"厄\", \"⑷\", \"崖\", \"爪\", \"捅\", \"耩\", \"腹\", \"英\", \"告\", \"虔\", \"坯\", \"渠\", \"G\", \"昏\", \"命\", \"格\", \"惭\", \"罔\", \"绞\", \"诫\", \"啤\", \"併\", \"底\", \"拾\", \"塞\", \"厨\", \"订\", \"伞\", \"劑\", \"莲\", \"拟\", \"蹩\", \"涟\", \"壓\", \"府\", \"舍\", \"诊\", \"赐\", \"跤\", \"伍\", \"蝇\", \"弄\", \"邹\", \"暄\", \"休\", \"咯\", \"走\", \"署\", \"嗣\", \"嚼\", \"彬\", \"侠\", \"沟\", \"寂\", \"振\", \"圈\", \"咙\", \"沾\", \"拳\", \"雪\", \"浆\", \"说\", \"起\", \"秸\", \"热\", \"洛\", \"资\", \"譬\", \"铂\", \"秘\", \"至\", \"愧\", \"条\", \"唠\", \"鼎\", \"炬\", \"琅\", \"哪\", \"贴\", \"灵\", \"无\", \"仅\", \"康\", \"鸠\", \"尴\", \"汲\", \"嗲\", \"\", \"晗\", \"港\", \"J\", \"枚\", \"霖\", \"觉\", \"抨\", \"左\", \"筹\", \"拙\", \"澎\", \"榴\", \"荻\", \"凋\", \"肆\", \"估\", \"缥\", \"杯\", \"矶\", \"葵\", \"霊\", \"昔\", \"讨\", \"蚀\", \"W\", \"谦\", \"朋\", \"匹\", \"栾\", \"晶\", \"没\", \"喆\", \"草\", \"兰\", \"闷\", \"德\", \"狂\", \"霾\", \"漫\", \"弃\", \"灰\", \"雁\", \"闾\", \"菇\", \"陋\", \"贾\", \"悬\", \"秽\", \"暴\", \"妥\", \"姗\", \"孵\", \"扑\", \"撞\", \"乙\", \"爻\", \"攫\", \"每\", \"咐\", \"桔\", \"过\", \"指\", \"迎\", \"厂\", \"毗\", \"娄\", \"璇\", \"荧\", \"模\", \"熔\", \"剖\", \"函\", \"镐\", \"惹\", \"暧\", \"夷\", \"史\", \"朝\", \"纸\", \"骤\", \"白\", \"兜\", \"襟\", \"牒\", \"匀\", \"揖\", \"思\", \"娘\", \"⒃\", \"考\", \"怵\", \"5\", \"涯\", \"戏\", \"ç\", \"埂\", \"苯\", \"诬\", \"砾\", \"盗\", \"剑\", \"驾\", \"啕\", \"④\", \"堵\", \"雇\", \"瘫\", \"组\", \"缉\", \"疑\", \"呢\", \"季\", \"惯\", \"扛\", \"堰\", \"價\", \"娟\", \"毅\", \"權\", \"览\", \"澡\", \";\", \"求\", \"芷\", \"胫\", \"[\", \"膨\", \"灌\", \"涎\", \"灶\", \"踏\", \"苟\", \"柔\", \"盘\", \"炸\", \"诩\", \"触\", \"盯\", \"泛\", \"粕\", \"含\", \"邵\", \"稠\", \"滤\", \"镶\", \"拧\", \"沁\", \"庆\", \"露\", \"笑\", \"盆\", \"晟\", \"膛\", \"挟\", \"虾\", \"讯\", \"搐\", \"且\", \"卦\", \"哀\", \"住\", \"並\", \"椅\", \"D\", \"琉\", \"访\", \"绛\", \"肮\", \"宙\", \"唯\", \"盹\", \"院\", \"椰\", \"疯\", \"谎\", \"铃\", \"踹\", \"什\", \"析\", \"莉\", \"斜\", \"喻\", \"郅\", \"镀\", \"忿\", \"辉\", \"垒\", \"静\", \"萎\", \"虏\", \"迟\", \"企\", \"妆\", \"泥\", \"皂\", \"轼\", \"正\", \"益\", \"佼\", \"糊\", \"叉\", \"乾\", \"林\", \"潦\", \"懦\", \"狞\", \"慢\", \"娴\", \"叫\", \"照\", \"翅\", \"偎\", \"午\", \"懑\", \"抵\", \"蚌\", \"浏\", \"吱\", \"巷\", \"狩\", \"杀\", \"涝\", \"逗\", \"⒋\", \"搀\", \"浙\", \"蹿\", \"媛\", \"胖\", \"凝\", \"钉\", \"颇\", \"途\", \"背\", \"摧\", \"剽\", \"齿\", \"筛\", \"将\", \"监\", \"乏\", \"恼\", \"​\", \"7\", \"郁\", \"止\", \"绊\", \"-\", \"8\", \"狗\", \"议\", \"娅\", \"摔\", \"苦\", \"貌\", \"磊\", \"卑\", \"汩\", \"溢\", \"翌\", \"弟\", \"透\", \"赴\", \"识\", \"①\", \"契\", \"椎\", \"瞥\", \"拒\", \"贷\", \"嬉\", \"匈\", \"喀\", \"豹\", \"搬\", \"粗\", \"圣\", \"胺\", \"骁\", \"摄\", \"撕\", \"失\", \"洞\", \"傍\", \"莫\", \"黢\", \"纯\", \"联\", \"违\", \"充\", \"而\", \"陕\", \"腔\", \"乌\", \"窥\", \"恒\", \"茫\", \"谓\", \"忪\", \"涵\", \"嗔\", \"扼\", \"形\", \"恢\", \"I\", \"烈\", \"紧\", \"噌\", \"焦\", \"头\", \"臀\", \"壹\", \"禄\", \"梧\", \"婆\", \"五\", \"携\", \"料\", \"踪\", \"烷\", \"胥\", \"箍\", \"矍\", \"牢\", \"凉\", \"姥\", \"帘\", \"杭\", \"巡\", \"嗦\", \"哼\", \"敦\", \"造\", \"题\", \"翊\", \"验\", \"房\", \"关\", \"冷\", \"智\", \"拼\", \"瞧\", \"烹\", \"冲\", \"剿\", \"玄\", \"娠\", \"穹\", \"淳\", \"铤\", \"腻\", \"滩\", \"遛\", \"蓉\", \"暹\", \"耦\", \"东\", \"玮\", \"枷\", \"桶\", \"澈\", \"祷\", \"重\", \"噼\", \"旎\", \"停\", \"凤\", \"零\", \"赘\", \"柯\", \"噬\", \"搏\", \"实\", \"倜\", \"蔷\", \"坏\", \"霞\", \"腰\", \"忆\", \"森\", \"锦\", \"窦\", \"簧\", \"嗨\", \"募\", \"怠\", \"锣\", \"铣\", \"屎\", \"威\", \"砥\", \"覃\", \"彷\", \"恿\", \"复\", \"滚\", \"狸\", \"癖\", \"汉\", \"托\", \"贪\", \"F\", \"葩\", \"源\", \"炎\", \"罗\", \"伸\", \"拿\", \"勒\", \"遑\", \"愁\", \"匮\", \"春\", \"宠\", \"燥\", \"悚\", \"误\", \"電\", \"卖\", \"棂\", \"舵\", \"抄\", \"貂\", \"迤\", \"折\", \"梢\", \"袖\", \"拖\", \"弩\", \"鹑\", \"屡\", \"锤\", \"戛\", \"陨\", \"腥\", \"竞\", \"谈\", \"句\", \"艘\", \"缭\", \"膀\", \"枢\", \"榆\", \"吗\", \"猡\", \"睦\", \"斐\", \"冈\", \"锏\", \"寝\", \"悔\", \"肴\", \"灑\", \"氨\", \"室\", \"渥\", \"汹\", \"門\", \"尬\", \"臆\", \"绷\", \"乍\", \"煤\", \"尧\", \"煎\", \"湘\", \"吴\", \"蔼\", \"摸\", \"槃\", \"诀\", \"羹\", \"赣\", \"踩\", \"漩\", \"临\", \"A\", \"葱\", \"震\", \"宵\", \"酝\", \"妍\", \"圩\", \"孝\", \"啸\", \"耻\", \"ù\", \"魇\", \"控\", \"敖\", \"甫\", \"骸\", \"祖\", \"龇\", \"流\", \"卢\", \"记\", \"鸽\", \"î\", \"迷\", \"毁\", \"彙\", \"臼\", \"唷\", \"徳\", \"瘩\", \"摇\", \"斤\", \"據\", \"搜\", \"噩\", \"衿\", \"啥\", \"旁\", \"乡\", \"芮\", \"标\", \"乎\", \"谨\", \"哑\", \"蛙\", \"蛔\", \"虱\", \"惨\", \"缈\", \"团\", \"见\", \"吊\", \"醇\", \"幢\", \"嘀\", \"跨\", \"扯\", \"载\", \"奴\", \"撒\", \"仇\", \"试\", \"店\", \"踞\", \"树\", \"黝\", \"胚\", \"囤\", \"滕\", \"p\", \"丧\", \"耗\", \"・\", \"爵\", \"蚯\", \"激\", \"埔\", \"倨\", \"吆\", \"招\", \"灾\", \"冤\", \"妞\", \"瞰\", \"夯\", \"糕\", \"译\", \"颖\", \"筝\", \"悍\", \"倦\", \"驱\", \"净\", \"帮\", \"朔\", \"囚\", \"沽\", \"吟\", \"教\", \"昨\", \"与\", \"胱\", \"俊\", \"阑\", \"郸\", \"千\", \"粒\", \"跑\", \"诣\", \"M\", \"洒\", \"煲\", \"穗\", \"筐\", \"你\", \"呻\", \"狙\", \"爱\", \"蕴\", \"仍\", \"馨\", \"汪\", \"霭\", \"崔\", \"选\", \"痛\", \"服\", \"态\", \"朴\", \"罄\", \"玷\", \"迭\", \"馕\", \"拇\", \"她\", \"鳞\", \"吼\", \"荟\", \"治\", \"例\", \"荡\", \"姬\", \"扩\", \"杏\", \"抓\", \"跃\", \"罹\", \"锈\", \"吁\", \"郑\", \"窃\", \"墅\", \"宰\", \"低\", \"妇\", \"许\", \"贱\", \"凶\", \"祈\", \"崎\", \"蹊\", \"纷\", \"移\", \"岌\", \"汤\", \"声\", \"狐\", \"搞\", \"导\", \"琳\", \"偻\", \"仰\", \"⒀\", \"按\", \"螂\", \"婷\", \"槐\", \"倪\", \"剁\", \"攘\", \"憬\", \"陆\", \"盼\", \"榨\", \"鳃\", \"N\", \"究\", \"佬\", \"母\", \"断\", \"杠\", \"靠\", \"遇\", \"钵\", \"柑\", \"萍\", \"咀\", \"非\", \"认\", \"销\", \"略\", \"予\", \"航\", \"约\", \"鞋\", \"苑\", \"琦\", \"逐\", \"敲\", \"负\", \"裸\", \"广\", \"讳\", \"勺\", \"肉\", \"桅\", \"屯\", \"增\", \"竖\", \"撬\", \"虚\", \"叔\", \"叭\", \"劝\", \"O\", \"臃\", \"里\", \"术\", \"爸\", \"混\", \"辆\", \"疚\", \"放\", \"奇\", \"引\", \"秃\", \"羡\", \"罚\", \"望\", \"打\", \"戈\", \"粱\", \"倘\", \"鸣\", \"拢\", \"鼾\", \"惦\", \"瑰\", \"筒\", \"坝\", \"掉\", \"案\", \"绝\", \"洽\", \"刃\", \"玲\", \"唏\", \"它\", \"惑\", \"桩\", \"斑\", \"粘\", \"油\", \"魏\", \"沫\", \"炮\", \"扰\", \"刷\", \"近\", \"环\", \"沦\", \"卸\", \"裹\", \"阂\", \"哮\", \"弧\", \"茁\", \"阪\", \"叨\", \"量\", \"珍\", \"辑\", \"绳\", \"布\", \"鹈\", \"封\", \"给\", \"悲\", \"趟\", \"缴\", \"潭\", \"烦\", \"把\", \"穰\", \"徽\", \"镳\", \"桃\", \"批\", \"烁\", \"讲\", \"尼\", \"坎\", \"宋\", \"汶\", \"桂\", \"蛇\", \"赵\", \"具\", \"削\", \"唇\", \"漆\", \"猎\", \"祝\", \"兢\", \"③\", \"喜\", \"颉\", \"殊\", \"色\", \"坦\", \"囊\", \"圜\", \"苣\", \"确\", \"皮\", \"隙\", \"怀\", \"傅\", \"壤\", \"瀚\", \"借\", \"沃\", \"嵌\", \"葫\", \"追\", \"度\", \"硬\", \"镏\", \"恭\", \"偶\", \"牺\", \"柱\", \"蒂\", \"彦\", \"棍\", \"菜\", \"隔\", \"硅\", \"犄\", \"踵\", \"禁\", \"趋\", \"沪\", \"勋\", \"拣\", \"着\", \"痪\", \"屏\", \"铎\", \"獗\", \"爬\", \"须\", \"厉\", \"笃\", \"藏\", \"a\", \"套\", \"墙\", \"掩\", \"朽\", \"悦\", \"夹\", \"蟀\", \"率\", \"裁\", \"艋\", \"纺\", \"0\", \"廊\", \"钰\", \"咧\", \"蜕\", \"瘦\", \"别\", \"霍\", \"哗\", \"慧\", \"歧\", \"慕\", \"程\", \"蜃\", \"汛\", \"鲎\", \"贯\", \"杰\", \"骨\", \"芭\", \"桑\", \"逝\", \"墨\", \"基\", \"爷\", \"巫\", \"嗯\", \"卍\", \"邻\", \"掠\", \"检\", \"剪\", \"歼\", \"因\", \"坤\", \"卧\", \"雏\", \"o\", \"惴\", \"摘\", \"苛\", \"清\", \"妖\", \"遭\", \"悴\", \"锲\", \"癌\", \"则\", \"录\", \"搭\", \"衷\", \"顿\", \"麾\", \"屌\", \"沂\", \"券\", \"蜜\", \"纠\", \"狮\", \"姑\", \"谆\", \"颗\", \"惮\", \"击\", \"轿\", \"猴\", \"蛊\", \"徊\", \"膏\", \"別\", \"礴\", \"屉\", \"蹴\", \"右\", \"蹦\", \"路\", \"碟\", \"〗\", \"ㄓ\", \"\\u0006\", \"蟹\", \"深\", \"禅\", \"遢\", \"熟\", \"秦\", \"刊\", \"雷\", \"\\u0005\", \"目\", \"肯\", \"刑\", \"泠\", \"茜\", \"详\", \"束\", \"银\", \"琶\", \"各\", \"娶\", \"械\", \"处\", \"琼\", \"娜\", \"堂\", \"羊\", \"佰\", \"靓\", \"楠\", \"梗\", \"争\", \"嗡\", \"颠\", \"肿\", \"磋\", \"璨\", \"&\", \"迩\", \"战\", \"沮\", \"⑧\", \"状\", \"规\", \"垫\", \"馍\", \"醐\", \"肓\", \"熹\", \"账\", \"斥\", \"范\", \"省\", \"综\", \"植\", \"萃\", \"腿\", \"像\", \"挑\", \"怯\", \"煽\", \"匕\", \"R\", \"北\", \"凹\", \"勖\", \"花\", \"翱\", \"男\", \"馅\", \"黔\", \"孀\", \"哧\", \"四\", \"症\", \"仆\", \"迦\", \"猝\", \"媳\", \"渐\", \"奂\", \"缪\", \"型\", \"吠\", \"隶\", \"個\", \"也\", \"醛\", \"提\", \"始\", \"恃\", \"迪\", \"兔\", \"编\", \"咏\", \"蜀\", \"鹉\", \"运\", \"毯\", \"街\", \"劲\", \"廓\", \"鸦\", \"蜂\", \"坷\", \"奚\", \"羔\", \"老\", \"跳\", \"查\", \"垢\", \"婺\", \"土\", \"获\", \"诗\", \"乓\", \"苒\", \"耿\", \"沉\", \"段\", \"漲\", \"蚁\", \"赃\", \"俪\", \"娛\", \"瞅\", \"贵\", \"渣\", \"坊\", \"觑\", \"號\", \"檬\", \"辄\", \"莘\", \"汕\", \"钧\", \"冶\", \"助\", \"亂\", \"盛\", \"谅\", \"坞\", \"姨\", \"归\", \"央\", \"疴\", \"绑\", \"缘\", \"峙\", \"施\", \"壳\", \"扬\", \"渴\", \"晓\", \"柴\", \"炼\", \"夕\", \"忠\", \"惟\", \"壕\", \"整\", \"敝\", \"莅\", \"珊\", \"鹰\", \"滔\", \"务\", \"吧\", \"叮\", \"碳\", \"尖\", \"雳\", \"P\", \"肇\", \"洁\", \"蹭\", \"鬓\", \"抠\", \"蒿\", \"褂\", \"剐\", \"诉\", \"夭\", \"购\", \"燃\", \"宽\", \"缀\", \"存\", \"诙\", \"祸\", \"槌\", \"梦\", \"索\", \"坪\", \"―\", \"踢\", \"籁\", \"帷\", \"槛\", \"预\", \"旱\", \"缕\", \"绩\", \"ê\", \"暮\", \"柚\", \"纰\", \"骂\", \"锡\", \"掐\", \"颧\", \"溘\", \"涸\", \"雌\", \"进\", \"链\", \"巳\", \"宗\", \"町\", \"茂\", \"阅\", \"溶\", \"八\", \"渝\", \"杜\", \"迹\", \"图\", \"防\", \"亲\", \"薛\", \"觅\", \"聂\", \"抿\", \"橙\", \"蔽\", \"脂\", \"毋\", \"颊\", \"岩\", \"候\", \"云\", \"粹\", \"雍\", \"越\", \"扮\", \"当\", \"佳\", \"趴\", \"类\", \"耀\", \"荫\", \"待\", \"咳\", \"馄\", \"踌\", \"铸\", \"艳\", \"樱\", \"阮\", \"禽\", \"瑧\", \"涅\", \"苇\", \"纽\", \"劾\", \"饥\", \"棕\", \"褒\", \"橘\", \"娩\", \"慈\", \"馈\", \"鸭\", \"趣\", \"咦\", \"报\", \"库\", \"碑\", \"狭\", \"捆\", \"黏\", \"绣\", \"滥\", \"鲁\", \"V\", \"烯\", \"绿\", \"胡\", \"班\", \"旷\", \"卡\", \"们\", \"讦\", \"ό\", \"纨\", \"炝\", \"维\", \"慷\", \"莓\", \"缅\", \"葡\", \"绘\", \"瑶\", \"映\", \"巾\", \"枣\", \"澄\", \"梳\", \"晃\", \"皑\", \"观\", \"锅\", \"魁\", \"俑\", \"贺\", \"牲\", \"顾\", \"众\", \"脉\", \"屠\", \"哥\", \"节\", \"启\", \"盟\", \"撰\", \"塌\", \"烂\", \"颐\", \"胧\", \"厝\", \"\\u0000\", \"坛\", \"摹\", \"侈\", \"遏\", \"匆\", \"磅\", \"鲸\", \"寞\", \"颤\", \"惋\", \"南\", \"御\", \"餐\", \"穷\", \"肪\", \"沼\", \"à\", \"蚊\", \"轰\", \"续\", \"孟\", \"旌\", \"霜\", \"苏\", \"血\", \"必\", \"窗\", \"典\", \"偿\", \"夫\", \"猜\", \"骇\", \"溪\", \"蕃\", \"错\", \"镍\", \"刨\", \"殿\", \"跚\", \"窟\", \""\", \"氯\", \"湃\", \"斩\", \"冥\", \"受\", \"幼\", \"蹒\", \"概\", \"邃\", \"託\", \"蔚\", \"靴\", \"嘴\", \"诡\", \"枯\", \"身\", \"骚\", \"趾\", \"陈\", \"媲\", \"霹\", \"咆\", \"猩\", \"抒\", \"群\", \"厚\", \"园\", \"论\", \"飕\", \"符\", \"鹦\", \"垄\", \"播\", \"搁\", \"脏\", \"幸\", \"执\", \"捷\", \"睛\", \"客\", \"陵\", \"沥\", \"伯\", \"视\", \"喝\", \"愈\", \"柄\", \"耽\", \"促\", \"臧\", \"后\", \"庭\", \"秩\", \"尚\", \"贤\", \"掷\", \"厅\", \"呸\", \"捧\", \"描\", \"吹\", \"惧\", \"皖\", \"凸\", \"昭\", \" \", \"邪\", \"歌\", \"奢\", \"亭\", \"辕\", \"吾\", \"攸\", \"腭\", \"痕\", \"烬\", \"淼\", \"噱\", \"懂\", \"退\", \"拥\", \"渔\", \"灼\", \"蜘\", \"档\", \"睹\", \"瑟\", \"〞\", \"缆\", \"劳\", \"边\", \"辗\", \"內\", \"⑩\", \"唾\", \"僧\", \"醒\", \"螃\", \"张\", \"亏\", \"阁\", \"媚\", \"婉\", \"霈\", \"警\", \"谔\", \"俞\", \".\", \"割\", \"矛\", \"包\", \"晋\", \"焕\", \"忘\", \"恐\", \"式\", \"齐\", \"歹\", \"鄙\", \"独\", \"鲜\", \"村\", \"诧\", \"铭\", \"衣\", \"钊\", \"风\", \"瘀\", \"玳\", \"测\", \"廷\", \"睽\", \"愤\", \"版\", \"遥\", \"钜\", \"锒\", \"糯\", \"抽\", \"牵\", \"还\", \"娃\", \"悖\", \"疆\", \"叛\", \"匪\", \"窝\", \"伐\", \"玖\", \"镕\", \"翼\", \"〈\", \"咔\", \"杉\", \"萤\", \"寐\", \"征\", \"嗤\", \"碧\", \"双\", \"叶\", \"闪\", \"潢\", \"湿\", \"陇\", \"璀\", \"胀\", \"承\", \"鱼\", \"但\", \"唉\", \"讷\", \"侨\", \"旭\", \"亩\", \"黧\", \"夜\", \"已\", \"灸\", \"砌\", \"返\", \"饭\", \"鸿\", \"珏\", \"熨\", \"钝\", \"陀\", \"碾\", \"豚\", \"诟\", \"述\", \"橇\", \"瞪\", \"秀\", \"淞\", \"檀\", \"柏\", \"绵\", \"局\", \"淮\", \"丝\", \"鳌\", \"麽\", \"哦\", \"如\", \"烘\", \"闹\", \"猫\", \"砖\", \"钮\", \"痰\", \"帽\", \"籍\", \"难\", \"列\", \"顶\", \"钟\", \"举\", \"慎\", \"仲\", \"旦\", \"隧\", \"辛\", \"雯\", \"缄\", \"酒\", \"驶\", \"鼻\", \"悟\", \"缸\", \"几\", \"犀\", \"薩\", \"冽\", \"憔\", \"位\", \"未\", \"围\", \"摊\", \"圭\", \"瞄\", \"直\", \"菱\", \"巅\", \"丘\", \"歪\", \"镇\", \"犰\", \"偷\", \"涩\", \"恕\", \"歩\", \"槿\", \"衅\", \"织\", \"支\", \"傲\", \"仪\", \"闻\", \"交\", \"T\", \"庙\", \"梭\", \"修\", \"暗\", \"潜\", \"频\", \"+\", \"守\", \"尔\", \"瞠\", \"软\", \"靛\", \"憾\", \"私\", \"稀\", \"朱\", \"迈\", \"札\", \"校\", \"遐\", \"裔\", \"稣\", \"泌\", \"焙\", \"漪\", \"擤\", \"早\", \"報\", \"害\", \"慰\", \"限\", \"圆\", \"紊\", \"崽\", \"庸\", \"阴\", \"妓\", \"驴\", \"王\", \"飚\", \"磕\", \"抗\", \"淇\", \"息\", \"潇\", \"伟\", \"贞\", \"锐\", \"赞\", \"证\", \"怂\", \"亨\", \"埠\", \"昌\", \"篱\", \"练\", \"眠\", \"鹌\", \"揉\", \"碍\", \"去\", \"讽\", \"圳\", \"果\", \"廉\", \"雾\", \"措\", \"淄\", \"谍\", \"芹\", \"撅\", \"摞\", \"税\", \"妊\", \"烫\", \"涨\", \"怪\", \"课\", \"吕\", \"昧\", \"崩\", \"知\", \"融\", \"愚\", \"假\", \"唤\", \"拽\", \"侍\", \"幽\", \"滋\", \"猾\", \"畔\", \"仑\", \"A\", \"孪\", \"飓\", \"落\", \"任\", \"甸\", \"印\", \"芃\", \"瀑\", \"甲\", \"曹\", \"岸\", \"庐\", \"赶\", \"胃\", \"骑\", \"萨\", \"犹\", \"誓\", \"阐\", \"杨\", \"做\", \"薰\", \"伉\", \"由\", \"翁\", \"郝\", \"昊\", \"韩\", \"励\", \"庇\", \"昕\", \"呼\", \"青\", \"磺\", \"波\", \"焚\", \"棣\", \"丛\", \"于\", \"腾\", \"嘭\", \"罪\", \"喃\", \"懈\", \"麓\", \"寰\", \"璃\", \"夏\", \"怎\", \"棘\", \"配\", \"听\", \"晒\", \"汁\", \"恤\", \"策\", \"奎\", \"腕\", \"葆\", \"驿\", \"橄\", \"氧\", \"嫉\", \"舌\", \"蓦\", \"蓬\", \"占\", \"⑥\", \"悄\", \"闭\", \"唱\", \"酋\", \"步\", \"搂\", \"纤\", \"审\", \"尸\", \"揪\", \"敛\", \"界\", \"吭\", \"芥\", \"菊\", \"毡\", \"嚷\", \"]\", \"戢\", \"莞\", \"戮\", \"衍\", \"兄\", \"宸\", \"〔\", \"诵\", \"V\", \"膜\", \"责\", \"郭\", \"绰\", \"兽\", \"欲\", \"阔\", \"呦\", \"寇\", \"胎\", \"胰\", \"镑\", \"驮\", \"竣\", \"珀\", \"倩\", \"货\", \"疹\", \"刺\", \"茵\", \"拆\", \"\", \"咬\", \"满\", \"咪\", \"患\", \"嫩\", \"梨\", \"旧\", \"丫\", \"谀\", \"窘\", \"吮\", \"艾\", \"彪\", \"汗\", \"幕\", \"6\", \"器\", \"⒁\", \"互\", \"债\", \"寒\", \"两\", \"秉\", \"绉\", \"弈\", \"瞎\", \"杖\", \"锯\", \"窿\", \"皆\", \"转\", \"喇\", \"谋\", \"鸡\", \"彤\", \"侣\", \"似\", \"扔\", \"温\", \"噴\", \"写\", \"蕤\", \"垣\", \"衡\", \"况\", \"吓\", \"晴\", \"崇\", \"匿\", \"童\", \"嚣\", \"⒂\", \"朦\", \"─\", \"纳\", \"辈\", \"ヨ\", \"h\", \"专\", \"俄\", \"咨\", \"词\", \"愿\", \"历\", \"颂\", \"米\", \"升\", \"容\", \"灿\", \"魄\", \"超\", \"痊\", \"抛\", \"胁\", \"纾\", \"悯\", \"答\", \"膝\", \"焯\", \"淤\", \"剥\", \"艇\", \"裳\", \"从\", \"扫\", \"喽\", \"疮\", \"幻\", \"屋\", \"帆\", \"烛\", \"呛\", \"鞠\", \"⑨\", \"〉\", \"莹\", \"裙\", \"當\", \"谷\", \"飘\", \"扒\", \"倡\", \"酷\", \"麟\", \"药\", \"肥\", \"翕\", \"掳\", \"邓\", \"睡\", \"纵\", \"若\", \"诈\", \"蟋\", \"愣\", \"臂\", \"污\", \"逢\", \"扶\", \"嘻\", \"镜\", \"宴\", \"龄\", \"屁\", \"样\", \"漓\", \"逞\", \"浴\", \"峻\", \"逶\", \"熊\", \"疤\", \"動\", \"粪\", \"输\", \"礼\", \"克\", \"砸\", \"缓\", \"傥\", \"泱\", \"著\", \"吉\", \"C\", \"扁\", \"漱\", \"儿\", \"滢\", \"忌\", \"刚\", \"迁\", \"酥\", \"靶\", \"篓\", \"铜\", \"参\", \"楂\", \"攀\", \"盾\", \"夥\", \"矢\", \"捏\", \"俏\", \"⑦\", \"牙\", \"棱\", \"接\", \"犁\", \"楼\", \"并\", \"殆\", \"窍\", \"俺\", \"对\", \"⒌\", \"变\", \"猛\", \"蛮\", \"倚\", \"甚\", \"票\", \"诨\", \"靖\", \"摒\", \"燕\", \"~\", \"徒\", \"癜\", \"徇\", \"褚\", \"乖\", \"隋\", \"嫌\", \"襄\", \"忽\", \"雄\", \"嘿\", \"冻\", \"浠\", \"抚\", \"撐\", \"抬\", \"辰\", \"另\", \"津\", \"抑\", \"倍\", \"据\", \"耳\", \"俨\", \"之\", \"溜\", \"领\", \"瑥\", \"押\", \"膊\", \"曙\", \"久\", \"孱\", \"衫\", \"厦\", \"贼\", \"煞\", \"郡\", \"箱\", \"养\", \"及\", \"兮\", \"臭\", \"爽\", \"笆\", \"邀\", \"戒\", \"贩\", \"邱\", \"氢\", \"痹\", \"覆\", \"往\", \"请\", \"眶\", \"额\", \"脾\", \"快\", \"栖\", \"较\", \"矿\", \"後\", \"阻\", \"碗\", \"蹈\", \"坠\", \"攒\", \"篷\", \"跟\", \"崛\", \"嘱\", \"操\", \"牡\", \"积\", \"梵\", \"锌\", \"眉\", \"佘\", \"姐\", \"惠\", \"湾\", \"汇\", \"韬\", \"旺\", \"s\", \"副\", \"疲\", \"濒\", \"俱\", \"允\", \"设\", \"罢\", \"泣\", \"蘸\", \"言\", \"烃\", \"冉\", \"栅\", \"婴\", \"泪\", \"影\", \"茱\", \"父\", \"B\", \"秤\", \"尽\", \"1\", \"陶\", \"戚\", \"⑤\", \"口\", \"师\", \"诸\", \"捺\", \"努\", \"期\", \"适\", \"喘\", \"岂\", \"驭\", \"亮\", \"姿\", \"伺\", \"奥\", \"侄\", \"伪\", \"曲\", \"阀\", \"〃\", \"畿\", \"补\", \"谭\", \"诲\", \"稍\", \"喊\", \"壶\", \"茅\", \"菁\", \"遣\", \"架\", \"耕\", \"惬\", \"达\", \"旅\", \"郊\", \"婊\", \"酸\", \"蝌\", \"惕\", \"肺\", \"玉\", \"谊\", \"卻\", \"谁\", \"铄\", \"洼\", \"痒\", \"泡\", \"想\", \"萌\", \"黑\", \"挚\", \"Y\", \"麻\", \"垂\", \"农\", \"弱\", \"蛋\", \"除\", \"沛\", \"空\", \"脱\", \"ズ\", \"异\", \"赫\", \"脚\", \"淘\", \"疸\", \"看\", \"先\", \"帖\", \"酣\", \"栩\", \"é\", \"矫\", \"邢\", \"陷\", \"细\", \"碴\", \"款\", \"屿\", \"纲\", \"盖\", \"凌\", \"桢\", \"营\", \"喧\", \"繁\", \"黎\", \"蟑\", \"蘑\", \"宛\", \"闲\", \"簿\", \"⑿\", \"跻\", \"翔\", \"笋\", \"瓢\", \"徨\", \"哇\", \"士\", \"虹\", \"泰\", \"他\", \"铺\", \"奸\", \"翘\", \"瑑\", \"網\", \"红\", \"巍\", \"强\", \"猖\", \"∶\", \"吨\", \"乒\", \"辨\", \"氏\", \"饲\", \"隐\", \"罕\", \"揍\", \"翩\", \"换\", \"畑\", \"丑\", \"嫁\", \"荐\", \"邂\", \"闺\", \"挫\", \"邮\", \"援\", \"稿\", \"河\", \"泼\", \"鼓\", \"岁\", \"恋\", \"鹏\", \"暂\", \"聘\", \"甬\", \"為\", \"e\", \"烤\", \"谜\", \"僻\", \"舀\", \"差\", \"顷\", \"破\", \"芋\", \"租\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/ar": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 2813283, + "_n_tokens": 1422976, + "_n_chars": 1560987, + "_n_oov_chars": 767, + "oov_ratio": 0.0004913557896382225, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﷺ\", \"‎\", \"‌\", \"
\", \"�\", \"ﻹ\", \"\", \"ﻻ\", \"ﻷ\", \"½\", \"″\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/de": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1814876, + "_n_tokens": 680512, + "_n_chars": 1784021, + "_n_oov_chars": 497, + "oov_ratio": 0.00027858416464828607, + "_oov_charset": "[\"…\", \"​\", \"‎\", \"¹\", \"²\", \"´\", \"�\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/en": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1124813, + "_n_tokens": 280108, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"…\", \"​\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"�\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/es": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1664455, + "_n_tokens": 585804, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"\", \"ª\", \"″\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/fa": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 2054052, + "_n_tokens": 1142057, + "_n_chars": 1145876, + "_n_oov_chars": 7649, + "oov_ratio": 0.006675242347339502, + "_oov_charset": "[\"…\", \"​\", \"‏\", \"ﮧ\", \"‌\", \"‎\", \"�\", \"\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/fr": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1540504, + "_n_tokens": 540430, + "_n_chars": 1484970, + "_n_oov_chars": 839, + "oov_ratio": 0.0005649945790150643, + "_oov_charset": "[\"…\", \"µ\", \"²\", \"´\", \"�\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/ja": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1774770, + "_n_tokens": 591656, + "_n_chars": 603065, + "_n_oov_chars": 3351, + "oov_ratio": 0.0055566149585865535, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"\\b\", \"|\", \"ハ\", \"]\", \"�\", \"​\", \"ィ\", \"F\", \"-\", \"②\", \"S\", \"Q\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"n\", \"T\", \"X\", \"、\", \"g\", \"`\", \"/\", \"@\", \"s\", \"M\", \"「\", \"\\u001b\", \"´\", \"‼\", \"P\", \"<\", \"+\", \"H\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \" ̄\", \"w\", \"l\", \"d\", \";\", \")\", \"[\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \".\", \"C\", \"ウ\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"m\", \"リ\", \"L\", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"\\", \"⑧\", \"A\", \"&\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/ko": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 1524839, + "_n_tokens": 639258, + "_n_chars": 655190, + "_n_oov_chars": 1330, + "oov_ratio": 0.002029945511988889, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"樂\", \"ㅈ\", \"�\", \"ㅟ\", \"ㅋ\", \"ㅍ\", \"㎡\", \"ㅎ\", \"​\", \"ㆍ\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \"①\", \"ㅜ\", \"ㄹ\", \"\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"v\", \"識\", \"ㅆ\", \"s\", \"@\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"Ⅰ\", \"ㅅ\", \"⑤\", \"ㄱ\", \"累\", \"樂\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"ㅕ\", \"ㅛ\", \"ㅏ\", \"龍\", \"㉰\", \"Ⅱ\", \"ㅓ\", \"⑨\", \"℃\", \"」\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"ㅐ\", \"⑵\", \"ㅔ\", \"良\", \"ㅚ\", \"*\", \"㎍\", \"理\", \"梁\", \"Ⅲ\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"ㅝ\", \"¹\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"ㅖ\", \"⑦\", \"‎\", \"金\", \"ⅱ\", \"Ⅹ\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\"]", + "lossless": false + }, + "baichuan-inc/Baichuan-7B @ cc100/zh-Hans": { + "tokenizer": "baichuan", + "organization": "Baichuan", + "vocab_size": 64000, + "_n_bytes": 2633047, + "_n_tokens": 626117, + "_n_chars": 927311, + "_n_oov_chars": 24162, + "oov_ratio": 0.026055983375588124, + "_oov_charset": "[\"…\", \"%\", \".\", \"⑸\", \"⑥\", \""\", \"⒋\", \"_\", \"⑷\", \"③\", \"d\", \"C\", \"p\", \"・\", \"⑶\", \"\\b\", \"n\", \" \", \";\", \"T\", \")\", \"[\", \"⒁\", \"/\", \"t\", \"]\", \"�\", \"\\u0006\", \"⑨\", \"s\", \"℃\", \"\\u0005\", \"​\", \"⑦\", \"\\u0007\", \"-\", \"i\", \"②\", \" \", \"o\", \"⑩\", \"⑴\", \"⑤\", \"V\", \"+\", \"⒌\", \"⒃\", \"e\", \"⒀\", \"⒂\", \"①\", \"A\", \"⑧\", \"a\", \"&\", \"\", \"h\", \"r\", \"D\", \"⑿\", \"(\", \"N\", \"④\"]", + "lossless": false + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/ar": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 2813283, + "_n_tokens": 1337285, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/de": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1814876, + "_n_tokens": 628063, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/en": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1124813, + "_n_tokens": 269011, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/es": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1664455, + "_n_tokens": 551326, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/fa": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 2054052, + "_n_tokens": 1052077, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/fr": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1540504, + "_n_tokens": 512313, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/ja": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1774770, + "_n_tokens": 554936, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/ko": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 1524839, + "_n_tokens": 623358, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "baichuan-inc/Baichuan2-7B-Chat @ cc100/zh-Hans": { + "tokenizer": "baichuan2", + "organization": "Baichuan", + "vocab_size": 125696, + "_n_bytes": 2633047, + "_n_tokens": 541464, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/ar": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 2813283, + "_n_tokens": 427489, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/de": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1814876, + "_n_tokens": 541170, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/en": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1124813, + "_n_tokens": 257405, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/es": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1664455, + "_n_tokens": 350793, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/fa": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 2054052, + "_n_tokens": 434406, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/fr": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1540504, + "_n_tokens": 321639, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/ja": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1774770, + "_n_tokens": 523592, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/ko": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 1524839, + "_n_tokens": 742111, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "bigscience/bloom @ cc100/zh-Hans": { + "tokenizer": "bloom", + "organization": "BigScience", + "vocab_size": 250680, + "_n_bytes": 2633047, + "_n_tokens": 573008, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "ckiplab/gpt2-base-chinese @ cc100/ar": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 2813283, + "_n_tokens": 597677, + "_n_chars": 1560987, + "_n_oov_chars": 308846, + "oov_ratio": 0.19785302504120791, + "_oov_charset": "[\"﴾\", \"😀\", \"–\", \"ِ\", \"إ\", \"”\", \"R\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"C\", \"‬\", \"٩\", \"à\", \"ُ\", \"‏\", \"ک\", \"؛\", \"W\", \"ث\", \"ق\", \"\", \"ﻻ\", \"ز\", \"ﻷ\", \"ج\", \"…\", \"
\", \"ف\", \"‘\", \"ص\", \"U\", \"ﷺ\", \"ۚ\", \"’\", \"â\", \"٪\", \"I\", \"😊\", \"ٱ\", \"،\", \"٣\", \"۸\", \"B\", \"E\", \"Z\", \"T\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ح\", \"۲\", \"M\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"L\", \"ئ\", \"P\", \"ْ\", \"Х\", \"ί\", \"ٌ\", \"“\", \"۰\", \"خ\", \"H\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"Y\", \"أ\", \"َ\", \"¡\", \"٨\", \"؟\", \"K\", \"é\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"X\", \"⤴\", \"ء\", \"F\", \"S\", \"۷\", \"ή\", \"D\", \"ٹ\", \"A\", \"ٰ\", \"N\", \"ى\", \"G\", \"—\", \"غ\", \"٢\", \"Q\", \"ö\", \"٦\", \"‎\", \" \", \"O\", \"ط\", \"پ\", \"ً\", \"ٍ\", \"ّ\", \"ä\", \"٧\", \"↩\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/de": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1814876, + "_n_tokens": 766497, + "_n_chars": 1784021, + "_n_oov_chars": 112920, + "oov_ratio": 0.06329521905852005, + "_oov_charset": "[\"😀\", \"û\", \"–\", \"è\", \"č\", \"”\", \"R\", \"�\", \"ė\", \"V\", \"🙁\", \"J\", \"​\", \"ó\", \"C\", \"¿\", \"🙄\", \"á\", \"‐\", \"ā\", \"ń\", \"ć\", \"à\", \"W\", \"„\", \"İ\", \"̈\", \"ô\", \"…\", \"😉\", \"‘\", \"U\", \"Ü\", \"’\", \"â\", \"I\", \"Á\", \"Ö\", \"B\", \"E\", \"Z\", \"´\", \"T\", \"\", \"½\", \"M\", \"š\", \"ç\", \"L\", \"Ø\", \"Ä\", \"P\", \"ί\", \"œ\", \"“\", \"H\", \"≠\", \"ư\", \" \", \"Y\", \"`\", \"­\", \"ï\", \"😃\", \"‽\", \"K\", \"➔\", \"é\", \"😈\", \"🙂\", \"X\", \"F\", \"S\", \"ü\", \"¬\", \"D\", \"ớ\", \"😆\", \"A\", \"😢\", \"N\", \"å\", \"“\", \"G\", \"Ã\", \"—\", \"Q\", \"É\", \"ö\", \"¶\", \"‎\", \"😦\", \"Ÿ\", \"O\", \"–\", \"‚\", \"ú\", \"ä\", \"↩\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/en": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1124813, + "_n_tokens": 372641, + "_n_chars": 1121360, + "_n_oov_chars": 32716, + "oov_ratio": 0.02917528715131626, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"😉\", \"‘\", \"“\", \"“\", \"–\", \"è\", \"H\", \"U\", \"G\", \"—\", \"¦\", \"”\", \"‑\", \"R\", \"Y\", \"’\", \"Q\", \"😥\", \"�\", \"¡\", \"ï\", \"ñ\", \"I\", \"”\", \"V\", \"J\", \"​\", \"\", \"K\", \"ó\", \"B\", \"E\", \"é\", \"Z\", \"C\", \"´\", \"T\", \"O\", \"🙂\", \"X\", \"M\", \"F\", \"S\", \"W\", \"D\", \"L\", \"\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/es": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1664455, + "_n_tokens": 683390, + "_n_chars": 1630297, + "_n_oov_chars": 71320, + "oov_ratio": 0.043746630215230724, + "_oov_charset": "[\"A\", \"…\", \"😀\", \"▷\", \"Ú\", \"N\", \"P\", \"😉\", \"Ñ\", \"‘\", \"М\", \"“\", \"‘\", \"–\", \"è\", \"H\", \"U\", \"G\", \"—\", \"👏\", \"”\", \"í\", \"―\", \"R\", \"Y\", \"Ó\", \"Q\", \"’\", \"É\", \"ö\", \"­\", \"¡\", \"ñ\", \"I\", \"ª\", \"️\", \"Á\", \"V\", \"🙁\", \"J\", \"K\", \"ó\", \"✓\", \"é\", \"E\", \"B\", \"´\", \"C\", \"Z\", \"😦\", \"T\", \"O\", \"á\", \"¿\", \"X\", \"🙂\", \"ò\", \"ý\", \"M\", \"à\", \"F\", \"S\", \"ú\", \"ü\", \"W\", \"D\", \"\", \"„\", \"L\", \"Í\", \"’\", \"ô\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/fa": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 2054052, + "_n_tokens": 386174, + "_n_chars": 1145876, + "_n_oov_chars": 272812, + "oov_ratio": 0.2380816074339632, + "_oov_charset": "[\"۹\", \"–\", \"ۆ\", \"ِ\", \"إ\", \"”\", \"R\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"C\", \"ב\", \"٩\", \"ُ\", \"‏\", \"ک\", \"؛\", \"۶\", \"۴\", \"W\", \"ث\", \"ق\", \"\", \"ز\", \"ج\", \"ט\", \"…\", \"ف\", \"‘\", \"۔\", \"ژ\", \"‍\", \"ص\", \"U\", \"ۀ\", \"ے\", \"’\", \"ڪ\", \"٪\", \"۳\", \"I\", \"️\", \"،\", \"٣\", \"۸\", \"B\", \"E\", \"Z\", \"T\", \"ی\", \"ذ\", \"ح\", \"۲\", \"M\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"L\", \"٫\", \"ئ\", \"P\", \"ْ\", \"ٌ\", \"“\", \"۰\", \"خ\", \"H\", \"٠\", \"ٴ\", \"ؤ\", \"Y\", \"ض\", \"١\", \"أ\", \"َ\", \"­\", \"٨\", \"؟\", \"K\", \"ٔ\", \"آ\", \"ظ\", \"X\", \"▐\", \"ء\", \"F\", \"S\", \"۷\", \"D\", \"A\", \"N\", \"ى\", \"۵\", \"G\", \"غ\", \"۱\", \"٢\", \"Q\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"O\", \"ط\", \"پ\", \"ً\", \"ٍ\", \"ﮧ\", \"ّ\", \"٧\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/fr": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1540504, + "_n_tokens": 616442, + "_n_chars": 1484970, + "_n_oov_chars": 74085, + "oov_ratio": 0.049889896765591225, + "_oov_charset": "[\"A\", \"…\", \"😀\", \"Ê\", \"N\", \"P\", \"😉\", \"̂\", \"û\", \"♕\", \"…\", \"ù\", \"̧\", \"‘\", \"œ\", \"Ç\", \"“\", \"–\", \"è\", \"H\", \"ğ\", \"U\", \"G\", \"—\", \"🤔\", \"Â\", \"”\", \"í\", \"―\", \"È\", \"R\", \"Y\", \"’\", \"Q\", \"î\", \"â\", \"É\", \"�\", \"­\", \"ï\", \"ê\", \"I\", \"ë\", \"V\", \"J\", \"K\", \"Î\", \"B\", \"é\", \"E\", \"Z\", \"C\", \"´\", \"ã\", \"T\", \"O\", \"🙂\", \"‐\", \"X\", \"M\", \"à\", \"Ô\", \"F\", \"S\", \"ü\", \"ç\", \"W\", \"ä\", \"À\", \"D\", \"L\", \"’\", \"ô\", \"́\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/ja": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1774770, + "_n_tokens": 483085, + "_n_chars": 603065, + "_n_oov_chars": 53110, + "oov_ratio": 0.08806679213683434, + "_oov_charset": "[\"⑪\", \"戯\", \"G\", \"繊\", \"だ\", \"鋭\", \"–\", \"\\b\", \"摂\", \"俵\", \"ハ\", \"◯\", \"”\", \"噛\", \"😭\", \"R\", \"欝\", \"が\", \"�\", \"騒\", \"錬\", \"喩\", \"V\", \"勲\", \"J\", \"訃\", \"​\", \"犠\", \"惣\", \"轢\", \"F\", \"ィ\", \"プ\", \"⇔\", \"暦\", \"C\", \"繍\", \"S\", \"‐\", \"痩\", \"鶏\", \"😌\", \"Q\", \"ド\", \"斉\", \"R\", \"囁\", \"W\", \"曽\", \"パ\", \"\", \"逡\", \"ご\", \"〟\", \"ガ\", \"砕\", \"罠\", \"ゼ\", \"̈\", \"で\", \"…\", \"レ\", \"ぎ\", \"▷\", \"ゥ\", \"縦\", \"ㅂ\", \"ゎ\", \"ピ\", \"〆\", \"ぱ\", \"ぽ\", \"頬\", \"げ\", \"桟\", \"呑\", \"U\", \"捗\", \"U\", \"ぞ\", \"T\", \"ゴ\", \"X\", \"’\", \"讃\", \"ベ\", \"粋\", \"\", \"髭\", \"ゲ\", \"謳\", \"Д\", \"M\", \"デ\", \"I\", \"😊\", \"縞\", \"猟\", \"ボ\", \"じ\", \"\\u001b\", \"捜\", \"B\", \"E\", \"醤\", \"Z\", \"´\", \"‼\", \"T\", \"P\", \"疎\", \"づ\", \"拝\", \"M\", \"殻\", \"躾\", \"遡\", \"ペ\", \"纒\", \"H\", \"辿\", \"蝋\", \"I\", \"ブ\", \"呟\", \"懐\", \"グ\", \"✧\", \"L\", \"渕\", \"コ\", \"㎞\", \"拠\", \"́\", \"拶\", \"E\", \"陥\", \"匂\", \"壌\", \"P\", \"∇\", \"ぷ\", \"ぶ\", \"ぐ\", \"枠\", \"掻\", \"韮\", \"“\", \"顕\", \"︎\", \"ダ\", \"H\", \"袴\", \"び\", \"暁\", \"ぜ\", \"ゞ\", \"―\", \"漑\", \"Ⅱ\", \"゚\", \"Y\", \"`\", \"麹\", \"W\", \"渓\", \"ズ\", \"峠\", \"̀\", \"バ\", \"ヨ\", \"⻑\", \"渇\", \"ぴ\", \"覗\", \"瘻\", \"K\", \"剰\", \"ポ\", \"ヘ\", \" \", \"メ\", \"挿\", \"艶\", \"穏\", \"鞄\", \"ヵ\", \"ど\", \"噂\", \"Ⅶ\", \"X\", \"ぼ\", \"贔\", \"謡\", \"ば\", \"ぅ\", \"兎\", \"屓\", \"揺\", \"テ\", \"﨑\", \"F\", \"J\", \"S\", \"黙\", \"D\", \"ロ\", \"藁\", \"Z\", \"D\", \"N\", \"贋\", \"A\", \"艸\", \"😢\", \"ギ\", \"N\", \"娯\", \"ざ\", \"酔\", \"缶\", \"◡\", \"鋲\", \"釈\", \"C\", \"ウ\", \"飴\", \"G\", \"ア\", \"—\", \"ゾ\", \"賛\", \"K\", \"Y\", \"B\", \"Q\", \"醸\", \"讐\", \"ず\", \"ぉ\", \"梱\", \"🌙\", \"妬\", \"鉢\", \"彡\", \"ヴ\", \"ジ\", \"繰\", \"リ\", \"゙\", \"奨\", \"詈\", \"L\", \"O\", \"簗\", \"舘\", \"V\", \"蛍\", \"汚\", \"廻\", \"Ⅹ\", \"筈\", \"ビ\", \"ザ\", \"べ\", \"饉\", \"鉱\", \"A\", \"澪\", \"巣\", \"ヾ\", \"砦\", \"カ\", \"O\", \"💦\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/ko": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 1524839, + "_n_tokens": 1035974, + "_n_chars": 655190, + "_n_oov_chars": 441054, + "oov_ratio": 0.6731696149208627, + "_oov_charset": "[\"먼\", \"ᴇ\", \"셔\", \"버\", \"증\", \"량\", \"웅\", \"석\", \"옆\", \"깽\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"C\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"댈\", \"녀\", \"남\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"콘\", \"홈\", \"험\", \"분\", \"직\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"콥\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"것\", \"새\", \"곰\", \"룹\", \"🚨\", \"🗺\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"틀\", \"봉\", \"왠\", \"섦\", \"겁\", \"낀\", \"혁\", \"판\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"롱\", \"얏\", \"팍\", \"힉\", \"댔\", \"쌍\", \"높\", \"쾅\", \"굽\", \"더\", \"줏\", \"보\", \"긍\", \"쌈\", \"폿\", \"닳\", \"닷\", \"젝\", \"겨\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"🔹\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"챗\", \"\", \"궜\", \"낳\", \"꺽\", \"맥\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"융\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"웍\", \"K\", \"퀸\", \"뀔\", \"면\", \"X\", \"끄\", \"할\", \"홋\", \"뗀\", \"툼\", \"흐\", \"룩\", \"ㅇ\", \"문\", \"슷\", \"不\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"퀘\", \"라\", \"◐\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"맵\", \"킹\", \"광\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"틋\", \"헛\", \"머\", \"염\", \"겔\", \"째\", \"밌\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"‍\", \"월\", \"U\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"E\", \"귤\", \"쏠\", \"릭\", \"헌\", \"🙋\", \"앗\", \"코\", \"L\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"훼\", \"척\", \"쵸\", \"🍟\", \"ㅙ\", \"재\", \"충\", \"왔\", \"떳\", \"떻\", \"채\", \"삘\", \"얽\", \"웬\", \"찌\", \"➍\", \"주\", \"푸\", \"맺\", \"🏫\", \"찮\", \"템\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"잇\", \"뇌\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"칼\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"ㄱ\", \"닮\", \"싼\", \"동\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"꾀\", \"갇\", \"챨\", \"돼\", \"네\", \"S\", \"헤\", \"D\", \"껑\", \"샹\", \"퀵\", \"푹\", \"튀\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"렇\", \"ㅝ\", \"테\", \"핍\", \"헨\", \"창\", \"🍔\", \"곳\", \"포\", \"걱\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"궐\", \"릉\", \"힜\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"향\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"뻤\", \"땐\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"투\", \"ᴍ\", \"Ⅰ\", \"응\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"화\", \"넵\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"캘\", \"폰\", \"곤\", \"🥁\", \"개\", \"윗\", \"ʏ\", \"축\", \"Q\", \"듀\", \"봅\", \"◦\", \"밟\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"협\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"💦\", \"올\", \"취\", \"켰\", \"틱\", \"”\", \"흰\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"밍\", \"캉\", \"넛\", \"돗\", \"숏\", \"걀\", \"득\", \"🌵\", \"밭\", \"팠\", \"쁜\", \"륜\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"긋\", \"력\", \"ㅅ\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"🍰\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"졸\", \"엣\", \"칠\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"N\", \"넥\", \"냥\", \"—\", \"젠\", \"뻑\", \"닙\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"ㅎ\", \"빅\", \"쿨\", \"뒷\", \"쨍\", \"🙆\", \"쾨\", \"침\", \"🚿\", \"요\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"년\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"Z\", \"듣\", \"찔\", \"켓\", \"열\", \"즌\", \"태\", \"樂\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"습\", \"럭\", \"H\", \"랙\", \"길\", \"탬\", \"잤\", \" \", \"줌\", \"딱\", \"장\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"과\", \"꿕\", \"였\", \"G\", \"위\", \"숙\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"넘\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"J\", \"촌\", \"뮌\", \"빌\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"W\", \"ㄹ\", \"꼬\", \"핏\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"쒀\", \"공\", \"🙇\", \"토\", \"죄\", \"골\", \"쁘\", \"빔\", \"뾱\", \"ç\", \"준\", \"슴\", \"쩍\", \"얄\", \"퓨\", \"뚝\", \"킥\", \"벽\", \"➋\", \"데\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"靑\", \"내\", \"陸\", \"줍\", \"톱\", \"온\", \"킁\", \"을\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"🍭\", \"펠\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"썅\", \"훠\", \"탄\", \"두\", \"꽂\", \"…\", \"쏘\", \"궁\", \"‘\", \"팽\", \"톡\", \"🦄\", \"져\", \"칫\", \"I\", \"돈\", \"탕\", \"삶\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"쓴\", \"벳\", \"틈\", \"빕\", \"옷\", \"턴\", \"❍\", \"폼\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"멋\", \"삿\", \"틔\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"F\", \"썹\", \"➏\", \"놈\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"좌\", \"쿠\", \"떠\", \"낮\", \"굉\", \"터\", \"🤟\", \"닥\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"툴\", \"램\", \"앎\", \"M\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"찢\", \"뺀\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"에\", \"좋\", \"O\", \"벤\", \"뚜\", \"택\", \"운\", \"뛸\", \"얼\", \"벙\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"고\", \"했\", \"퍽\", \"뮬\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"켜\", \"꽝\", \"😱\", \"왜\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"깡\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"옮\", \"펩\", \"맑\", \"혀\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"캣\", \"鎭\", \"`\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"쯔\", \"결\", \"엇\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"표\", \"몹\", \"‎\", \"담\", \"뽑\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"Ⅹ\", \"며\", \"힌\", \"텝\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"킬\", \"씽\", \"😭\", \"R\", \"맬\", \"기\", \"팡\", \"핥\", \"및\", \"맨\", \"큰\", \"륨\", \"훈\", \"렛\", \"펑\", \"효\", \"볕\", \"흙\", \"각\", \"체\", \"링\", \"벼\", \"륵\", \"콰\", \"槪\", \"꿰\", \"탑\", \"빤\", \"타\", \"국\", \"많\", \"卽\", \"낸\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"샴\", \"P\", \"쫑\", \"읽\", \"앞\", \"늬\", \"츈\", \"픈\", \"―\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"ᴛ\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"샬\", \"덤\", \"멍\", \"튄\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"⑹\", \"곁\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"멘\", \"👏\", \"감\", \"識\", \"텨\", \"😊\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"럿\", \"엽\", \"숟\", \"브\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"\", \"췄\", \"질\", \"햇\", \"춘\", \"쿼\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"홍\", \"시\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"껴\", \"곱\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"뮤\", \"랐\", \"족\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"T\", \"닌\", \"累\", \"후\", \"늑\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"웨\", \"휙\", \"당\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"푼\", \"워\", \"💰\", \"싯\", \"A\", \"먹\", \"🍞\", \"굴\", \"뭔\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \" \", \"널\", \"콤\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"😣\", \"정\", \"꼴\", \"쭙\", \"–\", \"떴\", \"규\", \"군\", \"줬\", \"樂\", \"앱\", \"V\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"뻐\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"밤\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"❏\", \"잼\", \"쭈\", \"컸\", \"쫄\", \"몸\", \"“\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"­\", \"란\", \"몽\", \"넓\", \"혐\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"💅\", \"됬\", \"멀\", \"든\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"유\", \"서\", \"누\", \"삐\", \"쿰\", \"된\", \"처\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"’\", \"휩\", \"훑\", \"황\", \"역\", \"웠\", \"셰\", \"렬\", \"B\", \"눕\", \"씻\", \"익\", \"찼\", \"얇\", \"팀\", \"펄\", \"뷔\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"Y\", \"샐\", \"독\", \"꿍\", \"춥\", \"㉿\", \"얹\", \"자\", \"끼\", \"땠\", \"ㅐ\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"ʟ\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "ckiplab/gpt2-base-chinese @ cc100/zh-Hans": { + "tokenizer": "gpt2-base-chinese", + "organization": "SINICA", + "vocab_size": 21128, + "_n_bytes": 2633047, + "_n_tokens": 879506, + "_n_chars": 927311, + "_n_oov_chars": 34029, + "oov_ratio": 0.0366964265494532, + "_oov_charset": "[\"浠\", \"ù\", \"牖\", \"–\", \"\\b\", \"鄯\", \"瑥\", \"篢\", \"”\", \"龇\", \"R\", \"逑\", \"î\", \"黩\", \"�\", \"戢\", \"旆\", \"\", \"V\", \"J\", \"​\", \"\\u0000\", \"\", \"C\", \"韫\", \"á\", \"à\", \"穰\", \"犟\", \"ὐ\", \"W\", \"\", \"…\", \"浞\", \"‘\", \"黢\", \"U\", \"狳\", \"\", \"T\", \"倨\", \"⒁\", \"绉\", \"’\", \"\", \"I\", \"屣\", \"犰\", \"阽\", \"瑢\", \"镏\", \"疴\", \"B\", \"E\", \"Z\", \"岣\", \"T\", \"鸩\", \"\", \"M\", \"⒃\", \"⒂\", \"瑒\", \"ç\", \"L\", \"Ø\", \"旳\", \"擤\", \"P\", \"馕\", \"“\", \"韪\", \"H\", \"鲎\", \" \", \"―\", \"Y\", \"`\", \"ズ\", \"ê\", \"ě\", \"K\", \"溘\", \"é\", \" \", \"X\", \"F\", \"⒀\", \"S\", \"D\", \"D\", \"⑿\", \"N\", \"翕\", \"A\", \"N\", \"耩\", \"C\", \"G\", \"瑑\", \"—\", \"瑧\", \"Q\", \"锒\", \"ㄓ\", \"\\u0006\", \"猡\", \"\", \"\\u0005\", \"瑨\", \"\\u0007\", \"鼯\", \"O\", \"啐\", \"V\", \"⒌\", \"诨\", \"讦\", \"ό\", \"A\", \"炝\", \"黧\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/ar": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 2813283, + "_n_tokens": 601762, + "_n_chars": 1560987, + "_n_oov_chars": 308495, + "oov_ratio": 0.1976281673069667, + "_oov_charset": "[\"﴾\", \"😀\", \"–\", \"ِ\", \"إ\", \"”\", \"R\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"©\", \"C\", \"‬\", \"٩\", \"à\", \"ُ\", \"‏\", \"ک\", \"؛\", \"↩\", \"W\", \"ث\", \"ق\", \"\", \"ﻻ\", \"ز\", \"ﻷ\", \"ج\", \"…\", \"
\", \"ف\", \"ص\", \"U\", \"ﷺ\", \"ۚ\", \"’\", \"â\", \"٪\", \"I\", \"😊\", \"ٱ\", \"،\", \"٣\", \"۸\", \"B\", \"E\", \"Z\", \"T\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ح\", \"۲\", \"M\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"L\", \"ئ\", \"P\", \"ْ\", \"Х\", \"ί\", \"ٌ\", \"▪\", \"۰\", \"خ\", \"H\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"Y\", \"أ\", \"َ\", \"¡\", \"٨\", \"؟\", \"K\", \"é\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"X\", \"⤴\", \"ء\", \"F\", \"S\", \"۷\", \"ή\", \"D\", \"ٹ\", \"A\", \"ٰ\", \"N\", \"ى\", \"G\", \"—\", \"غ\", \"٢\", \"Q\", \"ö\", \"٦\", \"‎\", \" \", \"O\", \"ط\", \"پ\", \"ً\", \"ٍ\", \"▫\", \"ّ\", \"♥\", \"ä\", \"٧\", \"®\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/de": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1814876, + "_n_tokens": 895612, + "_n_chars": 1784021, + "_n_oov_chars": 112169, + "oov_ratio": 0.06287425988819638, + "_oov_charset": "[\"😀\", \"û\", \"–\", \"è\", \"č\", \"”\", \"R\", \"�\", \"ė\", \"V\", \"🙁\", \"J\", \"​\", \"ó\", \"©\", \"C\", \"¿\", \"🙄\", \"á\", \"‐\", \"ā\", \"ń\", \"ć\", \"à\", \"W\", \"„\", \"İ\", \"̈\", \"ô\", \"…\", \"😉\", \"U\", \"Ü\", \"’\", \"☺\", \"â\", \"I\", \"Á\", \"♦\", \"Ö\", \"B\", \"E\", \"Z\", \"´\", \"T\", \"\", \"½\", \"M\", \"š\", \"ç\", \"L\", \"Ø\", \"Ä\", \"P\", \"ί\", \"œ\", \"™\", \"H\", \"≠\", \"ư\", \" \", \"Y\", \"`\", \"­\", \"ï\", \"😃\", \"‽\", \"K\", \"➔\", \"é\", \"😈\", \"🙂\", \"X\", \"F\", \"S\", \"ü\", \"¬\", \"D\", \"ớ\", \"😆\", \"A\", \"😢\", \"N\", \"❤\", \"å\", \"“\", \"G\", \"Ã\", \"—\", \"Q\", \"É\", \"ö\", \"¶\", \"‎\", \"😦\", \"Ÿ\", \"😂\", \"O\", \"–\", \"‚\", \"♥\", \"ú\", \"ä\", \"↩\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/en": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1124813, + "_n_tokens": 563058, + "_n_chars": 1121360, + "_n_oov_chars": 32541, + "oov_ratio": 0.029019226653349505, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"😉\", \"“\", \"–\", \"è\", \"H\", \"U\", \"G\", \"—\", \"¦\", \"”\", \"‑\", \"R\", \"Y\", \"’\", \"Q\", \"😥\", \"�\", \"¡\", \"ï\", \"ñ\", \"I\", \"”\", \"V\", \"J\", \"​\", \"\", \"K\", \"ó\", \"B\", \"E\", \"é\", \"Z\", \"C\", \"´\", \"T\", \"O\", \"🙂\", \"X\", \"M\", \"F\", \"S\", \"W\", \"D\", \"L\", \"\", \"®\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/es": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1664455, + "_n_tokens": 846564, + "_n_chars": 1630297, + "_n_oov_chars": 70604, + "oov_ratio": 0.0433074464346067, + "_oov_charset": "[\"A\", \"…\", \"😀\", \"▷\", \"Ú\", \"N\", \"P\", \"😉\", \"❤\", \"😦\", \"Ñ\", \"М\", \"‘\", \"–\", \"è\", \"H\", \"U\", \"G\", \"—\", \"👏\", \"”\", \"í\", \"―\", \"R\", \"Y\", \"Ó\", \"Q\", \"’\", \"É\", \"ö\", \"­\", \"¡\", \"ñ\", \"I\", \"ª\", \"️\", \"Á\", \"V\", \"✖\", \"🙁\", \"J\", \"K\", \"ó\", \"✓\", \"©\", \"é\", \"E\", \"B\", \"´\", \"C\", \"Z\", \"✔\", \"T\", \"O\", \"á\", \"¿\", \"X\", \"🙂\", \"ò\", \"ý\", \"M\", \"à\", \"F\", \"S\", \"ú\", \"ü\", \"W\", \"D\", \"\", \"👍\", \"L\", \"Í\", \"’\", \"„\", \"®\", \"ô\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/fa": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 2054052, + "_n_tokens": 387763, + "_n_chars": 1145876, + "_n_oov_chars": 272804, + "oov_ratio": 0.2380746258757492, + "_oov_charset": "[\"۹\", \"–\", \"ۆ\", \"ِ\", \"إ\", \"”\", \"R\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"©\", \"C\", \"ב\", \"٩\", \"ُ\", \"‏\", \"ک\", \"؛\", \"۶\", \"۴\", \"W\", \"ث\", \"ق\", \"\", \"ز\", \"ج\", \"ט\", \"…\", \"ف\", \"۔\", \"ژ\", \"‍\", \"ص\", \"U\", \"ۀ\", \"ے\", \"’\", \"ڪ\", \"٪\", \"۳\", \"I\", \"️\", \"،\", \"٣\", \"۸\", \"B\", \"E\", \"Z\", \"T\", \"ی\", \"ذ\", \"ح\", \"۲\", \"M\", \"ك\", \"٥\", \"ش\", \"٤\", \"‌\", \"L\", \"٫\", \"ئ\", \"P\", \"ْ\", \"ٌ\", \"۰\", \"خ\", \"H\", \"٠\", \"ٴ\", \"ؤ\", \"Y\", \"ض\", \"١\", \"أ\", \"َ\", \"­\", \"٨\", \"؟\", \"K\", \"ٔ\", \"آ\", \"ظ\", \"X\", \"▐\", \"ء\", \"F\", \"S\", \"۷\", \"D\", \"A\", \"N\", \"ى\", \"❤\", \"۵\", \"G\", \"غ\", \"۱\", \"٢\", \"Q\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"O\", \"ط\", \"پ\", \"ً\", \"ٍ\", \"ﮧ\", \"ّ\", \"♥\", \"٧\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/fr": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1540504, + "_n_tokens": 767363, + "_n_chars": 1484970, + "_n_oov_chars": 74057, + "oov_ratio": 0.0498710411658148, + "_oov_charset": "[\"A\", \"…\", \"😀\", \"Ê\", \"N\", \"P\", \"😉\", \"❤\", \"û\", \"♕\", \"…\", \"ù\", \"̂\", \"̧\", \"œ\", \"Ç\", \"–\", \"è\", \"H\", \"ğ\", \"♠\", \"U\", \"G\", \"—\", \"🤔\", \"Â\", \"”\", \"í\", \"―\", \"È\", \"R\", \"Y\", \"’\", \"Q\", \"î\", \"â\", \"É\", \"�\", \"­\", \"ï\", \"ê\", \"I\", \"ë\", \"V\", \"J\", \"K\", \"Î\", \"B\", \"é\", \"E\", \"Z\", \"C\", \"´\", \"™\", \"T\", \"O\", \"🙂\", \"‐\", \"X\", \"ã\", \"M\", \"à\", \"Ô\", \"F\", \"S\", \"ü\", \"ç\", \"W\", \"ä\", \"À\", \"D\", \"L\", \"’\", \"®\", \"ô\", \"́\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/ja": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1774770, + "_n_tokens": 319411, + "_n_chars": 603065, + "_n_oov_chars": 415300, + "oov_ratio": 0.6886488189498644, + "_oov_charset": "[\"臨\", \"償\", \"補\", \"馳\", \"ぬ\", \"懸\", \"緒\", \"鐘\", \"際\", \"樺\", \"摂\", \"\\b\", \"姦\", \"◯\", \"納\", \"嶽\", \"噛\", \"ろ\", \"監\", \"熱\", \"塵\", \"幣\", \"が\", \"閑\", \"倫\", \"麗\", \"ム\", \"況\", \"​\", \"嘆\", \"ィ\", \"塊\", \"F\", \"⇔\", \"閉\", \"締\", \"C\", \"紋\", \"詩\", \"請\", \"S\", \"‐\", \"貴\", \"諏\", \"機\", \"餃\", \"う\", \"糞\", \"測\", \"て\", \"馬\", \"貨\", \"斉\", \"貢\", \"輝\", \"陣\", \"パ\", \"漬\", \"財\", \"係\", \"ガ\", \"釣\", \"窮\", \"諦\", \"診\", \"腎\", \"認\", \"…\", \"レ\", \"ぎ\", \"▷\", \"詳\", \"ゎ\", \"ぱ\", \"ぽ\", \"頬\", \"桟\", \"託\", \"偽\", \"n\", \"T\", \"ゴ\", \"X\", \"ホ\", \"ケ\", \"課\", \"奪\", \"g\", \"靄\", \"髭\", \"輿\", \"M\", \"I\", \"飽\", \"濫\", \"😊\", \"換\", \"ぁ\", \"猟\", \"き\", \"ボ\", \"\\u001b\", \"´\", \"‼\", \"✨\", \"P\", \"づ\", \"儲\", \"腸\", \"灘\", \"憲\", \"ち\", \"園\", \"斬\", \"遡\", \"H\", \"賃\", \"か\", \"堅\", \"載\", \"恥\", \"減\", \"競\", \"I\", \"呟\", \"凱\", \"コ\", \"郵\", \"に\", \"́\", \"拶\", \"f\", \"陥\", \"軌\", \"離\", \"墾\", \"導\", \"ぶ\", \"複\", \"喚\", \"曇\", \"講\", \"へ\", \"練\", \"Ⅱ\", \"職\", \"彌\", \"麹\", \"ォ\", \"無\", \"y\", \"倉\", \"銀\", \"b\", \"ト\", \"⻑\", \"興\", \"る\", \"紛\", \"敗\", \"艶\", \"チ\", \"鞄\", \"ど\", \"遜\", \"Ⅶ\", \"ば\", \"ァ\", \"訟\", \"絡\", \"テ\", \"F\", \"霧\", \"標\", \"賭\", \"紡\", \"猶\", \"綱\", \"須\", \"セ\", \"電\", \"貫\", \"燭\", \"謀\", \"❤\", \"缶\", \"類\", \"◡\", \"誌\", \"誤\", \"揚\", \"問\", \"爾\", \"塚\", \"篤\", \"飴\", \"ア\", \"ソ\", \"見\", \"ゾ\", \"訓\", \"線\", \"ル\", \"買\", \"Y\", \"Q\", \"キ\", \"腫\", \"醸\", \"t\", \"誠\", \"駕\", \"ぉ\", \"業\", \"産\", \"m\", \"愛\", \"妬\", \"楓\", \"執\", \"責\", \"ョ\", \"繰\", \"譚\", \"ン\", \"識\", \"掛\", \"門\", \"貸\", \"L\", \"頭\", \"塗\", \"損\", \"議\", \"蛍\", \"轄\", \"ぇ\", \"ザ\", \"傾\", \"書\", \"嘩\", \"臥\", \"A\", \"韓\", \"這\", \"純\", \"籠\", \"終\", \"巣\", \"蓋\", \"鯖\", \"カ\", \"💦\", \"は\", \"i\", \"み\", \"頓\", \"欽\", \"ア\", \"ほ\", \"週\", \"僅\", \"悶\", \"滲\", \"決\", \"ラ\", \"較\", \"軍\", \"艦\", \"聖\", \"風\", \"淵\", \"”\", \"縛\", \"織\", \"欝\", \"彙\", \"復\", \"膿\", \"盤\", \"�\", \"呂\", \"紀\", \"綺\", \"騙\", \"尋\", \"闊\", \"資\", \"訃\", \"プ\", \"遺\", \"繍\", \"確\", \"ャ\", \"達\", \"鍋\", \"唄\", \"Q\", \"ド\", \"訂\", \"渦\", \"曽\", \"っ\", \"鍵\", \"獄\", \"\", \"蒔\", \"を\", \"纏\", \"頃\", \"編\", \"ゼ\", \"贅\", \"ミ\", \"鮮\", \"飛\", \"ピ\", \"馴\", \"薩\", \"餌\", \"薦\", \"鴻\", \"呑\", \"選\", \"捗\", \"慶\", \"そ\", \"賞\", \"フ\", \"喪\", \"衝\", \"頒\", \"讃\", \"墳\", \"ベ\", \"製\", \"粋\", \"ゲ\", \"謳\", \"磯\", \"デ\", \"緻\", \"紗\", \"輩\", \"誕\", \"餓\", \"闖\", \"じ\", \"ヒ\", \"鳥\", \"飯\", \"え\", \"組\", \"蘇\", \"創\", \"輪\", \"貿\", \"駐\", \"T\", \"鍛\", \"採\", \"つ\", \"計\", \"隊\", \"貶\", \"謂\", \"M\", \"ツ\", \"躾\", \"棄\", \"辿\", \"謬\", \"國\", \"橋\", \"連\", \"✧\", \"襲\", \"張\", \"㎞\", \"ゃ\", \"視\", \"憶\", \"階\", \"脈\", \"筆\", \"E\", \"報\", \"庫\", \"態\", \"ぐ\", \"枠\", \"韮\", \"ス\", \"d\", \"鉛\", \"開\", \"ダ\", \"た\", \"れ\", \"試\", \"ー\", \"び\", \"ぜ\", \"エ\", \"厭\", \"ワ\", \"飾\", \"ノ\", \"騰\", \"飲\", \"余\", \"バ\", \"渇\", \"時\", \"慣\", \"於\", \"ぴ\", \"賀\", \"場\", \"K\", \"剰\", \"談\", \"遼\", \"メ\", \"異\", \"贔\", \"細\", \"X\", \"屓\", \"揺\", \"の\", \"J\", \"黙\", \"輸\", \"養\", \"違\", \"棟\", \"ノ\", \"顔\", \"シ\", \"N\", \"銃\", \"帳\", \"贋\", \"A\", \"艸\", \"諾\", \"寧\", \"N\", \"紐\", \"い\", \"ギ\", \"ざ\", \"鳴\", \"釈\", \"脅\", \"欄\", \"婦\", \"曖\", \"環\", \"孫\", \"鎮\", \"—\", \"ヲ\", \"陰\", \"K\", \"潰\", \"ヘ\", \"潔\", \"ず\", \"讐\", \"梱\", \"鉢\", \"強\", \"銘\", \"礎\", \"穫\", \"給\", \"謄\", \"訣\", \"贈\", \"O\", \"軟\", \"級\", \"誹\", \"汚\", \"膚\", \"澤\", \"k\", \"筈\", \"ビ\", \"タ\", \"牽\", \"饉\", \"ィ\", \"還\", \"ま\", \"鉱\", \"債\", \"運\", \"貝\", \"澪\", \"砦\", \"憤\", \"範\", \"貼\", \"棲\", \"審\", \"戯\", \"ふ\", \"話\", \"譜\", \"く\", \"サ\", \"だ\", \"鋭\", \"適\", \"あ\", \"協\", \"–\", \"夢\", \"俵\", \"お\", \"語\", \"聞\", \"遙\", \"顧\", \"ね\", \"瘍\", \"ら\", \"錠\", \"ヽ\", \"綜\", \"謙\", \"謗\", \"喩\", \"と\", \"傷\", \"V\", \"ゅ\", \"惣\", \"額\", \"涼\", \"阪\", \"誘\", \"暦\", \"遠\", \"凍\", \"痩\", \"鶏\", \"維\", \"ゆ\", \"ッ\", \"R\", \"ゝ\", \"針\", \"擬\", \"カ\", \"ご\", \"〟\", \"趨\", \"砕\", \"罠\", \"録\", \"で\", \"難\", \"許\", \"預\", \"縦\", \"ㅂ\", \"絆\", \"ゥ\", \"湯\", \"勢\", \"滅\", \"顎\", \"U\", \"貯\", \"慮\", \"漢\", \"箋\", \"\", \"員\", \"購\", \"緩\", \"け\", \"ェ\", \"マ\", \"噴\", \"評\", \"E\", \"醤\", \"ク\", \"Z\", \"煩\", \"裏\", \"疎\", \"華\", \"誇\", \"飢\", \"貧\", \"輔\", \"ペ\", \"餅\", \"宮\", \"釘\", \"現\", \"ブ\", \"a\", \"懐\", \"h\", \"L\", \"わ\", \"題\", \"ヤ\", \"鈴\", \"築\", \"ヨ\", \"r\", \"掃\", \"該\", \"コ\", \"壌\", \"羅\", \"賠\", \"オ\", \"嗚\", \"w\", \"l\", \"ぷ\", \"掻\", \"療\", \"︎\", \"駿\", \"H\", \"務\", \"ゞ\", \"災\", \"飼\", \"漑\", \"`\", \"嚥\", \"結\", \"啓\", \"討\", \"島\", \"軸\", \"こ\", \"濃\", \"覗\", \"ヘ\", \"ポ\", \"侶\", \" \", \"擁\", \"o\", \"閲\", \"糧\", \"噂\", \"僕\", \"隕\", \"幹\", \"ぅ\", \"遊\", \"種\", \"賊\", \"・\", \"墜\", \"﨑\", \"貞\", \"紙\", \"綻\", \"Z\", \"動\", \"😢\", \"槍\", \"訴\", \"娯\", \"傑\", \"諸\", \"別\", \"著\", \"C\", \"潤\", \"G\", \"ウ\", \"さ\", \"驚\", \"B\", \"鏡\", \"冊\", \"併\", \"頂\", \"紅\", \"ひ\", \"🌙\", \"獲\", \"ニ\", \"緊\", \"傘\", \"頑\", \"ジ\", \"リ\", \"億\", \"跡\", \"奨\", \"陽\", \"緑\", \"賑\", \"詈\", \"疇\", \"設\", \"綾\", \"簗\", \"憑\", \"嘗\", \"嵐\", \"よ\", \"Ⅹ\", \"詮\", \"べ\", \"親\", \"憂\", \"頻\", \"應\", \"罵\", \"縫\", \"ヾ\", \"護\", \"®\", \"O\", \"漁\", \"側\", \"謎\", \"⑪\", \"領\", \"G\", \"繊\", \"壇\", \"質\", \"長\", \"記\", \"訪\", \"偉\", \"ハ\", \"車\", \"😭\", \"R\", \"も\", \"詞\", \"騒\", \"錬\", \"頷\", \"せ\", \"勲\", \"J\", \"穀\", \"節\", \"犠\", \"轢\", \"詰\", \"個\", \"間\", \"©\", \"鱈\", \"緯\", \"賢\", \"陸\", \"😌\", \"覆\", \"ん\", \"絶\", \"囁\", \"過\", \"W\", \"農\", \"撲\", \"逡\", \"ぃ\", \"幾\", \"龍\", \"̈\", \"躊\", \"規\", \"簡\", \"〆\", \"醜\", \"げ\", \"調\", \"め\", \"販\", \"U\", \"ぞ\", \"聾\", \"積\", \"殺\", \"錯\", \"費\", \"’\", \"訊\", \"撫\", \"儀\", \"ナ\", \"s\", \"モ\", \"Д\", \"縞\", \"雲\", \"師\", \"ヶ\", \"捨\", \"葉\", \"B\", \"順\", \"誰\", \"績\", \"ロ\", \"項\", \"拝\", \"勝\", \"瞭\", \"摯\", \"殻\", \"準\", \"蝋\", \"纒\", \"紹\", \"な\", \"ハ\", \"閣\", \"備\", \"軒\", \"渕\", \"グ\", \"極\", \"拠\", \"鎖\", \"徹\", \"ネ\", \"穢\", \"罰\", \"貪\", \"匂\", \"駒\", \"P\", \"し\", \"∇\", \"鵜\", \"り\", \"暢\", \"顕\", \"す\", \"樹\", \"則\", \"殲\", \"袴\", \"斂\", \"響\", \"後\", \"謝\", \"願\", \"暁\", \"礫\", \"―\", \"゚\", \"Y\", \"説\", \"W\", \"渓\", \"優\", \"ズ\", \"衆\", \"峠\", \"̀\", \"ヨ\", \"詐\", \"瘻\", \"ょ\", \"暫\", \"負\", \"鬱\", \"リ\", \"挿\", \"約\", \"穏\", \"捜\", \"論\", \"ヵ\", \"敵\", \"慄\", \"ぼ\", \"諺\", \"煙\", \"兎\", \"窪\", \"謡\", \"層\", \"テ\", \"ヌ\", \"懇\", \"S\", \"蓮\", \"並\", \"む\", \"陳\", \"D\", \"ロ\", \"藁\", \"閃\", \"D\", \"綴\", \"沖\", \"や\", \"懲\", \"軋\", \"鶴\", \"糾\", \"統\", \"酔\", \"魚\", \"訝\", \"鋲\", \"虜\", \"鈍\", \"ウ\", \"縮\", \"ユ\", \"網\", \"義\", \"岡\", \"イ\", \"賛\", \"詠\", \"綬\", \"絞\", \"絨\", \"佇\", \"揮\", \"劉\", \"術\", \"躍\", \"彡\", \"ヴ\", \"乾\", \"ゥ\", \"進\", \"貰\", \"゙\", \"メ\", \"劇\", \"楊\", \"詫\", \"フ\", \"東\", \"V\", \"舘\", \"廻\", \"習\", \"為\", \"e\", \"奮\", \"偵\", \"レ\", \"衛\", \"館\", \"ュ\", \"構\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/ko": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 1524839, + "_n_tokens": 206812, + "_n_chars": 655190, + "_n_oov_chars": 484068, + "oov_ratio": 0.7388208000732612, + "_oov_charset": "[\"먼\", \"ᴇ\", \"셔\", \"버\", \"증\", \"량\", \"禮\", \"鐘\", \"웅\", \"樺\", \"석\", \"옆\", \"깽\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"C\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"機\", \"댈\", \"녀\", \"남\", \"係\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"v\", \"콘\", \"經\", \"홈\", \"험\", \"분\", \"직\", \"廟\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"콥\", \"쬐\", \"듬\", \"쫓\", \"봄\", \"ㅣ\", \"교\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"육\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"說\", \"것\", \"새\", \"곰\", \"룹\", \"🚨\", \"🗺\", \"標\", \"㎍\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"겁\", \"낀\", \"혁\", \"판\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"吳\", \"關\", \"롱\", \"얏\", \"팍\", \"힉\", \"댔\", \"は\", \"쌍\", \"높\", \"쾅\", \"굽\", \"더\", \"줏\", \"보\", \"淨\", \"긍\", \"쌈\", \"폿\", \"紀\", \"닳\", \"닷\", \"資\", \"젝\", \"겨\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"츠\", \"텔\", \"💣\", \"🔹\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"そ\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"융\", \"國\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"贖\", \"飾\", \"웍\", \"K\", \"퀸\", \"뀔\", \"면\", \"X\", \"諒\", \"끄\", \"할\", \"홋\", \"뗀\", \"툼\", \"흐\", \"룩\", \"ㅇ\", \"문\", \"슷\", \"不\", \"陰\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"퀘\", \"라\", \"◐\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"맵\", \"킹\", \"광\", \"語\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"틋\", \"헛\", \"머\", \"염\", \"겔\", \"째\", \"밌\", \"콩\", \"♤\", \"쉬\", \"놨\", \"궈\", \"濁\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"滅\", \"‍\", \"월\", \"U\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"E\", \"귤\", \"쏠\", \"릭\", \"華\", \"헌\", \"🙋\", \"앗\", \"코\", \"L\", \"題\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"외\", \"노\", \"쥐\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"結\", \"삣\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"種\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"훼\", \"척\", \"쵸\", \"🍟\", \"驚\", \"ㅙ\", \"재\", \"충\", \"왔\", \"떳\", \"떻\", \"채\", \"삘\", \"얽\", \"웬\", \"찌\", \"®\", \"➍\", \"주\", \"푸\", \"長\", \"맺\", \"🏫\", \"찮\", \"템\", \"立\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"류\", \"냐\", \"©\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"잇\", \"뇌\", \"獻\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"칼\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"ㄱ\", \"닮\", \"俠\", \"♀\", \"싼\", \"동\", \"極\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"춰\", \"뇨\", \"훔\", \"차\", \"꾀\", \"갇\", \"챨\", \"돼\", \"네\", \"S\", \"헤\", \"陳\", \"D\", \"團\", \"껑\", \"샹\", \"퀵\", \"푹\", \"魚\", \"튀\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"렇\", \"ㅝ\", \"테\", \"術\", \"핍\", \"헨\", \"창\", \"🍔\", \"곳\", \"포\", \"걱\", \"發\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"烏\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"궐\", \"릉\", \"힜\", \"氣\", \"퓰\", \"쳤\", \"꿈\", \"ã\", \"술\", \"꼭\", \"향\", \"て\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"뻤\", \"땐\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"투\", \"ᴍ\", \"Ⅰ\", \"載\", \"응\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"깨\", \"잘\", \"롤\", \"堯\", \"화\", \"넵\", \"銀\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"캘\", \"폰\", \"곤\", \"❤\", \"類\", \"🥁\", \"개\", \"윗\", \"壽\", \"ʏ\", \"축\", \"Q\", \"듀\", \"봅\", \"業\", \"獨\", \"◦\", \"밟\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"협\", \"書\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"💦\", \"올\", \"취\", \"軍\", \"켰\", \"틱\", \"”\", \"흰\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"濟\", \"밍\", \"캉\", \"넛\", \"돗\", \"숏\", \"걀\", \"득\", \"🌵\", \"밭\", \"팠\", \"選\", \"쁜\", \"륜\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"對\", \"긋\", \"력\", \"ㅅ\", \"駐\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"🍰\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"헬\", \"졸\", \"엣\", \"칠\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"N\", \"넥\", \"냥\", \"—\", \"젠\", \"뻑\", \"닙\", \"탱\", \"뜩\", \"씩\", \"있\", \"믐\", \"들\", \"켄\", \"았\", \"뮐\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"♥\", \"잔\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"適\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"ㅎ\", \"빅\", \"쿨\", \"뒷\", \"쨍\", \"🙆\", \"쾨\", \"침\", \"🚿\", \"요\", \"蟄\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"ㄴ\", \"윤\", \"짧\", \"년\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"員\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"Z\", \"듣\", \"찔\", \"켓\", \"열\", \"즌\", \"태\", \"宮\", \"樂\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"습\", \"럭\", \"H\", \"랙\", \"길\", \"탬\", \"잤\", \" \", \"줌\", \"딱\", \"장\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"과\", \"꿕\", \"였\", \"G\", \"위\", \"숙\", \"횡\", \"쎄\", \"둡\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"陽\", \"雙\", \"넘\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"관\", \"뜻\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"J\", \"節\", \"촌\", \"뮌\", \"빌\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"W\", \"ㄹ\", \"꼬\", \"龍\", \"핏\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"쒀\", \"공\", \"🙇\", \"토\", \"臺\", \"죄\", \"골\", \"쁘\", \"빔\", \"뾱\", \"ç\", \"준\", \"슴\", \"罰\", \"쩍\", \"얄\", \"퓨\", \"뚝\", \"峴\", \"킥\", \"벽\", \"➋\", \"데\", \"價\", \"謝\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"論\", \"짱\", \"펙\", \"댁\", \"슬\", \"쁨\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"靑\", \"내\", \"陸\", \"줍\", \"詔\", \"會\", \"톱\", \"온\", \"▶\", \"將\", \"킁\", \"을\", \"😂\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"끔\", \"뀐\", \"덟\", \"합\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"韜\", \"🍭\", \"펠\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"紋\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"덧\", \"띈\", \"혈\", \"썅\", \"훠\", \"탄\", \"窮\", \"두\", \"꽂\", \"…\", \"쏘\", \"궁\", \"팽\", \"톡\", \"🦄\", \"緞\", \"져\", \"實\", \"칫\", \"I\", \"돈\", \"換\", \"탕\", \"삶\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"學\", \"쓴\", \"벳\", \"틈\", \"빕\", \"옷\", \"👍\", \"턴\", \"❍\", \"폼\", \"離\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"無\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"誡\", \"F\", \"썹\", \"➏\", \"놈\", \"燭\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"愛\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"門\", \"좌\", \"쿠\", \"떠\", \"頭\", \"낮\", \"臥\", \"굉\", \"터\", \"🤟\", \"닥\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"鮮\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"貿\", \"툴\", \"램\", \"앎\", \"M\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"時\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"에\", \"좋\", \"O\", \"벤\", \"뚜\", \"택\", \"운\", \"뛸\", \"얼\", \"벙\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"協\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"體\", \"고\", \"했\", \"퍽\", \"뮬\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"켜\", \"꽝\", \"😱\", \"왜\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"깡\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"옮\", \"펩\", \"맑\", \"혀\", \"現\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"캣\", \"鎭\", \"`\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"紙\", \"쯔\", \"壞\", \"결\", \"엇\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"‎\", \"담\", \"뽑\", \"✔\", \"희\", \"픽\", \"랫\", \"생\", \"확\", \"번\", \"Ⅹ\", \"며\", \"힌\", \"텝\", \"應\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"킬\", \"씽\", \"😭\", \"R\", \"맬\", \"기\", \"팡\", \"핥\", \"穀\", \"및\", \"맨\", \"큰\", \"륨\", \"間\", \"훈\", \"렛\", \"펑\", \"효\", \"農\", \"볕\", \"흙\", \"각\", \"체\", \"링\", \"參\", \"벼\", \"륵\", \"專\", \"殺\", \"콰\", \"槪\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"師\", \"국\", \"變\", \"많\", \"卽\", \"낸\", \"☀\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"P\", \"し\", \"쫑\", \"읽\", \"앞\", \"늬\", \"す\", \"츈\", \"픈\", \"―\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"ᴛ\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"히\", \"씌\", \"욜\", \"풀\", \"詠\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"衛\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"際\", \"魯\", \"샬\", \"덤\", \"멍\", \"튄\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"⑹\", \"곁\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"멘\", \"👏\", \"감\", \"課\", \"識\", \"텨\", \"😊\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"모\", \"빴\", \"켈\", \"릿\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"럿\", \"엽\", \"숟\", \"브\", \"內\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"쿵\", \"\", \"췄\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"貸\", \"홍\", \"시\", \"韓\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"껴\", \"곱\", \"聖\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"료\", \"형\", \"뮤\", \"랐\", \"족\", \"울\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"T\", \"닌\", \"累\", \"후\", \"늑\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"웨\", \"휙\", \"당\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"푼\", \"워\", \"💰\", \"싯\", \"A\", \"먹\", \"🍞\", \"い\", \"굴\", \"뭔\", \"핑\", \"받\", \"찍\", \"숲\", \"피\", \"듐\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \" \", \"널\", \"콤\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"😣\", \"정\", \"꼴\", \"쭙\", \"–\", \"떴\", \"규\", \"군\", \"줬\", \"樂\", \"앱\", \"V\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"뻐\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"勢\", \"밤\", \"漢\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"❏\", \"잼\", \"쭈\", \"컸\", \"쫄\", \"몸\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"­\", \"란\", \"몽\", \"넓\", \"혐\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"・\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"動\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"💅\", \"됬\", \"멀\", \"든\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"유\", \"서\", \"누\", \"삐\", \"쿰\", \"된\", \"처\", \"♣\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"數\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"覆\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"’\", \"휩\", \"훑\", \"황\", \"역\", \"s\", \"웠\", \"셰\", \"렬\", \"雲\", \"B\", \"눕\", \"씻\", \"익\", \"軒\", \"찼\", \"얇\", \"팀\", \"펄\", \"뷔\", \"진\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"樹\", \"後\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"Y\", \"샐\", \"독\", \"꿍\", \"춥\", \"㉿\", \"얹\", \"자\", \"끼\", \"땠\", \"ㅐ\", \"린\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"뿜\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"뎅\", \"넨\", \"東\", \"ʟ\", \"燦\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "clue/roberta_chinese_clue_tiny @ cc100/zh-Hans": { + "tokenizer": "roberta-chinese-clue", + "organization": "CLUE", + "vocab_size": 8021, + "_n_bytes": 2633047, + "_n_tokens": 887144, + "_n_chars": 927311, + "_n_oov_chars": 31257, + "oov_ratio": 0.03370713816616001, + "_oov_charset": "[\"浠\", \"撐\", \"ù\", \"牖\", \"–\", \"\\b\", \"鄯\", \"瑥\", \"篢\", \"”\", \"龇\", \"R\", \"彙\", \"逑\", \"î\", \"黩\", \"�\", \"戢\", \"旆\", \"\", \"據\", \"V\", \"資\", \"J\", \"​\", \"\\u0000\", \"\", \"麽\", \"個\", \"©\", \"阪\", \"C\", \"韫\", \"á\", \"確\", \"覆\", \"à\", \"穰\", \"犟\", \"ὐ\", \"W\", \"\", \"…\", \"浞\", \"漲\", \"藉\", \"薩\", \"p\", \"娛\", \"託\", \"號\", \"n\", \"選\", \"U\", \"狳\", \"\", \"T\", \"黢\", \"倨\", \"⒁\", \"绉\", \"慮\", \"’\", \"\", \"亂\", \"員\", \"s\", \"I\", \"屣\", \"犰\", \"阽\", \"瑢\", \"镏\", \"疴\", \"噴\", \"B\", \"E\", \"Z\", \"岣\", \"T\", \"採\", \"鸩\", \"\", \"M\", \"⒃\", \"⒂\", \"瑒\", \"ç\", \"a\", \"h\", \"L\", \"r\", \"ヨ\", \"Ø\", \"旳\", \"擤\", \"報\", \"P\", \"馕\", \"d\", \"▪\", \"價\", \"權\", \"卻\", \"H\", \"韪\", \"後\", \" \", \"鲎\", \"へ\", \"―\", \"Y\", \"`\", \"ズ\", \"ノ\", \"余\", \"ト\", \"賣\", \"當\", \"ê\", \"時\", \"ě\", \"於\", \"K\", \"溘\", \"é\", \" \", \"o\", \"內\", \"X\", \"・\", \"の\", \"F\", \"⒀\", \"標\", \"S\", \"並\", \"D\", \"D\", \"⑿\", \"N\", \"シ\", \"翕\", \"動\", \"A\", \"電\", \"N\", \"別\", \"著\", \"耩\", \"C\", \"G\", \"瑑\", \"—\", \"瑧\", \"網\", \"ソ\", \"イ\", \"Q\", \"t\", \"锒\", \"ㄓ\", \"併\", \"\\u0006\", \"猡\", \"\", \"\\u0005\", \"瑨\", \"強\", \"\\u0007\", \"乾\", \"劑\", \"鼯\", \"灑\", \"壓\", \"門\", \"メ\", \"O\", \"損\", \"啐\", \"V\", \"⒌\", \"發\", \"為\", \"诨\", \"e\", \"讦\", \"ό\", \"A\", \"運\", \"炝\", \"黧\", \"i\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/ar": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 2813283, + "_n_tokens": 2066944, + "_n_chars": 1560987, + "_n_oov_chars": 202, + "oov_ratio": 0.00012940530574565964, + "_oov_charset": "[\"…\", \"ﷺ\", \"ﻹ\", \"ﻻ\", \"ﻷ\", \"½\", \"″\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/de": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1814876, + "_n_tokens": 845425, + "_n_chars": 1784021, + "_n_oov_chars": 457, + "oov_ratio": 0.0002561629039120055, + "_oov_charset": "[\"…\", \"¹\", \"²\", \"´\", \"™\", \"½\", \" \", \"¼\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/en": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1124813, + "_n_tokens": 391092, + "_n_chars": 1121360, + "_n_oov_chars": 59, + "oov_ratio": 5.261468217164871e-05, + "_oov_charset": "[\"…\", \"⑦\", \"‑\", \"③\", \"⑧\", \"´\", \"⑩\", \"⑤\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/es": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1664455, + "_n_tokens": 759244, + "_n_chars": 1630297, + "_n_oov_chars": 528, + "oov_ratio": 0.0003238673689517922, + "_oov_charset": "[\"…\", \"º\", \"²\", \"´\", \"ª\", \"″\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/fa": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 2054052, + "_n_tokens": 1588140, + "_n_chars": 1145876, + "_n_oov_chars": 605, + "oov_ratio": 0.0005279803399320694, + "_oov_charset": "[\"…\", \"ﮧ\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/fr": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1540504, + "_n_tokens": 686144, + "_n_chars": 1484970, + "_n_oov_chars": 833, + "oov_ratio": 0.0005609540933486872, + "_oov_charset": "[\"…\", \"µ\", \"²\", \"´\", \"™\", \"℃\", \"″\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/ja": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1774770, + "_n_tokens": 253868, + "_n_chars": 603065, + "_n_oov_chars": 6917, + "oov_ratio": 0.011469742067604653, + "_oov_charset": "[\"%\", \"⑪\", \"G\", \"|\", \"ハ\", \"]\", \"7\", \"ィ\", \"8\", \"F\", \"-\", \"②\", \"S\", \",\", \"Q\", \":\", \"$\", \"R\", \">\", \"①\", \"″\", \"…\", \"レ\", \"ゥ\", \"ㅂ\", \"_\", \"③\", \"゙\", \"・\", \"U\", \"6\", \"n\", \"T\", \"X\", \"、\", \"3\", \"g\", \"`\", \"/\", \"@\", \"s\", \"M\", \"「\", \"¥\", \"´\", \"‼\", \"1\", \"P\", \"<\", \"+\", \"9\", \"H\", \"5\", \"I\", \"a\", \"h\", \"コ\", \"r\", \"㎞\", \"E\", \"④\", \"f\", \"0\", \" ̄\", \"w\", \"l\", \"d\", \";\", \")\", \"[\", \"Ⅱ\", \"W\", \"y\", \"b\", \"℃\", \"ヨ\", \"」\", \"ヘ\", \" \", \"o\", \"メ\", \"⑩\", \"Ⅶ\", \"テ\", \"゚\", \"J\", \"*\", \"ロ\", \"Z\", \"D\", \"ノ\", \"(\", \"N\", \".\", \"C\", \"ウ\", \"2\", \"ア\", \"‥\", \"。\", \"K\", \"=\", \"Y\", \"B\", \"t\", \"!\", \"m\", \"リ\", \"?\", \"L\", \"ー\", \"フ\", \"V\", \"^\", \"Ⅹ\", \"k\", \"e\", \"4\", \"\\", \"⑧\", \"A\", \"&\", \"~\", \"カ\", \"O\", \"i\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/ko": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 1524839, + "_n_tokens": 1379975, + "_n_chars": 655190, + "_n_oov_chars": 1311, + "oov_ratio": 0.0020009462903890474, + "_oov_charset": "[\"%\", \"⑥\", \"Ⅳ\", \"㉣\", \"立\", \"|\", \"樂\", \"ㅈ\", \"ㅟ\", \"ㅋ\", \"ㅍ\", \"㎡\", \"ㅎ\", \"ㆍ\", \"Ⅸ\", \"ⅰ\", \"②\", \"²\", \"⑴\", \"⑹\", \"Ⅷ\", \"⁴\", \"ㅞ\", \":\", \"①\", \"ㅜ\", \"ㄹ\", \"…\", \"ⓔ\", \"ㅗ\", \"ㄴ\", \"㎥\", \"③\", \"ㅡ\", \"流\", \"ㄷ\", \"⑶\", \"v\", \"識\", \"ㅆ\", \"s\", \"@\", \"Ⅴ\", \"「\", \"ㅁ\", \"靈\", \"ㅠ\", \"㏊\", \"Ⅰ\", \"ㅅ\", \"⑤\", \"ㄱ\", \"累\", \"樂\", \"ㅣ\", \"㎞\", \"④\", \"⑸\", \"ㅕ\", \"ㅛ\", \"ㅏ\", \"龍\", \"㉰\", \"Ⅱ\", \"ㅓ\", \"⑨\", \"℃\", \"」\", \"ㅑ\", \"․\", \"ㅒ\", \" \", \"ⅳ\", \"Ⅶ\", \"ㅐ\", \"⑵\", \"ㅔ\", \"良\", \"ㅚ\", \"*\", \"㎍\", \"理\", \"梁\", \"Ⅲ\", \"陸\", \"ㅇ\", \"‥\", \"ⅲ\", \"不\", \"ⓒ\", \"ㅝ\", \"¹\", \"㉠\", \"㈜\", \"ㅘ\", \"ㅙ\", \"ㅖ\", \"⑦\", \"?\", \"金\", \"ⅱ\", \"Ⅹ\", \"⑧\", \"ㅊ\", \"女\", \"Ⅵ\", \"ㅢ\"]", + "lossless": false + }, + "cyberagent/open-calm-7b @ cc100/zh-Hans": { + "tokenizer": "open-calm-7b", + "organization": "CyberAgent", + "vocab_size": 52000, + "_n_bytes": 2633047, + "_n_tokens": 1073991, + "_n_chars": 927311, + "_n_oov_chars": 49167, + "oov_ratio": 0.05302104687639853, + "_oov_charset": "[\"…\", \"%\", \".\", \"⑸\", \"⑥\", \""\", \"⒋\", \"_\", \"0\", \"⑷\", \"③\", \"d\", \"C\", \"p\", \"・\", \"2\", \"⑶\", \"n\", \"6\", \" \", \";\", \"T\", \")\", \"[\", \"⒁\", \"3\", \"/\", \"t\", \"]\", \"!\", \"⑨\", \"s\", \"℃\", \"7\", \"\\u0000\", \"⑦\", \"?\", \"-\", \"8\", \"i\", \"②\", \" \", \"o\", \"⑩\", \"⑴\", \"1\", \"⑤\", \",\", \"V\", \"+\", \"⒌\", \"9\", \":\", \"⒃\", \"e\", \"4\", \"⒀\", \"5\", \"⒂\", \"①\", \"A\", \"⑧\", \"a\", \"&\", \"~\", \"h\", \"r\", \"D\", \"⑿\", \"(\", \"N\", \"④\"]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/ar": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 2813283, + "_n_tokens": 1105640, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/de": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1814876, + "_n_tokens": 500870, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/en": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1124813, + "_n_tokens": 254985, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/es": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1664455, + "_n_tokens": 433875, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/fa": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 2054052, + "_n_tokens": 818067, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/fr": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1540504, + "_n_tokens": 412685, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/ja": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1774770, + "_n_tokens": 630348, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/ko": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 1524839, + "_n_tokens": 652277, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "databricks/dbrx-instruct @ cc100/zh-Hans": { + "tokenizer": "dbrx-instruct", + "organization": "Databricks", + "vocab_size": 100280, + "_n_bytes": 2633047, + "_n_tokens": 1084939, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/ar": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 2813283, + "_n_tokens": 309525, + "_n_chars": 1560987, + "_n_oov_chars": 1353707, + "oov_ratio": 0.86721221893584, + "_oov_charset": "[\"﴾\", \"😀\", \"ة\", \"ِ\", \"إ\", \"R\", \"ن\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"█\", \"C\", \"‬\", \"٩\", \"à\", \"‏\", \"ُ\", \"ک\", \"ت\", \"؛\", \"W\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ﻻ\", \"ﻷ\", \"ج\", \"″\", \"…\", \"
\", \"ف\", \"ص\", \"U\", \"ﷺ\", \"ۚ\", \"â\", \"ع\", \"٪\", \"I\", \"😊\", \"ٱ\", \"τ\", \"،\", \"٣\", \"۸\", \"س\", \"B\", \"E\", \"Z\", \"T\", \"ۗ\", \"ی\", \"½\", \"ذ\", \"ه\", \"ح\", \"M\", \"ك\", \"۲\", \"٥\", \"ش\", \"٤\", \"‌\", \"﴿\", \"L\", \"ئ\", \"P\", \"ا\", \"ْ\", \"Х\", \"ί\", \"ٌ\", \"▪\", \"۰\", \"خ\", \"H\", \"٠\", \"ۖ\", \"ؤ\", \"١\", \"ض\", \"Y\", \"أ\", \"َ\", \"κ\", \"٨\", \"؟\", \"ي\", \"ل\", \"η\", \"K\", \"é\", \"ۤ\", \"ﻹ\", \"آ\", \"ظ\", \"🙂\", \"X\", \"⤴\", \"ء\", \"←\", \"F\", \"S\", \"ب\", \"۷\", \"ή\", \"D\", \"ٹ\", \"A\", \"›\", \"ٰ\", \"N\", \"ى\", \"ر\", \"G\", \"غ\", \"‹\", \"٢\", \"Q\", \"ö\", \"٦\", \"‎\", \" \", \"O\", \"ط\", \"م\", \"پ\", \"ً\", \"χ\", \"ٍ\", \"▫\", \"ّ\", \"♥\", \"ä\", \"و\", \"٧\", \"↩\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/de": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1814876, + "_n_tokens": 382494, + "_n_chars": 1784021, + "_n_oov_chars": 111497, + "oov_ratio": 0.06249758270782687, + "_oov_charset": "[\"😀\", \"û\", \"è\", \"č\", \"R\", \"�\", \"ė\", \"▼\", \"V\", \"🙁\", \"J\", \"​\", \"ó\", \"²\", \"C\", \"¿\", \"🙄\", \"á\", \"‐\", \"ā\", \"ń\", \"ć\", \"à\", \"W\", \"„\", \"İ\", \"̈\", \"ô\", \"…\", \"😉\", \"U\", \"Ü\", \"☺\", \"â\", \"I\", \"Á\", \"τ\", \"♦\", \"Ö\", \"B\", \"E\", \"Z\", \"´\", \"T\", \"\", \"ε\", \"½\", \"M\", \"š\", \"ç\", \"L\", \"Ø\", \"£\", \"¼\", \"Ä\", \"P\", \"ί\", \"œ\", \"™\", \"H\", \"≠\", \"ư\", \" \", \"Y\", \"­\", \"ï\", \"😃\", \"‽\", \"K\", \"➔\", \"é\", \"😈\", \"🙂\", \"X\", \"F\", \"S\", \"ü\", \"¬\", \"D\", \"ớ\", \"😆\", \"A\", \"›\", \"😢\", \"N\", \"❤\", \"å\", \"“\", \"G\", \"Ã\", \"‹\", \"↑\", \"Q\", \"¹\", \"É\", \"ö\", \"ς\", \"¶\", \"★\", \"‎\", \"😦\", \"Ÿ\", \"😂\", \"O\", \"–\", \"♥\", \"ú\", \"ä\", \"♡\", \"↩\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/en": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1124813, + "_n_tokens": 326111, + "_n_chars": 1121360, + "_n_oov_chars": 31165, + "oov_ratio": 0.027792145252193763, + "_oov_charset": "[\"A\", \"…\", \"N\", \"P\", \"😉\", \"③\", \"“\", \"è\", \"H\", \"U\", \"G\", \"¦\", \"‑\", \"R\", \"Y\", \"Q\", \"😥\", \"�\", \"ï\", \"ñ\", \"I\", \"”\", \"V\", \"J\", \"​\", \"⑦\", \"K\", \"\", \"ó\", \"B\", \"E\", \"é\", \"Z\", \"C\", \"⑩\", \"´\", \"T\", \"O\", \"🙂\", \"X\", \"⑤\", \"M\", \"F\", \"S\", \"⑧\", \"W\", \"D\", \"L\", \"\", \"£\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/es": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1664455, + "_n_tokens": 547112, + "_n_chars": 1630297, + "_n_oov_chars": 69539, + "oov_ratio": 0.04265419123018689, + "_oov_charset": "[\"A\", \"…\", \"😀\", \"▷\", \"✪\", \"Ú\", \"N\", \"P\", \"😉\", \"❤\", \"😦\", \"Ñ\", \"М\", \"‘\", \"è\", \"H\", \"U\", \"G\", \"👏\", \"í\", \"―\", \"R\", \"Y\", \"º\", \"Ó\", \"Q\", \"É\", \"ö\", \"­\", \"✔\", \"ñ\", \"I\", \"ª\", \"️\", \"Á\", \"V\", \"✖\", \"🙁\", \"J\", \"K\", \"ó\", \"✓\", \"é\", \"E\", \"B\", \"´\", \"C\", \"Z\", \"²\", \"T\", \"O\", \"á\", \"¿\", \"X\", \"🙂\", \"ò\", \"ý\", \"M\", \"à\", \"←\", \"F\", \"S\", \"ú\", \"ü\", \"W\", \"′\", \"D\", \"\", \"👍\", \"L\", \"Í\", \"’\", \"„\", \"ô\", \"″\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/fa": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 2054052, + "_n_tokens": 254012, + "_n_chars": 1145876, + "_n_oov_chars": 1020489, + "oov_ratio": 0.8905754200279961, + "_oov_charset": "[\"۹\", \"ة\", \"ۆ\", \"ِ\", \"إ\", \"R\", \"ن\", \"ـ\", \"�\", \"V\", \"J\", \"​\", \"ھ\", \"چ\", \"C\", \"ב\", \"٩\", \"‏\", \"ُ\", \"ک\", \"ت\", \"؛\", \"۶\", \"۴\", \"W\", \"ث\", \"ق\", \"\", \"د\", \"ز\", \"ج\", \"ט\", \"…\", \"ف\", \"۔\", \"ژ\", \"‍\", \"ص\", \"U\", \"ۀ\", \"ے\", \"ڪ\", \"ع\", \"٪\", \"۳\", \"I\", \"️\", \"،\", \"٣\", \"۸\", \"س\", \"B\", \"E\", \"Z\", \"T\", \"ی\", \"ذ\", \"ه\", \"ح\", \"M\", \"ك\", \"۲\", \"٥\", \"ش\", \"٤\", \"‌\", \"L\", \"٫\", \"ئ\", \"P\", \"ا\", \"ْ\", \"ٌ\", \"۰\", \"●\", \"خ\", \"H\", \"٠\", \"ٴ\", \"ؤ\", \"Y\", \"ض\", \"١\", \"أ\", \"َ\", \"­\", \"٨\", \"؟\", \"ل\", \"ي\", \"K\", \"ٔ\", \"آ\", \"ظ\", \"X\", \"▐\", \"ء\", \"F\", \"S\", \"ب\", \"۷\", \"D\", \"A\", \"›\", \"N\", \"ى\", \"❤\", \"ر\", \"۵\", \"G\", \"غ\", \"۱\", \"٢\", \"Q\", \"★\", \"◄\", \"گ\", \"‎\", \"ּ\", \" \", \"O\", \"ط\", \"م\", \"پ\", \"ً\", \"✿\", \"ﮧ\", \"ٍ\", \"ّ\", \"♥\", \"و\", \"٧\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/fr": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1540504, + "_n_tokens": 496764, + "_n_chars": 1484970, + "_n_oov_chars": 67832, + "oov_ratio": 0.04567903728694856, + "_oov_charset": "[\"😀\", \"̧\", \"̂\", \"û\", \"ù\", \"è\", \"R\", \"î\", \"�\", \"V\", \"J\", \"²\", \"ã\", \"C\", \"‐\", \"à\", \"W\", \"À\", \"’\", \"ô\", \"″\", \"…\", \"😉\", \"♕\", \"Ç\", \"♠\", \"U\", \"â\", \"I\", \"B\", \"E\", \"Z\", \"´\", \"T\", \"M\", \"ç\", \"L\", \"́\", \"P\", \"…\", \"œ\", \"™\", \"H\", \"🤔\", \"Â\", \"í\", \"―\", \"Y\", \"­\", \"ï\", \"ê\", \"℃\", \"K\", \"é\", \"🙂\", \"X\", \"←\", \"F\", \"S\", \"ü\", \"D\", \"A\", \"Ê\", \"N\", \"❤\", \"ğ\", \"G\", \"È\", \"Q\", \"É\", \"ë\", \"★\", \"Î\", \"O\", \"Ô\", \"µ\", \"ä\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/ja": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1774770, + "_n_tokens": 317535, + "_n_chars": 603065, + "_n_oov_chars": 589191, + "oov_ratio": 0.97699418802285, + "_oov_charset": "[\"%\", \"臨\", \"償\", \"共\", \"馳\", \"敏\", \"緒\", \"墓\", \"称\", \"鐘\", \"樺\", \"\\b\", \"ろ\", \"熱\", \"株\", \"欠\", \"幣\", \"祐\", \"倫\", \"洋\", \"雑\", \"巧\", \"価\", \"⇔\", \"C\", \"滞\", \"咎\", \"徘\", \"機\", \"隈\", \"地\", \"原\", \"斉\", \"馬\", \"珠\", \"星\", \"昂\", \"陣\", \"拗\", \"甘\", \"漬\", \"係\", \"ガ\", \"嫡\", \"枝\", \"席\", \"加\", \"六\", \"ぱ\", \"用\", \"解\", \"T\", \"叩\", \"ホ\", \"/\", \"肘\", \"丹\", \"M\", \"濫\", \"済\", \"ボ\", \"啜\", \"括\", \"申\", \"‼\", \"P\", \"供\", \"探\", \"賃\", \"恥\", \"高\", \"減\", \"I\", \"呟\", \"峨\", \"コ\", \"的\", \"微\", \"に\", \"拶\", \"璧\", \"穂\", \"紫\", \"軌\", \"需\", \"外\", \"浄\", \"旋\", \"墾\", \"噤\", \"窒\", \"斧\", \"献\", \"倉\", \"痺\", \"◎\", \"ト\", \"鬼\", \"九\", \"埋\", \"役\", \"埃\", \"粉\", \"チ\", \"遜\", \"弓\", \"戻\", \"唆\", \"金\", \"遂\", \"武\", \"標\", \"雅\", \"日\", \"賭\", \"困\", \"猶\", \"糖\", \"セ\", \"船\", \"乗\", \"泄\", \"◡\", \"机\", \"衰\", \"穴\", \"円\", \"蔓\", \"⇒\", \"坂\", \"飴\", \"。\", \"線\", \"買\", \"キ\", \"毛\", \"勧\", \"眩\", \"t\", \"域\", \"幅\", \"都\", \"唐\", \"首\", \"虫\", \"執\", \"責\", \"福\", \"箭\", \"致\", \"枕\", \"丿\", \"卵\", \"L\", \"梯\", \"損\", \"轄\", \"漂\", \"主\", \"這\", \"精\", \"純\", \"死\", \"再\", \"常\", \"江\", \"カ\", \"は\", \"縄\", \"妹\", \"応\", \"頓\", \"拍\", \"『\", \"多\", \"蓄\", \"滲\", \"催\", \"較\", \"特\", \"演\", \"磨\", \"淵\", \"塔\", \"☆\", \"織\", \"復\", \"却\", \"不\", \"酵\", \"角\", \"岳\", \"紀\", \"綺\", \"騙\", \"赤\", \"資\", \"仕\", \"育\", \"』\", \"筋\", \"プ\", \"逃\", \"鉄\", \"茨\", \"尊\", \"達\", \"皿\", \"栽\", \"上\", \"庁\", \"瞳\", \"味\", \"畜\", \"蒔\", \"獄\", \"頃\", \"ゼ\", \"藤\", \"゙\", \"本\", \"耶\", \"捗\", \"慶\", \"そ\", \"管\", \"3\", \"墳\", \"ベ\", \"粋\", \"善\", \"謳\", \"対\", \"「\", \"輩\", \"誕\", \"丈\", \"餓\", \"飯\", \"組\", \"隆\", \"採\", \"琢\", \"ε\", \"縁\", \"尿\", \"ツ\", \"呆\", \"國\", \"橋\", \"稲\", \"元\", \"覧\", \"点\", \"張\", \"侮\", \"喰\", \"尾\", \"鉛\", \"暇\", \"試\", \"功\", \"泊\", \"奏\", \"虎\", \"建\", \"横\", \"了\", \"眼\", \"火\", \"渡\", \"ワ\", \"飾\", \"余\", \"祭\", \"沈\", \"寓\", \"慣\", \"関\", \"賀\", \"場\", \"K\", \"冨\", \"豆\", \"炒\", \"遼\", \"メ\", \"神\", \"礁\", \"乱\", \"粧\", \"X\", \"稚\", \"揺\", \"の\", \"棚\", \"J\", \"辣\", \"違\", \"届\", \"抜\", \"友\", \"辞\", \"銃\", \"寧\", \"棒\", \"拘\", \"付\", \"脅\", \"臣\", \"姓\", \"旨\", \"桁\", \"亡\", \"陰\", \"乞\", \"K\", \"侵\", \"真\", \"ず\", \"耐\", \"帝\", \"礎\", \"阜\", \"鹿\", \"食\", \"胆\", \"軟\", \"誹\", \"床\", \"汚\", \"暖\", \"^\", \"タ\", \"栗\", \"躇\", \"希\", \"饉\", \"還\", \"寄\", \"澪\", \"奔\", \"貝\", \"畳\", \"速\", \"裂\", \"焼\", \"妙\", \"話\", \"光\", \"病\", \"天\", \"曝\", \"截\", \"伽\", \"台\", \"俵\", \"虐\", \"語\", \"荘\", \"遙\", \"舐\", \"錠\", \"拉\", \"座\", \"梁\", \"汰\", \"怨\", \"②\", \"継\", \"鶏\", \"袋\", \"更\", \":\", \"担\", \"替\", \"R\", \"カ\", \"」\", \"〟\", \"拷\", \"抱\", \"難\", \"劣\", \"ㅂ\", \"避\", \"逮\", \"滅\", \"登\", \"研\", \"脆\", \"寡\", \"U\", \"商\", \"薄\", \"践\", \"慮\", \"酬\", \"添\", \"宿\", \"唸\", \"蝶\", \"循\", \"専\", \"梅\", \"片\", \"算\", \"兼\", \"示\", \"兆\", \"妨\", \"マ\", \"介\", \"評\", \"E\", \"象\", \"股\", \"疎\", \"攻\", \"改\", \"華\", \"9\", \"爆\", \"撤\", \"斗\", \"犬\", \"足\", \"今\", \"壊\", \"次\", \"題\", \"L\", \"鈴\", \"r\", \"コ\", \"荷\", \"或\", \"念\", \"欧\", \"●\", \"擦\", \"篇\", \"潟\", \"ゞ\", \"漑\", \"単\", \"慌\", \"婚\", \"糸\", \"捐\", \"盲\", \"結\", \"啓\", \"推\", \"℃\", \"侶\", \"和\", \"握\", \"戦\", \"楚\", \"隕\", \"ぅ\", \"種\", \"黄\", \"散\", \"在\", \"恨\", \"Z\", \"抹\", \"端\", \"政\", \"訴\", \"反\", \"累\", \"恩\", \"令\", \"戴\", \"浸\", \"愉\", \"驚\", \"ひ\", \"弊\", \"🌙\", \"獲\", \"撮\", \"填\", \"通\", \"家\", \"腐\", \"ジ\", \"》\", \"件\", \"浮\", \"自\", \"逼\", \"督\", \"君\", \"肢\", \"堪\", \"《\", \"延\", \"よ\", \"詮\", \"従\", \"親\", \"感\", \"送\", \"縫\", \"ヾ\", \"急\", \"側\", \"否\", \"毎\", \"質\", \"長\", \"素\", \"巨\", \"大\", \"末\", \"経\", \"奉\", \"宣\", \"能\", \"車\", \"猿\", \"等\", \"も\", \"消\", \"律\", \"覇\", \"察\", \"๑\", \"固\", \"羞\", \"惜\", \"月\", \"詰\", \"丸\", \"戸\", \"召\", \"番\", \"塾\", \"裕\", \"陸\", \"拭\", \"笠\", \"赦\", \"境\", \"木\", \"堡\", \"茶\", \"密\", \"簡\", \"_\", \"〆\", \"阿\", \"瓶\", \"敬\", \"げ\", \"姜\", \"号\", \"ぞ\", \"干\", \"訊\", \"儀\", \"モ\", \"即\", \"判\", \"権\", \"滴\", \"ヶ\", \"煮\", \"黒\", \"周\", \"制\", \"勝\", \"摯\", \"杞\", \"紹\", \"な\", \"◇\", \"ハ\", \"渕\", \"グ\", \"極\", \"遍\", \"何\", \"拠\", \"鎖\", \"匂\", \"隼\", \"憧\", \"旗\", \"板\", \"踊\", \"∇\", \"暢\", \"揄\", \"撃\", \"響\", \"翻\", \"俯\", \"培\", \"岐\", \"゚\", \"突\", \"掘\", \"̀\", \"哲\", \"栄\", \"十\", \"舎\", \"荒\", \"芸\", \"詐\", \"狼\", \"葬\", \"仙\", \"彿\", \"伏\", \"リ\", \"肝\", \"捜\", \"謡\", \"兎\", \"¥\", \"層\", \"装\", \"浦\", \"斎\", \"S\", \"履\", \"陳\", \"松\", \"D\", \"ロ\", \"藁\", \"綴\", \"や\", \"公\", \"使\", \"譲\", \"鶴\", \"忙\", \"酔\", \"魚\", \"勉\", \"淡\", \"浜\", \"ウ\", \"妻\", \"ユ\", \"那\", \"賛\", \"某\", \"絞\", \"絨\", \"覚\", \"坐\", \"掌\", \"性\", \"普\", \"留\", \"♫\", \"術\", \"捕\", \"救\", \"※\", \"彡\", \"苗\", \"迫\", \"宝\", \"伴\", \"初\", \"授\", \"淫\", \"摩\", \"楊\", \"フ\", \"残\", \"習\", \"4\", \"泉\", \"勘\", \"圏\", \"痴\", \"井\", \"庄\", \"幡\", \"秒\", \"菅\", \"画\", \"ュ\", \"構\", \"砂\", \"徴\", \"嗅\", \"醍\", \"碌\", \"姦\", \"派\", \"|\", \"納\", \"噛\", \"好\", \"美\", \"寿\", \"麗\", \"永\", \"麦\", \"ム\", \"況\", \"豊\", \"雨\", \"ィ\", \"塊\", \"喫\", \"洪\", \"肌\", \"珂\", \"会\", \"椒\", \"諏\", \"宇\", \"う\", \"測\", \"液\", \"て\", \"匠\", \"貢\", \"分\", \"剃\", \"〝\", \"パ\", \"諦\", \"認\", \"要\", \"降\", \"庶\", \"詳\", \"ゎ\", \"同\", \"圃\", \"桟\", \"偽\", \"祀\", \"n\", \"恰\", \"裾\", \"故\", \"魂\", \"疾\", \"刀\", \"輿\", \"飽\", \"寺\", \"誉\", \"ぁ\", \"¥\", \"附\", \"俗\", \"嵩\", \"漠\", \"〜\", \"舞\", \"章\", \"被\", \"均\", \"危\", \"灘\", \"既\", \"嬢\", \"載\", \"科\", \"遵\", \"凱\", \"向\", \"郵\", \"怖\", \"彰\", \"f\", \"婿\", \"邸\", \"導\", \"萼\", \"ぶ\", \"複\", \"滓\", \"卓\", \"合\", \"距\", \"講\", \"へ\", \"「\", \"区\", \"浅\", \"y\", \"富\", \"銀\", \"宏\", \"舟\", \"廃\", \"⻑\", \"臓\", \"る\", \"肩\", \"琴\", \"薬\", \"巻\", \"牧\", \"鞄\", \"ど\", \"Ⅶ\", \"回\", \"凡\", \"ァ\", \"訟\", \"絡\", \"便\", \"霧\", \"芝\", \"牛\", \"殴\", \"些\", \"郎\", \"俸\", \"〕\", \"怒\", \"❤\", \"類\", \"児\", \"問\", \"篤\", \"ソ\", \"訓\", \"愕\", \"又\", \"亀\", \"Q\", \"尺\", \"誠\", \"勿\", \"ぉ\", \"業\", \"産\", \"m\", \"圧\", \"置\", \"鑑\", \"逆\", \"恣\", \"?\", \"匙\", \"易\", \"発\", \"屹\", \"蛍\", \"勇\", \"炉\", \"捉\", \"拡\", \"系\", \"腺\", \"書\", \"籠\", \"終\", \"半\", \"祉\", \"叱\", \"i\", \"💦\", \"釜\", \"槽\", \"切\", \"野\", \"李\", \"僅\", \"決\", \"軍\", \"縛\", \"欝\", \"膿\", \"盤\", \"�\", \"陛\", \"景\", \"嗜\", \"尋\", \"墟\", \"訃\", \"核\", \"惚\", \"吐\", \"欺\", \"毒\", \"確\", \"丁\", \"字\", \"Q\", \"出\", \"渦\", \"っ\", \"鍵\", \"腱\", \"就\", \"編\", \"峰\", \"序\", \"完\", \"飛\", \"扉\", \"馴\", \"持\", \"薦\", \"選\", \"道\", \"胸\", \"フ\", \"衝\", \"敷\", \"擢\", \"@\", \"ゲ\", \"紗\", \"串\", \"得\", \"尻\", \"闖\", \"ヒ\", \"泳\", \"眺\", \"凛\", \"表\", \"駐\", \"音\", \"弁\", \"潮\", \"鞘\", \"掬\", \"暑\", \"連\", \"勤\", \"依\", \"襲\", \"忍\", \"昇\", \"E\", \"意\", \"属\", \"我\", \"湖\", \"態\", \"d\", \"欣\", \"池\", \"開\", \"少\", \"た\", \"ー\", \"ぜ\", \"迅\", \"医\", \"濯\", \"ノ\", \"成\", \"バ\", \"渇\", \"妃\", \"於\", \"剰\", \"談\", \"委\", \"第\", \"皇\", \"頼\", \"嘘\", \"孤\", \"蔑\", \"喉\", \"凄\", \"曰\", \"壁\", \"仔\", \"*\", \"排\", \"辱\", \"黙\", \"党\", \"旬\", \"七\", \"薪\", \"髪\", \"棟\", \"浩\", \"秋\", \"艸\", \"N\", \"瞑\", \"釈\", \"滝\", \"2\", \"曖\", \"族\", \"孫\", \"証\", \"瓦\", \"佐\", \"‥\", \"曜\", \"民\", \"随\", \"宜\", \"展\", \"偏\", \"★\", \"鉢\", \"屈\", \"殖\", \"強\", \"穫\", \"新\", \"所\", \"淹\", \"訣\", \"謄\", \"妄\", \"一\", \"疫\", \"烙\", \"兵\", \"沿\", \"幌\", \"ィ\", \"挨\", \"山\", \"運\", \"砦\", \"範\", \"審\", \"短\", \"健\", \"適\", \"滑\", \"捲\", \"障\", \"埼\", \"聞\", \"吸\", \"顧\", \"沸\", \"ね\", \"ヽ\", \"祥\", \"と\", \"ゅ\", \"冬\", \"宅\", \"胞\", \"惣\", \"額\", \"活\", \"射\", \"染\", \"立\", \"魔\", \"拓\", \"痩\", \"面\", \"堤\", \"才\", \"維\", \"○\", \"倒\", \"針\", \"朗\", \"瞬\", \"咽\", \"ご\", \"趨\", \"砕\", \"材\", \"利\", \"雀\", \"ゥ\", \"絆\", \"然\", \"邦\", \"集\", \"安\", \"笛\", \"羽\", \"様\", \"乃\", \"竹\", \"顎\", \"洗\", \"犯\", \"貯\", \"昆\", \"総\", \"箋\", \"生\", \"炭\", \"冒\", \"員\", \"購\", \"寸\", \"緩\", \"僚\", \"涙\", \"根\", \"媒\", \"ェ\", \"魅\", \"Z\", \"径\", \"僭\", \"壮\", \"剣\", \"菌\", \"芳\", \"売\", \"誇\", \"伊\", \"志\", \"飢\", \"慨\", \"宮\", \"釘\", \"稜\", \"懐\", \"革\", \"数\", \"ヤ\", \"披\", \"堆\", \"羅\", \"彼\", \"古\", \"相\", \"w\", \"掻\", \"漏\", \"H\", \"乳\", \"務\", \"刻\", \"郷\", \"只\", \"免\", \"以\", \"嚥\", \"蒸\", \"垠\", \"討\", \"島\", \"灯\", \"こ\", \"悠\", \"腑\", \"逸\", \"情\", \" \", \"擁\", \"嘲\", \"徐\", \"閲\", \"♪\", \"糧\", \"司\", \"瑞\", \"蒙\", \"幹\", \"己\", \"賊\", \"奈\", \"良\", \"居\", \"菓\", \"栓\", \"般\", \"仁\", \"綻\", \"享\", \"浪\", \"弥\", \"厄\", \"諸\", \"爪\", \"崖\", \"腹\", \"英\", \"告\", \"潤\", \"万\", \"G\", \"昏\", \"命\", \"格\", \"挙\", \"水\", \"↑\", \"B\", \"併\", \"底\", \"冗\", \"拾\", \"塞\", \"厨\", \"陽\", \"氷\", \"府\", \"綾\", \"簗\", \"弄\", \"嘗\", \"休\", \"走\", \"署\", \"振\", \"頻\", \"寂\", \"拳\", \"雪\", \"起\", \"謎\", \"G\", \"々\", \"秘\", \"訪\", \"至\", \"込\", \"条\", \"康\", \"投\", \"汲\", \"詞\", \"▼\", \"、\", \"港\", \"勲\", \"J\", \"県\", \"節\", \"枚\", \"犠\", \"杼\", \"左\", \"拙\", \"榴\", \"梓\", \"鱈\", \"荻\", \"緯\", \",\", \"霊\", \"葵\", \"保\", \"杯\", \"昔\", \"ん\", \"絶\", \"$\", \"囁\", \"W\", \"匹\", \"晶\", \"没\", \"撲\", \"逡\", \"幾\", \"草\", \"龍\", \"̈\", \"狂\", \"規\", \"灰\", \"漫\", \"め\", \"暴\", \"妥\", \"脇\", \"乙\", \"扱\", \"攫\", \"撫\", \"指\", \"ナ\", \"迎\", \"模\", \"函\", \"惹\", \"夷\", \"史\", \"朝\", \"白\", \"拝\", \"思\", \"娘\", \"準\", \"考\", \"城\", \"5\", \"涯\", \"盗\", \"貪\", \"徹\", \"穢\", \"罰\", \"④\", \"堵\", \"雇\", \"歴\", \"駒\", \"疑\", \"季\", \" ̄\", \"り\", \"堰\", \"顕\", \"毅\", \"袴\", \"謝\", \";\", \"求\", \"膨\", \"[\", \"灌\", \"優\", \"踏\", \"ヨ\", \"柔\", \"触\", \"ょ\", \"含\", \"。\", \"穏\", \"論\", \"露\", \"敵\", \"笑\", \"盆\", \"海\", \"挟\", \"且\", \"懇\", \"最\", \"哀\", \"住\", \"並\", \"む\", \"琉\", \"D\", \"椅\", \"沖\", \"閃\", \"銭\", \"懲\", \"軋\", \"宙\", \"唯\", \"糾\", \"鋲\", \"鈍\", \"転\", \"隅\", \"世\", \"院\", \"岡\", \"析\", \"斜\", \"静\", \"萎\", \"塩\", \"泥\", \"企\", \"国\", \"ゥ\", \"乾\", \"正\", \"益\", \"叉\", \"林\", \"比\", \"硝\", \"慢\", \"叫\", \"劇\", \"照\", \"詫\", \"午\", \"抵\", \"狩\", \"三\", \"巷\", \"珪\", \"労\", \"手\", \"揶\", \"媛\", \"凝\", \"◯\", \"嶽\", \"途\", \"背\", \"脳\", \"監\", \"塵\", \"閑\", \"将\", \"乏\", \"7\", \"​\", \"止\", \"8\", \"-\", \"聴\", \"閉\", \"紋\", \"S\", \"苦\", \"者\", \"卑\", \"貌\", \"餃\", \"溢\", \"翌\", \"弟\", \"貨\", \"透\", \"俳\", \"赴\", \"①\", \"契\", \"釣\", \"拒\", \"窮\", \"嬉\", \"△\", \"診\", \"搬\", \"来\", \"…\", \"粗\", \"ぎ\", \"ぽ\", \"失\", \"洞\", \"法\", \"傍\", \"莫\", \"ゴ\", \"充\", \"奪\", \"腔\", \"恒\", \"茫\", \"袈\", \"形\", \"I\", \"烈\", \"噌\", \"焦\", \"換\", \"猟\", \"き\", \"携\", \"婆\", \"駆\", \"五\", \"料\", \"踪\", \"物\", \"喋\", \"訳\", \"腸\", \"姥\", \"園\", \"H\", \"か\", \"巡\", \"競\", \"造\", \"沙\", \"房\", \"́\", \"冷\", \"智\", \"娠\", \"烹\", \"玄\", \"離\", \"淳\", \"図\", \"曇\", \"甥\", \"〇\", \"捩\", \"重\", \"彌\", \"停\", \"麹\", \"無\", \"琵\", \"興\", \"霞\", \"腰\", \"森\", \"募\", \"怠\", \"敗\", \"艶\", \"威\", \"彷\", \"ば\", \"癖\", \"信\", \"托\", \"F\", \"源\", \"炎\", \"伸\", \"紡\", \"川\", \"女\", \"春\", \"須\", \"燥\", \"彫\", \"電\", \"貫\", \"燭\", \"誤\", \"揚\", \"折\", \"注\", \"爾\", \"袖\", \"見\", \"ゾ\", \"ル\", \"句\", \"竜\", \"腫\", \"醸\", \"枢\", \"駕\", \"碓\", \"愛\", \"睦\", \"斐\", \"繰\", \"寝\", \"悔\", \"ン\", \"掛\", \"室\", \"門\", \"臆\", \"ー\", \"煎\", \"頭\", \"湘\", \"槃\", \"ぇ\", \"臥\", \"A\", \"蓋\", \"震\", \"駄\", \"博\", \"み\", \"厳\", \"欽\", \"孝\", \"ほ\", \"週\", \"悪\", \"控\", \"悶\", \"ラ\", \"風\", \"祖\", \"流\", \"闘\", \"彙\", \"迷\", \"徳\", \"心\", \"両\", \"衿\", \"遺\", \"惨\", \"鍋\", \"唄\", \"ド\", \"訂\", \"跨\", \"を\", \"奴\", \"纏\", \"撒\", \"団\", \"贅\", \"店\", \"鮮\", \"沢\", \"胚\", \"餌\", \"・\", \"耗\", \"呑\", \"氾\", \"激\", \"招\", \"頒\", \"讃\", \"磯\", \"悍\", \"囚\", \"吟\", \"教\", \"鳥\", \"創\", \"昨\", \"与\", \"輪\", \"貿\", \"俊\", \"千\", \"つ\", \"計\", \"貶\", \"粒\", \"M\", \"洒\", \"辿\", \"狙\", \"薙\", \"ゃ\", \"脈\", \"階\", \"筆\", \"崔\", \"痛\", \"服\", \"朴\", \"迭\", \"韮\", \"び\", \"治\", \"エ\", \"例\", \"杏\", \"飲\", \"窃\", \"作\", \"時\", \"実\", \"ぴ\", \"低\", \"祈\", \"裟\", \"凶\", \"崎\", \"移\", \"声\", \"贔\", \"細\", \"狐\", \"琳\", \"←\", \"仰\", \"゚\", \"検\", \"輸\", \"攘\", \"顔\", \"N\", \"究\", \"贋\", \"母\", \"断\", \"ギ\", \"紐\", \"遇\", \"州\", \"田\", \"嶋\", \"非\", \"欄\", \"略\", \"恵\", \"環\", \"婦\", \"予\", \"莽\", \"ヲ\", \"航\", \"=\", \"潰\", \"ヘ\", \"苑\", \"逐\", \"裸\", \"肉\", \"囲\", \"虚\", \"叭\", \"満\", \"O\", \"級\", \"里\", \"混\", \"澤\", \"放\", \"牽\", \"椿\", \"鉱\", \"奇\", \"و\", \"引\", \"】\", \"望\", \"譜\", \"打\", \"サ\", \"だ\", \"鋭\", \"筒\", \"協\", \"案\", \"刃\", \"惑\", \"斑\", \"粘\", \"択\", \"油\", \"魏\", \"ら\", \"市\", \"刷\", \"近\", \"阪\", \"誘\", \"暦\", \"量\", \"遠\", \"凍\", \"珍\", \"布\", \"封\", \"悲\", \"ゆ\", \"把\", \"桃\", \"批\", \"尼\", \"宋\", \"録\", \"桂\", \"蛇\", \"唇\", \"削\", \"具\", \"預\", \"祝\", \"③\", \"喜\", \"殊\", \"色\", \"皮\", \"隙\", \"借\", \"嵌\", \"追\", \"度\", \"祇\", \"硬\", \"恭\", \"偶\", \"彦\", \"柱\", \"ク\", \"隔\", \"菜\", \"揃\", \"裏\", \"禁\", \"着\", \"汎\", \"ω\", \"現\", \"ブ\", \"名\", \"a\", \"套\", \"わ\", \"掃\", \"率\", \"該\", \"裁\", \"嗚\", \"賠\", \"オ\", \"0\", \"廊\", \"l\", \"弾\", \"療\", \"駿\", \"程\", \"稼\", \"軽\", \"骨\", \"桑\", \"基\", \"濃\", \"覗\", \"杓\", \"因\", \"ヘ\", \"ポ\", \"二\", \"o\", \"摘\", \"噂\", \"妖\", \"清\", \"苛\", \"遭\", \"遊\", \"墜\", \"癌\", \"太\", \"彩\", \"搭\", \"衷\", \"紙\", \"券\", \"姑\", \"😢\", \"槍\", \"娯\", \"傑\", \"膏\", \"別\", \"徊\", \"箇\", \"右\", \"ウ\", \"路\", \"▽\", \"蹴\", \"冊\", \"頂\", \"深\", \"熟\", \"刊\", \"雷\", \"目\", \"ニ\", \"肯\", \"刑\", \"リ\", \"億\", \"観\", \"跡\", \"束\", \"賑\", \"琶\", \"各\", \"設\", \"人\", \"械\", \"羊\", \"堂\", \"Ⅹ\", \"楠\", \"梗\", \"読\", \"べ\", \"争\", \"磋\", \"⑧\", \"&\", \"♡\", \"應\", \"岬\", \"罵\", \"状\", \"漁\", \"醐\", \"辺\", \"省\", \"代\", \"記\", \"植\", \"偉\", \"像\", \"挑\", \"怯\", \"煽\", \"明\", \"😭\", \"R\", \"北\", \"花\", \"香\", \"男\", \"憎\", \"騒\", \"四\", \"症\", \"錬\", \"内\", \"中\", \"迦\", \"吠\", \"穀\", \"型\", \"個\", \"駅\", \"間\", \"也\", \"提\", \"始\", \"賢\", \"祠\", \"😌\", \"街\", \">\", \"蜂\", \"農\", \"蔵\", \"ぃ\", \"老\", \"跳\", \"垢\", \"土\", \"仮\", \"段\", \"痢\", \"値\", \"雰\", \"坊\", \"方\", \"積\", \"殺\", \"、\", \"渋\", \"助\", \"卒\", \"盛\", \"入\", \"Д\", \"縞\", \"央\", \"師\", \"捨\", \"葉\", \"峙\", \"施\", \"ロ\", \"項\", \"夕\", \"忠\", \"殻\", \"蝋\", \"広\", \"整\", \"備\", \"昼\", \"気\", \"尖\", \"P\", \"し\", \"す\", \"燃\", \"存\", \"暁\", \"槌\", \"―\", \"索\", \"坪\", \"説\", \"峠\", \"暮\", \"瘻\", \"暫\", \"負\", \"帰\", \"鬱\", \"約\", \"宗\", \"□\", \"町\", \"茂\", \"ヵ\", \"慄\", \"溶\", \"八\", \"匡\", \"杜\", \"諺\", \"煙\", \"窪\", \"テ\", \"防\", \"ヌ\", \"∀\", \"蔽\", \"堅\", \"払\", \"脂\", \"岩\", \"候\", \"云\", \"越\", \"伝\", \"統\", \"虜\", \"当\", \"佳\", \"堺\", \"咳\", \"待\", \"百\", \"涅\", \"詠\", \"綬\", \"揮\", \"劉\", \"褒\", \"躍\", \"慈\", \"ヴ\", \"趣\", \"貰\", \"狭\", \"栃\", \"舘\", \"V\", \"班\", \"斡\", \"衛\", \"館\", \"映\", \"巾\", \"補\", \"梳\", \"営\", \"澄\", \"ぬ\", \"懸\", \"際\", \"摂\", \"品\", \"牲\", \"撰\", \"盟\", \"が\", \"嘆\", \"F\", \"締\", \"詩\", \"請\", \"御\", \"南\", \"貴\", \"‐\", \"肪\", \"沼\", \"嵯\", \"糞\", \"輝\", \"血\", \"必\", \"獣\", \"典\", \"財\", \"夫\", \"腎\", \"レ\", \"▷\", \"窟\", \"殿\", \"冥\", \"幼\", \"頬\", \"受\", \"概\", \"託\", \"靴\", \"凪\", \"枯\", \"身\", \"X\", \"ケ\", \"課\", \"仏\", \"g\", \"力\", \"遅\", \"姉\", \"靄\", \"髭\", \"😊\", \"群\", \"厚\", \"到\", \"繋\", \"符\", \"\\u001b\", \"´\", \"播\", \"✨\", \"幸\", \"づ\", \"儲\", \"<\", \"憲\", \"ち\", \"客\", \"斬\", \"陵\", \"遡\", \"伯\", \"柄\", \"楽\", \"喝\", \"促\", \"行\", \"秩\", \"庭\", \"尚\", \"捧\", \"陥\", \"描\", \"吹\", \"惧\", \"昭\", \"豪\", \"喚\", \"練\", \"邪\", \"歌\", \"奢\", \"隣\", \"Ⅱ\", \"亭\", \"職\", \"ォ\", \"吾\", \"b\", \"痕\", \"壬\", \"退\", \"蠍\", \"灼\", \"小\", \"掴\", \"紛\", \"⑩\", \"唾\", \"僧\", \"齢\", \"テ\", \"浣\", \"媚\", \"部\", \"警\", \"綱\", \".\", \"割\", \"矛\", \"包\", \"晋\", \"【\", \"忘\", \"恐\", \"式\", \"謀\", \"缶\", \"独\", \"誌\", \"村\", \"衣\", \"塚\", \"ア\", \"Y\", \"版\", \"遥\", \"隠\", \"抽\", \"楓\", \"妬\", \"伐\", \"ョ\", \"譚\", \"識\", \"翼\", \"〈\", \"貸\", \"杉\", \"征\", \"塗\", \"双\", \"議\", \"叶\", \"子\", \"ザ\", \"傾\", \"湿\", \"嘩\", \"韓\", \"舗\", \"承\", \"巣\", \"鯖\", \"但\", \"旭\", \"夜\", \"返\", \"豚\", \"ア\", \"述\", \"剤\", \"艦\", \"歳\", \"秀\", \"聖\", \"西\", \"檀\", \"柏\", \"局\", \"呂\", \"闊\", \"平\", \"如\", \"繍\", \"猫\", \"ャ\", \"険\", \"濡\", \"取\", \"帽\", \"籍\", \"列\", \"曽\", \"慎\", \"仲\", \"\", \"旦\", \"辛\", \"″\", \"ミ\", \"理\", \"酒\", \"鼻\", \"悟\", \"ピ\", \"薩\", \"鴻\", \"位\", \"未\", \"↓\", \"賞\", \"湧\", \"喪\", \"`\", \"直\", \"製\", \"丘\", \"定\", \"歪\", \"緻\", \"デ\", \"歩\", \"じ\", \"支\", \"傲\", \"え\", \"蘇\", \"交\", \"T\", \"鍛\", \"修\", \"暗\", \"潜\", \"謂\", \"隊\", \"守\", \"+\", \"洩\", \"⌒\", \"躾\", \"棄\", \"謬\", \"私\", \"癒\", \"稀\", \"球\", \"✧\", \"札\", \"校\", \"咲\", \"㎞\", \"泌\", \"焙\", \"視\", \"憶\", \"報\", \"早\", \"害\", \"慰\", \"限\", \"庫\", \"ぐ\", \"枠\", \"ス\", \"ダ\", \"れ\", \"王\", \"抗\", \"息\", \"年\", \"厭\", \"続\", \"騰\", \"事\", \"」\", \"眠\", \"揉\", \"碍\", \"去\", \"異\", \"廉\", \"果\", \"措\", \"寮\", \"税\", \"妊\", \"屓\", \"帯\", \"怪\", \"昧\", \"絵\", \"養\", \"知\", \"晩\", \"融\", \"崩\", \"査\", \"幽\", \"ノ\", \"シ\", \"帳\", \"滋\", \"侍\", \"A\", \"諾\", \"丼\", \"落\", \"任\", \"鳴\", \"い\", \"ざ\", \"印\", \"甲\", \"曹\", \"岸\", \"技\", \"鎮\", \"胃\", \"誓\", \"做\", \"!\", \"潔\", \"讐\", \"梱\", \"由\", \"篠\", \"堀\", \"励\", \"庇\", \"官\", \"呼\", \"銘\", \"青\", \"波\", \"給\", \"渉\", \"贈\", \" \", \"罪\", \"膚\", \"k\", \"筈\", \"ビ\", \"麓\", \"姫\", \"夏\", \"ま\", \"晒\", \"配\", \"債\", \"汁\", \"策\", \"憤\", \"腕\", \"貼\", \"棲\", \"嫉\", \"舌\", \"ふ\", \"戯\", \"占\", \"く\", \"唱\", \"あ\", \"夢\", \"界\", \"お\", \"菊\", \"瘍\", \"社\", \"]\", \"綜\", \"謙\", \"謗\", \"喩\", \"兄\", \"膜\", \"〔\", \"傷\", \"V\", \"増\", \"郭\", \"涼\", \"欲\", \"麺\", \"寇\", \"胎\", \"有\", \"ッ\", \"ゝ\", \"疹\", \"刺\", \"擬\", \"罠\", \"で\", \"許\", \"縦\", \"患\", \"梨\", \"旧\", \"湯\", \"勢\", \"6\", \"汗\", \"幕\", \"器\", \"互\", \"寒\", \"漢\", \"杖\", \"\", \"皆\", \"け\", \"喇\", \"似\", \"温\", \"噴\", \"写\", \"醤\", \"煩\", \"羨\", \"亜\", \"垣\", \"衡\", \"体\", \"晴\", \"桜\", \"貧\", \"輔\", \"ペ\", \"童\", \"匿\", \"餅\", \"─\", \"h\", \"ヨ\", \"築\", \"俄\", \"米\", \"升\", \"壌\", \"容\", \"超\", \"ぷ\", \"︎\", \"答\", \"膝\", \"鎌\", \"剥\", \"災\", \"飼\", \"幻\", \"屋\", \"帆\", \"〉\", \"軸\", \"谷\", \"倭\", \"酷\", \"肥\", \"僕\", \"睡\", \"若\", \"・\", \"﨑\", \"歓\", \"逢\", \"貞\", \"宴\", \"(\", \"動\", \"浴\", \"熊\", \"憩\", \"礼\", \"克\", \"著\", \"C\", \"吉\", \"漱\", \"忌\", \"寛\", \"さ\", \"鏡\", \"参\", \"盾\", \"紅\", \"矢\", \"捏\", \"緊\", \"傘\", \"頑\", \"牙\", \"奨\", \"瀬\", \"緑\", \"詈\", \"験\", \"接\", \"疇\", \"殆\", \"楼\", \"俺\", \"処\", \"憑\", \"猛\", \"嵐\", \"蛮\", \"甚\", \"票\", \"前\", \"憂\", \"~\", \"徒\", \"嫌\", \"護\", \"忽\", \"O\", \"雄\", \"歯\", \"⑪\", \"領\", \"繊\", \"壇\", \"辰\", \"津\", \"抑\", \"全\", \"愚\", \"倍\", \"耳\", \"据\", \"溜\", \"之\", \"ハ\", \"押\", \"変\", \"久\", \"頷\", \"せ\", \"郡\", \"箱\", \"轢\", \"収\", \"及\", \"遽\", \"臭\", \"爽\", \"戒\", \"覆\", \"往\", \"過\", \"快\", \"躊\", \"阻\", \"悩\", \"醜\", \"調\", \"販\", \"U\", \"操\", \"聾\", \"眉\", \"錯\", \"湾\", \"費\", \"旺\", \"s\", \"副\", \"疲\", \"允\", \"泣\", \"雲\", \"言\", \"可\", \"影\", \"父\", \"順\", \"B\", \"秤\", \"1\", \"尽\", \"陶\", \"戚\", \"誰\", \"口\", \"績\", \"瞭\", \"捺\", \"努\", \"期\", \"纒\", \"化\", \"亮\", \"姿\", \"閣\", \"伺\", \"奥\", \"曲\", \"軒\", \"学\", \"ネ\", \"遣\", \"架\", \"耕\", \"下\", \"旅\", \"鵜\", \"酸\", \"樹\", \"則\", \"殲\", \"斂\", \"肺\", \"後\", \"玉\", \"願\", \")\", \"想\", \"礫\", \"痒\", \"泡\", \"Y\", \"麻\", \"垂\", \"弱\", \"渓\", \"ズ\", \"除\", \"W\", \"脱\", \"衆\", \"空\", \"蛋\", \"梶\", \"脚\", \"看\", \"是\", \"先\", \"挿\", \"藻\", \"ぼ\", \"闇\", \"工\", \"凌\", \"蓮\", \"喧\", \"宛\", \"効\", \"繁\", \"簿\", \"翔\", \"瓢\", \"徨\", \"士\", \"虹\", \"訝\", \"泰\", \"他\", \"縮\", \"窓\", \"網\", \"義\", \"◆\", \"イ\", \"佇\", \"京\", \"氏\", \"畑\", \"進\", \"嫁\", \"゙\", \"挫\", \"援\", \"稿\", \"河\", \"メ\", \"鼓\", \"文\", \"恋\", \"東\", \"廻\", \"為\", \"働\", \"e\", \"\\", \"奮\", \"差\", \"レ\", \"偵\", \"破\", \"石\", \"掲\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/ko": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 1524839, + "_n_tokens": 201519, + "_n_chars": 655190, + "_n_oov_chars": 483751, + "oov_ratio": 0.7383369709549902, + "_oov_charset": "[\"%\", \"먼\", \"ᴇ\", \"셔\", \"共\", \"버\", \"증\", \"량\", \"禮\", \"鐘\", \"웅\", \"樺\", \"석\", \"옆\", \"깽\", \"祐\", \"洋\", \"뭥\", \"빛\", \"옌\", \"젤\", \"샀\", \"뒤\", \"굵\", \"붐\", \"메\", \"²\", \"C\", \"잭\", \"ń\", \"Ⅷ\", \"엔\", \"機\", \"댈\", \"地\", \"原\", \"녀\", \"남\", \"星\", \"係\", \"괴\", \"곶\", \"뜹\", \"퀄\", \"즐\", \"六\", \"챙\", \"필\", \"呪\", \"압\", \"랭\", \"뉘\", \"근\", \"셀\", \"用\", \"v\", \"解\", \"콘\", \"經\", \"홈\", \"험\", \"분\", \"직\", \"廟\", \"펌\", \"햄\", \"낡\", \"탈\", \"컷\", \"앵\", \"똥\", \"놔\", \"申\", \"콥\", \"≪\", \"쬐\", \"듬\", \"高\", \"쫓\", \"的\", \"봄\", \"ㅣ\", \"교\", \"外\", \"구\", \"잊\", \"닿\", \"㉰\", \"절\", \"낫\", \"바\", \"븐\", \"◎\", \"육\", \"九\", \"례\", \"죽\", \"느\", \"옥\", \"겠\", \"▒\", \"♧\", \"점\", \"똑\", \"榜\", \"說\", \"것\", \"새\", \"곰\", \"룹\", \"琪\", \"金\", \"🚨\", \"🗺\", \"武\", \"標\", \"㎍\", \"日\", \"땡\", \"섣\", \"렁\", \"록\", \"묶\", \"조\", \"⇒\", \"틀\", \"藝\", \"봉\", \"왠\", \"섦\", \"毛\", \"겁\", \"唐\", \"낀\", \"福\", \"혁\", \"판\", \"致\", \"쨌\", \"◾\", \"뜨\", \"좁\", \"돋\", \"主\", \"吳\", \"關\", \"롱\", \"얏\", \"팍\", \"死\", \"江\", \"常\", \"힉\", \"댔\", \"は\", \"眞\", \"쌍\", \"『\", \"多\", \"높\", \"쾅\", \"굽\", \"特\", \"더\", \"줏\", \"보\", \"☆\", \"淨\", \"긍\", \"不\", \"쌈\", \"角\", \"폿\", \"紀\", \"닳\", \"닷\", \"資\", \"젝\", \"겨\", \"』\", \"아\", \"칵\", \"웰\", \"범\", \"약\", \"⁴\", \"발\", \"멕\", \"上\", \"츠\", \"텔\", \"💣\", \"🔹\", \"↔\", \"빙\", \"ᴄ\", \"혜\", \"망\", \"맡\", \"そ\", \"管\", \"챗\", \"\", \"궜\", \"榮\", \"낳\", \"꺽\", \"맥\", \"善\", \"「\", \"ㅁ\", \"죤\", \"둘\", \"쩔\", \"폄\", \"션\", \"눔\", \"죠\", \"쐬\", \"턱\", \"틸\", \"대\", \"상\", \"劫\", \"융\", \"國\", \"걷\", \"쐐\", \"믄\", \"신\", \"뒀\", \"贖\", \"火\", \"飾\", \"웍\", \"K\", \"퀸\", \"뀔\", \"神\", \"면\", \"X\", \"諒\", \"끄\", \"할\", \"홋\", \"뗀\", \"友\", \"툼\", \"흐\", \"拘\", \"룩\", \"ㅇ\", \"‧\", \"문\", \"슷\", \"不\", \"陰\", \"왓\", \"믹\", \"탐\", \"엎\", \"계\", \"帝\", \"퀘\", \"라\", \"◐\", \"食\", \"엠\", \"짙\", \"💸\", \"풍\", \"돔\", \"짠\", \"빠\", \"쌓\", \"쉰\", \"갚\", \"강\", \"도\", \"휴\", \"光\", \"病\", \"天\", \"맵\", \"킹\", \"광\", \"語\", \"끙\", \"쿤\", \"될\", \"낚\", \"엮\", \"락\", \"엡\", \"볍\", \"汰\", \"헛\", \"머\", \"틋\", \"②\", \"염\", \"겔\", \"째\", \"밌\", \":\", \"콩\", \"♤\", \"」\", \"쉬\", \"놨\", \"궈\", \"濁\", \"뺑\", \"튜\", \"반\", \"‪\", \"ㅡ\", \"滅\", \"‍\", \"월\", \"U\", \"商\", \"薄\", \"옐\", \"띄\", \"업\", \"띠\", \"곧\", \"둠\", \"Ⅴ\", \"냈\", \"랄\", \"같\", \"E\", \"귤\", \"쏠\", \"릭\", \"改\", \"華\", \"헌\", \"🙋\", \"斗\", \"犬\", \"앗\", \"코\", \"L\", \"題\", \"次\", \"뭘\", \"듈\", \"끊\", \"겪\", \"ㅕ\", \"똘\", \"박\", \"●\", \"외\", \"노\", \"쥐\", \"婚\", \"배\", \"늘\", \"뿐\", \"콜\", \"좇\", \"結\", \"℃\", \"삣\", \"和\", \"촛\", \"객\", \"쏜\", \"께\", \"딜\", \"꾸\", \"징\", \"뢰\", \"種\", \"껏\", \"셸\", \"찜\", \"웹\", \"梁\", \"탰\", \"흉\", \"넹\", \"政\", \"反\", \"훼\", \"척\", \"쵸\", \"🍟\", \"驚\", \"弊\", \"ㅙ\", \"재\", \"家\", \"》\", \"충\", \"왔\", \"自\", \"떳\", \"떻\", \"君\", \"채\", \"삘\", \"《\", \"얽\", \"웬\", \"찌\", \"➍\", \"否\", \"주\", \"푸\", \"長\", \"맺\", \"🏫\", \"찮\", \"템\", \"大\", \"奉\", \"立\", \"能\", \"칸\", \"씬\", \"난\", \"뱅\", \"ㅈ\", \"팎\", \"띤\", \"◀\", \"펼\", \"◈\", \"휠\", \"月\", \"류\", \"냐\", \"낄\", \"뫼\", \"나\", \"꽉\", \"케\", \"랍\", \"笠\", \"잇\", \"뇌\", \"獻\", \"拜\", \"값\", \"잃\", \"쳇\", \"맛\", \"㎥\", \"쩡\", \"▣\", \"敬\", \"칼\", \"姜\", \"流\", \"쥔\", \"볶\", \"옹\", \"능\", \"팝\", \"👋\", \"덩\", \"👨\", \"캔\", \"악\", \"靈\", \"딩\", \"췌\", \"밥\", \"승\", \"制\", \"ㄱ\", \"닮\", \"俠\", \"◇\", \"♀\", \"싼\", \"弛\", \"동\", \"極\", \"何\", \"됨\", \"챌\", \"켤\", \"읍\", \"옴\", \"렀\", \"덮\", \"병\", \"옛\", \"헐\", \"설\", \"앓\", \"꿀\", \"녕\", \"어\", \"싶\", \"ㅓ\", \"날\", \"쑤\", \"폐\", \"귀\", \"十\", \"춰\", \"뇨\", \"훔\", \"차\", \"ⅳ\", \"꾀\", \"갇\", \"챨\", \"侯\", \"돼\", \"네\", \"S\", \"헤\", \"陳\", \"D\", \"團\", \"껑\", \"샹\", \"公\", \"퀵\", \"푹\", \"魚\", \"튀\", \"妻\", \"센\", \"경\", \"람\", \"겸\", \"렘\", \"某\", \"ⓒ\", \"렇\", \"ㅝ\", \"坐\", \"掌\", \"테\", \"性\", \"留\", \"術\", \"※\", \"핍\", \"헨\", \"初\", \"창\", \"🍔\", \"授\", \"곳\", \"摩\", \"포\", \"걱\", \"發\", \"밋\", \"간\", \"썬\", \"최\", \"싱\", \"烏\", \"譯\", \"젖\", \"블\", \"엄\", \"솟\", \"훗\", \"Ⅳ\", \"폈\", \"뵐\", \"성\", \"랑\", \"셜\", \"쟁\", \"|\", \"궐\", \"好\", \"릉\", \"힜\", \"氣\", \"美\", \"퓰\", \"▲\", \"쳤\", \"永\", \"꿈\", \"ã\", \"술\", \"꼭\", \"⑴\", \"향\", \"液\", \"て\", \"分\", \"겟\", \"흡\", \"믿\", \"ㅗ\", \"얕\", \"同\", \"⑶\", \"뻤\", \"땐\", \"故\", \"윌\", \"림\", \"한\", \"탓\", \"쩌\", \"ㅆ\", \"떤\", \"깔\", \"俗\", \"투\", \"拮\", \"ᴍ\", \"章\", \"Ⅰ\", \"被\", \"載\", \"科\", \"응\", \"向\", \"🍕\", \"걍\", \"홀\", \"샌\", \"카\", \"괜\", \"캇\", \"엑\", \"잖\", \"合\", \"깨\", \"잘\", \"「\", \"롤\", \"堯\", \"화\", \"넵\", \"銀\", \"賣\", \"묵\", \"너\", \"․\", \"훌\", \"수\", \"답\", \"Ⅶ\", \"찬\", \"回\", \"착\", \"핸\", \"낱\", \"뼘\", \"일\", \"ㅚ\", \"펴\", \"擒\", \"캘\", \"폰\", \"邑\", \"곤\", \"〕\", \"❤\", \"類\", \"🥁\", \"개\", \"윗\", \"壽\", \"ʏ\", \"尤\", \"축\", \"Q\", \"듀\", \"봅\", \"業\", \"獨\", \"◦\", \"밟\", \"?\", \"易\", \"래\", \"쇼\", \"뤘\", \"🤭\", \"켐\", \"系\", \"협\", \"書\", \"낼\", \"쟈\", \"려\", \"름\", \"Ⅵ\", \"祉\", \"💦\", \"올\", \"취\", \"野\", \"軍\", \"켰\", \"틱\", \"흰\", \"≤\", \"민\", \"�\", \"쌀\", \"흗\", \"예\", \"毒\", \"濟\", \"字\", \"出\", \"밍\", \"캉\", \"넛\", \"돗\", \"峰\", \"숏\", \"ⓔ\", \"걀\", \"序\", \"득\", \"🌵\", \"밭\", \"팠\", \"選\", \"道\", \"쁜\", \"륜\", \"@\", \"균\", \"💕\", \"덜\", \"쪄\", \"️\", \"🤗\", \"對\", \"긋\", \"력\", \"ㅅ\", \"駐\", \"밴\", \"지\", \"렌\", \"흥\", \"쓕\", \"젓\", \"롯\", \"궤\", \"겉\", \"핵\", \"뼈\", \"산\", \"⑸\", \"🍰\", \"意\", \"톨\", \"낌\", \"꽁\", \"잠\", \"벅\", \"훅\", \"놓\", \"현\", \"베\", \"🤔\", \"썩\", \"랜\", \"촨\", \"슨\", \"뱀\", \"멜\", \"뤼\", \"썸\", \"액\", \"皇\", \"헬\", \"第\", \"졸\", \"엣\", \"칠\", \"曰\", \"실\", \"짚\", \"갈\", \"릴\", \"추\", \"갔\", \"*\", \"七\", \"셌\", \"↕\", \"줘\", \"언\", \"듯\", \"끓\", \"낙\", \"秋\", \"N\", \"넥\", \"냥\", \"族\", \"‥\", \"젠\", \"뻑\", \"닙\", \"民\", \"탱\", \"뜩\", \"씩\", \"있\", \"★\", \"믐\", \"들\", \"켄\", \"新\", \"았\", \"所\", \"뮐\", \"一\", \"갱\", \"갭\", \"섯\", \"떼\", \"치\", \"♥\", \"잔\", \"山\", \"페\", \"첩\", \"걔\", \"헉\", \"헝\", \"適\", \"우\", \"촉\", \"렐\", \"백\", \"㉣\", \"툭\", \"살\", \"꽤\", \"셉\", \"봇\", \"쩐\", \"저\", \"㎡\", \"ㅎ\", \"빅\", \"쿨\", \"冬\", \"뒷\", \"射\", \"ⅰ\", \"쨍\", \"🙆\", \"立\", \"魔\", \"쾨\", \"面\", \"침\", \"🚿\", \"요\", \"才\", \"蟄\", \"○\", \"봐\", \"닝\", \"원\", \"짜\", \"억\", \"벚\", \"댐\", \"으\", \"몇\", \"利\", \"윤\", \"ㄴ\", \"짧\", \"然\", \"邦\", \"년\", \"安\", \"集\", \"乃\", \"竹\", \"촬\", \"굳\", \"녹\", \"즉\", \"큐\", \"員\", \"生\", \"얍\", \"🏻\", \"밸\", \"ㅠ\", \"환\", \"쫀\", \"뺐\", \"Z\", \"듣\", \"찔\", \"켓\", \"志\", \"열\", \"즌\", \"태\", \"宮\", \"樂\", \"革\", \"싣\", \"매\", \"활\", \"른\", \"층\", \"멈\", \"덴\", \"古\", \"相\", \"습\", \"럭\", \"H\", \"乳\", \"랙\", \"길\", \"탬\", \"잤\", \"情\", \" \", \"줌\", \"蒙\", \"♪\", \"딱\", \"장\", \"己\", \"良\", \"눈\", \"쎈\", \"⚀\", \"폴\", \"곡\", \"居\", \"仁\", \"과\", \"꿕\", \"英\", \"였\", \"G\", \"위\", \"숙\", \"⊙\", \"ⅲ\", \"命\", \"횡\", \"쎄\", \"둡\", \"水\", \"↑\", \"맷\", \"ㅘ\", \"뭉\", \"綃\", \"제\", \"녜\", \"陽\", \"雙\", \"넘\", \"氷\", \"뻔\", \"😗\", \"팟\", \"벨\", \"쭉\", \"ㅊ\", \"雪\", \"짬\", \"이\", \"쑥\", \"탁\", \"숫\", \"왼\", \"밖\", \"짐\", \"至\", \"끗\", \"흔\", \"탠\", \"〮\", \"음\", \"康\", \"投\", \"관\", \"뜻\", \"▼\", \"팬\", \"뿌\", \"땅\", \"돠\", \"프\", \"컴\", \"쏭\", \"J\", \"節\", \"촌\", \"뮌\", \"빌\", \"荻\", \"숯\", \"땀\", \"눌\", \"법\", \"앉\", \"힐\", \"퇴\", \"굿\", \"꿇\", \"졌\", \"끝\", \"W\", \"ㄹ\", \"꼬\", \"草\", \"龍\", \"핏\", \"德\", \"밝\", \"사\", \"복\", \"칭\", \"펀\", \"중\", \"乙\", \"쒀\", \"공\", \"🙇\", \"토\", \"史\", \"朝\", \"臺\", \"죄\", \"白\", \"골\", \"쁘\", \"思\", \"빔\", \"城\", \"뾱\", \"ç\", \"준\", \"슴\", \"罰\", \"쩍\", \"얄\", \"퓨\", \"④\", \"뚝\", \"峴\", \"킥\", \"벽\", \"➋\", \"데\", \"價\", \"謝\", \"求\", \"璿\", \"짢\", \"행\", \"령\", \"숨\", \"써\", \"빚\", \"삼\", \"ㅒ\", \"십\", \"。\", \"論\", \"짱\", \"펙\", \"海\", \"댁\", \"슬\", \"쁨\", \"哀\", \"曆\", \"셨\", \"접\", \"캐\", \"율\", \"북\", \"院\", \"世\", \"靑\", \"내\", \"陸\", \"줍\", \"析\", \"詔\", \"會\", \"톱\", \"온\", \"▶\", \"正\", \"將\", \"林\", \"킁\", \"을\", \"比\", \"😂\", \"ⅱ\", \"눴\", \"만\", \"씨\", \"딥\", \"쪼\", \"三\", \"끔\", \"뀐\", \"덟\", \"합\", \"手\", \"옳\", \"옵\", \"흩\", \"랩\", \"빼\", \"韜\", \"🍭\", \"펠\", \"途\", \"챔\", \"크\", \"렸\", \"첸\", \"​\", \"紋\", \"‬\", \"끽\", \"딛\", \"늄\", \"ᴀ\", \"者\", \"덧\", \"띈\", \"혈\", \"弟\", \"썅\", \"①\", \"훠\", \"탄\", \"窮\", \"두\", \"△\", \"꽂\", \"…\", \"쏘\", \"궁\", \"洞\", \"法\", \"팽\", \"톡\", \"🦄\", \"緞\", \"져\", \"實\", \"칫\", \"I\", \"돈\", \"臀\", \"換\", \"탕\", \"趺\", \"五\", \"삶\", \"料\", \"납\", \"알\", \"방\", \"깁\", \"🦅\", \"學\", \"쓴\", \"벳\", \"틈\", \"빕\", \"巡\", \"옷\", \"👍\", \"턴\", \"❍\", \"房\", \"폼\", \"離\", \"∙\", \"ㅏ\", \"비\", \"냅\", \"떡\", \"마\", \"금\", \"의\", \"無\", \"멋\", \"삿\", \"틔\", \"✈\", \"쉽\", \"섞\", \"ㅑ\", \"🌳\", \"뜰\", \"섰\", \"픕\", \"딤\", \"ㅔ\", \"誡\", \"信\", \"F\", \"썹\", \"川\", \"女\", \"春\", \"➏\", \"놈\", \"燭\", \"송\", \"본\", \"첨\", \"소\", \"목\", \"거\", \"뱃\", \"또\", \"파\", \"를\", \"뛴\", \"敎\", \"맘\", \"뺏\", \"㈜\", \"쯤\", \"愛\", \"짝\", \"냠\", \"호\", \"킴\", \"떄\", \"다\", \"깅\", \"門\", \"좌\", \"쿠\", \"떠\", \"└\", \"頭\", \"낮\", \"臥\", \"굉\", \"터\", \"🤟\", \"닥\", \"孝\", \"략\", \"딸\", \"ɪ\", \"캡\", \"텍\", \"ㅟ\", \"찾\", \"徳\", \"心\", \"깊\", \"퀀\", \"춤\", \"웃\", \"덕\", \"읊\", \"욥\", \"냄\", \"璣\", \"르\", \"歲\", \"💡\", \"솔\", \"롬\", \"륭\", \"맴\", \"鮮\", \"뮈\", \"암\", \"쥰\", \"렴\", \"슐\", \"劍\", \"뻗\", \"팹\", \"빈\", \"품\", \"밑\", \"쌩\", \"ᴡ\", \"퉁\", \"텁\", \"천\", \"貿\", \"툴\", \"램\", \"앎\", \"M\", \"때\", \"럽\", \"꺾\", \"종\", \"톰\", \"첼\", \"님\", \"텅\", \"키\", \"治\", \"손\", \"책\", \"뜬\", \"측\", \"꼈\", \"영\", \"빨\", \"時\", \"찢\", \"뺀\", \"瀧\", \"◑\", \"밉\", \"낍\", \"철\", \"봤\", \"←\", \"깝\", \"렵\", \"털\", \"갉\", \"학\", \"캠\", \"혼\", \"튬\", \"릇\", \"둬\", \"쥬\", \"탭\", \"略\", \"커\", \"었\", \"함\", \"뤄\", \"튼\", \"흘\", \"뭐\", \"悧\", \"엉\", \"좀\", \"빗\", \"肉\", \"에\", \"좋\", \"O\", \"벤\", \"뚜\", \"택\", \"里\", \"운\", \"뛸\", \"얼\", \"】\", \"벙\", \"望\", \"섬\", \"킨\", \"획\", \"뿍\", \"통\", \"協\", \"레\", \"퍼\", \"힙\", \"닭\", \"ㅋ\", \"삽\", \"럼\", \"體\", \"고\", \"했\", \"퍽\", \"뮬\", \"布\", \"팁\", \"쁠\", \"싸\", \"꺄\", \"벗\", \"宋\", \"켜\", \"꽝\", \"😱\", \"왜\", \"③\", \"급\", \"싫\", \"힘\", \"앨\", \"ㄷ\", \"色\", \"깡\", \"皮\", \"숍\", \"컵\", \"얻\", \"닐\", \"🤕\", \"멤\", \"즙\", \"뵙\", \"던\", \"엿\", \"戊\", \"옮\", \"펩\", \"맑\", \"ω\", \"혀\", \"現\", \"💌\", \"잡\", \"렉\", \"작\", \"참\", \"몫\", \"쫗\", \"완\", \"렷\", \"킌\", \"검\", \"넣\", \"좆\", \"낯\", \"程\", \"캣\", \"鎭\", \"촘\", \"빵\", \"용\", \"눠\", \"눅\", \"폭\", \"픔\", \"팩\", \"앰\", \"웁\", \"🌿\", \"총\", \"무\", \"극\", \"플\", \"특\", \"여\", \"理\", \"휘\", \"紙\", \"쯔\", \"壞\", \"결\", \"엇\", \"›\", \"팜\", \"룬\", \"양\", \"쌉\", \"쪽\", \"트\", \"색\", \"듭\", \"큽\", \"엘\", \"뭇\", \"◼\", \"딧\", \"黃\", \"표\", \"몹\", \"目\", \"‎\", \"담\", \"뽑\", \"✔\", \"희\", \"픽\", \"人\", \"랫\", \"생\", \"확\", \"번\", \"堂\", \"Ⅹ\", \"며\", \"힌\", \"⑧\", \"♡\", \"應\", \"텝\", \"🍎\", \"켠\", \"꼽\", \"텐\", \"슈\", \"짤\", \"쓰\", \"하\", \"代\", \"像\", \"킬\", \"씽\", \"明\", \"😭\", \"R\", \"北\", \"맬\", \"男\", \"기\", \"中\", \"팡\", \"핥\", \"穀\", \"ㆍ\", \"및\", \"맨\", \"큰\", \"륨\", \"間\", \"戌\", \"훈\", \"始\", \"렛\", \"펑\", \"蜀\", \"효\", \"農\", \"∮\", \"볕\", \"흙\", \"土\", \"각\", \"체\", \"링\", \"參\", \"벼\", \"方\", \"륵\", \"專\", \"殺\", \"콰\", \"槪\", \"卒\", \"꿰\", \"탑\", \"觸\", \"빤\", \"타\", \"師\", \"峙\", \"국\", \"變\", \"많\", \"渴\", \"卽\", \"낸\", \"☀\", \"롸\", \"깜\", \"홑\", \"홉\", \"샷\", \"齋\", \"샴\", \"P\", \"し\", \"쫑\", \"읽\", \"앞\", \"늬\", \"す\", \"츈\", \"存\", \"픈\", \"―\", \"친\", \"왁\", \"클\", \"연\", \"맞\", \"뀌\", \"굶\", \"큼\", \"뎀\", \"댄\", \"巳\", \"□\", \"宗\", \"ᴛ\", \"八\", \"늙\", \"갓\", \"건\", \"숭\", \"명\", \"글\", \"왕\", \"야\", \"존\", \"갯\", \"百\", \"히\", \"씌\", \"욜\", \"풀\", \"詠\", \"풋\", \"짊\", \"게\", \"솥\", \"괄\", \"롭\", \"슝\", \"金\", \"못\", \"胡\", \"쾌\", \"돌\", \"껍\", \"부\", \"볼\", \"衛\", \"단\", \"흄\", \"앙\", \"막\", \"쟤\", \"났\", \"際\", \"魯\", \"샬\", \"덤\", \"屠\", \"盟\", \"멍\", \"튄\", \"∼\", \"뜯\", \"덥\", \"잎\", \"깐\", \"쓸\", \"인\", \"집\", \"뚫\", \"南\", \"御\", \"곁\", \"⑹\", \"±\", \"놀\", \"입\", \"벌\", \"ㅜ\", \"典\", \"그\", \"겹\", \"갤\", \"넷\", \"▷\", \"흠\", \"킷\", \"콕\", \"톤\", \"쇠\", \"릎\", \"식\", \"낭\", \"련\", \"허\", \"칩\", \"枯\", \"멘\", \"👏\", \"감\", \"課\", \"識\", \"텨\", \"😊\", \"群\", \"없\", \"㏊\", \"런\", \"되\", \"묻\", \"客\", \"모\", \"빴\", \"켈\", \"릿\", \"行\", \"둥\", \"츄\", \"뉜\", \"쿡\", \"텀\", \"훨\", \"쉼\", \"속\", \"밧\", \"격\", \"昭\", \"빳\", \"률\", \"넬\", \"Ⅱ\", \"亭\", \"럿\", \"엽\", \"숟\", \"브\", \"內\", \"녘\", \"뽐\", \"횟\", \"륙\", \"욱\", \"퍙\", \"팅\", \"➌\", \"튿\", \"묘\", \"部\", \"쿵\", \"警\", \"\", \"包\", \"췄\", \"【\", \"衣\", \"藥\", \"질\", \"햇\", \"춘\", \"쿼\", \"悖\", \"즈\", \"녁\", \"섭\", \"댓\", \"폍\", \"럴\", \"랴\", \"변\", \"선\", \"둑\", \"갑\", \"〈\", \"貸\", \"홍\", \"시\", \"子\", \"韓\", \"삭\", \"팥\", \"툰\", \"ᴏ\", \"랬\", \"⋅\", \"夜\", \"껴\", \"述\", \"곱\", \"聖\", \"견\", \"킵\", \"닛\", \"ㅍ\", \"쇄\", \"뿔\", \"맹\", \"平\", \"료\", \"형\", \"籍\", \"뮤\", \"랐\", \"족\", \"仲\", \"울\", \"理\", \"딘\", \"닫\", \"은\", \"초\", \"해\", \"꿔\", \"세\", \"↓\", \"直\", \"불\", \"뛰\", \"적\", \"녔\", \"붕\", \"🙌\", \"交\", \"T\", \"修\", \"닌\", \"守\", \"累\", \"후\", \"늑\", \"朱\", \"오\", \"썰\", \"말\", \"쉴\", \"㎞\", \"않\", \"욕\", \"룡\", \"飮\", \"샤\", \"잰\", \"팰\", \"편\", \"얘\", \"순\", \"王\", \"抗\", \"年\", \"웨\", \"휙\", \"당\", \"事\", \"亨\", \"」\", \"맙\", \"짓\", \"잦\", \"임\", \"윈\", \"섹\", \"핀\", \"논\", \"핫\", \"知\", \"푼\", \"假\", \"워\", \"💰\", \"싯\", \"A\", \"먹\", \"🍞\", \"い\", \"굴\", \"뭔\", \"甲\", \"핑\", \"받\", \"技\", \"찍\", \"숲\", \"피\", \"듐\", \"¹\", \"싹\", \"㉠\", \"숱\", \"왘\", \"닉\", \"ㅖ\", \"닦\", \"☎\", \"가\", \" \", \"널\", \"콤\", \"≫\", \"귈\", \"붙\", \"솨\", \"씹\", \"는\", \"띕\", \"껀\", \"⑥\", \"첫\", \"론\", \"잉\", \"씀\", \"젊\", \"蚩\", \"😣\", \"정\", \"꼴\", \"쭙\", \"떴\", \"☞\", \"界\", \"규\", \"군\", \"줬\", \"樂\", \"社\", \"戮\", \"兄\", \"앱\", \"〔\", \"V\", \"밀\", \"넌\", \"꽃\", \"퀴\", \"루\", \"ㅞ\", \"有\", \"뻐\", \"′\", \"끈\", \"\", \"깃\", \"청\", \"물\", \"곽\", \"勢\", \"밤\", \"漢\", \"릅\", \"냉\", \"슛\", \"앤\", \"와\", \"➎\", \"컨\", \"됩\", \"빡\", \"잣\", \"걸\", \"패\", \"衡\", \"童\", \"❏\", \"잼\", \"쭈\", \"米\", \"컸\", \"쫄\", \"몸\", \"︎\", \"떨\", \"龍\", \"권\", \"긴\", \"멸\", \"캄\", \"드\", \"줄\", \"­\", \"란\", \"⑨\", \"몽\", \"넓\", \"〉\", \"혐\", \"谷\", \"펜\", \"봬\", \"윙\", \"따\", \"애\", \"솜\", \"➊\", \"돕\", \"샘\", \"・\", \"셋\", \"갖\", \"붉\", \"즘\", \"끌\", \"웖\", \"룰\", \"動\", \"미\", \"꿨\", \"흑\", \"등\", \"갛\", \"寛\", \"💅\", \"됬\", \"멀\", \"든\", \"⑦\", \"틴\", \"러\", \"뱉\", \"뷰\", \"썼\", \"튠\", \"벵\", \"전\", \"렜\", \"짖\", \"니\", \"女\", \"뜸\", \"雄\", \"유\", \"서\", \"누\", \"辰\", \"삐\", \"津\", \"全\", \"쿰\", \"之\", \"된\", \"처\", \"♣\", \"💥\", \"깥\", \"별\", \"쫒\", \"움\", \"쳐\", \"혹\", \"티\", \"쿄\", \"數\", \"Ⅸ\", \"⬇\", \"안\", \"겼\", \"항\", \"델\", \"뽀\", \"覆\", \"됐\", \"컬\", \"🏷\", \"긁\", \"칙\", \"심\", \"회\", \"잴\", \"평\", \"찰\", \"겐\", \"꺼\", \"스\", \"샵\", \"휩\", \"훑\", \"황\", \"역\", \"s\", \"副\", \"웠\", \"셰\", \"렬\", \"雲\", \"言\", \"可\", \"B\", \"눕\", \"⑤\", \"口\", \"씻\", \"化\", \"익\", \"軒\", \"찼\", \"얇\", \"팀\", \"£\", \"茅\", \"펄\", \"뷔\", \"耕\", \"진\", \"下\", \"짭\", \"딴\", \"붓\", \"ㅛ\", \"樹\", \"玉\", \"後\", \"룸\", \"뉴\", \"跏\", \"괌\", \"팔\", \"Y\", \"샐\", \"독\", \"꿍\", \"脱\", \"춥\", \"淘\", \"㉿\", \"얹\", \"자\", \"끼\", \"先\", \"땠\", \"ㅐ\", \"⑵\", \"린\", \"工\", \"셈\", \"늦\", \"므\", \"둔\", \"춧\", \"김\", \"엌\", \"Ⅲ\", \"출\", \"쏟\", \"농\", \"꾼\", \"◆\", \"뿜\", \"京\", \"디\", \"얀\", \"쉘\", \"로\", \"몰\", \"립\", \"딪\", \"까\", \"념\", \"文\", \"뎅\", \"넨\", \"東\", \"ʟ\", \"燦\", \"몬\", \"쏙\", \"ㅢ\", \"혔\", \"넉\", \"달\", \"리\"]", + "lossless": false + }, + "dbmdz/bert-base-german-uncased @ cc100/zh-Hans": { + "tokenizer": "bert-base-german-uncased", + "organization": "dbmdz", + "vocab_size": 31102, + "_n_bytes": 2633047, + "_n_tokens": 879155, + "_n_chars": 927311, + "_n_oov_chars": 870676, + "oov_ratio": 0.9389255600332574, + "_oov_charset": "[\"%\", \"调\", \"共\", \"骰\", \"饶\", \"痫\", \"芬\", \"瘠\", \"缝\", \"弗\", \"敏\", \"姚\", \"称\", \"\\b\", \"墓\", \"讥\", \"丙\", \"篢\", \"玛\", \"陪\", \"株\", \"饿\", \"欠\", \"其\", \"黩\", \"俭\", \"沧\", \"逑\", \"洋\", \"硫\", \"旆\", \"敞\", \"弘\", \"榭\", \"场\", \"曾\", \"糠\", \"挈\", \"巧\", \"诶\", \"码\", \"份\", \"岖\", \"C\", \"徘\", \"滞\", \"荣\", \"咎\", \"扇\", \"鲍\", \"逊\", \"地\", \"原\", \"凭\", \"睿\", \"袱\", \"籽\", \"珠\", \"揽\", \"星\", \"划\", \"昂\", \"拗\", \"娇\", \"甘\", \"醋\", \"浚\", \"诱\", \"枝\", \"姻\", \"芙\", \"曼\", \"馏\", \"唬\", \"席\", \"轩\", \"浞\", \"加\", \"六\", \"篝\", \"桥\", \"泽\", \"咖\", \"劈\", \"捍\", \"皱\", \"用\", \"解\", \"压\", \"闸\", \"叩\", \"淆\", \"T\", \"蝉\", \"豁\", \"饰\", \"喔\", \"/\", \"肘\", \"\", \"丹\", \"虽\", \"睐\", \"闫\", \"钞\", \"饮\", \"曳\", \"缔\", \"卤\", \"涤\", \"坚\", \"纬\", \"毙\", \"啜\", \"括\", \"钦\", \"蜡\", \"申\", \"疙\", \"蜥\", \"欸\", \"厥\", \"供\", \"卷\", \"夺\", \"鸩\", \"寥\", \"歉\", \"挲\", \"涮\", \"探\", \"挽\", \"高\", \"赖\", \"峨\", \"的\", \"种\", \"微\", \"璧\", \"紫\", \"找\", \"赢\", \"饽\", \"需\", \"外\", \"旋\", \"炫\", \"瑕\", \"冰\", \"窒\", \"勃\", \"侃\", \"值\", \"斧\", \"筷\", \"孜\", \"嵘\", \"献\", \"熄\", \"仓\", \"ト\", \"鬼\", \"撼\", \"九\", \"韧\", \"埋\", \"役\", \"轶\", \"迄\", \"埃\", \"陌\", \"刹\", \"够\", \"秆\", \"粉\", \"肛\", \"榜\", \"弓\", \"浇\", \"吃\", \"赠\", \"唆\", \"蒋\", \"该\", \"金\", \"简\", \"层\", \"琪\", \"武\", \"嫂\", \"溃\", \"遂\", \"雅\", \"谴\", \"谛\", \"日\", \"溯\", \"標\", \"孩\", \"困\", \"寨\", \"轨\", \"脯\", \"糖\", \"船\", \"剧\", \"牌\", \"泄\", \"乔\", \"渲\", \"柿\", \"机\", \"孽\", \"衰\", \"晾\", \"歇\", \"惰\", \"穴\", \"蔓\", \"哒\", \"豌\", \"长\", \"哨\", \"坂\", \"辜\", \"裘\", \"円\", \"绚\", \"恺\", \"总\", \"萦\", \"厌\", \"玫\", \"毛\", \"t\", \"擂\", \"眩\", \"吏\", \"腓\", \"睬\", \"幅\", \"域\", \"都\", \"阶\", \"谐\", \"佝\", \"塘\", \"粽\", \"唐\", \"首\", \"跪\", \"虫\", \"福\", \"箭\", \"\\u0007\", \"伦\", \"员\", \"致\", \"询\", \"枕\", \"瘾\", \"卵\", \"梯\", \"損\", \"忑\", \"漂\", \"主\", \"舶\", \"财\", \"垛\", \"酿\", \"精\", \"伤\", \"死\", \"江\", \"常\", \"再\", \"郜\", \"眨\", \"妹\", \"皈\", \"谢\", \"拍\", \"『\", \"多\", \"栏\", \"铩\", \"冀\", \"蓄\", \"颓\", \"菩\", \"飙\", \"焊\", \"催\", \"特\", \"演\", \"懵\", \"磨\", \"塔\", \"俩\", \"娑\", \"畴\", \"岳\", \"却\", \"不\", \"酵\", \"角\", \"蕾\", \"炖\", \"赤\", \"诠\", \"挪\", \"惺\", \"础\", \"远\", \"仕\", \"育\", \"掺\", \"』\", \"筋\", \"資\", \"谧\", \"怕\", \"逃\", \"萧\", \"吞\", \"戍\", \"茨\", \"嘛\", \"尊\", \"臊\", \"皿\", \"敢\", \"畸\", \"逛\", \"栽\", \"上\", \"瞳\", \"味\", \"鉴\", \"冯\", \"孕\", \"畜\", \"钢\", \"锄\", \"辽\", \"驳\", \"读\", \"藤\", \"剩\", \"藉\", \"栈\", \"簇\", \"庚\", \"本\", \"针\", \"耶\", \"溉\", \"颜\", \"汀\", \"管\", \"抢\", \"抖\", \"3\", \"浊\", \"盒\", \"彗\", \"善\", \"棺\", \"烊\", \"亿\", \"丈\", \"义\", \"缚\", \"蹲\", \"竿\", \"羚\", \"胳\", \"跋\", \"咸\", \"髓\", \"岣\", \"隆\", \"笨\", \"琢\", \"採\", \"尿\", \"\", \"鹭\", \"侦\", \"语\", \"赎\", \"旖\", \"呆\", \"荨\", \"劫\", \"曦\", \"呈\", \"玻\", \"元\", \"点\", \"呗\", \"侬\", \"侮\", \"锋\", \"桦\", \"兴\", \"舰\", \"祛\", \"尾\", \"嫖\", \"暇\", \"楔\", \"功\", \"泊\", \"奏\", \"虎\", \"建\", \"睁\", \"了\", \"眼\", \"晰\", \"横\", \"火\", \"渡\", \"疗\", \"茧\", \"盏\", \"枪\", \"叼\", \"吻\", \"余\", \"渊\", \"沈\", \"祭\", \"寓\", \"焉\", \"蓟\", \"嗪\", \"呕\", \"晨\", \"祟\", \"经\", \"K\", \"开\", \"豆\", \"犷\", \"炒\", \"楞\", \"樊\", \"挂\", \"汽\", \"传\", \"神\", \"礁\", \"芒\", \"乱\", \"X\", \"稚\", \"岱\", \"の\", \"卿\", \"棚\", \"辣\", \"稳\", \"届\", \"酪\", \"友\", \"辞\", \"册\", \"准\", \"棠\", \"棒\", \"险\", \"训\", \"车\", \"拘\", \"付\", \"毕\", \"邋\", \"涌\", \"臣\", \"姓\", \"旨\", \"馒\", \"坑\", \"亡\", \"乞\", \"吩\", \"撷\", \"靡\", \"瘙\", \"扎\", \"侵\", \"真\", \"裆\", \"韦\", \"衔\", \"扳\", \"肚\", \"呐\", \"挺\", \"耐\", \"挖\", \"帝\", \"佛\", \"此\", \"阜\", \"傻\", \"胆\", \"食\", \"鹿\", \"窜\", \"弦\", \"棋\", \"床\", \"荼\", \"买\", \"暖\", \"框\", \"吝\", \"辐\", \"栗\", \"躇\", \"希\", \"寄\", \"啬\", \"尹\", \"濮\", \"奔\", \"霓\", \"搅\", \"莱\", \"速\", \"裂\", \"收\", \"茏\", \"妙\", \"耸\", \"光\", \"炅\", \"病\", \"天\", \"曝\", \"截\", \"伽\", \"台\", \"铛\", \"钩\", \"显\", \"虐\", \"鄯\", \"汐\", \"樟\", \"噢\", \"舐\", \"鬣\", \"拉\", \"憋\", \"泻\", \"润\", \"座\", \"穿\", \"梁\", \"甜\", \"汰\", \"倏\", \"嗓\", \"怨\", \"呷\", \"②\", \"韫\", \"赚\", \"售\", \"窖\", \"瞻\", \"臻\", \"贡\", \"袋\", \"袒\", \"阵\", \"镭\", \"更\", \":\", \"擎\", \"犟\", \"担\", \"队\", \"替\", \"萄\", \"龙\", \"ὐ\", \"废\", \"」\", \"拷\", \"婪\", \"抱\", \"躁\", \"泾\", \"肤\", \"堕\", \"劣\", \"荤\", \"驻\", \"避\", \"逮\", \"咋\", \"登\", \"研\", \"脆\", \"寡\", \"U\", \"商\", \"忡\", \"薄\", \"践\", \"弯\", \"酬\", \"壑\", \"添\", \"宿\", \"慮\", \"蝶\", \"循\", \"薯\", \"挠\", \"柬\", \"蛛\", \"狄\", \"梅\", \"片\", \"兼\", \"算\", \"碱\", \"屣\", \"舅\", \"示\", \"宪\", \"兆\", \"绥\", \"咱\", \"妨\", \"蚪\", \"介\", \"砍\", \"E\", \"费\", \"象\", \"股\", \"懊\", \"攻\", \"锚\", \"改\", \"巢\", \"9\", \"爆\", \"擞\", \"篮\", \"仗\", \"撤\", \"塑\", \"斗\", \"晖\", \"竺\", \"构\", \"犬\", \"足\", \"今\", \"L\", \"次\", \"挥\", \"r\", \"抡\", \"殉\", \"芯\", \"嚎\", \"湛\", \"或\", \"荷\", \"橱\", \"念\", \"欧\", \"很\", \"芦\", \"嘉\", \"●\", \"俘\", \"篇\", \"擦\", \"丐\", \"炕\", \"邯\", \"效\", \"耍\", \"婚\", \"慌\", \"绅\", \"捐\", \"辙\", \"盲\", \"裴\", \"淖\", \"推\", \"妈\", \"℃\", \"饷\", \"猬\", \"尘\", \"谩\", \"ě\", \"悉\", \"和\", \"握\", \"鞍\", \"楚\", \"鹃\", \"棵\", \"脸\", \"赛\", \"撑\", \"柜\", \"涡\", \"姆\", \"黄\", \"散\", \"袭\", \"扭\", \"在\", \"啡\", \"恨\", \"帐\", \"抹\", \"端\", \"辫\", \"政\", \"妮\", \"帜\", \"鑫\", \"怜\", \"反\", \"拐\", \"颈\", \"晚\", \"禾\", \"坟\", \"饨\", \"累\", \"恩\", \"令\", \"戴\", \"济\", \"泯\", \"浸\", \"渎\", \"愉\", \"懒\", \"弊\", \"ς\", \"储\", \"填\", \"通\", \"家\", \"瑨\", \"腐\", \"杂\", \"》\", \"件\", \"浮\", \"自\", \"逼\", \"督\", \"茎\", \"君\", \"胶\", \"廖\", \"肢\", \"堪\", \"《\", \"延\", \"逻\", \"缠\", \"鹕\", \"默\", \"诞\", \"恶\", \"馆\", \"婶\", \"感\", \"刮\", \"帕\", \"送\", \"挤\", \"轻\", \"急\", \"稻\", \"沐\", \"诅\", \"县\", \"否\", \"奶\", \"恍\", \"惩\", \"矩\", \"毎\", \"铲\", \"洲\", \"狈\", \"脖\", \"巨\", \"连\", \"绎\", \"素\", \"大\", \"页\", \"末\", \"奉\", \"篡\", \"宣\", \"能\", \"姊\", \"郴\", \"等\", \"钻\", \"茉\", \"消\", \"律\", \"憨\", \"察\", \"澜\", \"遴\", \"哄\", \"桐\", \"固\", \"聆\", \"羞\", \"惜\", \"圾\", \"铝\", \"月\", \"召\", \"丸\", \"戸\", \"统\", \"番\", \"á\", \"裕\", \"肃\", \"孔\", \"拭\", \"逅\", \"蕉\", \"倾\", \"氰\", \"绒\", \"箔\", \"邕\", \"儒\", \"拜\", \"彭\", \"扪\", \"漉\", \"缜\", \"殷\", \"皙\", \"境\", \"堡\", \"木\", \"密\", \"韵\", \"茶\", \"_\", \"鲱\", \"忧\", \"徙\", \"蚂\", \"阿\", \"瓶\", \"敬\", \"眷\", \"姜\", \"赂\", \"号\", \"厕\", \"\", \"纱\", \"磁\", \"熬\", \"干\", \"冠\", \"捡\", \"龚\", \"卜\", \"滇\", \"即\", \"叹\", \"牟\", \"饵\", \"判\", \"阽\", \"绸\", \"惘\", \"滴\", \"煮\", \"鞭\", \"竟\", \"瑜\", \"躲\", \"顺\", \"挎\", \"周\", \"制\", \"弹\", \"疵\", \"撇\", \"蒜\", \"问\", \"带\", \"恪\", \"忐\", \"弛\", \"遍\", \"何\", \"凰\", \"鲨\", \"墒\", \"啼\", \"纪\", \"赡\", \"旗\", \"溺\", \"板\", \"憧\", \"踊\", \"罩\", \"韪\", \"袁\", \"褐\", \"腋\", \"翻\", \"俯\", \"培\", \"岐\", \"缩\", \"聪\", \"瓣\", \"突\", \"贸\", \"掘\", \"柳\", \"删\", \"嘈\", \"瓜\", \"馋\", \"哲\", \"十\", \"逍\", \"荒\", \"舎\", \"庞\", \"狼\", \"诺\", \"葬\", \"驰\", \"仙\", \"饼\", \"祢\", \"岔\", \"伏\", \"肝\", \"柘\", \"侯\", \"绽\", \"黯\", \"饱\", \"斌\", \"煌\", \"遮\", \"岑\", \"装\", \"浦\", \"势\", \"俚\", \"S\", \"骛\", \"履\", \"蔬\", \"松\", \"D\", \"〖\", \"拎\", \"粤\", \"公\", \"恙\", \"使\", \"这\", \"锻\", \"忙\", \"娱\", \"勉\", \"酌\", \"诚\", \"淡\", \"栋\", \"质\", \"妻\", \"那\", \"掏\", \"悼\", \"缮\", \"硕\", \"奖\", \"某\", \"腊\", \"坐\", \"讼\", \"掌\", \"藐\", \"璜\", \"价\", \"性\", \"留\", \"普\", \"\", \"捕\", \"涂\", \"※\", \"救\", \"垃\", \"苗\", \"迫\", \"鼯\", \"宝\", \"伴\", \"霄\", \"初\", \"矗\", \"涉\", \"躯\", \"授\", \"渗\", \"泸\", \"凿\", \"淫\", \"摩\", \"厢\", \"膳\", \"残\", \"牠\", \"發\", \"荆\", \"泉\", \"勘\", \"4\", \"畏\", \"痴\", \"井\", \"巴\", \"啦\", \"庄\", \"敌\", \"秒\", \"禧\", \"画\", \"抉\", \"瑄\", \"砂\", \"聋\", \"聚\", \"炳\", \"泵\", \"嗅\", \"醍\", \"奠\", \"碌\", \"牖\", \"派\", \"罐\", \"樯\", \"军\", \"骄\", \"脑\", \"糟\", \"好\", \"喂\", \"美\", \"宾\", \"寿\", \"赔\", \"鹤\", \"▲\", \"永\", \"麦\", \"贫\", \"雕\", \"嘟\", \"揣\", \"蜿\", \"雨\", \"拌\", \"盎\", \"忱\", \"芜\", \"洪\", \"衬\", \"筑\", \"肌\", \"会\", \"⑴\", \"稽\", \"矣\", \"呀\", \"椒\", \"肖\", \"攥\", \"宇\", \"液\", \"匠\", \"耘\", \"霉\", \"分\", \"〝\", \"绪\", \"让\", \"寅\", \"贝\", \"贬\", \"砺\", \"要\", \"降\", \"庶\", \"苹\", \"同\", \"烧\", \"闵\", \"⑶\", \"髻\", \"褪\", \"n\", \"祀\", \"恰\", \"熙\", \"峭\", \"艰\", \"故\", \"单\", \"讪\", \"璎\", \"魂\", \"疾\", \"瓷\", \"淋\", \"橡\", \"厘\", \"狠\", \"刀\", \"睫\", \"啃\", \"淑\", \"烟\", \"枉\", \"誉\", \"寺\", \"瑢\", \"挡\", \"涣\", \"侥\", \"詹\", \"螺\", \"凑\", \"缺\", \"败\", \"附\", \"俗\", \"漠\", \"舞\", \"章\", \"舛\", \"墉\", \"遗\", \"被\", \"均\", \"拦\", \"亥\", \"危\", \"尝\", \"椭\", \"鹅\", \"既\", \"瑒\", \"耙\", \"沓\", \"科\", \"遵\", \"蜴\", \"向\", \"蚤\", \"职\", \"恳\", \"怖\", \"旳\", \"晤\", \"呃\", \"舔\", \"彰\", \"瘤\", \"邬\", \"婿\", \"邸\", \"屑\", \"辟\", \"项\", \"滓\", \"萼\", \"卓\", \"合\", \"佩\", \"距\", \"碎\", \"孙\", \"へ\", \"燎\", \"区\", \"浅\", \"「\", \"兑\", \"豫\", \"慑\", \"袜\", \"拂\", \"赅\", \"富\", \"宏\", \"賣\", \"舟\", \"矮\", \"逾\", \"肩\", \"闯\", \"琴\", \"拯\", \"哭\", \"咚\", \"牧\", \"羁\", \"捞\", \"回\", \"帅\", \"赏\", \"轴\", \"凡\", \"仿\", \"便\", \"芝\", \"榄\", \"斯\", \"阱\", \"莺\", \"牛\", \"殴\", \"纹\", \"些\", \"飞\", \"郎\", \"朵\", \"邑\", \"权\", \"楷\", \"〕\", \"怒\", \"鼠\", \"签\", \"陡\", \"渺\", \"喷\", \"垮\", \"镉\", \"畅\", \"勾\", \"暨\", \"粟\", \"业\", \"尤\", \"ソ\", \"滨\", \"又\", \"侧\", \"赁\", \"愕\", \"Q\", \"尺\", \"动\", \"勿\", \"币\", \"产\", \"呵\", \"啊\", \"聊\", \"肠\", \"置\", \"恣\", \"逆\", \"铁\", \"?\", \"匙\", \"易\", \"寻\", \"瞩\", \"甄\", \"嘤\", \"谑\", \"颁\", \"睑\", \"掂\", \"屹\", \"晕\", \"啐\", \"减\", \"凳\", \"勇\", \"炉\", \"捉\", \"噶\", \"系\", \"腺\", \"蠢\", \"哎\", \"驼\", \"鸥\", \"琛\", \"岭\", \"龟\", \"半\", \"块\", \"厮\", \"祉\", \"姣\", \"i\", \"您\", \"釜\", \"醉\", \"备\", \"槽\", \"响\", \"叙\", \"切\", \"李\", \"野\", \"竭\", \"琐\", \"办\", \"榷\", \"岚\", \"榻\", \"现\", \"巩\", \"狡\", \"爰\", \"�\", \"陛\", \"景\", \"谣\", \"匾\", \"嗜\", \"铮\", \"惶\", \"墟\", \"湮\", \"核\", \"惚\", \"掰\", \"佟\", \"阎\", \"吐\", \"欺\", \"毒\", \"楣\", \"凯\", \"笼\", \"书\", \"丁\", \"亦\", \"確\", \"字\", \"出\", \"卫\", \"锂\", \"诃\", \"蓁\", \"甯\", \"离\", \"腱\", \"就\", \"聿\", \"跷\", \"峰\", \"涛\", \"痘\", \"亟\", \"序\", \"完\", \"扉\", \"极\", \"持\", \"偌\", \"踱\", \"戾\", \"掀\", \"選\", \"道\", \"胸\", \"纂\", \"狳\", \"霏\", \"茸\", \"茄\", \"敷\", \"灭\", \"瀛\", \"踝\", \"弑\", \"肋\", \"葛\", \"疏\", \"串\", \"得\", \"宁\", \"亳\", \"间\", \"董\", \"τ\", \"捂\", \"喱\", \"铨\", \"泳\", \"眺\", \"凛\", \"表\", \"遁\", \"拨\", \"吵\", \"哟\", \"音\", \"骏\", \"啪\", \"潮\", \"鞘\", \"怡\", \"掬\", \"鲤\", \"剂\", \"暑\", \"杆\", \"勤\", \"依\", \"忍\", \"瞟\", \"Ø\", \"昵\", \"⑸\", \"妤\", \"意\", \"跌\", \"宫\", \"择\", \"插\", \"珞\", \"属\", \"我\", \"湖\", \"绕\", \"斋\", \"淅\", \"翡\", \"d\", \"欣\", \"哉\", \"揭\", \"池\", \"鹜\", \"少\", \"渤\", \"惊\", \"戳\", \"伫\", \"拔\", \"虑\", \"迅\", \"潘\", \"医\", \"站\", \"砧\", \"采\", \"ノ\", \"伙\", \"成\", \"气\", \"讶\", \"妃\", \"於\", \"撸\", \"卉\", \"仄\", \"委\", \"皇\", \"第\", \"丢\", \"终\", \"舱\", \"湄\", \"嘘\", \"孤\", \"蔑\", \"喉\", \"凄\", \"壁\", \"摆\", \"躺\", \"岛\", \"严\", \"熏\", \"曰\", \"呜\", \"仔\", \"斛\", \"排\", \"旬\", \"薪\", \"党\", \"护\", \"七\", \"丽\", \"辱\", \"钓\", \"髦\", \"浩\", \"狱\", \"煜\", \"哈\", \"秋\", \"咒\", \"N\", \"裤\", \"2\", \"族\", \"挣\", \"瓦\", \"佐\", \"民\", \"随\", \"键\", \"宜\", \"汝\", \"展\", \"眯\", \"馁\", \"骆\", \"偏\", \"窄\", \"峡\", \"蜒\", \"骗\", \"尉\", \"殖\", \"★\", \"屈\", \"莎\", \"粮\", \"強\", \"掖\", \"新\", \"霆\", \"乘\", \"所\", \"淹\", \"毫\", \"奋\", \"蝗\", \"黛\", \"辩\", \"妄\", \"一\", \"游\", \"疫\", \"粥\", \"烙\", \"兵\", \"瞒\", \"蚓\", \"顽\", \"沿\", \"袍\", \"挨\", \"骅\", \"山\", \"霸\", \"運\", \"轮\", \"疼\", \"甩\", \"氛\", \"创\", \"短\", \"哺\", \"岗\", \"健\", \"滑\", \"嘎\", \"障\", \"嘣\", \"渍\", \"猥\", \"么\", \"递\", \"吸\", \"祥\", \"沸\", \"噪\", \"搡\", \"怔\", \"冬\", \"鳗\", \"宅\", \"胞\", \"莴\", \"\", \"活\", \"猪\", \"浑\", \"射\", \"萝\", \"盐\", \"染\", \"擅\", \"绍\", \"立\", \"拓\", \"魔\", \"脐\", \"拱\", \"堤\", \"面\", \"翰\", \"欢\", \"才\", \"薇\", \"○\", \"翠\", \"倒\", \"孰\", \"剔\", \"朗\", \"锁\", \"瞬\", \"咽\", \"材\", \"协\", \"利\", \"雀\", \"蔡\", \"狰\", \"辖\", \"然\", \"邦\", \"涕\", \"集\", \"安\", \"贿\", \"羽\", \"乃\", \"竹\", \"奘\", \"笛\", \"贮\", \"颌\", \"洗\", \"锥\", \"娥\", \"犯\", \"赋\", \"蓝\", \"擘\", \"昆\", \"鄂\", \"应\", \"钥\", \"咕\", \"氮\", \"生\", \"寸\", \"结\", \"冒\", \"炭\", \"焰\", \"員\", \"穆\", \"僚\", \"根\", \"峥\", \"夸\", \"媒\", \"刁\", \"鸟\", \"苍\", \"魅\", \"Z\", \"径\", \"亵\", \"壮\", \"爹\", \"兹\", \"菌\", \"芳\", \"伊\", \"屄\", \"志\", \"粼\", \"慨\", \"舆\", \"骼\", \"损\", \"炙\", \"丰\", \"革\", \"蜷\", \"淀\", \"谚\", \"蹄\", \"数\", \"僵\", \"藕\", \"隘\", \"披\", \"堆\", \"沏\", \"谬\", \"彼\", \"古\", \"相\", \"柠\", \"继\", \"决\", \"漏\", \"释\", \"H\", \"乳\", \"溅\", \"刻\", \"只\", \"癫\", \"免\", \"以\", \"习\", \"浓\", \"蒸\", \"躬\", \"垠\", \"荏\", \"桓\", \"灯\", \"坡\", \"絮\", \"谱\", \"叠\", \"脊\", \"悠\", \"锢\", \"擀\", \"碰\", \"腑\", \"妒\", \"扣\", \"情\", \"逸\", \"彻\", \"惫\", \" \", \"笔\", \"蒙\", \"徐\", \"瑞\", \"嘲\", \"酱\", \"司\", \"肾\", \"芽\", \"话\", \"己\", \"艺\", \"檐\", \"奈\", \"棉\", \"珉\", \"桌\", \"良\", \"辅\", \"居\", \"舒\", \"栓\", \"般\", \"淌\", \"仁\", \"享\", \"计\", \"佣\", \"娼\", \"虞\", \"浪\", \"撩\", \"晦\", \"刘\", \"炊\", \"弥\", \"趁\", \"聒\", \"挝\", \"厄\", \"⑷\", \"崖\", \"爪\", \"捅\", \"耩\", \"腹\", \"英\", \"告\", \"虔\", \"坯\", \"渠\", \"万\", \"G\", \"昏\", \"命\", \"格\", \"惭\", \"罔\", \"绞\", \"诫\", \"水\", \"↑\", \"啤\", \"併\", \"底\", \"拾\", \"塞\", \"厨\", \"订\", \"伞\", \"劑\", \"莲\", \"拟\", \"蹩\", \"涟\", \"壓\", \"府\", \"舍\", \"诊\", \"赐\", \"跤\", \"伍\", \"蝇\", \"弄\", \"邹\", \"暄\", \"休\", \"咯\", \"走\", \"署\", \"嗣\", \"嚼\", \"彬\", \"侠\", \"沟\", \"寂\", \"振\", \"圈\", \"咙\", \"沾\", \"拳\", \"雪\", \"浆\", \"说\", \"起\", \"秸\", \"热\", \"洛\", \"资\", \"譬\", \"铂\", \"秘\", \"至\", \"愧\", \"条\", \"唠\", \"鼎\", \"炬\", \"琅\", \"哪\", \"灵\", \"贴\", \"无\", \"仅\", \"康\", \"投\", \"鸠\", \"尴\", \"汲\", \"嗲\", \"、\", \"\", \"晗\", \"港\", \"J\", \"枚\", \"霖\", \"觉\", \"抨\", \"左\", \"筹\", \"拙\", \"澎\", \"榴\", \"荻\", \"凋\", \"肆\", \"估\", \",\", \"杯\", \"矶\", \"保\", \"缥\", \"葵\", \"霊\", \"昔\", \"讨\", \"蚀\", \"W\", \"谦\", \"朋\", \"匹\", \"栾\", \"晶\", \"没\", \"喆\", \"草\", \"兰\", \"闷\", \"德\", \"狂\", \"霾\", \"漫\", \"弃\", \"灰\", \"雁\", \"闾\", \"菇\", \"陋\", \"贾\", \"悬\", \"秽\", \"暴\", \"妥\", \"姗\", \"孵\", \"扑\", \"撞\", \"乙\", \"电\", \"爻\", \"攫\", \"每\", \"咐\", \"桔\", \"过\", \"指\", \"迎\", \"厂\", \"毗\", \"娄\", \"璇\", \"荧\", \"模\", \"熔\", \"剖\", \"函\", \"镐\", \"惹\", \"暧\", \"夷\", \"史\", \"朝\", \"纸\", \"骤\", \"白\", \"兜\", \"襟\", \"牒\", \"匀\", \"揖\", \"思\", \"娘\", \"⒃\", \"考\", \"城\", \"怵\", \"5\", \"涯\", \"戏\", \"ç\", \"埂\", \"苯\", \"诬\", \"砾\", \"盗\", \"剑\", \"驾\", \"啕\", \"④\", \"堵\", \"雇\", \"瘫\", \"组\", \"缉\", \"疑\", \"呢\", \"季\", \"惯\", \"扛\", \"门\", \"堰\", \"價\", \"娟\", \"毅\", \"權\", \"览\", \"澡\", \";\", \"求\", \"芷\", \"胫\", \"[\", \"膨\", \"灌\", \"涎\", \"灶\", \"踏\", \"苟\", \"柔\", \"盘\", \"炸\", \"诩\", \"触\", \"盯\", \"泛\", \"粕\", \"含\", \"邵\", \"稠\", \"滤\", \"镶\", \"拧\", \"沁\", \"。\", \"庆\", \"露\", \"笑\", \"盆\", \"晟\", \"海\", \"挟\", \"膛\", \"虾\", \"讯\", \"搐\", \"且\", \"卦\", \"最\", \"哀\", \"住\", \"並\", \"椅\", \"D\", \"琉\", \"访\", \"绛\", \"肮\", \"宙\", \"唯\", \"盹\", \"院\", \"世\", \"椰\", \"疯\", \"谎\", \"铃\", \"踹\", \"什\", \"析\", \"莉\", \"斜\", \"喻\", \"郅\", \"镀\", \"忿\", \"辉\", \"垒\", \"静\", \"萎\", \"虏\", \"迟\", \"企\", \"妆\", \"泥\", \"国\", \"皂\", \"轼\", \"正\", \"益\", \"佼\", \"糊\", \"叉\", \"乾\", \"林\", \"潦\", \"比\", \"懦\", \"狞\", \"慢\", \"娴\", \"叫\", \"照\", \"翅\", \"偎\", \"午\", \"懑\", \"抵\", \"蚌\", \"浏\", \"吱\", \"巷\", \"三\", \"狩\", \"杀\", \"涝\", \"逗\", \"手\", \"⒋\", \"搀\", \"浙\", \"蹿\", \"媛\", \"胖\", \"凝\", \"钉\", \"颇\", \"途\", \"背\", \"摧\", \"剽\", \"齿\", \"筛\", \"将\", \"监\", \"乏\", \"恼\", \"​\", \"7\", \"郁\", \"止\", \"绊\", \"-\", \"8\", \"菲\", \"狗\", \"议\", \"娅\", \"摔\", \"者\", \"苦\", \"貌\", \"磊\", \"卑\", \"汩\", \"溢\", \"翌\", \"弟\", \"透\", \"赴\", \"识\", \"①\", \"契\", \"椎\", \"瞥\", \"拒\", \"贷\", \"嬉\", \"匈\", \"喀\", \"豹\", \"搬\", \"来\", \"圣\", \"…\", \"粗\", \"胺\", \"骁\", \"摄\", \"撕\", \"失\", \"洞\", \"法\", \"莫\", \"傍\", \"纯\", \"联\", \"违\", \"黢\", \"乐\", \"而\", \"充\", \"陕\", \"腔\", \"乌\", \"窥\", \"恒\", \"茫\", \"谓\", \"忪\", \"涵\", \"嗔\", \"扼\", \"形\", \"恢\", \"I\", \"烈\", \"紧\", \"噌\", \"焦\", \"头\", \"臀\", \"壹\", \"禄\", \"梧\", \"亚\", \"婆\", \"五\", \"携\", \"料\", \"踪\", \"烷\", \"胥\", \"物\", \"箍\", \"矍\", \"牢\", \"凉\", \"姥\", \"帘\", \"杭\", \"巡\", \"嗦\", \"哼\", \"敦\", \"络\", \"造\", \"题\", \"翊\", \"沙\", \"验\", \"房\", \"关\", \"冷\", \"智\", \"拼\", \"瞧\", \"烹\", \"冲\", \"剿\", \"玄\", \"娠\", \"穹\", \"淳\", \"铤\", \"腻\", \"滩\", \"遛\", \"蓉\", \"暹\", \"耦\", \"东\", \"玮\", \"枷\", \"桶\", \"澈\", \"祷\", \"重\", \"噼\", \"旎\", \"停\", \"凤\", \"零\", \"赘\", \"柯\", \"噬\", \"搏\", \"实\", \"倜\", \"蔷\", \"坏\", \"霞\", \"腰\", \"忆\", \"森\", \"锦\", \"窦\", \"簧\", \"嗨\", \"募\", \"怠\", \"锣\", \"铣\", \"屎\", \"威\", \"砥\", \"覃\", \"彷\", \"恿\", \"复\", \"滚\", \"狸\", \"癖\", \"汉\", \"信\", \"托\", \"贪\", \"F\", \"葩\", \"源\", \"炎\", \"罗\", \"伸\", \"拿\", \"勒\", \"遑\", \"川\", \"女\", \"愁\", \"匮\", \"春\", \"宠\", \"燥\", \"悚\", \"误\", \"電\", \"卖\", \"棂\", \"舵\", \"抄\", \"貂\", \"迤\", \"折\", \"注\", \"梢\", \"袖\", \"拖\", \"弩\", \"鹑\", \"屡\", \"锤\", \"戛\", \"陨\", \"腥\", \"竞\", \"谈\", \"句\", \"艘\", \"缭\", \"膀\", \"枢\", \"榆\", \"吗\", \"猡\", \"睦\", \"斐\", \"冈\", \"锏\", \"寝\", \"悔\", \"肴\", \"灑\", \"氨\", \"室\", \"渥\", \"汹\", \"門\", \"尬\", \"臆\", \"绷\", \"乍\", \"煤\", \"尧\", \"煎\", \"湘\", \"吴\", \"蔼\", \"摸\", \"槃\", \"诀\", \"羹\", \"赣\", \"踩\", \"漩\", \"临\", \"A\", \"葱\", \"震\", \"宵\", \"酝\", \"妍\", \"博\", \"圩\", \"优\", \"孝\", \"啸\", \"耻\", \"ù\", \"魇\", \"控\", \"敖\", \"甫\", \"骸\", \"祖\", \"钱\", \"龇\", \"流\", \"卢\", \"记\", \"鸽\", \"î\", \"迷\", \"毁\", \"彙\", \"臼\", \"唷\", \"徳\", \"瘩\", \"摇\", \"心\", \"斤\", \"據\", \"搜\", \"噩\", \"衿\", \"啥\", \"旁\", \"乡\", \"芮\", \"标\", \"乎\", \"谨\", \"哑\", \"蛙\", \"蛔\", \"阳\", \"虱\", \"惨\", \"缈\", \"团\", \"级\", \"见\", \"吊\", \"醇\", \"幢\", \"嘀\", \"跨\", \"扯\", \"载\", \"奴\", \"撒\", \"仇\", \"试\", \"店\", \"踞\", \"树\", \"黝\", \"胚\", \"囤\", \"滕\", \"p\", \"丧\", \"耗\", \"・\", \"爵\", \"蚯\", \"激\", \"埔\", \"倨\", \"吆\", \"招\", \"灾\", \"冤\", \"妞\", \"瞰\", \"夯\", \"糕\", \"译\", \"颖\", \"筝\", \"悍\", \"倦\", \"驱\", \"净\", \"帮\", \"朔\", \"囚\", \"沽\", \"吟\", \"教\", \"昨\", \"与\", \"胱\", \"俊\", \"阑\", \"郸\", \"千\", \"粒\", \"跑\", \"诣\", \"M\", \"洒\", \"煲\", \"穗\", \"筐\", \"你\", \"呻\", \"狙\", \"爱\", \"蕴\", \"仍\", \"户\", \"馨\", \"汪\", \"霭\", \"崔\", \"选\", \"痛\", \"服\", \"态\", \"朴\", \"罄\", \"玷\", \"迭\", \"馕\", \"拇\", \"她\", \"鳞\", \"吼\", \"荟\", \"治\", \"例\", \"荡\", \"姬\", \"扩\", \"杏\", \"抓\", \"跃\", \"罹\", \"锈\", \"吁\", \"郑\", \"仑\", \"窃\", \"作\", \"時\", \"墅\", \"宰\", \"低\", \"妇\", \"许\", \"贱\", \"凶\", \"祈\", \"崎\", \"蹊\", \"纷\", \"移\", \"岌\", \"汤\", \"声\", \"狐\", \"搞\", \"导\", \"琳\", \"偻\", \"←\", \"仰\", \"⒀\", \"按\", \"螂\", \"婷\", \"槐\", \"倪\", \"剁\", \"攘\", \"憬\", \"陆\", \"盼\", \"榨\", \"鳃\", \"N\", \"究\", \"佬\", \"母\", \"断\", \"杠\", \"靠\", \"遇\", \"钵\", \"州\", \"田\", \"柑\", \"萍\", \"咀\", \"非\", \"认\", \"销\", \"略\", \"予\", \"航\", \"约\", \"鞋\", \"苑\", \"琦\", \"逐\", \"敲\", \"负\", \"裸\", \"广\", \"讳\", \"勺\", \"肉\", \"桅\", \"屯\", \"增\", \"竖\", \"撬\", \"虚\", \"叔\", \"叭\", \"劝\", \"O\", \"臃\", \"里\", \"术\", \"爸\", \"混\", \"辆\", \"疚\", \"放\", \"奇\", \"引\", \"秃\", \"羡\", \"】\", \"罚\", \"望\", \"打\", \"戈\", \"粱\", \"倘\", \"鸣\", \"拢\", \"鼾\", \"惦\", \"瑰\", \"筒\", \"坝\", \"掉\", \"案\", \"绝\", \"洽\", \"刃\", \"玲\", \"唏\", \"它\", \"惑\", \"桩\", \"斑\", \"粘\", \"油\", \"魏\", \"沫\", \"炮\", \"市\", \"扰\", \"刷\", \"近\", \"环\", \"沦\", \"卸\", \"裹\", \"阂\", \"哮\", \"弧\", \"茁\", \"阪\", \"叨\", \"量\", \"珍\", \"辑\", \"绳\", \"布\", \"鹈\", \"封\", \"给\", \"悲\", \"趟\", \"缴\", \"潭\", \"烦\", \"把\", \"穰\", \"徽\", \"镳\", \"桃\", \"批\", \"烁\", \"讲\", \"尼\", \"坎\", \"宋\", \"汶\", \"桂\", \"蛇\", \"赵\", \"具\", \"削\", \"唇\", \"漆\", \"猎\", \"祝\", \"兢\", \"③\", \"喜\", \"颉\", \"殊\", \"色\", \"坦\", \"囊\", \"圜\", \"苣\", \"确\", \"皮\", \"隙\", \"怀\", \"傅\", \"壤\", \"瀚\", \"借\", \"沃\", \"嵌\", \"葫\", \"追\", \"度\", \"硬\", \"镏\", \"恭\", \"偶\", \"牺\", \"柱\", \"蒂\", \"彦\", \"棍\", \"菜\", \"隔\", \"硅\", \"犄\", \"踵\", \"禁\", \"趋\", \"沪\", \"勋\", \"拣\", \"着\", \"痪\", \"屏\", \"铎\", \"獗\", \"爬\", \"须\", \"厉\", \"笃\", \"名\", \"藏\", \"套\", \"墙\", \"a\", \"掩\", \"朽\", \"悦\", \"夹\", \"蟀\", \"率\", \"裁\", \"艋\", \"华\", \"纺\", \"0\", \"廊\", \"钰\", \"咧\", \"蜕\", \"瘦\", \"别\", \"为\", \"霍\", \"哗\", \"慧\", \"歧\", \"慕\", \"程\", \"蜃\", \"汛\", \"鲎\", \"贯\", \"杰\", \"骨\", \"芭\", \"桑\", \"逝\", \"墨\", \"基\", \"爷\", \"巫\", \"嗯\", \"卍\", \"邻\", \"掠\", \"检\", \"剪\", \"歼\", \"因\", \"坤\", \"二\", \"卧\", \"雏\", \"o\", \"惴\", \"摘\", \"苛\", \"清\", \"妖\", \"遭\", \"悴\", \"锲\", \"癌\", \"彩\", \"太\", \"则\", \"录\", \"搭\", \"衷\", \"顿\", \"麾\", \"屌\", \"沂\", \"券\", \"蜜\", \"纠\", \"狮\", \"姑\", \"谆\", \"颗\", \"惮\", \"击\", \"轿\", \"猴\", \"蛊\", \"徊\", \"膏\", \"別\", \"礴\", \"屉\", \"蹴\", \"右\", \"蹦\", \"路\", \"碟\", \"〗\", \"ㄓ\", \"\\u0006\", \"蟹\", \"深\", \"禅\", \"遢\", \"熟\", \"秦\", \"刊\", \"雷\", \"\\u0005\", \"目\", \"肯\", \"刑\", \"泠\", \"茜\", \"详\", \"束\", \"银\", \"琶\", \"各\", \"娶\", \"人\", \"械\", \"处\", \"琼\", \"娜\", \"堂\", \"羊\", \"佰\", \"靓\", \"楠\", \"梗\", \"争\", \"嗡\", \"颠\", \"肿\", \"磋\", \"璨\", \"&\", \"迩\", \"战\", \"沮\", \"⑧\", \"玩\", \"状\", \"规\", \"垫\", \"馍\", \"醐\", \"肓\", \"熹\", \"账\", \"斥\", \"范\", \"省\", \"代\", \"综\", \"植\", \"萃\", \"腿\", \"像\", \"挑\", \"怯\", \"煽\", \"明\", \"匕\", \"R\", \"北\", \"凹\", \"勖\", \"花\", \"香\", \"翱\", \"男\", \"馅\", \"黔\", \"孀\", \"哧\", \"四\", \"症\", \"内\", \"中\", \"仆\", \"迦\", \"猝\", \"媳\", \"渐\", \"奂\", \"缪\", \"型\", \"吠\", \"隶\", \"個\", \"也\", \"醛\", \"提\", \"始\", \"恃\", \"迪\", \"兔\", \"编\", \"咏\", \"蜀\", \"鹉\", \"运\", \"毯\", \"街\", \"劲\", \"廓\", \"鸦\", \"蜂\", \"坷\", \"奚\", \"羔\", \"老\", \"跳\", \"查\", \"垢\", \"婺\", \"土\", \"获\", \"诗\", \"乓\", \"苒\", \"耿\", \"沉\", \"段\", \"漲\", \"蚁\", \"赃\", \"俪\", \"娛\", \"瞅\", \"贵\", \"渣\", \"坊\", \"觑\", \"號\", \"檬\", \"方\", \"辄\", \"莘\", \"汕\", \"钧\", \"冶\", \"助\", \"亂\", \"盛\", \"入\", \"谅\", \"坞\", \"胜\", \"归\", \"姨\", \"央\", \"疴\", \"绑\", \"缘\", \"峙\", \"施\", \"壳\", \"扬\", \"渴\", \"晓\", \"柴\", \"炼\", \"夕\", \"忠\", \"惟\", \"壕\", \"整\", \"敝\", \"莅\", \"珊\", \"鹰\", \"滔\", \"务\", \"吧\", \"叮\", \"碳\", \"尖\", \"雳\", \"P\", \"肇\", \"洁\", \"蹭\", \"鬓\", \"抠\", \"蒿\", \"褂\", \"剐\", \"诉\", \"夭\", \"购\", \"燃\", \"宽\", \"缀\", \"存\", \"诙\", \"祸\", \"槌\", \"梦\", \"索\", \"坪\", \"―\", \"踢\", \"籁\", \"帷\", \"槛\", \"预\", \"旱\", \"缕\", \"绩\", \"ê\", \"暮\", \"柚\", \"纰\", \"骂\", \"锡\", \"掐\", \"颧\", \"溘\", \"涸\", \"雌\", \"进\", \"链\", \"巳\", \"宗\", \"町\", \"茂\", \"阅\", \"溶\", \"八\", \"渝\", \"杜\", \"迹\", \"图\", \"防\", \"亲\", \"薛\", \"觅\", \"聂\", \"抿\", \"橙\", \"蔽\", \"脂\", \"毋\", \"颊\", \"岩\", \"候\", \"云\", \"粹\", \"雍\", \"越\", \"扮\", \"当\", \"佳\", \"趴\", \"类\", \"耀\", \"百\", \"待\", \"荫\", \"咳\", \"馄\", \"踌\", \"铸\", \"艳\", \"樱\", \"阮\", \"禽\", \"瑧\", \"涅\", \"苇\", \"纽\", \"劾\", \"饥\", \"棕\", \"褒\", \"橘\", \"赌\", \"娩\", \"慈\", \"馈\", \"鸭\", \"趣\", \"咦\", \"报\", \"库\", \"碑\", \"狭\", \"捆\", \"黏\", \"绣\", \"滥\", \"鲁\", \"V\", \"烯\", \"绿\", \"胡\", \"班\", \"旷\", \"卡\", \"们\", \"讦\", \"ό\", \"纨\", \"炝\", \"维\", \"慷\", \"莓\", \"缅\", \"葡\", \"绘\", \"瑶\", \"映\", \"巾\", \"枣\", \"澄\", \"梳\", \"晃\", \"皑\", \"观\", \"锅\", \"魁\", \"俑\", \"评\", \"贺\", \"品\", \"牲\", \"顾\", \"众\", \"脉\", \"屠\", \"哥\", \"节\", \"启\", \"盟\", \"撰\", \"塌\", \"网\", \"烂\", \"颐\", \"胧\", \"厝\", \"\\u0000\", \"坛\", \"摹\", \"侈\", \"遏\", \"匆\", \"磅\", \"鲸\", \"寞\", \"颤\", \"惋\", \"南\", \"御\", \"餐\", \"穷\", \"肪\", \"沼\", \"à\", \"蚊\", \"轰\", \"续\", \"孟\", \"旌\", \"霜\", \"苏\", \"血\", \"必\", \"窗\", \"典\", \"偿\", \"夫\", \"猜\", \"骇\", \"溪\", \"蕃\", \"错\", \"镍\", \"刨\", \"殿\", \"跚\", \"窟\", \""\", \"氯\", \"湃\", \"斩\", \"冥\", \"受\", \"幼\", \"蹒\", \"概\", \"邃\", \"託\", \"蔚\", \"靴\", \"嘴\", \"诡\", \"枯\", \"身\", \"骚\", \"趾\", \"陈\", \"力\", \"媲\", \"霹\", \"咆\", \"猩\", \"抒\", \"址\", \"到\", \"群\", \"厚\", \"园\", \"论\", \"飕\", \"符\", \"鹦\", \"垄\", \"播\", \"搁\", \"脏\", \"幸\", \"执\", \"捷\", \"发\", \"时\", \"睛\", \"客\", \"陵\", \"沥\", \"伯\", \"视\", \"喝\", \"愈\", \"柄\", \"耽\", \"促\", \"行\", \"臧\", \"后\", \"庭\", \"秩\", \"尚\", \"贤\", \"掷\", \"厅\", \"呸\", \"捧\", \"描\", \"吹\", \"惧\", \"皖\", \"凸\", \"昭\", \"豪\", \" \", \"邪\", \"歌\", \"奢\", \"亭\", \"辕\", \"吾\", \"攸\", \"腭\", \"痕\", \"烬\", \"淼\", \"噱\", \"懂\", \"退\", \"拥\", \"渔\", \"灼\", \"蜘\", \"档\", \"小\", \"瑟\", \"睹\", \"〞\", \"缆\", \"劳\", \"边\", \"辗\", \"內\", \"⑩\", \"唾\", \"僧\", \"醒\", \"螃\", \"张\", \"亏\", \"阁\", \"媚\", \"部\", \"婉\", \"霈\", \"警\", \"谔\", \"俞\", \".\", \"割\", \"矛\", \"包\", \"晋\", \"焕\", \"【\", \"忘\", \"恐\", \"式\", \"齐\", \"歹\", \"鄙\", \"独\", \"鲜\", \"村\", \"诧\", \"铭\", \"衣\", \"钊\", \"风\", \"瘀\", \"玳\", \"测\", \"廷\", \"睽\", \"愤\", \"版\", \"际\", \"遥\", \"钜\", \"锒\", \"糯\", \"抽\", \"牵\", \"还\", \"娃\", \"悖\", \"疆\", \"叛\", \"匪\", \"窝\", \"伐\", \"玖\", \"镕\", \"翼\", \"〈\", \"咔\", \"杉\", \"萤\", \"寐\", \"征\", \"嗤\", \"碧\", \"双\", \"叶\", \"闪\", \"潢\", \"子\", \"湿\", \"陇\", \"璀\", \"胀\", \"承\", \"鱼\", \"但\", \"唉\", \"讷\", \"侨\", \"旭\", \"亩\", \"黧\", \"夜\", \"已\", \"灸\", \"砌\", \"返\", \"饭\", \"鸿\", \"珏\", \"熨\", \"钝\", \"陀\", \"碾\", \"豚\", \"诟\", \"述\", \"橇\", \"瞪\", \"秀\", \"淞\", \"西\", \"檀\", \"柏\", \"绵\", \"局\", \"淮\", \"丝\", \"鳌\", \"麽\", \"哦\", \"平\", \"如\", \"闹\", \"猫\", \"烘\", \"砖\", \"钮\", \"痰\", \"取\", \"帽\", \"籍\", \"难\", \"列\", \"顶\", \"钟\", \"举\", \"慎\", \"仲\", \"旦\", \"隧\", \"辛\", \"雯\", \"缄\", \"理\", \"酒\", \"驶\", \"鼻\", \"悟\", \"缸\", \"几\", \"犀\", \"薩\", \"冽\", \"憔\", \"位\", \"未\", \"围\", \"摊\", \"圭\", \"瞄\", \"直\", \"菱\", \"巅\", \"丘\", \"定\", \"歪\", \"镇\", \"犰\", \"偷\", \"涩\", \"恕\", \"歩\", \"槿\", \"衅\", \"织\", \"支\", \"傲\", \"仪\", \"闻\", \"交\", \"T\", \"庙\", \"梭\", \"修\", \"暗\", \"潜\", \"频\", \"+\", \"守\", \"尔\", \"瞠\", \"软\", \"靛\", \"憾\", \"私\", \"稀\", \"球\", \"朱\", \"迈\", \"札\", \"校\", \"遐\", \"裔\", \"稣\", \"泌\", \"焙\", \"漪\", \"擤\", \"早\", \"報\", \"害\", \"慰\", \"限\", \"圆\", \"澳\", \"紊\", \"崽\", \"庸\", \"阴\", \"妓\", \"驴\", \"王\", \"飚\", \"磕\", \"抗\", \"淇\", \"息\", \"年\", \"潇\", \"伟\", \"贞\", \"锐\", \"赞\", \"证\", \"事\", \"怂\", \"亨\", \"埠\", \"昌\", \"篱\", \"练\", \"眠\", \"鹌\", \"揉\", \"碍\", \"去\", \"讽\", \"圳\", \"果\", \"廉\", \"雾\", \"措\", \"淄\", \"谍\", \"芹\", \"撅\", \"摞\", \"税\", \"妊\", \"烫\", \"涨\", \"怪\", \"课\", \"盈\", \"昧\", \"崩\", \"知\", \"融\", \"愚\", \"吕\", \"假\", \"唤\", \"拽\", \"个\", \"侍\", \"滋\", \"幽\", \"猾\", \"畔\", \"A\", \"シ\", \"飓\", \"孪\", \"落\", \"任\", \"甸\", \"印\", \"芃\", \"瀑\", \"甲\", \"曹\", \"岸\", \"技\", \"庐\", \"赶\", \"胃\", \"骑\", \"萨\", \"犹\", \"誓\", \"阐\", \"杨\", \"做\", \"!\", \"薰\", \"伉\", \"由\", \"翁\", \"郝\", \"昊\", \"韩\", \"励\", \"庇\", \"官\", \"昕\", \"呼\", \"青\", \"磺\", \"波\", \"焚\", \"棣\", \"丛\", \"于\", \"腾\", \" \", \"嘭\", \"罪\", \"喃\", \"懈\", \"麓\", \"寰\", \"璃\", \"夏\", \"怎\", \"棘\", \"配\", \"听\", \"晒\", \"汁\", \"恤\", \"策\", \"奎\", \"腕\", \"葆\", \"驿\", \"橄\", \"氧\", \"嫉\", \"舌\", \"蓦\", \"蓬\", \"占\", \"⑥\", \"悄\", \"闭\", \"唱\", \"酋\", \"步\", \"搂\", \"纤\", \"审\", \"尸\", \"揪\", \"敛\", \"界\", \"吭\", \"芥\", \"菊\", \"毡\", \"嚷\", \"社\", \"]\", \"戢\", \"莞\", \"戮\", \"衍\", \"兄\", \"宸\", \"〔\", \"诵\", \"V\", \"膜\", \"责\", \"郭\", \"绰\", \"兽\", \"欲\", \"阔\", \"线\", \"呦\", \"寇\", \"胎\", \"有\", \"镑\", \"胰\", \"竣\", \"驮\", \"珀\", \"倩\", \"货\", \"疹\", \"刺\", \"茵\", \"拆\", \"\", \"咬\", \"满\", \"咪\", \"患\", \"嫩\", \"梨\", \"旧\", \"丫\", \"谀\", \"窘\", \"吮\", \"艾\", \"彪\", \"汗\", \"幕\", \"6\", \"器\", \"⒁\", \"互\", \"债\", \"寒\", \"两\", \"秉\", \"绉\", \"弈\", \"瞎\", \"杖\", \"锯\", \"窿\", \"皆\", \"转\", \"喇\", \"谋\", \"鸡\", \"彤\", \"侣\", \"似\", \"扔\", \"温\", \"噴\", \"写\", \"蕤\", \"垣\", \"衡\", \"体\", \"况\", \"吓\", \"晴\", \"崇\", \"匿\", \"童\", \"嚣\", \"⒂\", \"朦\", \"─\", \"纳\", \"辈\", \"ヨ\", \"h\", \"专\", \"俄\", \"咨\", \"词\", \"愿\", \"历\", \"颂\", \"米\", \"升\", \"容\", \"灿\", \"魄\", \"超\", \"痊\", \"抛\", \"▪\", \"胁\", \"纾\", \"悯\", \"答\", \"膝\", \"焯\", \"淤\", \"剥\", \"艇\", \"裳\", \"从\", \"扫\", \"喽\", \"疮\", \"幻\", \"屋\", \"帆\", \"烛\", \"呛\", \"鞠\", \"⑨\", \"〉\", \"莹\", \"裙\", \"當\", \"谷\", \"飘\", \"扒\", \"倡\", \"酷\", \"麟\", \"药\", \"肥\", \"翕\", \"掳\", \"邓\", \"睡\", \"纵\", \"若\", \"诈\", \"・\", \"蟋\", \"愣\", \"臂\", \"污\", \"逢\", \"扶\", \"嘻\", \"镜\", \"宴\", \"(\", \"龄\", \"屁\", \"样\", \"漓\", \"逞\", \"浴\", \"峻\", \"逶\", \"熊\", \"疤\", \"動\", \"粪\", \"输\", \"礼\", \"克\", \"砸\", \"缓\", \"傥\", \"泱\", \"著\", \"吉\", \"C\", \"扁\", \"漱\", \"儿\", \"滢\", \"忌\", \"刚\", \"迁\", \"酥\", \"靶\", \"篓\", \"铜\", \"参\", \"楂\", \"攀\", \"盾\", \"夥\", \"矢\", \"捏\", \"俏\", \"⑦\", \"牙\", \"棱\", \"接\", \"犁\", \"楼\", \"并\", \"殆\", \"窍\", \"俺\", \"对\", \"⒌\", \"变\", \"猛\", \"蛮\", \"倚\", \"甚\", \"票\", \"诨\", \"靖\", \"摒\", \"前\", \"燕\", \"~\", \"徒\", \"癜\", \"徇\", \"褚\", \"乖\", \"隋\", \"嫌\", \"襄\", \"忽\", \"雄\", \"嘿\", \"冻\", \"浠\", \"抚\", \"撐\", \"抬\", \"辰\", \"另\", \"津\", \"全\", \"抑\", \"倍\", \"据\", \"耳\", \"俨\", \"之\", \"溜\", \"领\", \"瑥\", \"押\", \"膊\", \"曙\", \"久\", \"孱\", \"衫\", \"厦\", \"贼\", \"煞\", \"郡\", \"箱\", \"养\", \"及\", \"兮\", \"马\", \"臭\", \"爽\", \"笆\", \"邀\", \"戒\", \"贩\", \"邱\", \"氢\", \"痹\", \"覆\", \"往\", \"请\", \"眶\", \"额\", \"脾\", \"快\", \"栖\", \"较\", \"矿\", \"後\", \"阻\", \"碗\", \"蹈\", \"坠\", \"攒\", \"篷\", \"跟\", \"崛\", \"嘱\", \"操\", \"牡\", \"积\", \"梵\", \"锌\", \"眉\", \"佘\", \"姐\", \"惠\", \"湾\", \"汇\", \"韬\", \"旺\", \"s\", \"副\", \"疲\", \"濒\", \"俱\", \"允\", \"设\", \"罢\", \"泣\", \"蘸\", \"言\", \"烃\", \"冉\", \"栅\", \"可\", \"婴\", \"泪\", \"影\", \"茱\", \"父\", \"B\", \"秤\", \"尽\", \"1\", \"陶\", \"戚\", \"⑤\", \"口\", \"师\", \"诸\", \"捺\", \"努\", \"期\", \"适\", \"喘\", \"岂\", \"驭\", \"化\", \"亮\", \"姿\", \"伺\", \"奥\", \"侄\", \"伪\", \"曲\", \"阀\", \"学\", \"畿\", \"〃\", \"补\", \"谭\", \"诲\", \"稍\", \"喊\", \"壶\", \"茅\", \"菁\", \"遣\", \"架\", \"耕\", \"惬\", \"下\", \"旅\", \"达\", \"郊\", \"婊\", \"酸\", \"蝌\", \"惕\", \"肺\", \"玉\", \"谊\", \"卻\", \"谁\", \"铄\", \"洼\", \")\", \"泡\", \"想\", \"萌\", \"黑\", \"挚\", \"痒\", \"Y\", \"麻\", \"垂\", \"农\", \"弱\", \"蛋\", \"除\", \"沛\", \"空\", \"脱\", \"ズ\", \"异\", \"赫\", \"脚\", \"淘\", \"疸\", \"看\", \"是\", \"先\", \"帖\", \"酣\", \"栩\", \"é\", \"矫\", \"邢\", \"陷\", \"细\", \"碴\", \"款\", \"屿\", \"纲\", \"工\", \"盖\", \"凌\", \"桢\", \"营\", \"喧\", \"繁\", \"黎\", \"蟑\", \"蘑\", \"宛\", \"闲\", \"簿\", \"⑿\", \"跻\", \"翔\", \"笋\", \"瓢\", \"徨\", \"哇\", \"士\", \"虹\", \"ο\", \"泰\", \"他\", \"铺\", \"奸\", \"翘\", \"瑑\", \"網\", \"红\", \"巍\", \"强\", \"◆\", \"イ\", \"猖\", \"∶\", \"吨\", \"京\", \"乒\", \"辨\", \"氏\", \"饲\", \"隐\", \"罕\", \"揍\", \"翩\", \"换\", \"畑\", \"丑\", \"嫁\", \"荐\", \"邂\", \"闺\", \"挫\", \"邮\", \"援\", \"稿\", \"河\", \"泼\", \"メ\", \"鼓\", \"文\", \"恋\", \"岁\", \"鹏\", \"暂\", \"聘\", \"甬\", \"為\", \"e\", \"烤\", \"谜\", \"僻\", \"舀\", \"差\", \"顷\", \"破\", \"芋\", \"石\", \"租\"]", + "lossless": false + }, + "deepseek-ai/DeepSeek-V2 @ cc100/ar": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 2813283, + "_n_tokens": 1416103, + "_n_chars": 1560987, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/de": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1814876, + "_n_tokens": 631152, + "_n_chars": 1784021, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/en": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1124813, + "_n_tokens": 262324, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/es": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1664455, + "_n_tokens": 470524, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/fa": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 2054052, + "_n_tokens": 963451, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/fr": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1540504, + "_n_tokens": 497667, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/ja": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1774770, + "_n_tokens": 751467, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/ko": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 1524839, + "_n_tokens": 1071983, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/DeepSeek-V2 @ cc100/zh-Hans": { + "tokenizer": "DeepSeek-V2", + "organization": "DeepSeek", + "vocab_size": 100002, + "_n_bytes": 2633047, + "_n_tokens": 595081, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ar": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 2813283, + "_n_tokens": 1948863, + "_n_chars": 1560987, + "_n_oov_chars": 1, + "oov_ratio": 6.406203254735626e-07, + "_oov_charset": "[\"ö\"]", + "lossless": false + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/de": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1814876, + "_n_tokens": 735618, + "_n_chars": 1784021, + "_n_oov_chars": 13536, + "oov_ratio": 0.007587354633157345, + "_oov_charset": "[\"ø\", \"û\", \"ü\", \"ú\", \"ö\", \"Á\"]", + "lossless": false + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/en": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1124813, + "_n_tokens": 277408, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/es": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1664455, + "_n_tokens": 513884, + "_n_chars": 1630297, + "_n_oov_chars": 1637, + "oov_ratio": 0.0010041115207842497, + "_oov_charset": "[\"ø\", \"ü\", \"ú\", \"ö\", \"Á\", \"ý\"]", + "lossless": false + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/fa": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 2054052, + "_n_tokens": 1316109, + "_n_chars": 1145876, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/fr": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1540504, + "_n_tokens": 527538, + "_n_chars": 1484970, + "_n_oov_chars": 557, + "oov_ratio": 0.00037509175269534066, + "_oov_charset": "[\"ü\", \"À\", \"û\", \"ù\"]", + "lossless": false + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ja": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1774770, + "_n_tokens": 1008060, + "_n_chars": 603065, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/ko": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 1524839, + "_n_tokens": 1444805, + "_n_chars": 655190, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-coder-33b-instruct @ cc100/zh-Hans": { + "tokenizer": "deepseek-coder-33b-instruct", + "organization": "DeepSeek", + "vocab_size": 32022, + "_n_bytes": 2633047, + "_n_tokens": 710577, + "_n_chars": 927311, + "_n_oov_chars": 1, + "oov_ratio": 1.0783868626598843e-06, + "_oov_charset": "[\"ù\"]", + "lossless": false + }, + "deepseek-ai/deepseek-llm-7b-base @ cc100/en": { + "tokenizer": "deepseek-llm-7b-base", + "organization": "DeepSeek", + "vocab_size": 100015, + "_n_bytes": 1124813, + "_n_tokens": 262324, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "deepseek-ai/deepseek-llm-7b-base @ cc100/zh-Hans": { + "tokenizer": "deepseek-llm-7b-base", + "organization": "DeepSeek", + "vocab_size": 100015, + "_n_bytes": 2633047, + "_n_tokens": 595081, + "_n_chars": 927311, + "_n_oov_chars": 1, + "oov_ratio": 1.0783868626598843e-06, + "_oov_charset": "[\"ù\"]", + "lossless": false + }, + "deepseek-ai/deepseek-llm-7b-base @ cc100/fr": { + "tokenizer": "deepseek-llm-7b-base", + "organization": "DeepSeek", + "vocab_size": 100015, + "_n_bytes": 1540504, + "_n_tokens": 497693, + "_n_chars": 1484970, + "_n_oov_chars": 557, + "oov_ratio": 0.00037509175269534066, + "_oov_charset": "[\"û\", \"ù\", \"À\", \"ü\"]", + "lossless": false + }, + "deepseek-ai/deepseek-llm-7b-base @ cc100/es": { + "tokenizer": "deepseek-llm-7b-base", + "organization": "DeepSeek", + "vocab_size": 100015, + "_n_bytes": 1664455, + "_n_tokens": 470877, + "_n_chars": 1630297, + "_n_oov_chars": 1637, + "oov_ratio": 0.0010041115207842497, + "_oov_charset": "[\"ý\", \"ú\", \"ü\", \"Á\", \"ø\", \"ö\"]", + "lossless": false + }, + "eson/kplug-base-encoder @ cc100/en": { + "tokenizer": "kplug", + "organization": "JD", + "vocab_size": 10261, + "_n_bytes": 1124813, + "_n_tokens": 373564, + "_n_chars": 1121360, + "_n_oov_chars": 31094, + "oov_ratio": 0.027728829278732967, + "_oov_charset": "[\"D\", \"S\", \"R\", \"😥\", \"​\", \"\", \"W\", \"‑\", \"ñ\", \"🙂\", \"´\", \"Z\", \"V\", \"U\", \"😉\", \"®\", \"J\", \"H\", \"K\", \"N\", \"C\", \"¡\", \"Y\", \"A\", \"é\", \"ï\", \"è\", \"¦\", \"�\", \"ó\", \"”\", \"M\", \"F\", \"Q\", \"L\", \"I\", \"T\", \"O\", \"P\", \"B\", \"G\", \"“\", \"X\", \"E\", \"\"]", + "lossless": false + }, + "eson/kplug-base-encoder @ cc100/zh-Hans": { + "tokenizer": "kplug", + "organization": "JD", + "vocab_size": 10261, + "_n_bytes": 2633047, + "_n_tokens": 882451, + "_n_chars": 927311, + "_n_oov_chars": 26366, + "oov_ratio": 0.02843274802089051, + "_oov_charset": "[\"D\", \"員\", \"i\", \"壓\", \"N\", \"浞\", \"鲎\", \"à\", \"W\", \"4\", \"Z\", \"損\", \"镏\", \"・\", \"瑥\", \"\\u0006\", \"韫\", \"戢\", \"6\", \"託\", \"翕\", \"N\", \"ズ\", \"A\", \"�\", \"於\", \"\", \"ό\", \"M\", \"ě\", \"麽\", \"採\", \"韪\", \"Q\", \"V\", \"阪\", \"號\", \"T\", \"劑\", \"\", \"⒁\", \"岣\", \"A\", \"î\", \"S\", \"\\u0005\", \"​\", \"+\", \"個\", \"t\", \"別\", \"ヨ\", \"&\", \"旳\", \"V\", \"T\", \"撐\", \"馕\", \".\", \"時\", \"龇\", \"瑒\", \"`\", \"確\", \"旆\", \"a\", \"猡\", \"H\", \"ê\", \"屣\", \"p\", \"©\", \" \", \"狳\", \"⑿\", \"Y\", \"資\", \"權\", \"9\", \"\\u0000\", \"\\u0007\", \"網\", \"F\", \"\", \"h\", \""\", \"瑧\", \"I\", \"/\", \"ソ\", \"價\", \"G\", \"電\", \"B\", \"內\", \"5\", \"X\", \"為\", \"Ø\", \"\", \"亂\", \"シ\", \"瑑\", \"黩\", \"R\", \"⒂\", \"3\", \"\", \"漲\", \"メ\", \"並\", \"\", \"浠\", \"_\", \"o\", \"e\", \"倨\", \"據\", \"へ\", \"鸩\", \"卻\", \"鄯\", \"ト\", \"ノ\", \"瑨\", \"⒀\", \"J\", \"耩\", \"▪\", \"锒\", \"當\", \"發\", \"報\", \"C\", \"犰\", \"動\", \"讦\", \"\", \"7\", \"C\", \"啐\", \"擤\", \"黧\", \"L\", \"1\", \"[\", \"犟\", \"イ\", \"の\", \"0\", \"標\", \"ù\", \"瑢\", \"阽\", \"逑\", \"E\", \"賣\", \"\\b\", \"]\", \"%\", \"诨\", \"8\", \"d\", \"D\", \"薩\", \"疴\", \"ㄓ\", \"彙\", \"藉\", \" \", \"r\", \"後\", \"噴\", \"牖\", \"s\", \"U\", \"強\", \"-\", \"灑\", \"ὐ\", \"⒌\", \"門\", \"篢\", \"K\", \"2\", \"á\", \"é\", \"n\", \"溘\", \"慮\", \"運\", \"ç\", \"P\", \"O\", \"鼯\", \"選\", \"穰\", \"⒃\", \"娛\", \"併\"]", + "lossless": false + }, + "eson/kplug-base-encoder @ cc100/fr": { + "tokenizer": "kplug", + "organization": "JD", + "vocab_size": 10261, + "_n_bytes": 1540504, + "_n_tokens": 618107, + "_n_chars": 1484970, + "_n_oov_chars": 66958, + "oov_ratio": 0.04509047320821296, + "_oov_charset": "[\"ë\", \"î\", \"D\", \"R\", \"S\", \"È\", \"ô\", \"­\", \"̧\", \"’\", \"‐\", \"Ê\", \"à\", \"W\", \"🙂\", \"´\", \"Z\", \"😀\", \"♕\", \"̂\", \"V\", \"❤\", \"́\", \"U\", \"😉\", \"®\", \"À\", \"J\", \"™\", \"ü\", \"H\", \"…\", \"ê\", \"♠\", \"Ç\", \"K\", \"N\", \"C\", \"É\", \"🤔\", \"Ô\", \"è\", \"é\", \"A\", \"ï\", \"Y\", \"�\", \"ã\", \"í\", \"M\", \"â\", \"û\", \"Â\", \"F\", \"Q\", \"L\", \"I\", \"ç\", \"T\", \"P\", \"O\", \"B\", \"œ\", \"ù\", \"G\", \"X\", \"ğ\", \"ä\", \"E\", \"Î\"]", + "lossless": false + }, + "eson/kplug-base-encoder @ cc100/es": { + "tokenizer": "kplug", + "organization": "JD", + "vocab_size": 10261, + "_n_bytes": 1664455, + "_n_tokens": 684804, + "_n_chars": 1630297, + "_n_oov_chars": 69225, + "oov_ratio": 0.04246158828728753, + "_oov_charset": "[\"D\", \"‘\", \"S\", \"R\", \"▷\", \"­\", \"¿\", \"\", \"😦\", \"🙁\", \"’\", \"ô\", \"à\", \"W\", \"ñ\", \"Á\", \"🙂\", \"´\", \"Z\", \"😀\", \"V\", \"❤\", \"️\", \"U\", \"😉\", \"Ó\", \"✖\", \"®\", \"J\", \"ü\", \"ö\", \"H\", \"✔\", \"©\", \"K\", \"N\", \"C\", \"É\", \"ò\", \"á\", \"¡\", \"A\", \"é\", \"Y\", \"è\", \"М\", \"ó\", \"í\", \"M\", \"✓\", \"ú\", \"F\", \"Q\", \"L\", \"Ñ\", \"Ú\", \"I\", \"ª\", \"ý\", \"👍\", \"T\", \"P\", \"O\", \"B\", \"G\", \"👏\", \"X\", \"Í\", \"„\", \"E\"]", + "lossless": false + }, + "fnlp/moss-moon-003-sft @ cc100/en": { + "tokenizer": "moss-moon-003-sft", + "organization": "Fudan", + "vocab_size": 106072, + "_n_bytes": 1124813, + "_n_tokens": 257070, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "fnlp/moss-moon-003-sft @ cc100/zh-Hans": { + "tokenizer": "moss-moon-003-sft", + "organization": "Fudan", + "vocab_size": 106072, + "_n_bytes": 2633047, + "_n_tokens": 557455, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "fnlp/moss-moon-003-sft @ cc100/fr": { + "tokenizer": "moss-moon-003-sft", + "organization": "Fudan", + "vocab_size": 106072, + "_n_bytes": 1540504, + "_n_tokens": 515669, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "fnlp/moss-moon-003-sft @ cc100/es": { + "tokenizer": "moss-moon-003-sft", + "organization": "Fudan", + "vocab_size": 106072, + "_n_bytes": 1664455, + "_n_tokens": 568539, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "google-bert/bert-base-cased @ cc100/en": { + "tokenizer": "bert-base-cased", + "organization": "Google", + "vocab_size": 28996, + "_n_bytes": 1124813, + "_n_tokens": 268022, + "_n_chars": 1121360, + "_n_oov_chars": 43, + "oov_ratio": 3.8346293786116855e-05, + "_oov_charset": "[\"🙂\", \"⑦\", \"”\", \"⑧\", \"⑤\", \"😥\", \"​\", \"😉\", \"“\", \"⑩\", \"¦\", \"\", \"�\", \"③\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-cased @ cc100/zh-Hans": { + "tokenizer": "bert-base-cased", + "organization": "Google", + "vocab_size": 28996, + "_n_bytes": 2633047, + "_n_tokens": 879709, + "_n_chars": 927311, + "_n_oov_chars": 690301, + "oov_ratio": 0.7444115296809808, + "_oov_charset": "[\"搅\", \"千\", \"稻\", \"缕\", \"膨\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"都\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"伟\", \"东\", \"政\", \"蕴\", \"羁\", \"射\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"~\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"跷\", \"手\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"壹\", \"承\", \"婆\", \"饶\", \"搬\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"〉\", \"轶\", \"咬\", \"【\", \"也\", \"咒\", \"肃\", \"镇\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"▪\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"餐\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"五\", \"踩\", \"屡\", \"宇\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"殊\", \"温\", \"闭\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"穷\", \"筹\", \"苯\", \"捆\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"滢\", \"砺\", \"衫\", \"融\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"男\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"前\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"相\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"奈\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"永\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"舶\", \"⑴\", \"滑\", \"考\", \"耳\", \"鳞\", \"念\", \"捍\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"宗\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"摞\", \"彰\", \"残\", \"镶\", \"庄\", \"恿\", \"投\", \"涸\", \"乍\", \"疮\", \"信\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"恤\", \"滞\", \"乞\", \"憬\", \"治\", \"击\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"不\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"禾\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"雄\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"崎\", \"屌\", \"聆\", \"蔚\", \"清\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"彭\", \"搐\", \"扇\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"森\", \"涎\", \"暑\", \"逑\", \"腿\", \"歉\", \"内\", \"]\", \"痘\", \"瀚\", \"喀\", \"陨\", \"岗\", \"册\", \"愉\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"選\", \"溉\", \"炕\", \"霈\", \"〈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"学\", \"头\", \"柚\", \"艘\", \"桅\", \"眷\", \"恋\", \"員\", \"伊\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"健\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"昭\", \"章\", \"良\", \"赞\", \"霭\", \"吐\", \"合\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"拭\", \"岌\", \"阑\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"迤\", \"弓\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"成\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"祸\", \"[\", \"覆\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"鲸\", \"篱\", \"渐\", \"岭\", \"援\", \"虐\", \"灑\", \"楣\", \"却\", \"芯\", \"锣\", \"代\", \"嬉\", \"农\", \"洪\", \"差\", \"处\", \"囤\", \"耀\", \"▲\", \"佣\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"茶\", \"九\", \"锏\", \"铎\", \"翕\", \"爪\", \"链\", \"闺\", \"挪\", \"岔\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"蔬\", \"煽\", \"绸\", \"割\", \"豚\", \"鸿\", \"螃\", \"贯\", \"侦\", \"亭\", \"堵\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"嘣\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"窿\", \"御\", \"弛\", \"凤\", \"狗\", \"蹈\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"躯\", \"诱\", \"弑\", \"猛\", \"泼\", \"渝\", \"阽\", \"帝\", \"戍\", \"黏\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"街\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"函\", \"鳃\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"欢\", \"钱\", \"摘\", \"溢\", \"陀\", \"吴\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"宣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"智\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"浠\", \"池\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"秋\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"古\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"後\", \"用\", \"纵\", \"严\", \"夸\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"剔\", \"洁\", \"篝\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"幸\", \"聿\", \"火\", \"挨\", \"锚\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"外\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"目\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"呻\", \"肢\", \"蛙\", \"柴\", \"世\", \"脱\", \"脚\", \"鞋\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"歌\", \"弯\", \"偎\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"夏\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"堂\", \"肿\", \"执\", \"萄\", \"久\", \"荤\", \"载\", \"刀\", \"幻\", \"醒\", \"诣\", \"连\", \"俩\", \"英\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"名\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"滴\", \"琛\", \"戴\", \"队\", \"空\", \"券\", \"婺\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"有\", \"h\", \"地\", \"携\", \"预\", \"株\", \"振\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"比\", \"嘻\", \"莅\", \"%\", \"鸽\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"奘\", \"啼\", \"涉\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"扰\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"蝗\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"觅\", \"屎\", \"倘\", \"牢\", \"弘\", \"絮\", \"定\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"晒\", \"保\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"褂\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"佟\", \"浙\", \"全\", \"葡\", \"度\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"德\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"鳗\", \"妃\", \"咱\", \"芋\", \"檬\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"广\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"立\", \"秀\", \"醐\", \"猫\", \"罩\", \"分\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"阿\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"怪\", \"此\", \"竿\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"淖\", \"驿\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"的\", \"辛\", \"薯\", \"嗦\", \"极\", \"魂\", \"桥\", \"服\", \"邹\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"志\", \"俭\", \"?\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"巾\", \"吟\", \"掐\", \"荼\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"爬\", \"裘\", \"熨\", \"坂\", \"併\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"介\", \"物\", \"级\", \"享\", \"辈\", \"鸟\", \"敷\", \"布\", \"酥\", \"拐\", \"個\", \"词\", \"朝\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"メ\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"へ\", \"继\", \"腕\", \"区\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"恍\", \"缥\", \"羹\", \"d\", \"恺\", \"喻\", \"浏\", \"账\", \"薩\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"会\", \"读\", \"源\", \"巷\", \"癫\", \"轰\", \"府\", \"照\", \"怡\", \"鞘\", \"走\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"寺\", \"跌\", \"瞩\", \"幕\", \"家\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"婿\", \"旳\", \"佬\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"福\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"ノ\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"着\", \"额\", \"弥\", \"澈\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"网\", \"步\", \"〕\", \"阳\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"元\", \"佩\", \"轮\", \"牛\", \"咚\", \"霄\", \"岚\", \"纪\", \"亂\", \"祉\", \"琶\", \"脖\", \"瞬\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"邵\", \"禁\", \"召\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"行\", \"碾\", \"宰\", \"禧\", \"坑\", \"拾\", \"币\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"博\", \"普\", \"务\", \"荷\", \"渔\", \"薪\", \"拌\", \"慈\", \"我\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"警\", \"廓\", \"垂\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"孵\", \"忪\", \"娟\", \"谊\", \"躇\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"四\", \"鸩\", \"礴\", \"汲\", \"湄\", \"面\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"法\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"曲\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"篢\", \"解\", \"悖\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"示\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"春\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"迎\", \"T\", \"乎\", \"荣\", \".\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"辑\", \"哈\", \"止\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"悬\", \"垮\", \"塌\", \"八\", \"打\", \"裸\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"香\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"娑\", \"泄\", \"彩\", \" \", \"析\", \"毙\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"出\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"主\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"加\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"裳\", \"麦\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"里\", \"剐\", \"民\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"佛\", \"范\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"之\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"颠\", \"售\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"尖\", \"远\", \"邦\", \"忠\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google-bert/bert-base-cased @ cc100/fr": { + "tokenizer": "bert-base-cased", + "organization": "Google", + "vocab_size": 28996, + "_n_bytes": 1540504, + "_n_tokens": 563220, + "_n_chars": 1484970, + "_n_oov_chars": 49, + "oov_ratio": 3.29972996087463e-05, + "_oov_charset": "[\"🙂\", \"…\", \"😀\", \"♕\", \"℃\", \"❤\", \"­\", \"̂\", \"̧\", \"🤔\", \"’\", \"Ô\", \"😉\", \"�\", \"Ê\", \"™\"]", + "lossless": false + }, + "google-bert/bert-base-cased @ cc100/es": { + "tokenizer": "bert-base-cased", + "organization": "Google", + "vocab_size": 28996, + "_n_bytes": 1664455, + "_n_tokens": 610231, + "_n_chars": 1630297, + "_n_oov_chars": 68, + "oov_ratio": 4.171019145591263e-05, + "_oov_charset": "[\"‘\", \"▷\", \"­\", \"\", \"😦\", \"🙁\", \"’\", \"🙂\", \"😀\", \"❤\", \"️\", \"😉\", \"✪\", \"✖\", \"✔\", \"✓\", \"👏\", \"👍\", \"„\"]", + "lossless": false + }, + "google-bert/bert-base-chinese @ cc100/en": { + "tokenizer": "bert-base-chinese", + "organization": "Google", + "vocab_size": 21128, + "_n_bytes": 1124813, + "_n_tokens": 357068, + "_n_chars": 1121360, + "_n_oov_chars": 32977, + "oov_ratio": 0.029408040236855247, + "_oov_charset": "[\"“\", \"D\", \"S\", \"R\", \"😥\", \"​\", \"–\", \"\", \"‘\", \"W\", \"…\", \"‑\", \"’\", \"ñ\", \"🙂\", \"´\", \"Z\", \"V\", \"”\", \"U\", \"😉\", \"J\", \" \", \"H\", \"—\", \"K\", \"N\", \"C\", \"¡\", \"Y\", \"A\", \"é\", \"ï\", \"è\", \"¦\", \"�\", \"ó\", \"”\", \"M\", \"F\", \"Q\", \"L\", \"I\", \"T\", \"O\", \"P\", \"B\", \"G\", \"“\", \"X\", \"E\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-chinese @ cc100/zh-Hans": { + "tokenizer": "bert-base-chinese", + "organization": "Google", + "vocab_size": 21128, + "_n_bytes": 2633047, + "_n_tokens": 876599, + "_n_chars": 927311, + "_n_oov_chars": 34029, + "oov_ratio": 0.0366964265494532, + "_oov_charset": "[\"“\", \"D\", \"N\", \"浞\", \"鲎\", \"à\", \"W\", \"Z\", \"镏\", \"绉\", \"瑥\", \"\\u0006\", \"韫\", \"戢\", \"翕\", \"N\", \"ズ\", \"A\", \"�\", \"\", \"ό\", \"M\", \"ě\", \"韪\", \"Q\", \"V\", \"T\", \"\", \"⒁\", \"岣\", \"A\", \"î\", \"S\", \"\\u0005\", \"​\", \"‘\", \"’\", \"旳\", \"V\", \"T\", \"”\", \"馕\", \"龇\", \"瑒\", \"`\", \"旆\", \"猡\", \"H\", \"ê\", \"—\", \"屣\", \" \", \"狳\", \"⑿\", \"Y\", \"\\u0000\", \"\\u0007\", \"F\", \"\", \"瑧\", \"I\", \"G\", \"B\", \"X\", \"Ø\", \"\", \"瑑\", \"黩\", \"R\", \"⒂\", \"\", \"\", \"浠\", \"炝\", \"倨\", \"鸩\", \"鄯\", \"瑨\", \"⒀\", \"J\", \"耩\", \"锒\", \"C\", \"犰\", \"讦\", \"\", \"C\", \"啐\", \"擤\", \"黧\", \"L\", \"犟\", \"ù\", \"瑢\", \"阽\", \"逑\", \"E\", \"\\b\", \"–\", \"诨\", \"D\", \"…\", \"疴\", \"ㄓ\", \" \", \"牖\", \"―\", \"U\", \"ὐ\", \"⒌\", \"篢\", \"K\", \"á\", \"é\", \"溘\", \"ç\", \"P\", \"O\", \"鼯\", \"穰\", \"黢\", \"⒃\"]", + "lossless": false + }, + "google-bert/bert-base-chinese @ cc100/fr": { + "tokenizer": "bert-base-chinese", + "organization": "Google", + "vocab_size": 21128, + "_n_bytes": 1540504, + "_n_tokens": 533134, + "_n_chars": 1484970, + "_n_oov_chars": 74274, + "oov_ratio": 0.0500171720640821, + "_oov_charset": "[\"ë\", \"î\", \"D\", \"R\", \"S\", \"“\", \"È\", \"ô\", \"–\", \"­\", \"̧\", \"’\", \"‐\", \"Ê\", \"‘\", \"à\", \"W\", \"…\", \"’\", \"🙂\", \"´\", \"Z\", \"😀\", \"♕\", \"̂\", \"V\", \"―\", \"́\", \"U\", \"”\", \"😉\", \"À\", \"J\", \" \", \"ü\", \"H\", \"…\", \"ê\", \"—\", \"Ç\", \"K\", \"N\", \"C\", \"É\", \"🤔\", \"Ô\", \"è\", \"é\", \"A\", \"ï\", \"Y\", \"�\", \"ã\", \"í\", \"M\", \"â\", \"û\", \"Â\", \"F\", \"Q\", \"L\", \"I\", \"ç\", \"T\", \"P\", \"O\", \"B\", \"œ\", \"ù\", \"G\", \"X\", \"ğ\", \"ä\", \"E\", \"Î\"]", + "lossless": false + }, + "google-bert/bert-base-chinese @ cc100/es": { + "tokenizer": "bert-base-chinese", + "organization": "Google", + "vocab_size": 21128, + "_n_bytes": 1664455, + "_n_tokens": 589419, + "_n_chars": 1630297, + "_n_oov_chars": 71856, + "oov_ratio": 0.04407540466553027, + "_oov_charset": "[\"D\", \"“\", \"S\", \"R\", \"‘\", \"▷\", \"–\", \"¿\", \"­\", \"\", \"🙁\", \"😦\", \"’\", \"ô\", \"‘\", \"à\", \"W\", \"ñ\", \"…\", \"Á\", \"’\", \"🙂\", \"´\", \"Z\", \"😀\", \"V\", \"―\", \"️\", \"U\", \"”\", \"😉\", \"Ó\", \"J\", \" \", \"ü\", \"ö\", \"H\", \"—\", \"K\", \"N\", \"C\", \"É\", \"ò\", \"á\", \"¡\", \"A\", \"é\", \"Y\", \"è\", \"М\", \"ó\", \"í\", \"M\", \"✓\", \"ú\", \"F\", \"Q\", \"L\", \"Ñ\", \"Ú\", \"I\", \"ª\", \"ý\", \"👏\", \"T\", \"P\", \"O\", \"B\", \"G\", \"„\", \"X\", \"Í\", \"E\"]", + "lossless": false + }, + "google-bert/bert-base-german-cased @ cc100/en": { + "tokenizer": "bert-base-german-cased", + "organization": "Google", + "vocab_size": 30000, + "_n_bytes": 1124813, + "_n_tokens": 429260, + "_n_chars": 1121360, + "_n_oov_chars": 1766, + "oov_ratio": 0.0015748733680530783, + "_oov_charset": "[\"⑦\", \"“\", \"😥\", \"​\", \"–\", \"\", \"‘\", \"…\", \"‑\", \"’\", \"ñ\", \"🙂\", \"´\", \"•\", \"⑧\", \"”\", \"😉\", \"®\", \"«\", \"»\", \"£\", \"—\", \"¡\", \"è\", \"é\", \"¦\", \"ï\", \"�\", \"ó\", \"”\", \"q\", \"⑤\", \"“\", \"⑩\", \"③\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-german-cased @ cc100/zh-Hans": { + "tokenizer": "bert-base-german-cased", + "organization": "Google", + "vocab_size": 30000, + "_n_bytes": 2633047, + "_n_tokens": 881138, + "_n_chars": 927311, + "_n_oov_chars": 873395, + "oov_ratio": 0.9418576939128297, + "_oov_charset": "[\"搅\", \"千\", \"太\", \"稻\", \"缕\", \"膨\", \"星\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"都\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"α\", \"伟\", \"东\", \"„\", \"政\", \"蕴\", \"羁\", \"ě\", \"射\", \"q\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"~\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"李\", \"跷\", \"手\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"•\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"》\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"壹\", \"承\", \"婆\", \"饶\", \"搬\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"〉\", \"轶\", \"咬\", \"【\", \"也\", \"咒\", \"肃\", \"镇\", \"』\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"▪\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"鳃\", \"餐\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"五\", \"踩\", \"屡\", \"宇\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"温\", \"闭\", \"殊\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"女\", \"穷\", \"筹\", \"苯\", \"捆\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"美\", \"滢\", \"衫\", \"融\", \"砺\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"ズ\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"佐\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"男\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"前\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"—\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"相\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"奈\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"永\", \"食\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"尚\", \"舶\", \"⑴\", \"滑\", \"方\", \"考\", \"耳\", \"念\", \"捍\", \"鳞\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"宗\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"ç\", \"←\", \"摞\", \"彰\", \"残\", \"山\", \"庄\", \"镶\", \"恿\", \"投\", \"涸\", \"乍\", \"(\", \"疮\", \"信\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"×\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"ο\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"原\", \"滞\", \"乞\", \"恤\", \"治\", \"击\", \"憬\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"不\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"禾\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"”\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"雄\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"戸\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"崎\", \"屌\", \"聆\", \"蔚\", \"清\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"和\", \"彭\", \"扇\", \"搐\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"森\", \"涎\", \"暑\", \"逑\", \"腿\", \"歉\", \"内\", \"]\", \"痘\", \"瀚\", \"喀\", \"陨\", \"岗\", \"册\", \"愉\", \"生\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"年\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"公\", \"正\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"選\", \"溉\", \"炕\", \"霈\", \"〈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"学\", \"头\", \"柚\", \"江\", \"艘\", \"桅\", \"眷\", \"恋\", \"員\", \"伊\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"健\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"昭\", \"章\", \"良\", \"赞\", \"」\", \"霭\", \"吐\", \"合\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"子\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"海\", \"拭\", \"阑\", \"岌\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"王\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"ト\", \"迤\", \"弓\", \"花\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"成\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"祸\", \"[\", \"覆\", \"°\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"の\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"城\", \"篱\", \"鲸\", \"渐\", \"岭\", \"援\", \"光\", \"虐\", \"灑\", \"-\", \"北\", \"楣\", \"却\", \"芯\", \"锣\", \"代\", \"嬉\", \"农\", \"洪\", \"差\", \"处\", \"囤\", \"耀\", \"▲\", \"佣\", \"é\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"郎\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"茶\", \"九\", \"锏\", \"铎\", \"翕\", \"爪\", \"链\", \"闺\", \"挪\", \"岔\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"大\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"村\", \"蔬\", \"煽\", \"割\", \"绸\", \"鸿\", \"豚\", \"螃\", \"日\", \"贯\", \"侦\", \"堵\", \"亭\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"嘣\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"窿\", \"御\", \"弛\", \"凤\", \"狗\", \"蹈\", \"ς\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"『\", \"躯\", \"诱\", \"弑\", \"猛\", \"社\", \"泼\", \"渝\", \"阽\", \"帝\", \"戍\", \"黏\", \"中\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"街\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"─\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"省\", \"函\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"谷\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"史\", \"金\", \"欢\", \"钱\", \"摘\", \"溢\", \"吴\", \"陀\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"宣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"智\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"西\", \"池\", \"浠\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"秋\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"古\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \",\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"後\", \"用\", \"纵\", \"严\", \"夸\", \"。\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"τ\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"“\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"剔\", \"洁\", \"篝\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"幸\", \"聿\", \"火\", \"挨\", \"锚\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"皇\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"→\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"外\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"田\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"●\", \"目\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"呻\", \"肢\", \"蛙\", \"柴\", \"世\", \"脱\", \"脚\", \"鞋\", \"氏\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"歌\", \"弯\", \"偎\", \"π\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"夏\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"堂\", \"肿\", \"执\", \"萄\", \"久\", \"荤\", \"载\", \"刀\", \"醒\", \"幻\", \"诣\", \"连\", \"俩\", \"英\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"名\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"î\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"神\", \"滴\", \"琛\", \"戴\", \"队\", \"空\", \"券\", \"宿\", \"婺\", \"人\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"有\", \"h\", \"地\", \"携\", \"预\", \"/\", \"株\", \"振\", \"月\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"イ\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"比\", \"嘻\", \"莅\", \"%\", \"鸽\", \"–\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"林\", \"奘\", \"涉\", \"啼\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"扰\", \"明\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"平\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"一\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"石\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"道\", \"蝗\", \"川\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"’\", \"觅\", \"郡\", \"屎\", \"倘\", \"牢\", \"弘\", \"絮\", \"定\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"Ø\", \"晒\", \"保\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"★\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"仁\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"文\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"褂\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"竹\", \"浙\", \"全\", \"葡\", \"度\", \"佟\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"野\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"德\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"吉\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"真\", \"妃\", \"咱\", \"芋\", \"檬\", \"鳗\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"夫\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"广\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \")\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"河\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"立\", \"秀\", \"醐\", \"猫\", \"罩\", \"分\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"阿\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"シ\", \"怪\", \"此\", \"竿\", \"高\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"·\", \"淖\", \"驿\", \"犬\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"的\", \"辛\", \"薯\", \"嗦\", \"极\", \"魂\", \"桥\", \"服\", \"邹\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"志\", \"俭\", \"?\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"巾\", \"吟\", \"掐\", \"荼\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"同\", \"爬\", \"裘\", \"熨\", \"坂\", \"併\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"・\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"介\", \"物\", \"级\", \"享\", \"辈\", \"鸟\", \"敷\", \"布\", \"酥\", \"拐\", \"個\", \"■\", \"词\", \"朝\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"メ\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"へ\", \"继\", \"腕\", \"区\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"新\", \"恍\", \"羹\", \"缥\", \"d\", \"喻\", \"浏\", \"恺\", \"账\", \"薩\", \"三\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"門\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"会\", \"读\", \"源\", \"巷\", \"下\", \"轰\", \"府\", \"照\", \"怡\", \"癫\", \"走\", \"鞘\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"à\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"白\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"寺\", \"跌\", \"瞩\", \"幕\", \"家\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"事\", \"婿\", \"旳\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"佬\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"福\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"土\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"ノ\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"《\", \"着\", \"额\", \"弥\", \"澈\", \"井\", \"藤\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"南\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"á\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"武\", \"↑\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"京\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"!\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"©\", \"网\", \"步\", \"〕\", \"阳\", \"小\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"元\", \"佩\", \"轮\", \"牛\", \"侍\", \"咚\", \"霄\", \"纪\", \"岚\", \"亂\", \"祉\", \"琶\", \"脖\", \"瞬\", \"司\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"「\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"二\", \"禁\", \"召\", \"邵\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"行\", \"碾\", \"宰\", \"禧\", \"坑\", \"拾\", \"币\", \"ù\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"博\", \"普\", \"务\", \"荷\", \"渔\", \"薪\", \"拌\", \"慈\", \"我\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"版\", \"警\", \"垂\", \"廓\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"口\", \"孵\", \"娟\", \"谊\", \"躇\", \"忪\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"‘\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"心\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \":\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"四\", \"鸩\", \"礴\", \"汲\", \"湄\", \"面\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"法\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"曲\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"―\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"»\", \"解\", \"悖\", \"篢\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"示\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"青\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"春\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"本\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"迎\", \"T\", \"乎\", \"荣\", \".\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"力\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"木\", \"辑\", \"哈\", \"止\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"州\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"、\", \"悬\", \"垮\", \"塌\", \"八\", \"打\", \"裸\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"…\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"香\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"ὐ\", \" \", \"泄\", \"彩\", \"娑\", \"析\", \"毙\", \"部\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"出\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"主\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"加\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"天\", \"裳\", \"麦\", \"ό\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"里\", \"剐\", \"民\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"士\", \"佛\", \"范\", \"上\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"ê\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"之\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"国\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"安\", \"售\", \"颠\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"十\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"水\", \"尖\", \"远\", \"邦\", \"忠\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"松\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google-bert/bert-base-german-cased @ cc100/fr": { + "tokenizer": "bert-base-german-cased", + "organization": "Google", + "vocab_size": 30000, + "_n_bytes": 1540504, + "_n_tokens": 530069, + "_n_chars": 1484970, + "_n_oov_chars": 48476, + "oov_ratio": 0.03264443052721604, + "_oov_charset": "[\"ë\", \"î\", \"“\", \"È\", \"ô\", \"–\", \"­\", \"̧\", \"★\", \"’\", \"Ê\", \"‘\", \"à\", \"…\", \"’\", \"🙂\", \"´\", \"•\", \"😀\", \"♕\", \"℃\", \"❤\", \"̂\", \"―\", \"́\", \"”\", \"😉\", \"®\", \"À\", \"«\", \"™\", \"»\", \"²\", \"·\", \"…\", \"ê\", \"—\", \"♠\", \"Ç\", \"É\", \"🤔\", \"ã\", \"Ô\", \"è\", \"é\", \"�\", \"ï\", \"µ\", \"″\", \"í\", \"â\", \"û\", \"q\", \"°\", \"ç\", \"œ\", \"ğ\", \"←\", \"ù\", \"‐\", \"Â\", \"Î\"]", + "lossless": false + }, + "google-bert/bert-base-german-cased @ cc100/es": { + "tokenizer": "bert-base-german-cased", + "organization": "Google", + "vocab_size": 30000, + "_n_bytes": 1664455, + "_n_tokens": 580233, + "_n_chars": 1630297, + "_n_oov_chars": 32121, + "oov_ratio": 0.019702544996402498, + "_oov_charset": "[\"“\", \"‘\", \"▷\", \"–\", \"¿\", \"­\", \"′\", \"🙁\", \"\", \"😦\", \"■\", \"’\", \"‘\", \"à\", \"…\", \"ñ\", \"Á\", \"’\", \"🙂\", \"´\", \"😀\", \"•\", \"❤\", \"―\", \"️\", \"”\", \"😉\", \"Ó\", \"✪\", \"✖\", \"®\", \"«\", \"»\", \"²\", \"ø\", \"×\", \"·\", \"—\", \"✔\", \"©\", \"ò\", \"É\", \"М\", \"á\", \"¡\", \"é\", \"è\", \"→\", \"″\", \"ó\", \"í\", \"✓\", \"ú\", \"q\", \"°\", \"Ñ\", \"Ú\", \"ª\", \"ý\", \"👍\", \"←\", \"👏\", \"ô\", \"„\", \"Í\", \"º\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-cased @ cc100/en": { + "tokenizer": "bert-base-multilingual-cased", + "organization": "Google", + "vocab_size": 119547, + "_n_bytes": 1124813, + "_n_tokens": 280462, + "_n_chars": 1121360, + "_n_oov_chars": 1667, + "oov_ratio": 0.0014865877149176, + "_oov_charset": "[\"⑦\", \"“\", \"😥\", \"​\", \"–\", \"\", \"‘\", \"‑\", \"…\", \"’\", \"🙂\", \"´\", \"⑧\", \"”\", \"😉\", \"—\", \"�\", \"”\", \"“\", \"⑩\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-cased @ cc100/zh-Hans": { + "tokenizer": "bert-base-multilingual-cased", + "organization": "Google", + "vocab_size": 119547, + "_n_bytes": 2633047, + "_n_tokens": 878811, + "_n_chars": 927311, + "_n_oov_chars": 29293, + "oov_ratio": 0.03158918636789599, + "_oov_charset": "[\"萦\", \"纰\", \"i\", \"缭\", \"舀\", \"飕\", \"捅\", \"葩\", \"孪\", \"狈\", \"戢\", \"擀\", \"赡\", \"铛\", \"翕\", \"锏\", \"噱\", \"拽\", \"搀\", \"裆\", \"嗯\", \"阂\", \"蔼\", \"鼾\", \"遢\", \"跷\", \"镳\", \"忐\", \"’\", \"倏\", \"龇\", \"犄\", \"啬\", \"屣\", \"p\", \"\\u0000\", \"⑨\", \"\", \"遑\", \"瑧\", \"惋\", \"铤\", \"嘣\", \"咚\", \"膊\", \"睑\", \"涣\", \"眯\", \"\", \"攒\", \"炝\", \"泱\", \"冽\", \"秸\", \"倨\", \"怂\", \"觑\", \"啥\", \"⒀\", \"偌\", \"炖\", \"绷\", \"讦\", \"哒\", \"咙\", \"荨\", \"邋\", \"忡\", \"阽\", \"〞\", \"剁\", \"⑦\", \"蹒\", \"疴\", \"烬\", \"纨\", \"r\", \"⒌\", \"拧\", \"蕤\", \"笆\", \"捂\", \"淌\", \"撬\", \"诧\", \"狰\", \"毡\", \"臊\", \"癜\", \"肓\", \"莴\", \"鲎\", \"忪\", \"憋\", \"蛔\", \"苒\", \"谑\", \"烊\", \"滢\", \"缈\", \"聒\", \"�\", \"晾\", \"姣\", \"啃\", \"V\", \"蓦\", \"扪\", \"骛\", \"\", \"诶\", \"​\", \"‘\", \"啕\", \"蹩\", \"瘩\", \"赅\", \"馍\", \"盹\", \"`\", \"瑒\", \"喽\", \"a\", \"旆\", \"呷\", \"—\", \"⑿\", \"懵\", \"嘤\", \"吱\", \"嵘\", \"倜\", \"腭\", \"唏\", \"攥\", \"浠\", \"缄\", \"撷\", \"厮\", \"⑧\", \"鸩\", \"礴\", \"呸\", \"耩\", \"踹\", \"犰\", \"蹿\", \"鹑\", \"惴\", \"狞\", \"馄\", \"挲\", \"嗔\", \"⑸\", \"啐\", \"擤\", \"黧\", \"谧\", \"谆\", \"嗦\", \"咧\", \"楂\", \"胧\", \"鹌\", \"蚯\", \"秆\", \"饨\", \"诨\", \"⑥\", \"掂\", \"嗨\", \"掰\", \"樯\", \"碴\", \"祛\", \"―\", \"瞟\", \"s\", \"鹜\", \"⑴\", \"篢\", \"玷\", \"佝\", \"讪\", \"伫\", \"嚷\", \"蟀\", \"墒\", \"溘\", \"掐\", \"呦\", \"擞\", \"摞\", \"撅\", \"黢\", \"铄\", \"⒃\", \"呗\", \"熨\", \"“\", \"嘭\", \"N\", \"痫\", \"吆\", \"噼\", \"瑥\", \"\\u0006\", \"懑\", \"飚\", \"哧\", \"欸\", \"臃\", \"皑\", \"懊\", \"唉\", \"韪\", \"咦\", \"⒁\", \"抡\", \"岣\", \"嘈\", \"\\u0005\", \"褂\", \"嗡\", \"t\", \"孱\", \"刨\", \"沏\", \"T\", \"惫\", \"”\", \"侥\", \"⒋\", \"篓\", \"汹\", \"橱\", \"胳\", \"蘸\", \"叨\", \"\", \"瑑\", \"赘\", \"逶\", \"⒂\", \"唠\", \"胫\", \"獗\", \"婊\", \"屌\", \"郅\", \"瑨\", \"抠\", \"搐\", \"锒\", \"惭\", \"怵\", \"茏\", \"诙\", \"峥\", \"揍\", \"逑\", \"\\b\", \"黝\", \"屉\", \"猬\", \"缥\", \"d\", \"D\", \"…\", \"惘\", \" \", \"坯\", \"牖\", \"汩\", \"呻\", \"抿\", \"拎\", \"叼\", \"n\", \"诟\", \"眨\", \"偎\", \"唬\", \"霈\", \"炕\", \"窍\", \"璎\", \"憔\", \"撸\", \"缜\", \"埂\", \"怔\", \"浞\", \"棂\", \"谩\", \"粼\", \"撩\", \"啪\", \"镏\", \"魇\", \"绉\", \"韫\", \"奂\", \"馋\", \"瘙\", \"荤\", \"霭\", \"谀\", \"\", \"挈\", \"涮\", \"镉\", \"⑶\", \"剐\", \"搂\", \"瞠\", \"唷\", \"犷\", \"籁\", \"蹭\", \"遛\", \"偻\", \"挎\", \"嗤\", \"忑\", \"旳\", \"馒\", \"铣\", \"馕\", \"猡\", \"肮\", \"饽\", \"瞅\", \" \", \"狳\", \"吮\", \"嘀\", \"呃\", \"\\u0007\", \"h\", \"噢\", \"⑷\", \"阑\", \"愣\", \"泯\", \"旖\", \"⑩\", \"黩\", \"哎\", \"\", \"o\", \"e\", \"皙\", \"踱\", \"迤\", \"铩\", \"屄\", \"踌\", \"鬓\", \"磕\", \"锲\", \"\", \"旎\", \"酝\", \"睁\", \"颧\", \"睬\", \"犟\", \"芃\", \"惦\", \"瑢\", \"崽\", \"傥\", \"–\", \"惬\", \"疙\", \"ㄓ\", \"馁\", \"跚\", \"矍\", \"∶\", \"哟\", \"咔\", \"悴\", \"搡\", \"茁\", \"鹕\", \"鼯\", \"吭\", \"嗲\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-cased @ cc100/fr": { + "tokenizer": "bert-base-multilingual-cased", + "organization": "Google", + "vocab_size": 119547, + "_n_bytes": 1540504, + "_n_tokens": 396708, + "_n_chars": 1484970, + "_n_oov_chars": 7207, + "oov_ratio": 0.0048532966995966246, + "_oov_charset": "[\"“\", \"–\", \"­\", \"’\", \"‘\", \"…\", \"’\", \"🙂\", \"´\", \"😀\", \"̂\", \"❤\", \"―\", \"”\", \"😉\", \"…\", \"—\", \"🤔\", \"�\", \"‐\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-cased @ cc100/es": { + "tokenizer": "bert-base-multilingual-cased", + "organization": "Google", + "vocab_size": 119547, + "_n_bytes": 1664455, + "_n_tokens": 405970, + "_n_chars": 1630297, + "_n_oov_chars": 2192, + "oov_ratio": 0.0013445402892847131, + "_oov_charset": "[\"“\", \"‘\", \"▷\", \"–\", \"­\", \"\", \"😦\", \"🙁\", \"’\", \"‘\", \"…\", \"’\", \"🙂\", \"´\", \"😀\", \"❤\", \"―\", \"️\", \"”\", \"😉\", \"✪\", \"✖\", \"—\", \"✔\", \"✓\", \"👏\", \"👍\", \"„\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-uncased @ cc100/en": { + "tokenizer": "bert-base-multilingual-uncased", + "organization": "Google", + "vocab_size": 105879, + "_n_bytes": 1124813, + "_n_tokens": 271691, + "_n_chars": 1121360, + "_n_oov_chars": 32702, + "oov_ratio": 0.029162802311478917, + "_oov_charset": "[\"“\", \"D\", \"S\", \"R\", \"😥\", \"​\", \"–\", \"\", \"‘\", \"W\", \"…\", \"‑\", \"’\", \"ñ\", \"🙂\", \"´\", \"Z\", \"V\", \"”\", \"U\", \"😉\", \"J\", \"H\", \"—\", \"K\", \"N\", \"C\", \"Y\", \"A\", \"é\", \"ï\", \"è\", \"�\", \"ó\", \"”\", \"M\", \"F\", \"Q\", \"L\", \"I\", \"T\", \"O\", \"P\", \"B\", \"G\", \"⑩\", \"X\", \"“\", \"E\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-uncased @ cc100/zh-Hans": { + "tokenizer": "bert-base-multilingual-uncased", + "organization": "Google", + "vocab_size": 105879, + "_n_bytes": 2633047, + "_n_tokens": 878021, + "_n_chars": 927311, + "_n_oov_chars": 34293, + "oov_ratio": 0.03698112068119541, + "_oov_charset": "[\"“\", \"D\", \"撸\", \"嘭\", \"纰\", \"飕\", \"N\", \"舀\", \"怔\", \"à\", \"吆\", \"W\", \"忪\", \"憋\", \"粼\", \"Z\", \"苒\", \"镏\", \"噼\", \"绉\", \"烊\", \"瑥\", \"\\u0006\", \"馋\", \"擀\", \"懑\", \"哧\", \"缈\", \"N\", \"聒\", \"锏\", \"ズ\", \"欸\", \"A\", \"�\", \"臃\", \"\", \"ό\", \"M\", \"ě\", \"皑\", \"唉\", \"搀\", \"Q\", \"V\", \"⑶\", \"剐\", \"搂\", \"蓦\", \"韪\", \"扪\", \"骛\", \"T\", \"瞠\", \"咦\", \"裆\", \"\", \"⒁\", \"岣\", \"诶\", \"A\", \"î\", \"S\", \"\\u0005\", \"​\", \"蹭\", \"遛\", \"鼾\", \"偻\", \"遢\", \"挎\", \"‘\", \"忐\", \"啕\", \"忑\", \"’\", \"旳\", \"沏\", \"蹩\", \"倏\", \"V\", \"T\", \"”\", \"赅\", \"馕\", \"龇\", \"馍\", \"盹\", \"`\", \"瑒\", \"喽\", \"旆\", \"猡\", \"饽\", \"H\", \"ê\", \"—\", \"瞅\", \"屣\", \" \", \"⑿\", \"⒋\", \"Y\", \"嘀\", \"篓\", \"嘤\", \"\\u0000\", \"\\u0007\", \"⑨\", \"F\", \"\", \"⑷\", \"瑧\", \"I\", \"愣\", \"G\", \"旖\", \"B\", \"嘣\", \"⑩\", \"X\", \"Ø\", \"\", \"唏\", \"瑑\", \"黩\", \"逶\", \"R\", \"⒂\", \"攥\", \"眯\", \"\", \"\", \"唠\", \"炝\", \"倨\", \"婊\", \"踱\", \"鸩\", \"觑\", \"呸\", \"⒀\", \"抠\", \"瑨\", \"J\", \"偌\", \"耩\", \"⒃\", \"锒\", \"铩\", \"屄\", \"踌\", \"C\", \"锲\", \"蹿\", \"惴\", \"狞\", \"馄\", \"挲\", \"\", \"旎\", \"怵\", \"⑸\", \"C\", \"啐\", \"擤\", \"茏\", \"黧\", \"L\", \"颧\", \"谆\", \"嗦\", \"犟\", \"邋\", \"惦\", \"ù\", \"阽\", \"E\", \"\\b\", \"饨\", \"傥\", \"蹒\", \"屉\", \"–\", \"诨\", \"掂\", \"惬\", \"缥\", \"D\", \"吭\", \"…\", \"疴\", \"ㄓ\", \"樯\", \"馁\", \"跚\", \"纨\", \" \", \"牖\", \"―\", \"瞟\", \"U\", \"鹜\", \"汩\", \"ὐ\", \"⒌\", \"⑴\", \"拧\", \"篢\", \"抿\", \"拎\", \"佝\", \"捂\", \"∶\", \"K\", \"á\", \"é\", \"墒\", \"溘\", \"搡\", \"偎\", \"狰\", \"擞\", \"臊\", \"ç\", \"P\", \"O\", \"摞\", \"撅\", \"黢\", \"铄\", \"癜\", \"璎\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-uncased @ cc100/fr": { + "tokenizer": "bert-base-multilingual-uncased", + "organization": "Google", + "vocab_size": 105879, + "_n_bytes": 1540504, + "_n_tokens": 379266, + "_n_chars": 1484970, + "_n_oov_chars": 73934, + "oov_ratio": 0.049788211209654064, + "_oov_charset": "[\"ë\", \"î\", \"D\", \"R\", \"S\", \"“\", \"È\", \"ô\", \"–\", \"­\", \"̧\", \"’\", \"‐\", \"Ê\", \"‘\", \"à\", \"W\", \"…\", \"’\", \"🙂\", \"´\", \"Z\", \"😀\", \"̂\", \"V\", \"❤\", \"―\", \"́\", \"U\", \"”\", \"😉\", \"À\", \"J\", \"ü\", \"H\", \"…\", \"ê\", \"—\", \"Ç\", \"K\", \"N\", \"C\", \"É\", \"🤔\", \"Ô\", \"è\", \"é\", \"A\", \"ï\", \"Y\", \"�\", \"ã\", \"í\", \"M\", \"â\", \"û\", \"F\", \"Q\", \"L\", \"I\", \"ç\", \"T\", \"P\", \"O\", \"B\", \"G\", \"ù\", \"X\", \"ğ\", \"Â\", \"ä\", \"E\", \"Î\"]", + "lossless": false + }, + "google-bert/bert-base-multilingual-uncased @ cc100/es": { + "tokenizer": "bert-base-multilingual-uncased", + "organization": "Google", + "vocab_size": 105879, + "_n_bytes": 1664455, + "_n_tokens": 385564, + "_n_chars": 1630297, + "_n_oov_chars": 70457, + "oov_ratio": 0.04321727881484171, + "_oov_charset": "[\"D\", \"“\", \"S\", \"R\", \"‘\", \"▷\", \"–\", \"­\", \"\", \"😦\", \"🙁\", \"’\", \"ô\", \"‘\", \"à\", \"W\", \"ñ\", \"…\", \"Á\", \"’\", \"🙂\", \"´\", \"Z\", \"😀\", \"V\", \"❤\", \"―\", \"️\", \"U\", \"”\", \"😉\", \"Ó\", \"✪\", \"✖\", \"J\", \"ü\", \"ö\", \"H\", \"—\", \"✔\", \"K\", \"N\", \"C\", \"É\", \"ò\", \"á\", \"Y\", \"A\", \"é\", \"è\", \"М\", \"ó\", \"í\", \"M\", \"✓\", \"ú\", \"F\", \"Q\", \"L\", \"Ñ\", \"Ú\", \"I\", \"👏\", \"ý\", \"👍\", \"T\", \"P\", \"O\", \"B\", \"G\", \"„\", \"X\", \"Í\", \"E\"]", + "lossless": false + }, + "google-bert/bert-base-uncased @ cc100/en": { + "tokenizer": "bert-base-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1124813, + "_n_tokens": 260575, + "_n_chars": 1121360, + "_n_oov_chars": 31075, + "oov_ratio": 0.027711885567525147, + "_oov_charset": "[\"⑦\", \"D\", \"S\", \"R\", \"😥\", \"​\", \"\", \"W\", \"ñ\", \"🙂\", \"Z\", \"⑧\", \"V\", \"U\", \"😉\", \"J\", \"H\", \"K\", \"N\", \"C\", \"Y\", \"A\", \"é\", \"ï\", \"è\", \"�\", \"ó\", \"”\", \"M\", \"F\", \"Q\", \"L\", \"⑤\", \"I\", \"T\", \"O\", \"P\", \"B\", \"G\", \"⑩\", \"X\", \"“\", \"③\", \"E\", \"\"]", + "lossless": false + }, + "google-bert/bert-base-uncased @ cc100/zh-Hans": { + "tokenizer": "bert-base-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 2633047, + "_n_tokens": 878554, + "_n_chars": 927311, + "_n_oov_chars": 573790, + "oov_ratio": 0.618767597925615, + "_oov_charset": "[\"搅\", \"稻\", \"缕\", \"膨\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"伟\", \"东\", \"蕴\", \"羁\", \"ě\", \"射\", \"Q\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"跷\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"Y\", \"承\", \"婆\", \"饶\", \"搬\", \"壹\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"轶\", \"咬\", \"【\", \"咒\", \"肃\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"餐\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"踩\", \"屡\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"殊\", \"温\", \"闭\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"穷\", \"筹\", \"苯\", \"捆\", \"Z\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"滢\", \"砺\", \"衫\", \"融\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"ズ\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"舶\", \"⑴\", \"滑\", \"考\", \"鳞\", \"念\", \"捍\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"ç\", \"摞\", \"彰\", \"残\", \"镶\", \"庄\", \"恿\", \"投\", \"涸\", \"乍\", \"疮\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"恤\", \"滞\", \"乞\", \"憬\", \"击\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"屌\", \"聆\", \"蔚\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"彭\", \"搐\", \"扇\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"涎\", \"逑\", \"暑\", \"腿\", \"歉\", \"喀\", \"]\", \"痘\", \"瀚\", \"陨\", \"岗\", \"册\", \"愉\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"P\", \"選\", \"溉\", \"炕\", \"霈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"头\", \"桅\", \"柚\", \"艘\", \"眷\", \"恋\", \"員\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"霭\", \"赞\", \"吐\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"拭\", \"岌\", \"阑\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"迤\", \"弓\", \"J\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"L\", \"[\", \"覆\", \"祸\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"鲸\", \"篱\", \"渐\", \"岭\", \"援\", \"虐\", \"灑\", \"楣\", \"却\", \"芯\", \"锣\", \"嬉\", \"农\", \"洪\", \"差\", \"处\", \"囤\", \"耀\", \"K\", \"▲\", \"佣\", \"é\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"N\", \"九\", \"茶\", \"锏\", \"铎\", \"翕\", \"链\", \"闺\", \"挪\", \"岔\", \"爪\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"蔬\", \"煽\", \"绸\", \"割\", \"豚\", \"鸿\", \"螃\", \"贯\", \"侦\", \"亭\", \"堵\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"嘣\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"C\", \"窿\", \"弛\", \"凤\", \"狗\", \"蹈\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"躯\", \"诱\", \"弑\", \"猛\", \"泼\", \"渝\", \"阽\", \"戍\", \"黏\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"函\", \"鳃\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"O\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"欢\", \"钱\", \"摘\", \"溢\", \"陀\", \"吴\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"T\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"浠\", \"池\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"用\", \"纵\", \"严\", \"夸\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"W\", \"洁\", \"篝\", \"剔\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"聿\", \"锚\", \"挨\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"H\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"E\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"呻\", \"肢\", \"蛙\", \"柴\", \"鞋\", \"脱\", \"脚\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"弯\", \"偎\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"肿\", \"执\", \"萄\", \"荤\", \"载\", \"刀\", \"幻\", \"醒\", \"诣\", \"连\", \"俩\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"î\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"滴\", \"琛\", \"戴\", \"队\", \"券\", \"婺\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"h\", \"携\", \"预\", \"I\", \"株\", \"振\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"嘻\", \"莅\", \"%\", \"鸽\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"奘\", \"啼\", \"涉\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"U\", \"扰\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"A\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"蝗\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"觅\", \"屎\", \"倘\", \"牢\", \"絮\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"Ø\", \"晒\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"佟\", \"浙\", \"全\", \"葡\", \"度\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"鳗\", \"妃\", \"咱\", \"芋\", \"檬\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"醐\", \"猫\", \"罩\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"怪\", \"此\", \"竿\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"淖\", \"驿\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"辛\", \"薯\", \"嗦\", \"邹\", \"极\", \"魂\", \"桥\", \"服\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"俭\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"巾\", \"吟\", \"掐\", \"荼\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"爬\", \"裘\", \"熨\", \"併\", \"D\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"鸟\", \"物\", \"级\", \"享\", \"辈\", \"敷\", \"酥\", \"布\", \"個\", \"拐\", \"褂\", \"词\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"继\", \"腕\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"恍\", \"缥\", \"羹\", \"d\", \"恺\", \"喻\", \"浏\", \"账\", \"薩\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"读\", \"源\", \"巷\", \"癫\", \"轰\", \"府\", \"照\", \"怡\", \"鞘\", \"走\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"à\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"S\", \"跌\", \"瞩\", \"幕\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"婿\", \"旳\", \"佬\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"X\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"R\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"着\", \"额\", \"弥\", \"澈\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"á\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"网\", \"步\", \"〕\", \"阳\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"F\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"G\", \"B\", \"霄\", \"佩\", \"轮\", \"牛\", \"咚\", \"岚\", \"亂\", \"纪\", \"祉\", \"琶\", \"脖\", \"瞬\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"邵\", \"禁\", \"召\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"碾\", \"禧\", \"宰\", \"坑\", \"ù\", \"拾\", \"币\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"普\", \"荷\", \"务\", \"渔\", \"拌\", \"薪\", \"慈\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"警\", \"廓\", \"垂\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"孵\", \"忪\", \"娟\", \"谊\", \"躇\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"汲\", \"鸩\", \"礴\", \"湄\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"篢\", \"解\", \"悖\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"M\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"V\", \"迎\", \"T\", \"乎\", \"荣\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"辑\", \"哈\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"悬\", \"垮\", \"塌\", \"裸\", \"打\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"ὐ\", \"娑\", \"泄\", \"彩\", \"析\", \"毙\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"裳\", \"麦\", \"ό\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"剐\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"佛\", \"范\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"ê\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"颠\", \"售\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"尖\", \"远\", \"邦\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google-bert/bert-base-uncased @ cc100/fr": { + "tokenizer": "bert-base-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1540504, + "_n_tokens": 484075, + "_n_chars": 1484970, + "_n_oov_chars": 66759, + "oov_ratio": 0.04495646376694479, + "_oov_charset": "[\"ë\", \"î\", \"D\", \"R\", \"S\", \"È\", \"ô\", \"­\", \"̧\", \"’\", \"Ê\", \"à\", \"W\", \"🙂\", \"Z\", \"😀\", \"♕\", \"℃\", \"V\", \"❤\", \"̂\", \"́\", \"U\", \"😉\", \"À\", \"J\", \"ü\", \"H\", \"…\", \"ê\", \"Ç\", \"K\", \"N\", \"C\", \"É\", \"🤔\", \"Ô\", \"è\", \"é\", \"A\", \"ï\", \"Y\", \"�\", \"ã\", \"í\", \"M\", \"â\", \"û\", \"F\", \"Q\", \"L\", \"I\", \"ç\", \"T\", \"P\", \"O\", \"B\", \"G\", \"ù\", \"X\", \"ğ\", \"Â\", \"ä\", \"E\", \"Î\"]", + "lossless": false + }, + "google-bert/bert-base-uncased @ cc100/es": { + "tokenizer": "bert-base-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1664455, + "_n_tokens": 538042, + "_n_chars": 1630297, + "_n_oov_chars": 68333, + "oov_ratio": 0.041914448717012914, + "_oov_charset": "[\"D\", \"‘\", \"S\", \"R\", \"▷\", \"­\", \"\", \"ô\", \"😦\", \"🙁\", \"’\", \"à\", \"W\", \"ñ\", \"Á\", \"🙂\", \"Z\", \"😀\", \"V\", \"❤\", \"️\", \"U\", \"😉\", \"Ó\", \"✪\", \"✖\", \"J\", \"ü\", \"ö\", \"H\", \"✔\", \"K\", \"N\", \"C\", \"É\", \"ò\", \"á\", \"Y\", \"A\", \"é\", \"è\", \"М\", \"ó\", \"í\", \"M\", \"✓\", \"ú\", \"F\", \"Q\", \"L\", \"Ñ\", \"Ú\", \"I\", \"👏\", \"ý\", \"👍\", \"T\", \"P\", \"O\", \"B\", \"G\", \"„\", \"X\", \"Í\", \"E\"]", + "lossless": false + }, + "google-t5/t5-large @ cc100/en": { + "tokenizer": "t5", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1124813, + "_n_tokens": 280104, + "_n_chars": 1121360, + "_n_oov_chars": 136, + "oov_ratio": 0.00012128130127702077, + "_oov_charset": "[\"⑦\", \"😥\", \"​\", \"{\", \"\", \"~\", \"…\", \"‑\", \"ñ\", \"🙂\", \"´\", \"⑧\", \"😉\", \"^\", \"}\", \"¡\", \"�\", \"¦\", \"ï\", \"”\", \"⑤\", \"“\", \"⑩\", \"③\", \"<\", \"\"]", + "lossless": false + }, + "google-t5/t5-large @ cc100/zh-Hans": { + "tokenizer": "t5", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 2633047, + "_n_tokens": 163519, + "_n_chars": 927311, + "_n_oov_chars": 865446, + "oov_ratio": 0.9332855967415462, + "_oov_charset": "[\"搅\", \"千\", \"太\", \"稻\", \"缕\", \"膨\", \"星\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"都\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"α\", \"伟\", \"东\", \"政\", \"蕴\", \"羁\", \"ě\", \"射\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"~\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"李\", \"跷\", \"手\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"》\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"壹\", \"承\", \"婆\", \"饶\", \"搬\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"〉\", \"轶\", \"咬\", \"【\", \"也\", \"咒\", \"肃\", \"镇\", \"』\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"▪\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"鳃\", \"餐\", \"{\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"五\", \"踩\", \"屡\", \"宇\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"温\", \"闭\", \"殊\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"女\", \"穷\", \"筹\", \"苯\", \"捆\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"美\", \"滢\", \"衫\", \"融\", \"砺\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"ズ\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"佐\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"男\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"前\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"相\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"奈\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"永\", \"食\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"尚\", \"舶\", \"⑴\", \"滑\", \"方\", \"考\", \"耳\", \"念\", \"捍\", \"鳞\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"宗\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"←\", \"摞\", \"彰\", \"残\", \"山\", \"庄\", \"镶\", \"恿\", \"投\", \"涸\", \"乍\", \"(\", \"疮\", \"信\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"×\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"ο\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"原\", \"滞\", \"乞\", \"恤\", \"治\", \"击\", \"憬\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"不\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"禾\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"雄\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"戸\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"崎\", \"屌\", \"聆\", \"蔚\", \"清\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"和\", \"彭\", \"扇\", \"搐\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"森\", \"涎\", \"暑\", \"逑\", \"腿\", \"歉\", \"内\", \"]\", \"痘\", \"瀚\", \"喀\", \"陨\", \"岗\", \"册\", \"愉\", \"生\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"年\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"公\", \"正\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"選\", \"溉\", \"炕\", \"霈\", \"〈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"学\", \"头\", \"柚\", \"江\", \"艘\", \"桅\", \"眷\", \"恋\", \"員\", \"伊\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"健\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"昭\", \"章\", \"良\", \"赞\", \"」\", \"霭\", \"吐\", \"合\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"子\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"海\", \"拭\", \"阑\", \"岌\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"王\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"ト\", \"迤\", \"弓\", \"花\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"成\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"祸\", \"[\", \"覆\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"の\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"城\", \"篱\", \"鲸\", \"渐\", \"岭\", \"援\", \"光\", \"虐\", \"灑\", \"-\", \"北\", \"楣\", \"却\", \"芯\", \"锣\", \"代\", \"嬉\", \"农\", \"洪\", \"差\", \"}\", \"处\", \"囤\", \"耀\", \"▲\", \"佣\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"郎\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"茶\", \"九\", \"锏\", \"铎\", \"翕\", \"爪\", \"链\", \"闺\", \"挪\", \"岔\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"大\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"村\", \"蔬\", \"煽\", \"割\", \"绸\", \"鸿\", \"豚\", \"螃\", \"日\", \"贯\", \"侦\", \"堵\", \"亭\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"<\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"窿\", \"御\", \"弛\", \"凤\", \"狗\", \"蹈\", \"ς\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"『\", \"躯\", \"诱\", \"弑\", \"猛\", \"社\", \"泼\", \"渝\", \"阽\", \"帝\", \"戍\", \"黏\", \"中\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"街\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"─\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"省\", \"函\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"谷\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"史\", \"金\", \"欢\", \"钱\", \"摘\", \"溢\", \"吴\", \"陀\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"宣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"智\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"嘣\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"西\", \"池\", \"浠\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"秋\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"古\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \",\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"後\", \"用\", \"纵\", \"严\", \"夸\", \"。\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"τ\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"剔\", \"洁\", \"篝\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"幸\", \"聿\", \"火\", \"挨\", \"锚\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"皇\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"→\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"外\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"田\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"●\", \"目\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"^\", \"呻\", \"肢\", \"蛙\", \"柴\", \"世\", \"脱\", \"脚\", \"鞋\", \"氏\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"歌\", \"弯\", \"偎\", \"π\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"夏\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"堂\", \"肿\", \"执\", \"萄\", \"久\", \"荤\", \"载\", \"刀\", \"醒\", \"幻\", \"诣\", \"连\", \"俩\", \"英\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"名\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"神\", \"滴\", \"琛\", \"戴\", \"队\", \"空\", \"券\", \"宿\", \"婺\", \"人\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"有\", \"h\", \"地\", \"携\", \"预\", \"/\", \"株\", \"振\", \"月\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"イ\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"比\", \"嘻\", \"莅\", \"%\", \"鸽\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"林\", \"奘\", \"涉\", \"啼\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"扰\", \"明\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"平\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"一\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"石\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"道\", \"蝗\", \"川\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"觅\", \"郡\", \"屎\", \"倘\", \"牢\", \"弘\", \"絮\", \"定\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"Ø\", \"晒\", \"保\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"★\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"仁\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"文\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"褂\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"竹\", \"浙\", \"全\", \"葡\", \"度\", \"佟\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"野\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"德\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"吉\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"真\", \"妃\", \"咱\", \"芋\", \"檬\", \"鳗\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"夫\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"广\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \")\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"河\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"立\", \"秀\", \"醐\", \"猫\", \"罩\", \"分\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"阿\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"シ\", \"怪\", \"此\", \"竿\", \"高\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"·\", \"淖\", \"驿\", \"犬\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"的\", \"辛\", \"薯\", \"嗦\", \"极\", \"魂\", \"桥\", \"服\", \"邹\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"~\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"志\", \"俭\", \"?\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"\\\\\", \"吟\", \"巾\", \"荼\", \"掐\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"同\", \"爬\", \"裘\", \"熨\", \"坂\", \"併\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"・\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"介\", \"物\", \"级\", \"享\", \"辈\", \"鸟\", \"敷\", \"布\", \"酥\", \"拐\", \"個\", \"■\", \"词\", \"朝\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"メ\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"へ\", \"继\", \"腕\", \"区\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"新\", \"恍\", \"羹\", \"缥\", \"d\", \"喻\", \"浏\", \"恺\", \"账\", \"薩\", \"三\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"門\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"会\", \"读\", \"源\", \"巷\", \"下\", \"轰\", \"府\", \"照\", \"怡\", \"癫\", \"走\", \"鞘\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"白\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"寺\", \"跌\", \"瞩\", \"幕\", \"家\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"事\", \"婿\", \"旳\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"佬\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"福\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"土\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"ノ\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"《\", \"着\", \"额\", \"弥\", \"澈\", \"井\", \"藤\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"南\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"武\", \"↑\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"京\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"!\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"©\", \"网\", \"步\", \"〕\", \"阳\", \"小\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"元\", \"佩\", \"轮\", \"牛\", \"侍\", \"咚\", \"霄\", \"纪\", \"岚\", \"亂\", \"祉\", \"琶\", \"脖\", \"瞬\", \"司\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"「\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"二\", \"禁\", \"召\", \"邵\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"行\", \"碾\", \"宰\", \"禧\", \"坑\", \"拾\", \"币\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"博\", \"普\", \"务\", \"荷\", \"渔\", \"薪\", \"拌\", \"慈\", \"我\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"版\", \"警\", \"垂\", \"廓\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"口\", \"孵\", \"娟\", \"谊\", \"躇\", \"忪\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"心\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"`\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \":\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"四\", \"鸩\", \"礴\", \"汲\", \"湄\", \"面\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"法\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"曲\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"―\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"篢\", \"解\", \"悖\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"示\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"青\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"春\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"本\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"迎\", \"T\", \"乎\", \"荣\", \".\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"力\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"木\", \"辑\", \"哈\", \"止\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"州\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"、\", \"悬\", \"垮\", \"塌\", \"八\", \"打\", \"裸\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"…\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"香\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"ὐ\", \" \", \"泄\", \"彩\", \"娑\", \"析\", \"毙\", \"部\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"出\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"主\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"加\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"天\", \"裳\", \"麦\", \"ό\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"里\", \"剐\", \"民\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"士\", \"佛\", \"范\", \"上\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"之\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"国\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"安\", \"售\", \"颠\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"十\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"水\", \"尖\", \"远\", \"邦\", \"忠\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"松\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google-t5/t5-large @ cc100/fr": { + "tokenizer": "t5", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1540504, + "_n_tokens": 466133, + "_n_chars": 1484970, + "_n_oov_chars": 1615, + "oov_ratio": 0.001087564058533169, + "_oov_charset": "[\"ë\", \"È\", \"̧\", \"★\", \"’\", \"{\", \"Ê\", \"~\", \"…\", \"🙂\", \"´\", \"😀\", \"♕\", \"℃\", \"❤\", \"§\", \"̂\", \"―\", \"́\", \"😉\", \"^\", \"À\", \"™\", \"²\", \"}\", \"·\", \"…\", \"♠\", \"Ç\", \"🤔\", \"ã\", \"Ô\", \"µ\", \"�\", \"ï\", \"″\", \"í\", \"\\\\\", \"œ\", \"ğ\", \"←\", \"‐\", \"Â\", \"<\"]", + "lossless": false + }, + "google-t5/t5-large @ cc100/es": { + "tokenizer": "t5", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1664455, + "_n_tokens": 696400, + "_n_chars": 1630297, + "_n_oov_chars": 11598, + "oov_ratio": 0.007114041183906981, + "_oov_charset": "[\"‘\", \"▷\", \"¿\", \"\", \"😦\", \"🙁\", \"’\", \"■\", \"{\", \"…\", \"ñ\", \"Á\", \"🙂\", \"´\", \"😀\", \"❤\", \"―\", \"️\", \"😉\", \"^\", \"Ó\", \"✪\", \"✖\", \"²\", \"ø\", \"}\", \"·\", \"×\", \"✔\", \"©\", \"ò\", \"М\", \"¡\", \"→\", \"″\", \"í\", \"\\\\\", \"✓\", \"ú\", \"Ñ\", \"Ú\", \"ª\", \"ý\", \"👍\", \"←\", \"👏\", \"„\", \"Í\", \"º\", \"<\"]", + "lossless": false + }, + "google/byt5-small @ cc100/en": { + "tokenizer": "byt5-small", + "organization": "Google", + "vocab_size": 384, + "_n_bytes": 1124813, + "_n_tokens": 1124813, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "google/byt5-small @ cc100/zh-Hans": { + "tokenizer": "byt5-small", + "organization": "Google", + "vocab_size": 384, + "_n_bytes": 2633047, + "_n_tokens": 2633047, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "google/byt5-small @ cc100/fr": { + "tokenizer": "byt5-small", + "organization": "Google", + "vocab_size": 384, + "_n_bytes": 1540504, + "_n_tokens": 1540504, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "google/byt5-small @ cc100/es": { + "tokenizer": "byt5-small", + "organization": "Google", + "vocab_size": 384, + "_n_bytes": 1664455, + "_n_tokens": 1664455, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "google/gemma-7b @ cc100/en": { + "tokenizer": "gemma-7b", + "organization": "Google", + "vocab_size": 256000, + "_n_bytes": 1124813, + "_n_tokens": 258010, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "google/gemma-7b @ cc100/zh-Hans": { + "tokenizer": "gemma-7b", + "organization": "Google", + "vocab_size": 256000, + "_n_bytes": 2633047, + "_n_tokens": 631795, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "google/gemma-7b @ cc100/fr": { + "tokenizer": "gemma-7b", + "organization": "Google", + "vocab_size": 256000, + "_n_bytes": 1540504, + "_n_tokens": 364551, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "google/gemma-7b @ cc100/es": { + "tokenizer": "gemma-7b", + "organization": "Google", + "vocab_size": 256000, + "_n_bytes": 1664455, + "_n_tokens": 361321, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "google/mobilebert-uncased @ cc100/en": { + "tokenizer": "mobilebert-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1124813, + "_n_tokens": 260575, + "_n_chars": 1121360, + "_n_oov_chars": 31075, + "oov_ratio": 0.027711885567525147, + "_oov_charset": "[\"⑦\", \"D\", \"S\", \"R\", \"😥\", \"​\", \"\", \"W\", \"ñ\", \"🙂\", \"Z\", \"⑧\", \"V\", \"U\", \"😉\", \"J\", \"H\", \"K\", \"N\", \"C\", \"Y\", \"A\", \"é\", \"ï\", \"è\", \"�\", \"ó\", \"”\", \"M\", \"F\", \"Q\", \"L\", \"⑤\", \"I\", \"T\", \"O\", \"P\", \"B\", \"G\", \"⑩\", \"X\", \"“\", \"③\", \"E\", \"\"]", + "lossless": false + }, + "google/mobilebert-uncased @ cc100/zh-Hans": { + "tokenizer": "mobilebert-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 2633047, + "_n_tokens": 878554, + "_n_chars": 927311, + "_n_oov_chars": 573790, + "oov_ratio": 0.618767597925615, + "_oov_charset": "[\"搅\", \"稻\", \"缕\", \"膨\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"伟\", \"东\", \"蕴\", \"羁\", \"ě\", \"射\", \"Q\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"跷\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"Y\", \"承\", \"婆\", \"饶\", \"搬\", \"壹\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"轶\", \"咬\", \"【\", \"咒\", \"肃\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"餐\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"踩\", \"屡\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"殊\", \"温\", \"闭\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"穷\", \"筹\", \"苯\", \"捆\", \"Z\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"滢\", \"砺\", \"衫\", \"融\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"ズ\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"舶\", \"⑴\", \"滑\", \"考\", \"鳞\", \"念\", \"捍\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"ç\", \"摞\", \"彰\", \"残\", \"镶\", \"庄\", \"恿\", \"投\", \"涸\", \"乍\", \"疮\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"恤\", \"滞\", \"乞\", \"憬\", \"击\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"屌\", \"聆\", \"蔚\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"彭\", \"搐\", \"扇\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"涎\", \"逑\", \"暑\", \"腿\", \"歉\", \"喀\", \"]\", \"痘\", \"瀚\", \"陨\", \"岗\", \"册\", \"愉\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"P\", \"選\", \"溉\", \"炕\", \"霈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"头\", \"桅\", \"柚\", \"艘\", \"眷\", \"恋\", \"員\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"霭\", \"赞\", \"吐\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"拭\", \"岌\", \"阑\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"迤\", \"弓\", \"J\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"L\", \"[\", \"覆\", \"祸\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"鲸\", \"篱\", \"渐\", \"岭\", \"援\", \"虐\", \"灑\", \"楣\", \"却\", \"芯\", \"锣\", \"嬉\", \"农\", \"洪\", \"差\", \"处\", \"囤\", \"耀\", \"K\", \"▲\", \"佣\", \"é\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"N\", \"九\", \"茶\", \"锏\", \"铎\", \"翕\", \"链\", \"闺\", \"挪\", \"岔\", \"爪\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"蔬\", \"煽\", \"绸\", \"割\", \"豚\", \"鸿\", \"螃\", \"贯\", \"侦\", \"亭\", \"堵\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"嘣\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"C\", \"窿\", \"弛\", \"凤\", \"狗\", \"蹈\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"躯\", \"诱\", \"弑\", \"猛\", \"泼\", \"渝\", \"阽\", \"戍\", \"黏\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"函\", \"鳃\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"O\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"欢\", \"钱\", \"摘\", \"溢\", \"陀\", \"吴\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"T\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"浠\", \"池\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"用\", \"纵\", \"严\", \"夸\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"W\", \"洁\", \"篝\", \"剔\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"聿\", \"锚\", \"挨\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"H\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"E\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"呻\", \"肢\", \"蛙\", \"柴\", \"鞋\", \"脱\", \"脚\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"弯\", \"偎\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"肿\", \"执\", \"萄\", \"荤\", \"载\", \"刀\", \"幻\", \"醒\", \"诣\", \"连\", \"俩\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"î\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"滴\", \"琛\", \"戴\", \"队\", \"券\", \"婺\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"h\", \"携\", \"预\", \"I\", \"株\", \"振\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"嘻\", \"莅\", \"%\", \"鸽\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"奘\", \"啼\", \"涉\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"U\", \"扰\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"A\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"蝗\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"觅\", \"屎\", \"倘\", \"牢\", \"絮\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"Ø\", \"晒\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"佟\", \"浙\", \"全\", \"葡\", \"度\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"鳗\", \"妃\", \"咱\", \"芋\", \"檬\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"醐\", \"猫\", \"罩\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"怪\", \"此\", \"竿\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"淖\", \"驿\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"辛\", \"薯\", \"嗦\", \"邹\", \"极\", \"魂\", \"桥\", \"服\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"俭\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"巾\", \"吟\", \"掐\", \"荼\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"爬\", \"裘\", \"熨\", \"併\", \"D\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"鸟\", \"物\", \"级\", \"享\", \"辈\", \"敷\", \"酥\", \"布\", \"個\", \"拐\", \"褂\", \"词\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"继\", \"腕\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"恍\", \"缥\", \"羹\", \"d\", \"恺\", \"喻\", \"浏\", \"账\", \"薩\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"读\", \"源\", \"巷\", \"癫\", \"轰\", \"府\", \"照\", \"怡\", \"鞘\", \"走\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"à\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"S\", \"跌\", \"瞩\", \"幕\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"婿\", \"旳\", \"佬\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"X\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"R\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"着\", \"额\", \"弥\", \"澈\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"á\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"网\", \"步\", \"〕\", \"阳\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"F\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"G\", \"B\", \"霄\", \"佩\", \"轮\", \"牛\", \"咚\", \"岚\", \"亂\", \"纪\", \"祉\", \"琶\", \"脖\", \"瞬\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"邵\", \"禁\", \"召\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"碾\", \"禧\", \"宰\", \"坑\", \"ù\", \"拾\", \"币\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"普\", \"荷\", \"务\", \"渔\", \"拌\", \"薪\", \"慈\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"警\", \"廓\", \"垂\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"孵\", \"忪\", \"娟\", \"谊\", \"躇\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"汲\", \"鸩\", \"礴\", \"湄\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"篢\", \"解\", \"悖\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"M\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"V\", \"迎\", \"T\", \"乎\", \"荣\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"辑\", \"哈\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"悬\", \"垮\", \"塌\", \"裸\", \"打\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"ὐ\", \"娑\", \"泄\", \"彩\", \"析\", \"毙\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"裳\", \"麦\", \"ό\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"剐\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"佛\", \"范\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"ê\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"颠\", \"售\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"尖\", \"远\", \"邦\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google/mobilebert-uncased @ cc100/fr": { + "tokenizer": "mobilebert-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1540504, + "_n_tokens": 484075, + "_n_chars": 1484970, + "_n_oov_chars": 66759, + "oov_ratio": 0.04495646376694479, + "_oov_charset": "[\"ë\", \"î\", \"D\", \"R\", \"S\", \"È\", \"ô\", \"­\", \"̧\", \"’\", \"Ê\", \"à\", \"W\", \"🙂\", \"Z\", \"😀\", \"♕\", \"℃\", \"V\", \"❤\", \"̂\", \"́\", \"U\", \"😉\", \"À\", \"J\", \"ü\", \"H\", \"…\", \"ê\", \"Ç\", \"K\", \"N\", \"C\", \"É\", \"🤔\", \"Ô\", \"è\", \"é\", \"A\", \"ï\", \"Y\", \"�\", \"ã\", \"í\", \"M\", \"â\", \"û\", \"F\", \"Q\", \"L\", \"I\", \"ç\", \"T\", \"P\", \"O\", \"B\", \"G\", \"ù\", \"X\", \"ğ\", \"Â\", \"ä\", \"E\", \"Î\"]", + "lossless": false + }, + "google/mobilebert-uncased @ cc100/es": { + "tokenizer": "mobilebert-uncased", + "organization": "Google", + "vocab_size": 30522, + "_n_bytes": 1664455, + "_n_tokens": 538042, + "_n_chars": 1630297, + "_n_oov_chars": 68333, + "oov_ratio": 0.041914448717012914, + "_oov_charset": "[\"D\", \"‘\", \"S\", \"R\", \"▷\", \"­\", \"\", \"ô\", \"😦\", \"🙁\", \"’\", \"à\", \"W\", \"ñ\", \"Á\", \"🙂\", \"Z\", \"😀\", \"V\", \"❤\", \"️\", \"U\", \"😉\", \"Ó\", \"✪\", \"✖\", \"J\", \"ü\", \"ö\", \"H\", \"✔\", \"K\", \"N\", \"C\", \"É\", \"ò\", \"á\", \"Y\", \"A\", \"é\", \"è\", \"М\", \"ó\", \"í\", \"M\", \"✓\", \"ú\", \"F\", \"Q\", \"L\", \"Ñ\", \"Ú\", \"I\", \"👏\", \"ý\", \"👍\", \"T\", \"P\", \"O\", \"B\", \"G\", \"„\", \"X\", \"Í\", \"E\"]", + "lossless": false + }, + "google/mt5-large @ cc100/en": { + "tokenizer": "mt5-large", + "organization": "Google", + "vocab_size": 250100, + "_n_bytes": 1124813, + "_n_tokens": 307881, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"⑦\", \"´\", \"⑧\", \"⑤\", \"​\", \"�\", \"⑩\", \"‑\", \"③\", \"…\"]", + "lossless": false + }, + "google/mt5-large @ cc100/zh-Hans": { + "tokenizer": "mt5-large", + "organization": "Google", + "vocab_size": 250100, + "_n_bytes": 2633047, + "_n_tokens": 621182, + "_n_chars": 927311, + "_n_oov_chars": 68514, + "oov_ratio": 0.07388459750827932, + "_oov_charset": "[\"(\", \"i\", \"N\", \"棂\", \"4\", \"℃\", \";\", \"・\", \"瑥\", \"\\u0006\", \"6\", \"�\", \"\", \"V\", \"⑶\", \"\", \"⒁\", \"A\", \"\\u0005\", \"​\", \"+\", \"t\", \"&\", \")\", \"T\", \"!\", \".\", \"犄\", \"瑒\", \"猡\", \"a\", \"p\", \" \", \"④\", \"⑿\", \"⒋\", \"9\", \"\\u0000\", \"\\u0007\", \"⑨\", \"\", \"h\", \""\", \":\", \"⑷\", \"/\", \"⑩\", \"5\", \"腭\", \"瑑\", \"黩\", \"⒂\", \"3\", \"\", \"_\", \"o\", \"e\", \"⑧\", \"瑨\", \"⒀\", \"耩\", \"锒\", \"犰\", \"鲱\", \"\", \"7\", \"⑸\", \"C\", \"擤\", \"1\", \"[\", \"②\", \"0\", \"瑢\", \"阽\", \"③\", \"\\b\", \"]\", \"⑦\", \"%\", \",\", \"⑥\", \"8\", \"d\", \"D\", \"…\", \"①\", \" \", \"?\", \"r\", \"s\", \"-\", \"⒌\", \"⑴\", \" \", \"篢\", \"佝\", \"2\", \"n\", \"⑤\", \"鼯\", \"黢\", \"⒃\"]", + "lossless": false + }, + "google/mt5-large @ cc100/fr": { + "tokenizer": "mt5-large", + "organization": "Google", + "vocab_size": 250100, + "_n_bytes": 1540504, + "_n_tokens": 460944, + "_n_chars": 1484970, + "_n_oov_chars": 839, + "oov_ratio": 0.0005649945790150643, + "_oov_charset": "[\"´\", \"²\", \"℃\", \"µ\", \"�\", \"″\", \"™\", \"…\"]", + "lossless": false + }, + "google/mt5-large @ cc100/es": { + "tokenizer": "mt5-large", + "organization": "Google", + "vocab_size": 250100, + "_n_bytes": 1664455, + "_n_tokens": 462231, + "_n_chars": 1630297, + "_n_oov_chars": 552, + "oov_ratio": 0.0003385886129950555, + "_oov_charset": "[\"´\", \"²\", \"\", \"ª\", \"″\", \"º\", \"…\"]", + "lossless": false + }, + "google/switch-c-2048 @ cc100/en": { + "tokenizer": "switch-c-2048", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1124813, + "_n_tokens": 280104, + "_n_chars": 1121360, + "_n_oov_chars": 136, + "oov_ratio": 0.00012128130127702077, + "_oov_charset": "[\"⑦\", \"😥\", \"​\", \"{\", \"\", \"~\", \"…\", \"‑\", \"ñ\", \"🙂\", \"´\", \"⑧\", \"😉\", \"^\", \"}\", \"¡\", \"�\", \"¦\", \"ï\", \"”\", \"⑤\", \"“\", \"⑩\", \"③\", \"<\", \"\"]", + "lossless": false + }, + "google/switch-c-2048 @ cc100/zh-Hans": { + "tokenizer": "switch-c-2048", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 2633047, + "_n_tokens": 163519, + "_n_chars": 927311, + "_n_oov_chars": 865446, + "oov_ratio": 0.9332855967415462, + "_oov_charset": "[\"搅\", \"千\", \"太\", \"稻\", \"缕\", \"膨\", \"星\", \"杆\", \"痕\", \"抽\", \"滓\", \"办\", \"淋\", \"址\", \"郊\", \"霸\", \"墟\", \"惹\", \"先\", \"沥\", \"构\", \"徨\", \"恒\", \"著\", \"狈\", \"都\", \"戢\", \"竭\", \"畜\", \"擂\", \"吗\", \"奸\", \"壮\", \"α\", \"伟\", \"东\", \"政\", \"蕴\", \"羁\", \"ě\", \"射\", \"咏\", \"撒\", \"蕾\", \"窃\", \"倩\", \"劑\", \"腾\", \"突\", \"等\", \"犹\", \"嗯\", \"渺\", \"龚\", \"愤\", \"赚\", \"矮\", \"股\", \"~\", \"知\", \"擦\", \"伪\", \"罕\", \"甚\", \"掏\", \"遢\", \"李\", \"跷\", \"手\", \"簿\", \"赴\", \"者\", \"猴\", \"障\", \"俯\", \"客\", \"擅\", \"程\", \"宸\", \"款\", \"褒\", \"腺\", \"续\", \"迈\", \"哄\", \"涌\", \"骸\", \"路\", \"谐\", \"茎\", \"睡\", \"晨\", \"嫁\", \"庞\", \"跻\", \"苹\", \"衰\", \"脾\", \"》\", \"圜\", \"讼\", \"揪\", \"钦\", \"嫉\", \"壹\", \"承\", \"婆\", \"饶\", \"搬\", \"澎\", \"箭\", \"防\", \"几\", \"泛\", \"溪\", \"9\", \"弃\", \"骑\", \"堤\", \"鹃\", \"槌\", \"唇\", \"刃\", \"瑧\", \"捺\", \"铤\", \"鄂\", \"丰\", \"宜\", \"需\", \"阶\", \"懈\", \"戏\", \"妻\", \"踝\", \"冷\", \"睑\", \"昵\", \"眯\", \"薇\", \"闷\", \"晓\", \"冽\", \"像\", \"渥\", \"追\", \"寇\", \"注\", \"怯\", \"烫\", \"怂\", \"矿\", \"〉\", \"轶\", \"咬\", \"【\", \"也\", \"咒\", \"肃\", \"镇\", \"』\", \"独\", \"绩\", \"帅\", \"偌\", \"铜\", \"例\", \"▪\", \"迅\", \"足\", \"悠\", \"守\", \"澄\", \"炖\", \"粹\", \"稳\", \"铺\", \"牡\", \"灌\", \"闯\", \"属\", \"黎\", \"陆\", \"帜\", \"衿\", \"咙\", \"绥\", \"1\", \"如\", \"腻\", \"②\", \"画\", \"堡\", \"猜\", \"凹\", \"抵\", \"祟\", \"纠\", \"逢\", \"〞\", \"蹒\", \"丢\", \"试\", \"诈\", \"弩\", \"鳃\", \"餐\", \"{\", \"批\", \"遭\", \"叔\", \"观\", \"叶\", \"铨\", \"姬\", \"绰\", \"五\", \"踩\", \"屡\", \"宇\", \"衍\", \"铂\", \"秒\", \"⒌\", \"姜\", \"给\", \"垃\", \"棵\", \"瞳\", \"捂\", \"层\", \"愿\", \"瓦\", \"蒋\", \"位\", \"葵\", \"佰\", \"玖\", \"温\", \"闭\", \"殊\", \"跑\", \"睹\", \"狰\", \"族\", \"肝\", \"铃\", \"暴\", \"尴\", \"饷\", \"桐\", \"胶\", \"臊\", \"尘\", \"裔\", \"肓\", \"阐\", \"赎\", \"落\", \"碱\", \"使\", \"劈\", \"叹\", \"扁\", \"评\", \"险\", \"冶\", \"鲎\", \"悯\", \"痰\", \"女\", \"穷\", \"筹\", \"苯\", \"捆\", \"航\", \"紫\", \"髦\", \"短\", \"郴\", \"挥\", \"嘘\", \"抨\", \"嘉\", \"嚎\", \"烊\", \"挝\", \"美\", \"滢\", \"衫\", \"融\", \"砺\", \"鞭\", \"霹\", \"赋\", \"泸\", \"逍\", \"镕\", \"夕\", \"拇\", \"姓\", \"ズ\", \"�\", \"傲\", \"督\", \"晾\", \"颇\", \"啃\", \"斜\", \"犁\", \"襟\", \"蓦\", \"羡\", \"丘\", \"仗\", \"怨\", \"吠\", \"凛\", \"惊\", \"佐\", \"漓\", \"遴\", \"笨\", \"件\", \"跳\", \"无\", \"​\", \"男\", \"摩\", \"秉\", \"莲\", \"绕\", \"孩\", \"汕\", \"魔\", \"驾\", \"啕\", \"旌\", \"炫\", \"蚌\", \"昏\", \"偿\", \"剩\", \"佼\", \"咸\", \"蒿\", \"前\", \"確\", \"旆\", \"泌\", \"菜\", \"摄\", \"格\", \"璀\", \"图\", \"勇\", \"憾\", \"诲\", \"销\", \"决\", \"谱\", \"仰\", \"必\", \"侧\", \"赁\", \"诅\", \"授\", \"電\", \"借\", \"臂\", \"消\", \"低\", \"帖\", \"粉\", \"忌\", \"栏\", \"鱼\", \"仍\", \"肘\", \"相\", \"刁\", \"诺\", \"蹲\", \"情\", \"练\", \"父\", \"喝\", \"粥\", \"厮\", \"恣\", \"毒\", \"线\", \"与\", \"祢\", \"辖\", \"朦\", \"狮\", \"伤\", \"增\", \"裂\", \"杂\", \"氧\", \"馆\", \"泊\", \"踹\", \"坡\", \"顷\", \"塘\", \"汀\", \"奈\", \"犰\", \"裙\", \"惴\", \"狞\", \"耶\", \"彬\", \"阵\", \"7\", \"逅\", \"谆\", \"咧\", \"盼\", \"稍\", \"侃\", \"永\", \"食\", \"楂\", \"登\", \"末\", \"漏\", \"涡\", \"匕\", \"歇\", \"蚊\", \"七\", \"夹\", \"胆\", \"誉\", \"俄\", \"趋\", \"汇\", \"泠\", \"肉\", \"盾\", \"扛\", \"墉\", \"碴\", \"闫\", \"苑\", \"噩\", \"记\", \"尚\", \"舶\", \"⑴\", \"滑\", \"方\", \"考\", \"耳\", \"念\", \"捍\", \"鳞\", \"论\", \"徊\", \"砸\", \"零\", \"篇\", \"鞍\", \"疼\", \"弈\", \"抢\", \"君\", \"语\", \"狡\", \"盏\", \"宗\", \"汶\", \"凯\", \"丫\", \"破\", \"师\", \"朱\", \"拣\", \"谓\", \"←\", \"摞\", \"彰\", \"残\", \"山\", \"庄\", \"镶\", \"恿\", \"投\", \"涸\", \"乍\", \"(\", \"疮\", \"信\", \"掠\", \"述\", \"骁\", \"栋\", \"跪\", \"阔\", \"均\", \"褐\", \"瑞\", \"畴\", \"渎\", \"岖\", \"擘\", \"舌\", \"兑\", \"盖\", \"睐\", \"覃\", \"愧\", \"期\", \"瑥\", \"谎\", \"6\", \"皈\", \"滚\", \"×\", \"个\", \"哗\", \"懑\", \"艾\", \"嫖\", \"曰\", \"冲\", \"列\", \"炒\", \"洼\", \"溃\", \"焕\", \"ο\", \"功\", \"快\", \"聘\", \"薛\", \"嫌\", \"津\", \"颊\", \"才\", \"检\", \"皑\", \"莓\", \"藕\", \"徇\", \"剥\", \"裕\", \"笋\", \"敞\", \"原\", \"滞\", \"乞\", \"恤\", \"治\", \"击\", \"憬\", \"涛\", \"瓶\", \"咦\", \"桶\", \"勉\", \"⒁\", \"赠\", \"咎\", \"若\", \"不\", \"迩\", \"聂\", \"钩\", \"濒\", \"t\", \"禾\", \"索\", \"芮\", \"斛\", \"吸\", \"窜\", \"刨\", \"半\", \"齐\", \"娴\", \"暖\", \"喊\", \"撑\", \"缩\", \"舱\", \"妤\", \"碟\", \"且\", \"套\", \"俺\", \"聊\", \"乐\", \"缘\", \"咐\", \"扫\", \"戾\", \"沙\", \"酷\", \"沂\", \"劣\", \"雄\", \"黑\", \"俑\", \"霖\", \"譬\", \"皖\", \"殴\", \"措\", \"雯\", \"恐\", \"芭\", \"归\", \"整\", \"始\", \"引\", \"戸\", \"斗\", \"械\", \"瘤\", \"\", \"囚\", \"雁\", \"毯\", \"⒂\", \"3\", \"奥\", \"獗\", \"勋\", \"致\", \"拿\", \"婊\", \"羊\", \"甘\", \"药\", \"坐\", \"醇\", \"禅\", \"崎\", \"屌\", \"聆\", \"蔚\", \"清\", \"璜\", \"否\", \"频\", \"爷\", \"牌\", \"和\", \"彭\", \"扇\", \"搐\", \"室\", \"受\", \"姨\", \"脯\", \"绣\", \"肤\", \"亳\", \"及\", \"兆\", \"猪\", \"肴\", \"瞥\", \"惭\", \"耸\", \"廖\", \"谜\", \"辉\", \"识\", \"债\", \"违\", \"症\", \"穿\", \"薄\", \"灸\", \"断\", \"森\", \"涎\", \"暑\", \"逑\", \"腿\", \"歉\", \"内\", \"]\", \"痘\", \"瀚\", \"喀\", \"陨\", \"岗\", \"册\", \"愉\", \"生\", \"邱\", \"稚\", \"纷\", \"攀\", \"做\", \"年\", \"钰\", \"玮\", \"卦\", \"汝\", \"翰\", \"谭\", \"眉\", \"亿\", \"爰\", \"噴\", \"公\", \"正\", \"悉\", \"鼻\", \"斤\", \"仔\", \"厚\", \"泻\", \"移\", \"灿\", \"璧\", \"蓄\", \"喉\", \"拎\", \"纾\", \"扒\", \"冤\", \"抚\", \"胜\", \"切\", \"陕\", \"得\", \"杖\", \"撼\", \"骨\", \"堪\", \"聪\", \"毎\", \"董\", \"习\", \"常\", \"奏\", \"棚\", \"垢\", \"刑\", \"气\", \"選\", \"溉\", \"炕\", \"霈\", \"〈\", \"框\", \"震\", \"坷\", \"钝\", \"爱\", \"组\", \"学\", \"头\", \"柚\", \"江\", \"艘\", \"桅\", \"眷\", \"恋\", \"員\", \"伊\", \"塑\", \"闵\", \"掳\", \"节\", \"溺\", \"妇\", \"芙\", \"健\", \"询\", \"脊\", \"霾\", \"4\", \"撩\", \"浪\", \"巳\", \"选\", \"诫\", \"鲨\", \"魇\", \"湘\", \"沿\", \";\", \"祭\", \"束\", \"淫\", \"填\", \"铁\", \"韫\", \"奂\", \"雷\", \"馋\", \"己\", \"昭\", \"章\", \"良\", \"赞\", \"」\", \"霭\", \"吐\", \"合\", \"筑\", \"骤\", \"荡\", \"踪\", \"尺\", \"疲\", \"茫\", \"舅\", \"玫\", \"棒\", \"胰\", \"席\", \"顿\", \"驰\", \"腥\", \"涮\", \"阎\", \"颓\", \"窗\", \"参\", \"茱\", \"俞\", \"樟\", \"枉\", \"匈\", \"泥\", \"杉\", \"汐\", \"瞠\", \"诗\", \"枢\", \"流\", \"晶\", \"留\", \"匹\", \"蹭\", \"遛\", \"卓\", \"偷\", \"偻\", \"璃\", \"贡\", \"琴\", \"汤\", \"淼\", \"免\", \"椅\", \"擎\", \"峻\", \"烛\", \"馒\", \"子\", \"技\", \"枝\", \"円\", \"◆\", \"犯\", \"卧\", \"杠\", \"绅\", \"拉\", \"馕\", \"侠\", \"患\", \"妞\", \"占\", \"哭\", \"牠\", \"更\", \"凶\", \"拍\", \"娶\", \"降\", \"蜜\", \"贬\", \"绍\", \"暨\", \"您\", \"磺\", \"菲\", \"俚\", \"噢\", \"海\", \"拭\", \"阑\", \"岌\", \"仙\", \"酸\", \"医\", \"為\", \"⑩\", \"兵\", \"缆\", \"升\", \"采\", \"堕\", \"黩\", \"挡\", \"炼\", \"员\", \"傅\", \"\", \"娃\", \"颌\", \"宠\", \"王\", \"逸\", \"皿\", \"恩\", \"驶\", \"蝌\", \"际\", \"僧\", \"葱\", \"眠\", \"捷\", \"喔\", \"ト\", \"迤\", \"弓\", \"花\", \"害\", \"献\", \"屋\", \"隐\", \"铩\", \"烟\", \"培\", \"角\", \"宪\", \"成\", \"爸\", \"婉\", \"屄\", \"膛\", \"發\", \"鞠\", \"臻\", \"由\", \"逻\", \"挽\", \"锡\", \"攫\", \"炅\", \"癌\", \"铮\", \"谬\", \"岁\", \"娥\", \"砂\", \"琅\", \"涝\", \"芝\", \"祸\", \"[\", \"覆\", \"怠\", \"窟\", \"煜\", \"犟\", \"芃\", \"糯\", \"蹊\", \"重\", \"の\", \"萍\", \"招\", \"標\", \"胥\", \"呐\", \"殆\", \"③\", \"缅\", \"蒜\", \"崽\", \"傥\", \"市\", \"飙\", \"绳\", \"愁\", \"阮\", \"亟\", \"坟\", \"诬\", \"掩\", \"仕\", \"疙\", \"获\", \"演\", \"扔\", \"厅\", \"埃\", \"翱\", \"刷\", \"城\", \"篱\", \"鲸\", \"渐\", \"岭\", \"援\", \"光\", \"虐\", \"灑\", \"-\", \"北\", \"楣\", \"却\", \"芯\", \"锣\", \"代\", \"嬉\", \"农\", \"洪\", \"差\", \"}\", \"处\", \"囤\", \"耀\", \"▲\", \"佣\", \"汁\", \"鸭\", \"放\", \"坛\", \"慮\", \"乔\", \"衣\", \"鹕\", \"讷\", \"柔\", \"最\", \"踢\", \"挠\", \"踞\", \"蜀\", \"根\", \"噬\", \"鼯\", \"散\", \"郎\", \"髻\", \"傍\", \"掀\", \"坝\", \"嗲\", \"凄\", \"肾\", \"闸\", \"跃\", \"萦\", \"i\", \"貌\", \"壓\", \"缭\", \"匿\", \"飕\", \"这\", \"监\", \"弹\", \"吨\", \"嘲\", \"样\", \"巫\", \"补\", \"恶\", \"懒\", \"陋\", \"听\", \"俊\", \"黯\", \"亚\", \"尝\", \"淆\", \"焉\", \"煎\", \"骅\", \"衷\", \"钧\", \"棣\", \"似\", \"收\", \"颁\", \"抗\", \"茶\", \"九\", \"锏\", \"铎\", \"翕\", \"爪\", \"链\", \"闺\", \"挪\", \"岔\", \"噱\", \"袍\", \"劝\", \"锁\", \"肌\", \"吁\", \"辰\", \"到\", \"寻\", \"黔\", \"褚\", \"槿\", \"周\", \"究\", \"大\", \"裆\", \"理\", \"嘴\", \"撰\", \"较\", \"积\", \"莉\", \"税\", \"赤\", \"蘑\", \"巅\", \"愈\", \"录\", \"飞\", \"自\", \"瑜\", \"泣\", \"瑰\", \"镐\", \"讽\", \"浮\", \"別\", \"谋\", \"茨\", \"宛\", \"贝\", \"沉\", \"倏\", \"翔\", \"蝶\", \"灼\", \"谦\", \"廊\", \"键\", \"液\", \"旗\", \"辫\", \"六\", \"瓜\", \"色\", \"啬\", \"希\", \"寨\", \"挖\", \"码\", \"他\", \"疹\", \"老\", \"诊\", \"槛\", \"饿\", \"汛\", \"卵\", \"菩\", \"觉\", \"村\", \"蔬\", \"煽\", \"割\", \"绸\", \"鸿\", \"豚\", \"螃\", \"日\", \"贯\", \"侦\", \"堵\", \"亭\", \"符\", \"座\", \"旧\", \"醛\", \"內\", \"5\", \"拂\", \"菌\", \"遏\", \"随\", \"刹\", \"怜\", \"<\", \"膊\", \"滥\", \"涣\", \"吧\", \"庆\", \"圩\", \"魏\", \"骏\", \"未\", \"派\", \"辙\", \"坤\", \"攒\", \"漉\", \"珉\", \"炮\", \"寐\", \"掺\", \"秩\", \"乃\", \"韦\", \"峭\", \"桓\", \"町\", \"哪\", \"满\", \"唤\", \"洽\", \"钮\", \"卿\", \"咖\", \"姚\", \"渤\", \"汪\", \"悟\", \"報\", \"吵\", \"窿\", \"御\", \"弛\", \"凤\", \"狗\", \"蹈\", \"ς\", \"琉\", \"畑\", \"速\", \"块\", \"讦\", \"容\", \"漪\", \"宵\", \"察\", \"『\", \"躯\", \"诱\", \"弑\", \"猛\", \"社\", \"泼\", \"渝\", \"阽\", \"帝\", \"戍\", \"黏\", \"中\", \"剁\", \"峰\", \"罪\", \"宴\", \"杀\", \"把\", \"拢\", \"皱\", \"兹\", \"街\", \"渗\", \"指\", \"颖\", \"刊\", \"狭\", \"─\", \"逮\", \"榴\", \"疴\", \"酱\", \"厘\", \"①\", \"插\", \"烬\", \"纨\", \"略\", \"r\", \"资\", \"省\", \"函\", \"噌\", \"而\", \"奶\", \"茧\", \"強\", \"拓\", \"彤\", \"恕\", \"坦\", \"约\", \"蒸\", \"竺\", \"吩\", \"笆\", \"烁\", \"烷\", \"跤\", \"揣\", \"簇\", \"鹭\", \"撬\", \"娅\", \"滨\", \"勖\", \"钜\", \"庸\", \"洋\", \"沦\", \"哉\", \"卜\", \"雇\", \"础\", \"棉\", \"婚\", \"尾\", \"陶\", \"规\", \"邻\", \"适\", \"瞻\", \"静\", \"排\", \"盯\", \"联\", \"膀\", \"霜\", \"榨\", \"次\", \"镜\", \"忘\", \"胞\", \"璇\", \"疸\", \"球\", \"贴\", \"蛔\", \"庐\", \"谑\", \"践\", \"抖\", \"混\", \"栽\", \"寥\", \"吏\", \"恙\", \"鼠\", \"拔\", \"郁\", \"谷\", \"庭\", \"书\", \"兰\", \"亡\", \"炳\", \"滋\", \"柏\", \"战\", \"澜\", \"史\", \"金\", \"欢\", \"钱\", \"摘\", \"溢\", \"吴\", \"陀\", \"熔\", \"聒\", \"扬\", \"趾\", \"婶\", \"挺\", \"姣\", \"态\", \"绘\", \"烹\", \"V\", \"季\", \"恪\", \"矢\", \"舰\", \"熄\", \"厉\", \"狐\", \"偏\", \"耻\", \"蔷\", \"择\", \"暇\", \"数\", \"激\", \"诵\", \"徘\", \"呵\", \"罹\", \"饰\", \"秘\", \"腑\", \"礼\", \"瓣\", \"宣\", \"懂\", \"耽\", \"徳\", \"量\", \"依\", \"疯\", \"篮\", \"痹\", \"柘\", \"呷\", \"科\", \"讲\", \"舐\", \"莺\", \"朽\", \"讳\", \"结\", \"翩\", \"牺\", \"智\", \"虎\", \"權\", \"伦\", \"漫\", \"候\", \"拱\", \"珠\", \"舵\", \"签\", \"倜\", \"髓\", \"沾\", \"湿\", \"蓁\", \"厨\", \"咽\", \"躁\", \"茸\", \"点\", \"卤\", \"勘\", \"锌\", \"嘣\", \"攥\", \"详\", \"瑕\", \"蛊\", \"巡\", \"桌\", \"嘱\", \"摧\", \"西\", \"池\", \"浠\", \"稠\", \"号\", \"判\", \"难\", \"哦\", \"欺\", \"霍\", \"谔\", \"腔\", \"撷\", \"虏\", \"蚀\", \"⑧\", \"夭\", \"瀛\", \"屏\", \"翊\", \"敝\", \"漩\", \"礁\", \"箍\", \"在\", \"铝\", \"邸\", \"辨\", \"漆\", \"秋\", \"蹿\", \"鹑\", \"動\", \"玻\", \"轿\", \"抛\", \"央\", \"啐\", \"沃\", \"谧\", \"寰\", \"坊\", \"哲\", \"夺\", \"罚\", \"古\", \"概\", \"纹\", \"巩\", \"秃\", \"胧\", \"惜\", \"凸\", \"殖\", \"艇\", \"烦\", \",\", \"诨\", \"渍\", \"剧\", \"浸\", \"关\", \"丐\", \"坞\", \"壁\", \"曼\", \"看\", \"斌\", \"跋\", \"沸\", \"槃\", \"畿\", \"瘦\", \"彙\", \"燃\", \"後\", \"用\", \"纵\", \"严\", \"夸\", \"。\", \"寅\", \"帕\", \"贱\", \"徽\", \"玷\", \"倒\", \"冥\", \"厂\", \"邓\", \"纬\", \"迭\", \"幽\", \"荫\", \"τ\", \"弟\", \"霆\", \"崔\", \"绊\", \"硅\", \"撇\", \"橇\", \"呦\", \"嚣\", \"飓\", \"姆\", \"耦\", \"摔\", \"粱\", \"裴\", \"茂\", \"绚\", \"遣\", \"赵\", \"⒃\", \"基\", \"妖\", \"旅\", \"群\", \"驳\", \"挟\", \"第\", \"剔\", \"洁\", \"篝\", \"浩\", \"沐\", \"皂\", \"豪\", \"瞪\", \"啜\", \"溅\", \"雨\", \"居\", \"趣\", \"棘\", \"眶\", \"但\", \"・\", \"拳\", \"舞\", \"糖\", \"莎\", \"澳\", \"媚\", \"伴\", \"幸\", \"聿\", \"火\", \"挨\", \"锚\", \"两\", \"配\", \"砾\", \"枚\", \"蓉\", \"你\", \"找\", \"通\", \"渡\", \"芳\", \"帐\", \"唉\", \"微\", \"酿\", \"旬\", \"宾\", \"婴\", \"皇\", \"姗\", \"待\", \"后\", \"A\", \"嘈\", \"厌\", \"谈\", \"\\u0005\", \"亮\", \"豁\", \"呕\", \"滇\", \"孱\", \"疗\", \"望\", \"斧\", \"僚\", \"袱\", \"&\", \"沏\", \"圈\", \"戚\", \"以\", \"蕉\", \"荧\", \"骼\", \"催\", \"撐\", \"刮\", \"時\", \"斩\", \"窦\", \"哺\", \"纂\", \"呼\", \"非\", \"秤\", \"迄\", \"协\", \"灶\", \"肚\", \"蒙\", \"鸦\", \"→\", \"汹\", \"橱\", \"伙\", \"助\", \"躲\", \"率\", \"卸\", \"蘸\", \"叨\", \"维\", \"了\", \"机\", \"赖\", \"橄\", \"乳\", \"趴\", \"孰\", \"飘\", \"粟\", \"认\", \"右\", \"媲\", \"亥\", \"_\", \"盗\", \"屠\", \"掖\", \"床\", \"锋\", \"辆\", \"暧\", \"昨\", \"味\", \"盎\", \"凿\", \"累\", \"據\", \"蜃\", \"临\", \"寿\", \"瑨\", \"喆\", \"益\", \"冬\", \"鹿\", \"辣\", \"吝\", \"溯\", \"雀\", \"奢\", \"粕\", \"尧\", \"外\", \"魁\", \"聚\", \"豫\", \"酋\", \"责\", \"货\", \"田\", \"崩\", \"裹\", \"翅\", \"肆\", \"忙\", \"挫\", \"毅\", \"茏\", \"嗓\", \"●\", \"目\", \"妙\", \"炊\", \"砌\", \"准\", \"焯\", \"戛\", \"艋\", \"峥\", \"揍\", \"台\", \"唯\", \"呢\", \"杰\", \"鼓\", \"早\", \"黝\", \"娜\", \"乾\", \"萎\", \"藏\", \"铲\", \"郭\", \"洛\", \"甲\", \"乏\", \"丑\", \"敦\", \"哇\", \" \", \"涕\", \"丙\", \"^\", \"呻\", \"肢\", \"蛙\", \"柴\", \"世\", \"脱\", \"脚\", \"鞋\", \"氏\", \"叼\", \"抿\", \"汉\", \"纱\", \"兔\", \"歌\", \"弯\", \"偎\", \"π\", \"涤\", \"伏\", \"麾\", \"椭\", \"血\", \"鬼\", \"热\", \"臧\", \"溜\", \"扉\", \"嘎\", \"猩\", \"璎\", \"螺\", \"净\", \"憔\", \"焙\", \"疑\", \"剪\", \"缜\", \"显\", \"埂\", \"票\", \"骆\", \"夏\", \"孝\", \"任\", \"户\", \"棂\", \"肥\", \"谩\", \"干\", \"她\", \"※\", \"蝉\", \"濮\", \"班\", \"苗\", \"好\", \"℃\", \"乡\", \"绉\", \"萝\", \"初\", \"拥\", \"堂\", \"肿\", \"执\", \"萄\", \"久\", \"荤\", \"载\", \"刀\", \"醒\", \"幻\", \"诣\", \"连\", \"俩\", \"英\", \"胀\", \"茉\", \"即\", \"於\", \"岛\", \"名\", \"值\", \"嗜\", \"偶\", \"建\", \"沁\", \"绑\", \"勃\", \"搂\", \"屈\", \"麟\", \"韧\", \"叫\", \"卉\", \"钵\", \"牵\", \"喷\", \"躺\", \"便\", \"歹\", \"贤\", \"籁\", \"测\", \"讯\", \"壤\", \"化\", \"赔\", \"延\", \"奔\", \"神\", \"滴\", \"琛\", \"戴\", \"队\", \"空\", \"券\", \"宿\", \"婺\", \"人\", \"颈\", \"匠\", \"孔\", \"请\", \"滕\", \"娼\", \"粮\", \"奎\", \"缓\", \"争\", \"没\", \"瞧\", \"吮\", \"端\", \"籍\", \"锐\", \"乙\", \"颉\", \"嘀\", \"沧\", \"仲\", \"湃\", \"绎\", \"岳\", \"寞\", \"倚\", \"惶\", \"拒\", \"有\", \"h\", \"地\", \"携\", \"预\", \"/\", \"株\", \"振\", \"月\", \"颜\", \"醍\", \"蜕\", \"侯\", \"慨\", \"洲\", \"拨\", \"揖\", \"イ\", \"蜒\", \"别\", \"椎\", \"顽\", \"靴\", \"慷\", \"阁\", \"场\", \"贫\", \"詹\", \"剖\", \"匀\", \"壑\", \"陛\", \"攘\", \"疤\", \"灯\", \"邕\", \"皙\", \"袁\", \"兮\", \"览\", \"济\", \"矣\", \"糊\", \"总\", \"鄯\", \"过\", \"愕\", \"珍\", \"坏\", \"橡\", \"讥\", \"摇\", \"盐\", \"梭\", \"钟\", \"赛\", \"洗\", \"锲\", \"性\", \"彻\", \"辩\", \"箱\", \"音\", \"窒\", \"牲\", \"案\", \"酝\", \"瘾\", \"实\", \"店\", \"贵\", \"惦\", \"甜\", \"波\", \"经\", \"寓\", \"比\", \"嘻\", \"莅\", \"%\", \"鸽\", \"侬\", \"斥\", \"浊\", \"彗\", \"钢\", \"爵\", \"苇\", \"律\", \"朔\", \"番\", \"鹤\", \"馨\", \"潜\", \"架\", \"冯\", \"影\", \"林\", \"奘\", \"涉\", \"啼\", \"棍\", \"威\", \"柑\", \"翁\", \"淳\", \"扰\", \"明\", \"段\", \"廉\", \"氢\", \"颤\", \"作\", \"荒\", \"应\", \"榆\", \"悦\", \"淑\", \"趁\", \"谨\", \"穆\", \"痪\", \"漠\", \"渣\", \"腹\", \"提\", \"僻\", \"页\", \"斯\", \"匆\", \"驮\", \"菱\", \"综\", \"碍\", \"妨\", \"爆\", \"职\", \"睿\", \"槽\", \"闲\", \"巨\", \"昊\", \"界\", \"平\", \"肯\", \"镀\", \"惩\", \"病\", \"拖\", \"纰\", \"肺\", \"舀\", \"姐\", \"挂\", \"掘\", \"熟\", \"柯\", \"假\", \"阴\", \"捅\", \"涟\", \"姥\", \"腋\", \"矗\", \"一\", \"俪\", \"葩\", \"虔\", \"息\", \"孪\", \"渠\", \"繁\", \"石\", \"浴\", \"臀\", \"豹\", \"夥\", \"擀\", \"梗\", \"言\", \"厦\", \"伐\", \"雌\", \"剑\", \"钥\", \"垄\", \"旁\", \"畔\", \"栖\", \"托\", \"拽\", \"袜\", \"艺\", \"堰\", \"拟\", \"般\", \"冒\", \"辽\", \"秦\", \"虑\", \"圆\", \"孙\", \"道\", \"蝗\", \"川\", \"酵\", \"县\", \"窥\", \"婪\", \"羞\", \"+\", \"盲\", \"绪\", \"鼾\", \"沫\", \"讶\", \"搭\", \"楚\", \"嗣\", \"蚓\", \"旱\", \"忐\", \"潘\", \"ヨ\", \"镭\", \"划\", \"觅\", \"郡\", \"屎\", \"倘\", \"牢\", \"弘\", \"絮\", \"定\", \"龇\", \"悔\", \"褪\", \"恰\", \"伯\", \"辞\", \"泉\", \"陡\", \"烯\", \"笛\", \"辕\", \"p\", \"媒\", \"侣\", \"宏\", \"剂\", \"锥\", \"附\", \"⑨\", \"\", \"确\", \"雏\", \"惋\", \"弱\", \"宽\", \"握\", \"瘫\", \"恨\", \"贼\", \"噪\", \"Ø\", \"晒\", \"保\", \"兢\", \"蹄\", \"教\", \"管\", \"编\", \"摸\", \"涂\", \"荏\", \"仇\", \"枷\", \"★\", \"畏\", \"勿\", \"埠\", \"近\", \"锻\", \"泱\", \"栈\", \"慑\", \"秸\", \"倨\", \"爹\", \"愚\", \"鹉\", \"剽\", \"质\", \"咯\", \"邪\", \"仁\", \"⒀\", \"盆\", \"须\", \"荟\", \"牧\", \"梦\", \"阀\", \"文\", \"查\", \"操\", \"勒\", \"背\", \"拼\", \"倡\", \"左\", \"奋\", \"岑\", \"遮\", \"锢\", \"垠\", \"脑\", \"褂\", \"蜘\", \"伉\", \"酪\", \"深\", \"权\", \"萌\", \"坪\", \"谁\", \"沽\", \"钞\", \"甫\", \"痒\", \"邢\", \"竹\", \"浙\", \"全\", \"葡\", \"度\", \"佟\", \"煮\", \"0\", \"虹\", \"忆\", \"砖\", \"賣\", \"氰\", \"野\", \"告\", \"渴\", \"抬\", \"坠\", \"淄\", \"庙\", \"绛\", \"寸\", \"薰\", \"型\", \"盟\", \"卷\", \"逊\", \"咕\", \"帘\", \"贩\", \"童\", \"曳\", \"遗\", \"敬\", \"于\", \"呀\", \"宫\", \"啤\", \"赶\", \"耘\", \"捧\", \"邬\", \"峨\", \"佳\", \"崖\", \"署\", \"舎\", \"针\", \"惚\", \"蕤\", \"印\", \"撞\", \"德\", \"儒\", \"挑\", \"硬\", \"烧\", \"装\", \"茜\", \"碑\", \"儿\", \"诧\", \"肪\", \"因\", \"据\", \"螂\", \"糠\", \"惰\", \"埋\", \"价\", \"瞎\", \"叛\", \"捕\", \"遍\", \"卑\", \"为\", \"毡\", \"吉\", \"嚼\", \"癜\", \"抒\", \"俱\", \"声\", \"润\", \"局\", \"韩\", \"袋\", \"蜡\", \"叠\", \"刚\", \"然\", \"莴\", \"尸\", \"甩\", \"恼\", \"徙\", \"憋\", \"捏\", \"】\", \"苒\", \"真\", \"妃\", \"咱\", \"芋\", \"檬\", \"鳗\", \"抉\", \"越\", \"抹\", \"倾\", \"仑\", \"冻\", \"校\", \"欣\", \"遇\", \"扎\", \"院\", \"缈\", \"厥\", \"晰\", \"粘\", \"噶\", \"隋\", \"玄\", \"返\", \"藐\", \"咪\", \"菁\", \"巢\", \"麽\", \"羚\", \"喇\", \"肇\", \"夜\", \"阪\", \"號\", \"卖\", \"逝\", \"骛\", \"弗\", \"奴\", \"\", \"夫\", \"惑\", \"红\", \"畸\", \"萃\", \"站\", \"圭\", \"广\", \"膏\", \"盈\", \"循\", \"陇\", \"熏\", \"揽\", \"牒\", \"岸\", \"吻\", \"穹\", \"稽\", \"郑\", \"迫\", \"魅\", \")\", \"奖\", \"祥\", \"瘩\", \"昂\", \"脆\", \"玉\", \"冉\", \"喜\", \"对\", \"遐\", \"睫\", \"廷\", \"可\", \"挤\", \"露\", \"诡\", \"很\", \"答\", \"梁\", \"壶\", \"鸠\", \"河\", \"匾\", \"细\", \"缝\", \"懵\", \"喧\", \"蓟\", \"萼\", \"淘\", \"终\", \"梵\", \"靠\", \"臣\", \"吱\", \"豌\", \"嘤\", \"嵘\", \"立\", \"秀\", \"醐\", \"猫\", \"罩\", \"分\", \"灾\", \"骗\", \"庇\", \"泡\", \"潦\", \"策\", \"烙\", \"翠\", \"阿\", \"猥\", \"苛\", \"描\", \"锂\", \"唏\", \"シ\", \"怪\", \"此\", \"竿\", \"高\", \"芷\", \"卢\", \"捉\", \"缄\", \"靶\", \"档\", \"丹\", \"订\", \"脉\", \"慌\", \"叩\", \"呸\", \"慎\", \"慰\", \"绞\", \"菊\", \"·\", \"淖\", \"驿\", \"犬\", \"购\", \"寒\", \"瘀\", \"碰\", \"砧\", \"酣\", \"湾\", \"圣\", \"馄\", \"甯\", \"汗\", \"狠\", \"⑸\", \"C\", \"凝\", \"帽\", \"擤\", \"尔\", \"翼\", \"祝\", \"黧\", \"翡\", \"至\", \"的\", \"辛\", \"薯\", \"嗦\", \"极\", \"魂\", \"桥\", \"服\", \"邹\", \"妄\", \"旷\", \"瑟\", \"雳\", \"盘\", \"苦\", \"秆\", \"饨\", \"审\", \"⑥\", \"矫\", \"嗨\", \"钻\", \"时\", \"~\", \"昕\", \"暮\", \"掉\", \"所\", \"耿\", \"扣\", \"辱\", \"劾\", \"减\", \"侈\", \"志\", \"俭\", \"?\", \"逆\", \"运\", \"瞟\", \"婷\", \"房\", \"竟\", \"验\", \"骂\", \"芦\", \"饱\", \"播\", \"嗅\", \"桔\", \"域\", \"钉\", \"伫\", \"嚷\", \"蟀\", \"晚\", \"溘\", \"阅\", \"玛\", \"\\\\\", \"吟\", \"巾\", \"荼\", \"掐\", \"楔\", \"畅\", \"瞒\", \"萨\", \"矩\", \"柠\", \"宅\", \"熙\", \"泾\", \"训\", \"荆\", \"黢\", \"同\", \"爬\", \"裘\", \"熨\", \"坂\", \"併\", \"欧\", \"粒\", \"它\", \"惯\", \"喃\", \"○\", \"脸\", \"晤\", \"粽\", \"焦\", \"疆\", \"晴\", \"寄\", \"痫\", \"锈\", \"轻\", \"牟\", \"遂\", \"篡\", \"戒\", \"稀\", \"貂\", \"・\", \"亩\", \"遥\", \"屯\", \"隔\", \"磋\", \"祀\", \"\\u0006\", \"扭\", \"敏\", \"肩\", \"棠\", \"超\", \"霉\", \"园\", \"坚\", \"顾\", \"伍\", \"固\", \"裁\", \"哧\", \"算\", \"匮\", \"欸\", \"臃\", \"碌\", \"梢\", \"百\", \"憧\", \"疚\", \"韪\", \"专\", \"船\", \"刘\", \"苣\", \"困\", \"橘\", \"腓\", \"搏\", \"巴\", \"输\", \"募\", \"耕\", \"醋\", \"奚\", \"徒\", \"纽\", \"介\", \"物\", \"级\", \"享\", \"辈\", \"鸟\", \"敷\", \"布\", \"酥\", \"拐\", \"個\", \"■\", \"词\", \"朝\", \"仅\", \"昧\", \"赏\", \"啊\", \"欲\", \"伺\", \"交\", \"活\", \"胱\", \"惫\", \"单\", \"妒\", \"张\", \"煞\", \"帷\", \"琳\", \"瓷\", \"底\", \"侥\", \"臆\", \"芬\", \"养\", \"葫\", \"彷\", \"篓\", \"特\", \"身\", \"倪\", \"烃\", \"汰\", \"歧\", \"靛\", \"充\", \"围\", \"誓\", \"筝\", \"回\", \"私\", \"娄\", \"烂\", \"则\", \"仓\", \"式\", \"鹰\", \"坎\", \"瑑\", \"狸\", \"炭\", \"胖\", \"沛\", \"报\", \"メ\", \"晖\", \"拜\", \"琢\", \"映\", \"肛\", \"咀\", \"毕\", \"余\", \"摆\", \"赃\", \"狄\", \"响\", \"へ\", \"继\", \"腕\", \"区\", \"惧\", \"再\", \"毁\", \"役\", \"茄\", \"奇\", \"万\", \"甸\", \"莹\", \"状\", \"思\", \"棕\", \"折\", \"蚤\", \"釜\", \"克\", \"乓\", \"荻\", \"虾\", \"冰\", \"骰\", \"置\", \"尼\", \"筋\", \"哮\", \"课\", \"缚\", \"门\", \"诸\", \"勤\", \"储\", \"诙\", \"党\", \"沟\", \"猝\", \"令\", \"尊\", \"姑\", \"簧\", \"疾\", \"柿\", \"慧\", \"楼\", \"仿\", \"喂\", \"8\", \"新\", \"恍\", \"羹\", \"缥\", \"d\", \"喻\", \"浏\", \"恺\", \"账\", \"薩\", \"三\", \"瀑\", \"惘\", \"艳\", \"饭\", \"蓝\", \"持\", \"腊\", \"坯\", \"窖\", \"贸\", \"称\", \"葆\", \"幅\", \"辗\", \"奉\", \"岂\", \"〖\", \"汩\", \"門\", \"吹\", \"壕\", \"游\", \"苟\", \"揉\", \"财\", \"午\", \"柜\", \"兜\", \"辅\", \"访\", \"贺\", \"举\", \"屿\", \"动\", \"亲\", \"顺\", \"饥\", \"宙\", \"栅\", \"艰\", \"迟\", \"炬\", \"〔\", \"赂\", \"孕\", \"靖\", \"替\", \"罄\", \"限\", \"途\", \"懦\", \"会\", \"读\", \"源\", \"巷\", \"下\", \"轰\", \"府\", \"照\", \"怡\", \"癫\", \"走\", \"鞘\", \"缉\", \"呛\", \"衅\", \"囊\", \"起\", \"隆\", \"筛\", \"迹\", \"啪\", \"氛\", \"兴\", \"損\", \"镏\", \"鲤\", \"毛\", \"哑\", \"淤\", \"磊\", \"痊\", \"劳\", \"託\", \"剿\", \"翻\", \"浚\", \"衡\", \"贷\", \"瘙\", \"母\", \"颗\", \"谀\", \"妍\", \"推\", \"粪\", \"除\", \"贪\", \"挈\", \"昔\", \"拷\", \"勾\", \"鑫\", \"白\", \"镉\", \"⑶\", \"竖\", \"旋\", \"鲍\", \"够\", \"罗\", \"掌\", \"矶\", \"舟\", \"披\", \"犷\", \"凌\", \"罐\", \"寺\", \"跌\", \"瞩\", \"幕\", \"家\", \"启\", \"妹\", \"转\", \"努\", \"蟹\", \"挎\", \"纸\", \"嘟\", \"嗪\", \"嗤\", \"忑\", \"孜\", \"事\", \"婿\", \"旳\", \"杯\", \"尿\", \"斐\", \"墨\", \"浆\", \"佬\", \"铣\", \"弊\", \"送\", \"要\", \"狙\", \"福\", \"珊\", \"拯\", \"丛\", \"瞅\", \"体\", \"傻\", \" \", \"蛇\", \"敖\", \"狳\", \"删\", \"榷\", \"绒\", \"镑\", \"发\", \"蹦\", \"呃\", \"\\u0007\", \"枣\", \"素\", \"網\", \"桃\", \""\", \"寝\", \"只\", \"淮\", \"愣\", \"苏\", \"饵\", \"土\", \"舆\", \"风\", \"颂\", \"哥\", \"乌\", \"佘\", \"朴\", \"晃\", \"抑\", \"利\", \"抄\", \"泪\", \"休\", \"湮\", \"陪\", \"递\", \"垣\", \"泵\", \"蕃\", \"崛\", \"存\", \"淹\", \"悚\", \"厕\", \"丸\", \"已\", \"扑\", \"截\", \"缺\", \"亵\", \"踱\", \"紧\", \"产\", \"疫\", \"癖\", \"雾\", \"漂\", \"ノ\", \"肠\", \"惨\", \"押\", \"殉\", \"项\", \"厝\", \"修\", \"熊\", \"當\", \"话\", \"桑\", \"系\", \"惟\", \"锄\", \"互\", \"某\", \"许\", \"狂\", \"蒂\", \"竣\", \"樱\", \"计\", \"\", \"珀\", \"盛\", \"份\", \"扶\", \"硕\", \"酒\", \"睬\", \"栓\", \"耗\", \"宁\", \"官\", \"接\", \"触\", \"桩\", \"娩\", \"瑢\", \"感\", \"银\", \"写\", \"贞\", \"裤\", \"缴\", \"炉\", \"勺\", \"《\", \"着\", \"额\", \"弥\", \"澈\", \"井\", \"藤\", \"副\", \"攻\", \"碧\", \"磅\", \"诀\", \"胸\", \"矍\", \"藉\", \"跚\", \"沓\", \"卡\", \"包\", \"榜\", \"南\", \"压\", \"达\", \"珞\", \"蜴\", \"就\", \"取\", \"哟\", \"谣\", \"兽\", \"爽\", \"膜\", \"轨\", \"浅\", \"稿\", \"冀\", \"避\", \"仄\", \"领\", \"彦\", \"茁\", \"嫩\", \"硫\", \"⑤\", \"搁\", \"锤\", \"夯\", \"脂\", \"糟\", \"晕\", \"猖\", \"穰\", \"鄙\", \"瞄\", \"吭\", \"或\", \"武\", \"↑\", \"讨\", \"袭\", \"逼\", \"效\", \"葬\", \"忡\", \"救\", \"反\", \"邃\", \"辐\", \"意\", \"铸\", \"统\", \"涵\", \"驭\", \"狼\", \"淞\", \"穴\", \"凰\", \"靓\", \"丈\", \"狱\", \"诉\", \"付\", \"棺\", \"捡\", \"窝\", \"怕\", \"材\", \"忧\", \"赡\", \"骇\", \"蹴\", \"铛\", \"强\", \"共\", \"炸\", \"怎\", \"豆\", \"摊\", \"笔\", \"稣\", \"误\", \"搀\", \"贿\", \"煤\", \"挣\", \"少\", \"抱\", \"蜷\", \"甄\", \"伞\", \"阂\", \"怀\", \"塞\", \"京\", \"烘\", \"郝\", \"氨\", \"尹\", \"姿\", \"蔼\", \"驱\", \"被\", \"纤\", \"削\", \"镳\", \"晟\", \"迦\", \"护\", \"屑\", \"邀\", \"榄\", \"赫\", \"姊\", \"拦\", \"些\", \"!\", \"瑄\", \"去\", \"栾\", \"悲\", \"烈\", \"犄\", \"酬\", \"屣\", \"©\", \"网\", \"步\", \"〕\", \"阳\", \"小\", \"資\", \"另\", \"卍\", \"尽\", \"琪\", \"朵\", \"黛\", \"惠\", \"\\u0000\", \"诚\", \"羽\", \"么\", \"横\", \"榭\", \"吞\", \"叙\", \"旨\", \"遑\", \"ソ\", \"邂\", \"元\", \"佩\", \"轮\", \"牛\", \"侍\", \"咚\", \"霄\", \"纪\", \"岚\", \"亂\", \"祉\", \"琶\", \"脖\", \"瞬\", \"司\", \"漲\", \"\", \"梳\", \"咋\", \"炝\", \"「\", \"骚\", \"磨\", \"隙\", \"痴\", \"间\", \"品\", \"眩\", \"溶\", \"彪\", \"废\", \"标\", \"殿\", \"煌\", \"腱\", \"耍\", \"杏\", \"觑\", \"啥\", \"谍\", \"澡\", \"是\", \"胺\", \"斋\", \"二\", \"禁\", \"召\", \"邵\", \"届\", \"篷\", \"胃\", \"其\", \"暗\", \"悄\", \"予\", \"康\", \"纲\", \"绷\", \"榻\", \"呈\", \"虞\", \"哒\", \"侄\", \"辟\", \"侵\", \"舔\", \"荨\", \"曝\", \"潭\", \"绿\", \"泰\", \"租\", \"契\", \"那\", \"鳌\", \"邋\", \"燥\", \"行\", \"碾\", \"宰\", \"禧\", \"坑\", \"拾\", \"币\", \"楷\", \"⑦\", \"叉\", \"舒\", \"调\", \"仪\", \"句\", \"纳\", \"译\", \"萤\", \"喱\", \"渊\", \"戈\", \"阜\", \"梯\", \"鹅\", \"焚\", \"吓\", \"损\", \"眺\", \"潇\", \"拧\", \"侮\", \"善\", \"曾\", \"核\", \"失\", \"氯\", \"议\", \"首\", \"筷\", \"曙\", \"磁\", \"淌\", \"兄\", \"诠\", \"鸥\", \"2\", \"何\", \"琦\", \"鬣\", \"离\", \"腰\", \"敲\", \"氮\", \"博\", \"普\", \"务\", \"荷\", \"渔\", \"薪\", \"拌\", \"慈\", \"我\", \"竞\", \"歩\", \"馏\", \"命\", \"从\", \"娇\", \"伽\", \"鲁\", \"枕\", \"芹\", \"翌\", \"集\", \"椒\", \"闹\", \"堆\", \"版\", \"警\", \"垂\", \"廓\", \"绝\", \"育\", \"含\", \"霊\", \"靡\", \"旭\", \"圾\", \"口\", \"孵\", \"娟\", \"谊\", \"躇\", \"忪\", \"委\", \"慢\", \"轴\", \"甬\", \"妈\", \"题\", \"富\", \"商\", \"戮\", \"痛\", \"军\", \"蠢\", \"备\", \"逛\", \"玳\", \"缔\", \"直\", \"棋\", \"鹈\", \"札\", \"虱\", \"妮\", \"迷\", \"米\", \"啡\", \"碗\", \"况\", \"楞\", \"罔\", \"禄\", \"扯\", \"制\", \"踵\", \"扪\", \"友\", \"垫\", \"向\", \"境\", \"顶\", \"罢\", \"麓\", \"诶\", \"〗\", \"故\", \"嘿\", \"毋\", \"透\", \"菇\", \"椰\", \"让\", \"沼\", \"岐\", \"蔑\", \"魄\", \"凳\", \"涅\", \"具\", \"展\", \"蹩\", \"恢\", \"妓\", \"舍\", \"心\", \"碳\", \"探\", \"忿\", \"垛\", \"鼎\", \"业\", \"买\", \"赅\", \"搜\", \"蛋\", \"娠\", \"馍\", \"盹\", \"`\", \"瑒\", \"喽\", \"a\", \"见\", \"岱\", \"锯\", \"灭\", \"雍\", \"④\", \"遵\", \"槐\", \"树\", \"⑿\", \"逾\", \"涨\", \"退\", \"刻\", \"匙\", \"错\", \"迁\", \":\", \"臭\", \"檀\", \"亨\", \"芒\", \"媳\", \"腭\", \"能\", \"赐\", \"倦\", \"皮\", \"叮\", \"优\", \"丽\", \"麻\", \"类\", \"轩\", \"还\", \"祈\", \"滔\", \"矛\", \"芥\", \"扮\", \"蚪\", \"拆\", \"赌\", \"履\", \"窘\", \"圳\", \"熬\", \"熹\", \"串\", \"踊\", \"莱\", \"睛\", \"聋\", \"忍\", \"四\", \"鸩\", \"礴\", \"汲\", \"湄\", \"面\", \"缀\", \"笃\", \"娘\", \"赣\", \"浑\", \"耩\", \"俏\", \"马\", \"凋\", \"滩\", \"们\", \"醉\", \"啸\", \"姻\", \"帆\", \"序\", \"想\", \"庚\", \"鲱\", \"摹\", \"龄\", \"挲\", \"孤\", \"馈\", \"嗔\", \"劲\", \"遁\", \"呆\", \"璨\", \"变\", \"谅\", \"戳\", \"腐\", \"虚\", \"隧\", \"焊\", \"创\", \"淇\", \"蚯\", \"鹌\", \"侨\", \"诩\", \"岩\", \"恳\", \"法\", \"碎\", \"淡\", \"掂\", \"允\", \"料\", \"尤\", \"曲\", \"敢\", \"忱\", \"幼\", \"掰\", \"樯\", \"窄\", \"来\", \"淀\", \"换\", \"祛\", \"凑\", \"喘\", \"急\", \"蚁\", \"―\", \"妆\", \"恭\", \"眼\", \"吕\", \"s\", \"鹜\", \"瓢\", \"施\", \"琼\", \"篢\", \"解\", \"悖\", \"齿\", \"字\", \"尉\", \"佝\", \"匪\", \"哨\", \"讪\", \"叭\", \"幢\", \"易\", \"拗\", \"唆\", \"胎\", \"悼\", \"涩\", \"墒\", \"示\", \"粤\", \"祷\", \"耙\", \"疵\", \"雪\", \"妊\", \"锦\", \"踏\", \"擞\", \"嵌\", \"厄\", \"封\", \"什\", \"撅\", \"将\", \"萧\", \"柳\", \"铄\", \"呗\", \"娛\", \"砥\", \"洞\", \"设\", \"青\", \"冠\", \"俨\", \"帮\", \"歪\", \"密\", \"莘\", \"笑\", \"黄\", \"旦\", \"嘭\", \"洒\", \"浇\", \"N\", \"春\", \"卫\", \"镍\", \"搞\", \"茵\", \"昌\", \"霞\", \"暹\", \"吆\", \"狩\", \"噼\", \"龟\", \"砍\", \"停\", \"求\", \"肋\", \"鹏\", \"丧\", \"片\", \"潢\", \"沮\", \"形\", \"咨\", \"捞\", \"飚\", \"钊\", \"贾\", \"义\", \"电\", \"扳\", \"冈\", \"暄\", \"蛮\", \"瑶\", \"蝇\", \"驴\", \"捐\", \"燕\", \"牙\", \"亏\", \"企\", \"兼\", \"攸\", \"雅\", \"鸡\", \"拙\", \"懊\", \"煲\", \"疏\", \"泽\", \"楠\", \"蓬\", \"沪\", \"车\", \"骄\", \"抡\", \"岣\", \"胡\", \"添\", \"按\", \"鉴\", \"简\", \"炙\", \"织\", \"嗡\", \"铭\", \"仆\", \"箔\", \"本\", \"该\", \"脐\", \"梧\", \"释\", \"凡\", \"霏\", \"赢\", \"塔\", \"耐\", \"默\", \"迎\", \"T\", \"乎\", \"荣\", \".\", \"跨\", \"毫\", \"扼\", \"敛\", \"革\", \"韬\", \"乘\", \"缪\", \"工\", \"蔡\", \"⒋\", \"爻\", \"景\", \"胳\", \"距\", \"轼\", \"莞\", \"完\", \"桦\", \"造\", \"紊\", \"價\", \"力\", \"乖\", \"括\", \"谚\", \"说\", \"既\", \"改\", \"木\", \"辑\", \"哈\", \"止\", \"赘\", \"咳\", \"墅\", \"逶\", \"长\", \"雕\", \"逗\", \"鲜\", \"沈\", \"唠\", \"並\", \"胫\", \"昆\", \"问\", \"钓\", \"肖\", \"弦\", \"州\", \"糕\", \"吃\", \"霓\", \"库\", \"俘\", \"嫂\", \"悍\", \"软\", \"邯\", \"蟑\", \"袖\", \"蟋\", \"卻\", \"晗\", \"染\", \"污\", \"驼\", \"膝\", \"逞\", \"郅\", \"抠\", \"庶\", \"枪\", \"芜\", \"弧\", \"锒\", \"檐\", \"曦\", \"柱\", \"鹦\", \"曹\", \"奠\", \"柄\", \"怵\", \"朗\", \"睽\", \"、\", \"悬\", \"垮\", \"塌\", \"八\", \"打\", \"裸\", \"栩\", \"陌\", \"寂\", \"邮\", \"\\b\", \"往\", \"虫\", \"并\", \"乒\", \"灰\", \"屉\", \"芽\", \"涯\", \"猬\", \"苍\", \"D\", \"呜\", \"怒\", \"梅\", \"怖\", \"…\", \"杨\", \"挚\", \"炎\", \"油\", \"申\", \"边\", \"香\", \"刺\", \"锅\", \"掬\", \"睦\", \"欠\", \"牖\", \"峡\", \"秽\", \"缠\", \"ὐ\", \" \", \"泄\", \"彩\", \"娑\", \"析\", \"毙\", \"部\", \"俗\", \"入\", \"模\", \"瞰\", \"n\", \"暂\", \"吾\", \"尬\", \"杭\", \"出\", \"诟\", \"羔\", \"术\", \"眨\", \"翘\", \"玲\", \"樊\", \"埔\", \"唬\", \"诃\", \"又\", \"泳\", \"惕\", \"异\", \"哀\", \"琐\", \"珏\", \"躬\", \"窍\", \"控\", \"条\", \"趟\", \"湖\", \"晋\", \"谴\", \"屹\", \"撸\", \"草\", \"潮\", \"带\", \"吊\", \"励\", \"怔\", \"饲\", \"闪\", \"浞\", \"负\", \"杜\", \"粼\", \"现\", \"主\", \"滤\", \"历\", \"憨\", \"贮\", \"导\", \"费\", \"缸\", \"哼\", \"吼\", \"唐\", \"表\", \"蛛\", \"胚\", \"势\", \"供\", \"谢\", \"开\", \"猾\", \"纺\", \"惺\", \"当\", \"抓\", \"孽\", \"浦\", \"〝\", \"桢\", \"啦\", \"加\", \"担\", \"诞\", \"绵\", \"陷\", \"\", \"天\", \"裳\", \"麦\", \"ό\", \"浓\", \"晦\", \"络\", \"忽\", \"墓\", \"劫\", \"採\", \"陵\", \"里\", \"剐\", \"民\", \"支\", \"住\", \"隘\", \"壳\", \"燎\", \"漱\", \"唷\", \"蜥\", \"凭\", \"猎\", \"屁\", \"巧\", \"逃\", \"促\", \"隶\", \"茅\", \"歼\", \"传\", \"莫\", \"籽\", \"徐\", \"荐\", \"云\", \"阻\", \"弄\", \"胁\", \"渲\", \"嘛\", \"臼\", \"士\", \"佛\", \"范\", \"上\", \"玩\", \"扩\", \"衔\", \"摒\", \"猡\", \"败\", \"慕\", \"舛\", \"港\", \"膳\", \"饽\", \"瘠\", \"肮\", \"揭\", \"丁\", \"撤\", \"妥\", \"纯\", \"葛\", \"柬\", \"植\", \"穗\", \"馅\", \"宝\", \"咆\", \"惮\", \"伸\", \"焰\", \"⑷\", \"厢\", \"枯\", \"斑\", \"殷\", \"栗\", \"谛\", \"蔓\", \"之\", \"阱\", \"泯\", \"旖\", \"凉\", \"桂\", \"湛\", \"陈\", \"象\", \"倍\", \"襄\", \"唱\", \"娱\", \"器\", \"韵\", \"国\", \"征\", \"绽\", \"逐\", \"哎\", \"跟\", \"安\", \"售\", \"颠\", \"证\", \"o\", \"团\", \"饼\", \"e\", \"十\", \"寡\", \"宋\", \"彼\", \"巍\", \"径\", \"僵\", \"水\", \"尖\", \"远\", \"邦\", \"忠\", \"踌\", \"鬓\", \"多\", \"种\", \"盒\", \"进\", \"烤\", \"闾\", \"磕\", \"闻\", \"旎\", \"蔽\", \"睁\", \"颧\", \"各\", \"饮\", \"酌\", \"辜\", \"颐\", \"龙\", \"乱\", \"环\", \"筐\", \"恃\", \"〃\", \"迪\", \"松\", \"鸣\", \"华\", \"板\", \"媛\", \"缮\", \"丝\", \"掷\", \"惬\", \"拘\", \"ㄓ\", \"垒\", \"唾\", \"估\", \"馁\", \"橙\", \"夷\", \"墙\", \"粗\", \"汽\", \"梨\", \"每\", \"虽\", \"郸\", \"众\", \"邑\", \"衬\", \"敌\", \"朋\", \"视\", \"笼\", \"蜿\", \"淅\", \"亦\", \"∶\", \"研\", \"孀\", \"咔\", \"驻\", \"今\", \"悴\", \"筒\", \"袒\", \"辄\", \"死\", \"崇\", \"果\", \"峙\", \"搡\", \"精\", \"運\", \"双\", \"毗\", \"禽\", \"皆\", \"灵\", \"犀\", \"脏\", \"郜\", \"撕\", \"典\", \"旺\", \"危\", \"蚂\", \"蜂\", \"棱\", \"营\", \"孟\", \"祖\", \"复\"]", + "lossless": false + }, + "google/switch-c-2048 @ cc100/fr": { + "tokenizer": "switch-c-2048", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1540504, + "_n_tokens": 466133, + "_n_chars": 1484970, + "_n_oov_chars": 1615, + "oov_ratio": 0.001087564058533169, + "_oov_charset": "[\"ë\", \"È\", \"̧\", \"★\", \"’\", \"{\", \"Ê\", \"~\", \"…\", \"🙂\", \"´\", \"😀\", \"♕\", \"℃\", \"❤\", \"§\", \"̂\", \"―\", \"́\", \"😉\", \"^\", \"À\", \"™\", \"²\", \"}\", \"·\", \"…\", \"♠\", \"Ç\", \"🤔\", \"ã\", \"Ô\", \"µ\", \"�\", \"ï\", \"″\", \"í\", \"\\\\\", \"œ\", \"ğ\", \"←\", \"‐\", \"Â\", \"<\"]", + "lossless": false + }, + "google/switch-c-2048 @ cc100/es": { + "tokenizer": "switch-c-2048", + "organization": "Google", + "vocab_size": 32100, + "_n_bytes": 1664455, + "_n_tokens": 696400, + "_n_chars": 1630297, + "_n_oov_chars": 11598, + "oov_ratio": 0.007114041183906981, + "_oov_charset": "[\"″\", \"ñ\", \"{\", \"‘\", \"▷\", \"️\", \"🙂\", \"😉\", \"✪\", \"Í\", \"º\", \"🙁\", \"í\", \"■\", \"}\", \"Á\", \"Ñ\", \"´\", \"👍\", \"✓\", \"Ú\", \"―\", \"…\", \"М\", \"\\\\\", \"„\", \"ª\", \"😦\", \"©\", \"·\", \"→\", \"×\", \"\", \"^\", \"²\", \"←\", \"’\", \"ú\", \"✖\", \"<\", \"❤\", \"¡\", \"ý\", \"¿\", \"ø\", \"ò\", \"✔\", \"👏\", \"😀\", \"Ó\"]", + "lossless": false + }, + "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/en": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "_n_bytes": 1124813, + "_n_tokens": 254944, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/zh-Hans": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "_n_bytes": 2633047, + "_n_tokens": 747405, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/fr": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "_n_bytes": 1540504, + "_n_tokens": 412146, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "gradientai/Llama-3-8B-Instruct-Gradient-1048k @ cc100/es": { + "tokenizer": "llama3", + "organization": "Meta", + "vocab_size": 128256, + "_n_bytes": 1664455, + "_n_tokens": 433289, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "hfl/chinese-alpaca-lora-7b @ cc100/en": { + "tokenizer": "chinese-alpaca-lora-7b", + "organization": "-", + "vocab_size": 49954, + "_n_bytes": 1124813, + "_n_tokens": 281471, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-alpaca-lora-7b @ cc100/zh-Hans": { + "tokenizer": "chinese-alpaca-lora-7b", + "organization": "-", + "vocab_size": 49954, + "_n_bytes": 2633047, + "_n_tokens": 613993, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-alpaca-lora-7b @ cc100/fr": { + "tokenizer": "chinese-alpaca-lora-7b", + "organization": "-", + "vocab_size": 49954, + "_n_bytes": 1540504, + "_n_tokens": 440299, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-alpaca-lora-7b @ cc100/es": { + "tokenizer": "chinese-alpaca-lora-7b", + "organization": "-", + "vocab_size": 49954, + "_n_bytes": 1664455, + "_n_tokens": 476720, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-2-7b @ cc100/en": { + "tokenizer": "chinese-llama-2-7b", + "organization": "-", + "vocab_size": 55296, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-2-7b @ cc100/zh-Hans": { + "tokenizer": "chinese-llama-2-7b", + "organization": "-", + "vocab_size": 55296, + "_n_bytes": 2633047, + "_n_tokens": 616545, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-2-7b @ cc100/fr": { + "tokenizer": "chinese-llama-2-7b", + "organization": "-", + "vocab_size": 55296, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-2-7b @ cc100/es": { + "tokenizer": "chinese-llama-2-7b", + "organization": "-", + "vocab_size": 55296, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-lora-7b @ cc100/en": { + "tokenizer": "chinese-llama-lora-7b", + "organization": "-", + "vocab_size": 49953, + "_n_bytes": 1124813, + "_n_tokens": 281471, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-lora-7b @ cc100/zh-Hans": { + "tokenizer": "chinese-llama-lora-7b", + "organization": "-", + "vocab_size": 49953, + "_n_bytes": 2633047, + "_n_tokens": 613993, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-lora-7b @ cc100/fr": { + "tokenizer": "chinese-llama-lora-7b", + "organization": "-", + "vocab_size": 49953, + "_n_bytes": 1540504, + "_n_tokens": 440299, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/chinese-llama-lora-7b @ cc100/es": { + "tokenizer": "chinese-llama-lora-7b", + "organization": "-", + "vocab_size": 49953, + "_n_bytes": 1664455, + "_n_tokens": 476720, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hfl/llama-3-chinese-8b @ cc100/en": { + "tokenizer": "llama-3-chinese-8b", + "organization": "-", + "vocab_size": 128256, + "_n_bytes": 1124813, + "_n_tokens": 254944, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "hfl/llama-3-chinese-8b @ cc100/zh-Hans": { + "tokenizer": "llama-3-chinese-8b", + "organization": "-", + "vocab_size": 128256, + "_n_bytes": 2633047, + "_n_tokens": 747405, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "hfl/llama-3-chinese-8b @ cc100/fr": { + "tokenizer": "llama-3-chinese-8b", + "organization": "-", + "vocab_size": 128256, + "_n_bytes": 1540504, + "_n_tokens": 412141, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "hfl/llama-3-chinese-8b @ cc100/es": { + "tokenizer": "llama-3-chinese-8b", + "organization": "-", + "vocab_size": 128256, + "_n_bytes": 1664455, + "_n_tokens": 433286, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "hpcai-tech/grok-1 @ cc100/en": { + "tokenizer": "grok-1", + "organization": "xAI", + "vocab_size": 131072, + "_n_bytes": 1124813, + "_n_tokens": 258048, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hpcai-tech/grok-1 @ cc100/zh-Hans": { + "tokenizer": "grok-1", + "organization": "xAI", + "vocab_size": 131072, + "_n_bytes": 2633047, + "_n_tokens": 1414508, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hpcai-tech/grok-1 @ cc100/fr": { + "tokenizer": "grok-1", + "organization": "xAI", + "vocab_size": 131072, + "_n_bytes": 1540504, + "_n_tokens": 428298, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "hpcai-tech/grok-1 @ cc100/es": { + "tokenizer": "grok-1", + "organization": "xAI", + "vocab_size": 131072, + "_n_bytes": 1664455, + "_n_tokens": 449392, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "huggyllama/llama-7b @ cc100/en": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "huggyllama/llama-7b @ cc100/zh-Hans": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "huggyllama/llama-7b @ cc100/fr": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "huggyllama/llama-7b @ cc100/es": { + "tokenizer": "llama", + "organization": "Meta", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm-chat-7b @ cc100/en": { + "tokenizer": "internlm-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1124813, + "_n_tokens": 261293, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-chat-7b @ cc100/zh-Hans": { + "tokenizer": "internlm-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 2633047, + "_n_tokens": 569109, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-chat-7b @ cc100/fr": { + "tokenizer": "internlm-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1540504, + "_n_tokens": 485045, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-chat-7b @ cc100/es": { + "tokenizer": "internlm-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1664455, + "_n_tokens": 506572, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-xcomposer-7b @ cc100/en": { + "tokenizer": "internlm-xcomposer-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1124813, + "_n_tokens": 261293, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-xcomposer-7b @ cc100/zh-Hans": { + "tokenizer": "internlm-xcomposer-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 2633047, + "_n_tokens": 569109, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-xcomposer-7b @ cc100/fr": { + "tokenizer": "internlm-xcomposer-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1540504, + "_n_tokens": 485045, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm-xcomposer-7b @ cc100/es": { + "tokenizer": "internlm-xcomposer-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 103168, + "_n_bytes": 1664455, + "_n_tokens": 506572, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "internlm/internlm2-chat-7b @ cc100/en": { + "tokenizer": "internlm2-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1124813, + "_n_tokens": 261583, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-chat-7b @ cc100/zh-Hans": { + "tokenizer": "internlm2-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 2633047, + "_n_tokens": 569976, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-chat-7b @ cc100/fr": { + "tokenizer": "internlm2-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1540504, + "_n_tokens": 486629, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-chat-7b @ cc100/es": { + "tokenizer": "internlm2-chat-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1664455, + "_n_tokens": 508871, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-math-7b @ cc100/en": { + "tokenizer": "internlm2-math-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1124813, + "_n_tokens": 261583, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-math-7b @ cc100/zh-Hans": { + "tokenizer": "internlm2-math-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 2633047, + "_n_tokens": 569976, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-math-7b @ cc100/fr": { + "tokenizer": "internlm2-math-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1540504, + "_n_tokens": 486629, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "internlm/internlm2-math-7b @ cc100/es": { + "tokenizer": "internlm2-math-7b", + "organization": "Shanghai AI Lab", + "vocab_size": 92544, + "_n_bytes": 1664455, + "_n_tokens": 508871, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "lmsys/fastchat-t5-3b-v1.0 @ cc100/en": { + "tokenizer": "fastchat-t5-3b-v1.0", + "organization": "LMSYS", + "vocab_size": 32110, + "_n_bytes": 1124813, + "_n_tokens": 474941, + "_n_chars": 1121360, + "_n_oov_chars": 111, + "oov_ratio": 9.898694442462724e-05, + "_oov_charset": "[\"\", \"¡\", \"😉\", \"\", \"‑\", \"�\", \"ï\", \"​\", \"´\", \"¦\", \"③\", \"🙂\", \"⑧\", \"~\", \"😥\", \"”\", \"⑩\", \"ñ\", \"…\", \"⑦\", \"⑤\", \"“\"]", + "lossless": false + }, + "lmsys/fastchat-t5-3b-v1.0 @ cc100/zh-Hans": { + "tokenizer": "fastchat-t5-3b-v1.0", + "organization": "LMSYS", + "vocab_size": 32110, + "_n_bytes": 2633047, + "_n_tokens": 168974, + "_n_chars": 927311, + "_n_oov_chars": 864792, + "oov_ratio": 0.9325803317333667, + "_oov_charset": "[\"福\", \"志\", \"悍\", \"恳\", \"芦\", \"加\", \"艳\", \"林\", \"副\", \"昭\", \"檀\", \"嗤\", \"衡\", \"沃\", \"样\", \"新\", \"蒂\", \"贡\", \"胚\", \"阂\", \"育\", \"祸\", \"汐\", \"藐\", \"特\", \"汗\", \"乞\", \"工\", \"卵\", \"共\", \"抬\", \"曝\", \"巾\", \"舎\", \"异\", \"漆\", \"蛔\", \"孰\", \"煮\", \"环\", \"浞\", \"匪\", \"橇\", \"引\", \"窖\", \"氮\", \"弥\", \"蓦\", \"能\", \"弓\", \"惨\", \"两\", \"优\", \"果\", \"早\", \"岖\", \"骛\", \"筝\", \"嗜\", \"⒃\", \"揍\", \"粪\", \"℃\", \"霭\", \"岑\", \"痘\", \"调\", \"辆\", \"否\", \"尊\", \"琉\", \"矮\", \"购\", \"颖\", \"阵\", \"〃\", \"必\", \"鹏\", \"昔\", \"」\", \"鼠\", \"胳\", \"寥\", \"號\", \"极\", \"發\", \"缜\", \"噴\", \"论\", \"色\", \"惟\", \"亦\", \"摩\", \"绞\", \"恣\", \"境\", \"买\", \"键\", \"秉\", \"过\", \"来\", \"测\", \"殉\", \"鸟\", \"收\", \"眩\", \"牒\", \"猥\", \"倾\", \"坡\", \"恪\", \"n\", \"敛\", \"蜴\", \"撕\", \"垠\", \"链\", \"挎\", \"封\", \"集\", \"丰\", \"暧\", \"孔\", \"镐\", \"锥\", \"沿\", \"酋\", \"毅\", \"苏\", \"簿\", \"魅\", \"戛\", \"亂\", \"晨\", \"莘\", \"遮\", \"基\", \"拔\", \"栅\", \"辞\", \"巩\", \"稚\", \"幽\", \"豆\", \"埂\", \"虹\", \"娱\", \"具\", \"蕴\", \"赅\", \"礼\", \"欺\", \"\", \"溅\", \"泻\", \"尚\", \"纺\", \"选\", \"别\", \"酷\", \"魄\", \"誓\", \"愁\", \"狰\", \"歉\", \"疫\", \"厝\", \"亭\", \"a\", \"奠\", \"枕\", \"纹\", \"契\", \"府\", \"召\", \"怠\", \"佬\", \"侥\", \"耍\", \"遍\", \"责\", \"泽\", \"娠\", \"绣\", \"庞\", \"歪\", \"复\", \"党\", \"徊\", \"暇\", \"膛\", \"砧\", \"唇\", \"迭\", \"承\", \"伙\", \"镶\", \"定\", \"魇\", \"那\", \"骑\", \"屯\", \"肋\", \"旱\", \"颉\", \"姗\", \"辟\", \"钦\", \"夺\", \"哒\", \"嘭\", \"赋\", \"肪\", \"领\", \"刘\", \"闭\", \"须\", \"撒\", \"味\", \"怵\", \"\", \"谭\", \"锐\", \"了\", \"饥\", \"真\", \"丈\", \"桢\", \"菲\", \"晰\", \"帅\", \"ο\", \"拍\", \"詹\", \"霊\", \"蒸\", \"谧\", \"犟\", \"层\", \"噼\", \"門\", \"衿\", \"次\", \"尸\", \"晕\", \"薛\", \"τ\", \"国\", \"僵\", \"雀\", \"侬\", \"塞\", \"噪\", \"靖\", \"锣\", \"稣\", \"聒\", \"崩\", \"熏\", \"迎\", \"睁\", \"鞘\", \"蚌\", \"峙\", \"帐\", \"莎\", \"汁\", \"憔\", \"庆\", \"亏\", \"甫\", \"辜\", \"抢\", \"呗\", \"殷\", \"棺\", \"明\", \"锈\", \"韵\", \"涎\", \"岣\", \"蕉\", \"T\", \"雅\", \"解\", \"便\", \"驿\", \"约\", \"瑒\", \"捷\", \"母\", \"瘦\", \"锅\", \"富\", \"羁\", \"某\", \"陆\", \"讳\", \"妍\", \"渍\", \"鲜\", \"衷\", \"率\", \"辐\", \"揽\", \"把\", \"利\", \"黧\", \"淹\", \"陀\", \"奏\", \"懑\", \"嗣\", \"焦\", \"推\", \"咬\", \"慧\", \"冷\", \"寂\", \"橡\", \"棉\", \"卷\", \"轨\", \"做\", \"谍\", \"谅\", \"雇\", \"直\", \"衬\", \"抿\", \"腐\", \"⑥\", \"芋\", \"舶\", \"偷\", \"璧\", \"期\", \"哨\", \"胱\", \"律\", \"妹\", \"邂\", \"忱\", \"各\", \"川\", \"患\", \"症\", \"娼\", \"等\", \"忍\", \"篷\", \"浪\", \"炎\", \"踌\", \"邓\", \"蹒\", \"搜\", \"绿\", \"亥\", \"危\", \"纷\", \"讯\", \"淞\", \"泰\", \"瞄\", \"桩\", \"叨\", \"凄\", \"纳\", \"征\", \"斑\", \"淄\", \"生\", \"削\", \"梁\", \"岳\", \"泣\", \"桃\", \"澡\", \"萤\", \"浸\", \"肌\", \"淖\", \"盾\", \"汛\", \"硬\", \"吱\", \"简\", \"鲎\", \"室\", \"珠\", \"凡\", \"弊\", \"仆\", \"死\", \"聚\", \"呼\", \"寡\", \"嘤\", \"袖\", \"韬\", \"时\", \"拽\", \"佳\", \"宇\", \"队\", \"膀\", \"栖\", \"喉\", \"邢\", \"醍\", \"秒\", \"迷\", \"呕\", \"贝\", \"掏\", \"讥\", \"绰\", \"癫\", \"尝\", \"儿\", \"讽\", \"妃\", \"盏\", \"涩\", \"土\", \"舅\", \"狱\", \"勒\", \"许\", \"p\", \"狩\", \"惑\", \"扯\", \"硕\", \"聂\", \"捕\", \"管\", \"撤\", \"酵\", \"蕤\", \"矍\", \"笑\", \"炬\", \"粼\", \"石\", \"荻\", \"侯\", \"客\", \"栩\", \"捐\", \"酣\", \"舔\", \"信\", \"眺\", \"拜\", \"鸿\", \"《\", \"他\", \"鲤\", \"虚\", \"剥\", \"派\", \"床\", \"斐\", \"闸\", \"控\", \"贼\", \"⑸\", \"坦\", \"再\", \"锢\", \"賣\", \"玛\", \"怕\", \"蹭\", \"蔼\", \"眉\", \"郴\", \"狙\", \"烛\", \"轩\", \"曹\", \"焰\", \"焯\", \"遗\", \"蚁\", \"钰\", \"帖\", \"炒\", \"奸\", \"脾\", \"号\", \"拿\", \"痫\", \"矛\", \"肿\", \"般\", \"卓\", \"帘\", \"箭\", \"杠\", \"饽\", \"徒\", \"请\", \"钱\", \"懂\", \"垮\", \"纽\", \"祷\", \"翠\", \"伟\", \"蝗\", \"昂\", \"名\", \"廷\", \"淅\", \"拯\", \"荧\", \"徘\", \"阴\", \"觑\", \"嘟\", \"★\", \"〈\", \"察\", \"迤\", \"铤\", \"庸\", \"瘤\", \"六\", \"敏\", \"辙\", \"憾\", \"帆\", \"伯\", \"脸\", \"到\", \"澈\", \"⑿\", \"峭\", \"市\", \"何\", \"输\", \"妖\", \"睦\", \"秆\", \"独\", \"傲\", \"玄\", \"八\", \"抨\", \"碱\", \"絮\", \"巴\", \"剿\", \"恋\", \"菊\", \"柔\", \"阪\", \"筷\", \"姓\", \"侃\", \"纠\", \"凳\", \"蚓\", \"篝\", \"岂\", \"纾\", \"魁\", \"细\", \"媳\", \"抛\", \"它\", \"前\", \"证\", \"丽\", \"自\", \"宴\", \"佝\", \"皮\", \"麽\", \"翕\", \"微\", \"暄\", \"瑶\", \"莅\", \"峻\", \"亿\", \"空\", \"個\", \"故\", \"笋\", \"显\", \"暴\", \"僚\", \"○\", \"滞\", \"苒\", \"赫\", \"弘\", \"朵\", \"袁\", \"捞\", \"斛\", \"艺\", \"戍\", \"舛\", \"闾\", \"〝\", \"菱\", \"居\", \"洞\", \"训\", \"蛇\", \"奉\", \"婺\", \"西\", \"汶\", \"农\", \"锋\", \"墟\", \"卡\", \"兰\", \"朝\", \"害\", \"滩\", \"舒\", \"胫\", \"〕\", \"租\", \"惬\", \"橱\", \"宿\", \"舌\", \"唉\", \"叛\", \"筑\", \"梯\", \"泪\", \"钉\", \"屣\", \"唬\", \"绊\", \"掺\", \"因\", \"赤\", \"兵\", \"脏\", \"榴\", \"憬\", \"楣\", \"听\", \"串\", \"希\", \"喇\", \"归\", \"杭\", \"嗨\", \"煽\", \"蹄\", \"拱\", \"钥\", \"翘\", \"吮\", \"督\", \"执\", \"愿\", \"钓\", \"网\", \"椒\", \"严\", \"数\", \"鼻\", \"嘈\", \"爱\", \"嗦\", \"腺\", \"未\", \"竺\", \"填\", \"帮\", \"代\", \"褒\", \"江\", \"驼\", \"席\", \"侣\", \"至\", \"益\", \"纂\", \"C\", \"常\", \"娜\", \"铁\", \"卻\", \"泌\", \"翊\", \"薇\", \"臃\", \"茂\", \"腿\", \"挂\", \"骰\", \"挟\", \"钝\", \"籁\", \"郸\", \"度\", \"邑\", \"饰\", \"惜\", \"敷\", \"阻\", \"侮\", \"丙\", \"隋\", \"叉\", \"猩\", \"克\", \"节\", \"防\", \"继\", \"缴\", \"冯\", \"追\", \"慈\", \"局\", \"如\", \"逊\", \"郜\", \"棋\", \"…\", \"很\", \"吕\", \"缥\", \"姆\", \"炝\", \"宜\", \"送\", \"弑\", \"缪\", \"壹\", \"睛\", \"晤\", \"撞\", \"佐\", \"考\", \"-\", \"卍\", \"舰\", \"菜\", \"霹\", \"芬\", \"趣\", \"瞻\", \"矶\", \"表\", \"猪\", \"熨\", \"翱\", \"镀\", \"章\", \"沮\", \"擞\", \"跃\", \"瑄\", \"寨\", \"熙\", \"埠\", \"芃\", \"砥\", \"店\", \"麦\", \"禽\", \"驰\", \"彻\", \"之\", \"憋\", \"噬\", \"敝\", \"裙\", \"罕\", \"姐\", \"劾\", \"媒\", \" \", \"丐\", \"圳\", \"咳\", \"套\", \"驮\", \"臂\", \"襄\", \"私\", \"刻\", \"遛\", \"拾\", \"耀\", \"操\", \"贤\", \"船\", \"扑\", \"畴\", \"俏\", \"蓁\", \"设\", \"鼎\", \"札\", \"罔\", \"烟\", \"耗\", \"甘\", \"斤\", \"虎\", \"喽\", \"岗\", \"师\", \"舵\", \"隔\", \"磋\", \"爵\", \"绝\", \"皇\", \"涉\", \"跻\", \"灾\", \"佘\", \"圩\", \"趴\", \"澳\", \"质\", \"渣\", \"赣\", \"东\", \"婊\", \"雕\", \"攸\", \"葆\", \"锦\", \"酱\", \"柜\", \"跪\", \"列\", \"爷\", \"拳\", \"荼\", \"棂\", \"泼\", \"讷\", \"瓷\", \"拙\", \"瞪\", \"感\", \"丸\", \"铂\", \"币\", \"肖\", \"截\", \"续\", \"啡\", \"瑟\", \"九\", \"挲\", \"方\", \"相\", \"李\", \"撐\", \"硅\", \"ς\", \"诡\", \"山\", \"量\", \"靓\", \"虔\", \"镍\", \"鹈\", \"婷\", \"映\", \"卧\", \"膜\", \"掠\", \"糠\", \"萼\", \"声\", \"惹\", \""\", \"秦\", \"匙\", \"灌\", \"还\", \"黄\", \"坊\", \"贪\", \"案\", \"俞\", \"荫\", \"禄\", \"爸\", \"持\", \"邪\", \"华\", \"莱\", \"乳\", \"司\", \"又\", \"坷\", \"蒜\", \"判\", \"跷\", \"袒\", \"小\", \"村\", \"榄\", \"周\", \"搁\", \"座\", \"赡\", \"货\", \"俚\", \"州\", \"缘\", \"彭\", \"+\", \"●\", \"棵\", \"插\", \"劈\", \"亡\", \"冈\", \"友\", \"鹿\", \"メ\", \"忿\", \"獗\", \"倨\", \"消\", \"驱\", \"程\", \"恤\", \"哇\", \"欲\", \"雏\", \"港\", \"幅\", \"思\", \"概\", \"啼\", \"幼\", \"荆\", \"據\", \"负\", \"扬\", \"蕾\", \"胡\", \"铸\", \"惠\", \"斯\", \"遐\", \"朽\", \"尔\", \"猝\", \"劳\", \"瞰\", \"飚\", \"拌\", \"啐\", \"淆\", \"稠\", \"螺\", \"痊\", \"驴\", \"吆\", \"嫂\", \"掐\", \"哧\", \"情\", \"仍\", \"涛\", \"粘\", \"尹\", \"家\", \"习\", \"奂\", \"邻\", \"怔\", \"昨\", \"首\", \"问\", \"禧\", \"清\", \"擂\", \"纰\", \"却\", \"绩\", \"墒\", \"鸭\", \"晓\", \"罚\", \"沈\", \"穿\", \"不\", \"笔\", \"白\", \"呆\", \"扉\", \"镳\", \"地\", \"假\", \"蔽\", \"挣\", \"惩\", \"疑\", \"竞\", \"曲\", \"哪\", \"钜\", \"踞\", \"挚\", \"愤\", \"靶\", \"诞\", \"妥\", \"瞅\", \"吟\", \"馏\", \"喝\", \"悟\", \"⑶\", \"淇\", \"祝\", \"瞩\", \"斥\", \"廖\", \"臻\", \"剽\", \"寄\", \"亨\", \"呃\", \"现\", \"包\", \"卢\", \"访\", \"柯\", \"以\", \"浓\", \"谬\", \"⑷\", \"裘\", \"辅\", \"捧\", \"挑\", \"赶\", \"诬\", \"圜\", \"旋\", \"玮\", \"音\", \"露\", \"值\", \"诨\", \"刨\", \"溪\", \"戴\", \"奎\", \"鸡\", \"弹\", \"喻\", \"翼\", \"蟀\", \"圈\", \"营\", \"寿\", \"冉\", \"鞠\", \"虞\", \"慑\", \"于\", \"俨\", \"忧\", \"与\", \"×\", \"鼯\", \"望\", \"]\", \"潘\", \"邃\", \"嗯\", \"鹤\", \"惺\", \"戮\", \"膨\", \"并\", \"&\", \"〔\", \"晾\", \"咀\", \"猖\", \"多\", \"龄\", \"寺\", \"或\", \"鸽\", \"趁\", \"涂\", \"\\u0006\", \"融\", \"蹈\", \"义\", \"·\", \"废\", \"邕\", \"茧\", \"制\", \"夹\", \"民\", \"s\", \"帜\", \"瞳\", \"助\", \"镑\", \"蛙\", \"胥\", \"堪\", \"渺\", \"潭\", \"夕\", \"炸\", \"褂\", \"保\", \"欢\", \"淼\", \"南\", \"框\", \"谎\", \"浏\", \"硫\", \"〖\", \"桥\", \"台\", \"澄\", \"狞\", \"软\", \"绉\", \"书\", \"文\", \"航\", \"润\", \"漪\", \"踩\", \"轻\", \"泵\", \"中\", \"振\", \"使\", \"政\", \"彩\", \"谱\", \"锻\", \"恢\", \"湄\", \"窄\", \"奇\", \"乃\", \"左\", \"扔\", \"舆\", \"颓\", \"迪\", \"竹\", \"挈\", \"逆\", \"掀\", \"紫\", \"。\", \"辫\", \"琢\", \"攻\", \"桌\", \"毒\", \"要\", \"撇\", \"栏\", \"艇\", \"窒\", \"噶\", \"瑢\", \"醋\", \"鹑\", \"灑\", \"烧\", \"运\", \"瓦\", \"屄\", \"ㄓ\", \"抄\", \"析\", \"割\", \"挖\", \"掬\", \"鬼\", \"奘\", \"氧\", \"圾\", \"黛\", \"瑧\", \"赘\", \"渐\", \"取\", \"警\", \"湃\", \"梳\", \"▲\", \"滴\", \"陶\", \"黯\", \"毋\", \"焊\", \"戚\", \"沟\", \"郑\", \"牲\", \"支\", \"省\", \"蜕\", \"巍\", \"积\", \"屏\", \"萨\", \"蘸\", \"孪\", \"赛\", \"踪\", \"濒\", \"错\", \"酝\", \"盟\", \"寅\", \"卦\", \"夯\", \"娟\", \"凰\", \"焉\", \"沂\", \"烷\", \"渎\", \"炮\", \"出\", \"妊\", \"盹\", \"雨\", \"门\", \"〉\", \"贿\", \"芹\", \"杰\", \"扶\", \"牛\", \"乐\", \"蔓\", \"开\", \"妞\", \"嘿\", \"背\", \"晃\", \"揣\", \"刑\", \"挺\", \"狸\", \"電\", \"处\", \"锒\", \"丑\", \"投\", \"衍\", \"佩\", \"抉\", \"津\", \"吭\", \"婉\", \"腰\", \"浦\", \"筐\", \"徨\", \"へ\", \"交\", \"咧\", \"角\", \"慌\", \"喔\", \"嗓\", \"哈\", \"语\", \"铭\", \"无\", \"粮\", \"胎\", \"腥\", \"6\", \"矢\", \"渡\", \"霸\", \"槌\", \"楠\", \"阶\", \"智\", \"釜\", \"蜡\", \"韫\", \"匕\", \"嗲\", \"协\", \"枪\", \"盯\", \"痰\", \"蹩\", \"嵌\", \"岚\", \"春\", \"辄\", \"放\", \"彬\", \"韩\", \"稿\", \"榆\", \"侈\", \"倏\", \"碍\", \"葬\", \"踝\", \"兽\", \"當\", \"臆\", \"聘\", \"霾\", \"灿\", \"品\", \"颠\", \"唾\", \"届\", \"怀\", \"闹\", \"拷\", \"致\", \"堰\", \"恐\", \"潢\", \"∶\", \"仰\", \"毗\", \"划\", \"哼\", \"穆\", \"络\", \"冤\", \"蹿\", \"爻\", \"坠\", \"胧\", \"洛\", \"汲\", \"纵\", \"搂\", \"琐\", \"蛊\", \"崔\", \"惭\", \"女\", \"军\", \"煜\", \"寞\", \"椰\", \"惧\", \"婴\", \"衔\", \"页\", \"柏\", \"滔\", \"档\", \"睐\", \"拟\", \"鸩\", \"萦\", \"翡\", \"含\", \"券\", \"途\", \"矿\", \"菌\", \"荨\", \"桦\", \"塘\", \"涟\", \"骏\", \"己\", \"[\", \"句\", \"务\", \"姑\", \"垫\", \"及\", \"批\", \"诵\", \"厨\", \"祥\", \"暮\", \"乘\", \"览\", \"肚\", \"鲁\", \"儒\", \"通\", \"谢\", \"拭\", \"堆\", \"版\", \"挫\", \"虫\", \"紊\", \"库\", \"嚼\", \"从\", \"陪\", \"厕\", \"贯\", \";\", \"滋\", \"涵\", \"典\", \"偌\", \"饲\", \"众\", \"蜀\", \"柴\", \"柱\", \"抠\", \"琦\", \"退\", \"癜\", \"蜒\", \"账\", \"男\", \"坐\", \"馅\", \"溘\", \"恩\", \"畑\", \"绵\", \"時\", \"镕\", \"躲\", \"介\", \"着\", \"令\", \"核\", \"公\", \"旺\", \"奖\", \"塌\", \"甜\", \"字\", \"戳\", \"旌\", \"匹\", \"鞋\", \"喃\", \"龇\", \"医\", \"8\", \"偿\", \"卸\", \"晋\", \"延\", \"勉\", \"椅\", \"羚\", \"钩\", \"汤\", \"沏\", \"残\", \"对\", \"拒\", \"毙\", \"膳\", \"肉\", \"碟\", \"绛\", \"厅\", \"拐\", \"叩\", \"仔\", \"诸\", \"啊\", \"窝\", \"谣\", \"歇\", \"顿\", \"绅\", \"葱\", \"蛛\", \"淤\", \"棚\", \"贩\", \"犁\", \"股\", \"壁\", \"另\", \"イ\", \"芥\", \"夷\", \"①\", \"並\", \"盒\", \"驭\", \"_\", \"秋\", \"撑\", \"杆\", \"】\", \"甄\", \"掉\", \"烃\", \"驳\", \"殴\", \"伪\", \"淮\", \"涕\", \"砸\", \"讦\", \"氯\", \"逑\", \"疴\", \"權\", \"后\", \"压\", \"烦\", \"恿\", \"鳃\", \"歹\", \"孽\", \"乍\", \"氰\", \"嘀\", \"涤\", \"確\", \"佛\", \"良\", \"有\", \"蒋\", \"德\", \"悦\", \"亚\", \"十\", \"梧\", \"颂\", \"可\", \"诟\", \"▪\", \"牺\", \"郝\", \"型\", \"阀\", \"ὐ\", \"替\", \"游\", \"狂\", \"官\", \"命\", \"洼\", \"傥\", \"发\", \"餐\", \"季\", \"衰\", \"矩\", \"浩\", \"钞\", \"励\", \"弛\", \"端\", \"下\", \"笃\", \"囊\", \"搬\", \"犹\", \"艰\", \"坑\", \"嚎\", \"嬉\", \"哲\", \"势\", \"樊\", \"钟\", \"ě\", \"哭\", \"谷\", \"况\", \"黑\", \"综\", \"谴\", \"屹\", \" \", \"撅\", \"掖\", \"嘘\", \"只\", \"痛\", \"颧\", \"诉\", \"腓\", \"愚\", \"罹\", \"◆\", \"曰\", \"昕\", \"肝\", \"捏\", \"亩\", \"夫\", \"愉\", \"稳\", \"醐\", \"粹\", \"潦\", \"抗\", \"愧\", \"霄\", \"梭\", \"票\", \"啸\", \"税\", \"幕\", \"刊\", \"饮\", \"枣\", \"谐\", \"「\", \"秽\", \"窘\", \"恺\", \"牟\", \"愣\", \"善\", \"尿\", \"臣\", \"总\", \"冶\", \"棕\", \"窜\", \"霆\", \"阁\", \"铲\", \"择\", \"看\", \"珀\", \"啬\", \"強\", \"衣\", \"缉\", \"深\", \"坝\", \"庙\", \"病\", \"圣\", \"迫\", \"【\", \"眠\", \"選\", \"珉\", \"僻\", \"求\", \"鼾\", \"肥\", \"属\", \"吴\", \"厦\", \"赌\", \"忆\", \"豫\", \"酒\", \"寻\", \"焚\", \"玷\", \"d\", \"玉\", \"丢\", \"垣\", \"嚷\", \"趋\", \"镭\", \"询\", \"桅\", \"捂\", \"唱\", \"冀\", \"签\", \"乏\", \"主\", \"幻\", \"嘱\", \"佼\", \"喆\", \"踏\", \"沉\", \"妇\", \"矗\", \"溉\", \"筒\", \"伤\", \"蜥\", \"徙\", \"擤\", \"遏\", \"资\", \"巢\", \"睹\", \"狳\", \"耙\", \"瘩\", \"饷\", \"慮\", \"嘴\", \"玖\", \"哗\", \"尺\", \"宁\", \"赵\", \"乌\", \"嘲\", \"觉\", \"邸\", \"最\", \"员\", \"悯\", \"成\", \"泠\", \"斧\", \"呀\", \"猫\", \"毛\", \"夸\", \"镜\", \"蔡\", \"擦\", \"您\", \"陇\", \"④\", \"威\", \"雳\", \"炙\", \"孜\", \"目\", \"勘\", \"豚\", \"蟑\", \"啥\", \"战\", \"卖\", \"折\", \"济\", \"贴\", \"绕\", \"诀\", \"秩\", \"乎\", \"淫\", \"谦\", \"苍\", \"惴\", \"究\", \"役\", \"瑨\", \"毫\", \"重\", \"挠\", \"详\", \"抒\", \"犬\", \"骼\", \"除\", \"围\", \"烁\", \"际\", \"隆\", \"嘻\", \"姚\", \"箍\", \"容\", \"红\", \"惰\", \"砌\", \"藏\", \"涣\", \"破\", \"壳\", \"污\", \"年\", \"向\", \"决\", \"兄\", \"申\", \"举\", \"潇\", \"〞\", \"⑦\", \"炕\", \"纤\", \"饿\", \"登\", \"懊\", \"蔚\", \"比\", \"臊\", \"躇\", \"鞭\", \"徇\", \"近\", \"蜜\", \"溃\", \"曙\", \"险\", \"宅\", \"剂\", \"恒\", \"脆\", \"彰\", \"垢\", \"候\", \"豁\", \"统\", \"组\", \"叼\", \"畏\", \"道\", \"鄂\", \"蘑\", \"(\", \"县\", \"没\", \"恭\", \"凹\", \"孙\", \"窃\", \"阐\", \"沓\", \"补\", \"入\", \"起\", \"净\", \"茅\", \"铣\", \"衅\", \"灶\", \"迹\", \"绥\", \"椭\", \"缠\", \"闷\", \"蓝\", \"遥\", \"撩\", \"个\", \"每\", \"款\", \"岁\", \"食\", \"寒\", \"陵\", \"施\", \"液\", \"蕃\", \"薯\", \"诗\", \"浅\", \"棍\", \"翩\", \"吗\", \"澎\", \"象\", \"萃\", \"嘉\", \"枝\", \"禅\", \"樱\", \"拼\", \"韦\", \"倩\", \"担\", \"滨\", \"茄\", \"订\", \"佟\", \"段\", \"也\", \"风\", \"龙\", \"父\", \"搞\", \"覃\", \"羔\", \"评\", \"夥\", \"流\", \"r\", \"鹅\", \"礴\", \"鲨\", \"窥\", \"肆\", \"族\", \"蚀\", \"肤\", \"笛\", \"违\", \"留\", \"拖\", \"泄\", \"煎\", \"射\", \"赃\", \"你\", \"记\", \"五\", \"肇\", \"僧\", \"脉\", \"芮\", \"曳\", \"酬\", \"孩\", \"渊\", \"裁\", \"托\", \"贮\", \"兆\", \"血\", \"冠\", \"混\", \"垛\", \"载\", \"蔬\", \"财\", \"臭\", \"湖\", \"符\", \"校\", \"充\", \"孀\", \"喜\", \"蝌\", \"盛\", \"卉\", \"略\", \"旷\", \"韪\", \"恍\", \"陨\", \"创\", \"彼\", \"诈\", \"厄\", \"伺\", \"沧\", \"虐\", \"弧\", \"黝\", \"倍\", \"渤\", \"渲\", \"朋\", \"造\", \"茵\", \"殆\", \"澜\", \"吐\", \"併\", \"狐\", \"玻\", \"辈\", \"摄\", \"理\", \"畔\", \"珏\", \"盈\", \"猜\", \"⑩\", \"赂\", \"终\", \"臧\", \"赢\", \"乒\", \"辉\", \"挪\", \"慰\", \"\\u0005\", \"娅\", \"芝\", \"快\", \"勃\", \"斗\", \"伸\", \"针\", \"爬\", \"骤\", \"逶\", \"淀\", \"鸣\", \"丹\", \"且\", \"巨\", \"涡\", \"辑\", \"裔\", \"鲸\", \"叙\", \"爽\", \"状\", \"漱\", \"删\", \"洪\", \"胞\", \"沪\", \"努\", \"榜\", \"野\", \"饶\", \"铺\", \"此\", \"乖\", \"娘\", \"馁\", \"查\", \"挝\", \"饵\", \"冥\", \"瓢\", \"舟\", \"洽\", \"稍\", \"革\", \"铜\", \"粤\", \"熹\", \"回\", \"妆\", \".\", \"渗\", \"亟\", \"尽\", \"卤\", \"河\", \"『\", \"零\", \"逸\", \"言\", \"扫\", \"同\", \"限\", \"缔\", \"畜\", \"俪\", \"咸\", \"酸\", \"葫\", \"赏\", \"哄\", \"霖\", \"5\", \"整\", \"坤\", \"瑥\", \"予\", \"赠\", \"垄\", \"桂\", \"则\", \"秃\", \"磺\", \"乾\", \"才\", \"苣\", \"间\", \"璎\", \"为\", \"D\", \"御\", \"森\", \"黎\", \"吁\", \"授\", \"器\", \"昆\", \"媛\", \"兴\", \"肮\", \"摇\", \"喧\", \"晟\", \"姻\", \"彤\", \"藤\", \"桓\", \"珞\", \"驻\", \"呵\", \"待\", \"万\", \"缆\", \"染\", \"�\", \"睡\", \"粟\", \"在\", \"均\", \"铃\", \"冽\", \"胀\", \"⑨\", \"聊\", \"精\", \"剪\", \"赴\", \"累\", \"庇\", \"腔\", \"给\", \"怂\", \"径\", \"搡\", \"暂\", \"盲\", \"供\", \"童\", \"ό\", \"痹\", \"腊\", \"衫\", \"佣\", \"忌\", \"汉\", \"怡\", \"置\", \"照\", \"她\", \"救\", \"码\", \"池\", \"右\", \"沫\", \"翅\", \"拦\", \"美\", \"扣\", \"資\", \"厌\", \"枷\", \"扩\", \"狄\", \"畸\", \"莺\", \"萧\", \"颤\", \"睑\", \"盎\", \"婪\", \"末\", \"嫉\", \"踊\", \"仲\", \"妒\", \"篡\", \"麾\", \"耸\", \"榨\", \"贷\", \"粒\", \"突\", \"羽\", \"飓\", \"跌\", \"宰\", \"瘾\", \"咚\", \"亳\", \"犷\", \"攫\", \"四\", \"天\", \"袜\", \"遇\", \"娶\", \"递\", \"遁\", \"紧\", \"碾\", \"昌\", \"社\", \"喀\", \"尧\", \"撼\", \"借\", \"採\", \"械\", \"拂\", \"隐\", \"瞥\", \"怎\", \"仿\", \"碌\", \"畅\", \"勾\", \"荐\", \"耕\", \"碧\", \"疯\", \"银\", \"煤\", \"瞧\", \"锂\", \"恼\", \"者\", \"潮\", \"布\", \"猴\", \"急\", \"凸\", \"燎\", \"狈\", \"刺\", \"炫\", \"簧\", \"竭\", \"乔\", \"七\", \"扭\", \"面\", \"揪\", \"耶\", \"杀\", \"躺\", \"梗\", \"薄\", \"据\", \"脊\", \"榷\", \"闻\", \"图\", \"海\", \"―\", \"靡\", \"吃\", \"础\", \"凶\", \"缭\", \"散\", \"短\", \"庐\", \"糊\", \"课\", \"烂\", \"峡\", \"洁\", \"■\", \"缅\", \"额\", \"罢\", \"铎\", \"甬\", \"%\", \"滕\", \"呢\", \"根\", \"梅\", \"曾\", \"渠\", \"讼\", \"瞟\", \"哮\", \"疸\", \"闫\", \"瑜\", \"咒\", \"醉\", \"扛\", \"监\", \"枯\", \"枉\", \"鉴\", \"霈\", \"堵\", \"骚\", \"暗\", \"浮\", \"祛\", \"揭\", \"升\", \"雄\", \"外\", \"渥\", \"熔\", \"掌\", \"塔\", \"悄\", \"叠\", \"仓\", \"得\", \"落\", \"矣\", \"达\", \"岭\", \"喱\", \"苯\", \"枚\", \"进\", \"哀\", \"憨\", \"湛\", \"妻\", \"挥\", \"崖\", \"誉\", \"态\", \"篱\", \"舞\", \"长\", \"擎\", \"茎\", \"变\", \"尬\", \"琅\", \"胺\", \"俭\", \"喊\", \"凛\", \"凌\", \"丝\", \"莞\", \"蜷\", \"毁\", \"ヨ\", \"鹉\", \"厚\", \"册\", \"撰\", \"商\", \"怖\", \"展\", \"肴\", \"圭\", \"付\", \"萌\", \"苹\", \"吊\", \"沾\", \"部\", \"艋\", \"踢\", \"贬\", \"例\", \"壮\", \"穷\", \"疏\", \"瞬\", \"由\", \"別\", \"跳\", \"绪\", \"脱\", \"彦\", \"业\", \"迅\", \"哦\", \"办\", \"遑\", \"纯\", \"坏\", \"漓\", \"辛\", \"循\", \"秸\", \"巧\", \"湮\", \"勇\", \"』\", \"示\", \"楷\", \"爹\", \"躁\", \"鼓\", \"余\", \"圆\", \"凑\", \"轴\", \"锁\", \"桑\", \"养\", \"乡\", \"午\", \"⑧\", \"绸\", \"馒\", \"柄\", \"鄙\", \"鳞\", \"茉\", \"行\", \"障\", \"恰\", \"\", \"脯\", \"所\", \"筋\", \"是\", \"颌\", \"─\", \"联\", \"燃\", \"活\", \"肛\", \"月\", \"剑\", \"钵\", \"和\", \"沼\", \"癖\", \"种\", \"临\", \"呸\", \"仙\", \"类\", \"披\", \"接\", \"兜\", \"当\", \"话\", \"念\", \"仪\", \"惯\", \"栈\", \"咱\", \"即\", \"暹\", \"攥\", \"岸\", \"咦\", \"叫\", \"鞍\", \"盘\", \"谜\", \"爆\", \"昏\", \"焙\", \"建\", \"述\", \"②\", \"弯\", \"斋\", \"宝\", \"鑫\", \"痪\", \"湾\", \"宫\", \"菇\", \"殿\", \"敬\", \"人\", \"冒\", \"祖\", \"赔\", \"院\", \"咏\", \"徽\", \"姨\", \"磊\", \"沁\", \"职\", \"楔\", \"萝\", \"阑\", \"倜\", \"正\", \"掷\", \"伞\", \"橄\", \"宋\", \"咽\", \"耳\", \"题\", \"丛\", \"火\", \"伐\", \"啦\", \"肢\", \"壶\", \"绒\", \"0\", \"甸\", \"寰\", \"钧\", \"逞\", \"讪\", \"康\", \"涨\", \"骨\", \"蝉\", \"娴\", \"淋\", \"蝇\", \"这\", \"飙\", \"蚊\", \"宵\", \"坯\", \"弗\", \"猾\", \"户\", \"翻\", \"皱\", \"孟\", \"铄\", \"熊\", \"陡\", \"宗\", \"招\", \"慷\", \"历\", \"禁\", \"顶\", \"黏\", \"鹰\", \"晗\", \"赞\", \"嘛\", \"守\", \"遭\", \"广\", \"咖\", \"搅\", \"辨\", \"怪\", \"沐\", \"烘\", \"窿\", \"机\", \"陷\", \"屈\", \"启\", \"侠\", \"宏\", \"怯\", \"劑\", \"镏\", \"路\", \"雪\", \"颊\", \"桔\", \"疵\", \"倪\", \"濮\", \"传\", \"蛋\", \"灰\", \"筛\", \"诊\", \"彷\", \"护\", \"田\", \"芭\", \"懦\", \"瘠\", \"炖\", \"⒌\", \"募\", \"幢\", \"术\", \"t\", \"託\", \"偻\", \"芯\", \"铛\", \"劝\", \"织\", \"稻\", \"播\", \"误\", \"增\", \"簇\", \"拆\", \"恙\", \"巷\", \"杯\", \"⒂\", \"受\", \"然\", \"尘\", \"诱\", \"侧\", \"俊\", \"浇\", \"动\", \"绽\", \"兑\", \"稽\", \"式\", \"亲\", \"瓜\", \"璜\", \"铩\", \"而\", \"说\", \"疾\", \"》\", \"逝\", \"热\", \"瑰\", \"魂\", \"芳\", \"虽\", \"丘\", \"琛\", \")\", \"運\", \"竖\", \"阱\", \"沥\", \"遵\", \"摒\", \"攒\", \"洒\", \"匾\", \"椎\", \"够\", \"鹌\", \"磨\", \"敦\", \"戒\", \"抑\", \"標\", \"嘎\", \"刮\", \"搐\", \"棒\", \"牵\", \"坟\", \"蜂\", \"虑\", \"顺\", \"老\", \"摧\", \"炳\", \"技\", \"旎\", \"羊\", \"驾\", \"斩\", \"舀\", \"分\", \"廊\", \"价\", \"甩\", \"屌\", \"摊\", \"馋\", \"攀\", \"臀\", \"若\", \"兔\", \"奶\", \"谁\", \"~\", \"缓\", \"鬓\", \"存\", \"旖\", \"边\", \"叔\", \"鲍\", \"皙\", \"灸\", \"蔑\", \"售\", \"拥\", \"暑\", \"鳗\", \"婚\", \"墙\", \"萍\", \"旨\", \"杖\", \"茁\", \"芷\", \"区\", \"璨\", \"雷\", \"尉\", \"瘫\", \"大\", \"普\", \"援\", \"迟\", \"桶\", \"离\", \"倒\", \"禾\", \"郭\", \"粗\", \"霜\", \"袍\", \"滚\", \"健\", \"溢\", \"番\", \"豹\", \"忠\", \"博\", \"乙\", \"幸\", \"皑\", \"笨\", \"趾\", \"欧\", \"更\", \"挤\", \"悉\", \"扮\", \"宾\", \"睽\", \"©\", \"肃\", \"仄\", \"但\", \"愕\", \"皖\", \"冬\", \"吾\", \"凭\", \"啕\", \"璀\", \"摹\", \"枢\", \"梵\", \"霞\", \"遣\", \"袋\", \"赐\", \"掰\", \"涮\", \"徐\", \"煌\", \"么\", \"今\", \"脐\", \"绷\", \"煞\", \"炭\", \"竟\", \"报\", \"邱\", \"啃\", \"迩\", \"婆\", \"踹\", \"群\", \"愈\", \"世\", \"脚\", \"添\", \"脂\", \"滢\", \"点\", \"瘀\", \"随\", \"箱\", \"滤\", \"鲱\", \"超\", \"恕\", \"陌\", \"烹\", \"青\", \"雯\", \"专\", \"改\", \"溜\", \"梦\", \"槽\", \"耽\", \"榭\", \"夏\", \"咨\", \"戏\", \"嫌\", \"莓\", \"汽\", \"植\", \"祭\", \"一\", \"呜\", \"欸\", \"雾\", \"纸\", \"犰\", \"响\", \"睿\", \"心\", \"汕\", \"巡\", \"羹\", \"槐\", \"罄\", \"③\", \"写\", \"胸\", \"擅\", \"跋\", \"苇\", \"傍\", \"宽\", \"懈\", \"醛\", \"逼\", \"叹\", \"厢\", \"湿\", \"徳\", \"杂\", \"抵\", \"淌\", \"沦\", \"畿\", \"影\", \"浆\", \"艾\", \"N\", \"绑\", \"谨\", \"汪\", \"纬\", \"棘\", \"吠\", \"旗\", \"狮\", \"崇\", \"堕\", \"剧\", \"弃\", \"享\", \"耘\", \"咆\", \"敌\", \"刹\", \"眼\", \"胜\", \"击\", \"奥\", \"踵\", \"殊\", \"熟\", \"密\", \"荷\", \"先\", \"岐\", \"计\", \"筹\", \"穗\", \"坎\", \"殖\", \"荏\", \"诚\", \"樟\", \"储\", \"蜿\", \"痒\", \"渝\", \"缄\", \"摆\", \"锯\", \"宪\", \"匠\", \"梢\", \"疼\", \"偶\", \"诺\", \"星\", \"服\", \"←\", \"闵\", \"朴\", \"谓\", \"孵\", \"本\", \"赖\", \"街\", \"遴\", \"⒀\", \"带\", \"缺\", \"碴\", \"治\", \"瞎\", \"挡\", \"匀\", \"厮\", \"单\", \"债\", \"牢\", \"埃\", \"足\", \"浠\", \"寝\", \"原\", \"肩\", \"半\", \"齐\", \"漲\", \"娥\", \"辣\", \"按\", \"悼\", \"脑\", \"峨\", \"粽\", \"走\", \"仕\", \"悲\", \"媚\", \"伍\", \"灵\", \"跤\", \"円\", \"莹\", \"阿\", \"找\", \"の\", \"闯\", \"叮\", \"栋\", \"葵\", \"竣\", \"慎\", \"柬\", \"科\", \"喂\", \"奢\", \"傅\", \"就\", \"卿\", \"忑\", \"槛\", \"浚\", \"培\", \"姣\", \"颇\", \"於\", \"卫\", \"凉\", \"酪\", \"晒\", \"既\", \"奋\", \"观\", \"旅\", \"换\", \"诧\", \"骇\", \"朗\", \"片\", \"辖\", \"意\", \"审\", \"艘\", \"葡\", \"巫\", \"摞\", \"猎\", \"荡\", \"棠\", \"烊\", \"呻\", \"祀\", \"降\", \"飘\", \"阳\", \"踱\", \"媲\", \"飞\", \"漂\", \"姜\", \"里\", \"松\", \"!\", \"h\", \"妮\", \"~\", \"葩\", \"谆\", \"事\", \"导\", \"斌\", \"孕\", \"适\", \"元\", \"烙\", \"画\", \"哑\", \"苟\", \"歩\", \"依\", \"汇\", \"沙\", \"肺\", \"兢\", \"拧\", \"效\", \"滑\", \"困\", \"泛\", \"弟\", \"檐\", \"痕\", \"渴\", \"聪\", \"裹\", \"蚤\", \"较\", \"瘙\", \"?\", \"试\", \"犯\", \"跨\", \"猬\", \"欣\", \"損\", \"捉\", \"谚\", \"鹕\", \"唷\", \"验\", \"扎\", \"需\", \"慨\", \"惋\", \"玳\", \"龟\", \"嗔\", \"Ø\", \"嫁\", \"惶\", \"呈\", \"芒\", \"\\u0007\", \"黩\", \"鸦\", \"粉\", \"瑞\", \"权\", \"邵\", \"眯\", \"卜\", \"初\", \"拇\", \"啪\", \"莉\", \"贺\", \"躯\", \"燕\", \"罪\", \"隘\", \"楂\", \"崎\", \"诙\", \"厂\", \"吸\", \"糟\", \"茸\", \"炉\", \"止\", \"噢\", \"法\", \"琼\", \"哎\", \"赚\", \"屡\", \"屿\", \"柿\", \"麻\", \"谈\", \"羞\", \"粥\", \"蒿\", \"瞠\", \"戈\", \"郡\", \"岌\", \"翰\", \"\", \"吧\", \"痴\", \"维\", \"俗\", \"沸\", \"勺\", \"练\", \"演\", \"泡\", \"吓\", \"扳\", \"全\", \"构\", \"甯\", \"素\", \"震\", \"菩\", \"酌\", \"其\", \"忡\", \"膝\", \"缸\", \"隧\", \"柠\", \"飕\", \"颜\", \"倦\", \"壤\", \"俯\", \"崛\", \"祈\", \"跟\", \"疚\", \"螃\", \"劲\", \"奚\", \"茶\", \"蚂\", \"悔\", \"墅\", \"界\", \"靠\", \"檬\", \"厥\", \"肘\", \"烯\", \"脖\", \"董\", \"ソ\", \"嵘\", \"坞\", \"臼\", \"谑\", \"学\", \"搭\", \"穴\", \"干\", \"诩\", \"靴\", \"妈\", \"住\", \"蒙\", \"立\", \"采\", \"疹\", \"钮\", \"虾\", \"饨\", \"粕\", \"泊\", \"鬣\", \"蜃\", \"翁\", \"偏\", \"频\", \"雍\", \"纪\", \"睬\", \"熬\", \"抱\", \"霍\", \"揉\", \"陕\", \"妄\", \"螂\", \"馄\", \"揖\", \"涅\", \"子\", \"帕\", \"侦\", \"棣\", \"篓\", \"毯\", \"序\", \"砾\", \"始\", \"怒\", \"齿\", \"ト\", \"唏\", \"・\", \"灯\", \"冲\", \"王\", \"完\", \"扒\", \"作\", \"我\", \"知\", \"聿\", \"俘\", \"琶\", \"唆\", \"裂\", \"拣\", \"疤\", \"气\", \"恨\", \"挽\", \"算\", \"內\", \"腭\", \"眷\", \"聋\", \"砍\", \"抹\", \"颁\", \"腱\", \"觅\", \"逻\", \"箔\", \"讨\", \"髓\", \"逃\", \"庶\", \"指\", \"预\", \"祉\", \"蝶\", \"休\", \"辗\", \"钊\", \"墉\", \"绚\", \"柳\", \"巅\", \"孱\", \"景\", \"勤\", \"裆\", \"吻\", \"模\", \"颐\", \"惘\", \"鹦\", \"束\", \"窗\", \"押\", \"合\", \"拉\", \"懒\", \"耐\", \"译\", \"屠\", \"携\", \"轮\", \"议\", \"欠\", \"吝\", \"暖\", \"喘\", \"歧\", \"娄\", \"弈\", \"横\", \"屎\", \"漫\", \"碎\", \"排\", \"涌\", \"唯\", \"闺\", \"附\", \"熄\", \"贵\", \"桐\", \"倘\", \"沛\", \"睫\", \"已\", \"帷\", \"懵\", \"價\", \"锏\", \"碑\", \"貌\", \"锤\", \"谊\", \"顷\", \"琪\", \"1\", \"允\", \"探\", \"域\", \"扪\", \"茱\", \"俩\", \"伉\", \"籍\", \"悚\", \"哉\", \"教\", \"缩\", \"蹦\", \"蜘\", \"袭\", \"告\", \"壓\", \"透\", \"眨\", \"距\", \"阅\", \"烬\", \"奈\", \"想\", \"樯\", \"彗\", \"称\", \"侨\", \"咐\", \"泥\", \"炊\", \"停\", \"策\", \"撬\", \"粱\", \"辕\", \"谛\", \"浴\", \"提\", \"房\", \"楼\", \"荒\", \"仗\", \"ノ\", \"贞\", \"颗\", \"坛\", \"尼\", \"吩\", \"剔\", \"锄\", \"墓\", \"马\", \"轰\", \"似\", \"勋\", \"阽\", \"唐\", \"辱\", \"夭\", \"邀\", \"腕\", \"邋\", \"瑑\", \"牡\", \"橙\", \"嘣\", \"盆\", \"检\", \"翌\", \"诶\", \"线\", \"瀛\", \"央\", \"菁\", \"捡\", \"逮\", \"竿\", \"屁\", \"绘\", \"胃\", \"速\", \"趟\", \"杉\", \"狼\", \"祟\", \"绳\", \"缮\", \"剩\", \"架\", \"冻\", \"吵\", \"馨\", \"笆\", \"牌\", \"逐\", \"跑\", \"捅\", \"忪\", \"滓\", \"辽\", \"邯\", \"舍\", \"份\", \"失\", \"辰\", \"编\", \"第\", \"骂\", \"默\", \"滇\", \"逢\", \"刃\", \"旁\", \"盐\", \"旳\", \"捆\", \"转\", \"位\", \"豌\", \"格\", \"郅\", \"百\", \"灭\", \"馕\", \"井\", \"倚\", \"梨\", \"潜\", \"撷\", \"莫\", \"避\", \"株\", \"咕\", \"爰\", \"霓\", \"凯\", \"寐\", \"荟\", \"匈\", \"久\", \"伏\", \"吉\", \"町\", \"昊\", \"企\", \"反\", \"聆\", \"满\", \"蹴\", \"屑\", \"杨\", \"士\", \"拢\", \"扁\", \"轶\", \"宸\", \"怨\", \"杏\", \"钢\", \"碳\", \"饭\", \"苦\", \"读\", \"薪\", \"蓉\", \"赎\", \"坚\", \"2\", \"吞\", \"毎\", \"泉\", \"e\", \"函\", \"化\", \"耿\", \"\\u0000\", \"磅\", \"料\", \"胖\", \"馍\", \"旭\", \"贫\", \"张\", \"芽\", \"玩\", \"伦\", \"褪\", \"灼\", \"诲\", \"性\", \"尖\", \"骸\", \"邬\", \"魏\", \"囤\", \"窍\", \"认\", \"水\", \"甲\", \"⒁\", \"吼\", \"蛮\", \"璃\", \"杜\", \"拨\", \"拓\", \"糕\", \"咔\", \"埔\", \"史\", \"规\", \"傻\", \"皈\", \"猡\", \"蟹\", \"疮\", \"胶\", \"催\", \"咋\", \"泱\", \"捺\", \"实\", \"窦\", \"凿\", \"兼\", \"擘\", \"鹜\", \"浑\", \"砖\", \"腑\", \"丧\", \"虱\", \"匆\", \"涸\", \"員\", \"诠\", \"巳\", \"鄯\", \"歼\", \"金\", \"抖\", \"\", \"疗\", \"繁\", \"峰\", \"裳\", \"淡\", \"汹\", \"庚\", \"V\", \"腻\", \"迦\", \"惊\", \"纱\", \"释\", \"谩\", \"难\", \"丁\", \"球\", \"迁\", \"妤\", \"/\", \"卑\", \"莲\", \"娃\", \"牙\", \"诅\", \"静\", \"佰\", \"研\", \"瑕\", \"晶\", \"估\", \"药\", \"壑\", \"皆\", \"摘\", \"罗\", \"低\", \"拘\", \"城\", \"锲\", \":\", \"髻\", \"榻\", \"胁\", \"妙\", \"扼\", \"α\", \"郊\", \"厘\", \"曼\", \"侍\", \"籽\", \"旬\", \"见\", \"牠\", \"郁\", \",\", \"茜\", \"戸\", \"龚\", \"著\", \"廓\", \"词\", \"贾\", \"啤\", \"蓄\", \"舐\", \"纨\", \"尤\", \"参\", \"会\", \"谔\", \"篢\", \"矫\", \"被\", \"忐\", \"庭\", \"涝\", \"匿\", \"双\", \"英\", \"豪\", \"岛\", \"吨\", \"光\", \"\", \"损\", \"缝\", \"顾\", \"委\", \"疆\", \"乓\", \"、\", \"敞\", \"剐\", \"⑴\", \"湘\", \"柑\", \"悠\", \"经\", \"谋\", \"憧\", \"剁\", \"後\", \"三\", \"淑\", \"咙\", \"仇\", \"屋\", \"缀\", \"腾\", \"惚\", \"板\", \"胰\", \"岩\", \"霏\", \"任\", \"饱\", \"答\", \"俑\", \"系\", \"娑\", \"涯\", \"⒋\", \"峥\", \"描\", \"索\", \"瀑\", \"吹\", \"神\", \"丫\", \"i\", \"3\", \"底\", \"弱\", \"婶\", \"抡\", \"茫\", \"站\", \"旦\", \"促\", \"配\", \"固\", \"抓\", \"芜\", \"偎\", \"襟\", \"形\", \"镇\", \"拗\", \"渔\", \"汝\", \"往\", \"報\", \"准\", \"阔\", \"砂\", \"弩\", \"项\", \"弦\", \"棱\", \"冰\", \"搏\", \"悬\", \"武\", \"呦\", \"ズ\", \"猛\", \"淳\", \"永\", \"汩\", \"狠\", \"逛\", \"焕\", \"宣\", \"镉\", \"戾\", \"旆\", \"践\", \"确\", \"A\", \"唠\", \"切\", \"瓶\", \"锡\", \"铝\", \"篮\", \"栾\", \"垂\", \"碰\", \"坪\", \"秘\", \"握\", \"皂\", \"些\", \"昵\", \"耩\", \"宠\", \"夜\", \"远\", \"瀚\", \"连\", \"识\", \"掳\", \"囚\", \"古\", \"云\", \"藉\", \"朔\", \"署\", \"膏\", \"甚\", \"蠢\", \"シ\", \"橘\", \"琳\", \"骄\", \"漩\", \"塑\", \"郎\", \"犄\", \"差\", \"腋\", \"太\", \"块\", \"免\", \"伊\", \"掩\", \"岔\", \"伴\", \"埋\", \"糖\", \"疙\", \"曦\", \"栓\", \"断\", \"擀\", \"修\", \"※\", \"孤\", \"岱\", \"级\", \"体\", \"烈\", \"兹\", \"陋\", \"〗\", \"铨\", \"悖\", \"薩\", \"寓\", \"仑\", \"千\", \"酿\", \"源\", \"璇\", \"侄\", \"印\", \"赁\", \"履\", \"阜\", \"伽\", \"车\", \"牖\", \"侵\", \"玫\", \"凋\", \"日\", \"妨\", \"茏\", \"二\", \"轼\", \"槿\", \"掂\", \"穰\", \"槃\", \"黢\", \"团\", \"叶\", \"蹊\", \"拎\", \"争\", \"注\", \"牧\", \"让\", \"鸥\", \"烫\", \"班\", \"祢\", \"俺\", \"的\", \"啜\", \"朦\", \"薰\", \"莴\", \"狗\", \"触\", \"溺\", \"姊\", \"9\", \"氛\", \"彙\", \"顽\", \"息\", \"移\", \"骅\", \"旧\", \"花\", \"销\", \"哥\", \"少\", \"劣\", \"盗\", \"香\", \"措\", \"娇\", \"秤\", \"几\", \"汀\", \"钻\", \"范\", \"用\", \"彪\", \"盖\", \"肠\", \"勿\", \"珍\", \"邦\", \"敲\", \"噌\", \"捍\", \"邹\", \"犀\", \"醒\", \"麓\", \"勖\", \"力\", \"辩\", \"蚯\", \"糯\", \"骗\", \"姬\", \"稀\", \"\\b\", \"燥\", \"垃\", \"遢\", \"结\", \"嚣\", \"都\", \"唤\", \"疲\", \"噩\", \"戢\", \"阮\", \"炼\", \"轿\", \"斜\", \"帽\", \"视\", \"将\", \"米\", \"鳌\", \"楚\", \"呛\", \"柚\", \"诫\", \"氨\", \"嫩\", \"好\", \"鸠\", \"珊\", \"骆\", \"北\", \"逗\", \"・\", \"裕\", \"蔷\", \"抚\", \"减\", \"堡\", \"烤\", \"凝\", \"凤\", \"刁\", \"咎\", \"骁\", \"激\", \"覆\", \"漉\", \"败\", \"泳\", \"貂\", \"备\", \"翔\", \"秀\", \"狭\", \"π\", \"沽\", \"劫\", \"虏\", \"兮\", \"去\", \"氏\", \"哟\", \"晖\", \"裴\", \"尾\", \"滥\", \"电\", \"闪\", \"讶\", \"逍\", \"越\", \"動\", \"噱\", \"寸\", \"氢\", \"安\", \"栽\", \"→\", \"苑\", \"绍\", \"浊\", \"娛\", \"括\", \"煲\", \"柘\", \"献\", \"非\", \"功\", \"咪\", \"葛\", \"哺\", \"仁\", \"磁\", \"肓\", \"袱\", \"油\", \"暨\", \"身\", \"4\", \"泯\", \"舱\", \"霉\", \"跚\", \"炅\", \"麟\", \"胆\", \"乱\", \"迈\", \"罩\", \"宙\", \"苗\", \"园\", \"泾\", \"厉\", \"吏\", \"址\", \"庄\", \"癌\", \"挨\", \"平\", \"录\", \"姥\", \"礁\", \"头\", \"歌\", \"强\", \"邮\", \"咯\", \"锌\", \"譬\", \"馈\", \"皿\", \"晚\", \"羡\", \"尴\", \"漠\", \"溶\", \"\", \"们\", \"什\", \"手\", \"谀\", \"迄\", \"昧\", \"摔\", \"遂\", \"盼\", \"易\", \"奔\", \"網\", \"洲\", \"匮\", \"裤\", \"酥\", \"费\", \"↑\", \"缚\", \"呷\", \"扇\", \"笼\", \"砺\", \"朱\", \"肯\", \"恃\", \"泸\", \"陛\", \"伫\", \"o\", \"玲\", \"打\", \"孝\", \"眶\", \"浙\", \"奴\", \"颈\", \"像\", \"汰\", \"蓬\", \"件\", \"诃\", \"鱼\", \"怜\", \"饼\", \"纲\", \"掘\", \"藕\", \"罐\", \"碗\", \"占\", \"贱\", \"堂\", \"惫\", \"垒\", \"材\", \"惕\", \"馆\", \"亵\", \"裸\", \"缈\", \"京\", \"楞\", \"隙\", \"上\", \"惦\", \"晴\", \"苛\", \"寇\", \"敢\", \"波\", \"讲\", \"扰\", \"⑤\", \"抽\", \"荤\", \"锚\", \"忙\", \"木\", \"慕\", \"魔\", \"耦\", \"贸\", \"蚪\", \"穹\", \"宛\", \"耻\", \"荣\", \"君\", \"蓟\", \"铮\", \"敖\", \"褚\", \"漏\", \"妓\", \"隶\", \"婿\", \"物\", \"弄\", \"俄\", \"腹\", \"​\", \"屉\", \"靛\", \"逅\", \"嗅\", \"高\", \"褐\", \"忽\", \"阎\", \"黔\", \"步\", \"俱\", \"仅\", \"膊\", \"蟋\", \"亮\", \"产\", \"绎\", \"晦\", \"醇\", \"忘\", \"為\", \"肾\", \"髦\", \"嗡\", \"嗪\", \"磕\", \"陈\", \"洋\", \"崽\", \"惮\", \"诣\", \"逾\", \"姿\", \"芙\", \"萎\", \"廉\", \"墨\", \"淘\", \"悴\", \"爪\", \"恶\", \"温\", \"嫖\", \"标\", \"栗\", \"毕\", \"瞒\", \"毡\", \"雌\", \"口\", \"攘\", \"琴\", \"撸\", \"刚\", \"洗\", \"躬\", \"雁\", \"搀\", \"获\", \"喷\", \"驶\", \"关\", \"娩\", \"狡\", \"应\", \"溯\", \"返\", \"互\", \"壕\", \"内\", \"剖\", \"叭\", \"鹃\", \"场\", \"茨\", \"草\", \"7\", \"堤\", \"韧\", \"树\", \"条\", \"装\", \"瓣\", \"刷\", \"坂\", \"刀\", \"帝\", \"慢\", \"闲\", \"萄\", \"摸\", \"呐\", \"该\", \"蹲\", \"窟\", \"鹭\", \"倡\", \"篇\", \"缕\"]", + "lossless": false + }, + "lmsys/fastchat-t5-3b-v1.0 @ cc100/fr": { + "tokenizer": "fastchat-t5-3b-v1.0", + "organization": "LMSYS", + "vocab_size": 32110, + "_n_bytes": 1540504, + "_n_tokens": 707675, + "_n_chars": 1484970, + "_n_oov_chars": 1363, + "oov_ratio": 0.0009178636605453309, + "_oov_charset": "[\"̂\", \"ğ\", \"̧\", \"™\", \"́\", \"😉\", \"Ç\", \"❤\", \"§\", \"℃\", \"…\", \"œ\", \"―\", \"�\", \"★\", \"Ô\", \"😀\", \"″\", \"È\", \"ë\", \"♕\", \"ï\", \"Ê\", \"²\", \"´\", \"🙂\", \"·\", \"~\", \"Â\", \"ã\", \"’\", \"À\", \"←\", \"🤔\", \"♠\", \"µ\", \"…\", \"‐\", \"í\"]", + "lossless": false + }, + "lmsys/fastchat-t5-3b-v1.0 @ cc100/es": { + "tokenizer": "fastchat-t5-3b-v1.0", + "organization": "LMSYS", + "vocab_size": 32110, + "_n_bytes": 1664455, + "_n_tokens": 960105, + "_n_chars": 1630297, + "_n_oov_chars": 11584, + "oov_ratio": 0.007105453791548411, + "_oov_charset": "[\"→\", \"\", \"¿\", \"¡\", \"😉\", \"😦\", \"❤\", \"Á\", \"✖\", \"👏\", \"―\", \"×\", \"😀\", \"″\", \"ø\", \"■\", \"🙁\", \"©\", \"²\", \"Ú\", \"ò\", \"´\", \"✔\", \"🙂\", \"·\", \"Ñ\", \"Ó\", \"️\", \"ª\", \"ñ\", \"ý\", \"’\", \"М\", \"▷\", \"←\", \"ú\", \"„\", \"👍\", \"…\", \"✓\", \"í\", \"º\", \"✪\", \"‘\", \"Í\"]", + "lossless": false + }, + "microsoft/Phi-3-mini-4k-instruct @ cc100/en": { + "tokenizer": "Phi-3-mini-4k-instruct", + "organization": "Microsoft", + "vocab_size": 32011, + "_n_bytes": 1124813, + "_n_tokens": 284627, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "microsoft/Phi-3-mini-4k-instruct @ cc100/zh-Hans": { + "tokenizer": "Phi-3-mini-4k-instruct", + "organization": "Microsoft", + "vocab_size": 32011, + "_n_bytes": 2633047, + "_n_tokens": 1320093, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "microsoft/Phi-3-mini-4k-instruct @ cc100/fr": { + "tokenizer": "Phi-3-mini-4k-instruct", + "organization": "Microsoft", + "vocab_size": 32011, + "_n_bytes": 1540504, + "_n_tokens": 447243, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "microsoft/Phi-3-mini-4k-instruct @ cc100/es": { + "tokenizer": "Phi-3-mini-4k-instruct", + "organization": "Microsoft", + "vocab_size": 32011, + "_n_bytes": 1664455, + "_n_tokens": 482235, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "microsoft/phi-1 @ cc100/en": { + "tokenizer": "phi-1", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1124813, + "_n_tokens": 258409, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-1 @ cc100/zh-Hans": { + "tokenizer": "phi-1", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 2633047, + "_n_tokens": 1876809, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-1 @ cc100/fr": { + "tokenizer": "phi-1", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1540504, + "_n_tokens": 521776, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-1 @ cc100/es": { + "tokenizer": "phi-1", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1664455, + "_n_tokens": 569853, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-2 @ cc100/en": { + "tokenizer": "phi-2", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1124813, + "_n_tokens": 258409, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-2 @ cc100/zh-Hans": { + "tokenizer": "phi-2", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 2633047, + "_n_tokens": 1876809, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-2 @ cc100/fr": { + "tokenizer": "phi-2", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1540504, + "_n_tokens": 521776, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "microsoft/phi-2 @ cc100/es": { + "tokenizer": "phi-2", + "organization": "Microsoft", + "vocab_size": 50295, + "_n_bytes": 1664455, + "_n_tokens": 569853, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "mistralai/Mistral-7B-v0.1 @ cc100/en": { + "tokenizer": "Mistral-7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 275801, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mistral-7B-v0.1 @ cc100/zh-Hans": { + "tokenizer": "Mistral-7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1031023, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mistral-7B-v0.1 @ cc100/fr": { + "tokenizer": "Mistral-7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 466666, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mistral-7B-v0.1 @ cc100/es": { + "tokenizer": "Mistral-7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 503915, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mixtral-8x7B-v0.1 @ cc100/en": { + "tokenizer": "Mixtral-8x7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 275801, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mixtral-8x7B-v0.1 @ cc100/zh-Hans": { + "tokenizer": "Mixtral-8x7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 1031023, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mixtral-8x7B-v0.1 @ cc100/fr": { + "tokenizer": "Mixtral-8x7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 466666, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "mistralai/Mixtral-8x7B-v0.1 @ cc100/es": { + "tokenizer": "Mixtral-8x7B-v0.1", + "organization": "Mistral", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 503915, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai-community/gpt2 @ cc100/en": { + "tokenizer": "gpt2", + "organization": "OpenAI", + "vocab_size": 50257, + "_n_bytes": 1124813, + "_n_tokens": 258428, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "openai-community/gpt2 @ cc100/zh-Hans": { + "tokenizer": "gpt2", + "organization": "OpenAI", + "vocab_size": 50257, + "_n_bytes": 2633047, + "_n_tokens": 1876809, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "openai-community/gpt2 @ cc100/fr": { + "tokenizer": "gpt2", + "organization": "OpenAI", + "vocab_size": 50257, + "_n_bytes": 1540504, + "_n_tokens": 521776, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "openai-community/gpt2 @ cc100/es": { + "tokenizer": "gpt2", + "organization": "OpenAI", + "vocab_size": 50257, + "_n_bytes": 1664455, + "_n_tokens": 569853, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "openai/code-davinci-002 @ cc100/en": { + "tokenizer": "code-davinci-002", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1124813, + "_n_tokens": 258403, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/code-davinci-002 @ cc100/zh-Hans": { + "tokenizer": "code-davinci-002", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 2633047, + "_n_tokens": 1876809, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/code-davinci-002 @ cc100/fr": { + "tokenizer": "code-davinci-002", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1540504, + "_n_tokens": 521776, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/code-davinci-002 @ cc100/es": { + "tokenizer": "code-davinci-002", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1664455, + "_n_tokens": 569853, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-3.5-turbo @ cc100/en": { + "tokenizer": "gpt-3.5-turbo", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1124813, + "_n_tokens": 254985, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-3.5-turbo @ cc100/zh-Hans": { + "tokenizer": "gpt-3.5-turbo", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 2633047, + "_n_tokens": 1084939, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-3.5-turbo @ cc100/fr": { + "tokenizer": "gpt-3.5-turbo", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1540504, + "_n_tokens": 412685, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-3.5-turbo @ cc100/es": { + "tokenizer": "gpt-3.5-turbo", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1664455, + "_n_tokens": 433875, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4 @ cc100/en": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1124813, + "_n_tokens": 254985, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4 @ cc100/zh-Hans": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 2633047, + "_n_tokens": 1084939, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4 @ cc100/fr": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1540504, + "_n_tokens": 412685, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4 @ cc100/es": { + "tokenizer": "gpt-4", + "organization": "OpenAI", + "vocab_size": 100277, + "_n_bytes": 1664455, + "_n_tokens": 433875, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4o @ cc100/en": { + "tokenizer": "gpt-4o", + "organization": "OpenAI", + "vocab_size": 200019, + "_n_bytes": 1124813, + "_n_tokens": 251655, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4o @ cc100/zh-Hans": { + "tokenizer": "gpt-4o", + "organization": "OpenAI", + "vocab_size": 200019, + "_n_bytes": 2633047, + "_n_tokens": 707171, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4o @ cc100/fr": { + "tokenizer": "gpt-4o", + "organization": "OpenAI", + "vocab_size": 200019, + "_n_bytes": 1540504, + "_n_tokens": 353101, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/gpt-4o @ cc100/es": { + "tokenizer": "gpt-4o", + "organization": "OpenAI", + "vocab_size": 200019, + "_n_bytes": 1664455, + "_n_tokens": 367655, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/text-davinci-003 @ cc100/en": { + "tokenizer": "text-davinci-003", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1124813, + "_n_tokens": 258403, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/text-davinci-003 @ cc100/zh-Hans": { + "tokenizer": "text-davinci-003", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 2633047, + "_n_tokens": 1876809, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/text-davinci-003 @ cc100/fr": { + "tokenizer": "text-davinci-003", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1540504, + "_n_tokens": 521776, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "openai/text-davinci-003 @ cc100/es": { + "tokenizer": "text-davinci-003", + "organization": "OpenAI", + "vocab_size": 50281, + "_n_bytes": 1664455, + "_n_tokens": 569853, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": true + }, + "paust/pko-t5-large @ cc100/en": { + "tokenizer": "pko-t5-large", + "organization": "PAUST", + "vocab_size": 50358, + "_n_bytes": 1124813, + "_n_tokens": 648985, + "_n_chars": 1121360, + "_n_oov_chars": 59, + "oov_ratio": 5.261468217164871e-05, + "_oov_charset": "[\"③\", \"⑧\", \"⑩\", \"…\", \"⑦\", \"⑤\", \"´\", \"‑\"]", + "lossless": false + }, + "paust/pko-t5-large @ cc100/zh-Hans": { + "tokenizer": "pko-t5-large", + "organization": "PAUST", + "vocab_size": 50358, + "_n_bytes": 2633047, + "_n_tokens": 2523519, + "_n_chars": 927311, + "_n_oov_chars": 49165, + "oov_ratio": 0.053018890102673216, + "_oov_charset": "[\" \", \"t\", \"8\", \"-\", \"/\", \"1\", \"⒃\", \"℃\", \"④\", \"C\", \"②\", \"⒁\", \"⒂\", \"4\", \"]\", \";\", \"d\", \"⑴\", \"r\", \"⑥\", \"o\", \""\", \".\", \"6\", \"A\", \"&\", \"⑶\", \"⑨\", \"~\", \"9\", \"(\", \"・\", \"!\", \"③\", \"⑸\", \"%\", \"⑧\", \"h\", \":\", \"⒋\", \"s\", \"5\", \"⑿\", \"⑩\", \"⑷\", \"i\", \"T\", \"7\", \"[\", \"3\", \",\", \"①\", \" \", \"_\", \"0\", \"2\", \"N\", \"p\", \")\", \"D\", \"+\", \"…\", \"V\", \"n\", \"⑤\", \"e\", \"a\", \"⑦\", \"⒌\", \"⒀\", \"?\"]", + "lossless": false + }, + "paust/pko-t5-large @ cc100/fr": { + "tokenizer": "pko-t5-large", + "organization": "PAUST", + "vocab_size": 50358, + "_n_bytes": 1540504, + "_n_tokens": 1034665, + "_n_chars": 1484970, + "_n_oov_chars": 833, + "oov_ratio": 0.0005609540933486872, + "_oov_charset": "[\"″\", \"™\", \"µ\", \"…\", \"²\", \"℃\", \"´\"]", + "lossless": false + }, + "paust/pko-t5-large @ cc100/es": { + "tokenizer": "pko-t5-large", + "organization": "PAUST", + "vocab_size": 50358, + "_n_bytes": 1664455, + "_n_tokens": 1124056, + "_n_chars": 1630297, + "_n_oov_chars": 528, + "oov_ratio": 0.0003238673689517922, + "_oov_charset": "[\"″\", \"²\", \"…\", \"ª\", \"º\", \"´\"]", + "lossless": false + }, + "rinna/bilingual-gpt-neox-4b @ cc100/en": { + "tokenizer": "bilingual-gpt-neox-4b", + "organization": "ABEJA", + "vocab_size": 65536, + "_n_bytes": 1124813, + "_n_tokens": 493077, + "_n_chars": 1121360, + "_n_oov_chars": 77, + "oov_ratio": 6.866661910537205e-05, + "_oov_charset": "[\"③\", \"🙂\", \"⑧\", \"\", \"😥\", \"😉\", \"”\", \"​\", \"⑩\", \"…\", \"⑦\", \"⑤\", \"´\", \"\", \"‑\", \"“\"]", + "lossless": false + }, + "rinna/bilingual-gpt-neox-4b @ cc100/zh-Hans": { + "tokenizer": "bilingual-gpt-neox-4b", + "organization": "ABEJA", + "vocab_size": 65536, + "_n_bytes": 2633047, + "_n_tokens": 839588, + "_n_chars": 927311, + "_n_oov_chars": 104246, + "oov_ratio": 0.1124175168848423, + "_oov_charset": "[\"恳\", \"艳\", \"蒂\", \"贡\", \"阂\", \"祸\", \"藐\", \"抬\", \"蛔\", \"浞\", \"氮\", \"蓦\", \"岖\", \"骛\", \"⒃\", \"揍\", \"粪\", \"℃\", \"霭\", \"辆\", \"颖\", \"阵\", \"胳\", \"缜\", \"绞\", \"买\", \"鸟\", \"倾\", \"n\", \"敛\", \"撕\", \"挎\", \"暧\", \"镐\", \"锥\", \"戛\", \"栅\", \"巩\", \"埂\", \"娱\", \"蕴\", \"赅\", \"溅\", \"\", \"泻\", \"纺\", \"狰\", \"歉\", \"a\", \"纹\", \"耍\", \"绣\", \"庞\", \"膛\", \"镶\", \"伙\", \"魇\", \"骑\", \"颉\", \"姗\", \"钦\", \"哒\", \"嘭\", \"赋\", \"怵\", \"须\", \"\", \"谭\", \"锐\", \"饥\", \"桢\", \"帅\", \"谧\", \"犟\", \"噼\", \"晕\", \"侬\", \"僵\", \"锣\", \"稣\", \"聒\", \"睁\", \"帐\", \"亏\", \"抢\", \"呗\", \"锈\", \"韵\", \"岣\", \"T\", \"驿\", \"瑒\", \"瘦\", \"锅\", \"羁\", \"讳\", \"渍\", \"鲜\", \"辐\", \"揽\", \"黧\", \"懑\", \"谍\", \"谅\", \"衬\", \"抿\", \"⑥\", \"偷\", \"篷\", \"踌\", \"邓\", \"蹒\", \"纷\", \"瞄\", \"桩\", \"叨\", \"澡\", \"萤\", \"鲎\", \"淖\", \"吱\", \"汛\", \"仆\", \"嘤\", \"韬\", \"拽\", \"呕\", \"讥\", \"绰\", \"癫\", \"尝\", \"讽\", \"盏\", \"涩\", \"狱\", \"p\", \"扯\", \"硕\", \"聂\", \"蕤\", \"矍\", \"粼\", \"舔\", \"鸿\", \"鲤\", \"闸\", \"贼\", \"⑸\", \"锢\", \"蹭\", \"蔼\", \"烛\", \"轩\", \"焯\", \"遗\", \"蚁\", \"钰\", \"痫\", \"肿\", \"帘\", \"饽\", \"懂\", \"垮\", \"纽\", \"淅\", \"荧\", \"阴\", \"觑\", \"嘟\", \"迤\", \"铤\", \"辙\", \"脸\", \"⑿\", \"峭\", \"秆\", \"抨\", \"碱\", \"絮\", \"筷\", \"纠\", \"凳\", \"蚓\", \"岂\", \"纾\", \"媳\", \"佝\", \"麽\", \"翕\", \"暄\", \"莅\", \"亿\", \"笋\", \"苒\", \"捞\", \"闾\", \"训\", \"胫\", \"滩\", \"惬\", \"橱\", \"唉\", \"钉\", \"屣\", \"唬\", \"绊\", \"掺\", \"脏\", \"楣\", \"听\", \"嗨\", \"钥\", \"翘\", \"吮\", \"钓\", \"严\", \"嘈\", \"嗦\", \"帮\", \"驼\", \"侣\", \"C\", \"卻\", \"臃\", \"骰\", \"钝\", \"籁\", \"郸\", \"饰\", \"缴\", \"冯\", \"逊\", \"郜\", \"…\", \"吕\", \"缥\", \"炝\", \"缪\", \"-\", \"舰\", \"矶\", \"翱\", \"镀\", \"擞\", \"跃\", \"芃\", \"驰\", \"彻\", \"噬\", \"憋\", \"敝\", \"裙\", \"丐\", \"驮\", \"遛\", \"贤\", \"畴\", \"扑\", \"俏\", \"蓁\", \"喽\", \"绝\", \"涉\", \"跻\", \"灾\", \"佘\", \"趴\", \"婊\", \"赣\", \"酱\", \"柜\", \"爷\", \"泼\", \"棂\", \"讷\", \"瞪\", \"铂\", \"币\", \"啡\", \"挲\", \"撐\", \"硅\", \"诡\", \"靓\", \"镍\", \"鹈\", \"卧\", \""\", \"贪\", \"俞\", \"荫\", \"坷\", \"跷\", \"袒\", \"榄\", \"搁\", \"赡\", \"货\", \"缘\", \"+\", \"冈\", \"棵\", \"獗\", \"倨\", \"驱\", \"雏\", \"荆\", \"负\", \"扬\", \"铸\", \"猝\", \"劳\", \"飚\", \"啐\", \"驴\", \"痊\", \"吆\", \"掐\", \"哧\", \"奂\", \"邻\", \"怔\", \"纰\", \"墒\", \"绩\", \"鸭\", \"罚\", \"笔\", \"镳\", \"挣\", \"惩\", \"钜\", \"竞\", \"挚\", \"愤\", \"靶\", \"诞\", \"瞅\", \"馏\", \"⑶\", \"瞩\", \"呃\", \"卢\", \"浓\", \"谬\", \"⑷\", \"辅\", \"赶\", \"诬\", \"玮\", \"诨\", \"刨\", \"喻\", \"蟀\", \"慑\", \"俨\", \"忧\", \"]\", \"鼯\", \"嗯\", \"鹤\", \"&\", \"晾\", \"猖\", \"龄\", \"鸽\", \"趁\", \"\\u0006\", \"废\", \"茧\", \"夹\", \"s\", \"帜\", \"镑\", \"褂\", \"淼\", \"浏\", \"谎\", \"〖\", \"狞\", \"绉\", \"漪\", \"润\", \"泵\", \"踩\", \"轻\", \"谱\", \"锻\", \"湄\", \"扔\", \"舆\", \"颓\", \"挈\", \"掀\", \"辫\", \"撇\", \"桌\", \"栏\", \"鹑\", \"醋\", \"灑\", \"烧\", \"ㄓ\", \"屄\", \"挖\", \"氧\", \"圾\", \"瑧\", \"赘\", \"渐\", \"黯\", \"湃\", \"焊\", \"蜕\", \"萨\", \"蘸\", \"孪\", \"濒\", \"酝\", \"夯\", \"烷\", \"渎\", \"盹\", \"贿\", \"妞\", \"嘿\", \"揣\", \"锒\", \"吭\", \"咧\", \"喔\", \"嗓\", \"铭\", \"腥\", \"6\", \"阶\", \"蜡\", \"韫\", \"嗲\", \"枪\", \"盯\", \"蹩\", \"岚\", \"辄\", \"榆\", \"倏\", \"兽\", \"霾\", \"灿\", \"颠\", \"怀\", \"闹\", \"哼\", \"蹿\", \"胧\", \"坠\", \"纵\", \"搂\", \"琐\", \"蛊\", \"惭\", \"婴\", \"衔\", \"睐\", \"拟\", \"鸩\", \"萦\", \"矿\", \"荨\", \"涟\", \"桦\", \"骏\", \"[\", \"垫\", \"诵\", \"厕\", \"贯\", \";\", \"偌\", \"饲\", \"抠\", \"癜\", \"蜒\", \"账\", \"溘\", \"馅\", \"绵\", \"镕\", \"躲\", \"塌\", \"戳\", \"龇\", \"8\", \"偿\", \"钩\", \"汤\", \"沏\", \"毙\", \"碟\", \"绛\", \"厅\", \"诸\", \"啊\", \"窝\", \"谣\", \"绅\", \"顿\", \"贩\", \"另\", \"①\", \"驭\", \"_\", \"撑\", \"杆\", \"烃\", \"驳\", \"伪\", \"涕\", \"砸\", \"讦\", \"氯\", \"逑\", \"疴\", \"烦\", \"压\", \"鳃\", \"恿\", \"孽\", \"氰\", \"嘀\", \"涤\", \"颂\", \"诟\", \"▪\", \"牺\", \"阀\", \"洼\", \"傥\", \"钞\", \"囊\", \"笃\", \"犹\", \"艰\", \"嚎\", \"势\", \"谴\", \"综\", \"撅\", \" \", \"颧\", \"诉\", \"亩\", \"潦\", \"稳\", \"梭\", \"啸\", \"饮\", \"谐\", \"枣\", \"秽\", \"恺\", \"愣\", \"窜\", \"阁\", \"铲\", \"啬\", \"缉\", \"鼾\", \"赌\", \"忆\", \"寻\", \"d\", \"玷\", \"丢\", \"嚷\", \"趋\", \"镭\", \"桅\", \"捂\", \"妇\", \"溉\", \"伤\", \"擤\", \"遏\", \"巢\", \"睹\", \"狳\", \"耙\", \"瘩\", \"饷\", \"哗\", \"觉\", \"悯\", \"夸\", \"镜\", \"陇\", \"④\", \"雳\", \"蟑\", \"啥\", \"卖\", \"贴\", \"绕\", \"诀\", \"谦\", \"苍\", \"惴\", \"瑨\", \"挠\", \"骼\", \"烁\", \"嘻\", \"涣\", \"壳\", \"污\", \"⑦\", \"〞\", \"举\", \"潇\", \"炕\", \"纤\", \"饿\", \"臊\", \"溃\", \"险\", \"剂\", \"叼\", \"蘑\", \"(\", \"阐\", \"补\", \"净\", \"铣\", \"衅\", \"灶\", \"绥\", \"椭\", \"缠\", \"闷\", \"蓝\", \"撩\", \"诗\", \"翩\", \"吗\", \"樱\", \"韦\", \"搞\", \"羔\", \"r\", \"礴\", \"鹅\", \"鲨\", \"窥\", \"蚀\", \"肤\", \"违\", \"赃\", \"脉\", \"渊\", \"贮\", \"垛\", \"孀\", \"蝌\", \"旷\", \"韪\", \"陨\", \"诈\", \"沧\", \"黝\", \"渲\", \"澜\", \"摄\", \"辈\", \"⑩\", \"赂\", \"赢\", \"乒\", \"辉\", \"挪\", \"\\u0005\", \"娅\", \"瑢\", \"针\", \"骤\", \"逶\", \"鸣\", \"涡\", \"忪\", \"鲸\", \"饶\", \"铺\", \"馁\", \"饵\", \"挝\", \"铜\", \"妆\", \".\", \"渗\", \"卤\", \"扫\", \"缔\", \"俪\", \"赏\", \"5\", \"瑥\", \"赠\", \"垄\", \"秃\", \"磺\", \"苣\", \"璎\", \"D\", \" \", \"吁\", \"肮\", \"摇\", \"驻\", \"缆\", \"铃\", \"胀\", \"⑨\", \"怂\", \"搡\", \"暂\", \"痹\", \"腊\", \"佣\", \"拦\", \"扣\", \"厌\", \"扩\", \"莺\", \"萧\", \"颤\", \"睑\", \"婪\", \"妒\", \"篡\", \"耸\", \"榨\", \"贷\", \"飓\", \"瘾\", \"咚\", \"犷\", \"袜\", \"递\", \"紧\", \"尧\", \"隐\", \"畅\", \"荐\", \"疯\", \"瞧\", \"锂\", \"恼\", \"狈\", \"簧\", \"竭\", \"乔\", \"扭\", \"揪\", \"躺\", \"榷\", \"础\", \"缭\", \"庐\", \"课\", \"烂\", \"洁\", \"缅\", \"罢\", \"铎\", \"%\", \"呢\", \"瞟\", \"闫\", \"讼\", \"扛\", \"枉\", \"霈\", \"鉴\", \"骚\", \"祛\", \"揭\", \"悄\", \"叠\", \"仓\", \"喱\", \"苯\", \"憨\", \"挥\", \"篱\", \"擎\", \"尬\", \"胺\", \"俭\", \"丝\", \"毁\", \"鹉\", \"艋\", \"贬\", \"穷\", \"绪\", \"哦\", \"遑\", \"纯\", \"漓\", \"秸\", \"湮\", \"爹\", \"凑\", \"轴\", \"锁\", \"养\", \"⑧\", \"绸\", \"馒\", \"鳞\", \"\", \"脯\", \"颌\", \"钵\", \"呸\", \"惯\", \"仪\", \"栈\", \"咱\", \"攥\", \"咦\", \"谜\", \"②\", \"斋\", \"痪\", \"菇\", \"赔\", \"萝\", \"阑\", \"倜\", \"掷\", \"伞\", \"丛\", \"绒\", \"壶\", \"0\", \"钧\", \"讪\", \"涨\", \"娴\", \"蝇\", \"飙\", \"坯\", \"皱\", \"铄\", \"陡\", \"慷\", \"鹰\", \"黏\", \"晗\", \"赞\", \"嘛\", \"搅\", \"烘\", \"陷\", \"劑\", \"镏\", \"颊\", \"筛\", \"诊\", \"懦\", \"瘠\", \"炖\", \"⒌\", \"t\", \"偻\", \"铛\", \"劝\", \"织\", \"恙\", \"簇\", \"拆\", \"⒂\", \"尘\", \"诱\", \"侧\", \"浇\", \"绽\", \"兑\", \"铩\", \"虽\", \")\", \"竖\", \"阱\", \"沥\", \"摒\", \"攒\", \"匾\", \"够\", \"鹌\", \"刮\", \"搐\", \"牵\", \"坟\", \"虑\", \"摧\", \"旎\", \"驾\", \"斩\", \"舀\", \"甩\", \"屌\", \"馋\", \"摊\", \"侥\", \"鬓\", \"旖\", \"谁\", \"~\", \"鲍\", \"皙\", \"鳗\", \"拥\", \"墙\", \"茁\", \"璨\", \"瘫\", \"迟\", \"皑\", \"笨\", \"挤\", \"宾\", \"睽\", \"肃\", \"凭\", \"啕\", \"璀\", \"摹\", \"赐\", \"掰\", \"涮\", \"绷\", \"脐\", \"煞\", \"啃\", \"迩\", \"踹\", \"滢\", \"瘀\", \"滤\", \"鲱\", \"榭\", \"莓\", \"呜\", \"欸\", \"雾\", \"纸\", \"犰\", \"罄\", \"③\", \"苇\", \"醛\", \"叹\", \"厢\", \"杂\", \"淌\", \"沦\", \"N\", \"浆\", \"绑\", \"谨\", \"纬\", \"狮\", \"弃\", \"敌\", \"筹\", \"诚\", \"储\", \"蜿\", \"缄\", \"摆\", \"锯\", \"宪\", \"诺\", \"闵\", \"谓\", \"赖\", \"遴\", \"⒀\", \"碴\", \"瞎\", \"挡\", \"匀\", \"厮\", \"债\", \"浠\", \"脑\", \"跤\", \"莹\", \"闯\", \"叮\", \"栋\", \"柬\", \"喂\", \"忑\", \"槛\", \"姣\", \"颇\", \"奋\", \"诧\", \"骇\", \"辖\", \"审\", \"摞\", \"猎\", \"荡\", \"烊\", \"飘\", \"踱\", \"媲\", \"!\", \"h\", \"谆\", \"哑\", \"汇\", \"兢\", \"拧\", \"檐\", \"渴\", \"聪\", \"裹\", \"较\", \"瘙\", \"?\", \"猬\", \"谚\", \"鹕\", \"唷\", \"惋\", \"玳\", \"龟\", \"嗔\", \"惶\", \"\\u0007\", \"黩\", \"鸦\", \"眯\", \"啪\", \"贺\", \"楂\", \"诙\", \"噢\", \"琼\", \"哎\", \"赚\", \"屿\", \"谈\", \"瞠\", \"练\", \"吓\", \"扳\", \"忡\", \"缸\", \"飕\", \"柠\", \"崛\", \"疚\", \"螃\", \"劲\", \"蚂\", \"烯\", \"脖\", \"嵘\", \"坞\", \"谑\", \"诩\", \"妈\", \"虾\", \"饨\", \"睬\", \"熬\", \"馄\", \"侦\", \"帕\", \"篓\", \"砾\", \"唏\", \"齿\", \"・\", \"扒\", \"拣\", \"疤\", \"聋\", \"腭\", \"砍\", \"颁\", \"觅\", \"逻\", \"讨\", \"髓\", \"辗\", \"钊\", \"绚\", \"巅\", \"孱\", \"裆\", \"颐\", \"鹦\", \"惘\", \"懒\", \"译\", \"歧\", \"娄\", \"弈\", \"闺\", \"熄\", \"倘\", \"懵\", \"锏\", \"锤\", \"谊\", \"顷\", \"1\", \"扪\", \"俩\", \"伉\", \"悚\", \"蹦\", \"袭\", \"壓\", \"眨\", \"阅\", \"烬\", \"樯\", \"侨\", \"咐\", \"撬\", \"粱\", \"辕\", \"谛\", \"贞\", \"颗\", \"坛\", \"吩\", \"剔\", \"锄\", \"轰\", \"勋\", \"阽\", \"邋\", \"嘣\", \"瑑\", \"诶\", \"捡\", \"绘\", \"趟\", \"绳\", \"笆\", \"缮\", \"剩\", \"冻\", \"吵\", \"捅\", \"骂\", \"旳\", \"盐\", \"捆\", \"豌\", \"灭\", \"馕\", \"撷\", \"咕\", \"凯\", \"寐\", \"荟\", \"聆\", \"拢\", \"轶\", \"碳\", \"饭\", \"赎\", \"坚\", \"2\", \"e\", \"\\u0000\", \"磅\", \"馍\", \"贫\", \"伦\", \"诲\", \"邬\", \"囤\", \"窍\", \"⒁\", \"拨\", \"咔\", \"傻\", \"皈\", \"猡\", \"疮\", \"胶\", \"泱\", \"窦\", \"凿\", \"擘\", \"鹜\", \"浑\", \"砖\", \"丧\", \"匆\", \"诠\", \"歼\", \"抖\", \"\", \"疗\", \"汹\", \"V\", \"腻\", \"惊\", \"纱\", \"释\", \"谩\", \"难\", \"迁\", \"/\", \"诅\", \"估\", \"壑\", \"锲\", \"榻\", \":\", \"胁\", \"籽\", \"牠\", \",\", \"龚\", \"贾\", \"纨\", \"篢\", \"谔\", \"矫\", \"忐\", \"涝\", \"吨\", \"\", \"损\", \"缝\", \"顾\", \"剐\", \"乓\", \"⑴\", \"谋\", \"剁\", \"咙\", \"缀\", \"胰\", \"霏\", \"饱\", \"⒋\", \"峥\", \"丫\", \"i\", \"3\", \"婶\", \"抡\", \"芜\", \"偎\", \"渔\", \"阔\", \"悬\", \"呦\", \"汩\", \"狠\", \"逛\", \"旆\", \"镉\", \"焕\", \"戾\", \"A\", \"唠\", \"锡\", \"铝\", \"栾\", \"碰\", \"皂\", \"耩\", \"宠\", \"掳\", \"漩\", \"骄\", \"犄\", \"疙\", \"擀\", \"〗\", \"兹\", \"铨\", \"悖\", \"仑\", \"酿\", \"侄\", \"赁\", \"牖\", \"茏\", \"轼\", \"掂\", \"黢\", \"拎\", \"鸥\", \"烫\", \"薰\", \"莴\", \"姊\", \"9\", \"氛\", \"顽\", \"骅\", \"娇\", \"钻\", \"盖\", \"肠\", \"捍\", \"邹\", \"勖\", \"辩\", \"蚯\", \"骗\", \"\\b\", \"遢\", \"垃\", \"嚣\", \"唤\", \"戢\", \"噩\", \"炼\", \"轿\", \"鳌\", \"呛\", \"诫\", \"氨\", \"鸠\", \"骆\", \"蔷\", \"抚\", \"减\", \"烤\", \"骁\", \"虏\", \"晖\", \"哟\", \"滥\", \"闪\", \"讶\", \"噱\", \"氢\", \"浊\", \"煲\", \"咪\", \"肓\", \"暨\", \"4\", \"舱\", \"霉\", \"跚\", \"罩\", \"迈\", \"泾\", \"厉\", \"咯\", \"锌\", \"馈\", \"尴\", \"羡\", \"\", \"谀\", \"摔\", \"盼\", \"匮\", \"裤\", \"呷\", \"缚\", \"笼\", \"泸\", \"伫\", \"o\", \"眶\", \"颈\", \"诃\", \"饼\", \"纲\", \"藕\", \"贱\", \"惫\", \"垒\", \"亵\", \"缈\", \" \", \"惦\", \"讲\", \"扰\", \"⑤\", \"荤\", \"锚\", \"耦\", \"贸\", \"蚪\", \"耻\", \"蓟\", \"铮\", \"隶\", \"​\", \"屉\", \"靛\", \"阎\", \"蟋\", \"膊\", \"仅\", \"绎\", \"肾\", \"嗡\", \"嗪\", \"磕\", \"崽\", \"惮\", \"诣\", \"逾\", \"恶\", \"嫖\", \"毕\", \"瞒\", \"毡\", \"撸\", \"刚\", \"搀\", \"喷\", \"驶\", \"鹃\", \"7\", \"韧\", \"闲\", \"呐\", \"鹭\", \"缕\"]", + "lossless": false + }, + "rinna/bilingual-gpt-neox-4b @ cc100/fr": { + "tokenizer": "bilingual-gpt-neox-4b", + "organization": "ABEJA", + "vocab_size": 65536, + "_n_bytes": 1540504, + "_n_tokens": 844215, + "_n_chars": 1484970, + "_n_oov_chars": 852, + "oov_ratio": 0.000573748964625548, + "_oov_charset": "[\"🙂\", \"😀\", \"″\", \"♕\", \"­\", \"😉\", \"™\", \"µ\", \"…\", \"²\", \"℃\", \"’\", \"…\", \"´\", \"🤔\"]", + "lossless": false + }, + "rinna/bilingual-gpt-neox-4b @ cc100/es": { + "tokenizer": "bilingual-gpt-neox-4b", + "organization": "ABEJA", + "vocab_size": 65536, + "_n_bytes": 1664455, + "_n_tokens": 910626, + "_n_chars": 1630297, + "_n_oov_chars": 568, + "oov_ratio": 0.00034840277569056434, + "_oov_charset": "[\"😉\", \"✖\", \"👏\", \"😀\", \"″\", \"🙁\", \"²\", \"´\", \"✔\", \"🙂\", \"­\", \"ª\", \"’\", \"▷\", \"„\", \"👍\", \"…\", \"✓\", \"º\", \"✪\", \"😦\", \"‘\"]", + "lossless": false + }, + "thu-coai/CharacterGLM-6B @ cc100/en": { + "tokenizer": "CharacterGLM-6B", + "organization": "Tsinghua", + "vocab_size": 64789, + "_n_bytes": 1124813, + "_n_tokens": 269347, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "thu-coai/CharacterGLM-6B @ cc100/zh-Hans": { + "tokenizer": "CharacterGLM-6B", + "organization": "Tsinghua", + "vocab_size": 64789, + "_n_bytes": 2633047, + "_n_tokens": 563646, + "_n_chars": 927311, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "thu-coai/CharacterGLM-6B @ cc100/fr": { + "tokenizer": "CharacterGLM-6B", + "organization": "Tsinghua", + "vocab_size": 64789, + "_n_bytes": 1540504, + "_n_tokens": 495052, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "thu-coai/CharacterGLM-6B @ cc100/es": { + "tokenizer": "CharacterGLM-6B", + "organization": "Tsinghua", + "vocab_size": 64789, + "_n_bytes": 1664455, + "_n_tokens": 546501, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-180b @ cc100/en": { + "tokenizer": "falcon-180b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1124813, + "_n_tokens": 262509, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-180b @ cc100/zh-Hans": { + "tokenizer": "falcon-180b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 2633047, + "_n_tokens": 1124681, + "_n_chars": 927311, + "_n_oov_chars": 2300, + "oov_ratio": 0.002480289784117734, + "_oov_charset": "[\"\\u0005\"]", + "lossless": false + }, + "tiiuae/falcon-180b @ cc100/fr": { + "tokenizer": "falcon-180b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1540504, + "_n_tokens": 407853, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-180b @ cc100/es": { + "tokenizer": "falcon-180b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1664455, + "_n_tokens": 442138, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-7b @ cc100/en": { + "tokenizer": "falcon-7b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1124813, + "_n_tokens": 262509, + "_n_chars": 1121360, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-7b @ cc100/zh-Hans": { + "tokenizer": "falcon-7b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 2633047, + "_n_tokens": 1124681, + "_n_chars": 927311, + "_n_oov_chars": 2300, + "oov_ratio": 0.002480289784117734, + "_oov_charset": "[\"\\u0005\"]", + "lossless": false + }, + "tiiuae/falcon-7b @ cc100/fr": { + "tokenizer": "falcon-7b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1540504, + "_n_tokens": 407853, + "_n_chars": 1484970, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tiiuae/falcon-7b @ cc100/es": { + "tokenizer": "falcon-7b", + "organization": "TII", + "vocab_size": 65024, + "_n_bytes": 1664455, + "_n_tokens": 442138, + "_n_chars": 1630297, + "_n_oov_chars": 0, + "oov_ratio": 0.0, + "_oov_charset": "[]", + "lossless": false + }, + "tohoku-nlp/bert-base-japanese @ cc100/en": { + "tokenizer": "bert-base-japanese", + "organization": "Tohoku", + "vocab_size": 32000, + "_n_bytes": 1124813, + "_n_tokens": 463681, + "_n_chars": 1121360, + "_n_oov_chars": 218, + "oov_ratio": 0.0001944067917528715, + "_oov_charset": "[\"\", \"«\", \"¡\", \"😉\", \"®\", \"\", \"‑\", \"�\", \"^\", \"ï\", \"​\", \"´\", \"»\", \"¦\", \"③\", \"🙂\", \"⑧\", \"😥\", \"”\", \"•\", \"⑩\", \"£\", \"‘\", \"…\", \"⑦\", \"⑤\", \"“\"]", + "lossless": false + }, + "tohoku-nlp/bert-base-japanese @ cc100/zh-Hans": { + "tokenizer": "bert-base-japanese", + "organization": "Tohoku", + "vocab_size": 32000, + "_n_bytes": 2633047, + "_n_tokens": 633038, + "_n_chars": 927311, + "_n_oov_chars": 299437, + "oov_ratio": 0.3229089269942878, + "_oov_charset": "[\"悍\", \"恳\", \"艳\", \"嗤\", \"沃\", \"样\", \"蒂\", \"贡\", \"阂\", \"祸\", \"藐\", \"抬\", \"巾\", \"异\", \"蛔\", \"孰\", \"环\", \"浞\", \"匪\", \"橇\", \"窖\", \"氮\", \"蓦\", \"两\", \"优\", \"岖\", \"骛\", \"筝\", \"⒃\", \"揍\", \"粪\", \"℃\", \"霭\", \"岑\", \"调\", \"辆\", \"购\", \"颖\", \"阵\", \"〃\", \"鹏\", \"胳\", \"寥\", \"號\", \"极\", \"發\", \"缜\", \"论\", \"亦\", \"绞\", \"恣\", \"买\", \"键\", \"秉\", \"过\", \"测\", \"鸟\", \"收\", \"眩\", \"牒\", \"猥\", \"倾\", \"坡\", \"恪\", \"n\", \"敛\", \"蜴\", \"撕\", \"垠\", \"链\", \"挎\", \"丰\", \"暧\", \"镐\", \"锥\", \"苏\", \"戛\", \"亂\", \"晨\", \"莘\", \"拔\", \"栅\", \"巩\", \"埂\", \"娱\", \"蕴\", \"赅\", \"溅\", \"\", \"泻\", \"纺\", \"选\", \"别\", \"愁\", \"魄\", \"厝\", \"狰\", \"歉\", \"a\", \"奠\", \"纹\", \"佬\", \"耍\", \"泽\", \"责\", \"绣\", \"庞\", \"复\", \"徊\", \"膛\", \"砧\", \"迭\", \"镶\", \"伙\", \"魇\", \"骑\", \"旱\", \"颉\", \"姗\", \"钦\", \"夺\", \"哒\", \"嘭\", \"赋\", \"怵\", \"领\", \"刘\", \"闭\", \"须\", \"\", \"谭\", \"锐\", \"饥\", \"桢\", \"菲\", \"晰\", \"帅\", \"ο\", \"詹\", \"谧\", \"犟\", \"层\", \"噼\", \"衿\", \"尸\", \"晕\", \"τ\", \"侬\", \"僵\", \"噪\", \"锣\", \"稣\", \"聒\", \"熏\", \"睁\", \"蚌\", \"峙\", \"帐\", \"莎\", \"憔\", \"庆\", \"亏\", \"辜\", \"抢\", \"呗\", \"锈\", \"韵\", \"涎\", \"岣\", \"蕉\", \"T\", \"驿\", \"约\", \"瑒\", \"瘦\", \"锅\", \"羁\", \"陆\", \"讳\", \"妍\", \"渍\", \"鲜\", \"衷\", \"辐\", \"揽\", \"黧\", \"淹\", \"懑\", \"橡\", \"棉\", \"卷\", \"轨\", \"谍\", \"谅\", \"衬\", \"抿\", \"⑥\", \"偷\", \"璧\", \"胱\", \"邂\", \"忱\", \"篷\", \"踌\", \"邓\", \"蹒\", \"搜\", \"绿\", \"纷\", \"ç\", \"讯\", \"淞\", \"瞄\", \"桩\", \"叨\", \"纳\", \"淄\", \"澡\", \"萤\", \"鲎\", \"淖\", \"吱\", \"汛\", \"简\", \"仆\", \"聚\", \"嘤\", \"韬\", \"时\", \"拽\", \"队\", \"膀\", \"栖\", \"邢\", \"»\", \"呕\", \"贝\", \"掏\", \"讥\", \"绰\", \"癫\", \"尝\", \"儿\", \"讽\", \"盏\", \"涩\", \"舅\", \"狱\", \"许\", \"p\", \"惑\", \"扯\", \"硕\", \"聂\", \"„\", \"蕤\", \"矍\", \"炬\", \"粼\", \"栩\", \"ê\", \"捐\", \"酣\", \"舔\", \"拜\", \"鸿\", \"鲤\", \"斐\", \"闸\", \"贼\", \"⑸\", \"賣\", \"坦\", \"锢\", \"玛\", \"怕\", \"蹭\", \"蔼\", \"郴\", \"烛\", \"轩\", \"焰\", \"焯\", \"遗\", \"蚁\", \"钰\", \"奸\", \"脾\", \"痫\", \"杠\", \"肿\", \"帘\", \"饽\", \"箭\", \"请\", \"钱\", \"懂\", \"垮\", \"纽\", \"祷\", \"伟\", \"蝗\", \"淅\", \"拯\", \"荧\", \"徘\", \"阴\", \"觑\", \"嘟\", \"迤\", \"铤\", \"辙\", \"憾\", \"脸\", \"澈\", \"⑿\", \"峭\", \"输\", \"秆\", \"抨\", \"傲\", \"碱\", \"絮\", \"剿\", \"筷\", \"侃\", \"纠\", \"凳\", \"蚓\", \"篝\", \"岂\", \"纾\", \"细\", \"媳\", \"抛\", \"它\", \"证\", \"丽\", \"佝\", \"麽\", \"翕\", \"暄\", \"瑶\", \"莅\", \"亿\", \"笋\", \"显\", \"苒\", \"赫\", \"斛\", \"朵\", \"捞\", \"戍\", \"艺\", \"舛\", \"闾\", \"〝\", \"训\", \"婺\", \"汶\", \"农\", \"锋\", \"墟\", \"卡\", \"兰\", \"胫\", \"滩\", \"舒\", \"惬\", \"橱\", \"唉\", \"泪\", \"钉\", \"屣\", \"唬\", \"绊\", \"掺\", \"脏\", \"榴\", \"憬\", \"楣\", \"听\", \"喇\", \"归\", \"嗨\", \"拱\", \"钥\", \"翘\", \"吮\", \"钓\", \"执\", \"愿\", \"网\", \"椒\", \"严\", \"嘈\", \"嗦\", \"爱\", \"竺\", \"填\", \"帮\", \"驼\", \"侣\", \"C\", \"纂\", \"娜\", \"铁\", \"卻\", \"翊\", \"薇\", \"臃\", \"腿\", \"挂\", \"骰\", \"钝\", \"籁\", \"郸\", \"饰\", \"叉\", \"猩\", \"节\", \"继\", \"缴\", \"冯\", \"逊\", \"郜\", \"…\", \"很\", \"吕\", \"缥\", \"姆\", \"炝\", \"弑\", \"缪\", \"壹\", \"睛\", \"晤\", \"撞\", \"-\", \"卍\", \"舰\", \"霹\", \"芬\", \"瞻\", \"^\", \"矶\", \"熨\", \"翱\", \"镀\", \"沮\", \"擞\", \"跃\", \"瑄\", \"寨\", \"芃\", \"砥\", \"禽\", \"驰\", \"彻\", \"噬\", \"憋\", \"敝\", \"劾\", \"裙\", \"罕\", \"姐\", \"丐\", \"圳\", \"咳\", \"套\", \"驮\", \"臂\", \"遛\", \"贤\", \"畴\", \"扑\", \"俏\", \"蓁\", \"设\", \"罔\", \"烟\", \"耗\", \"喽\", \"岗\", \"师\", \"磋\", \"绝\", \"涉\", \"跻\", \"灾\", \"佘\", \"圩\", \"趴\", \"澳\", \"质\", \"渣\", \"赣\", \"东\", \"婊\", \"雕\", \"攸\", \"葆\", \"锦\", \"酱\", \"柜\", \"跪\", \"爷\", \"泼\", \"棂\", \"讷\", \"瓷\", \"拙\", \"瞪\", \"铂\", \"币\", \"截\", \"续\", \"啡\", \"瑟\", \"挲\", \"撐\", \"硅\", \"ς\", \"诡\", \"靓\", \"镍\", \"鹈\", \"婷\", \"卧\", \"糠\", \""\", \"匙\", \"还\", \"贪\", \"俞\", \"荫\", \"爸\", \"华\", \"莱\", \"坷\", \"蒜\", \"跷\", \"袒\", \"榄\", \"搁\", \"俚\", \"赡\", \"货\", \"缘\", \"+\", \"劈\", \"冈\", \"棵\", \"插\", \"內\", \"忿\", \"獗\", \"倨\", \"驱\", \"恤\", \"哇\", \"雏\", \"啼\", \"荆\", \"據\", \"负\", \"扬\", \"蕾\", \"铸\", \"惠\", \"遐\", \"尔\", \"猝\", \"劳\", \"瞰\", \"飚\", \"拌\", \"啐\", \"淆\", \"稠\", \"驴\", \"痊\", \"吆\", \"嫂\", \"掐\", \"哧\", \"仍\", \"涛\", \"习\", \"奂\", \"邻\", \"怔\", \"问\", \"禧\", \"擂\", \"纰\", \"墒\", \"绩\", \"鸭\", \"晓\", \"罚\", \"笔\", \"呆\", \"镳\", \"假\", \"蔽\", \"挣\", \"惩\", \"钜\", \"竞\", \"踞\", \"哪\", \"挚\", \"愤\", \"靶\", \"诞\", \"瞅\", \"馏\", \"喝\", \"⑶\", \"淇\", \"瞩\", \"斥\", \"廖\", \"臻\", \"剽\", \"呃\", \"现\", \"卢\", \"访\", \"柯\", \"浓\", \"谬\", \"⑷\", \"裘\", \"辅\", \"赶\", \"诬\", \"圜\", \"玮\", \"值\", \"诨\", \"刨\", \"溪\", \"奎\", \"鸡\", \"弹\", \"喻\", \"蟀\", \"圈\", \"营\", \"冉\", \"鞠\", \"慑\", \"俨\", \"忧\", \"]\", \"鼯\", \"邃\", \"潘\", \"戮\", \"嗯\", \"鹤\", \"惺\", \"并\", \"&\", \"晾\", \"咀\", \"猖\", \"龄\", \"鸽\", \"趁\", \"涂\", \"\\u0006\", \"废\", \"蹈\", \"义\", \"邕\", \"茧\", \"夹\", \"s\", \"帜\", \"镑\", \"蛙\", \"胥\", \"渺\", \"潭\", \"褂\", \"欢\", \"淼\", \"框\", \"浏\", \"谎\", \"〖\", \"桥\", \"狞\", \"软\", \"绉\", \"书\", \"漪\", \"润\", \"泵\", \"踩\", \"轻\", \"谱\", \"锻\", \"恢\", \"湄\", \"窄\", \"î\", \"扔\", \"舆\", \"颓\", \"迪\", \"挈\", \"掀\", \"辫\", \"琢\", \"撇\", \"桌\", \"栏\", \"噶\", \"鹑\", \"醋\", \"灑\", \"烧\", \"运\", \"屄\", \"ㄓ\", \"析\", \"挖\", \"掬\", \"奘\", \"氧\", \"圾\", \"黛\", \"瑧\", \"赘\", \"渐\", \"黯\", \"湃\", \"毋\", \"梳\", \"焊\", \"戚\", \"沟\", \"郑\", \"牲\", \"蜕\", \"巍\", \"积\", \"萨\", \"蘸\", \"孪\", \"赛\", \"踪\", \"濒\", \"错\", \"酝\", \"卦\", \"夯\", \"娟\", \"凰\", \"焉\", \"沂\", \"烷\", \"渎\", \"炮\", \"盹\", \"门\", \"贿\", \"杰\", \"乐\", \"开\", \"妞\", \"嘿\", \"揣\", \"处\", \"锒\", \"丑\", \"衍\", \"佩\", \"抉\", \"吭\", \"婉\", \"徨\", \"咧\", \"喔\", \"嗓\", \"哈\", \"语\", \"铭\", \"无\", \"粮\", \"腥\", \"6\", \"霸\", \"阶\", \"蜡\", \"韫\", \"匕\", \"嗲\", \"协\", \"枪\", \"盯\", \"痰\", \"蹩\", \"嵌\", \"岚\", \"辄\", \"彬\", \"榆\", \"韩\", \"侈\", \"倏\", \"碍\", \"踝\", \"兽\", \"當\", \"臆\", \"聘\", \"霾\", \"灿\", \"颠\", \"唾\", \"怀\", \"闹\", \"潢\", \"∶\", \"毗\", \"划\", \"哼\", \"络\", \"蹿\", \"爻\", \"坠\", \"胧\", \"纵\", \"搂\", \"琐\", \"蛊\", \"惭\", \"军\", \"煜\", \"寞\", \"椰\", \"惧\", \"婴\", \"衔\", \"页\", \"滔\", \"档\", \"睐\", \"拟\", \"鸩\", \"萦\", \"翡\", \"矿\", \"荨\", \"塘\", \"桦\", \"涟\", \"骏\", \"[\", \"务\", \"姑\", \"垫\", \"诵\", \"乘\", \"览\", \"肚\", \"鲁\", \"谢\", \"拭\", \"紊\", \"库\", \"嚼\", \"从\", \"厕\", \"贯\", \";\", \"涵\", \"偌\", \"饲\", \"众\", \"抠\", \"琦\", \"癜\", \"蜒\", \"账\", \"溘\", \"馅\", \"绵\", \"镕\", \"躲\", \"奖\", \"塌\", \"甜\", \"戳\", \"旌\", \"喃\", \"鞋\", \"龇\", \"8\", \"偿\", \"椅\", \"羚\", \"钩\", \"汤\", \"沏\", \"对\", \"毙\", \"`\", \"碟\", \"绛\", \"厅\", \"拐\", \"诸\", \"啊\", \"窝\", \"谣\", \"歇\", \"顿\", \"绅\", \"葱\", \"蛛\", \"淤\", \"贩\", \"犁\", \"另\", \"①\", \"盒\", \"驭\", \"_\", \"撑\", \"杆\", \"甄\", \"烃\", \"掉\", \"驳\", \"伪\", \"涕\", \"砸\", \"讦\", \"氯\", \"逑\", \"疴\", \"權\", \"烦\", \"压\", \"鳃\", \"恿\", \"歹\", \"孽\", \"乍\", \"氰\", \"嘀\", \"涤\", \"德\", \"亚\", \"梧\", \"颂\", \"诟\", \"▪\", \"牺\", \"郝\", \"阀\", \"ὐ\", \"游\", \"洼\", \"傥\", \"发\", \"餐\", \"钞\", \"弛\", \"囊\", \"笃\", \"犹\", \"艰\", \"嚎\", \"势\", \"樊\", \"钟\", \"ě\", \"哭\", \"况\", \"黑\", \"综\", \"谴\", \"屹\", \" \", \"撅\", \"掖\", \"颧\", \"诉\", \"腓\", \"◆\", \"昕\", \"亩\", \"愉\", \"潦\", \"稳\", \"粹\", \"愧\", \"霄\", \"梭\", \"啸\", \"饮\", \"谐\", \"枣\", \"秽\", \"窘\", \"恺\", \"愣\", \"棕\", \"总\", \"冶\", \"窜\", \"霆\", \"阁\", \"铲\", \"择\", \"珀\", \"啬\", \"缉\", \"坝\", \"庙\", \"圣\", \"珉\", \"僻\", \"鼾\", \"吴\", \"厦\", \"赌\", \"忆\", \"寻\", \"d\", \"玷\", \"丢\", \"嚷\", \"趋\", \"镭\", \"询\", \"桅\", \"捂\", \"签\", \"佼\", \"喆\", \"沉\", \"妇\", \"矗\", \"溉\", \"伤\", \"蜥\", \"徙\", \"擤\", \"遏\", \"资\", \"巢\", \"睹\", \"狳\", \"耙\", \"瘩\", \"饷\", \"玖\", \"哗\", \"宁\", \"赵\", \"乌\", \"觉\", \"员\", \"悯\", \"泠\", \"呀\", \"夸\", \"镜\", \"您\", \"陇\", \"④\", \"雳\", \"炙\", \"孜\", \"蟑\", \"啥\", \"战\", \"卖\", \"济\", \"贴\", \"绕\", \"辟\", \"诀\", \"碾\", \"乎\", \"淫\", \"谦\", \"苍\", \"惴\", \"瑨\", \"毫\", \"挠\", \"详\", \"抒\", \"骼\", \"围\", \"烁\", \"际\", \"嘻\", \"箍\", \"砌\", \"红\", \"惰\", \"藏\", \"涣\", \"壳\", \"污\", \"决\", \"⑦\", \"〞\", \"举\", \"潇\", \"炕\", \"纤\", \"饿\", \"懊\", \"臊\", \"躇\", \"徇\", \"溃\", \"险\", \"剂\", \"垢\", \"豁\", \"统\", \"组\", \"叼\", \"鄂\", \"蘑\", \"(\", \"县\", \"阐\", \"孙\", \"沓\", \"补\", \"净\", \"铣\", \"衅\", \"灶\", \"迹\", \"绥\", \"椭\", \"缠\", \"闷\", \"蓝\", \"撩\", \"个\", \"每\", \"款\", \"岁\", \"蕃\", \"薯\", \"诗\", \"棍\", \"翩\", \"吗\", \"澎\", \"萃\", \"樱\", \"拼\", \"韦\", \"倩\", \"滨\", \"茄\", \"订\", \"佟\", \"风\", \"龙\", \"搞\", \"覃\", \"羔\", \"评\", \"夥\", \"r\", \"鹅\", \"礴\", \"鲨\", \"窥\", \"肆\", \"蚀\", \"肤\", \"违\", \"拖\", \"泄\", \"赃\", \"你\", \"记\", \"脉\", \"芮\", \"酬\", \"孩\", \"渊\", \"托\", \"贮\", \"垛\", \"载\", \"蔬\", \"财\", \"孀\", \"蝌\", \"卉\", \"旷\", \"韪\", \"恍\", \"陨\", \"创\", \"诈\", \"沧\", \"黝\", \"渲\", \"茵\", \"澜\", \"玻\", \"辈\", \"摄\", \"珏\", \"盈\", \"猜\", \"⑩\", \"赂\", \"终\", \"臧\", \"赢\", \"乒\", \"辉\", \"挪\", \"\\u0005\", \"娅\", \"瑢\", \"针\", \"骤\", \"逶\", \"鸣\", \"涡\", \"辑\", \"裔\", \"鲸\", \"忪\", \"删\", \"沪\", \"榜\", \"饶\", \"铺\", \"馁\", \"饵\", \"查\", \"挝\", \"瓢\", \"洽\", \"稍\", \"铜\", \"粤\", \"熹\", \"妆\", \".\", \"渗\", \"亟\", \"卤\", \"扫\", \"缔\", \"俪\", \"葫\", \"赏\", \"哄\", \"霖\", \"5\", \"坤\", \"瑥\", \"赠\", \"垄\", \"则\", \"秃\", \"磺\", \"苣\", \"间\", \"璎\", \"为\", \"D\", \"吁\", \"媛\", \"兴\", \"肮\", \"摇\", \"晟\", \"姻\", \"彤\", \"珞\", \"驻\", \"呵\", \"缆\", \"�\", \"铃\", \"冽\", \"胀\", \"⑨\", \"聊\", \"剪\", \"给\", \"怂\", \"搡\", \"暂\", \"•\", \"痹\", \"ό\", \"腊\", \"衫\", \"佣\", \"汉\", \"怡\", \"她\", \"码\", \"沫\", \"拦\", \"扣\", \"厌\", \"枷\", \"扩\", \"狄\", \"畸\", \"莺\", \"萧\", \"颤\", \"睑\", \"盎\", \"婪\", \"妒\", \"篡\", \"耸\", \"榨\", \"贷\", \"飓\", \"跌\", \"瘾\", \"咚\", \"亳\", \"犷\", \"攫\", \"袜\", \"遇\", \"递\", \"遁\", \"紧\", \"喀\", \"尧\", \"撼\", \"械\", \"拂\", \"隐\", \"瞥\", \"怎\", \"仿\", \"碌\", \"畅\", \"荐\", \"疯\", \"银\", \"煤\", \"瞧\", \"锂\", \"恼\", \"猴\", \"燎\", \"狈\", \"炫\", \"簧\", \"竭\", \"乔\", \"扭\", \"揪\", \"杀\", \"躺\", \"梗\", \"榷\", \"闻\", \"图\", \"靡\", \"吃\", \"础\", \"缭\", \"庐\", \"糊\", \"课\", \"烂\", \"洁\", \"缅\", \"额\", \"罢\", \"铎\", \"甬\", \"%\", \"滕\", \"呢\", \"瞟\", \"渠\", \"闫\", \"讼\", \"哮\", \"疸\", \"瑜\", \"咒\", \"醉\", \"扛\", \"监\", \"枉\", \"霈\", \"鉴\", \"堵\", \"骚\", \"祛\", \"揭\", \"熔\", \"悄\", \"叠\", \"仓\", \"矣\", \"达\", \"岭\", \"喱\", \"苯\", \"进\", \"憨\", \"挥\", \"态\", \"篱\", \"长\", \"擎\", \"变\", \"尬\", \"琅\", \"胺\", \"俭\", \"喊\", \"丝\", \"莞\", \"蜷\", \"毁\", \"鹉\", \"册\", \"肴\", \"苹\", \"沾\", \"艋\", \"踢\", \"贬\", \"穷\", \"绪\", \"业\", \"哦\", \"办\", \"遑\", \"纯\", \"坏\", \"漓\", \"循\", \"秸\", \"湮\", \"楷\", \"爹\", \"躁\", \"圆\", \"凑\", \"轴\", \"锁\", \"养\", \"乡\", \"⑧\", \"绸\", \"馒\", \"鄙\", \"鳞\", \"茉\", \"恰\", \"\", \"脯\", \"颌\", \"─\", \"联\", \"剑\", \"钵\", \"呸\", \"种\", \"临\", \"仄\", \"类\", \"披\", \"惯\", \"话\", \"仪\", \"栈\", \"咱\", \"攥\", \"暹\", \"咦\", \"谜\", \"盘\", \"焙\", \"②\", \"斋\", \"弯\", \"鑫\", \"痪\", \"宫\", \"菇\", \"赔\", \"咏\", \"姨\", \"磊\", \"沁\", \"职\", \"萝\", \"阑\", \"倜\", \"掷\", \"伞\", \"橄\", \"丛\", \"题\", \"绒\", \"啦\", \"壶\", \"0\", \"甸\", \"钧\", \"寰\", \"逞\", \"讪\", \"涨\", \"蝉\", \"娴\", \"淋\", \"蝇\", \"这\", \"飙\", \"蚊\", \"宵\", \"坯\", \"弗\", \"猾\", \"户\", \"皱\", \"铄\", \"陡\", \"慷\", \"历\", \"顶\", \"黏\", \"鹰\", \"晗\", \"赞\", \"嘛\", \"广\", \"咖\", \"搅\", \"辨\", \"沐\", \"烘\", \"窿\", \"陷\", \"启\", \"侠\", \"劑\", \"镏\", \"颊\", \"桔\", \"疵\", \"倪\", \"濮\", \"传\", \"筛\", \"诊\", \"懦\", \"护\", \"瘠\", \"炖\", \"⒌\", \"幢\", \"术\", \"t\", \"à\", \"偻\", \"铛\", \"劝\", \"织\", \"稻\", \"误\", \"增\", \"簇\", \"拆\", \"恙\", \"巷\", \"⒂\", \"尘\", \"诱\", \"侧\", \"浇\", \"动\", \"绽\", \"兑\", \"亲\", \"璜\", \"铩\", \"而\", \"ù\", \"说\", \"热\", \"瑰\", \"虽\", \"琛\", \")\", \"竖\", \"阱\", \"沥\", \"摒\", \"攒\", \"洒\", \"匾\", \"够\", \"鹌\", \"嘎\", \"刮\", \"搐\", \"牵\", \"坟\", \"虑\", \"顺\", \"摧\", \"炳\", \"旎\", \"驾\", \"斩\", \"舀\", \"价\", \"甩\", \"屌\", \"摊\", \"馋\", \"攀\", \"臀\", \"奶\", \"兔\", \"鬓\", \"谁\", \"~\", \"缓\", \"旖\", \"侥\", \"边\", \"鲍\", \"皙\", \"灸\", \"鳗\", \"售\", \"拥\", \"墙\", \"芷\", \"萍\", \"茁\", \"璨\", \"瘫\", \"迟\", \"离\", \"禾\", \"滚\", \"袍\", \"皑\", \"笨\", \"趾\", \"挤\", \"悉\", \"宾\", \"睽\", \"©\", \"肃\", \"愕\", \"皖\", \"凭\", \"啕\", \"璀\", \"摹\", \"赐\", \"掰\", \"涮\", \"煌\", \"绷\", \"么\", \"脐\", \"煞\", \"竟\", \"报\", \"邱\", \"啃\", \"迩\", \"踹\", \"愈\", \"滢\", \"瘀\", \"滤\", \"鲱\", \"恕\", \"陌\", \"烹\", \"雯\", \"专\", \"梦\", \"耽\", \"榭\", \"咨\", \"戏\", \"莓\", \"呜\", \"欸\", \"雾\", \"纸\", \"犰\", \"响\", \"睿\", \"汕\", \"羹\", \"槐\", \"罄\", \"③\", \"擅\", \"苇\", \"懈\", \"宽\", \"醛\", \"逼\", \"叹\", \"厢\", \"杂\", \"淌\", \"沦\", \"浆\", \"艾\", \"N\", \"绑\", \"谨\", \"纬\", \"吠\", \"狮\", \"剧\", \"弃\", \"耘\", \"咆\", \"敌\", \"刹\", \"胜\", \"击\", \"踵\", \"计\", \"筹\", \"穗\", \"坎\", \"诚\", \"樟\", \"储\", \"蜿\", \"痒\", \"渝\", \"缄\", \"摆\", \"锯\", \"宪\", \"梢\", \"疼\", \"诺\", \"←\", \"闵\", \"谓\", \"赖\", \"遴\", \"⒀\", \"带\", \"缺\", \"碴\", \"瞎\", \"挡\", \"匀\", \"厮\", \"单\", \"债\", \"埃\", \"浠\", \"齐\", \"漲\", \"娥\", \"辣\", \"粽\", \"脑\", \"媚\", \"跤\", \"灵\", \"莹\", \"找\", \"闯\", \"叮\", \"栋\", \"柬\", \"喂\", \"奢\", \"忑\", \"槛\", \"姣\", \"颇\", \"卫\", \"凉\", \"奋\", \"观\", \"换\", \"诧\", \"骇\", \"辖\", \"审\", \"艘\", \"摞\", \"猎\", \"荡\", \"棠\", \"烊\", \"呻\", \"飘\", \"阳\", \"踱\", \"媲\", \"飞\", \"!\", \"h\", \"妮\", \"谆\", \"葩\", \"导\", \"斌\", \"孕\", \"适\", \"烙\", \"哑\", \"苟\", \"汇\", \"兢\", \"拧\", \"效\", \"泛\", \"檐\", \"渴\", \"聪\", \"裹\", \"蚤\", \"较\", \"瘙\", \"?\", \"试\", \"猬\", \"谚\", \"鹕\", \"唷\", \"验\", \"扎\", \"慨\", \"惋\", \"玳\", \"龟\", \"嗔\", \"Ø\", \"惶\", \"芒\", \"\\u0007\", \"黩\", \"鸦\", \"权\", \"邵\", \"眯\", \"拇\", \"啪\", \"贺\", \"躯\", \"楂\", \"诙\", \"厂\", \"糟\", \"茸\", \"噢\", \"滇\", \"琼\", \"哎\", \"赚\", \"屡\", \"屿\", \"羞\", \"谈\", \"粥\", \"蒿\", \"瞠\", \"戈\", \"岌\", \"翰\", \"\", \"吧\", \"痴\", \"维\", \"勺\", \"练\", \"吓\", \"扳\", \"甯\", \"构\", \"酌\", \"忡\", \"缸\", \"隧\", \"柠\", \"飕\", \"颜\", \"倦\", \"壤\", \"崛\", \"跟\", \"疚\", \"螃\", \"劲\", \"奚\", \"蚂\", \"墅\", \"檬\", \"靠\", \"厥\", \"烯\", \"脖\", \"嵘\", \"坞\", \"谑\", \"诩\", \"妈\", \"疹\", \"钮\", \"虾\", \"饨\", \"粕\", \"鬣\", \"蜃\", \"频\", \"纪\", \"睬\", \"熬\", \"霍\", \"陕\", \"螂\", \"馄\", \"涅\", \"侦\", \"帕\", \"棣\", \"篓\", \"毯\", \"砾\", \"唏\", \"齿\", \"・\", \"冲\", \"扒\", \"聿\", \"俘\", \"拣\", \"疤\", \"气\", \"聋\", \"腭\", \"眷\", \"砍\", \"颁\", \"觅\", \"逻\", \"讨\", \"髓\", \"预\", \"辗\", \"钊\", \"墉\", \"绚\", \"巅\", \"孱\", \"裆\", \"颐\", \"鹦\", \"惘\", \"窗\", \"懒\", \"译\", \"屠\", \"轮\", \"议\", \"吝\", \"歧\", \"娄\", \"弈\", \"屎\", \"碎\", \"涌\", \"闺\", \"熄\", \"贵\", \"倘\", \"沛\", \"睫\", \"已\", \"帷\", \"懵\", \"價\", \"锏\", \"貌\", \"锤\", \"谊\", \"顷\", \"琪\", \"1\", \"扪\", \"茱\", \"俩\", \"伉\", \"悚\", \"缩\", \"蹦\", \"蜘\", \"袭\", \"壓\", \"眨\", \"阅\", \"烬\", \"樯\", \"彗\", \"侨\", \"咐\", \"撬\", \"粱\", \"辕\", \"谛\", \"仗\", \"贞\", \"颗\", \"坛\", \"吩\", \"剔\", \"锄\", \"马\", \"轰\", \"勋\", \"阽\", \"辱\", \"邀\", \"邋\", \"嘣\", \"瑑\", \"检\", \"诶\", \"线\", \"瀛\", \"菁\", \"捡\", \"竿\", \"屁\", \"绘\", \"趟\", \"祟\", \"绳\", \"é\", \"缮\", \"剩\", \"吵\", \"冻\", \"馨\", \"笆\", \"跑\", \"捅\", \"滓\", \"辽\", \"邯\", \"舍\", \"份\", \"编\", \"骂\", \"默\", \"旁\", \"盐\", \"旳\", \"捆\", \"转\", \"豌\", \"郅\", \"灭\", \"馕\", \"倚\", \"撷\", \"咕\", \"爰\", \"霓\", \"凯\", \"寐\", \"荟\", \"昊\", \"聆\", \"满\", \"屑\", \"杨\", \"拢\", \"轶\", \"宸\", \"钢\", \"碳\", \"饭\", \"赎\", \"读\", \"蓉\", \"坚\", \"2\", \"吞\", \"e\", \"耿\", \"\\u0000\", \"磅\", \"胖\", \"馍\", \"褪\", \"贫\", \"张\", \"伦\", \"灼\", \"诲\", \"骸\", \"邬\", \"囤\", \"窍\", \"认\", \"⒁\", \"吼\", \"璃\", \"拨\", \"糕\", \"咔\", \"埔\", \"规\", \"傻\", \"皈\", \"猡\", \"疮\", \"胶\", \"咋\", \"泱\", \"捺\", \"实\", \"窦\", \"凿\", \"擘\", \"鹜\", \"浑\", \"砖\", \"腑\", \"丧\", \"虱\", \"匆\", \"涸\", \"诠\", \"鄯\", \"歼\", \"抖\", \"\", \"疗\", \"汹\", \"裳\", \"V\", \"庚\", \"腻\", \"迦\", \"惊\", \"纱\", \"释\", \"谩\", \"难\", \"迁\", \"妤\", \"/\", \"莲\", \"娃\", \"诅\", \"佰\", \"瑕\", \"估\", \"药\", \"壑\", \"罗\", \"髻\", \"锲\", \"榻\", \":\", \"胁\", \"扼\", \"厘\", \"籽\", \"见\", \"牠\", \",\", \"龚\", \"廓\", \"词\", \"贾\", \"啤\", \"舐\", \"‘\", \"纨\", \"尤\", \"篢\", \"谔\", \"矫\", \"忐\", \"涝\", \"岛\", \"吨\", \"\", \"损\", \"缝\", \"顾\", \"剐\", \"乓\", \"敞\", \"⑴\", \"经\", \"谋\", \"剁\", \"咙\", \"缀\", \"腾\", \"惚\", \"胰\", \"霏\", \"饱\", \"娑\", \"俑\", \"⒋\", \"涯\", \"峥\", \"瀑\", \"丫\", \"i\", \"3\", \"婶\", \"抡\", \"茫\", \"站\", \"抓\", \"芜\", \"偎\", \"镇\", \"拗\", \"渔\", \"阔\", \"项\", \"棱\", \"冰\", \"搏\", \"悬\", \"呦\", \"汩\", \"狠\", \"逛\", \"焕\", \"镉\", \"旆\", \"戾\", \"践\", \"确\", \"A\", \"唠\", \"锡\", \"铝\", \"篮\", \"栾\", \"碰\", \"皂\", \"些\", \"昵\", \"耩\", \"宠\", \"远\", \"瀚\", \"连\", \"识\", \"掳\", \"藉\", \"膏\", \"蠢\", \"漩\", \"琳\", \"骄\", \"塑\", \"犄\", \"块\", \"岔\", \"疙\", \"曦\", \"擀\", \"岱\", \"级\", \"〗\", \"兹\", \"陋\", \"铨\", \"悖\", \"仑\", \"酿\", \"侄\", \"璇\", \"赁\", \"阜\", \"车\", \"牖\", \"玫\", \"凋\", \"茏\", \"轼\", \"槿\", \"掂\", \"穰\", \"槃\", \"黢\", \"团\", \"蹊\", \"拎\", \"让\", \"鸥\", \"烫\", \"祢\", \"啜\", \"朦\", \"薰\", \"莴\", \"狗\", \"姊\", \"9\", \"氛\", \"彙\", \"顽\", \"骅\", \"销\", \"哥\", \"娇\", \"秤\", \"几\", \"汀\", \"钻\", \"彪\", \"盖\", \"肠\", \"敲\", \"噌\", \"捍\", \"邹\", \"犀\", \"醒\", \"勖\", \"辩\", \"蚯\", \"糯\", \"骗\", \"姬\", \"\\b\", \"燥\", \"垃\", \"遢\", \"结\", \"嚣\", \"唤\", \"戢\", \"噩\", \"炼\", \"轿\", \"视\", \"鳌\", \"呛\", \"诫\", \"氨\", \"嫩\", \"鸠\", \"骆\", \"蔷\", \"抚\", \"减\", \"烤\", \"刁\", \"骁\", \"凤\", \"漉\", \"败\", \"貂\", \"备\", \"兮\", \"虏\", \"沽\", \"劫\", \"晖\", \"哟\", \"滥\", \"电\", \"闪\", \"讶\", \"逍\", \"噱\", \"氢\", \"绍\", \"浊\", \"娛\", \"煲\", \"柘\", \"咪\", \"肓\", \"袱\", \"暨\", \"4\", \"泯\", \"舱\", \"霉\", \"跚\", \"炅\", \"罩\", \"迈\", \"园\", \"泾\", \"厉\", \"址\", \"录\", \"姥\", \"礁\", \"头\", \"邮\", \"强\", \"咯\", \"锌\", \"譬\", \"馈\", \"晚\", \"羡\", \"尴\", \"\", \"们\", \"什\", \"谀\", \"迄\", \"昧\", \"摔\", \"盼\", \"匮\", \"裤\", \"酥\", \"费\", \"↑\", \"缚\", \"呷\", \"笼\", \"砺\", \"恃\", \"泸\", \"陛\", \"伫\", \"o\", \"眶\", \"颈\", \"汰\", \"诃\", \"鱼\", \"怜\", \"饼\", \"纲\", \"藕\", \"罐\", \"碗\", \"贱\", \"惫\", \"垒\", \"惕\", \"馆\", \"亵\", \"缈\", \"琶\", \"楞\", \" \", \"惦\", \"讲\", \"扰\", \"⑤\", \"荤\", \"锚\", \"耦\", \"贸\", \"蚪\", \"穹\", \"耻\", \"荣\", \"蓟\", \"铮\", \"敖\", \"褚\", \"妓\", \"隶\", \"弄\", \"俄\", \"​\", \"屉\", \"靛\", \"逅\", \"褐\", \"忽\", \"阎\", \"黔\", \"步\", \"俱\", \"仅\", \"膊\", \"蟋\", \"产\", \"绎\", \"晦\", \"醇\", \"肾\", \"髦\", \"嗡\", \"嗪\", \"磕\", \"陈\", \"崽\", \"惮\", \"诣\", \"逾\", \"悴\", \"恶\", \"嫖\", \"标\", \"毕\", \"瞒\", \"毡\", \"撸\", \"刚\", \"躬\", \"搀\", \"获\", \"喷\", \"驶\", \"关\", \"狡\", \"应\", \"溯\", \"剖\", \"叭\", \"鹃\", \"场\", \"7\", \"韧\", \"树\", \"瓣\", \"闲\", \"摸\", \"呐\", \"萄\", \"该\", \"蹲\", \"窟\", \"鹭\", \"倡\", \"缕\"]", + "lossless": false + }, + "tohoku-nlp/bert-base-japanese @ cc100/fr": { + "tokenizer": "bert-base-japanese", + "organization": "Tohoku", + "vocab_size": 32000, + "_n_bytes": 1540504, + "_n_tokens": 695164, + "_n_chars": 1484970, + "_n_oov_chars": 11491, + "oov_ratio": 0.007738203465389873, + "_oov_charset": "[\"ô\", \"̂\", \"à\", \"ğ\", \"̧\", \"™\", \"«\", \"😉\", \"Ç\", \"́\", \"❤\", \"ê\", \"℃\", \"§\", \"Î\", \"®\", \"œ\", \"…\", \"�\", \"^\", \"€\", \"Ô\", \"😀\", \"″\", \"È\", \"î\", \"û\", \"ë\", \"♕\", \"ï\", \"Ê\", \"²\", \"é\", \"»\", \"´\", \"è\", \"🙂\", \"ù\", \"Â\", \"­\", \"ã\", \"•\", \"’\", \"ç\", \"À\", \"â\", \"←\", \"🤔\", \"‘\", \"♠\", \"µ\", \"…\"]", + "lossless": false + }, + "tohoku-nlp/bert-base-japanese @ cc100/es": { + "tokenizer": "bert-base-japanese", + "organization": "Tohoku", + "vocab_size": 32000, + "_n_bytes": 1664455, + "_n_tokens": 779440, + "_n_chars": 1630297, + "_n_oov_chars": 2658, + "oov_ratio": 0.0016303777777914087, + "_oov_charset": "[\"\", \"¿\", \"ó\", \"¡\", \"😉\", \"«\", \"😦\", \"❤\", \"Á\", \"✖\", \"👏\", \"®\", \"^\", \"€\", \"😀\", \"ö\", \"″\", \"🙁\", \"©\", \"²\", \"Ú\", \"ò\", \"é\", \"»\", \"´\", \"✔\", \"🙂\", \"Ñ\", \"­\", \"Ó\", \"á\", \"•\", \"️\", \"ª\", \"ý\", \"’\", \"М\", \"▷\", \"←\", \"ú\", \"‘\", \"👍\", \"„\", \"…\", \"✓\", \"í\", \"º\", \"✪\", \"‘\", \"Í\"]", + "lossless": false + } } \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f784c131847a676bb42ce0f0ebfd1f670de1e182 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bfb1c2be8bf13e5989a95b5f401f92aaad6cadde8ecc704ebaf9b9578bb359a2 +size 2145294 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..25ac1b8b9b7c39948367074a823110f3472b8792 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:554a365ce0da76ae5d93642b496bb1bc3d8d78c1112523545a2219f7fe213a91 +size 10978507 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e9716fe86d0ba49aef2f8c86b960a5e5a4807f0f --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:21c349b2602379affd0aa388d75addece67a14d0afaaf5b4980c90e9cc875e8e +size 5261108 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..321ff0680b5192e41fc8e1df9af97de9ad3fe74a --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e829c4c544a9e8d98701b3d3bf1e3593b63e59ab5ba244c1ab376f6002fbd0f9 +size 6853004 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e7dc8571fb8c39825983cdd4d7556d04b90e5c86 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:908327a56262f721590d9479faa579156ba8bd155242262943797be697bc2655 +size 1058478 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6f66918fc90157d5008b4dda89c3452b52a321c6 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8f02e17dfe25c4c1526c8adee812a7141d92ccbd3b1160e7c73fc325d9fbfe4e +size 6385085 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2c3155f274b233e2b47111130487eec87c1af246 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0abf3a91ddeeaa12d4732eaf1b4ff2a207b3d85fc54a079b4ac853696d831148 +size 2529096 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..371af9b75363a5a0d0ee0c76e16534a188af589d --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8fd64f035328b88bb4389ee820bb6d2bed510e0e4259cc4f38a0f573d2c003c2 +size 2491144 diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..47e66f97ed54c24ab6871c6a1f43a8a709554933 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7781b5bc9b2c3f45764842bf551a6e039ddef4f1bafd85ce12446834a26dd241 +size 10841058 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f784c131847a676bb42ce0f0ebfd1f670de1e182 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bfb1c2be8bf13e5989a95b5f401f92aaad6cadde8ecc704ebaf9b9578bb359a2 +size 2145294 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..25ac1b8b9b7c39948367074a823110f3472b8792 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:554a365ce0da76ae5d93642b496bb1bc3d8d78c1112523545a2219f7fe213a91 +size 10978507 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e9716fe86d0ba49aef2f8c86b960a5e5a4807f0f --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:21c349b2602379affd0aa388d75addece67a14d0afaaf5b4980c90e9cc875e8e +size 5261108 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..321ff0680b5192e41fc8e1df9af97de9ad3fe74a --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e829c4c544a9e8d98701b3d3bf1e3593b63e59ab5ba244c1ab376f6002fbd0f9 +size 6853004 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e7dc8571fb8c39825983cdd4d7556d04b90e5c86 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:908327a56262f721590d9479faa579156ba8bd155242262943797be697bc2655 +size 1058478 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6f66918fc90157d5008b4dda89c3452b52a321c6 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8f02e17dfe25c4c1526c8adee812a7141d92ccbd3b1160e7c73fc325d9fbfe4e +size 6385085 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2c3155f274b233e2b47111130487eec87c1af246 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0abf3a91ddeeaa12d4732eaf1b4ff2a207b3d85fc54a079b4ac853696d831148 +size 2529096 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..371af9b75363a5a0d0ee0c76e16534a188af589d --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8fd64f035328b88bb4389ee820bb6d2bed510e0e4259cc4f38a0f573d2c003c2 +size 2491144 diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..47e66f97ed54c24ab6871c6a1f43a8a709554933 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7781b5bc9b2c3f45764842bf551a6e039ddef4f1bafd85ce12446834a26dd241 +size 10841058 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..990caf9077c504b2d26d9fddfc0688364d3e37cb --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b56af2e07e0c6ae80ed6c212d92a11eaad7dc654c187c7471738ba3c830a588 +size 20780798 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f429a7008591a299f783d1c5aca91ce1194fe146 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:00492605965dd0637b79fe80e3d2428065cba551a9a7198bd7a0b505ce85d81b +size 2751629 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d6c6ad744f8771c8ac1dd3b548a5f62dd42fe92 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e823bebc4f8f42e03b8e621baa23b07072a4199eb0fd293e92d11c96003f3433 +size 163424 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75b5f3af893c1befa32d65d8bae1738cce0b18dc --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b3003793b062ae28b5b4f202b8f0d9f725e46f024acc38f7f9ef08e8b3381fc0 +size 2030664 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..abcb454c626e5f73b97c45cbcd7ccc8583c22c2b --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6c07f75c1eb80e59bab44b7b6ced9aec1404dbf56a5abd85779846c83974a7de +size 18041636 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2759a53545d4fa2521a12bdf2577b8de7f5e034c --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:341e747d07dd8276b90de8c7d725a45e10d39084bc819ffd54cab6460ddcba63 +size 3129632 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3ec1e791490b3a414188c7291e192799d5bf8203 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b46c604a75d0288f253c3439a2a7333c38e900ebb42ba39dd1c2ecbe4229f304 +size 6425383 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6f67c51e482a2ce62ee97a0121b05b4c3e365c29 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eeab167e9f566512c3065d362e720f1930bd51ca5b9c14c207a252fa9380e7fa +size 15893128 diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fb83f8f191c3725d6e0e46aefc3554bef426c83d --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e851ffd1f4f9bf8949cb0e77cc15ea65223fe4a54ac5a13ec9e43c27a550388f +size 10563259 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..990caf9077c504b2d26d9fddfc0688364d3e37cb --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b56af2e07e0c6ae80ed6c212d92a11eaad7dc654c187c7471738ba3c830a588 +size 20780798 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f429a7008591a299f783d1c5aca91ce1194fe146 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:00492605965dd0637b79fe80e3d2428065cba551a9a7198bd7a0b505ce85d81b +size 2751629 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d6c6ad744f8771c8ac1dd3b548a5f62dd42fe92 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e823bebc4f8f42e03b8e621baa23b07072a4199eb0fd293e92d11c96003f3433 +size 163424 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75b5f3af893c1befa32d65d8bae1738cce0b18dc --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b3003793b062ae28b5b4f202b8f0d9f725e46f024acc38f7f9ef08e8b3381fc0 +size 2030664 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..abcb454c626e5f73b97c45cbcd7ccc8583c22c2b --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6c07f75c1eb80e59bab44b7b6ced9aec1404dbf56a5abd85779846c83974a7de +size 18041636 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2759a53545d4fa2521a12bdf2577b8de7f5e034c --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:341e747d07dd8276b90de8c7d725a45e10d39084bc819ffd54cab6460ddcba63 +size 3129632 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3ec1e791490b3a414188c7291e192799d5bf8203 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b46c604a75d0288f253c3439a2a7333c38e900ebb42ba39dd1c2ecbe4229f304 +size 6425383 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6f67c51e482a2ce62ee97a0121b05b4c3e365c29 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eeab167e9f566512c3065d362e720f1930bd51ca5b9c14c207a252fa9380e7fa +size 15893128 diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fb83f8f191c3725d6e0e46aefc3554bef426c83d --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e851ffd1f4f9bf8949cb0e77cc15ea65223fe4a54ac5a13ec9e43c27a550388f +size 10563259 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..37215f41439efb1994d08cee3dfdf4dc4f07bb6f --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a9609607cfbd475a317ed09f08379f6cf07504f05f4d28249e6b05083966007f +size 1183221 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9a14e6d3fe6933d606f9abdf8672f2114cfa74b9 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:87582c9b17143eedd08739f79fd5ed5197ff16cf10f3436a696736984b4db9a8 +size 462622 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..22b1a95d7207b77e338ff7348ebf5fc1b35fff7b --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:86739f2545c4cc847cd64698933606a1eb82f9bc266a1262b9b55671a9e39f42 +size 134091 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..53ec6997cc1ad7c9098fa868bd40ee92b9d62e0b --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:64b0dc29abc396f297bb614f4752d640e0a2f2892038b487105eb19284b8d838 +size 398583 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e9248add17e6dbaf4e2c6f4c74fd9f0b4c2dc7c5 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a06d0623b58a0e965fc2afbd22213f79ee8d3323e07153c5c60a37e16ecb0d8a +size 3221151 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d1084047c02930d98ae822bae06abbc61942c0f --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:88b7b90e9a71807c06f35886a66e98d4b8610ca06f47b0238352e791a6eb180a +size 1239088 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..39a52e6b04f50bc135c0caf269336c57cb125a77 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8c8bbf9b5129a41388aad3ea9a209fd247c6cc19004b96e63b0456f367b903ab +size 1945248 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..581dcaafb66738ac568f4cc78ce27e5dee4a325e --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:536ada078c3c869e5f84f0567ce8b198c30b8e59920b0635b6a6fe1806ac70cb +size 1285061 diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..de74f6c787d28dce0ceea52736668fda14ad3ef2 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8909ff00298696a2df157e564e58215345e4d0945c1168cacdcd95b0202e3dd4 +size 10556388 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..eab81fb92175c852d615761e04c46154f6d5fbe2 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cfa77d7b4fab58f8061c16cbf6e9f9e5d10c927562e24440025e27040c00b816 +size 1392170 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c65a722fc671c203948dbf8e9b250c9c82b8f888 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d41ea751bf19288d6d99d2b1bce14dc72a92cf7101c8f7d75b47d3c9651cc872 +size 222781 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..81c3c07d2282b0b780ef4704bcc9087e274cfe11 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:443f09dabf0e8d7439c4f036fafb1f49c9477605b66537a7780bedd2288dd81e +size 609158 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..899fa59e3f64695c41e3e78176262987dbe48cec --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cb7262333d0b9caacca837d2c80e847e1aa27ab9e37a88ca156091b47ddc5aab +size 887909 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..27c3a1ff962c6eebcdf96df709970e6d2f011b1b --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4012e2c0970ea0f406bd02a62b972eecbfe9ab509c9dbe96d5db2b0dd371a5e1 +size 77849 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d1c04e3110708aaf32c88f9625fbc0b0783b108e --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:67a0fc41159ee92e86053b104ef0aa2219438bc9d79e71bfefadf32c24d2654d +size 905495 diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..37215f41439efb1994d08cee3dfdf4dc4f07bb6f --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a9609607cfbd475a317ed09f08379f6cf07504f05f4d28249e6b05083966007f +size 1183221 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4e5ae3070ee5bfe42aaea8d766dc24270f92aaab --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b4aae3b9f4f680f76bee39029194e646f21af9b87b0f99f1c152db450b57fbe3 +size 462969 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..22b1a95d7207b77e338ff7348ebf5fc1b35fff7b --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:86739f2545c4cc847cd64698933606a1eb82f9bc266a1262b9b55671a9e39f42 +size 134091 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..53ec6997cc1ad7c9098fa868bd40ee92b9d62e0b --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:64b0dc29abc396f297bb614f4752d640e0a2f2892038b487105eb19284b8d838 +size 398583 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e9248add17e6dbaf4e2c6f4c74fd9f0b4c2dc7c5 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a06d0623b58a0e965fc2afbd22213f79ee8d3323e07153c5c60a37e16ecb0d8a +size 3221151 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7019b7ffc0a0bc99f66ebf53a451ce936b22e0d6 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d5122ab5923fe2d84992ded01ab9200dde21d6a0d44473d518a8afa568943173 +size 1240152 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a1e70e6578249bfa70c0ab527737cc8b934e454b --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:91536f0e3a3b6e200e275d6efa3a615374b8ba3a54c5ae9b5c6b66ca5c9c46f6 +size 1952099 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..282195bcb19e12761c84141ce20e55a33fcf6f18 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:720eec532e261bd020c981f49663d073b6603cf5168f7fd77cd61f7dcc8933de +size 1295482 diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..85472675f39f16c50eb90d4a6e5a41a31937cd08 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ab28a164d4ccdf07215323c81a8a3a294d0ca30c2ea25e98c67e9efcf68c5ed9 +size 10559605 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..39c82a99004fa54a6e91adf0285b89226cb8f56c --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3279ffc79b248f15cfeeade3c84330b7c295c93c159eba1dd952c17fb40c4f97 +size 905651 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ebeb5606bf4fa62f0d3a7ed08876f1913f8ff00f --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6a0090c71598b495de0d6cb2e87c10d492cfd39107469a829d8905a1955c6798 +size 214571 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..83d7b7a90b75917c437464eb6d6008a42c558e47 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:935517e2531f317e9099a8a446baf43c3015d91baf9cc688925e3d1342199ced +size 582348 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8ebd8c896c13e4b347d330b986648dca299597b6 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:11fe881247ceeb7cce08161272956c27f115c1f40c4678a20994614f9fb0f143 +size 5603 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab97f990d4263b965b5f2ebd38b550c3f59a766b --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:60f543ef3cda058aa95e7740b1c2b7f6ec285ce8692a90149829d451a5e84ee9 +size 886065 diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..626a097112556183f6052a43821a842896c07623 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9e86609f49ffc55fcd0ce60b48c92dc2796484eb3c4494c5541aad5a712ac94b +size 858709 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cb5a98ce4625608d7a758f8a318295ae2ab6e94c --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6993ecdce61a7bc72d4a8b8d7355e388b83ac763b03f69e443d7db051e8209ed +size 253049 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3384da3b4fd3188a3f16e7e6295f863de25d2af9 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c95f054967e5d3b1964038bf056d57de91e4921ecae8b1416996526ea2b99b99 +size 38714 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e6fcec7d27b142fcc3510f2af014998c45eded52 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5034f2888056d44f28f8223c9ec1c46e24b80a191e3030b58fd25d95d42edc2d +size 286116 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..081297e03c189d3a62bfab26bd5a41d0eaef8327 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:106389842c86e563baf13ea17f03e3e9cf70fdd89c40fc0ad33bf0ef1b560643 +size 2993739 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..90c06d989e1b57ed30ea6ac425d6197234eb2366 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:40f74c0f8472ccfcf2feee7471ab145b1d6377b3e1ac15f434f185a6afc83f32 +size 409014 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6ac1c296fff2e62d2e92442f5359fc12849da0e5 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fd24de14920540c20f6d585d0e65cda63342e4aa95cd5be10f8ae1f54d8a3395 +size 1384382 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..84dae688355afc503f33186816185f63cf8cd4c8 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9c93c3289683237c91a734dc0f8f4b2f8966a48f1db7d6d667526ced6e617bba +size 782567 diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfc70cf66cc5b059fb8a19fba1792a62f6112386 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2cb4d5efb67261fe10c9048e02c1997d9c87ee43437cb616ec8583bca8ab93d9 +size 3072735 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b29cc704a53aa9da16340b41e19c2794cd17611f --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b0f81c1c718f587d13aa4c8ba6166379728787fd2ef884f76057a180e0b054c +size 543975 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1357a90586ceaffeb0662ab9342442003ed4c686 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eb97f4e69656fe6b03ddbba16d434a2e30ddfdbcfc80d80f870825fb9e9474b3 +size 8213 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fba1c4773cf8b668e67b73c68a8a86714e353bdc --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4ceecc5c6118a6b47a8d7d52a59caeea787beb4d5fae13b881f7a2644a30213a +size 36405 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a5a589316a21e387ccdec6cab601df42b7ac6579 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5a16068ce4e7cbcc0ba20bcb49e8b1539d8db8182d4628a3c9353123af936879 +size 5600 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7ae8948397642a19264dad50890550780f2915cd --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3563d3813b54e4caa998ab09480396ddc86e92efd3cff5bd08c2f04c0555345f +size 72249 diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..df96a0f6147a77afd8dfab0603a067a83d74b949 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5cea8cca0e80c00c2718e22f3be8835b4f7ee4e9f2c12b0320ac9ae360532edd +size 25359 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b29cc704a53aa9da16340b41e19c2794cd17611f --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b0f81c1c718f587d13aa4c8ba6166379728787fd2ef884f76057a180e0b054c +size 543975 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1357a90586ceaffeb0662ab9342442003ed4c686 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eb97f4e69656fe6b03ddbba16d434a2e30ddfdbcfc80d80f870825fb9e9474b3 +size 8213 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fba1c4773cf8b668e67b73c68a8a86714e353bdc --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4ceecc5c6118a6b47a8d7d52a59caeea787beb4d5fae13b881f7a2644a30213a +size 36405 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a5a589316a21e387ccdec6cab601df42b7ac6579 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5a16068ce4e7cbcc0ba20bcb49e8b1539d8db8182d4628a3c9353123af936879 +size 5600 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7ae8948397642a19264dad50890550780f2915cd --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3563d3813b54e4caa998ab09480396ddc86e92efd3cff5bd08c2f04c0555345f +size 72249 diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..df96a0f6147a77afd8dfab0603a067a83d74b949 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5cea8cca0e80c00c2718e22f3be8835b4f7ee4e9f2c12b0320ac9ae360532edd +size 25359 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b29cc704a53aa9da16340b41e19c2794cd17611f --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b0f81c1c718f587d13aa4c8ba6166379728787fd2ef884f76057a180e0b054c +size 543975 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1357a90586ceaffeb0662ab9342442003ed4c686 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eb97f4e69656fe6b03ddbba16d434a2e30ddfdbcfc80d80f870825fb9e9474b3 +size 8213 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fba1c4773cf8b668e67b73c68a8a86714e353bdc --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4ceecc5c6118a6b47a8d7d52a59caeea787beb4d5fae13b881f7a2644a30213a +size 36405 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a5a589316a21e387ccdec6cab601df42b7ac6579 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5a16068ce4e7cbcc0ba20bcb49e8b1539d8db8182d4628a3c9353123af936879 +size 5600 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7ae8948397642a19264dad50890550780f2915cd --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3563d3813b54e4caa998ab09480396ddc86e92efd3cff5bd08c2f04c0555345f +size 72249 diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..df96a0f6147a77afd8dfab0603a067a83d74b949 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5cea8cca0e80c00c2718e22f3be8835b4f7ee4e9f2c12b0320ac9ae360532edd +size 25359 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b29cc704a53aa9da16340b41e19c2794cd17611f --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b0f81c1c718f587d13aa4c8ba6166379728787fd2ef884f76057a180e0b054c +size 543975 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1357a90586ceaffeb0662ab9342442003ed4c686 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eb97f4e69656fe6b03ddbba16d434a2e30ddfdbcfc80d80f870825fb9e9474b3 +size 8213 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fba1c4773cf8b668e67b73c68a8a86714e353bdc --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4ceecc5c6118a6b47a8d7d52a59caeea787beb4d5fae13b881f7a2644a30213a +size 36405 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a5a589316a21e387ccdec6cab601df42b7ac6579 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5a16068ce4e7cbcc0ba20bcb49e8b1539d8db8182d4628a3c9353123af936879 +size 5600 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7ae8948397642a19264dad50890550780f2915cd --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3563d3813b54e4caa998ab09480396ddc86e92efd3cff5bd08c2f04c0555345f +size 72249 diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..df96a0f6147a77afd8dfab0603a067a83d74b949 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5cea8cca0e80c00c2718e22f3be8835b4f7ee4e9f2c12b0320ac9ae360532edd +size 25359 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..37215f41439efb1994d08cee3dfdf4dc4f07bb6f --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a9609607cfbd475a317ed09f08379f6cf07504f05f4d28249e6b05083966007f +size 1183221 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f81cba3075ea499801c2b544800d8a56691c17f8 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a4818e1f679209bab1f522a9bc9905367cdb23aadd5dc6a33ecaf4f0f22337a3 +size 462332 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d7eee6b86038c35e7ef569b559404eb1d612439 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:581d3e1fd9812079e207471a721c7818a38a0de2dce5c5549e99a4d950c8f6f2 +size 124262 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..53ec6997cc1ad7c9098fa868bd40ee92b9d62e0b --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:64b0dc29abc396f297bb614f4752d640e0a2f2892038b487105eb19284b8d838 +size 398583 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e9248add17e6dbaf4e2c6f4c74fd9f0b4c2dc7c5 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a06d0623b58a0e965fc2afbd22213f79ee8d3323e07153c5c60a37e16ecb0d8a +size 3221151 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d1084047c02930d98ae822bae06abbc61942c0f --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:88b7b90e9a71807c06f35886a66e98d4b8610ca06f47b0238352e791a6eb180a +size 1239088 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0150023d4a07a04f01a5884285a191fa11684c2b --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a552f0c62a5223dfdfa8dc1623c86d79e62a09324812583443c9ee861ea5fe74 +size 2016833 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..488d97aeb1dd55e6bf513b461cf5d92a27d8f3e2 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2c24e05dc1f22c9ebccb6657c4868e24e0e82cb2a739e512991ffe4222b32d92 +size 1260711 diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1914df23ca3e00236f43b2e5108b37b8a54409ca --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3041aa80a292ccbd8321765cf27d80ff9fdd3a56a602fbe8ea035ad2e4e932d6 +size 10554134 diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cf3b6cc71917929554e6817884fa40195b2b28d5 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d44436562a7c8eb0084bde3cbb118626f323908b3d1839e5629c0946c41e9597 +size 21883 diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3d3f81700fee7bc5de37a3bbd90b857c062ecb86 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:33746691abbf4ab52ebdd9601ccadb9ab429723b2ba2412d0504cb2de55968e4 +size 5513 diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ba82db12d3f6fd6bf2d9f9fd5c735089c59fd40f --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6565b983ce26457501efc0a5ac1f1354b4c1b6133e8ffc776d4dd017eea6e149 +size 23150 diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..de8c9576a5c6ccd80a4bebe82ca3befc7ce7dd09 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:18d3836907edbceb14bacb0f67fbce2e091a44bf1a867bd4fb132b6e8f0d1fea +size 9139 diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6677240b5e842ccec7831188840abf8fa4a20600 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:04ec50112cff497b7ed2a092439c679f1726bc4ce004e12a9ded7e8ff27d4949 +size 5947 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..39c82a99004fa54a6e91adf0285b89226cb8f56c --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3279ffc79b248f15cfeeade3c84330b7c295c93c159eba1dd952c17fb40c4f97 +size 905651 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ebeb5606bf4fa62f0d3a7ed08876f1913f8ff00f --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6a0090c71598b495de0d6cb2e87c10d492cfd39107469a829d8905a1955c6798 +size 214571 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..83d7b7a90b75917c437464eb6d6008a42c558e47 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:935517e2531f317e9099a8a446baf43c3015d91baf9cc688925e3d1342199ced +size 582348 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8ebd8c896c13e4b347d330b986648dca299597b6 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:11fe881247ceeb7cce08161272956c27f115c1f40c4678a20994614f9fb0f143 +size 5603 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab97f990d4263b965b5f2ebd38b550c3f59a766b --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:60f543ef3cda058aa95e7740b1c2b7f6ec285ce8692a90149829d451a5e84ee9 +size 886065 diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7ba23c4cccaa760fed457b47e4078b0a58d0c0b9 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8aa667e14e0973cc42cace9639aca5b24477d5d70c983afab3ce913f9c391382 +size 29111575 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..64aa78f42fe2d4f836b06d85912a415c582338ce --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:111b64aa44a8ddfef14bf842cbf5dd3241c6faacea5d938f36f94f811a220e1b +size 6843014 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bb690196cb71e92bcc20796160daa01515c88bd3 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5ad25538674447232846c01cffda8b9d2f25f14d1f48c791ea13fc340242b7d1 +size 768151 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..19c1f9f61bf719c616f1c75162745cffd4311c07 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2cdafdecb8df8a0d9d2ce54f7528251572155c7c687d11881df41816b6a10ea8 +size 7139959 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9b9e7c83281ec9c077baff6df3dd61e7e6be2a61 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:002854367cff75b20f8a53277d4524781d1a907a1f79caccaf5fdc6c09ab8b7d +size 23028051 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bfffa4d9359ddc4d0770edc3ca291a6a85268e2f --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:789008554dcbe0571a441999622311de521c495fb8192fc73421143af17e6b0a +size 8175911 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b90602023171021f58f26d139155aef4c9a84edc --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e70baf3e9694c48eaf545a9cbd871dab6c9ce17d8c1dcdd63b416f1444cb5285 +size 613301 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b03fb0b8ef36a53ace462a1a8d511f28cb4e96d8 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:14cbaadd364ad84e4c0d20e9166413b4f26ab44d717f5bacb9f96567ebbc6ce3 +size 19816873 diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..822d0205ac4af79ff46d2e22e971bfe816932232 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2188a48563cab59074080182d37808425908294470eff2d363f30aaefdfefe63 +size 19423917 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..eab81fb92175c852d615761e04c46154f6d5fbe2 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cfa77d7b4fab58f8061c16cbf6e9f9e5d10c927562e24440025e27040c00b816 +size 1392170 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c65a722fc671c203948dbf8e9b250c9c82b8f888 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d41ea751bf19288d6d99d2b1bce14dc72a92cf7101c8f7d75b47d3c9651cc872 +size 222781 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..81c3c07d2282b0b780ef4704bcc9087e274cfe11 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:443f09dabf0e8d7439c4f036fafb1f49c9477605b66537a7780bedd2288dd81e +size 609158 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..899fa59e3f64695c41e3e78176262987dbe48cec --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cb7262333d0b9caacca837d2c80e847e1aa27ab9e37a88ca156091b47ddc5aab +size 887909 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..27c3a1ff962c6eebcdf96df709970e6d2f011b1b --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4012e2c0970ea0f406bd02a62b972eecbfe9ab509c9dbe96d5db2b0dd371a5e1 +size 77849 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d1c04e3110708aaf32c88f9625fbc0b0783b108e --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:67a0fc41159ee92e86053b104ef0aa2219438bc9d79e71bfefadf32c24d2654d +size 905495 diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d10d64c9d5ec002531b5940d986510252f8ca2ae --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:65d57abea1cc1bb3c67b2465598daf4ed02a7c384b9429cd2685cd3a3ba9d442 +size 12829697 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6465e5283805f9285acc619ed9c2dde809dfc1b9 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7846f3c757f9ff37d43e78e2319c95c1d6ea1de66ce3719b72e8c85172facd92 +size 12609742 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2d2d1df9618a7c8bb0e6e36900b273c561eb280d --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb84c478e02641d8c9908a3ad5a9ccacdf1bd52b009fbb774c5767a82d9744c4 +size 6232893 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..317d15c19ee40aaeeb267588b373ca67bbfe50da --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:152aee61285dd16376565be6cf06bf9fad80f2d7ea439b4791e6ef480377a68d +size 9353250 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..61a251c8c1974ff24363ce71c016395719496e2e --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c13ec4f701b84a74345e38724e3eb1e53df429609a543ca02bbfc05fb80a5f69 +size 7215367 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..89f18cde913a4600119cbfae077bff50b41651d1 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f9dfc5b2a8d25149c4bbf6e2910c13645c5a983088e14e49b5df69ee8f4dcc13 +size 10302558 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5025e2cee42674b0f8b8a0b6b3e85cbd66b740b7 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:35b8fb40909dd75db3dbb8d2de4e4e9a33fe8b1932b641e52375d214159051ef +size 21208449 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ca8e79402d0996d1b9b45289ab1dfff33d7b0eff --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6dd412a830c04e0dcd18dca08fcbe359e9790b2eb8b4e00f0b4c71ad1c5ffd14 +size 17649598 diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f04a4f5e5732aa2bd441aa0474e7dd1b9aa942b4 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0859bd5a7647426c1cc8bc2528fda63fd99aa42c513f299c4e4f0efbd613cfdd +size 43364812 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4478bcd72854f43451cd6570ac15ffde9daf09f7 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ccc1440f07b0fd506096282d4105036e6e93c6c0b81e6c7953c89b5ce5132295 +size 334062 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cb5a98ce4625608d7a758f8a318295ae2ab6e94c --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6993ecdce61a7bc72d4a8b8d7355e388b83ac763b03f69e443d7db051e8209ed +size 253049 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3384da3b4fd3188a3f16e7e6295f863de25d2af9 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c95f054967e5d3b1964038bf056d57de91e4921ecae8b1416996526ea2b99b99 +size 38714 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e6fcec7d27b142fcc3510f2af014998c45eded52 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5034f2888056d44f28f8223c9ec1c46e24b80a191e3030b58fd25d95d42edc2d +size 286116 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bb6f94c7e5c581ed886a577cece3fd0b9d4396de --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6fe9a141cd4ec9fbd4f3fa33aaeb0d559b03d7b2c6efbeedff1c12a92cb1fe7c +size 2734126 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..90c06d989e1b57ed30ea6ac425d6197234eb2366 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:40f74c0f8472ccfcf2feee7471ab145b1d6377b3e1ac15f434f185a6afc83f32 +size 409014 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b55e67ea2349cac6a5496914e515330442bb6055 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b49a683f254e8ac5933868afb8fb019fb0e6b65891b14c7d43f408ee0343ede7 +size 1209245 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..993dc5a95df9df6d909360f1a162408166e0c50c --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6095c00305490e336332d7c190bb017a2882a7c1b06b4c7f825b516e4aa19986 +size 543736 diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f59f506ab93f6dae30e6a4ba6a8abe46991c823b --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d6358d16163c23363f29292e41c8be6532d33b39fac314b980d3abf3f27bb84d +size 3103279 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20d30b46a20ba72e3ac2c2a1eb6685bf852ae5a3 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e411cdf3641cc3536500d430162e4d8f592bef6c000fa4f4c08301e779b81fc3 +size 17929136 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..132929c34b9631e29cfff4c52719283b3fbca042 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a66d7f37e129d1b85b9500d8f3c3ed8d9bf5cab7b8bf9bf3f509f70c7a2c54d3 +size 12614100 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..aeb280ae237e1e558e33e2ccac917803733e1323 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fa463de7240bf48741bebe63def46f579b6ff312be5ad81f8432f7329ed93d25 +size 6200682 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f18a3b2a3f8716ec73f0ead5895b1a799c623c09 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c1cea5a060df92877a8196d57d42a1ff18a38d0e6cfa19a5e7168423196cabfd +size 9390517 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2789f8990eb75233cf582ca84e76f2a9e0a7f562 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:27ca65a5ca63d1ca6133ee48d4ebc7066d542a81cbe63ada753bfead70fae113 +size 14661013 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a5c3bf8be292ebba9f9975f5d68d3dfcba23bb1d --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b8fe9d5ea07e63508c7d196058a78e07d580685aaeae8a22044a89af18b781d3 +size 10067956 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d0a761e2546e01aa6f7d8f74f8c671277b6f4a21 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ad2070259df67538988cae9685f4ef210c92deb5e78642c036f4e96489453d7a +size 28435884 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c8c202a0bcfff66c37b4a11b4660f78e4d139509 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0caa39c41fa1b555c99587e965b488ee4d1682becb318d7130a47bed74337010 +size 19051036 diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..610a827e1afc947ab70ff05f111ad95695f06c14 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ac846855b209052bbf17f0e8a5bcfdcb7e248a910edd47060e8a9b2abbb00b83 +size 65381583 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..923da412b1b2f603379e383a98c88d8af86322e3 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1ffd0f8228df3f2afb4028d041b4f2086b58f75c795a93ef5f4b681dbedc9d1f +size 17935015 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ed0d2048e4da62b50aa692bf76b7fa3863520f97 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:defd0d7b706439a079e0b80b3ed942ad9686ee9cfb2e993bc5e82d347e99114d +size 12624310 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cbb385991ff358bbbb503651d07a235e1ec7e924 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2a064f3160b90d1e529ef6aabc1f20bdf8bb85aa9d77cf9e0202bf69d61746b0 +size 6198173 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b4bf9c9dc2b84bb9ef34a7693c0fe51a5941472b --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:73f5753a88337106c4366839c749350e4ad00e3a861b9336b007e2f06eef617a +size 9386044 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e629b76815b716da3175efdcd124da75979ca751 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:92471f4b9ea641141abba23bda41461d518c5bbb9f9c5684663886697f82d3a4 +size 14662702 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c03418b79526f4ae7ad0ebd9ad89045a4f55a573 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2deadcd9f423530fe9ab7c6dae1f6468f13b036f278d58d16286e905d075d854 +size 10080962 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..407a02309d81bd70011278695cb856348711c03d --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f3e353363d9b213faed469feb27a6439e592f300707d4d445e093243c1d23cbf +size 21086435 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..64255c708f564c278e116aafae4aa4ed2bfb9ecd --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:33c296e41ddeb65a4bb489809d5390ad6ebd15589ca61e255ebd7d9d3647ff77 +size 16340388 diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2f36698c0a15c2109c08bf671b5a0e91ef9083c6 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fd5f1877fe0f8da25151f536c18b14331760c488a045ef0f8aa9c043a2cb48b3 +size 65464434 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..853bff1fc31dc24870a579b12479635648293ea4 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:880a2e56dc63f1e544d2966cb3f3b2ff11440343c1ac98b2a5d879e5ec99482d +size 1511732 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2332babdfa89e88aa40f1ed20d98efc640941490 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e55a9d10cc580d3a2acb8562e4f761e2e2a47ad1774c3dac62be637065ffe9e3 +size 457035 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bcc1d47590678a5a7174338080ed76b3df1cec56 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9aa9c49784bb73e11f5410572fc5bf1d5054deba8ec20d071340facebff3e350 +size 117004 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..223ad8746e62da66c9d531fa679728c7a152b5a4 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e72c40a3c13ee93fde90655d338b047945791bd3b30cff9924ba3705ebb34b1a +size 389447 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b059799e4bb96cbb103abf5cd8b8168877077e58 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7dda95102c8c83e78cea76ef3b172c9d7ba57d175040c0b0abbca86ebed823e3 +size 876094 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d4505477321c4fc21e84fc881b3283ad51191b87 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e431c5e9f46e40cb7e09f0c7dc419f1b677c2deade5299c8fdd8e6013768bc10 +size 1238090 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7ae291dfe54a2c09299f159b1ef73ef3fac981 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e1318e6b02575bfa0af992489e9cbe724d9ad46482e16a505b21845f281c5406 +size 2050836 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..268bf3d9e6ecef285af7b6fc81dcfb0649534012 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7fa85ba334e34dbbb8ebe3c960005d445e2d031a176b39764c5e79cdfcc6fe8a +size 1252565 diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..53e340da64f03789d329654a2921095f83a94f86 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d5ea7f895bc02cc3fe9d5cdd9826af2afb4a4ada2d493f40e4a0b37164badb28 +size 10326320 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..39c82a99004fa54a6e91adf0285b89226cb8f56c --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3279ffc79b248f15cfeeade3c84330b7c295c93c159eba1dd952c17fb40c4f97 +size 905651 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ebeb5606bf4fa62f0d3a7ed08876f1913f8ff00f --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6a0090c71598b495de0d6cb2e87c10d492cfd39107469a829d8905a1955c6798 +size 214571 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..83d7b7a90b75917c437464eb6d6008a42c558e47 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:935517e2531f317e9099a8a446baf43c3015d91baf9cc688925e3d1342199ced +size 582348 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8ebd8c896c13e4b347d330b986648dca299597b6 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:11fe881247ceeb7cce08161272956c27f115c1f40c4678a20994614f9fb0f143 +size 5603 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab97f990d4263b965b5f2ebd38b550c3f59a766b --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:60f543ef3cda058aa95e7740b1c2b7f6ec285ce8692a90149829d451a5e84ee9 +size 886065 diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d44789012a664194a5eb78911bec59d1d2c98343 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d456f4be0c2bc15ceff9ded624ddb80d0322a30a4e0993a1d0d2fdb0d3ed79be +size 19305548 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..15b752abb8cbc32f9d98797512d539dddecb2e09 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4767155ad5b60eaafe7957af7d7b0a12ca6105db2677a418a4bec27ed275cf79 +size 12615387 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fcf1347929596b17052e08619045da2be4c18696 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f9af27b28d9c8f4251c1c3014190105d385c2702d104ce17e24cf8b1262909e9 +size 6236640 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..59577a708243083dfcf15859bfc198c9a397527b --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3d5f0d9f17dfba8e62c56d8760c581bdbc5824dab20a331a5aa9111fe13c6038 +size 9364914 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dbcaefd96c8663688dbda216de80461e0c2a98ad --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c81c9cc19a9369c495dd2c727d5d9209fcb33322f21c081579090f692f93c3fb +size 16239665 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d4f25c4ee9991fc0039136ccd9247dcdf9042d0f --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cce83c6a4306b0fddc5c35571028d21bc348786e53e02f5e0255e74203c36cd6 +size 10317469 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0c0aff075eeb68dd403e74fe31a9d6e67aeebeed --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e009e6bbfc30e97592d014ba160621a99475be83af614876de1591e905b14f14 +size 13248851 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f49a77a185651d5576a2cc0887eadd7be2c4292d --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9f4a4ca043b04581390422e92dd9393c8f399905dcd88d4693975b9e257f70cd +size 16306682 diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..933a9e78bbc591178897957d9ed92dedb832c4e3 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5101c91e1d0676270f6f611000b271145544c4163fc662ab3cf07594659175d2 +size 24470593 diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2cd06a704b2e34b95d7a1852b3f3541b4f1e3664 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2b06cb8ee2fe8e63def581acf1822962d158783214b60bc976d63ae51a17ff17 +size 386 diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4b75ef0cc04b7e5ec9e7f3f167165a747a224f48 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b80526f906fc7b591857fc2f3140c8297b16e9c3b53ae13ed91e1b67be6c6b00 +size 4971128 diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cf7f4d69d972b0025b16160093e9851cb462dbdd --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbd3be6c411480801f89ba2351717256f81997f8b1ef37519fedaec309546450 +size 1043035 diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5fce1017e138b1c30447fddc96b9fbf5144e2be1 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fb52fe3bb1e2e3ea6465ff66aefb84605848c157c1a0e4e209f0465076e171d8 +size 371903 diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..24ad845ff04a6e0e4eaaf9d0d9bc311afbd47c2e --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d7ed5f658eb87a2ef5625a3d3e9a3f17cd085578e05efea2c6c1a57a7d450956 +size 567 diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cf7f4d69d972b0025b16160093e9851cb462dbdd --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbd3be6c411480801f89ba2351717256f81997f8b1ef37519fedaec309546450 +size 1043035 diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5fce1017e138b1c30447fddc96b9fbf5144e2be1 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fb52fe3bb1e2e3ea6465ff66aefb84605848c157c1a0e4e209f0465076e171d8 +size 371903 diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..24ad845ff04a6e0e4eaaf9d0d9bc311afbd47c2e --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d7ed5f658eb87a2ef5625a3d3e9a3f17cd085578e05efea2c6c1a57a7d450956 +size 567 diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..440a8bf0480f55f10b598114bff3620d94520051 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4018eec686bd03057353686cfabad4c6d1252f88978fbf0b91c6b6c2b8ad3c3b +size 6233347 diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..331ca22ef7fedce0ba0645f909fbf474837e35de --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1c5b1be5bf906cf43a5c0fd7fc9cc9ea01dd009d63294fa9db16d8ad969afe7e +size 9367097 diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1118517e621ba93824a714d1ebbff249535b5fc8 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bff1cd0f02e776f759ccd96b4c70462cfba33d9e962388aff9e139f73fd07e48 +size 10306164 diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a9e27d041e983eecd3b469cb0c7325bbf4c64dd9 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:628415c8749dc0db4768d9c33655b416ec1c93a9613a640bd2ec66a0db3d9c00 +size 65750045 diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..afb63e19c20bdcf617b0b2ab7d52b4fcfe26084b --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ad12247215037dc0e64d3ed00a7acf2e3e6be2d391ff9e86605ea81ee74ad5cb +size 95686 diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b93c7994ec1d62f7ea148ae6b163312801a55180 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4af89291023d92372d4a848a796ae68379f7bdb185ce85aa3a08cee7b703eef1 +size 3148485 diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6927d0653856f91d2f9711b4503beb71df2a10a0 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0c93f6726c691786fb697abd327a524a5c2c704751d86274630ffc70cf09345a +size 3207869 diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..efac2e7125cacbaf32e6cd8d2a34afa8566e31ff --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2d68bef5e48c9b7eeb7b838bfb39f3ebc53faa9f38272a61688af7027ff76154 +size 5183722 diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c32fccf2149ede99ba3caef28927af17018b39f2 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1b9c592cd352ca2889af92b15fa78e759153c32cd64feaeb05ecc66c4093be73 +size 32672105 diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d9dd8b29461c20946c47793d34aeb6d05d341715 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e1d40dfd4901a7e3828c1120e29449d0ab1b0e990a57c7bbdb046da3e68890ce +size 6500248 diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..31a14ef325463585f01c7734455de5462ace7cce --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:017d976c4389a4c4e84460ab4cac99713debd55f21d9bbed7d6dfcaa9e3ea046 +size 9903254 diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a6b55ab616d6f725aa1db8c323215c12f83311f6 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4f5cd9ad562b8978b61ac260e72893417c83e830e67dded66fd069d94346074b +size 10121744 diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e1ce48dce8ec214c96871d1b405e430612884f53 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:61d65a8f9b823efe094dc587ee81b1186b96209efa42ecd3bd74ea777671c673 +size 65313393 diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f9c334f0321aa949ef4bfc459db148df24c1722d --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dd6d44e54a41257e939e698c7ec2bfc5d4d23be46f6dd420389b7949b1499b36 +size 3152755 diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ad8b885c9d9297152721ecacbb013afaae4c6971 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:fda796e9da118e494d37170f113e0a69c73545d293f055e77b89c69be0ad4f8d +size 8075282 diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8112c798741360bdd132a579872d01abe838f2dd --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b6f02ba3e7d244e74bd20505d4b490ca463f47566e5ad46240d531344b00e055 +size 8828901 diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..95623e5c5f015986a458d5b6fa732ed9ca741bdf --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e734baa2719c7dd8c84216e044a907b11f6cc7252c08ecb51dbe957024479377 +size 24060944 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab31e099345626971261947fc3cb494be2678247 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5ee369000cdf96b95b7d18df727e958d1d2ef201628475e516721e66f2d8d60b +size 3140618 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..328ccc1e978f62c867e8fc630f26911bbcc91365 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:052946706f1c7a7ed97d722442520da8105ed812baafed27bc1e7d2a83eeea90 +size 3270364 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f81e836e5fb6e1da7f2d880a9cdd959d3e1314c7 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:563844257b710ed729a1612974df3851677f5448ad059aa85f034e0e7acdb639 +size 5009382 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f6178b99daca3de2c3732d3e19695c3d0eb9db7c --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b7aafc4249e31a568627e6c3fd659da523ea139d2546889c00dcd0e135416371 +size 65347342 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..192cd68489e8dbac7afc9c747bae4abe9b48ecda --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5585daaba25cb81dda6c4288dbfcff0de9083ed3b7b5143b003d1b1b6aa38d11 +size 6201038 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..acc36d2c41a4d76df96626805f21bcc53c38c890 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7b816cce6656cb1a9ec0417b5fb7c5254bb4cbcddb3228554244e6dad3198525 +size 9380225 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ce3601592b2411db4f41a2a4c533cb4c9aa12ebe --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0af53ae57a7a3b3ec7b62fb98a6feb50b57a0de4de327057e488baf10d79ba12 +size 10060787 diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bdd84b86888cfcd7ccbf03bdb59cf241fe40dea9 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2ea7bbdf4af86dcbebb0324ebe94028ca4a2c10a60ac964efddbc63705ea1ac0 +size 65361248 diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..17d3c9e987daad49646a07c3ee7659dd3e6facb6 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5befac208ad59448a1b27f3e9ddea07ca89af6d4d77df786340eb996ea26aa4c +size 6233103 diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b2dfa37be58dd13a2e0b749c6bb90a48389ed68f --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c275dade0bcf319034897ec836db6b9ef62d8a4f13f2e36b191aa2955de8f0aa +size 9355326 diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3cc4366104c9be685261b2051916bc4fb3feb0fe --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:da44c2c03295c02f1eb0e4baa5a564ed57eb5d8a3c3598eb67f48e0d6870d064 +size 10302984 diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5f714250cb2a555acf4133a71239bed23ee61765 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1dc02cf551b1aa1bbdda3a2d2f52e49eb4265dbd3b3a98cf582a57579d9c06ff +size 38617762 diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d42a9ec9daab07efca042c72eccffdd6fcaf29ce --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2e0bd3079e1cd073f7ed228fd616bd4be22b678839020cebe29e28b569fd933a +size 156890 diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..520928e08a4eff4d0d299ca441bde73975e0e3ee --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:48059756657508f70a64246c0be86523315608c74d4742622541ca6b58a13a85 +size 4377762 diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..06b72a6a3d856cb9caf249ef895102d6a734077a --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a64e8d133ea2d1e7eac508c8afb8344c0fe75b18c9d50cc9c82f9add7d4762e3 +size 1532183 diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ac2f63bd36148561d862a4bd53cf19dccdb8edcd --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e543d6b0611f49eeadf7049df3851e92998960bf08f49072b9393c1322e77c75 +size 14822674 diff --git a/stats/compression_rate/google.byt5-small @ cc100.en.diff.json b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/google.byt5-small @ cc100.es.diff.json b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..17d3c9e987daad49646a07c3ee7659dd3e6facb6 --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5befac208ad59448a1b27f3e9ddea07ca89af6d4d77df786340eb996ea26aa4c +size 6233103 diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b2dfa37be58dd13a2e0b749c6bb90a48389ed68f --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c275dade0bcf319034897ec836db6b9ef62d8a4f13f2e36b191aa2955de8f0aa +size 9355326 diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3cc4366104c9be685261b2051916bc4fb3feb0fe --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:da44c2c03295c02f1eb0e4baa5a564ed57eb5d8a3c3598eb67f48e0d6870d064 +size 10302984 diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5f714250cb2a555acf4133a71239bed23ee61765 --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1dc02cf551b1aa1bbdda3a2d2f52e49eb4265dbd3b3a98cf582a57579d9c06ff +size 38617762 diff --git a/stats/compression_rate/google.mt5-large @ cc100.en.diff.json b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..22b1a95d7207b77e338ff7348ebf5fc1b35fff7b --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:86739f2545c4cc847cd64698933606a1eb82f9bc266a1262b9b55671a9e39f42 +size 134091 diff --git a/stats/compression_rate/google.mt5-large @ cc100.es.diff.json b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..53ec6997cc1ad7c9098fa868bd40ee92b9d62e0b --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:64b0dc29abc396f297bb614f4752d640e0a2f2892038b487105eb19284b8d838 +size 398583 diff --git a/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d1084047c02930d98ae822bae06abbc61942c0f --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:88b7b90e9a71807c06f35886a66e98d4b8610ca06f47b0238352e791a6eb180a +size 1239088 diff --git a/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..de74f6c787d28dce0ceea52736668fda14ad3ef2 --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8909ff00298696a2df157e564e58215345e4d0945c1168cacdcd95b0202e3dd4 +size 10556388 diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d42a9ec9daab07efca042c72eccffdd6fcaf29ce --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2e0bd3079e1cd073f7ed228fd616bd4be22b678839020cebe29e28b569fd933a +size 156890 diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..520928e08a4eff4d0d299ca441bde73975e0e3ee --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:48059756657508f70a64246c0be86523315608c74d4742622541ca6b58a13a85 +size 4377762 diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..06b72a6a3d856cb9caf249ef895102d6a734077a --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a64e8d133ea2d1e7eac508c8afb8344c0fe75b18c9d50cc9c82f9add7d4762e3 +size 1532183 diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ac2f63bd36148561d862a4bd53cf19dccdb8edcd --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e543d6b0611f49eeadf7049df3851e92998960bf08f49072b9393c1322e77c75 +size 14822674 diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ef0e547e6bac18a17822e39b3f93db7a9c4772d5 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a7e83abfb0bf7fd9e210c16f6ec9de13741721b8b4e67447143403534270dcb0 +size 15230375 diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e39e9069619a3cdd633fd4192522724c3bd1ad13 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a1960f43d1892dfbe433d8efdb361aa39dd061b0d610c727929effc2bb456e57 +size 18488387 diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8583a32067acef394517722e7d5c3e759088dbd9 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:121c0c2af7f3afc829aea615b8e2662a9cb7afef127f79d1b5d0a16377b9b2f1 +size 17792331 diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..161a04026c15d14ce060cfa4ecb614fee1cd6682 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2604ccf26db10e6408856307b98e60abed908453d0281602056a6e4617759215 +size 14994729 diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bcc1d47590678a5a7174338080ed76b3df1cec56 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9aa9c49784bb73e11f5410572fc5bf1d5054deba8ec20d071340facebff3e350 +size 117004 diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..223ad8746e62da66c9d531fa679728c7a152b5a4 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e72c40a3c13ee93fde90655d338b047945791bd3b30cff9924ba3705ebb34b1a +size 389447 diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d4505477321c4fc21e84fc881b3283ad51191b87 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e431c5e9f46e40cb7e09f0c7dc419f1b677c2deade5299c8fdd8e6013768bc10 +size 1238090 diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4c31fcfdc5863be0f929c691f7a04c8d93d5a8d5 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6225bd5f432242f1af0f1d0f146f5c2698875347bbf4551a4437990eed366074 +size 10326157 diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..28dc55b81667c4aee7a77983661860c84338ee58 --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8ecf182bbbc2d7a96f7e212e6e7196532bb33871e29f741f4e6045169be4f7ef +size 134552 diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c0fd675e8c971df49a72b527712971db2cde2e7b --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6d2912b9368b03431f3a04500b8d29f61122fd20305258cfb0b24e3bff2237c8 +size 408125 diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..88b0041aa662457117e5efda1f7ce3cff7e64eed --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b4a4b800fc99b94ee7d5938c827d7a5bd90ef287858ff48a9890c9669bba5fed +size 1245774 diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..536fb655df2ecc395d9565563a23a9ac65c25d4a --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:00f915298f48369491d99e2254e03a165063db53dc9ec5ff8eccfb2a0f4db84e +size 13323686 diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..93eafa753ac68da642106d318e0fcb2ca8cca097 --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7fc602dc3fb8d07eb6e34ddea0eb294fa1b43dbb791174a4246513698d6a44bf +size 91077 diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..96a78fa480b29290b740dec2f446a10bf7c6ca88 --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a471081b3ed044d25d5b540c9f45c69dd40729e7534b57a55b7e0cb162a7be9c +size 143171 diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d3d059a0785e85668148531000ccdff17c3562c --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a41ada752e3a7eabb969b5e9112d125d010e3556556d6131a163662d0796133c +size 890164 diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..33c2e319b6ffb8be08be103d126a59da9fc719ee --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cdf50fe9946286b55ab5f6e8597e0cea0ce1da50845b5c7f2281a2dfa014e29c +size 29563 diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d7b6d6e7ff5ea4e83640c3aacbc6abf4601400cf --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f7f435bbfc8598a76b61040a3a9ee809871c849fabf000b00577e4b28b74b219 +size 866383 diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..20521a3f34fb0197b8acb38155dabfbbd5a003c2 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:485650e2496a4bc063ef389d1852bd87dd9e77acc92f0016f2713ea0be2994fc +size 85567 diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4cd1879e2f64b11c76f81ed1dbf8841b4dbb8e --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bb0c9ff29b55930e8e5e4bf41432533d8ef3ff3c2c55519670c038ad9b669ac4 +size 121222 diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dda75cea8dd9d9fece8115a48679bfef0eb3c750 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dbf2d9324704985dfcb085f1af7f6729fb55bfa13d65a1d69e4f6e5fa8eda805 +size 882312 diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d7b6d6e7ff5ea4e83640c3aacbc6abf4601400cf --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f7f435bbfc8598a76b61040a3a9ee809871c849fabf000b00577e4b28b74b219 +size 866383 diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c2c99ab6bfadc949ff573d55bddfc608115d26bf --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:32d9ecfe347536ef87ec5bf692bdb268fcf337db56b0964f1dc25d909b81857e +size 2938824 diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..40339eaa4b3a459db0da75d5791af4aa8b4774b1 --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:97d5e5cecf59c8d401d77a6000cb917782df0603cd1b25c54674e84a7fbc88cd +size 3670891 diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2cd7691e70fd1a5b9b570c94f90b7bf6a1fe1f7a --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6946cde86b82792ab144d20ae2e6893d6cd53d0c5000e9ef8d261c90cba956cd +size 7174676 diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7a024e10657c42771ff04e8309cd03d8c4a10ae3 --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:90f9981c0dc39c69ac05f65188051371efef0389bc9f75cb18b1a71d7fccafb7 +size 34164659 diff --git a/stats/iter_vocab/01-ai_Yi-34B.vocab.jsonl b/stats/iter_vocab/01-ai_Yi-34B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4703fbcb46973b3581c1422f40be39bbc1c7fa1a --- /dev/null +++ b/stats/iter_vocab/01-ai_Yi-34B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4b9c6a5cbe3f103307d7f7c33945ad2e4e1a84a5d055822747a262019d41efa1 +size 10676162 diff --git a/stats/iter_vocab/01-ai_Yi-6B.vocab.jsonl b/stats/iter_vocab/01-ai_Yi-6B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4703fbcb46973b3581c1422f40be39bbc1c7fa1a --- /dev/null +++ b/stats/iter_vocab/01-ai_Yi-6B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:4b9c6a5cbe3f103307d7f7c33945ad2e4e1a84a5d055822747a262019d41efa1 +size 10676162 diff --git a/stats/iter_vocab/01-ai_Yi-VL-34B.vocab.jsonl b/stats/iter_vocab/01-ai_Yi-VL-34B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..7769e1fe88d94bbdc95eafb61db24fad2178e828 --- /dev/null +++ b/stats/iter_vocab/01-ai_Yi-VL-34B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:33c0cc2aca04ef822ac0988527b7826bd3c5821c7b90468994ba38b3e1b8beec +size 10650016 diff --git a/stats/iter_vocab/ClassCat_gpt2-base-french.vocab.jsonl b/stats/iter_vocab/ClassCat_gpt2-base-french.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1f609aeeaab9dbfbeec80534acad24e9fedac5bf --- /dev/null +++ b/stats/iter_vocab/ClassCat_gpt2-base-french.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ac199a8006a41c0ff49e92b4b4141125f6881d365363ae73b3caaa1dcfd7be5b +size 9292457 diff --git a/stats/iter_vocab/ClassCat_gpt2-base-spanish.vocab.jsonl b/stats/iter_vocab/ClassCat_gpt2-base-spanish.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..055dc2037719225e97e3172c1eebb6e696ef708c --- /dev/null +++ b/stats/iter_vocab/ClassCat_gpt2-base-spanish.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e15c0cae604a41a13c7e09e5353755f6efa2e6b47af10f1b8eff7534678e69cf +size 9319038 diff --git a/stats/iter_vocab/ClueAI_ChatYuan-large-v2.vocab.jsonl b/stats/iter_vocab/ClueAI_ChatYuan-large-v2.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..aaa5b1ac9560f6cb56c0226add16bc3f59329ade --- /dev/null +++ b/stats/iter_vocab/ClueAI_ChatYuan-large-v2.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:535fc93b742c3677e3a0a848f4050afa1f558f4e97961ba5f8e8831a4efa1dfb +size 4913584 diff --git a/stats/iter_vocab/ClueAI_PromptCLUE-base.vocab.jsonl b/stats/iter_vocab/ClueAI_PromptCLUE-base.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..aaa5b1ac9560f6cb56c0226add16bc3f59329ade --- /dev/null +++ b/stats/iter_vocab/ClueAI_PromptCLUE-base.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:535fc93b742c3677e3a0a848f4050afa1f558f4e97961ba5f8e8831a4efa1dfb +size 4913584 diff --git a/stats/iter_vocab/CohereForAI_aya-101.vocab.jsonl b/stats/iter_vocab/CohereForAI_aya-101.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d233addf8e4a37d6a537a59d67b90f6ca91123cb --- /dev/null +++ b/stats/iter_vocab/CohereForAI_aya-101.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0499407888f5a421056e281706ebf29bb62b473a7c3529aa899984b2e01047d8 +size 42184187 diff --git a/stats/iter_vocab/EleutherAI_gpt-neox-20b.vocab.jsonl b/stats/iter_vocab/EleutherAI_gpt-neox-20b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..ee0d31fded550e8efd030de477e0bd224ebbeb07 --- /dev/null +++ b/stats/iter_vocab/EleutherAI_gpt-neox-20b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:497004f116f260ed773483c6704aa384674ee2e98e8a866194f32ea70093396a +size 8864430 diff --git a/stats/iter_vocab/FacebookAI_xlm-roberta-base.vocab.jsonl b/stats/iter_vocab/FacebookAI_xlm-roberta-base.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..f607a4cdc748889bc0121412482241ad70581424 --- /dev/null +++ b/stats/iter_vocab/FacebookAI_xlm-roberta-base.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8e57bc2b5bc6194e786063b626d50ee1e8d4af77b9da746a4efd3cd225776af6 +size 47572030 diff --git a/stats/iter_vocab/HuggingFaceH4_starchat-alpha.vocab.jsonl b/stats/iter_vocab/HuggingFaceH4_starchat-alpha.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..5fa4e882de4947c70ef11a22e4234013bf7c37b2 --- /dev/null +++ b/stats/iter_vocab/HuggingFaceH4_starchat-alpha.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:14fe80b95e41dcde2ce5a7ba9e224a29c3e20d241afabec1b794347ee0bda6fd +size 8612614 diff --git a/stats/iter_vocab/HuggingFaceH4_zephyr-7b-beta.vocab.jsonl b/stats/iter_vocab/HuggingFaceH4_zephyr-7b-beta.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cf00ceaf3e5ddfffda8840d4b5bc688bbc80a709 --- /dev/null +++ b/stats/iter_vocab/HuggingFaceH4_zephyr-7b-beta.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9b61cb12541a6309543f766b281c96d57b953c9fd19c9b974c5fae07cff1a3e3 +size 5248321 diff --git a/stats/iter_vocab/LLM360_CrystalCoder.vocab.jsonl b/stats/iter_vocab/LLM360_CrystalCoder.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/LLM360_CrystalCoder.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/Meta_llama3.vocab.jsonl b/stats/iter_vocab/Meta_llama3.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..b87dd5f5ba708b3565325a78eb7fc0a41734dd79 --- /dev/null +++ b/stats/iter_vocab/Meta_llama3.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cbd62a7b807dd1f933ee09dc7c9a1987cba4e13e1f3398efc7d8a740440eb863 +size 23828239 diff --git a/stats/iter_vocab/NousResearch_Llama-2-7b-chat-hf.vocab.jsonl b/stats/iter_vocab/NousResearch_Llama-2-7b-chat-hf.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/NousResearch_Llama-2-7b-chat-hf.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/OrionStarAI_Orion-14B-Chat.vocab.jsonl b/stats/iter_vocab/OrionStarAI_Orion-14B-Chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d128edcb2b74754e162c150483dddd9f06d1e7dd --- /dev/null +++ b/stats/iter_vocab/OrionStarAI_Orion-14B-Chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b7e86ff74520e4aa6e08d027b7cafdfbf4accf4728cf0d8d4dfe959847e178c5 +size 12998491 diff --git a/stats/iter_vocab/Qwen_Qwen-7B-Chat.vocab.jsonl b/stats/iter_vocab/Qwen_Qwen-7B-Chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..c1b8d5c0fbf1a039d2831fd648b95bf9bedf5377 --- /dev/null +++ b/stats/iter_vocab/Qwen_Qwen-7B-Chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:d28f6b1aff050238b54e9fc7a128878f99bb9a5f9f5dfc8f5194668c7a6e4858 +size 25344996 diff --git a/stats/iter_vocab/Qwen_Qwen1.5-1.8B.vocab.jsonl b/stats/iter_vocab/Qwen_Qwen1.5-1.8B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..caf26ff40bd469af02e24220b62ab2eb83dbc003 --- /dev/null +++ b/stats/iter_vocab/Qwen_Qwen1.5-1.8B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8c97e8cb394f2785162faa989beb3d00879c1b811de50f2337d6f2ea47f0425a +size 28963880 diff --git a/stats/iter_vocab/Qwen_Qwen1.5-110B.vocab.jsonl b/stats/iter_vocab/Qwen_Qwen1.5-110B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..caf26ff40bd469af02e24220b62ab2eb83dbc003 --- /dev/null +++ b/stats/iter_vocab/Qwen_Qwen1.5-110B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8c97e8cb394f2785162faa989beb3d00879c1b811de50f2337d6f2ea47f0425a +size 28963880 diff --git a/stats/iter_vocab/Qwen_Qwen1.5-14B-Chat.vocab.jsonl b/stats/iter_vocab/Qwen_Qwen1.5-14B-Chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..caf26ff40bd469af02e24220b62ab2eb83dbc003 --- /dev/null +++ b/stats/iter_vocab/Qwen_Qwen1.5-14B-Chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8c97e8cb394f2785162faa989beb3d00879c1b811de50f2337d6f2ea47f0425a +size 28963880 diff --git a/stats/iter_vocab/Qwen_Qwen1.5-14B.vocab.jsonl b/stats/iter_vocab/Qwen_Qwen1.5-14B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..caf26ff40bd469af02e24220b62ab2eb83dbc003 --- /dev/null +++ b/stats/iter_vocab/Qwen_Qwen1.5-14B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8c97e8cb394f2785162faa989beb3d00879c1b811de50f2337d6f2ea47f0425a +size 28963880 diff --git a/stats/iter_vocab/Skywork_Skywork-13B-Math.vocab.jsonl b/stats/iter_vocab/Skywork_Skywork-13B-Math.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4982b6ba54247897a6cba221e1f87184507d50b0 --- /dev/null +++ b/stats/iter_vocab/Skywork_Skywork-13B-Math.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a04522f3b887eaa5e0ac113481874d43993a5d86ee1d9b4072c907f17854aa8c +size 10206144 diff --git a/stats/iter_vocab/Skywork_Skywork-13B-base.vocab.jsonl b/stats/iter_vocab/Skywork_Skywork-13B-base.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4982b6ba54247897a6cba221e1f87184507d50b0 --- /dev/null +++ b/stats/iter_vocab/Skywork_Skywork-13B-base.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a04522f3b887eaa5e0ac113481874d43993a5d86ee1d9b4072c907f17854aa8c +size 10206144 diff --git a/stats/iter_vocab/THUDM_chatglm-6b.vocab.jsonl b/stats/iter_vocab/THUDM_chatglm-6b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..ec6aebe0a70ed94e1b0adb8da0a42bb2e70e4314 --- /dev/null +++ b/stats/iter_vocab/THUDM_chatglm-6b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9b400142c9056ea10b8f2f3ef843189f29020f37740f026928df49d595002917 +size 22311597 diff --git a/stats/iter_vocab/THUDM_chatglm2-6b.vocab.jsonl b/stats/iter_vocab/THUDM_chatglm2-6b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..3af4d53810eb743ac2c46e5dde397527015928ad --- /dev/null +++ b/stats/iter_vocab/THUDM_chatglm2-6b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f57f6d2246876af719f88f1e0844caa59235cd737df9c5e229795f507ce89970 +size 10400378 diff --git a/stats/iter_vocab/THUDM_chatglm3-6b.vocab.jsonl b/stats/iter_vocab/THUDM_chatglm3-6b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..3e1272306c4d4eed50e32c7fae13fc2111ebf739 --- /dev/null +++ b/stats/iter_vocab/THUDM_chatglm3-6b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:eee6eff9afe6e58f70f20e9020490463eee052935ac96cd890967bf5d090e812 +size 10401533 diff --git a/stats/iter_vocab/TigerResearch_tigerbot-13b-chat-v2.vocab.jsonl b/stats/iter_vocab/TigerResearch_tigerbot-13b-chat-v2.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cd10cb2a61535f783310a9fc28827d078d70c471 --- /dev/null +++ b/stats/iter_vocab/TigerResearch_tigerbot-13b-chat-v2.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0c1e310d1661f0fb7a1f7ac883f132c87299844679ae5067c2b05b6c63f5be62 +size 9608969 diff --git a/stats/iter_vocab/TigerResearch_tigerbot-70b-chat-v4-4k.vocab.jsonl b/stats/iter_vocab/TigerResearch_tigerbot-70b-chat-v4-4k.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..812ba055ebd79dd5195cb77069b796047ce2ea11 --- /dev/null +++ b/stats/iter_vocab/TigerResearch_tigerbot-70b-chat-v4-4k.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:bee3b17cc85170e7807dee23e9b2ca945c7fbdcd1db260f5aebb207e2cc9a08a +size 10301000 diff --git a/stats/iter_vocab/Upstage_SOLAR-10.7B-v1.0.vocab.jsonl b/stats/iter_vocab/Upstage_SOLAR-10.7B-v1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cf00ceaf3e5ddfffda8840d4b5bc688bbc80a709 --- /dev/null +++ b/stats/iter_vocab/Upstage_SOLAR-10.7B-v1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9b61cb12541a6309543f766b281c96d57b953c9fd19c9b974c5fae07cff1a3e3 +size 5248321 diff --git a/stats/iter_vocab/WizardLM_WizardCoder-15B-V1.0.vocab.jsonl b/stats/iter_vocab/WizardLM_WizardCoder-15B-V1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..5fa4e882de4947c70ef11a22e4234013bf7c37b2 --- /dev/null +++ b/stats/iter_vocab/WizardLM_WizardCoder-15B-V1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:14fe80b95e41dcde2ce5a7ba9e224a29c3e20d241afabec1b794347ee0bda6fd +size 8612614 diff --git a/stats/iter_vocab/WizardLM_WizardCoder-Python-7B-V1.0.vocab.jsonl b/stats/iter_vocab/WizardLM_WizardCoder-Python-7B-V1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/WizardLM_WizardCoder-Python-7B-V1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/WizardLM_WizardLM-7B-V1.0.vocab.jsonl b/stats/iter_vocab/WizardLM_WizardLM-7B-V1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/WizardLM_WizardLM-7B-V1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/WizardLM_WizardMath-70B-V1.0.vocab.jsonl b/stats/iter_vocab/WizardLM_WizardMath-70B-V1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/WizardLM_WizardMath-70B-V1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/abeja_gpt-neox-japanese-2.7b.vocab.jsonl b/stats/iter_vocab/abeja_gpt-neox-japanese-2.7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4297f476f45b45c73d55271a7ff8240655c51bf8 --- /dev/null +++ b/stats/iter_vocab/abeja_gpt-neox-japanese-2.7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:f34553e13870a491c7c8c43fd69b032bbf0e2d7e730f6fe297bda0a3979b56dd +size 4837894 diff --git a/stats/iter_vocab/ai21labs_Jamba-v0.1.vocab.jsonl b/stats/iter_vocab/ai21labs_Jamba-v0.1.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d071ac310d3adea802dc08cce4e48029ce662340 --- /dev/null +++ b/stats/iter_vocab/ai21labs_Jamba-v0.1.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:dda68286ef0865b3fd5ab0224f0beae9bfad47d2fa6bac0e4cf6c3c17fdcab70 +size 11603322 diff --git a/stats/iter_vocab/allenai_OLMo-7B.vocab.jsonl b/stats/iter_vocab/allenai_OLMo-7B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..eab3f28cc12c90b9d24c117d9068472ea33e1762 --- /dev/null +++ b/stats/iter_vocab/allenai_OLMo-7B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a69f8c4a622e278d60147058ebeb3df940662ccde2b15e78435dcb788fc7c2eb +size 8870776 diff --git a/stats/iter_vocab/asafaya_bert-base-arabic.vocab.jsonl b/stats/iter_vocab/asafaya_bert-base-arabic.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..4364960d8abf0d159e6e465995522333c2188dda --- /dev/null +++ b/stats/iter_vocab/asafaya_bert-base-arabic.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:daccc242a0f43663ceeddb6d2cd34cefc1479dbd4533bef5a4eea1f4c3198eb0 +size 6175232 diff --git a/stats/iter_vocab/baichuan-inc_Baichuan-7B.vocab.jsonl b/stats/iter_vocab/baichuan-inc_Baichuan-7B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..0930f67ec8fb4775f50748e1d5556ea587d4571e --- /dev/null +++ b/stats/iter_vocab/baichuan-inc_Baichuan-7B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1412b7d73a7a0ebe27ec45b8359bb1c0896e0475ff367a1a3b3856398aa108b4 +size 9387626 diff --git a/stats/iter_vocab/baichuan-inc_Baichuan2-7B-Chat.vocab.jsonl b/stats/iter_vocab/baichuan-inc_Baichuan2-7B-Chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..f39876f9d1910783a38a121ed3fbcc5ca68c0e35 --- /dev/null +++ b/stats/iter_vocab/baichuan-inc_Baichuan2-7B-Chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:88e4fe12b10aabbf83a7b41bb424c350bcb9dc3e88a61f9ec3c733dcb57077c1 +size 20048305 diff --git a/stats/iter_vocab/bigscience_bloom.vocab.jsonl b/stats/iter_vocab/bigscience_bloom.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..e83a6f5f1c514039f0e5337b83e7fab99aefe2fa --- /dev/null +++ b/stats/iter_vocab/bigscience_bloom.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:153b902ab6371283cd2686f64599a4e1a2b9721492683db6422a5fc62f09c744 +size 59496429 diff --git a/stats/iter_vocab/bloom.vocab.jsonl b/stats/iter_vocab/bloom.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..e83a6f5f1c514039f0e5337b83e7fab99aefe2fa --- /dev/null +++ b/stats/iter_vocab/bloom.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:153b902ab6371283cd2686f64599a4e1a2b9721492683db6422a5fc62f09c744 +size 59496429 diff --git a/stats/iter_vocab/ckiplab_gpt2-base-chinese.vocab.jsonl b/stats/iter_vocab/ckiplab_gpt2-base-chinese.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..dec36afbf1f6d529727a006ee5eab9acdbf1d02f --- /dev/null +++ b/stats/iter_vocab/ckiplab_gpt2-base-chinese.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0d2a25e12ed6c609cb9b7fb2bc32d176d313cbd19048514082b1c4f8b9aa6bab +size 2986837 diff --git a/stats/iter_vocab/clue_roberta_chinese_clue_tiny.vocab.jsonl b/stats/iter_vocab/clue_roberta_chinese_clue_tiny.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..825ec99f632dde171304a2fa8417c57ed328a2ea --- /dev/null +++ b/stats/iter_vocab/clue_roberta_chinese_clue_tiny.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8b7317f6d7872d823637e6d10e8ac0c495b529843cb8c62d3e1761c6fe73806a +size 1071792 diff --git a/stats/iter_vocab/cyberagent_open-calm-7b.vocab.jsonl b/stats/iter_vocab/cyberagent_open-calm-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..fd318d181a280ad6609b7cbb519bf2fd7267028e --- /dev/null +++ b/stats/iter_vocab/cyberagent_open-calm-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:24ccf3c415b1c38a3639cc6dca53d506a7a11db04d26c353055124e270985749 +size 13235415 diff --git a/stats/iter_vocab/databricks_dbrx-instruct.vocab.jsonl b/stats/iter_vocab/databricks_dbrx-instruct.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..c82ace33c93a1f2c854a6e75647b18670adb44c7 --- /dev/null +++ b/stats/iter_vocab/databricks_dbrx-instruct.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5b9c1eedfcc048dccc939100fd7e1a93ee18d43c836edbf26f42df050c548443 +size 17803925 diff --git a/stats/iter_vocab/dbmdz_bert-base-german-uncased.vocab.jsonl b/stats/iter_vocab/dbmdz_bert-base-german-uncased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1b68ad23f132aef26e243a810390a99777893293 --- /dev/null +++ b/stats/iter_vocab/dbmdz_bert-base-german-uncased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:df422a394f5987c6a88bc80b13556ec81ac128b23acfcfbf66571082fcd40f99 +size 5507204 diff --git a/stats/iter_vocab/deepseek-ai_DeepSeek-V2.vocab.jsonl b/stats/iter_vocab/deepseek-ai_DeepSeek-V2.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..5b21497630579068385554ed5eb9562523815f89 --- /dev/null +++ b/stats/iter_vocab/deepseek-ai_DeepSeek-V2.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b783102dba5eb40819d32ada70eeb0d5802ce0f59cef32eddfdbb51bcb2a01a6 +size 19180956 diff --git a/stats/iter_vocab/deepseek-ai_deepseek-coder-33b-instruct.vocab.jsonl b/stats/iter_vocab/deepseek-ai_deepseek-coder-33b-instruct.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..28f2f2da3405cc85eb59eb91c389dcef6a09b809 --- /dev/null +++ b/stats/iter_vocab/deepseek-ai_deepseek-coder-33b-instruct.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:3fcb6c977e2549f7fb72fe02e2b8235df49b1b7b4535fb23fd39b2a9ceb992e1 +size 5684141 diff --git a/stats/iter_vocab/deepseek-ai_deepseek-llm-7b-base.vocab.jsonl b/stats/iter_vocab/deepseek-ai_deepseek-llm-7b-base.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..5b21497630579068385554ed5eb9562523815f89 --- /dev/null +++ b/stats/iter_vocab/deepseek-ai_deepseek-llm-7b-base.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b783102dba5eb40819d32ada70eeb0d5802ce0f59cef32eddfdbb51bcb2a01a6 +size 19180956 diff --git a/stats/iter_vocab/eson_kplug-base-encoder.vocab.jsonl b/stats/iter_vocab/eson_kplug-base-encoder.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..6bedd750b68568ff10eb27799cffbea0c8ebf79e --- /dev/null +++ b/stats/iter_vocab/eson_kplug-base-encoder.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5008d30b48dd3da06e68fec9282a392e68e28071400e02fb23c939b35929afb1 +size 1409115 diff --git a/stats/iter_vocab/fnlp_moss-moon-003-sft.vocab.jsonl b/stats/iter_vocab/fnlp_moss-moon-003-sft.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..43d0fe81edb6eea97bf24e5e762722facb3c49cb --- /dev/null +++ b/stats/iter_vocab/fnlp_moss-moon-003-sft.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:903bcf6afdfbfa6ffed01a8212c580cd513dbcc67c056df6624f019a1100b67d +size 21478979 diff --git a/stats/iter_vocab/google-bert_bert-base-cased.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-cased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..0e3ffd698ac10d2a5b187a6b2839c6ee8926cc93 --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-cased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:5f391b9bb74a7dcf183cb731a667eb3073174670352e7e75b0edcd53e80eac6f +size 4956069 diff --git a/stats/iter_vocab/google-bert_bert-base-chinese.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-chinese.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..dec36afbf1f6d529727a006ee5eab9acdbf1d02f --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-chinese.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0d2a25e12ed6c609cb9b7fb2bc32d176d313cbd19048514082b1c4f8b9aa6bab +size 2986837 diff --git a/stats/iter_vocab/google-bert_bert-base-german-cased.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-german-cased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1af1bf2a6406274e4fd18aff7441f66ff3a7bc15 --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-german-cased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1456ace0ad57298003c1ef3b434e668a4626a1cbe48513865e993a75aedb532d +size 5476880 diff --git a/stats/iter_vocab/google-bert_bert-base-multilingual-cased.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-multilingual-cased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..58dd5ecdcac15a38827eb98af5402c7d889a78ca --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-multilingual-cased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:c9bb531b68fd2d051ca25f2ecfa0cedb32fe91127ab9b31f0f99d23356873088 +size 20915943 diff --git a/stats/iter_vocab/google-bert_bert-base-multilingual-uncased.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-multilingual-uncased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..ac79a980d5274925d05972c10a35a00fc971b798 --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-multilingual-uncased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:ff8a1c546353d90caadbb3add62c984d173e0372efe97c00e6d0bb6c0621d484 +size 18417002 diff --git a/stats/iter_vocab/google-bert_bert-base-uncased.vocab.jsonl b/stats/iter_vocab/google-bert_bert-base-uncased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..701b61457cd07203303e0596ae94c3ae5c2a8f53 --- /dev/null +++ b/stats/iter_vocab/google-bert_bert-base-uncased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:517b226a88e2251a5e31ed1844e76dec9970e039a61b83312f5be8dc593349af +size 5284529 diff --git a/stats/iter_vocab/google-t5_t5-large.vocab.jsonl b/stats/iter_vocab/google-t5_t5-large.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..6e17ffb43a45a911a4136fed7dc1236417a7dae6 --- /dev/null +++ b/stats/iter_vocab/google-t5_t5-large.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6ffc47c1c82c4aa8fb770601da39dc4581d11c111da512c38c455496948f629b +size 5833624 diff --git a/stats/iter_vocab/google_byt5-small.vocab.jsonl b/stats/iter_vocab/google_byt5-small.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..f0a1b4ccc83d65a94b4a7ffd04a281404a13e218 --- /dev/null +++ b/stats/iter_vocab/google_byt5-small.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:94462578b3c466179385f8c03140c7a5710ec4fafaae9ed23124001518bba6b5 +size 30914 diff --git a/stats/iter_vocab/google_gemma-7b.vocab.jsonl b/stats/iter_vocab/google_gemma-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..696a7f1b2cc5d58e56434cb73d03bbb87a0d4b27 --- /dev/null +++ b/stats/iter_vocab/google_gemma-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:37836e4c9d7625487de9362a8bb53cadb028aab7270e6937c17cb82f70c8e22a +size 44650546 diff --git a/stats/iter_vocab/google_mobilebert-uncased.vocab.jsonl b/stats/iter_vocab/google_mobilebert-uncased.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..701b61457cd07203303e0596ae94c3ae5c2a8f53 --- /dev/null +++ b/stats/iter_vocab/google_mobilebert-uncased.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:517b226a88e2251a5e31ed1844e76dec9970e039a61b83312f5be8dc593349af +size 5284529 diff --git a/stats/iter_vocab/google_mt5-large.vocab.jsonl b/stats/iter_vocab/google_mt5-large.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d233addf8e4a37d6a537a59d67b90f6ca91123cb --- /dev/null +++ b/stats/iter_vocab/google_mt5-large.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:0499407888f5a421056e281706ebf29bb62b473a7c3529aa899984b2e01047d8 +size 42184187 diff --git a/stats/iter_vocab/google_switch-c-2048.vocab.jsonl b/stats/iter_vocab/google_switch-c-2048.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..6e17ffb43a45a911a4136fed7dc1236417a7dae6 --- /dev/null +++ b/stats/iter_vocab/google_switch-c-2048.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6ffc47c1c82c4aa8fb770601da39dc4581d11c111da512c38c455496948f629b +size 5833624 diff --git a/stats/iter_vocab/gpt-4.vocab.jsonl b/stats/iter_vocab/gpt-4.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..72bac996440dfd04ec7636242d23cc6e26d69b25 --- /dev/null +++ b/stats/iter_vocab/gpt-4.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2810a4f08d0f59cdecb2ef3c204db6c478b61953f50f841b102f56d5b55c4f2a +size 17257313 diff --git a/stats/iter_vocab/gradientai_Llama-3-8B-Instruct-Gradient-1048k.vocab.jsonl b/stats/iter_vocab/gradientai_Llama-3-8B-Instruct-Gradient-1048k.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..b87dd5f5ba708b3565325a78eb7fc0a41734dd79 --- /dev/null +++ b/stats/iter_vocab/gradientai_Llama-3-8B-Instruct-Gradient-1048k.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cbd62a7b807dd1f933ee09dc7c9a1987cba4e13e1f3398efc7d8a740440eb863 +size 23828239 diff --git a/stats/iter_vocab/hfl_chinese-alpaca-lora-7b.vocab.jsonl b/stats/iter_vocab/hfl_chinese-alpaca-lora-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cca3bd4d20998ac57b9f8bf6b7a8f8c746bea741 --- /dev/null +++ b/stats/iter_vocab/hfl_chinese-alpaca-lora-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a1c728053df497cacad0e28778345ccd8e01f2987f0bea0eafaa8f37df3ffe4f +size 7889934 diff --git a/stats/iter_vocab/hfl_chinese-llama-2-7b.vocab.jsonl b/stats/iter_vocab/hfl_chinese-llama-2-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..3927922c4ce6b9ac3f8c8572e09d71554ff0b387 --- /dev/null +++ b/stats/iter_vocab/hfl_chinese-llama-2-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:1b857733efb986812087687e481c416285940710ca0814469fe1f7132cc58eac +size 8716328 diff --git a/stats/iter_vocab/hfl_chinese-llama-lora-7b.vocab.jsonl b/stats/iter_vocab/hfl_chinese-llama-lora-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..223710ba935a7b801da92b0382323df9712b3222 --- /dev/null +++ b/stats/iter_vocab/hfl_chinese-llama-lora-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:b5042e415cfbdadf7ec155ef4260ef0697120de4549a69d0f17e48dd4ad15d65 +size 7889776 diff --git a/stats/iter_vocab/hfl_llama-3-chinese-8b.vocab.jsonl b/stats/iter_vocab/hfl_llama-3-chinese-8b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..b87dd5f5ba708b3565325a78eb7fc0a41734dd79 --- /dev/null +++ b/stats/iter_vocab/hfl_llama-3-chinese-8b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cbd62a7b807dd1f933ee09dc7c9a1987cba4e13e1f3398efc7d8a740440eb863 +size 23828239 diff --git a/stats/iter_vocab/hpcai-tech_grok-1.vocab.jsonl b/stats/iter_vocab/hpcai-tech_grok-1.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..db1e1889e5c42bd4dcad6ab2f03ccf0f4c329ab1 --- /dev/null +++ b/stats/iter_vocab/hpcai-tech_grok-1.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:03f2a0db9c722a9bd7646260fb81fd9faf1f2e73c94708c015cdd008810bc878 +size 23522120 diff --git a/stats/iter_vocab/huggyllama_llama-7b.vocab.jsonl b/stats/iter_vocab/huggyllama_llama-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/huggyllama_llama-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/internlm_internlm-chat-7b.vocab.jsonl b/stats/iter_vocab/internlm_internlm-chat-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..67e431703c97d009c2081848415fc651e2886a6f --- /dev/null +++ b/stats/iter_vocab/internlm_internlm-chat-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6346662c2441e2693bd667491fc5b3d5f8abf2b939c49553f39ca1cdd0bf6001 +size 17228739 diff --git a/stats/iter_vocab/internlm_internlm-xcomposer-7b.vocab.jsonl b/stats/iter_vocab/internlm_internlm-xcomposer-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..f428b47e74e519b63b1ccb0ccd5252a22f777fec --- /dev/null +++ b/stats/iter_vocab/internlm_internlm-xcomposer-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2ddcc1bd73d7cd6f0fbe850002571d2cece47dbc9f41bcff490eea383c34d42b +size 17228981 diff --git a/stats/iter_vocab/internlm_internlm2-chat-7b.vocab.jsonl b/stats/iter_vocab/internlm_internlm2-chat-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d3fe01336438b8f0d9997126a4e7dcc2a79066ae --- /dev/null +++ b/stats/iter_vocab/internlm_internlm2-chat-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8323cf6ff7328830cc6dd015f6f6999e45d701f06f93989770fdd47b5f5083ba +size 15393233 diff --git a/stats/iter_vocab/internlm_internlm2-math-7b.vocab.jsonl b/stats/iter_vocab/internlm_internlm2-math-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..d3fe01336438b8f0d9997126a4e7dcc2a79066ae --- /dev/null +++ b/stats/iter_vocab/internlm_internlm2-math-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:8323cf6ff7328830cc6dd015f6f6999e45d701f06f93989770fdd47b5f5083ba +size 15393233 diff --git a/stats/iter_vocab/llama.vocab.jsonl b/stats/iter_vocab/llama.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/llama.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/llama3.vocab.jsonl b/stats/iter_vocab/llama3.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..b87dd5f5ba708b3565325a78eb7fc0a41734dd79 --- /dev/null +++ b/stats/iter_vocab/llama3.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:cbd62a7b807dd1f933ee09dc7c9a1987cba4e13e1f3398efc7d8a740440eb863 +size 23828239 diff --git a/stats/iter_vocab/lmsys_fastchat-t5-3b-v1.0.vocab.jsonl b/stats/iter_vocab/lmsys_fastchat-t5-3b-v1.0.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..913e0c0e24a0600d61dd922f53f117bfc332e766 --- /dev/null +++ b/stats/iter_vocab/lmsys_fastchat-t5-3b-v1.0.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e67a7720e6debce4f919f72bf1de0039bf90bc658c828da44a11f12910bb6ee7 +size 5809819 diff --git a/stats/iter_vocab/microsoft_Phi-3-mini-4k-instruct.vocab.jsonl b/stats/iter_vocab/microsoft_Phi-3-mini-4k-instruct.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..1dab2a0c213bcf0c4491f11de9c03ad2b1ee6592 --- /dev/null +++ b/stats/iter_vocab/microsoft_Phi-3-mini-4k-instruct.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f2fc27dd0ee91ab8695cd4500d748b6bb248b48606892a1b9a8db7465d884e +size 5300343 diff --git a/stats/iter_vocab/microsoft_phi-1.vocab.jsonl b/stats/iter_vocab/microsoft_phi-1.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..78e8008d91c8566233e9840840cd55d55cac0507 --- /dev/null +++ b/stats/iter_vocab/microsoft_phi-1.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:27c52950c01fe865361c2122e6b262433b5586c48a882278cffbbd0e4f2ca0d4 +size 8885135 diff --git a/stats/iter_vocab/microsoft_phi-2.vocab.jsonl b/stats/iter_vocab/microsoft_phi-2.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..78e8008d91c8566233e9840840cd55d55cac0507 --- /dev/null +++ b/stats/iter_vocab/microsoft_phi-2.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:27c52950c01fe865361c2122e6b262433b5586c48a882278cffbbd0e4f2ca0d4 +size 8885135 diff --git a/stats/iter_vocab/mistralai_Mistral-7B-v0.1.vocab.jsonl b/stats/iter_vocab/mistralai_Mistral-7B-v0.1.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cf00ceaf3e5ddfffda8840d4b5bc688bbc80a709 --- /dev/null +++ b/stats/iter_vocab/mistralai_Mistral-7B-v0.1.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9b61cb12541a6309543f766b281c96d57b953c9fd19c9b974c5fae07cff1a3e3 +size 5248321 diff --git a/stats/iter_vocab/mistralai_Mixtral-8x7B-v0.1.vocab.jsonl b/stats/iter_vocab/mistralai_Mixtral-8x7B-v0.1.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..cf00ceaf3e5ddfffda8840d4b5bc688bbc80a709 --- /dev/null +++ b/stats/iter_vocab/mistralai_Mixtral-8x7B-v0.1.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9b61cb12541a6309543f766b281c96d57b953c9fd19c9b974c5fae07cff1a3e3 +size 5248321 diff --git a/stats/iter_vocab/openai-community_gpt2.vocab.jsonl b/stats/iter_vocab/openai-community_gpt2.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..78e8008d91c8566233e9840840cd55d55cac0507 --- /dev/null +++ b/stats/iter_vocab/openai-community_gpt2.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:27c52950c01fe865361c2122e6b262433b5586c48a882278cffbbd0e4f2ca0d4 +size 8885135 diff --git a/stats/iter_vocab/openai_code-davinci-002.vocab.jsonl b/stats/iter_vocab/openai_code-davinci-002.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..7f5cdf3754fe8cf18c794496eebc3e02fd2eb7cd --- /dev/null +++ b/stats/iter_vocab/openai_code-davinci-002.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7f7a1bcfcdbd73faa44699f5c2a3cd7ea1e82ed59cb456256a42a2433260fc40 +size 8629507 diff --git a/stats/iter_vocab/openai_gpt-3.5-turbo.vocab.jsonl b/stats/iter_vocab/openai_gpt-3.5-turbo.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..72bac996440dfd04ec7636242d23cc6e26d69b25 --- /dev/null +++ b/stats/iter_vocab/openai_gpt-3.5-turbo.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2810a4f08d0f59cdecb2ef3c204db6c478b61953f50f841b102f56d5b55c4f2a +size 17257313 diff --git a/stats/iter_vocab/openai_gpt-4.vocab.jsonl b/stats/iter_vocab/openai_gpt-4.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..72bac996440dfd04ec7636242d23cc6e26d69b25 --- /dev/null +++ b/stats/iter_vocab/openai_gpt-4.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:2810a4f08d0f59cdecb2ef3c204db6c478b61953f50f841b102f56d5b55c4f2a +size 17257313 diff --git a/stats/iter_vocab/openai_gpt-4o.vocab.jsonl b/stats/iter_vocab/openai_gpt-4o.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..450b8610d01be39c6aea870d0c8db4a25f356436 --- /dev/null +++ b/stats/iter_vocab/openai_gpt-4o.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e9042a7ec07ef0b57f47a61f6e4e841d98919601dd5ec83d999fde0fea93c09a +size 34593156 diff --git a/stats/iter_vocab/openai_text-davinci-003.vocab.jsonl b/stats/iter_vocab/openai_text-davinci-003.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..7f5cdf3754fe8cf18c794496eebc3e02fd2eb7cd --- /dev/null +++ b/stats/iter_vocab/openai_text-davinci-003.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:7f7a1bcfcdbd73faa44699f5c2a3cd7ea1e82ed59cb456256a42a2433260fc40 +size 8629507 diff --git a/stats/iter_vocab/paust_pko-t5-large.vocab.jsonl b/stats/iter_vocab/paust_pko-t5-large.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..df7f0133cdc044826807751d73cc72ce8861fb06 --- /dev/null +++ b/stats/iter_vocab/paust_pko-t5-large.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:68838eb385f05bc1e87f9a8b25617ab04d17dd3873187e89ff6d824a85987bca +size 11822537 diff --git a/stats/iter_vocab/qwen_72b_chat.vocab.jsonl b/stats/iter_vocab/qwen_72b_chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..82eb53588af49d82537681c207fd420d1a2d2d04 --- /dev/null +++ b/stats/iter_vocab/qwen_72b_chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:9c110b12ae7e7e8cdd89563f0bae8f11d789fe1b5f6080836ad8c734a19894f4 +size 32975586 diff --git a/stats/iter_vocab/qwen_7b_chat.vocab.jsonl b/stats/iter_vocab/qwen_7b_chat.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..2a684877a71ff4f5687747e2d62b64c44974c92b --- /dev/null +++ b/stats/iter_vocab/qwen_7b_chat.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23f15fee1afd3f55f64486cef4ac24cf1b954e563c6f3cc41fd3c6853bca6804 +size 32975585 diff --git a/stats/iter_vocab/thu-coai_CharacterGLM-6B.vocab.jsonl b/stats/iter_vocab/thu-coai_CharacterGLM-6B.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..41622844973b544c2f0347128dd8236ee9fe275f --- /dev/null +++ b/stats/iter_vocab/thu-coai_CharacterGLM-6B.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:e6767b638c3bbfcf893735f76c71c6c34eb602d6c511aeec62fc80508476d768 +size 10400478 diff --git a/stats/iter_vocab/tiiuae_falcon-180b.vocab.jsonl b/stats/iter_vocab/tiiuae_falcon-180b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..14986eebf30892986a8c5f89d22660980425a86b --- /dev/null +++ b/stats/iter_vocab/tiiuae_falcon-180b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a6d0da17169ae66509f08c7293def7f375f4cd275a48d52ed19982892fb107c0 +size 11478725 diff --git a/stats/iter_vocab/tiiuae_falcon-7b.vocab.jsonl b/stats/iter_vocab/tiiuae_falcon-7b.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..14986eebf30892986a8c5f89d22660980425a86b --- /dev/null +++ b/stats/iter_vocab/tiiuae_falcon-7b.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:a6d0da17169ae66509f08c7293def7f375f4cd275a48d52ed19982892fb107c0 +size 11478725 diff --git a/stats/iter_vocab/tohoku-nlp_bert-base-japanese.vocab.jsonl b/stats/iter_vocab/tohoku-nlp_bert-base-japanese.vocab.jsonl new file mode 100644 index 0000000000000000000000000000000000000000..3d9567fc5a0a8b529dc2de04ffd21908d297b5f4 --- /dev/null +++ b/stats/iter_vocab/tohoku-nlp_bert-base-japanese.vocab.jsonl @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:6840f855a3706f77a7686cb47b4cf446f671af2840a1b12cd9d22738f1064627 +size 5041212 diff --git a/utils/lang_util.py b/utils/lang_util.py index 6fde6f67b1271e66ca1d49088df0b056dbfc6499..84017cf034fd71c1e4eff7ebb08426b01449e877 100644 --- a/utils/lang_util.py +++ b/utils/lang_util.py @@ -1,83 +1,88 @@ -""" -这个detect_language函数通过定义一系列语言字符的Unicode范围,然后使用regex包来检查输入字符串是否包含这些范围内的字符, -从而尝试确定字符串可能使用的语言。函数返回一个列表,包含所有匹配的语言名称;如果没有检测到已定义范围内的字符,则返回['Unknown']。 - -请注意,由于某些语言(如中文和日文)共享字符集的部分范围,这可能导致某些字符串被识别为多种语言。 -此外,Latin范围非常广泛,几乎包括了所有西方语言的基本字母,因此可能需要更细致的逻辑来区分使用拉丁字母的具体语言。 - - -通过检查特定的字母和重音符号来区分一些使用拉丁字母的语言。 -然而,需要强调的是,这种方法的准确性受限于所选语言特征的全面性和独特性。 -例如,English的检测范围仅限于基本的A-Z字母,这可能导致它与其他使用相同字母集的语言重叠。 -此外,有些语言(如法语和西班牙语)在某些情况下可能共享特定的重音符号,这可能导致一个字符串被错误地识别为多种语言。 - -## 常用语言 -English | 简体中文 | 繁體中文 | 한국어 | Español | 日本語 | हिन्दी | Русский | Рortuguês | తెలుగు | Français | Deutsch | Tiếng Việt | -""" - -import re - - -# 由于大部分是'latin',所以就不统计了。 -common = ['Chinese', 'Japanese-Kana', 'Korean', 'Arabic', 'number'] - -language_ranges = { - ('Arabic', 'ar'): r'[\u0600-\u06FF\u0750-\u077F\u08A0-\u08FF\uFB50-\uFDFF\uFE70-\uFEFF]', - # 'CJK' https://en.wikipedia.org/wiki/CJK_Unified_Ideographs - ('Chinese', 'zh'): r'[\u4e00-\u9fff]', - ('Japanese', 'ja'): r'[\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]', - # https://stackoverflow.com/questions/19899554/unicode-range-for-japanese - # Kana type refers to Japanese hiragana and katakana characters that represent phonetic sounds in the Japanese language. - ('Japanese-Kana', 'ja-kana'): r'[\u3040-\u309F\u30A0-\u30FF]', # Hiragana & Katakana - ('Korean', 'ko'): r'[\uac00-\ud7a3]', - - # 拉丁字母系列 - # ('Latin', 'la'): r'[\u0000-\u007F\u0080-\u00FF]', - # ('English', 'en'): r'[A-Za-z]', # 这可能会与其他使用基本拉丁字母的语言重叠 - # ('French', 'fr'): r'[\u00C0-\u00FF]', - # ('German', 'de'): r'[\u00C4\u00D6\u00DC\u00E4\u00F6\u00FC\u00DF]', - # ('Spanish-特有'): r'[\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00D1\u00F1\u00FC]', # 西班牙语特有字符集合 - - # 斯拉夫语系列 - # ('Cyrillic', ''): r'[\u0400-\u04FF\u0500-\u052F\u2DE0-\u2DFF\uA640-\uA69F]', - - # - # 'Greek': r'[\u0370-\u03FF\u1F00-\u1FFF]', # 希腊字母 - # 'Hebrew': r'[\u0590-\u05FF\uFB1D-\uFB4F]', # 希伯来语 -} - -def detect_language(s): - # 定义各语言字符的Unicode范围 - detected_languages = [] - for language, pattern in language_ranges.items(): - if re.search(pattern, s): - detected_languages.append(language) - - return detected_languages - - -if __name__ == "__main__": - - # 测试函数 - test_strings = { - # 拉丁语系 - 'Hello, world!': "English/Latin", - 'Hola': "Spanish", - 'Bonjour': "French", - 'Guten Tag': "German", - 'Empieza donde estás. ': "Spanish", - - - # CJK - '你好': "Chinese", - 'こんにちは': "Japanese", - '안녕하세요': "Korean", - - # 其他 - 'Привет': "Russian/Cyrillic", - 'مرحبا': "Arabic", - - } - - for s, expected in test_strings.items(): - print(f"'{s}' detected as: {detect_language(s)} (Expected: {expected})") \ No newline at end of file +""" +这个detect_language函数通过定义一系列语言字符的Unicode范围,然后使用regex包来检查输入字符串是否包含这些范围内的字符, +从而尝试确定字符串可能使用的语言。函数返回一个列表,包含所有匹配的语言名称;如果没有检测到已定义范围内的字符,则返回['Unknown']。 + +请注意,由于某些语言(如中文和日文)共享字符集的部分范围,这可能导致某些字符串被识别为多种语言。 +此外,Latin范围非常广泛,几乎包括了所有西方语言的基本字母,因此可能需要更细致的逻辑来区分使用拉丁字母的具体语言。 + + +通过检查特定的字母和重音符号来区分一些使用拉丁字母的语言。 +然而,需要强调的是,这种方法的准确性受限于所选语言特征的全面性和独特性。 +例如,English的检测范围仅限于基本的A-Z字母,这可能导致它与其他使用相同字母集的语言重叠。 +此外,有些语言(如法语和西班牙语)在某些情况下可能共享特定的重音符号,这可能导致一个字符串被错误地识别为多种语言。 + +## common language +English | 简体中文 | 繁體中文 | 한국어 | Español | 日本語 | हिन्दी | Русский | Рortuguês | తెలుగు | Français | Deutsch | Tiếng Việt | +""" + +import re +from typing import List + +# 由于大部分是'latin',所以就不统计了。 +common_lang = ['Chinese', 'Japanese-Kana', 'Korean', 'Arabic', 'number'] + +# Unicode range of different language +language_ranges = { + ('Arabic', 'ar'): r'[\u0600-\u06FF\u0750-\u077F\u08A0-\u08FF\uFB50-\uFDFF\uFE70-\uFEFF]', + # 'CJK' https://en.wikipedia.org/wiki/CJK_Unified_Ideographs + ('Chinese', 'zh'): r'[\u4e00-\u9fff]', + ('Japanese', 'ja'): r'[\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]', + # https://stackoverflow.com/questions/19899554/unicode-range-for-japanese + # Kana type refers to Japanese hiragana and katakana characters that represent phonetic sounds in the Japanese language. + ('Japanese-Kana', 'ja-kana'): r'[\u3040-\u309F\u30A0-\u30FF]', # Hiragana & Katakana + ('Korean', 'ko'): r'[\uac00-\ud7a3]', + + # 拉丁字母系列 + # ('Latin', 'la'): r'[\u0000-\u007F\u0080-\u00FF]', + # ('English', 'en'): r'[A-Za-z]', # 这可能会与其他使用基本拉丁字母的语言重叠 + # ('French', 'fr'): r'[\u00C0-\u00FF]', + # ('German', 'de'): r'[\u00C4\u00D6\u00DC\u00E4\u00F6\u00FC\u00DF]', + # ('Spanish-特有'): r'[\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00D1\u00F1\u00FC]', # 西班牙语特有字符集合 + + # 斯拉夫语系列 + # ('Cyrillic', ''): r'[\u0400-\u04FF\u0500-\u052F\u2DE0-\u2DFF\uA640-\uA69F]', + + # + # 'Greek': r'[\u0370-\u03FF\u1F00-\u1FFF]', # 希腊字母 + # 'Hebrew': r'[\u0590-\u05FF\uFB1D-\uFB4F]', # 希伯来语 +} + + +def detect_language_by_unicode(text: str) -> List: + """ + :param text: + :return: + """ + detected_languages = [] + for language, pattern in language_ranges.items(): + if re.search(pattern, text): + detected_languages.append(language) + + return detected_languages + + +if __name__ == "__main__": + + # 测试函数 + test_strings = { + # 拉丁语系 + 'Hello, world!': "English/Latin", + 'Hola': "Spanish", + 'Bonjour': "French", + 'Guten Tag': "German", + 'Empieza donde estás. ': "Spanish", + + # CJK + '你好': "Chinese", + 'こんにちは': "Japanese", + '안녕하세요': "Korean", + + # 其他 + 'Привет': "Russian/Cyrillic", + 'مرحبا': "Arabic", + + } + + for s, expected in test_strings.items(): + # print(f"'{s}' === Detected lang: {detect_language(s)} === Expected: {expected}") + print(f"'{s}'\nDetected lang: {detect_language_by_unicode(s)}\nExpected lang: {expected}") diff --git a/utils/oov_util.py b/utils/oov_util.py index a18834b853f8b90c7e5eb616075d98715062e748..6d497f1c07569b7e655b17982beabb51246bd30c 100644 --- a/utils/oov_util.py +++ b/utils/oov_util.py @@ -1,118 +1,118 @@ - - - -import os -import json -from vocab import all_tokenizer_config, load_tokenizer, TokenizerImpl - - -text = "hello; Замглавы управления развития; 특히 주소 15~17번 홀에선 3연속;" \ - " 確実に春が近づいてること; a közoktatással? _ Belföld;" \ - " pumë, i vjetër, vjeç; ئەردوغان ۋە قىرغىزىستان ;" \ - " निम्न में से कौन सा हारडवेयर; ተለዋዋጭ የግድግዳ ; Дзейныя асобы:;" \ - " « અમરેલીનાં મહિલા વિકાસ; 🦙❤❥웃유♋☮✊;" \ - "װיקיװערטערבוך " -whitespace = "\t \n\n\r " -bytes = b"\x00\x01\x02\x03\x04".decode('utf-8') - -text += whitespace - - -def get_unk(tokenizer_config): - tokenizer = load_tokenizer(tokenizer_config) - if hasattr(tokenizer, "unk_token"): - return f"{tokenizer.unk_token}, {tokenizer.unk_token_id}" - else: - return "unk_token not found" - - -# def infer_tokenizer_impl(tokenizer_config): -def infer_tokenizer_type(tokenizer_config): - tokenizer = load_tokenizer(tokenizer_config) - if tokenizer_config.impl == TokenizerImpl.TikToken: - return "tiktoken" - if hasattr(tokenizer, "backend_tokenizer"): - return str(type(tokenizer.backend_tokenizer.model)) # type(tokenizer._tokenizer.model)) - # orion: sp_model.Load(vocab_file),继承 PreTrainedTokenizer - elif hasattr(tokenizer, "sp_model"): # 基于 sentencepiece 包 - # for i in range(tokenizer.sp_model.piece_size()): - # if tokenizer.sp_model.is_byte(i): - # print("") - return f"sp_model, byte_num: {sum([tokenizer.sp_model.is_byte(i) for i in range(tokenizer.sp_model.piece_size())])}" - - # sp.Load(model_path) ,并且包括image_tokenizer - elif "glm-" in tokenizer_config.name_or_path: - return f"byte_num: {sum([tokenizer.sp_tokenizer.text_tokenizer.sp.is_byte(i) for i in range(tokenizer.sp_tokenizer.text_tokenizer.sp.piece_size())])}" - # sp.Load(model_path) ,没有image_tokenizer - elif "glm2-" in tokenizer_config.name_or_path \ - or "glm3-" in tokenizer_config.name_or_path \ - or "CharacterGLM-6B" in tokenizer_config.name_or_path: - return f"byte_num: {sum([tokenizer.tokenizer.sp_model.is_byte(i) for i in range(tokenizer.tokenizer.sp_model.piece_size())])}" - elif "abeja/gpt-neox-japanese-2.7b" == tokenizer_config.name_or_path: # 支持 byte-level,解决oov问题 - return f"japanese-bpe: https://github.com/tanreinama/Japanese-BPEEncoder_V2" - # bert-base-japanese: 特殊的地方在于 "word_tokenizer_type": "mecab",见 https://huggingface.co/tohoku-nlp/bert-base-japanese/blob/main/tokenizer_config.json - elif "bert-base-japanese" in tokenizer_config.name_or_path: - return "wordpiece.MecabTokenizer, 支持byte-level https://taku910.github.io/mecab/" - elif "moss" in tokenizer_config.name_or_path: - return "应该是 sentencepiece.byte_bpe,待确认" - elif "byt5" in tokenizer_config.name_or_path: - return "未知,待定" - else: - print("catch", tokenizer_config.name_or_path) - raise "error" - - - - - -def test_reversible(tokenizer_config): - """ - xlm-roberta-base 为什么oov这么少?是因为有 byte吗? - :param tokenizer_config: - :return: - """ - tokenizer = load_tokenizer(tokenizer_config) - encoding = tokenizer.encode(text, add_special_tokens=False) - decoding = tokenizer.decode(encoding) - - if text in decoding: - # print(tokenizer_config.name, tokenizer_config.impl, "reversible: true") - pass - else: - unk_count = sum([1 for token_id in encoding if token_id == tokenizer.unk_token_id]) - oov_tokens = [] - # if tokenizer_config.impl == TokenizerImpl.SentencePiece: - # print(sum([tokenizer.is_byte(i) for i in range(tokenizer.piece_size())])) - - print("#######"*5) - print(f"{tokenizer_config.name_or_path}, {infer_tokenizer_type(tokenizer_config)}\n" - f"reversible: false; unk_token: {get_unk(tokenizer_config)}," - f" unk_ratio: {unk_count/len(encoding):.4f}; oov: []") - for i in range(len(text)): - if text[i] != decoding[i]: - # print(f"text[{i}] = {str(bytes(text[i:], 'utf-8'))}\n" - # f"decoding[{i}] = {str(bytes(decoding[i:], 'utf-8'))}") - print(f"text[{i}] = {json.dumps(text[i:], ensure_ascii=False)}, \n" - f"decoding[{i}] = {json.dumps(decoding[i:], ensure_ascii=False)}") - - break - - - -for config in all_tokenizer_config: - # if "xlm-roberta-base" in config.name: - # if "xlm-roberta-base" in config.name: - # if "chatglm3-6b" in config.name: - # if "bert-base-japanese" in config.name: - # if "moss" in config.name: - # if "byt5" in config.name: - if "baichuan" in config.name_or_path: - # if "CharacterGLM-6B" in config.name: - # if "fastchat-t5" in config.name: # 报错 pyo3_runtime.PanicException: AddedVocabulary bad split - # if True: - # test_unk(config) - test_reversible(config) - - - - + + + +import os +import json +from vocab import all_tokenizer_config, load_tokenizer, TokenizerImpl + + +text = "hello; Замглавы управления развития; 특히 주소 15~17번 홀에선 3연속;" \ + " 確実に春が近づいてること; a közoktatással? _ Belföld;" \ + " pumë, i vjetër, vjeç; ئەردوغان ۋە قىرغىزىستان ;" \ + " निम्न में से कौन सा हारडवेयर; ተለዋዋጭ የግድግዳ ; Дзейныя асобы:;" \ + " « અમરેલીનાં મહિલા વિકાસ; 🦙❤❥웃유♋☮✊;" \ + "װיקיװערטערבוך " +whitespace = "\t \n\n\r " +bytes = b"\x00\x01\x02\x03\x04".decode('utf-8') + +text += whitespace + + +def get_unk(tokenizer_config): + tokenizer = load_tokenizer(tokenizer_config) + if hasattr(tokenizer, "unk_token"): + return f"{tokenizer.unk_token}, {tokenizer.unk_token_id}" + else: + return "unk_token not found" + + +# def infer_tokenizer_impl(tokenizer_config): +def infer_tokenizer_type(tokenizer_config): + tokenizer = load_tokenizer(tokenizer_config) + if tokenizer_config.impl == TokenizerImpl.TikToken: + return "tiktoken" + if hasattr(tokenizer, "backend_tokenizer"): + return str(type(tokenizer.backend_tokenizer.model)) # type(tokenizer._tokenizer.model)) + # orion: sp_model.Load(vocab_file),继承 PreTrainedTokenizer + elif hasattr(tokenizer, "sp_model"): # 基于 sentencepiece 包 + # for i in range(tokenizer.sp_model.piece_size()): + # if tokenizer.sp_model.is_byte(i): + # print("") + return f"sp_model, byte_num: {sum([tokenizer.sp_model.is_byte(i) for i in range(tokenizer.sp_model.piece_size())])}" + + # sp.Load(model_path) ,并且包括image_tokenizer + elif "glm-" in tokenizer_config.name_or_path: + return f"byte_num: {sum([tokenizer.sp_tokenizer.text_tokenizer.sp.is_byte(i) for i in range(tokenizer.sp_tokenizer.text_tokenizer.sp.piece_size())])}" + # sp.Load(model_path) ,没有image_tokenizer + elif "glm2-" in tokenizer_config.name_or_path \ + or "glm3-" in tokenizer_config.name_or_path \ + or "CharacterGLM-6B" in tokenizer_config.name_or_path: + return f"byte_num: {sum([tokenizer.tokenizer.sp_model.is_byte(i) for i in range(tokenizer.tokenizer.sp_model.piece_size())])}" + elif "abeja/gpt-neox-japanese-2.7b" == tokenizer_config.name_or_path: # 支持 byte-level,解决oov问题 + return f"japanese-bpe: https://github.com/tanreinama/Japanese-BPEEncoder_V2" + # bert-base-japanese: 特殊的地方在于 "word_tokenizer_type": "mecab",见 https://huggingface.co/tohoku-nlp/bert-base-japanese/blob/main/tokenizer_config.json + elif "bert-base-japanese" in tokenizer_config.name_or_path: + return "wordpiece.MecabTokenizer, 支持byte-level https://taku910.github.io/mecab/" + elif "moss" in tokenizer_config.name_or_path: + return "应该是 sentencepiece.byte_bpe,待确认" + elif "byt5" in tokenizer_config.name_or_path: + return "未知,待定" + else: + print("catch", tokenizer_config.name_or_path) + raise "error" + + + + + +def test_lossless(tokenizer_config): + """ + xlm-roberta-base 为什么oov这么少?是因为有 byte吗? + :param tokenizer_config: + :return: + """ + tokenizer = load_tokenizer(tokenizer_config) + encoding = tokenizer.encode(text, add_special_tokens=False) + decoding = tokenizer.decode(encoding) + + if text in decoding: + # print(tokenizer_config.name, tokenizer_config.impl, "lossless: true") + pass + else: + unk_count = sum([1 for token_id in encoding if token_id == tokenizer.unk_token_id]) + oov_tokens = [] + # if tokenizer_config.impl == TokenizerImpl.SentencePiece: + # print(sum([tokenizer.is_byte(i) for i in range(tokenizer.piece_size())])) + + print("#######"*5) + print(f"{tokenizer_config.name_or_path}, {infer_tokenizer_type(tokenizer_config)}\n" + f"lossless: false; unk_token: {get_unk(tokenizer_config)}," + f" unk_ratio: {unk_count/len(encoding):.4f}; oov: []") + for i in range(len(text)): + if text[i] != decoding[i]: + # print(f"text[{i}] = {str(bytes(text[i:], 'utf-8'))}\n" + # f"decoding[{i}] = {str(bytes(decoding[i:], 'utf-8'))}") + print(f"text[{i}] = {json.dumps(text[i:], ensure_ascii=False)}, \n" + f"decoding[{i}] = {json.dumps(decoding[i:], ensure_ascii=False)}") + + break + + + +for config in all_tokenizer_config: + # if "xlm-roberta-base" in config.name: + # if "xlm-roberta-base" in config.name: + # if "chatglm3-6b" in config.name: + # if "bert-base-japanese" in config.name: + # if "moss" in config.name: + # if "byt5" in config.name: + if "baichuan" in config.name_or_path: + # if "CharacterGLM-6B" in config.name: + # if "fastchat-t5" in config.name: # 报错 pyo3_runtime.PanicException: AddedVocabulary bad split + # if True: + # test_unk(config) + test_lossless(config) + + + + diff --git a/utils/text_util.py b/utils/text_util.py index 4c615b2b9f46c7cad71ae50abe6ecac1d94ee685..fdfe78a12649c6851bd354bcba0703863bf0cc8d 100644 --- a/utils/text_util.py +++ b/utils/text_util.py @@ -1,55 +1,44 @@ -""" -char_ -""" - - -def detect_lang_from_unicode(): - pass - - -def is_digit_char(uchar): - return uchar in "0123456789" - - -def contains_digit(text): - return any(is_digit_char(ch) for ch in text) - - -def get_digit_count(text): - pass - -def is_all_digit(text): - return all(is_digit_char(char) for char in text) - - -def get_digit_count(text): - digit_count = 0 - for char in text: - if char in "0123456789": - digit_count += 1 - return digit_count - - - - - -def is_space_char(uchar): - """ - https://emptycharacter.com/ - - - """ - - -def has_space(text): - pass - -def is_all_space(text): - pass - -def get_space_count(text): - space_count = 0 - for char in text: - if len(char.strip()) == 0: - space_count += 1 - return space_count +""" +char_ +""" + + +def detect_lang_from_unicode(): + pass + + +def is_digit_char(uchar): + return uchar in "0123456789" + + +def contains_digit(text): + return any(is_digit_char(ch) for ch in text) + + +def get_digit_count(text): + pass + +def is_all_digit(text): + return all(is_digit_char(char) for char in text) + + +def get_digit_count(text): + digit_count = 0 + for char in text: + if char in "0123456789": + digit_count += 1 + return digit_count + + +def has_space(text): + pass + +def is_all_space(text): + pass + +def get_space_count(text): + space_count = 0 + for char in text: + if len(char.strip()) == 0: + space_count += 1 + return space_count diff --git a/vocab.py b/vocab.py index 298c8fdfe0d33f613f1590595cfac663d3f14807..537240af52a31bd3da053347aecc9f99b3fbfd09 100644 --- a/vocab.py +++ b/vocab.py @@ -1,455 +1,514 @@ -from patcher import tiktoken_patch -import tiktoken -from transformers import AutoTokenizer -from enum import Enum, auto -from dataclasses import dataclass, field - -from utils.log_util import logger -from typing import Dict, Any, Union - -"""Interface: -tokenizer.encode -tokenizer.decode - tokenizer.convert_tokens_to_string # gpt4 没有这个方法 -tokenizer.convert_ids_to_tokens - - -tokenizer.parent = "" -tokenizer.vocab_size -tokenizer.get_vocab() # gpt-neox-20b, llama -tokenizer.type = TokenizerType.ByteBPE.name -tokenizer.implementation = TokenizerImpl.SentencePiece.name # https://github.com/facebookresearch/llama/blob/main/llama/tokenizer.py - "HFGPT2Tokenizer", "HFTokenizer", "GPT2BPETokenizer", "CharLevelTokenizer", "TiktokenTokenizer", "SPMTokenizer", https://github.com/EleutherAI/gpt-neox/blob/main/tools/preprocess_data.py - - -tokenizer.comments = "split all numbers into individual digits, " \ - "and fallback to bytes to decompose unknown UTF-8 characters" - -tokenizer.all_special_tokens # baichuan -tokenizer.special_tokens_set # gpt3.5_turbo -tokenizer.special_tokens_map -""" - - -class TokenizerImpl(Enum): - """ - - https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/__init__.py - - https://huggingface.co/docs/transformers/tokenizer_summary - - https://github.com/EleutherAI/gpt-neox/blob/main/megatron/tokenizer/tokenizer.py - - ## google/BertTokenizer - - https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py - - 特征 - - 算法:BERT的编码器是 BPE-WordPiece,将单词拆分成多个前缀符号(比如BERT中的##)最小单元 - - 词典:有##开头的token,表示subword, - - 中文采用char粒度分词 - - 英文采用 WordPiece - - - - - ## google/sentencepiece - - https://github.com/google/sentencepiece/blob/3863f7648e5d8edb571ac592f3ac4f5f0695275a/src/sentencepiece_model.proto#L48 - - 支持 sentencepiece 和 wordpiece - - sentencepiece 有byte-bpe吗? - - UNIGRAM = 1; // Unigram language model with dynamic algorithm - - BPE = 2; // Byte Pair Encoding - - WORD = 3; // Delimitered by whitespace. - - CHAR = 4; // tokenizes into character sequence - - wordpiece - - 特征: - - 训练: spm_train --model_type unigram/bpe/char/word - - 特殊符号: Ġ - - 文件: *.sp_model 或 *.model (可选文件 .vocab,) spm简称 (其他格式比如 tokenizer.json是给hf_tokenizer兼容用的) - - 实现: - - 依赖: protobuf - - 训练: `import sentencepiece as spm; spm.SentencePieceTrainer.train` 或 `spm_train` - - 加载: `import sentencepiece as spm; spm.SentencePieceProcessor().Load(vocab_file)` - - 方法: 是SentencePieceProcessor类型,sp_model.id_to_piece,有tokenizer.json tokenizer.model, - - 分词: - - pre_tokenizers.ByteLevel(add_prefix_space=True, use_regex=False) - - 词典: 词典字符有 ▁ (U+2581) ,表示空格或句首。 - - 示例:google-t5, llama,baichuan, orion, - - llama: tokenizer.json(包含model.vocab model.merges) tokenizer.model - - grok: 原始是 .model文件,后面转成了 tokenizer.json - - google-t5: tokenizer.json, spiece.model - - Skywork-13B-Math: tokenizer.model - - xlm_roberta: sentencepiece.bpe.model - - GPT2Tokenizer - - tokenizer.json, vocab.json, merges.txt (https://huggingface.co/openai-community/gpt2) - - vocab.bpe, encoder.json, dict.txt (fairseq版本,不常用,可以忽略这个版本) - - - - ## thu/icetk - - icetk: sentencepiece的分支,支持image_tokenizer。 - - glm, chatglm1, chatglm2 - - ## huggingface/tokenizers - - https://github.com/huggingface/tokenizers - - VS sentencepiece - - 支持sentencepiece - - .model转化为 (merges.txt + vocab.json) 或者 tokenizer.json - - https://github.com/huggingface/tokenizers/blob/main/bindings/python/scripts/sentencepiece_extractor.py - - 加载 merges.txt, vocab.json - - SentencePieceBPETokenizer https://github.com/huggingface/tokenizers/blob/v0.19.1/bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py#L10 - - 在 sentencepiece基础上,hf_tokenizer支持pre-tokenization的正则表达式,对tab和换行支持更好,支持special token - - 类型: 支持 BBPE, WordPiece or Unigram - - 特征: - - 文件: tokenizer.json(包含后两个文件的内容), merges.txt, vocab.json - - added_tokens 在vocab中不一定存在。 - - 实现: - - 训练: `from tokenizers.trainers import BpeTrainer, UnigramTrainer, WordLevelTrainer, WordPieceTrainer` - - 加载: - - 方法: .model.from_file .model.save .model.token_to_id .model.tokenize - - .model 是 tokenizer.models.BPE 类型 - - 词典有 Ġ "\u0120" 开头 - - 优势 - - - - 示例:gpt2, gpt_neox_20b, moss, bloom, qwen2 - - 优势:相对sentence piece, - - ss - - ## openai/tiktoken - - 特征:空格就是空格, - - 示例:gpt3.5 gpt4, qwen, - """ - """ 算法体系 https://www.huaxiaozhuan.com/%E5%B7%A5%E5%85%B7/huggingface_transformer/chapters/1_tokenizer.html - - word-base tokenizer: - - char-base tokenizer: - - subword-based Tokenizer - - BPE - - byte-bpe: base vocabulary大小是256 - - WordPiece: - - 相比BPE,WordPiece 仅保存最终词表,而不保存学到的 merge rule - - Unigram - - SentencePiece - - """ - - # 分类体系:https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/ - BertTokenizer = "wordpiece.BertTokenizer" - JapaneseTokenizer = ("wordpiece.MecabTokenizer", "https://github.com/polm/fugashi") # 常用日语包 ipadic,fugashi, - ByteLevelBPETokenizer = "byte_level_bpe" # BBPE - SentencePieceBPETokenizer = "sentencepiece_bpe" - - # 分类体系 - - # SentencePeice(BPE) - SentencePiece = auto() # sentencepiece.bpe, sentencepiece.unigram, sentencepiece.char, sentencepiece.word, - byte_level_bpe = auto() - # HFTokenizer = auto() # , 支持 - TikToken = auto() - # subword-nmt - # WordPiece - - -# load_vocab_with_SPECIAL_TOKEN = True # 如果不包含会导致计算词典大小错误、overlap_token计算不一致。 - - -@dataclass -class TokenizerConfig: - """ - https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/blob/main/src/leaderboard/read_evals.py - """ - name_or_path: str # org/model (path on hub), as unique id - name_display: str = None # - impl: TokenizerImpl = None # implementation, tokenizer_class/type - org: str = None - link: str = None # http://** - desc: str = None # description - meta: str = None - level: str = None # char-level, word-level, byte-level - init_kwargs: Dict[str, Any] = field(default_factory=dict, ) - - def __post_init__(self): - if self.link is None: - self.link = "https://huggingface.co/" + self.name_or_path # TODO + revision - if self.name_display is None: - self.name_display = self.name_or_path - - @classmethod - def init_from_json_file(cls, json_filepath: str) -> 'TokenizerConfig': - pass - - def __eq__(self, other): - if isinstance(other, self.__class__): - return self.__dict__ == other.__dict__ - else: - return False - - def __hash__(self): - return hash(self.name_or_path) - - -# TODO: append link and description to the end of dropdown button. -# Add tokenizer_class/type, comments -_all_tokenizer_config = [ - ##### bert 系列 - TokenizerConfig("google-bert/bert-base-cased", impl=TokenizerImpl.BertTokenizer, org="Google", - desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), - TokenizerConfig("google-bert/bert-base-uncased", impl=TokenizerImpl.BertTokenizer, org="Google", - desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), - TokenizerConfig("google-bert/bert-base-chinese", impl=TokenizerImpl.BertTokenizer, org="Google", - desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), - TokenizerConfig("google-bert/bert-base-german-cased", impl=TokenizerImpl.BertTokenizer, org="Google"), - TokenizerConfig("dbmdz/bert-base-german-uncased", impl=TokenizerImpl.BertTokenizer, org="dbmdz"), - TokenizerConfig("google-bert/bert-base-multilingual-uncased", impl=TokenizerImpl.BertTokenizer, org="Google"), - TokenizerConfig("google-bert/bert-base-multilingual-cased", impl=TokenizerImpl.BertTokenizer, org="Google"), - TokenizerConfig("tohoku-nlp/bert-base-japanese", impl=TokenizerImpl.BertTokenizer, org="Tohoku", - desc="The texts are first tokenized by MeCab morphological parser with the IPA dictionary, " - "then split into subwords by the WordPiece algorithm."), - TokenizerConfig("clue/roberta_chinese_clue_tiny", name_display="clue/roberta-chinese-clue", - impl=TokenizerImpl.BertTokenizer, org="CLUE", - init_kwargs={"revision": "refs/pr/1"}, - desc="", - meta="去掉了繁体字, https://github.com/CLUEbenchmark/CLUEPretrainedModels/blob/master/README.md"), - TokenizerConfig("eson/kplug-base-encoder", name_display="eson/kplug", impl=TokenizerImpl.BertTokenizer, org="JD"), - TokenizerConfig("ckiplab/gpt2-base-chinese", impl=TokenizerImpl.BertTokenizer, org="SINICA"), # 台湾中央研究院 - # WoBERT https://kexue.fm/archives/7758 - # WoBERT Plus https://github.com/ZhuiyiTechnology/WoBERT - - - ##### GPT2Tokenizer - TokenizerConfig("openai-community/gpt2", impl=TokenizerImpl.SentencePiece, org="OpenAI"), - # byte-level BPE,没有byte,是unicode-level的吗? - TokenizerConfig("ClassCat/gpt2-base-french", impl=TokenizerImpl.SentencePiece, org="ClassCat"), - TokenizerConfig("ClassCat/gpt2-base-spanish", impl=TokenizerImpl.SentencePiece, org="ClassCat"), - TokenizerConfig("fnlp/moss-moon-003-sft", impl=TokenizerImpl.SentencePiece, init_kwargs={"revision": "refs/pr/6"}, - org="Fudan", - desc="This tokenizer has been trained to treat spaces like parts of the tokens " - "(a bit like sentencepiece) so a word will be encoded differently whether " - "it is at the beginning of the sentence (without space) or not", - meta="在gpt2词典基础上,扩充了5万中文"), - TokenizerConfig("bigscience/bloom", impl=TokenizerImpl.SentencePiece, org="BigScience", - meta="比gpt_neox的词典 对中文支持更好。"), - # ("bloomz_6b4_zh", - # ("BelleGroup/BELLE-7B-2M", # 模型和词典都基于bloom - # - TokenizerConfig("EleutherAI/gpt-neox-20b", impl=TokenizerImpl.SentencePiece, org="EleutherAI"), # 5万 - TokenizerConfig("cyberagent/open-calm-7b", impl=TokenizerImpl.SentencePiece, org="CyberAgent"), # GPTNeoXTokenizer - TokenizerConfig("abeja/gpt-neox-japanese-2.7b", impl=TokenizerImpl.SentencePiece, org="ABEJA"), - TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢 - TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), - TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), - TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"), - - ####### google/sentencepiece tokenizer: - # T5 llama internlm - TokenizerConfig("google-t5/t5-large", name_display="google-t5/t5", impl=TokenizerImpl.SentencePiece, org="Google"), - # t5_small, t5_base, t5_large, flan_t5_base, - # ("t5_base", "", "sentencepiece"), - # TokenizerConfig("google/flan-t5-base", impl=TokenizerImpl.SentencePiece, ), - TokenizerConfig("lmsys/fastchat-t5-3b-v1.0", impl=TokenizerImpl.SentencePiece, - org="LMSYS", - init_kwargs={"use_fast": False} # 解决 pyo3_runtime.PanicException: AddedVocabulary bad split - ), - TokenizerConfig("CohereForAI/aya-101", org="Cohere For AI"), # "tokenizer_class": "T5Tokenizer", - - TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"), - TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"), - TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3", - impl=TokenizerImpl.SentencePiece, org="Meta", - desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"), - # byte-level BPE - # '中文单字': 700, '中文多字': 0 - TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece, - org="Meta"), - TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"), - TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"), - # 由.model文件转化为了 - TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-", - meta="向原始LLaMA的词汇表中添加2w个中文词汇,针对原版LLaMA模型扩充了中文词表, 提升了中文编解码效率"), - # - TokenizerConfig("hfl/chinese-llama-2-7b", impl=TokenizerImpl.SentencePiece, org="-", - meta="重新设计了新词表(大小:55296),进一步提升了中文字词的覆盖程度"), # - TokenizerConfig("hfl/llama-3-chinese-8b", impl=TokenizerImpl.SentencePiece, org="-"), - TokenizerConfig("hfl/chinese-alpaca-lora-7b", impl=TokenizerImpl.SentencePiece, org="-"), - # 中文Alpaca模型在上述中文LLaMA模型的基础上进一步使用了指令数据进行精调。 "比chinese_llama词典多一个`[PAD]`,请勿混用" - # - # ("belle_llama_ext_7b", - # ("alpaca_7b", - TokenizerConfig("baichuan-inc/Baichuan-7B", name_display="baichuan-inc/baichuan", - impl=TokenizerImpl.SentencePiece, - level="byte-level", org="Baichuan"), - TokenizerConfig("baichuan-inc/Baichuan2-7B-Chat", name_display="baichuan-inc/baichuan2", - impl=TokenizerImpl.SentencePiece, org="Baichuan", - desc="expand the vocabulary size from 64000 in Baichuan1 to 125696"), - TokenizerConfig("internlm/internlm-chat-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), - # 上海AI实验室 + 商汤 - TokenizerConfig("internlm/internlm2-chat-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), - TokenizerConfig("internlm/internlm2-math-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), - TokenizerConfig("internlm/internlm-xcomposer-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), - TokenizerConfig("tiiuae/falcon-7b", impl=TokenizerImpl.SentencePiece, org="TII"), - TokenizerConfig("tiiuae/falcon-180b", impl=TokenizerImpl.SentencePiece, org="TII"), - TokenizerConfig("Skywork/Skywork-13B-base", impl=TokenizerImpl.SentencePiece, org="Kunlun"), - TokenizerConfig("Skywork/Skywork-13B-Math", impl=TokenizerImpl.SentencePiece, org="Kunlun"), # 文件:tokenizer.model - TokenizerConfig("FacebookAI/xlm-roberta-base", impl=TokenizerImpl.SentencePiece, org="Facebook"), - # 这个的tokenizer.json 为什么没有merges? vocab里为什么有概率值? - # "goat", - - # ##### glm系列 - # "glm_chinese",), - TokenizerConfig("THUDM/chatglm-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", - meta=f"num_image_tokens: {12}; num_image_tokens: {34} ", - init_kwargs={"revision": "refs/pr/100"}), - TokenizerConfig("THUDM/chatglm2-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), - TokenizerConfig("THUDM/chatglm3-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), - TokenizerConfig("thu-coai/CharacterGLM-6B", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), - - # tiktoken 系列 - TokenizerConfig("openai/text-davinci-003", impl=TokenizerImpl.TikToken, org="OpenAI", - link="https://github.com/openai/tiktoken"), - # - TokenizerConfig("openai/code-davinci-002", impl=TokenizerImpl.TikToken, org="OpenAI", - link="https://github.com/openai/tiktoken"), - TokenizerConfig("openai/gpt-3.5-turbo", impl=TokenizerImpl.TikToken, org="OpenAI", - link="https://github.com/openai/tiktoken", - desc="tiktoken is a fast BPE tokeniser for use with OpenAI's models. There are 16 tokens KeyError"), - TokenizerConfig("openai/gpt-4", impl=TokenizerImpl.TikToken, org="OpenAI", - link="https://github.com/openai/tiktoken", ), - TokenizerConfig("openai/gpt-4o", impl=TokenizerImpl.TikToken, org="OpenAI", - link="https://github.com/openai/tiktoken", ), - TokenizerConfig("Qwen/Qwen-7B-Chat", name_display="Qwen/Qwen", impl=TokenizerImpl.TikToken, org="Alibaba", - init_kwargs={"revision": "refs/pr/56"}, - meta="在gpt4词典基础上,删除了100个多数字token,增加10000中文词token;并优化了special_token的分词"), - # https://huggingface.co/Qwen/Qwen-7B-Chat#%E6%A8%A1%E5%9E%8B%E7%BB%86%E8%8A%82%EF%BC%88model%EF%BC%89 - # 该词表在GPT-4使用的BPE词表cl100k_base基础上,对中文、多语言进行了优化,在对中、英、代码数据的高效编解码的基础上, - # 对部分多语言更加友好,方便用户在不扩展词表的情况下对部分语种进行能力增强。 词表对数字按单个数字位切分。 - - # TokenizerConfig("Qwen/Qwen-72B-Chat", impl=TokenizerImpl.TikToken), - - # 未分类 - # ("amber", ""), - TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"), - TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"), - TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"), - - TokenizerConfig("paust/pko-t5-large", org="PAUST"), - - TokenizerConfig("01-ai/Yi-6B", org="Yi"), - TokenizerConfig("01-ai/Yi-34B", org="Yi"), - TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"), - TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"), - TokenizerConfig("microsoft/phi-1", org="Microsoft"), - TokenizerConfig("microsoft/phi-2", org="Microsoft"), - TokenizerConfig("microsoft/Phi-3-mini-4k-instruct", org="Microsoft", meta="即llama vocab"), - TokenizerConfig("Upstage/SOLAR-10.7B-v1.0", org="-"), - TokenizerConfig("google/mobilebert-uncased", org="Google"), - # ("google/mobilenet_v2_1.0_224",), # error - TokenizerConfig("google/switch-c-2048", org="Google"), - TokenizerConfig("google/byt5-small", org="Google"), - TokenizerConfig("google/mt5-large", org="Google"), - TokenizerConfig("WizardLM/WizardCoder-Python-7B-V1.0", org="Microsoft"), - TokenizerConfig("WizardLM/WizardCoder-15B-V1.0", org="Microsoft"), - TokenizerConfig("WizardLM/WizardLM-7B-V1.0", org="Microsoft"), - TokenizerConfig("WizardLM/WizardMath-70B-V1.0", org="Microsoft"), - TokenizerConfig("TigerResearch/tigerbot-70b-chat-v4-4k", org="Tigerobo"), - TokenizerConfig("TigerResearch/tigerbot-13b-chat-v2", org="Tigerobo"), - TokenizerConfig("deepseek-ai/deepseek-coder-33b-instruct", org="DeepSeek"), - TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"), - TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"), - TokenizerConfig("google/gemma-7b", org="Google"), - TokenizerConfig("allenai/OLMo-7B", org="Allen AI"), - TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"), - TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"), - TokenizerConfig("databricks/dbrx-instruct", org="Databricks"), - - # ("claude",), - # https://github.com/Duxiaoman-DI/XuanYuan - - # https://huggingface.co/apple/OpenELM-3B-Instruct https://huggingface.co/apple/OpenELM-3B - -] - -assert len(set([config.name_display for config in _all_tokenizer_config])) == len(_all_tokenizer_config) -assert len(set([config.name_or_path for config in _all_tokenizer_config])) == len(_all_tokenizer_config) -assert len(set([config.name_or_path.split("/")[-1] for config in _all_tokenizer_config])) == len(_all_tokenizer_config) - - -class TokenizerFactory: - - def __init__(self): - self.all_tokenizer_configs = sorted(_all_tokenizer_config, key=lambda k: k.name_or_path) - self.all_tokenizer_names = [config.name_or_path for config in self.all_tokenizer_configs] - self.name_to_config_list = [ - {config.name_or_path: config for config in self.all_tokenizer_configs}, - {config.name_display: config for config in self.all_tokenizer_configs}, - {config.name_display.split("/")[-1]: config for config in self.all_tokenizer_configs}, - ] - self.tokenizer_cache = {} - - def get_tokenizer_config(self, tokenizer_name: str) -> TokenizerConfig: - for name_to_config in self.name_to_config_list: - if tokenizer_name in name_to_config: - return name_to_config[tokenizer_name] - return None - - def get_tokenizer(self, tokenizer_name: str): - """ - :param tokenizer_name: - :return: - """ - tokenizer_config = self.get_tokenizer_config(tokenizer_name) - - # 1. load from cache - if tokenizer_config in self.tokenizer_cache: - return self.tokenizer_cache[tokenizer_config] - - # 2. load tokenizer - logger.info(f"loading tokenizer {tokenizer_config.name_or_path}") - if tokenizer_config.impl == TokenizerImpl.TikToken and "openai" in tokenizer_config.name_or_path: - tokenizer = tiktoken.encoding_for_model(tokenizer_config.name_or_path.replace("openai/", "")) - else: - tokenizer = AutoTokenizer.from_pretrained( - tokenizer_config.name_or_path, - trust_remote_code=True, - **tokenizer_config.init_kwargs - ) - self.tokenizer_cache[tokenizer_config] = tokenizer - return tokenizer - - def get_name_with_hyperlink(self, tokenizer_name: str): - def model_hyperlink(link, model_name): - model_name = model_name - return f'{model_name}' - - tokenizer_config = self.get_tokenizer_config(tokenizer_name) - return model_hyperlink(tokenizer_config.link, tokenizer_config.name_display.split("/")[-1]) - - -tokenizer_factory = TokenizerFactory() - -# class TokenizerType(Enum): -# -# # BERTTokenizer -# # 依赖一个txt文件 -# -# -# # https://github.com/EleutherAI/gpt-neox/blob/v2.0/megatron/tokenizer/tokenizer.py#L231 -# # 依赖一个json文件,Tokenizer.from_file(vocab_file) -# # 案例:gpt-neox-20B -# HFTokenizer = auto() -# -# # 依赖: model_file, sentencepiece.SentencePieceProcessor(model_file) -# # 案例: -# SentencePieceTokenizer = auto() -# -# -# # 依赖: 3个json文件:vocab.json, merges.txt, special_tokens.txt -# # 源码: -# # - https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/tokenizer/gpt2_tokenization.py#L92 -# # Byte-level BPE -# GPT2BPETokenizer = auto() - - -if __name__ == "__main__": - - for tokenizer_config in tokenizer_factory.all_tokenizer_configs: - if True: - # if "t5" in tokenizer_config.name_or_path: - tokenizer1 = tokenizer_factory.get_tokenizer(tokenizer_config.name_or_path) - tokenizer2 = tokenizer_factory.get_tokenizer(tokenizer_config.name_display) - tokenizer3 = tokenizer_factory.get_tokenizer(tokenizer_config.name_display.split("/")[-1]) - assert tokenizer1 == tokenizer2 == tokenizer3 - print(tokenizer_config.name_or_path, len(tokenizer1)) +from patcher import tiktoken_patch +import tiktoken +from transformers import AutoTokenizer, PreTrainedTokenizer +from enum import Enum, auto +from dataclasses import dataclass, field + +from utils.log_util import logger +from typing import Dict, Any, Union + +"""Interface: +# https://github.com/huggingface/transformers/blob/main/src/transformers/tokenization_utils_base.py + +tokenizer.encode -> List[int]: Converts a string to a sequence of ids (integer) +tokenizer.decode + tokenizer.convert_tokens_to_string # gpt4 没有这个方法 +tokenizer.convert_ids_to_tokens +tokenizer.tokenize -> List[str]: Converts a string into a sequence of tokens -> + + +tokenizer.parent = "" +tokenizer.vocab_size +tokenizer.get_vocab() # gpt-neox-20b, llama +tokenizer.type = TokenizerType.ByteBPE.name +tokenizer.implementation = TokenizerImpl.SentencePiece.name # https://github.com/facebookresearch/llama/blob/main/llama/tokenizer.py + "HFGPT2Tokenizer", "HFTokenizer", "GPT2BPETokenizer", "CharLevelTokenizer", "TiktokenTokenizer", "SPMTokenizer", https://github.com/EleutherAI/gpt-neox/blob/main/tools/preprocess_data.py + + +tokenizer.comments = "split all numbers into individual digits, " \ + "and fallback to bytes to decompose unknown UTF-8 characters" + +tokenizer.all_special_tokens # baichuan +tokenizer.special_tokens_set # gpt3.5_turbo +tokenizer.special_tokens_map +""" + + +class TokenizerImpl(Enum): + """ + - https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/__init__.py + - https://huggingface.co/docs/transformers/tokenizer_summary + - https://github.com/EleutherAI/gpt-neox/blob/main/megatron/tokenizer/tokenizer.py + + ## google/BertTokenizer + - https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py + - 特征 + - 算法:BERT的编码器是 BPE-WordPiece,将单词拆分成多个前缀符号(比如BERT中的##)最小单元 + - 词典:有##开头的token,表示subword, + - 中文采用char粒度分词 + - 英文采用 WordPiece + + + + + ## google/sentencepiece + - https://github.com/google/sentencepiece/blob/3863f7648e5d8edb571ac592f3ac4f5f0695275a/src/sentencepiece_model.proto#L48 + - 支持 sentencepiece 和 wordpiece + - sentencepiece 有byte-bpe吗? + - UNIGRAM = 1; // Unigram language model with dynamic algorithm + - BPE = 2; // Byte Pair Encoding + - WORD = 3; // Delimitered by whitespace. + - CHAR = 4; // tokenizes into character sequence + - wordpiece + - 特征: + - 训练: spm_train --model_type unigram/bpe/char/word + - 特殊符号: Ġ + - 文件: *.sp_model 或 *.model (可选文件 .vocab,) spm简称 (其他格式比如 tokenizer.json是给hf_tokenizer兼容用的) + - 实现: + - 依赖: protobuf + - 训练: `import sentencepiece as spm; spm.SentencePieceTrainer.train` 或 `spm_train` + - 加载: `import sentencepiece as spm; spm.SentencePieceProcessor().Load(vocab_file)` + - 方法: 是SentencePieceProcessor类型,sp_model.id_to_piece,有tokenizer.json tokenizer.model, + - 分词: + - pre_tokenizers.ByteLevel(add_prefix_space=True, use_regex=False) + - 词典: 词典字符有 ▁ (U+2581) ,表示空格或句首。 + - 示例:google-t5, llama,baichuan, orion, + - llama: tokenizer.json(包含model.vocab model.merges) tokenizer.model + - grok: 原始是 .model文件,后面转成了 tokenizer.json + - google-t5: tokenizer.json, spiece.model + - Skywork-13B-Math: tokenizer.model + - xlm_roberta: sentencepiece.bpe.model + - GPT2Tokenizer + - tokenizer.json, vocab.json, merges.txt (https://huggingface.co/openai-community/gpt2) + - vocab.bpe, encoder.json, dict.txt (fairseq版本,不常用,可以忽略这个版本) + + + + ## thu/icetk + - icetk: sentencepiece的分支,支持image_tokenizer。 + - glm, chatglm1, chatglm2 + + ## huggingface/tokenizers + - https://github.com/huggingface/tokenizers + - VS sentencepiece + - 支持sentencepiece + - .model转化为 (merges.txt + vocab.json) 或者 tokenizer.json + - https://github.com/huggingface/tokenizers/blob/main/bindings/python/scripts/sentencepiece_extractor.py + - 加载 merges.txt, vocab.json + - SentencePieceBPETokenizer https://github.com/huggingface/tokenizers/blob/v0.19.1/bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py#L10 + - 在 sentencepiece基础上,hf_tokenizer支持pre-tokenization的正则表达式,对tab和换行支持更好,支持special token + - 类型: 支持 BBPE, WordPiece or Unigram + - 特征: + - 文件: tokenizer.json(包含后两个文件的内容), merges.txt, vocab.json + - added_tokens 在vocab中不一定存在。 + - 实现: + - 训练: `from tokenizers.trainers import BpeTrainer, UnigramTrainer, WordLevelTrainer, WordPieceTrainer` + - 加载: + - 方法: .model.from_file .model.save .model.token_to_id .model.tokenize + - .model 是 tokenizer.models.BPE 类型 + - 词典有 Ġ "\u0120" 开头 + - 优势 + - + - 示例:gpt2, gpt_neox_20b, moss, bloom, qwen2 + - 优势:相对sentence piece, + - ss + + ## openai/tiktoken + - 特征:空格就是空格, + - 示例:gpt3.5 gpt4, qwen, + """ + """ 算法体系 https://www.huaxiaozhuan.com/%E5%B7%A5%E5%85%B7/huggingface_transformer/chapters/1_tokenizer.html + - word-base tokenizer: + - char-base tokenizer: + - subword-based Tokenizer + - BPE + - byte-bpe: base vocabulary大小是256 + - WordPiece: + - 相比BPE,WordPiece 仅保存最终词表,而不保存学到的 merge rule + - Unigram + - SentencePiece + + """ + + # 分类体系:https://github.com/huggingface/tokenizers/blob/main/bindings/python/py_src/tokenizers/implementations/ + BertTokenizer = "wordpiece.BertTokenizer" + JapaneseTokenizer = ("wordpiece.MecabTokenizer", "https://github.com/polm/fugashi") # 常用日语包 ipadic,fugashi, + ByteLevelBPETokenizer = "byte_level_bpe" # BBPE + SentencePieceBPETokenizer = "sentencepiece_bpe" + + # 分类体系 + + # SentencePeice(BPE) + SentencePiece = auto() # sentencepiece.bpe, sentencepiece.unigram, sentencepiece.char, sentencepiece.word, + byte_level_bpe = auto() + # HFTokenizer = auto() # , 支持 + TikToken = auto() + # subword-nmt + # WordPiece + + +# load_vocab_with_SPECIAL_TOKEN = True # 如果不包含会导致计算词典大小错误、overlap_token计算不一致。 + + +@dataclass +class TokenizerConfig: + """ + https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/blob/main/src/leaderboard/read_evals.py + """ + name_or_path: str # org/model (path on hub), as unique id + name_display: str = None # + impl: TokenizerImpl = None # implementation, tokenizer_class/type + org: str = None + link: str = None # http://** + desc: str = None # description + meta: str = None + level: str = None # char-level, word-level, byte-level + lang: str = None + init_kwargs: Dict[str, Any] = field(default_factory=dict, ) + + def __post_init__(self): + if self.link is None: + self.link = "https://huggingface.co/" + self.name_or_path # TODO + revision + if self.name_display is None: + self.name_display = self.name_or_path + + @classmethod + def init_from_json_file(cls, json_filepath: str) -> 'TokenizerConfig': + pass + + def __eq__(self, other): + if isinstance(other, self.__class__): + return self.__dict__ == other.__dict__ + else: + return False + + def __hash__(self): + return hash(self.name_or_path) + + +# TODO: append link and description to the end of dropdown button. +# Add tokenizer_class/type, comments +_all_tokenizer_config = [ + # bert style tokenizers + TokenizerConfig("google-bert/bert-base-cased", impl=TokenizerImpl.BertTokenizer, org="Google", + desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), + TokenizerConfig("google-bert/bert-base-uncased", impl=TokenizerImpl.BertTokenizer, org="Google", + desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), + TokenizerConfig("google-bert/bert-base-chinese", impl=TokenizerImpl.BertTokenizer, org="Google", + desc="first add whitespace around any CJK character, then perform wordpiece tokenization."), + TokenizerConfig("google-bert/bert-base-german-cased", impl=TokenizerImpl.BertTokenizer, org="Google"), + TokenizerConfig("dbmdz/bert-base-german-uncased", impl=TokenizerImpl.BertTokenizer, org="dbmdz"), + TokenizerConfig("asafaya/bert-base-arabic", impl=TokenizerImpl.BertTokenizer, org="-"), + TokenizerConfig("google-bert/bert-base-multilingual-uncased", impl=TokenizerImpl.BertTokenizer, org="Google"), + TokenizerConfig("google-bert/bert-base-multilingual-cased", impl=TokenizerImpl.BertTokenizer, org="Google"), + TokenizerConfig("tohoku-nlp/bert-base-japanese", impl=TokenizerImpl.BertTokenizer, org="Tohoku", + desc="The texts are first tokenized by MeCab morphological parser with the IPA dictionary, " + "then split into subwords by the WordPiece algorithm."), + TokenizerConfig("clue/roberta_chinese_clue_tiny", name_display="clue/roberta-chinese-clue", + impl=TokenizerImpl.BertTokenizer, org="CLUE", + init_kwargs={"revision": "refs/pr/1"}, + desc="", + meta="去掉了繁体字, https://github.com/CLUEbenchmark/CLUEPretrainedModels/blob/master/README.md"), + TokenizerConfig("eson/kplug-base-encoder", name_display="eson/kplug", impl=TokenizerImpl.BertTokenizer, org="JD"), + TokenizerConfig("ckiplab/gpt2-base-chinese", impl=TokenizerImpl.BertTokenizer, org="SINICA"), # 台湾中央研究院 + # WoBERT https://kexue.fm/archives/7758 + # WoBERT Plus https://github.com/ZhuiyiTechnology/WoBERT + + + # gpt2 style tokenizers + TokenizerConfig("openai-community/gpt2", impl=TokenizerImpl.SentencePiece, org="OpenAI"), + # byte-level BPE,没有byte,是unicode-level的吗? + TokenizerConfig("ClassCat/gpt2-base-french", impl=TokenizerImpl.SentencePiece, org="ClassCat"), + TokenizerConfig("ClassCat/gpt2-base-spanish", impl=TokenizerImpl.SentencePiece, org="ClassCat"), + TokenizerConfig("fnlp/moss-moon-003-sft", impl=TokenizerImpl.SentencePiece, init_kwargs={"revision": "refs/pr/6"}, + org="Fudan", + desc="This tokenizer has been trained to treat spaces like parts of the tokens " + "(a bit like sentencepiece) so a word will be encoded differently whether " + "it is at the beginning of the sentence (without space) or not", + meta="在gpt2词典基础上,扩充了5万中文"), + TokenizerConfig("bigscience/bloom", impl=TokenizerImpl.SentencePiece, org="BigScience", + meta="比gpt_neox的词典 对中文支持更好。"), + # ("bloomz_6b4_zh", + # ("BelleGroup/BELLE-7B-2M", # 模型和词典都基于bloom + # + TokenizerConfig("EleutherAI/gpt-neox-20b", impl=TokenizerImpl.SentencePiece, org="EleutherAI"), # 5万 + TokenizerConfig("cyberagent/open-calm-7b", impl=TokenizerImpl.SentencePiece, org="CyberAgent"), # GPTNeoXTokenizer + TokenizerConfig("abeja/gpt-neox-japanese-2.7b", impl=TokenizerImpl.SentencePiece, org="ABEJA"), + TokenizerConfig("rinna/bilingual-gpt-neox-4b", impl=TokenizerImpl.SentencePiece, org="ABEJA", lang="en/ja"), + TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢 + TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), + TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), + TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"), + + ####### google/sentencepiece tokenizer: + # T5 llama internlm + TokenizerConfig("google-t5/t5-large", name_display="google-t5/t5", impl=TokenizerImpl.SentencePiece, org="Google"), + # t5_small, t5_base, t5_large, flan_t5_base, + # ("t5_base", "", "sentencepiece"), + # TokenizerConfig("google/flan-t5-base", impl=TokenizerImpl.SentencePiece, ), + TokenizerConfig("lmsys/fastchat-t5-3b-v1.0", impl=TokenizerImpl.SentencePiece, + org="LMSYS", + init_kwargs={"use_fast": False} # 解决 pyo3_runtime.PanicException: AddedVocabulary bad split + ), + TokenizerConfig("CohereForAI/aya-101", org="Cohere For AI"), # "tokenizer_class": "T5Tokenizer", + + TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"), + TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"), + TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3", + impl=TokenizerImpl.SentencePiece, org="Meta", + desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"), + # byte-level BPE + # '中文单字': 700, '中文多字': 0 + TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece, + org="Meta"), + TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"), + TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"), + # 由.model文件转化为了 + TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-", + meta="向原始LLaMA的词汇表中添加2w个中文词汇,针对原版LLaMA模型扩充了中文词表, 提升了中文编解码效率"), + # + TokenizerConfig("hfl/chinese-llama-2-7b", impl=TokenizerImpl.SentencePiece, org="-", + meta="重新设计了新词表(大小:55296),进一步提升了中文字词的覆盖程度"), # + TokenizerConfig("hfl/llama-3-chinese-8b", impl=TokenizerImpl.SentencePiece, org="-"), + TokenizerConfig("hfl/chinese-alpaca-lora-7b", impl=TokenizerImpl.SentencePiece, org="-"), + # 中文Alpaca模型在上述中文LLaMA模型的基础上进一步使用了指令数据进行精调。 "比chinese_llama词典多一个`[PAD]`,请勿混用" + # + # ("belle_llama_ext_7b", + # ("alpaca_7b", + TokenizerConfig("baichuan-inc/Baichuan-7B", name_display="baichuan-inc/baichuan", + impl=TokenizerImpl.SentencePiece, + level="byte-level", org="Baichuan"), + TokenizerConfig("baichuan-inc/Baichuan2-7B-Chat", name_display="baichuan-inc/baichuan2", + impl=TokenizerImpl.SentencePiece, org="Baichuan", + desc="expand the vocabulary size from 64000 in Baichuan1 to 125696"), + TokenizerConfig("internlm/internlm-chat-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), + # 上海AI实验室 + 商汤 + TokenizerConfig("internlm/internlm2-chat-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), + TokenizerConfig("internlm/internlm2-math-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), + TokenizerConfig("internlm/internlm-xcomposer-7b", impl=TokenizerImpl.SentencePiece, org="Shanghai AI Lab"), + TokenizerConfig("tiiuae/falcon-7b", impl=TokenizerImpl.SentencePiece, org="TII"), + TokenizerConfig("tiiuae/falcon-180b", impl=TokenizerImpl.SentencePiece, org="TII"), + TokenizerConfig("Skywork/Skywork-13B-base", impl=TokenizerImpl.SentencePiece, org="Kunlun"), + TokenizerConfig("Skywork/Skywork-13B-Math", impl=TokenizerImpl.SentencePiece, org="Kunlun"), # 文件:tokenizer.model + TokenizerConfig("FacebookAI/xlm-roberta-base", impl=TokenizerImpl.SentencePiece, org="Facebook"), + # 这个的tokenizer.json 为什么没有merges? vocab里为什么有概率值? + # "goat", + + # ##### glm系列 + # "glm_chinese",), + TokenizerConfig("THUDM/chatglm-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", + meta=f"num_image_tokens: {12}; num_image_tokens: {34} ", + init_kwargs={"revision": "refs/pr/100"}), + TokenizerConfig("THUDM/chatglm2-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), + TokenizerConfig("THUDM/chatglm3-6b", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), + TokenizerConfig("thu-coai/CharacterGLM-6B", impl=TokenizerImpl.SentencePiece, org="Tsinghua", ), + + # tiktoken 系列 + TokenizerConfig("openai/text-davinci-003", impl=TokenizerImpl.TikToken, org="OpenAI", + link="https://github.com/openai/tiktoken"), + # + TokenizerConfig("openai/code-davinci-002", impl=TokenizerImpl.TikToken, org="OpenAI", + link="https://github.com/openai/tiktoken"), + TokenizerConfig("openai/gpt-3.5-turbo", impl=TokenizerImpl.TikToken, org="OpenAI", + link="https://github.com/openai/tiktoken", + desc="tiktoken is a fast BPE tokeniser for use with OpenAI's models. There are 16 tokens KeyError"), + TokenizerConfig("openai/gpt-4", impl=TokenizerImpl.TikToken, org="OpenAI", + link="https://github.com/openai/tiktoken", ), + TokenizerConfig("openai/gpt-4o", impl=TokenizerImpl.TikToken, org="OpenAI", + link="https://github.com/openai/tiktoken", ), + TokenizerConfig("Qwen/Qwen-7B-Chat", name_display="Qwen/Qwen", impl=TokenizerImpl.TikToken, org="Alibaba", + init_kwargs={"revision": "refs/pr/56"}, + meta="在gpt4词典基础上,删除了100个多数字token,增加10000中文词token;并优化了special_token的分词"), + # https://huggingface.co/Qwen/Qwen-7B-Chat#%E6%A8%A1%E5%9E%8B%E7%BB%86%E8%8A%82%EF%BC%88model%EF%BC%89 + # 该词表在GPT-4使用的BPE词表cl100k_base基础上,对中文、多语言进行了优化,在对中、英、代码数据的高效编解码的基础上, + # 对部分多语言更加友好,方便用户在不扩展词表的情况下对部分语种进行能力增强。 词表对数字按单个数字位切分。 + + # TokenizerConfig("Qwen/Qwen-72B-Chat", impl=TokenizerImpl.TikToken), + + # 未分类 + # ("amber", ""), + TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"), + TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"), + TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"), + + TokenizerConfig("paust/pko-t5-large", org="PAUST"), + + TokenizerConfig("01-ai/Yi-6B", org="Yi"), + TokenizerConfig("01-ai/Yi-34B", org="Yi"), + TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"), + TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"), + TokenizerConfig("microsoft/phi-1", org="Microsoft"), + TokenizerConfig("microsoft/phi-2", org="Microsoft"), + TokenizerConfig("microsoft/Phi-3-mini-4k-instruct", org="Microsoft", meta="即llama vocab"), + TokenizerConfig("Upstage/SOLAR-10.7B-v1.0", org="-"), + TokenizerConfig("google/mobilebert-uncased", org="Google"), + # ("google/mobilenet_v2_1.0_224",), # error + TokenizerConfig("google/switch-c-2048", org="Google"), + TokenizerConfig("google/byt5-small", org="Google"), + TokenizerConfig("google/mt5-large", org="Google"), + TokenizerConfig("WizardLM/WizardCoder-Python-7B-V1.0", org="Microsoft"), + TokenizerConfig("WizardLM/WizardCoder-15B-V1.0", org="Microsoft"), + TokenizerConfig("WizardLM/WizardLM-7B-V1.0", org="Microsoft"), + TokenizerConfig("WizardLM/WizardMath-70B-V1.0", org="Microsoft"), + TokenizerConfig("TigerResearch/tigerbot-70b-chat-v4-4k", org="Tigerobo"), + TokenizerConfig("TigerResearch/tigerbot-13b-chat-v2", org="Tigerobo"), + TokenizerConfig("deepseek-ai/deepseek-coder-33b-instruct", org="DeepSeek"), + TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"), + TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"), + TokenizerConfig("google/gemma-7b", org="Google"), + TokenizerConfig("allenai/OLMo-7B", org="Allen AI"), + TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"), + TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"), + TokenizerConfig("databricks/dbrx-instruct", org="Databricks"), + + # ("claude",), + # https://github.com/Duxiaoman-DI/XuanYuan + + # https://huggingface.co/apple/OpenELM-3B-Instruct https://huggingface.co/apple/OpenELM-3B + +] + +assert len(set([config.name_display for config in _all_tokenizer_config])) == len(_all_tokenizer_config) +assert len(set([config.name_or_path for config in _all_tokenizer_config])) == len(_all_tokenizer_config) +assert len(set([config.name_or_path.split("/")[-1] for config in _all_tokenizer_config])) == len(_all_tokenizer_config) + + +class TokenizerFactory: + + def __init__(self): + self.all_tokenizer_configs = sorted(_all_tokenizer_config, key=lambda k: k.name_or_path) + self.all_tokenizer_names = [config.name_or_path for config in self.all_tokenizer_configs] + self.name_to_config_list = [ + {config.name_or_path: config for config in self.all_tokenizer_configs}, + {config.name_display: config for config in self.all_tokenizer_configs}, + {config.name_display.split("/")[-1]: config for config in self.all_tokenizer_configs}, + ] + self.tokenizer_cache = {} + + def get_tokenizer_config(self, tokenizer_name: str) -> TokenizerConfig: + for name_to_config in self.name_to_config_list: + if tokenizer_name in name_to_config: + return name_to_config[tokenizer_name] + return None + + def get_tokenizer(self, tokenizer_name: str): + """ + :param tokenizer_name: + :return: + """ + tokenizer_config = self.get_tokenizer_config(tokenizer_name) + + # 1. load from cache + if tokenizer_config in self.tokenizer_cache: + return self.tokenizer_cache[tokenizer_config] + + # 2. load tokenizer + tokenizer = self.load_tokenizer(tokenizer_config) + + self.tokenizer_cache[tokenizer_config] = tokenizer + return tokenizer + + def get_name_with_hyperlink(self, tokenizer_name: str) -> str: + def model_hyperlink(link, model_name): + model_name = model_name + return f'{model_name}' + + tokenizer_config = self.get_tokenizer_config(tokenizer_name) + return model_hyperlink(tokenizer_config.link, tokenizer_config.name_display.split("/")[-1]) + + + + def load_tokenizer(self, tokenizer_config): + logger.info(f"loading tokenizer {tokenizer_config.name_or_path}") + if tokenizer_config.impl == TokenizerImpl.TikToken and "openai" in tokenizer_config.name_or_path: + tokenizer = tiktoken.encoding_for_model(tokenizer_config.name_or_path.replace("openai/", "")) + else: + tokenizer = AutoTokenizer.from_pretrained( + tokenizer_config.name_or_path, + trust_remote_code=True, + **tokenizer_config.init_kwargs + ) + return tokenizer + + + def add_config(self, ): + + + pass + + def add_tokenizer(self, tokenizer_name): + + + pass + + +tokenizer_factory = TokenizerFactory() + + +def add_tokenizer(tokenizer_name: str): + """ + :param tokenizer_name: + :return: + """ + if tokenizer_name in []: + logger.info(f"{tokenizer_name} already exits") + else: + # add to config + tokenizer_config = TokenizerConfig(tokenizer_name, org="-") + + # add to tokenizer + tokenizer = tokenizer_factory.load_tokenizer(tokenizer_config) + + # refresh cache + + + try: + tokenizer = AutoTokenizer.from_pretrained( + tokenizer_name, + trust_remote_code=True, + **tokenizer_config.init_kwargs + ) + tokenizer_factory.all_tokenizer_configs.append( + "", + ) + tokenizer_factory + + + except Exception as e: + logger.error(e) + + pass + +# class TokenizerType(Enum): +# +# # BERTTokenizer +# # 依赖一个txt文件 +# +# +# # https://github.com/EleutherAI/gpt-neox/blob/v2.0/megatron/tokenizer/tokenizer.py#L231 +# # 依赖一个json文件,Tokenizer.from_file(vocab_file) +# # 案例:gpt-neox-20B +# HFTokenizer = auto() +# +# # 依赖: model_file, sentencepiece.SentencePieceProcessor(model_file) +# # 案例: +# SentencePieceTokenizer = auto() +# +# +# # 依赖: 3个json文件:vocab.json, merges.txt, special_tokens.txt +# # 源码: +# # - https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/tokenizer/gpt2_tokenization.py#L92 +# # Byte-level BPE +# GPT2BPETokenizer = auto() + + +if __name__ == "__main__": + + for tokenizer_config in tokenizer_factory.all_tokenizer_configs: + if True: + # if "t5" in tokenizer_config.name_or_path: + tokenizer1 = tokenizer_factory.get_tokenizer(tokenizer_config.name_or_path) + tokenizer2 = tokenizer_factory.get_tokenizer(tokenizer_config.name_display) + tokenizer3 = tokenizer_factory.get_tokenizer(tokenizer_config.name_display.split("/")[-1]) + assert tokenizer1 == tokenizer2 == tokenizer3 + print(tokenizer_config.name_or_path, len(tokenizer1))