Transformers documentation

Tokenizer

Transformers

You are viewing v4.40.2 version. A newer version v4.46.3 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Tokenizer

トークナイザーは、モデルの入力の準備を担当します。ライブラリには、すべてのモデルのトークナイザーが含まれています。ほとんどトークナイザーの一部は、完全な Python 実装と、 Rust ライブラリ 🤗 Tokenizers。「高速」実装では次のことが可能になります。

特にバッチトークン化を行う場合の大幅なスピードアップと
元の文字列 (文字と単語) とトークン空間の間でマッピングする追加のメソッド (例: 特定の文字を含むトークンのインデックス、または特定のトークンに対応する文字の範囲）。

基本クラス PreTrainedTokenizer および PreTrainedTokenizerFast モデル入力の文字列入力をエンコードし (以下を参照)、Python をインスタンス化/保存するための一般的なメソッドを実装します。ローカルファイルまたはディレクトリ、またはライブラリによって提供される事前トレーニング済みトークナイザーからの「高速」トークナイザー (HuggingFace の AWS S3 リポジトリからダウンロード)。二人とも頼りにしているのは、共通メソッドを含む PreTrainedTokenizerBase SpecialTokensMixin。

したがって、PreTrainedTokenizer と PreTrainedTokenizerFast はメインを実装します。すべてのトークナイザーを使用するためのメソッド:

トークン化 (文字列をサブワードトークン文字列に分割)、トークン文字列を ID に変換したり、その逆の変換を行ったりします。エンコード/デコード (つまり、トークン化と整数への変換)。
基礎となる構造 (BPE、SentencePiece…) から独立した方法で、語彙に新しいトークンを追加します。
特別なトークン (マスク、文の始まりなど) の管理: トークンの追加、属性への割り当て。トークナイザーにより、簡単にアクセスでき、トークン化中に分割されないようにすることができます。

BatchEncoding は、 PreTrainedTokenizerBase のエンコードメソッド (__call__、 encode_plus および batch_encode_plus) であり、Python 辞書から派生しています。トークナイザーが純粋な Python の場合 tokenizer の場合、このクラスは標準の Python 辞書と同じように動作し、によって計算されたさまざまなモデル入力を保持します。これらのメソッド (input_ids、attention_mask…)。トークナイザーが「高速」トークナイザーである場合 (つまり、 HuggingFace トークナイザーライブラリ)、このクラスはさらに提供します元の文字列 (文字と単語) とトークンスペース (例: 指定された文字または対応する文字の範囲を構成するトークンのインデックスの取得) 与えられたトークンに）。

Transformers

Tokenizer

PreTrainedTokenizer

class transformers.PreTrainedTokenizer

__call__

apply_chat_template

batch_decode

decode

encode

push_to_hub

convert_ids_to_tokens

convert_tokens_to_ids

get_added_vocab

num_special_tokens_to_add

prepare_for_tokenization

tokenize

PreTrainedTokenizerFast

class transformers.PreTrainedTokenizerFast

__call__

apply_chat_template

batch_decode

decode

encode

push_to_hub

convert_ids_to_tokens

convert_tokens_to_ids

get_added_vocab

num_special_tokens_to_add

set_truncation_and_padding

train_new_from_iterator

BatchEncoding

class transformers.BatchEncoding

char_to_token

char_to_word

convert_to_tensors

sequence_ids

to

token_to_chars

token_to_sequence

token_to_word

tokens

word_ids

word_to_chars

word_to_tokens

words

call

call