Quiz de final de capítulo
1. ¿Cuál es el orden del pipeline de modelado del lenguaje?
2. ¿Cuántas dimensiones tiene el tensor producido por el modelo base de Transformer y cuáles son?
3. ¿Cuál de los siguientes es un ejemplo de tokenización de subpalabras?
4. ¿Qué es una cabeza del modelo?
5. ¿Qué es un AutoModel?
6. ¿Cuáles son las técnicas a tener en cuenta al realizar batching de secuencias de diferentes longitudes juntas?
7. ¿Cuál es el punto de aplicar una función SoftMax a las salidas logits por un modelo de clasificación de secuencias?
8. ¿En qué método se centra la mayor parte de la API del tokenizador?
9. ¿Qué contiene la variable result en este código de ejemplo?
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
10. ¿Hay algo mal con el siguiente código?
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)