nateraw
/

vit-base-patch16-224-cifar10

Image Classification

Inference Endpoints

Model card Files Files and versions Community

yourusername commited on Apr 4, 2021

Commit

9010034

•

1 Parent(s): c7ce0d9

:pencil: edit README.md

Files changed (1) hide show

README.md +21 -0

README.md CHANGED Viewed

@@ -16,6 +16,27 @@ Vision Transformer (ViT) model pre-trained on ImageNet-21k (14 million images, 2
 Check out the code at my [my Github repo](https://github.com/nateraw/huggingface-vit-finetune).
 ## Model description
 The Vision Transformer (ViT) is a transformer encoder model (BERT-like) pretrained on a large collection of images in a supervised fashion, namely ImageNet-21k, at a resolution of 224x224 pixels.

 Check out the code at my [my Github repo](https://github.com/nateraw/huggingface-vit-finetune).
+## Usage
+```python
+from transformers import ViTFeatureExtractor, ViTForImageClassification
+from PIL import Image
+import requests
+url = 'https://www.cs.toronto.edu/~kriz/cifar-10-sample/dog10.png'
+image = Image.open(requests.get(url, stream=True).raw)
+feature_extractor = ViTFeatureExtractor.from_pretrained('nateraw/vit-base-patch16-224-cifar10')
+model = ViTForImageClassification.from_pretrained('nateraw/vit-base-patch16-224-cifar10')
+inputs = feature_extractor(images=image, return_tensors="pt")
+outputs = model(**inputs)
+preds = outputs.logits.argmax(dim=1)
+classes = [
+    'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'
+]
+classes[preds[0]]
+```
 ## Model description
 The Vision Transformer (ViT) is a transformer encoder model (BERT-like) pretrained on a large collection of images in a supervised fashion, namely ImageNet-21k, at a resolution of 224x224 pixels.