Transformers documentation

BLIP-2

Transformers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v4.46.3).

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BLIP-2

개요

BLIP-2 모델은 Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi의 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 논문에서 제안되었습니다. BLIP-2는 동결된 사전 학습 이미지 인코더와 대규모 언어 모델(LLM)을 연결하는 12층의 경량 Transformer 인코더를 학습시켜, 여러 비전-언어 작업에서 SOTA(현재 최고의 성능)을 달성했습니다. 특히, BLIP-2는 800억 개의 파라미터를 가진 Flamingo 모델보다 제로샷 VQAv2에서 8.7% 더 높은 성능을 기록했으며, 학습 가능한 파라미터 수는 Flamingo보다 54배 적습니다.

논문의 초록은 다음과 같습니다:

비전-언어 사전 학습의 비용은 대규모 모델의 엔드-투-엔드 학습으로 인해 점점 더 부담스러워지고 있습니다. 본 논문은 사전 학습된 이미지 인코더와 대규모 언어 모델을 활용하여 비전-언어 사전 학습을 부트스트래핑하는 일반적이고 효율적인 사전 학습 전략인 BLIP-2를 제안합니다. BLIP-2는 경량화된 Querying Transformer를 통해 모달리티 간의 차이를 연결하며, 두 단계로 사전 학습됩니다. 첫 번째 단계는 동결된 이미지 인코더로부터 비전-언어 표현 학습을 부트스트래핑하고, 두 번째 단계는 동결된 언어 모델로부터 비전-언어 생성 학습을 부트스트래핑합니다. BLIP-2는 기존 방법들에 비해 훨씬 적은 학습 가능한 파라미터로 다양한 비전-언어 작업에서 최첨단 성능을 달성합니다. 예를 들어, 우리 모델은 제로샷 VQAv2에서 Flamingo80B보다 8.7% 높은 성능을 기록하며, 학습 가능한 파라미터 수는 54배 적습니다. 우리는 또한 자연어 명령을 따를 수 있는 제로샷 이미지-텍스트 생성의 새로운 기능을 입증했습니다.

BLIP-2 구조. 원본 논문 에서 발췌.

이 모델은 nielsr가 기여했습니다. 원본 코드는 여기에서 확인할 수 있습니다.

사용 팁

BLIP-2는 이미지와 조건에 따라 텍스트 프롬프트를 입력받아 조건부 텍스트를 생성합니다. 추론 시 generate 메소드를 사용하는 것이 권장됩니다.
Blip2Processor를 사용하여 모델에 이미지를 준비하고, 예측된 토큰 ID를 텍스트로 디코딩할 수 있습니다.

자료

BLIP-2를 시작하는 데 도움이 되는 공식 Hugging Face 및 커뮤니티(🌎 표시) 자료 목록입니다.

이미지 캡셔닝, 시각 질문 응답(VQA), 채팅과 같은 대화형 작업을 위한 BLIP-2 데모 노트북은 여기에서 찾을 수 있습니다.

리소스를 제출하여 여기에 포함하고 싶다면 언제든지 풀 리퀘스트를 열어주세요! 리소스는 기존 리소스를 복제하지 않고 새로운 내용이어야 합니다.

Transformers

BLIP-2

개요

사용 팁

자료

Blip2Config

class transformers.Blip2Config

from_vision_qformer_text_configs

Blip2VisionConfig

class transformers.Blip2VisionConfig

Blip2QFormerConfig

class transformers.Blip2QFormerConfig

Blip2Processor

class transformers.Blip2Processor

batch_decode

decode

Blip2VisionModel

class transformers.Blip2VisionModel

forward

Blip2QFormerModel

class transformers.Blip2QFormerModel

forward

Blip2Model

class transformers.Blip2Model

forward

get_text_features

get_image_features

get_qformer_features

Blip2ForConditionalGeneration

class transformers.Blip2ForConditionalGeneration

forward

generate

Blip2ForImageTextRetrieval

class transformers.Blip2ForImageTextRetrieval

forward

Blip2TextModelWithProjection

class transformers.Blip2TextModelWithProjection

forward

Blip2VisionModelWithProjection

class transformers.Blip2VisionModelWithProjection

forward