transformer1 [논문 리뷰] BLIP2, Q-Former 요약 정리 Q-Former는 Querying Transformer의 약자로 BLIP-2 (BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models) 논문에서 처음 소개되었습니다.논문 바로가기: https://arxiv.org/abs/2301.12597목차Q-Former 제안 배경Q-Former 동작 과정Vision-and-Language Representation LearningVision-to-Language Generative Learning결과Q-Former 제안 배경기존의 LLM은 텍스트 입력만을 받기 때문에 이미지를 입력할 수 없습니다. 이미지를 LLM에 입력하여 이미지에 대해서 .. 2025. 1. 28. 이전 1 다음