Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 619 Bytes

220612 GLIPv2.md

File metadata and controls

7 lines (4 loc) · 619 Bytes

https://arxiv.org/abs/2206.05836

GLIPv2: Unifying Localization and Vision-Language Understanding (Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao)

제목 그대로 object localization (object detection, instance segmentation, visual grounding)과 vision-language understanding (vqa, captioning)을 위한 통합 모델 프리트레이닝. 어떻게 보면 요즘의 단순한 접근보다 훨씬 정교한 형태로 구성한 모델이라고 할 수도 있겠습니다. 이 방향도 꽤 흥미롭네요.

#vision-language