GLIPv2: Unifying Localization and Vision-Language Understanding (Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao)

제목 그대로 object localization (object detection, instance segmentation, visual grounding)과 vision-language understanding (vqa, captioning)을 위한 통합 모델 프리트레이닝. 어떻게 보면 요즘의 단순한 접근보다 훨씬 정교한 형태로 구성한 모델이라고 할 수도 있겠습니다. 이 방향도 꽤 흥미롭네요.

#vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220612 GLIPv2.md

220612 GLIPv2.md

Files

220612 GLIPv2.md

Latest commit

History

220612 GLIPv2.md

File metadata and controls