Skip to content

Latest commit

 

History

History
10 lines (6 loc) · 710 Bytes

230628 Towards Language Models That Can See.md

File metadata and controls

10 lines (6 loc) · 710 Bytes

https://arxiv.org/abs/2306.16410

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language (William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh)

캡셔닝이나 태깅 같은 텍스트를 출력하는 이미지 모델들의 결과를 텍스트 only lm에 붙여서 multimodal task를 수행한다...는 아이디어군요.

한 가지 생각: multimodal gpt-4가 출동하면 어떨까? 두 번쨰 생각: 모듈들을 붙여 파이프라인을 만드는 접근이 다시 인기를 얻는 듯. 그렇지만 지금까지 딥 러닝 판에서는 늘 결국에는 end2end가 승리해왔다고 봐야하지 않을까.

#multimodal #vision-language #llm