https://arxiv.org/abs/2306.16410
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language (William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh)
캡셔닝이나 태깅 같은 텍스트를 출력하는 이미지 모델들의 결과를 텍스트 only lm에 붙여서 multimodal task를 수행한다...는 아이디어군요.
한 가지 생각: multimodal gpt-4가 출동하면 어떨까? 두 번쨰 생각: 모듈들을 붙여 파이프라인을 만드는 접근이 다시 인기를 얻는 듯. 그렇지만 지금까지 딥 러닝 판에서는 늘 결국에는 end2end가 승리해왔다고 봐야하지 않을까.
#multimodal #vision-language #llm