https://arxiv.org/abs/2306.16410

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language (William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh)

캡셔닝이나 태깅 같은 텍스트를 출력하는 이미지 모델들의 결과를 텍스트 only lm에 붙여서 multimodal task를 수행한다...는 아이디어군요.

한 가지 생각: multimodal gpt-4가 출동하면 어떨까? 두 번쨰 생각: 모듈들을 붙여 파이프라인을 만드는 접근이 다시 인기를 얻는 듯. 그렇지만 지금까지 딥 러닝 판에서는 늘 결국에는 end2end가 승리해왔다고 봐야하지 않을까.

#multimodal #vision-language #llm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230628 Towards Language Models That Can See.md

230628 Towards Language Models That Can See.md

Files

230628 Towards Language Models That Can See.md

Latest commit

History

230628 Towards Language Models That Can See.md

File metadata and controls