https://arxiv.org/abs/2305.07895

On the Hidden Mystery of OCR in Large Multimodal Models (Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai)

generative vision-language 모델의 ocr 능력에 대한 분석. 패치에서 텍스트를 인식하는 능력은 sota 모델과 큰 차이가 나지 않는군요. 문제는 일반적인 scene이나 문서에 대해서인데 여기서는 좀 그냥저냥이라는 느낌도 있네요. 논문에서 지적하는 것처럼 이미지 크기에 제약이 심하다는 점이 중요한 부분일 것 같습니다.

마찬가지로 논문에서 지적하는 부분인데 gpt-4가 보고하고 있는 성능은 꽤 높아서...어떻게 하고 있는지가 궁금하긴 하네요. 일단 기본적으로 보통 하는 것보다 이미지 크기가 클 가능성이 높을 것 같습니다.

#multimodal #vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230513 On the Hidden Mystery of OCR in Large Multimodal Models.md

230513 On the Hidden Mystery of OCR in Large Multimodal Models.md

Files

230513 On the Hidden Mystery of OCR in Large Multimodal Models.md

Latest commit

History

230513 On the Hidden Mystery of OCR in Large Multimodal Models.md

File metadata and controls