Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 443 Bytes

210528 ByT5.md

File metadata and controls

7 lines (4 loc) · 443 Bytes

https://arxiv.org/abs/2105.13626

ByT5: Towards a token-free future with pre-trained byte-to-byte models (Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel)

토크나이저 없이 utf-8 바이트 시퀀스를 입력으로 받는 모델 만들기. 좋긴 한데 거대한 소프트맥스 행렬이 날아갔다는 것을 빌미로 모델 크기를 팡팡 늘렸군요. 으-음.

#lm