https://arxiv.org/abs/2105.13626
ByT5: Towards a token-free future with pre-trained byte-to-byte models (Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel)
토크나이저 없이 utf-8 바이트 시퀀스를 입력으로 받는 모델 만들기. 좋긴 한데 거대한 소프트맥스 행렬이 날아갔다는 것을 빌미로 모델 크기를 팡팡 늘렸군요. 으-음.
#lm