https://arxiv.org/abs/2105.13626

ByT5: Towards a token-free future with pre-trained byte-to-byte models (Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel)

토크나이저 없이 utf-8 바이트 시퀀스를 입력으로 받는 모델 만들기. 좋긴 한데 거대한 소프트맥스 행렬이 날아갔다는 것을 빌미로 모델 크기를 팡팡 늘렸군요. 으-음.

#lm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210528 ByT5.md

210528 ByT5.md

Files

210528 ByT5.md

Latest commit

History

210528 ByT5.md

File metadata and controls