https://arxiv.org/abs/2109.13226
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu)
구글 사람들이 asr 한계 돌파를 한 번 더 시도했군요.
asr에 많은 자원이 투입되고 있는데 성능 향상이 여전히 쉽지 않아 보이네요. 이전에 Andrew Ng 선생님이 wer이 5%면 아무도 쓰지 않겠지만 1%면 모두가 asr을 쓰게 될 것이다. ml이 바로 그런 tipping point에 도달해야 한다...는 말씀을 하신 적이 있었는데 그게 생각이 좀 납니다.
#asr #pretraining #semi_supervised_learning #unsupervised_training