https://arxiv.org/abs/2305.07759
TinyStories: How Small Can Language Models Be and Still Speak Coherent English? (Ronen Eldan, Yuanzhi Li)
묘한 연구네요. gpt-3.5나 gpt-4로 쉽게 이해할 수 있는 이야기를 작성하게 해서 데이터셋을 만든 다음, 이 데이터에 대해 10M 정도의 작은 모델을 학습시켰을 때 자연스러운 문장 생성 등의 특징을 관찰할 수 있었다는 보고입니다.
#transformer #lm