https://arxiv.org/abs/2307.15337
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding (Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang)
응답의 요점 템플릿을 만든 다음 템플릿의 각 항목을 병렬로 채우는 방식으로 디코딩 속도를 가속하는 방법이군요. 예를 들어 리스트에서 각 항목의 제목 정도를 생성한 다음, 각 리스트 항목에 대해 본문을 생성한다는 느낌입니다.
디코딩 속도 가속을 위해 제안된 방법이긴 한데...뭔가 planning을 푸는 방법으로 생각해볼 수도 있지 않을까 싶네요.
#efficiency