https://arxiv.org/abs/2305.06677
INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Large Language Models (H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji Krishnamurthy)
LM 학습에 쓰는 데이터셋을 distill 할 수 있지 않을까 하는 생각. 방법은 lm representation을 사용한 core set sampling 같은 느낌이네요. 보통은 성능 감소를 고려했을 때 이런 방법이 매력적이지 않은데...학습 비용이 감당하기 힘들 정도로 증가하고 있는 lm 업계의 상황에서는 이렇게 비용을 아껴 고가치 데이터셋을 더 투입할 수 있으면 그것도 괜찮지 않을까 싶기도 합니다.
#llm #dataset