https://arxiv.org/abs/2307.10635
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models (Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang)
오늘은 벤치마크가 많이 나오는군요. 대학 시험 문제를 풀게 시켜서 점수를 보고, 더 나아가 오답에서 어떤 스킬이 필요했고 그 스킬의 한계로 문제가 발생했는지를 사람이 직접 찾아봤네요.
#benchmark