SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models (Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang)

오늘은 벤치마크가 많이 나오는군요. 대학 시험 문제를 풀게 시켜서 점수를 보고, 더 나아가 오답에서 어떤 스킬이 필요했고 그 스킬의 한계로 문제가 발생했는지를 사람이 직접 찾아봤네요.

#benchmark

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230720 SciBench.md

230720 SciBench.md

Files

230720 SciBench.md

Latest commit

History

230720 SciBench.md

File metadata and controls