\n",
+ " \n",
+ " | 0 | \n",
+ " Qwen/QwQ-32B | \n",
+ " GAIA | \n",
+ " 37.50 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 1 | \n",
+ " Qwen/QwQ-32B | \n",
+ " MATH | \n",
+ " 94.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 2 | \n",
+ " Qwen/QwQ-32B | \n",
+ " SimpleQA | \n",
+ " 74.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 3 | \n",
+ " Qwen/Qwen2.5-72B-Instruct | \n",
+ " GAIA | \n",
+ " 28.12 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 6.25 | \n",
+ "
\n",
+ " \n",
+ " | 4 | \n",
+ " Qwen/Qwen2.5-72B-Instruct | \n",
+ " MATH | \n",
+ " 76.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 30.00 | \n",
+ "
\n",
+ " \n",
+ " | 5 | \n",
+ " Qwen/Qwen2.5-72B-Instruct | \n",
+ " SimpleQA | \n",
+ " 88.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 10.00 | \n",
+ "
\n",
+ " \n",
+ " | 6 | \n",
+ " Qwen/Qwen2.5-7B-Instruct | \n",
+ " GAIA | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.12 | \n",
+ "
\n",
+ " \n",
+ " | 7 | \n",
+ " Qwen/Qwen2.5-7B-Instruct | \n",
+ " MATH | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 38.00 | \n",
+ "
\n",
+ " \n",
+ " | 8 | \n",
+ " Qwen/Qwen2.5-7B-Instruct | \n",
+ " SimpleQA | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 4.00 | \n",
+ "
\n",
+ " \n",
+ " | 9 | \n",
+ " Qwen/Qwen2.5-Coder-32B-Instruct | \n",
+ " GAIA | \n",
+ " 21.88 | \n",
+ " 18.75 | \n",
+ " NaN | \n",
+ " 3.12 | \n",
+ "
\n",
+ " \n",
+ " | 10 | \n",
+ " Qwen/Qwen2.5-Coder-32B-Instruct | \n",
+ " MATH | \n",
+ " 84.00 | \n",
+ " 44.00 | \n",
+ " NaN | \n",
+ " 62.00 | \n",
+ "
\n",
+ " \n",
+ " | 11 | \n",
+ " Qwen/Qwen2.5-Coder-32B-Instruct | \n",
+ " SimpleQA | \n",
+ " 74.00 | \n",
+ " 58.00 | \n",
+ " NaN | \n",
+ " 8.00 | \n",
+ "
\n",
+ " \n",
+ " | 12 | \n",
+ " Qwen/Qwen3-235B-A22B | \n",
+ " GAIA | \n",
+ " 15.62 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 13 | \n",
+ " Qwen/Qwen3-235B-A22B | \n",
+ " MATH | \n",
+ " 58.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 14 | \n",
+ " Qwen/Qwen3-235B-A22B | \n",
+ " SimpleQA | \n",
+ " 76.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 15 | \n",
+ " Qwen/Qwen3-32B | \n",
+ " GAIA | \n",
+ " 25.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 16 | \n",
+ " Qwen/Qwen3-32B | \n",
+ " MATH | \n",
+ " 90.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 17 | \n",
+ " Qwen/Qwen3-32B | \n",
+ " SimpleQA | \n",
+ " 78.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 18 | \n",
+ " anthropic/claude-3-5-sonnet-latest | \n",
+ " GAIA | \n",
+ " 56.25 | \n",
+ " NaN | \n",
+ " 0.00 | \n",
+ " 3.12 | \n",
+ "
\n",
+ " \n",
+ " | 19 | \n",
+ " anthropic/claude-3-5-sonnet-latest | \n",
+ " MATH | \n",
+ " 86.00 | \n",
+ " NaN | \n",
+ " 54.00 | \n",
+ " 50.00 | \n",
+ "
\n",
+ " \n",
+ " | 20 | \n",
+ " anthropic/claude-3-5-sonnet-latest | \n",
+ " SimpleQA | \n",
+ " 82.00 | \n",
+ " NaN | \n",
+ " 0.00 | \n",
+ " 34.00 | \n",
+ "
\n",
+ " \n",
+ " | 21 | \n",
+ " anthropic/claude-3-7-sonnet-20250219 | \n",
+ " GAIA | \n",
+ " 50.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 22 | \n",
+ " anthropic/claude-3-7-sonnet-20250219 | \n",
+ " MATH | \n",
+ " 96.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 23 | \n",
+ " anthropic/claude-3-7-sonnet-20250219 | \n",
+ " SimpleQA | \n",
+ " 86.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 24 | \n",
+ " anthropic/claude-opus-4-20250514 | \n",
+ " GAIA | \n",
+ " 59.38 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 25 | \n",
+ " anthropic/claude-opus-4-20250514 | \n",
+ " MATH | \n",
+ " 98.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 26 | \n",
+ " anthropic/claude-opus-4-20250514 | \n",
+ " SimpleQA | \n",
+ " 94.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 27 | \n",
+ " anthropic/claude-sonnet-4-20250514 | \n",
+ " GAIA | \n",
+ " 56.25 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 28 | \n",
+ " anthropic/claude-sonnet-4-20250514 | \n",
+ " MATH | \n",
+ " 100.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 29 | \n",
+ " anthropic/claude-sonnet-4-20250514 | \n",
+ " SimpleQA | \n",
+ " 82.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 30 | \n",
+ " deepseek-ai/DeepSeek-R1 | \n",
+ " GAIA | \n",
+ " 50.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 31 | \n",
+ " deepseek-ai/DeepSeek-R1 | \n",
+ " MATH | \n",
+ " 94.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 32 | \n",
+ " deepseek-ai/DeepSeek-R1 | \n",
+ " SimpleQA | \n",
+ " 74.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 33 | \n",
+ " deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | \n",
+ " GAIA | \n",
+ " 31.25 | \n",
+ " 12.50 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 34 | \n",
+ " deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | \n",
+ " MATH | \n",
+ " 92.00 | \n",
+ " 44.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 35 | \n",
+ " deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | \n",
+ " SimpleQA | \n",
+ " 40.00 | \n",
+ " 48.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 36 | \n",
+ " gpt-4.5-preview | \n",
+ " GAIA | \n",
+ " 56.25 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 15.62 | \n",
+ "
\n",
+ " \n",
+ " | 37 | \n",
+ " gpt-4.5-preview | \n",
+ " MATH | \n",
+ " 92.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 32.00 | \n",
+ "
\n",
+ " \n",
+ " | 38 | \n",
+ " gpt-4.5-preview | \n",
+ " SimpleQA | \n",
+ " 88.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 58.00 | \n",
+ "
\n",
+ " \n",
+ " | 39 | \n",
+ " gpt-4o | \n",
+ " GAIA | \n",
+ " 34.38 | \n",
+ " NaN | \n",
+ " 15.62 | \n",
+ " 3.12 | \n",
+ "
\n",
+ " \n",
+ " | 40 | \n",
+ " gpt-4o | \n",
+ " MATH | \n",
+ " 78.00 | \n",
+ " NaN | \n",
+ " 58.00 | \n",
+ " 40.00 | \n",
+ "
\n",
+ " \n",
+ " | 41 | \n",
+ " gpt-4o | \n",
+ " SimpleQA | \n",
+ " 80.00 | \n",
+ " NaN | \n",
+ " 86.00 | \n",
+ " 6.00 | \n",
+ "
\n",
+ " \n",
+ " | 42 | \n",
+ " meta-llama/Llama-3.1-70B-Instruct | \n",
+ " GAIA | \n",
+ " 15.62 | \n",
+ " 18.75 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 43 | \n",
+ " meta-llama/Llama-3.1-70B-Instruct | \n",
+ " MATH | \n",
+ " 70.00 | \n",
+ " 16.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 44 | \n",
+ " meta-llama/Llama-3.1-70B-Instruct | \n",
+ " SimpleQA | \n",
+ " 64.00 | \n",
+ " 18.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 45 | \n",
+ " meta-llama/Llama-3.1-8B-Instruct | \n",
+ " GAIA | \n",
+ " 0.00 | \n",
+ " 6.25 | \n",
+ " NaN | \n",
+ " 0.00 | \n",
+ "
\n",
+ " \n",
+ " | 46 | \n",
+ " meta-llama/Llama-3.1-8B-Instruct | \n",
+ " MATH | \n",
+ " 14.00 | \n",
+ " 12.00 | \n",
+ " NaN | \n",
+ " 18.00 | \n",
+ "
\n",
+ " \n",
+ " | 47 | \n",
+ " meta-llama/Llama-3.1-8B-Instruct | \n",
+ " SimpleQA | \n",
+ " 2.00 | \n",
+ " 12.00 | \n",
+ " NaN | \n",
+ " 6.00 | \n",
+ "
\n",
+ " \n",
+ " | 48 | \n",
+ " meta-llama/Llama-3.2-3B-Instruct | \n",
+ " GAIA | \n",
+ " 3.12 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0.00 | \n",
+ "
\n",
+ " \n",
+ " | 49 | \n",
+ " meta-llama/Llama-3.2-3B-Instruct | \n",
+ " MATH | \n",
+ " 40.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 12.00 | \n",
+ "
\n",
+ " \n",
+ " | 50 | \n",
+ " meta-llama/Llama-3.2-3B-Instruct | \n",
+ " SimpleQA | \n",
+ " 20.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0.00 | \n",
+ "
\n",
+ " \n",
+ " | 51 | \n",
+ " meta-llama/Llama-3.3-70B-Instruct | \n",
+ " GAIA | \n",
+ " 31.25 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.12 | \n",
+ "
\n",
+ " \n",
+ " | 52 | \n",
+ " meta-llama/Llama-3.3-70B-Instruct | \n",
+ " MATH | \n",
+ " 72.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 40.00 | \n",
+ "
\n",
+ " \n",
+ " | 53 | \n",
+ " meta-llama/Llama-3.3-70B-Instruct | \n",
+ " SimpleQA | \n",
+ " 78.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 12.00 | \n",
+ "
\n",
+ " \n",
+ " | 54 | \n",
+ " meta-llama/Llama-4-Maverick-17B-128E-Instruct | \n",
+ " GAIA | \n",
+ " 46.88 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 55 | \n",
+ " meta-llama/Llama-4-Maverick-17B-128E-Instruct | \n",
+ " MATH | \n",
+ " 88.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 56 | \n",
+ " meta-llama/Llama-4-Maverick-17B-128E-Instruct | \n",
+ " SimpleQA | \n",
+ " 88.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 57 | \n",
+ " meta-llama/Llama-4-Scout-17B-16E-Instruct | \n",
+ " GAIA | \n",
+ " 25.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 58 | \n",
+ " meta-llama/Llama-4-Scout-17B-16E-Instruct | \n",
+ " MATH | \n",
+ " 84.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 59 | \n",
+ " meta-llama/Llama-4-Scout-17B-16E-Instruct | \n",
+ " SimpleQA | \n",
+ " 90.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 60 | \n",
+ " o1 | \n",
+ " GAIA | \n",
+ " 50.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 18.75 | \n",
+ "
\n",
+ " \n",
+ " | 61 | \n",
+ " o1 | \n",
+ " MATH | \n",
+ " 96.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 80.00 | \n",
+ "
\n",
+ " \n",
+ " | 62 | \n",
+ " o1 | \n",
+ " SimpleQA | \n",
+ " 84.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 34.00 | \n",
+ "
\n",
+ " \n",
+ " | 63 | \n",
+ " o3-mini | \n",
+ " GAIA | \n",
+ " 46.88 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 64 | \n",
+ " o3-mini | \n",
+ " MATH | \n",
+ " 98.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " | 65 | \n",
+ " o3-mini | \n",
+ " SimpleQA | \n",
+ " 80.00 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ "