Agentic - a sbarman25 Collection

sbarman25 's Collections

Training & Architectures

Models

Safety / Alignment / Policies / SMI

Evals & Monitoring

Spaces

Agentic

Vulnerabilities

CV / Text-to-Image / Image-to-Image / Diffusion

Others

Hardware-aware Models

Tool Usage (w/VLMs)

Vision Language Models

Agentic

updated Feb 5, 2024

GAIA: a benchmark for General AI Assistants

Paper • 2311.12983 • Published Nov 21, 2023 • 187
gaia-benchmark/GAIA

Viewer • Updated Mar 26, 2024 • 932 • 730 • 173
osunlp/Mind2Web

Viewer • Updated Jul 19, 2023 • 253 • 281 • 94
AppAgent: Multimodal Agents as Smartphone Users

Paper • 2312.13771 • Published Dec 21, 2023 • 52
GPT-4V(ision) is a Generalist Web Agent, if Grounded

Paper • 2401.01614 • Published Jan 3, 2024 • 22
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Paper • 2401.13919 • Published Jan 25, 2024 • 27
LARP: Language-Agent Role Play for Open-World Games

Paper • 2312.17653 • Published Dec 24, 2023 • 31
osunlp/TravelPlanner

Viewer • Updated Jul 14, 2024 • 1.23k • 2.33k • 47
TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Paper • 2402.01622 • Published Feb 2, 2024 • 34
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

Paper • 2402.00559 • Published Feb 1, 2024 • 3