Agent Leaderboard

仅展示基于公开 benchmark 的可追溯分数；来源链接见 agents-benchmark-sources.md。

排名	智能体	供应商	运行形态	综合分	办公	代码	研究	工具调用	稳定性	速度	性价比分
#1	Claude Opus 4.6	anthropic	API/Agent	72.7	72.7	-	-	-	-	-	72.7
#2	Claude Sonnet 4.6	anthropic	API/Agent	72.5	72.5	-	-	-	-	-	72.5
#3	Qwen3 VL 235B A22B Instruct	qwen	API/Agent	66.7	66.7	-	-	-	-	-	66.7
#4	Claude 3.5 Sonnet (20241022)	anthropic	API/Agent	57.6	-	-	-	-	57.6	-	57.6
#5	GPT-4o	openai	API/Agent	51.2	-	8.1	-	-	51.2	-	29.7
#6	GPT-4 (0613)	openai	API/Agent	44.0	-	-	-	-	-	-	-
#7	o1	openai	API/Agent	28.4	-	28.4	-	-	-	-	28.4