仅展示基于公开 benchmark 的可追溯分数;来源链接见 agents-benchmark-sources.md。
| 排名 | 智能体 | 供应商 | 运行形态 | 综合分 | 办公 | 代码 | 研究 | 工具调用 | 稳定性 | 速度 | 性价比分 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| #1 | Claude Opus 4.6 | API/Agent | 72.7 | 72.7 | - | - | - | - | - | 72.7 | |
| #2 | Claude Sonnet 4.6 | API/Agent | 72.5 | 72.5 | - | - | - | - | - | 72.5 | |
| #3 | Qwen3 VL 235B A22B Instruct | API/Agent | 66.7 | 66.7 | - | - | - | - | - | 66.7 | |
| #4 | Claude 3.5 Sonnet (20241022) | API/Agent | 57.6 | - | - | - | - | 57.6 | - | 57.6 | |
| #5 | GPT-4o | API/Agent | 51.2 | - | 8.1 | - | - | 51.2 | - | 29.7 | |
| #6 | GPT-4 (0613) | API/Agent | 44.0 | - | - | - | - | - | - | - | |
| #7 | o1 | API/Agent | 28.4 | - | 28.4 | - | - | - | - | 28.4 |