随着新一轮人工智能技术加速演进,AI Agent(智能体)正由以单轮问答为核心的应用形态,逐步迈向面向真实业务场景的复杂任务执行阶段。从自动处理邮件、日程安排,到跨系统信息调度与流程协同,智能体正在由“辅助工具”向“数字化执行单元”转变,其在政务服务、企业管理及内容生产等领域的应用潜力不断显现。

在这一发展过程中,一个基础性问题愈发凸显:当人工智能开始参与实际工作流程,如何对其能力进行客观、准确且可复现的评估,成为制约技术落地与规模应用的重要因素。传统以语言理解与生成能力为主的评测体系,已难以全面反映智能体在复杂环境中的真实表现,测评“黑盒化”“结果偶然性强”等问题逐渐受到业界关注。

在此背景下,由北京大学与香港大学共同合作并完成的全新端到端测评框架及榜单——首个面向真实场景可复现开源的测评框架ClawEval正式开源发布。该测评框架直接以OpenClaw为极限测试场景,专为检验各家“基座大模型”真实的Agentic战斗力而生,着重从真实任务场景出发,构建系统化评估体系,探索更加贴近实际应用的智能体测评路径,为推动人工智能技术规范发展提供了有益参考。

一、从“会答题”到“会做事”:测评标准加快升级

过去一段时间,大模型测评主要围绕单轮问答、函数调用、格式解析等单项能力展开,侧重评估模型的语言理解水平与信息生成能力。这类方法在早期阶段有效推动了技术进步,但在智能体应用逐步深化的背景下,其局限性逐渐显现。

在真实应用场景中,任务往往呈现出多步骤、长链路、强依赖的特点,既需要对目标进行理解与拆解,也需要在执行过程中进行动态调整。单一维度的能力测试,难以反映模型在完整任务链条中的综合表现。

ClawEval在设计理念上进行了针对性调整,将评测重点由“单点能力”转向“系统能力”,强调对完整任务执行过程的评估。其核心逻辑在于:不再仅关注模型“回答是否正确”,而是重点考察其“是否能够在复杂条件下完成任务,并保证执行质量”。这一转变标志着测评范式从以结果为导向,逐步向“过程与结果并重”的方向发展,更加契合智能体在实际应用中的能力需求。

二、模拟真实工作环境,让测评更加贴近应用场景

为提高测评结果的现实参考价值,ClawEval构建了一套接近企业日常运行的模拟环境体系。该体系涵盖邮件、日历、待办事项、财务系统、工单系统等15类典型业务系统,同时引入网页浏览与终端操作场景,形成多系统协同的测试环境。

与传统理想化测试环境不同,ClawEval在系统中引入了多种现实中常见的不确定因素。例如,在任务执行过程中,智能体可能会遇到接口限流(如429错误)、服务异常(如500错误)以及响应延迟等情况。这些机制有效模拟了真实数字系统运行中的复杂性与不稳定性。

在此基础上,测评不再局限于任务是否完成,而是进一步关注智能体在复杂环境中的表现,包括应对异常的能力、执行过程的连续性以及任务恢复能力等。通过引入真实约束条件,ClawEval实现了从“功能验证”向“系统能力检验”的转变,使评测结果更具实践意义。

三、全过程可记录,推动测评透明化与可复现

针对人工智能系统普遍存在的“黑盒”问题,ClawEval在测评机制上强调全过程可追溯与结果可复核。在终端类任务中,系统采用基于Docker容器的运行方式,将智能体置于标准化环境中执行任务,并通过容器运行后的状态快照进行评分。这一机制有助于减少外部环境差异对结果的影响,提高评测的一致性与客观性。

同时,系统对智能体的执行过程进行全链路记录,涵盖指令输入、工具调用、返回结果及中间状态变化,并生成可回放的日志文件。通过对执行路径的完整记录,研究人员可以对模型行为进行细致分析,明确其成功或失败的具体原因。该设计有效提升了测评的透明度,使评测结果不仅“可验证”,也“可解释”,为后续模型优化与算法改进提供了重要依据。

四、完善评价机制,降低偶然性影响

在评价体系方面,ClawEval通过多项机制设计,提升测评结果的稳定性与可信度。其中,PASS^3规则要求同一任务在三次独立运行中均成功,方可判定为通过。这一规则有效降低了偶然性因素对评测结果的干扰,使模型表现更加真实可靠。

此外,ClawEval采用多维度综合评价方式,从任务完成度、执行稳定性、系统鲁棒性及安全性等多个方面进行评估。在安全维度上,若智能体在执行过程中出现违规操作,如错误调用接口或执行不当指令,将直接影响评分结果。该评价体系既体现了当前人工智能发展对“可靠性”与“规范性”的高度重视,也反映出测评标准正由单一性能指标向综合能力评估转变。

五、覆盖多类型任务,全面检验智能体能力结构

从任务设计来看,ClawEval目前共设置104个难度递进测试任务,覆盖基础服务、专家级跨服务、真实Web搜索、多模态金融分析以及Docker终端运维等7大类别。

部分任务提供中英文双版本,并基于统一数据进行测试,便于对比模型在不同语言环境下的表现一致性。这一设计有助于更全面地评估模型在多语言、多场景下的适应能力。

(最新榜单风云:PASS^3严苛考核下的真实格局)

从现有测试结果来看,在更严格的评估标准下,不同模型之间的能力差异进一步显现。尤其是在多步任务规划、异常处理与持续执行等方面,已成为衡量智能体水平的重要指标。这些能力的提升,将直接影响智能体在真实应用场景中的可用性与稳定性。

六、坚持开源共建,推动测评体系向基础设施演进

目前,ClawEval已向社区开放项目代码、测试用例及运行框架。项目团队表示,将持续完善测评体系,欢迎研究人员与开发者接入模型、补充任务场景,共同推动评价方法与测试体系不断优化升级。

业内普遍认为,随着智能体应用不断深化,构建贴近真实场景、过程透明、结果可复现的测评体系,正在成为人工智能产业发展的关键基础支撑。测评框架的角色也正在发生变化——从单一的技术评估工具,逐步演进为影响行业标准制定与技术路径选择的重要基础设施。

从发展趋势看,ClawEval的推出,不仅推动测评体系由“黑盒化”向“可复现评估”转变,也标志着评估范式从“单点能力测试”迈向“系统能力验证”。这一变化,为更全面、客观地衡量智能体在复杂环境中的实际表现提供了方法基础。

在“人工智能+”持续推进的背景下,构建科学规范的测评体系,已成为连接技术创新与产业落地的重要环节。通过不断完善标准体系、强化能力验证,有助于推动人工智能从“可用”向“可信”加速转变,为数字经济高质量发展提供更加坚实的技术支撑。

关于团队:ClawEval由北京大学与香港大学联合团队共同合作并完成。

核心贡献者:叶博文,李让,杨奇滨,谢知晖,李磊

指导老师:北京大学:杨仝,穗志方/香港大学:孔令鹏,刘琦

·

来源:“学习强国”AI频道

责编:张恒

审校:段晓云  叶林茂