随着大型语言模型(LLM)的迅猛发展,单一智能体在应对复杂现实任务时显露出诸多局限。为了解决这个问题,香港大学与 camel-ai 等多家机构联合推出了一种名为 Workforce 的全新多智能体框架,并配套了一种名为 OWL(Optimized Workforce Learning)的训练方法。最近,这一创新成果在权威基准测试 GAIA 上获得了69.70% 的准确率,不仅刷新了开源系统的记录,还超越了 OpenAI Deep Research 等多家商业系统。

这一研究成果的所有代码已在 GitHub 上开源,当前已获得超过17,000个 Star 的点赞,标志着社区对这一创新的认可。

image.png

那么,Workforce 框架是如何突破多智能体系统的局限性的呢?其核心在于创新的 “解耦设计”。框架将整个系统拆分为三个关键组成部分:领域无关的规划器(Planner Agent)、智能协调器(Coordinator Agent)和专业工作节点(Worker Nodes)。这种设计不仅提升了系统的灵活性,还显著降低了跨领域迁移的复杂性。尤其是在需要适应新领域时,用户只需替换或添加工作节点,而不必对核心系统进行全面修改。

image.png

OWL 训练方法则是这一框架的另一大亮点。该方法采用了两阶段的训练策略,第一阶段是监督微调,通过专家演示数据对规划器进行初步训练;第二阶段则是强化学习优化,通过直接偏好优化(DPO)算法进一步提升决策能力。这一系列优化确保了规划器能够处理现实世界中的多样化任务。

在 GAIA 基准测试中,Workforce 框架展示了其显著的优势,尤其是在多智能体推理方面,达到了69.70% 的准确率,远超以往的开源系统。同时,OWL 训练方法也在测试中取得了显著成果,提升了 Qwen2.5-32B-Instruct 模型的性能。这一突破使得多智能体系统在处理复杂任务时,不再受限于以往的设计思路,展现出强大的自我纠错和进化能力。

Workforce 框架的推出不仅提升了多智能体系统的整体性能,也为智能助手的未来发展指明了方向。

论文地址:https://arxiv.org/pdf/2505.23885