月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity’s Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。
Kimi-Researcher:强大的多轮搜索与推理智能体
Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。根据官方数据,在执行每个任务时,Kimi-Researcher 平均会进行23个推理步骤,并浏览 超过200个网址,展现出强大的信息处理和分析能力。
基准测试表现:HLE 登顶,RL 训练效果显著
Kimi-Researcher 基于 Kimi k-系列模型的内部版本构建,并完全通过 端到端的智能体强化学习(RL) 进行训练。在“人类终极考验”(HLE)这项测试中,它取得了26.9% 的 Pass@1得分率,达到了业界顶尖水平;其 Pass@4准确率更是高达40.17%。
值得注意的是,Kimi-Researcher 的 HLE 初始得分仅为8.6%,最终能达到26.9% 的高分,几乎完全得益于端到端的强化学习训练。月之暗面表示,这有力地证明了端到端智能体强化学习可以极大地推动智能体智能水平的提升。
此外,Kimi-Researcher 在多个复杂且具挑战性的真实世界基准测试中也表现出色。例如,在 xbench 测试(一套全新的、动态的、与专业需求对齐的测试套件)的 xbench-DeepSearch 项目上,Kimi-Researcher 取得了69% 的 Pass@1(4次运行平均值),其表现优于配备了搜索工具的 o3等模型。在针对多轮搜索推理(如 FRAMES、Seal-0)和事实性信息问答(如 SimpleQA)的基准测试中,Kimi-Researcher 同样表现出色。
开源计划与内测申请
月之暗面宣布,Kimi-Researcher 将于今日起逐步向用户开放,现在用户可以访问 kimi.com 申请内测。更令人振奋的是,未来几个月内,月之暗面将 开源 Kimi-Researcher 背后的基础预训练模型以及经过强化学习训练后的模型,这将为 AI 社区的发展带来重要贡献。
GitHub:https://moonshotai.github.io/Kimi-Researcher/