在软件工程领域,昆仑万维于6月20日正式发布了其自主研发的代码智能体基座模型 Skywork-SWE-32B,并将其开源。该模型在软件工程任务中表现卓越,成为业界在32B 参数规模下最强的代码修复能力模型。昆仑万维团队通过构建超过1万个可验证的 GitHub 仓库任务实例,创造了目前规模最大的可验证数据集,系统地验证了大模型在软件工程任务上的数据缩放定律。

image.png

Skywork-SWE-32B 在 SWE-bench Verified 基准上取得了38.0% 的 pass@1准确率,这一成绩刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。通过引入测试时扩展技术,该模型的表现进一步提升至47.0% 的准确率,不仅超过了目前在32B 参数规模以下的开源模型,也缩小了与一些闭源模型之间的性能差距。

昆仑万维团队针对当前市场上 SWE 任务的主流数据集存在的问题,建立了一套三阶段的自动化流程来收集和验证训练数据。在数据采集阶段,他们通过 GitHub API 抓取了超过15万个开源仓库的信息,并通过一系列严格的筛选步骤,最终保留了23,389个任务样本。在验证阶段,团队使用统一命令生成和 Docker 环境构建技术,确保每个任务样本的有效性,最终生成了10,169条高质量样本。

image.png

在智能体轨迹生成阶段,团队使用开源的 OpenHands 框架,结合商用大模型作为基座,对每个任务执行了多轮交互,全面记录智能体的解决过程。最终,他们构建出8,209条高质量的验证通过轨迹,为 Skywork-SWE-32B 的训练提供了坚实基础。

Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力,展现了其在处理复杂开发场景下的能力与潜力。

博客地址🔗 

https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

HuggingFace地址🔗 

https://huggingface.co/Skywork/Skywork-SWE-32B

划重点:  

🌟 Skywork-SWE-32B 模型在 SWE-bench Verified 基准上取得38.0% 的 pass@1准确率,刷新了现有32B 开源模型的最佳成绩。  

📈 引入测试时扩展技术后,模型的准确率提升至47.0%,显著缩小了与闭源模型的性能差距。  

🔍 昆仑万维建立了自动化流程,构建出超1万条高质量、可验证的 SWE 任务数据集,为模型的训练奠定了基础。