在人工智能领域,OpenAI 于今日正式推出其最新的 GPT-4.1模型,随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升,尤其在编码能力和指令跟踪方面表现突出。此外,GPT-4.1还具备高达100万个上下文 tokens 的支持能力,极大扩展了处理信息的范围。

据测评,GPT-4.1在 SWE-bench Verified 的得分达54.6%,较 GPT-4o 提高了21.4%,在编码模型中处于领先地位。其在指令遵循能力的评分也达到了38.3%,相较于前代提高了10.5%。此外,GPT-4.1在 Video-MME 多模态长上下文理解的测试中取得72.0% 的高分,相较于 GPT-4o 提高了6.7%。这样的成绩表明 GPT-4.1在处理复杂任务和理解长篇文本方面的优势。

ChatGPT

图源备注:图片由AI生成

与此同时,智谱也推出了其新款32B/9B 系列 GLM 模型,直接与 GPT-4.1展开竞争。智谱的 Z.ai 平台现已开放,让用户能够免费体验这些新模型的强大功能。两者的发布恰逢其时,展现了人工智能领域的激烈竞争。

在代码生成方面,GPT-4.1在执行各种编码任务时表现优异,其完成率从33.2% 提升至54.6%。此外,GPT-4.1在跨格式代码差异分析上也显著提高,为 API 开发者节省了大量时间与成本。相比之下,智谱的 GLM-Z1-32B-0414在 IFEval 上的表现也不逊色,达到了84.5% 的高分。

对于长上下文理解,GPT-4.1可以处理高达100万个 tokens,足以应对大型代码库和长篇文档的需求。这种能力使其在法律、客户支持等多领域的应用潜力巨大。

值得一提的是,GPT-4.1的使用成本比其前代降低了26%。相较之下,智谱的 Z.ai 在定价上也极具竞争力,为用户提供了更多选择。