在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。
此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。此外,Qwen3-30B-A3B 作为小型 MoE 模型,其激活参数数量仅为 QwQ-32B 的10%,但性能却显著提升,甚至是 Qwen3-4B 这样的迷你模型也能与 Qwen2.5-72B-Instruct 相媲美。
此次开源的还有多个 Dense 模型,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,所有模型均在 Apache2.0许可下开放使用。用户可以在 Hugging Face、ModelScope 及 Kaggle 等平台上获取到这些经过后训练的模型,适用于各种开发和研究需求。针对不同的使用场景,推荐使用 SGLang 和 vLLM 等框架进行部署。
Qwen3模型支持两种思考模式,分别是 “思考模式” 和 “非思考模式”。思考模式允许模型逐步推理,适合复杂问题,而非思考模式则提供快速响应,适合简单问题。这样的灵活设计使用户能够根据需求调节模型的 “思考” 深度。
在语言支持方面,Qwen3支持119种语言和方言,极大地拓宽了其国际应用的潜力。为了提升预训练的质量,Qwen3的数据集相比前一代 Qwen2.5几乎翻了一番,达到了约36万亿个 token,涵盖了多样化的语言数据。
Qwen3的发布将为大型基础模型的研究和开发带来新的机遇,助力全球研究人员和开发者利用这一先进技术构建创新的解决方案。
划重点:
🌟 Qwen3-235B-A22B 在基准测试中表现卓越,开创语言模型新局面。
🌍 Qwen3支持119种语言,满足全球用户需求,扩展国际应用。
🔧 模型开源,用户可在多个平台轻松获取和部署,促进研究与开发。