Anthropic 全新 Claude Opus 4.5:重夺编程之冠
本文编译自 The New Stack 的文章《Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown》,发布于 2025 年 11 月 24 日。
引言
Anthropic 今天发布了其旗舰 Opus 模型的最新版本:Opus 4.5。
该公司称这是其迄今为止最智能的模型,并指出它在解决编程任务方面尤其强大,以 80.9% 的 SWE-Bench Verified 准确率从 OpenAI 的 GPT-5.1-Codex-Max 和 Google 上周发布的 Gemini 3 模型手中夺回了编程之冠。
此外,Anthropic 还大幅降低了 Opus 4.5 的使用成本,API 定价为:
- 输入 token:$5/百万(从 $15 降至 $5)
- 输出 token:$25/百万(从 $75 降至 $25)
使用 Anthropic 订阅计划的用户现在也将获得更多使用 Opus 4.5 的空间。
基准测试表现
随着 OpenAI 的 GPT-5.1 和 5.1-Codex-Max,以及 Google 的 Gemini 3(及其热门的 Nano Banana Pro 图像模型)的发布,11 月对大型模型构建者来说异常活跃。Gemini 3 尤其获得了非常积极的反响。
与 Google 不同,Anthropic 从未专注于图像处理或视频创作,而是坚守其在编程和生产力用例方面的优势。最新的 Opus 也不例外,Anthropic 强调该模型现在可以生成具有一致性、专业水准和领域意识的文档、电子表格和演示文稿。
但像往常一样,Claude 模型真正闪耀的地方是编程。这在基准测试中得到了体现,Opus 4.5 在各项指标上全面超越竞争对手。当然,基准测试并不总是反映实际使用场景。
图片来源:Anthropic
对于此次发布,Anthropic 还让 Opus 4.5 接受了公司用于考核性能工程候选人的同样测试。这项测试完全专注于技术能力,有两小时的时间限制,而 Opus 4.5 的得分超过了 Anthropic 有史以来的任何应聘者。
模型真正”理解”了
Anthropic 开发者关系负责人 Alex Albert 告诉我,他感觉这个”模型真的懂了”。他指出,过去的模型通常非常擅长从不同渠道(如 Slack 和电子邮件)收集数据,但很难有效地综合所有这些信息。
“我发现,使用这个模型后,情况已经不同了。我可以真正相信它能直接从那些 Slack 消息中产生高质量的输出,然后我会想,哇,它真的可以直接发送这个。我仍然在审查,但我真的可以完全放手了。“
努力参数:低、中、高
Opus 4.5 的一个新特性是它具有**“努力”参数**(低、中、高),类似于一些竞争对手的模型,这允许开发者控制模型用多少时间(以及多少 token)来解决给定问题。
- 中等设置:在 SWE-bench Verified 基准测试上与 Sonnet 4.5 持平,但使用的 token 减少了 76%
- 高设置:击败 Sonnet 4.5,但仅使用约 Sonnet 模型一半的 token
这是我们一直看到的趋势,OpenAI 在上周发布最新的 Codex-Max 模型时也强调了这种效率。
总体而言,该模型在其他领域也改进了 Opus 家族(和 Opus 4.1)的表现,包括视觉推理和数学。
图片来源:Anthropic
Computer Use 用例的 Opus 4.5
Anthropic 表示,Opus 4.5 也是该公司迄今为止在 computer use(计算机使用)用例上最好的模型。为了验证这一点,Anthropic 现在向所有 Claude Max 订阅者(每月支付 $100+)开放其 Chrome 扩展。
计算机和浏览器使用仍然感觉处于起步阶段,经常感觉相当缓慢且容易出错,但 Anthropic 正在将最先进的技术推向新的高度,其得分远高于之前的模型。
三层模型体系完整了
Anthropic 最近处于一个有趣的位置,其最新版本的中档 Sonnet 模型通常优于较旧的 Opus 4.1 模型,使用户在日常工作中几乎没有理由使用更昂贵的模型。然而,想法始终是拥有一个三层模型,Opus 4.5 在这里恢复了平衡。
Albert 说:
“对我来说,这次发布有趣的地方在于,它不一定是:‘哦,现在每个人都需要切换到 Opus’,但它确实开启了新一层的可能性。现在我们正在进入这样一个环境:你实际上有我们提供的三个模型,它们都适合这条曲线上的不同需求:你有我们刚在一个月前发布的 Haiku 模型。你有一个半月前的 Sonnet 4.5。现在这完成了整个布局。“
Claude 开发者平台更新
除了新模型外,Anthropic 还宣布了 Claude 开发者平台的两项更新,这些更新与 Opus 4.5 版本密切相关:
1. 升级的 Claude Code 计划模式
新的计划模式现在可以创建更精确的计划来解决问题或添加新功能,并更直接地遵循这些计划,Anthropic 表示。
2. 桌面应用中的 Claude Code 支持
如果你使用 Claude 桌面应用程序,现在可以在桌面或云环境中启动 Claude Code 的编码任务。这让你可以并行运行多个本地和远程 Claude Code 会话。
总结
Claude Opus 4.5 的发布标志着 Anthropic 在 AI 编程助手领域的重大进步:
- ✅ 最强编程能力:SWE-Bench Verified 得分 80.9%,超越所有竞争对手
- ✅ 大幅降价:API 价格降低 67-70%,更加经济实惠
- ✅ 效率提升:新增努力参数,灵活控制性能和成本
- ✅ 更好理解:在信息综合和任务执行上有质的飞跃
- ✅ 三层完整:与 Sonnet 4.5 和 Haiku 形成完整的模型矩阵
对于使用 CodeCC 的开发者来说,Opus 4.5 的发布意味着:
- 更强大的代码生成能力
- 更精准的问题解决
- 更经济的使用成本
- 更好的开发体验
立即访问 CodeCC 体验 Claude Opus 4.5 的强大能力!
原文链接:The New Stack - Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown