Codecc.dev
返回博客列表
AI模型

Anthropic 全新 Claude Opus 4.5:重夺编程之冠

Frederic Lardinois
·
·
约 7 分钟阅读
#claude #opus-4.5 #ai-coding #benchmarks

本文编译自 The New Stack 的文章《Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown》,发布于 2025 年 11 月 24 日。

引言

Anthropic 今天发布了其旗舰 Opus 模型的最新版本:Opus 4.5

该公司称这是其迄今为止最智能的模型,并指出它在解决编程任务方面尤其强大,以 80.9% 的 SWE-Bench Verified 准确率从 OpenAI 的 GPT-5.1-Codex-Max 和 Google 上周发布的 Gemini 3 模型手中夺回了编程之冠。

此外,Anthropic 还大幅降低了 Opus 4.5 的使用成本,API 定价为:

  • 输入 token:$5/百万(从 $15 降至 $5)
  • 输出 token:$25/百万(从 $75 降至 $25)

使用 Anthropic 订阅计划的用户现在也将获得更多使用 Opus 4.5 的空间。

基准测试表现

随着 OpenAI 的 GPT-5.1 和 5.1-Codex-Max,以及 Google 的 Gemini 3(及其热门的 Nano Banana Pro 图像模型)的发布,11 月对大型模型构建者来说异常活跃。Gemini 3 尤其获得了非常积极的反响。

与 Google 不同,Anthropic 从未专注于图像处理或视频创作,而是坚守其在编程和生产力用例方面的优势。最新的 Opus 也不例外,Anthropic 强调该模型现在可以生成具有一致性、专业水准和领域意识的文档、电子表格和演示文稿

但像往常一样,Claude 模型真正闪耀的地方是编程。这在基准测试中得到了体现,Opus 4.5 在各项指标上全面超越竞争对手。当然,基准测试并不总是反映实际使用场景。

Claude Opus 4.5 基准测试 图片来源:Anthropic

对于此次发布,Anthropic 还让 Opus 4.5 接受了公司用于考核性能工程候选人的同样测试。这项测试完全专注于技术能力,有两小时的时间限制,而 Opus 4.5 的得分超过了 Anthropic 有史以来的任何应聘者

模型真正”理解”了

Anthropic 开发者关系负责人 Alex Albert 告诉我,他感觉这个”模型真的懂了”。他指出,过去的模型通常非常擅长从不同渠道(如 Slack 和电子邮件)收集数据,但很难有效地综合所有这些信息。

“我发现,使用这个模型后,情况已经不同了。我可以真正相信它能直接从那些 Slack 消息中产生高质量的输出,然后我会想,哇,它真的可以直接发送这个。我仍然在审查,但我真的可以完全放手了。“

努力参数:低、中、高

Opus 4.5 的一个新特性是它具有**“努力”参数**(低、中、高),类似于一些竞争对手的模型,这允许开发者控制模型用多少时间(以及多少 token)来解决给定问题。

  • 中等设置:在 SWE-bench Verified 基准测试上与 Sonnet 4.5 持平,但使用的 token 减少了 76%
  • 高设置:击败 Sonnet 4.5,但仅使用约 Sonnet 模型一半的 token

这是我们一直看到的趋势,OpenAI 在上周发布最新的 Codex-Max 模型时也强调了这种效率。

总体而言,该模型在其他领域也改进了 Opus 家族(和 Opus 4.1)的表现,包括视觉推理和数学。

Claude Opus 4.5 性能对比 图片来源:Anthropic

Computer Use 用例的 Opus 4.5

Anthropic 表示,Opus 4.5 也是该公司迄今为止在 computer use(计算机使用)用例上最好的模型。为了验证这一点,Anthropic 现在向所有 Claude Max 订阅者(每月支付 $100+)开放其 Chrome 扩展。

计算机和浏览器使用仍然感觉处于起步阶段,经常感觉相当缓慢且容易出错,但 Anthropic 正在将最先进的技术推向新的高度,其得分远高于之前的模型。

三层模型体系完整了

Anthropic 最近处于一个有趣的位置,其最新版本的中档 Sonnet 模型通常优于较旧的 Opus 4.1 模型,使用户在日常工作中几乎没有理由使用更昂贵的模型。然而,想法始终是拥有一个三层模型,Opus 4.5 在这里恢复了平衡。

Albert 说:

“对我来说,这次发布有趣的地方在于,它不一定是:‘哦,现在每个人都需要切换到 Opus’,但它确实开启了新一层的可能性。现在我们正在进入这样一个环境:你实际上有我们提供的三个模型,它们都适合这条曲线上的不同需求:你有我们刚在一个月前发布的 Haiku 模型。你有一个半月前的 Sonnet 4.5。现在这完成了整个布局。“

Claude 开发者平台更新

除了新模型外,Anthropic 还宣布了 Claude 开发者平台的两项更新,这些更新与 Opus 4.5 版本密切相关:

1. 升级的 Claude Code 计划模式

新的计划模式现在可以创建更精确的计划来解决问题或添加新功能,并更直接地遵循这些计划,Anthropic 表示。

2. 桌面应用中的 Claude Code 支持

如果你使用 Claude 桌面应用程序,现在可以在桌面或云环境中启动 Claude Code 的编码任务。这让你可以并行运行多个本地和远程 Claude Code 会话

总结

Claude Opus 4.5 的发布标志着 Anthropic 在 AI 编程助手领域的重大进步:

  • 最强编程能力:SWE-Bench Verified 得分 80.9%,超越所有竞争对手
  • 大幅降价:API 价格降低 67-70%,更加经济实惠
  • 效率提升:新增努力参数,灵活控制性能和成本
  • 更好理解:在信息综合和任务执行上有质的飞跃
  • 三层完整:与 Sonnet 4.5 和 Haiku 形成完整的模型矩阵

对于使用 CodeCC 的开发者来说,Opus 4.5 的发布意味着:

  • 更强大的代码生成能力
  • 更精准的问题解决
  • 更经济的使用成本
  • 更好的开发体验

立即访问 CodeCC 体验 Claude Opus 4.5 的强大能力!


原文链接The New Stack - Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown