Anthropic 的 Claude Opus 4.8 发布,树立法律 AI 新标杆
Anthropic 于 2026 年 5 月 28 日发布了其最新的旗舰大型语言模型 Claude Opus 4.8。该模型专为复杂的法律工作流程设计,设定了新的性能基准,在 Harvey 的法律代理基准测试(LAB)中取得了创纪录的 10.4% 得分,并在 BigLaw Bench 中达到了 91.1% 的成绩。
这些指标相较其前身 Opus 4.7 实现了显著提升,后者在 LAB 测试中得分为 7.1%。LAB 测试评估严格的全通系统下复杂法律任务的端到端完成情况。而在 BigLaw Bench 中的结果显示,43% 的测试获得了满分,88% 的结果得分超过 0.80,尤其在交易管理、合规和风险评估方面表现突出。
据 Harvey 的应用研究主管 Niko Grupen 表示,Opus 4.8 独特的自我审查和输出精炼能力使其在起草任务中的准确性更高。他表示:“Opus 4.8 是第一个在 LAB 的严格全通评分中突破 10% 的模型。它的审视与修正行为使起草任务表现更为出色。”
该模型在多个法律实践领域也表现出色,包括能够正确识别案件标题、当事人以及法定条款,同时准确应用理论框架。不过,评估者指出该模型在处理模糊性和标注需要人类审查的领域方面仍有改进空间。
除了法律任务外,Opus 4.8 还通过其“动态工作流程”工具引入了增强的编码能力,支持大规模代码库迁移。它还具有更快的处理速度——快速模式相比之前的版本快 2.5 倍,同时降低了成本。这些更新巩固了 Opus 4.8 的地位,不仅在法律科技领域卓越,还成为一个适用于更广泛企业应用的多功能 AI 平台。
Opus 4.8 将在未来几天内向美国和欧盟的符合条件的客户开放,而澳大利亚的可用性预计随后推出。用户可以通过 claude.ai、Anthropic 的 API 平台以及主要云服务提供商访问该模型。
Anthropic 发布 Opus 4.8 之际,公司正准备扩大对其更先进“Claude Mythos”系列的访问,旨在针对网络安全和高安全保障用例。随着 Opus 4.8 的发布确立了新的性能基准,标志着 Anthropic 在竞争激烈的 AI 领域保持领先地位的决心。