Copied


Harvey公布法律AI基准LAB的初步结果

realtime news   May 26, 2026 17:39 1 Min Read


Harvey已发布其法律代理基准(LAB)的首批结果,这是一个开放源码框架,旨在评估AI代理在复杂、长远法律任务中的表现。初步结果于2026年5月26日公布,强调了当前一代AI模型的显著局限性。尽管取得了快速进展,前沿模型在严格的全有或全无评估标准下,完成了不到10%的LAB任务。

LAB于本月早些时候启动,评估了涵盖24个法律实践领域的1200多个任务。每项任务模拟真实的律师事务所工作流程,要求AI模型生成可供审查的法律工作成果,并根据75,000个由专家创建的评分标准进行评估。Harvey的“全通过”评分系统要求完美——每个评分标准必须满足,任务才能通过。

主要发现:前沿AI表现不佳

在所评估的模型中,Claude Opus 4.7以7.1%的成功率领先,其次是Sonnet 4.6的5.4%、Opus 4.6的4.2%、GPT-5.5的2.1%和Gemini 3.5 Flash的仅0.8%。虽然这些数据表明有所进步,但也突显了法律AI与人类能力之间的巨大差距。报告指出,“法律工作远未达到饱和”,尤其是在公司法、知识产权和监管合规等领域,这些领域对精准性要求极高。

研究结果还揭示了不同实践领域的能力差异。模型表现出“参差不齐的智能”,在某些专业领域表现出色,而在其他领域却表现惨淡。例如,GPT-5.5在依赖重度研究的监管和新兴公司任务中表现良好,而Opus 4.7在需要综合和分析的公司事务中表现更为出色。没有单一模型在所有类别中表现卓越,这进一步表明AI部署中需要采用多模型策略。

成本和延迟限制

另一个主要障碍是运营效率。表现最好的模型Opus 4.7,每项任务成本约为50.90美元,延迟为22分钟——对于高需求的法律操作来说,这远非可行。更快的替代方案如Gemini 3.5 Flash虽然延迟(低于六分钟)较低,但以准确性为代价,成功率仅为0.8%。这些权衡为希望在生产环境中部署AI的公司带来了挑战,需要在成本、速度和质量之间找到平衡。

行为洞察:成功模型的关键特点

Harvey的研究还分析了代理行为,识别出提高任务表现的关键模式。最有效的代理表现出类似于熟练人类助理的行为:起草前的深入研究、起草后的验证及反复修订。例如,在起草后验证和修订其输出的代理平均提高了1.5个百分点的通过率。而跳过审查步骤则导致成功率下降1.2个百分点。

有趣的是,像Opus 4.7这样的模型表现出很强的自我纠正倾向,经常修订草稿并在与起草相关的任务中取得更高的分数。同时,GPT-5.5在研究密集型活动中表现出色,利用广泛的文档搜索能力,在知识密集型领域中超越了竞争对手。

未来展望

Harvey的LAB代表了朝着领域特定AI基准迈出的重要一步,但结果也令人清醒地认识到当前AI能力与法律等专业环境需求之间的差距。基准的下一阶段将重点扩展任务库、提高成本效率,并与AI实验室合作以优化模型性能。

对于考虑采用AI的律师事务所和企业来说,LAB提供了一个关键视角,展示了AI在当下可以实际创造价值的领域。结合不同AI家族的特定能力的多模型策略可能会在短期内占据主导地位。然而,前沿模型的高成本和高延迟仍然是广泛部署的障碍,限制了AI在全自动化高风险法律工作中的潜力。


Read More