Harvey公布法律AI基准LAB的初步结果

Harvey已发布其法律代理基准（LAB）的首批结果，这是一个开放源码框架，旨在评估AI代理在复杂、长远法律任务中的表现。初步结果于2026年5月26日公布，强调了当前一代AI模型的显著局限性。尽管取得了快速进展，前沿模型在严格的全有或全无评估标准下，完成了不到10%的LAB任务。

LAB于本月早些时候启动，评估了涵盖24个法律实践领域的1200多个任务。每项任务模拟真实的律师事务所工作流程，要求AI模型生成可供审查的法律工作成果，并根据75,000个由专家创建的评分标准进行评估。Harvey的“全通过”评分系统要求完美——每个评分标准必须满足，任务才能通过。

主要发现：前沿AI表现不佳

在所评估的模型中，Claude Opus 4.7以7.1%的成功率领先，其次是Sonnet 4.6的5.4%、Opus 4.6的4.2%、GPT-5.5的2.1%和Gemini 3.5 Flash的仅0.8%。虽然这些数据表明有所进步，但也突显了法律AI与人类能力之间的巨大差距。报告指出，“法律工作远未达到饱和”，尤其是在公司法、知识产权和监管合规等领域，这些领域对精准性要求极高。

研究结果还揭示了不同实践领域的能力差异。模型表现出“参差不齐的智能”，在某些专业领域表现出色，而在其他领域却表现惨淡。例如，GPT-5.5在依赖重度研究的监管和新兴公司任务中表现良好，而Opus 4.7在需要综合和分析的公司事务中表现更为出色。没有单一模型在所有类别中表现卓越，这进一步表明AI部署中需要采用多模型策略。

成本和延迟限制

另一个主要障碍是运营效率。表现最好的模型Opus 4.7，每项任务成本约为50.90美元，延迟为22分钟——对于高需求的法律操作来说，这远非可行。更快的替代方案如Gemini 3.5 Flash虽然延迟（低于六分钟）较低，但以准确性为代价，成功率仅为0.8%。这些权衡为希望在生产环境中部署AI的公司带来了挑战，需要在成本、速度和质量之间找到平衡。

行为洞察：成功模型的关键特点

Harvey的研究还分析了代理行为，识别出提高任务表现的关键模式。最有效的代理表现出类似于熟练人类助理的行为：起草前的深入研究、起草后的验证及反复修订。例如，在起草后验证和修订其输出的代理平均提高了1.5个百分点的通过率。而跳过审查步骤则导致成功率下降1.2个百分点。

有趣的是，像Opus 4.7这样的模型表现出很强的自我纠正倾向，经常修订草稿并在与起草相关的任务中取得更高的分数。同时，GPT-5.5在研究密集型活动中表现出色，利用广泛的文档搜索能力，在知识密集型领域中超越了竞争对手。

未来展望

Harvey的LAB代表了朝着领域特定AI基准迈出的重要一步，但结果也令人清醒地认识到当前AI能力与法律等专业环境需求之间的差距。基准的下一阶段将重点扩展任务库、提高成本效率，并与AI实验室合作以优化模型性能。

对于考虑采用AI的律师事务所和企业来说，LAB提供了一个关键视角，展示了AI在当下可以实际创造价值的领域。结合不同AI家族的特定能力的多模型策略可能会在短期内占据主导地位。然而，前沿模型的高成本和高延迟仍然是广泛部署的障碍，限制了AI在全自动化高风险法律工作中的潜力。

Harvey公布法律AI基准LAB的初步结果

主要发现：前沿AI表现不佳

成本和延迟限制

行为洞察：成功模型的关键特点

未来展望

Read More