Ray Serve LLM 提升分布式推理性能，达24倍效率提升

Ray Serve LLM 是一个专为分布式大语言模型（LLM）推理设计的框架，近日宣布了一系列创新优化，在解码密集型工作负载中实现了高达 24 倍的更高吞吐量。这些优化是在与 Google Kubernetes Engine (GKE) 合作开发的，解决了关键性能瓶颈，使 Ray Serve LLM 成为可扩展、低延迟 LLM 部署的领先者。

三大架构升级推动了性能的大幅提升：

直接流式传输： 在 Ray 2.56 中引入，此创新将路由决策与响应流式传输解耦，大幅减少延迟。通过使 HAProxy 能够直接建立到目标副本的 HTTP 连接，消除了与中间路由层相关的开销。这显著提升了每个输出令牌的时间效率（TPOT），尤其是对解码密集型任务。
vLLM Ray 执行器后端 V2： 全新改进的后端利用异步调度和改进的进程管理来优化推理流水线。在 vLLM 0.21.0 中默认包含的后端实现了更好的资源利用率，并减少了协调开销。
HAProxy 集成： 一个基于 C 的 HAProxy 入口负载均衡器，结合禁用 TCP 数据报缓冲（Nagle 算法）等优化，显著增强了吞吐量和流式传输性能。这些更新可在 Ray 的最新容器镜像中使用。

基准测试突显了这些更新的变革性影响。在输入序列长度（ISL）为 8,000、输出序列长度（OSL）为 50 的前填充密集型工作负载中，Ray Serve LLM 的吞吐量比基线高出 4.4 倍。在解码密集型工作负载（ISL 50，OSL 500）中，其性能提升高达 24 倍。在模拟编码代理交互的现实多轮场景中，Ray Serve LLM 在首令牌时间（TTFT）和吞吐量等关键指标上匹配或超越了 vLLM 路由器。

对于需要在多 GPU 和多节点集群中扩展 LLM 的企业，这些更新是一个革命性的改变。Ray Serve LLM 独特的架构允许前填充-解码分离，这意味着提示处理（前填充）和令牌生成（解码）阶段可以独立扩展。这种灵活性，加上 Ray 的容错性和可观察性功能，使其成为生产级 LLM 服务的多功能选择。

Ray Serve LLM 的直接流式传输和增强的 vLLM 后端特别适合需要高并发性和低延迟的工作负载。例如，在使用八个 Qwen3-0.6B 副本的测试中，Ray Serve LLM 在 TTFT（例如，在前填充密集型场景中为 355 毫秒对比 389 毫秒）和解码密集型工作负载（165 毫秒对比 190 毫秒）中匹配或超越了 vLLM 路由器。效率的提高得益于 HAProxy 的直接连接和减少的路由开销。

随着 LLM 推理需求的增长，这些优化巩固了 Ray Serve LLM 在市场中的地位。竞争框架在历史上难以在规模上平衡吞吐量、容错性和资源效率。通过解决这些挑战，Ray Serve LLM 为开发人员提供了一个引擎无关的平台，能够处理从独立扩展到复杂多副本部署的各种需求。

开发人员可以在 Ray 2.56 中试验这些功能，并利用包含最新优化的更新容器镜像，例如 rayproject/ray-llm:2.56-py312-cu130。有关实现、基准测试和配置的更多细节，请访问官方公告。

凭借这些进步，Ray Serve LLM 准备为下一代分布式 AI 应用提供动力，使企业能够以前所未有的效率和可靠性部署大规模 LLM。

Ray Serve LLM 提升分布式推理性能，达24倍效率提升

Read More