Step 3.7 Flash 在 NVIDIA GPU 上首次亮相，支持多模态 AI

StepFun 推出了 Step 3.7 Flash，这是一款面向企业级应用的尖端多模态 AI 模型，充分利用了 NVIDIA GPU 的性能。该模型拥有庞大的 1980 亿参数和 110 亿活跃参数的专家混合（Mixture-of-Experts，MoE）架构，专为跨文本、图像、视频及其他模式的复杂推理任务而设计。这标志着在早前 2026 年发布的备受关注的 Step-3.5-Flash 基础上又一次显著升级。

Step 3.7 Flash 针对高吞吐量用例进行了优化，例如金融数据分析、并发编码代理和大规模文档智能。其架构包括一个 256k 的上下文窗口和三个推理级别（低、中、高），为企业提供了适应多样化工作负载的灵活性。模型还原生支持图像和视频输入，非常适合大规模多模态处理。

对于开发人员，StepFun 在 Hugging Face 提供了 NVFP4 量化的检查点，可实现更快的推理速度并降低内存和存储需求。它可以使用 NVIDIA TensorRT-LLM、SGLang 和 vLLM 等开源框架进行部署，这些框架针对 NVIDIA 的 GPU 基础设施进行了优化。

为什么重要

Step 3.7 Flash 满足了对能够实时跨模态推理的 AI 模型日益增长的需求，这与早期仅限文本的生成模型形成鲜明对比。其先进的 MoE 架构在计算效率和性能之间取得了平衡，这一点尤为重要，因为企业 AI 部署通常受硬件和成本限制。

Step-3.x Flash 系列已成为多模态 AI 的标杆，早期的 Step-3.5-Flash 据称在代理和编码任务上超越了 GLM-4.7 和 DeepSeek v3.2 等竞争对手。新版本在此基础上进一步拓展了规模和功能。

企业部署

NVIDIA 提供了多种途径将 Step 3.7 Flash 集成到生产环境中。企业可以利用 build.nvidia.com 上的 GPU 加速端点快速原型化，或者使用 NVIDIA NIM（神经推理微服务）进行容器化部署。NIM 支持本地、云端或混合设置，并提供标准化 API，使企业更容易扩展多模态工作流。

定制化是另一个亮点。使用 NVIDIA 的 NeMo 框架，开发人员可以通过 Hugging Face 检查点直接使用领域特定数据对 Step 3.7 Flash 进行微调。监督微调（SFT）和 LoRA（低秩适配）等技术允许高效更新，确保模型符合企业的独特需求。

背景与市场趋势

Step 3.7 Flash 的发布与 2026 年行业向稀疏激活模型和多模态 AI 的趋势保持一致。这些创新旨在降低推理成本的同时不牺牲性能，这是随着 AI 在各个领域被广泛采用而变得至关重要的因素。Step 3.7 Flash 所采用的 MoE 方法实现了动态参数激活，在保持高精度的同时减少了计算开销。

此次发布也反映了 NVIDIA 在主导 AI 硬件-软件生态系统方面的更大努力。通过将像 Step 3.7 Flash 这样的模型与其 GPU 技术紧密集成，NVIDIA 巩固了作为可扩展 AI 解决方案首选平台的地位。

接下来是什么？

Step 3.7 Flash 现已可供测试和部署。开发人员可以在 Hugging Face 上探索该模型，通过 NVIDIA 的 build.nvidia.com 快速原型化工作流，或使用 NVIDIA DGX Station 上的 vLLM Playbook 进行本地部署。对于需要强大生产环境的企业，NIM 框架提供了一站式解决方案。

随着 AI 系统变得更加复杂，多模态推理成为常态，像 Step 3.7 Flash 这样的创新正在为企业 AI 能够实现的目标设定新标准。

Step 3.7 Flash 在 NVIDIA GPU 上首次亮相，支持多模态 AI

为什么重要

企业部署

背景与市场趋势

接下来是什么？

Read More