NVIDIA推出Nemotron 3 Nano Omni，AI效率提升9倍

NVIDIA发布了Nemotron 3 Nano Omni，这是一款突破性的开放多模态AI模型，旨在将视觉、音频和语言处理整合到一个系统中。根据该公司介绍，通过消除对单独模型的需求，Nano Omni相较于具有类似交互性的现有开放多模态模型，提供了高达9倍的吞吐量。这款模型于2026年4月28日正式上线，可在Hugging Face、OpenRouter和NVIDIA自己的构建门户等平台使用。

与传统AI系统依赖于不同任务的孤立模型不同，Nemotron 3 Nano Omni在其30B-A3B混合专家模型（MoE）架构中集成了视觉和音频的编码器。这种整合减少了延迟和成本，同时提高了可扩展性和准确性。NVIDIA声称，该模型已经在从文档智能到视频和音频推理的六个行业基准测试中名列前茅。

为什么重要

对于构建代理系统的企业和开发者来说，Nano Omni在效率和能力上实现了重大飞跃。“要构建有用的代理，你无法等待几秒钟让模型去解释一个屏幕，”H Company的CEO Gautier Cloix表示，该公司正在利用该模型为其AI代理提供高分辨率屏幕解释能力。Cloix将该系统描述为实现“数字环境中的实时交互。”

使用场景包括：

计算机使用代理：实时导航和推理图形用户界面，支持高分辨率（1920x1080）屏幕。
文档智能：解析和推理混合媒体文档、图表和表格，用于合规性和分析工作流。
音频和视频理解：在音视频输入中保持连贯的上下文，用于客户服务和监控应用。

采用和生态系统

Nemotron 3 Nano Omni的早期采用者包括Aible、Applied Scientific Intelligence、Eka Care、富士康、Palantir和Pyler等。戴尔科技、DocuSign和甲骨文等公司据报道正在评估该模型以进行未来的集成。Nemotron 3系列模型在过去一年中已被下载超过5000万次，显示出强劲的市场兴趣。

开放和可定制

作为NVIDIA对透明性的承诺的一部分，Nano Omni以开放的权重、数据集和训练技术发布。这使得各组织能够根据其需求调整模型，无论是为了监管合规、数据主权，还是特定行业应用。开发者可以利用NVIDIA NeMo工具包进行进一步定制和优化。

该模型可部署在多种环境中——从本地的NVIDIA DGX系统到云平台，提供了多样化的操作需求的灵活性。NVIDIA还提供了丰富的资源，包括教程和部署指南，以支持开发者集成该模型。

展望未来

Nemotron 3 Nano Omni在让多模态AI代理更高效和更易获取方面迈出了重要的一步。凭借其开放架构和强大的性能基准测试，该模型有望推动从医疗到金融等行业的创新。随着采用的增长，它可能会重新定义AI系统如何处理复杂的实时多模态任务。

NVIDIA推出Nemotron 3 Nano Omni，AI效率提升9倍

为什么重要

采用和生态系统

开放和可定制

展望未来

Read More