英伟达于4月28日正式发布新一代多模态AI模型Nemotron 3 Nano Omni,这是该公司首次在单个模型中实现视觉、音频和语言的统一处理。该模型能够同时理解图像、声音和文本等多模态信息,使AI智能体的运行效率相比前代提升高达9倍。Nemotron 3 Nano Omni面向边缘计算和端侧推理场景优化,能够在资源受限的设备上流畅运行,适用于小语种翻译、智能座舱语音交互、工业视觉检测等多样化应用场景。从4月28日起,该模型已在Hugging Face、GitHub等多个开发者平台上开放下载。

英伟达创始人兼CEO黄仁勋表示,多模态能力是AI智能体走向通用化的关键一步,Nemotron 3系列的发布将进一步降低开发者构建智能应用的门槛。与此同时,工信部近日宣布将启动“模数共振”行动,推动人工智能高水平赋能新型工业化,并开展“人工智能+软件”专项行动。在政策与技术的双重推动下,AI大模型的产业应用正加速落地。英伟达还将继续完善其CUDA生态和推理优化工具链,为开发者提供从模型训练到部署的全流程支持。业内预计,多模态AI将成为2026年人工智能产业的核心竞争赛道。


















