英伟达推出Nemotron3 Nano Omni模型:可统一处理视频、音频、图像与文本,提升多模态推理效率

快链头条 2026-04-29 00:23:57
阅读 2,946
二维码
微信扫一扫,分享此文章

快链头条 消息,4 月 29 日,英伟达正式推出 Nemotron 3 Nano Omni,这是 Nemotron 3 系列的新成员,将统一的多模态推理整合至单一高效开源模型之中。英伟达表示,agentic 系统通常需要在屏幕、文档、音频、视频与文本之间进行单一感知到行动循环的推理,但仍依赖碎片化的模型链——视觉、音频、文本各自分立的技术栈。这增加了推理跳数与编排复杂度,推高了推理成本,同时削弱了跨模态上下文的一致性。Nemotron 3 Nano Omni 旨在替代这一碎片化的视觉-语言-音频技术栈,作为 agentic 系统中的多模态感知与上下文子代理(sub-agent)发挥作用。

在准确率层面,Nemotron 3 Nano Omni 在文档智能榜单上取得领先成绩,同时在视频与音频理解榜单上同样领先。在评估视频理解模型的开放行业基准 MediaPerf 上,Nemotron 3 Nano Omni 在每项任务中均实现最高吞吐量,并在视频级标注任务中取得最低推理成本。

性能层面,在固定的每用户交互阈值下,对于视频推理,Nemotron 3 Nano Omni 维持更高的总系统吞吐量,相较其他开源 omni 模型可实现高达约 9.2 倍的有效系统容量;对于多文档推理,可实现高达约 7.4 倍的有效系统容量。英伟达表示,该模型旨在替代传统多模型拼接架构,降低推理复杂度与成本,推动多模态 AI 在金融、医疗、科研及媒体等场景的应用。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。