- N +

CES 2025:Nvidia揭晓Cosmos 平台,掀起自动驾驶与机器人领域新浪潮

英伟达推出Cosmos人工智能平台,支持生成式物理AI系统开发

2025年消费电子展(CES)上,NVIDIA 推出了一项名为 Cosmos 的平台,该平台包括生成式世界基础模型,旨在推动物理人工智能系统(如自动驾驶汽车和机器人)的发展。Cosmos 平台由全新最先进的模型、视频编码器以及为 NVIDIA 数据中心 GPU 优化的加速数据处理管道组成。该平台包含多个生成式世界基础模型(WFMs),不仅仅是人工智能模型,还配备了先进的分词器、加速视频处理管道和安全防护措施,使其能够开发出物理AI系统,如自动驾驶汽车和机器人。此外,公司还将WFMs开源,供学术和研究使用。英伟达还在展会上推出了Llama Nemotron系列AI模型。


为了解决物理 AI 模型开发中昂贵的成本和庞大的数据需求问题,Cosmos 世界基础模型(WFMs)为开发者提供了生成大量基于物理、具有逼真效果的合成数据的能力,用于模型训练和评估。开发者还可以通过微调 Cosmos WFM 来定制模型。

“机器人领域的 ChatGPT 时刻即将到来。就像大型语言模型一样,世界基础模型是推动机器人和自动驾驶开发的核心,但并非所有开发者都拥有训练自己模型所需的专业知识和资源,”NVIDIA 创始人兼 CEO 黄仁勋表示。“我们创建了 Cosmos,目的是让物理 AI 更加普及,让每一位开发者都能接触到通用机器人技术。”

Cosmos WFM 的开放模型许可旨在加速机器人和自动驾驶社区的进步。开发者可以通过 NVIDIA API 目录预览初始模型,或从 NVIDIA NGC 目录或 Hugging Face 下载模型及其微调框架。

NVIDIA Cosmos 支持通过数据集(如自动驾驶旅程或仓库机器人记录)定制 WFMs,以满足特定应用需求。这些模型专为物理 AI 研发设计,能够根据不同输入生成基于物理的视频。

在最近的一次演讲中,黄仁勋强调了 Cosmos 模型的潜在用途,包括视频搜索与理解、合成数据生成、模型开发与评估,以及预测或多重宇宙模拟。

开发物理 AI 模型需要大量视频数据和计算时间。为了降低相关成本,Cosmos 提供了一个由 NVIDIA NeMo Curator 驱动的 AI 和 CUDA 加速数据处理管道,与传统的仅 CPU 管道相比,可显著提高处理效率。

“数据稀缺性和变异性是机器人环境中成功学习的关键挑战,”Agility 首席技术官 Pras Velagapudi 评论道。“Cosmos 的文本、图像和视频到世界的功能使我们能够为各种任务生成和增强逼真的场景,从而训练模型,无需大量昂贵的真实世界数据采集。”

除了技术进步外,NVIDIA 还与 Waabi 和 Uber 等公司建立合作关系。Uber CEO Dara Khosrowshahi 表示:“生成式 AI 将推动未来的移动出行,需要丰富的数据和强大的计算能力。通过与 NVIDIA 合作,我们相信可以大幅加速行业实现安全且可扩展的自动驾驶解决方案的时间表。”

Cosmos 的开发符合 NVIDIA 值得信赖的 AI 原则,注重隐私、安全、透明以及偏差的减少。这些原则旨在促进创新并维护用户信任。Cosmos 模型内置安全防护和水印技术,以增强安全性和真实性。

随着 Cosmos WFM 现已通过开放模型许可提供,NVIDIA 还推出了支持工具,例如 NeMo Curator 和 DGX Cloud,用于加速处理和部署。在企业领域,NVIDIA 还推出了 Llama Nemotron 大型语言模型和 Cosmos Nemotron 视觉语言模型,应用于多个行业领域。


NVIDIA 发布了多个新的“世界基础模型”,以“Cosmos”为主题,旨在通过文本、图像或视频输入来帮助模拟真实世界环境并预测结果。

核心理念:强化公司对机器人技术的支持
(NVIDIA 首席执行官黄仁勋对人工智能与机器人技术的交叉点一直表现出浓厚兴趣。他在2024年初的一次电话会议中提到:“如今出现了大量的机器人公司,从仓库机器人到手术机器人,再到类人机器人、农业机器人公司。”)

NVIDIA 的新 AI 模型提供三种规格:

  • Nano:优化用于实时、低延迟推理和边缘部署。

  • Super:设计为高性能的基础模型。

  • Ultra:注重最大质量和精度,适合定制模型的精炼。

NVIDIA 在 CES 上发布了这些模型,同时还发布了其他一系列产品新闻。这些模型是 NVIDIA 更广泛“Cosmos”平台的一部分。该平台包括这些模型(可在 Hugging Face 上获取)、“高级分词器、保护机制以及加速视频处理管道……以推动物理 AI 系统的发展,例如自动驾驶汽车(AV)和机器人。”


分词化 将复杂数据分解为可管理的单元,从而让模型能够更高效地处理数据。NVIDIA 声称(不出所料)Cosmos 拥有高效的分词技术。

NVIDIA 的分词器是开放的神经网络,可在 GitHub 和 Hugging Face 上找到。



NVIDIA 对此次发布的看法

NVIDIA 表示,客户可以利用 Cosmos 来“通过更小的目标数据集微调通用模型,从而创建针对特定应用(如自动驾驶或类人机器人)的专业模型;或者生成定制化的合成场景,例如带有紧急车辆的夜间场景或高保真的工业机器人环境。”

NVIDIA 表示,Cosmos 模型“在 9000 万亿个标记(包括 2000 万小时的机器人和驾驶数据)上进行训练”,能够为开发人员提供“一种简单的方法来生成大量照片级真实感、基于物理的合成数据,用于训练和评估现有模型。”这些模型还支持“基于物理的交互、物体持久性以及高质量的工业环境模拟生成,例如仓库或工厂。”

NVIDIA 首席执行官黄仁勋在一份声明中表示:“机器人领域的‘ChatGPT 时刻’即将到来。与大型语言模型类似,世界基础模型对推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自己的模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 更加普及,将通用机器人技术带到每位开发者的手中。”

英伟达Cosmos世界基础模型

在一篇新闻稿中,这家科技巨头详细介绍了其新的Cosmos平台。该平台专门用于托管WFMs,并包含多个组件,支持物理AI系统的训练和开发。物理AI系统指的是配备机械部件且能够在现实世界中交互和执行任务的机器。

英伟达指出,训练和开发物理AI系统(包括机器人和自动驾驶汽车)是一项昂贵的工作,因为这需要大量的真实世界数据和多样化的测试环境。而Cosmos平台的WFMs可以同时解决这两个问题。

该公司声称,这些世界AI模型能够生成大量基于物理的真实感合成数据,用于训练物理AI系统。这些数据还可以用于测试现有机器人,通过模拟多样化的测试环境来评估它们的性能。此外,Cosmos还允许开发者通过微调WFMs构建定制化模型。

英伟达的Cosmos世界AI模型还具备视频搜索和理解功能,开发者可以通过这些功能从庞大的数据库中找到特定的训练视频。这些模型还可以利用英伟达Omniverse平台生成基于物理的可控3D场景。此外,该平台还提供基于模拟的物理AI训练功能。

开源模型与广泛应用

这些AI模型采用开放模型许可(Open Model License),开发者可以通过英伟达的应用程序接口(API)目录或Hugging Face平台进行预览。英伟达透露,已有多家专注于机器人和物理AI的公司采用了Cosmos平台,其中包括1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi、XPENG以及Uber。


返回列表
上一篇:
下一篇:

发表评论中国互联网举报中心

快捷回复:

验证码

    评论列表 (已有1条评论,共25人参与)参与讨论
    网友昵称:雨中漫步
    雨中漫步 评论者 沙发
    2025-01-10 回复
    英伟达的Cosmos平台看起来很强大,特别是它能生成大量合成数据来训练物理AI模型,这解决了数据获取成本高的问题。开放模型许可也利于技术发展和普及。感觉未来自动驾驶和机器人技术会有很大进步,期待后续应用。