Skip to content

技术文档 具身智能Pipeline

2026年最前沿主流方案与NVIDIA技术栈对应

一、为什么是现在,为什么是这套Pipeline

2026年的具身智能(Embodied AI / Physical AI)领域处于一个关键节点:模型架构正在收敛,数据成为核心瓶颈,工具链趋于成熟。理解三个事实是开始这项工作的前提。

事实一:VLA已成为机器人基础模型的主流范式

从Google RT-2开始,经过OpenVLA、Octo、Physical Intelligence的π0/π0.5/π0.6、NVIDIA GR00T N1.5/N1.6/N1.7、Hugging Face SmolVLA,到Figure Helix和1X Redwood,主流路线高度收敛——基于预训练VLM(Vision-Language Model)作为backbone,加上专门的action head输出机器人动作。

事实二:Action Head的实现方式正在收敛到Flow Matching

早期RT-2/OpenVLA使用离散token autoregressive输出,存在动作不平滑、推理慢的问题。Diffusion Policy(Chi et al., 2023)解决了多模态动作分布问题,但推理需要多步去噪。Flow Matching(π0系列首先大规模采用)成为新一代主流——训练更稳定、推理更快、保留多模态能力。2025-2026年的新工作(GeCO、FRMD、CoLA-Flow、Streaming Flow Policy)都是在Flow Matching基础上的优化。

事实三:数据制约成为主要瓶颈,催生了"数据金字塔"范式

底层是互联网视频和第一视角人类视频(Ego4D、EgoExo4D)提供视觉与语言先验;中层是仿真生成的合成数据扩展长尾;顶层是真实遥操作数据作为微调与专项化的尖端。NVIDIA Physical AI Data Factory就是这个范式的工程化实现。

二、2026年具身智能Pipeline的8层结构

把整个具身智能开发过程拆开看,从数据生产到模型部署,标准pipeline包含8个层级。

Layer 0 - 资产层:3D资产与机器人模型

**这一层在解决什么问题:**机器人需要在一个可仿真的虚拟世界中训练,这个世界由3D场景资产(桌子、物体、墙壁)和机器人本体模型(URDF/USD描述的运动学链)组成。

**2026年的主流做法:**使用OpenUSD(Universal Scene Description,源自Pixar,NVIDIA力推的开放标准)作为统一的3D资产格式。资产分两类:场景资产(房间、家具、物体)和机器人资产(机械臂、灵巧手、人形整体)。NVIDIA SimReady是OpenUSD的扩展标准,确保资产带有正确的物理属性(质量、摩擦、碰撞体)、语义标签和关节定义,能直接被仿真器使用。

**核心难点:**资产的物理属性配置(碰撞体准确性、关节驱动参数、摩擦系数)直接影响sim2real。错误配置会让训练出的策略在真实世界完全失败。

对应NVIDIA技术栈:

• OpenUSD:统一资产格式

• SimReady资产规范:物理就绪的资产标准

• NVIDIA Physical AI Dataset(Hugging Face上开源,含1000+ SimReady OpenUSD资产):可直接使用的资产库

Layer 1 - 仿真层:物理仿真与环境

**这一层在解决什么问题:**把资产组合成一个有物理规律、可交互、可重置的环境,机器人可以在其中执行动作并观察结果。同时通过域随机化(Domain Randomization)让仿真覆盖现实的变化范围。

**2026年的主流做法:**使用GPU并行仿真器同时跑数千个环境实例。物理引擎选择:刚体接触为主用PhysX,需要软体/流体/可微分用Newton或MuJoCo Playground (MJX)。域随机化覆盖光照、纹理、物体位置、相机视角、物理参数。2025年9月开源的Newton物理引擎(NVIDIA+DeepMind+Disney联合)是新一代标准,统一了刚体、软体、流体,且支持可微分。

**核心难点:**仿真真实度(Sim2Real Gap)。物理仿真器对接触动力学(特别是软体、摩擦、滑动)的建模与真实世界存在差距,是当前研究热点。

对应NVIDIA技术栈:

• Isaac Sim:基于Omniverse的高保真仿真平台,主要用作可视化和资产配置

• Isaac Lab:基于Isaac Sim的GPU并行RL/IL训练框架,提供16+机器人模型和30+预配置环境

• PhysX 5.0:默认刚体物理引擎

• Newton Physics Engine:新一代统一引擎(本周作为了解,主用PhysX)

Layer 2 - 数据生成层:从轨迹到训练数据

**这一层在解决什么问题:**在仿真环境中产生大量(observation, action)对作为训练数据。来源有三种:scripted/motion planning生成(最快但缺乏多样性)、强化学习探索(多样但难收敛)、人类遥操作记录(最高质量但最贵)。然后用生成模型对数据做视觉增强,扩展数据多样性。

2026年的主流做法:"种子轨迹+视觉增强"范式。先用motion planner(如curobo、cuRobo的GPU加速版)或scripted policy生成基础轨迹,再用世界模型对这些轨迹做视觉风格迁移和域随机化。NVIDIA Cosmos家族(Predict、Transfer、Reason三个子模型,训练于2000万小时视频)是当前最强的物理AI世界模型,已被1X、Agility、Figure、Skild、XPENG等采用。Cosmos Transfer负责把仿真渲染转成真实风格,Cosmos Predict负责从单帧或文本生成未来视频。GR00T-Dreams的工作流就是这个范式的典范——单张图像幻想任务视频,再用逆动力学反推动作。

**核心难点:**合成数据的"真实性"与"多样性"权衡。过度域随机化会让数据分布漂移过远,反而损害学习;不足则不能覆盖现实长尾。

对应NVIDIA技术栈:

• cuRobo:GPU加速的运动规划库,几毫秒级别生成机器人轨迹

• Cosmos Predict:视频生成世界模型,文本/图像→视频

• Cosmos Transfer:视频风格迁移,sim→真实风格

• Cosmos Reason:基于视频的推理模型,可用于轨迹质量判断

• Isaac Lab的域随机化模块:经典的物理参数与视觉参数随机化

Layer 3 - 数据处理层:格式化、策划与质量控制

**这一层在解决什么问题:**原始轨迹数据需要转成标准化格式才能被训练框架消费,并且需要做质量过滤、统计分析、版本管理。脏数据/失败轨迹/异常轨迹会直接污染模型训练。

**2026年的主流做法:**LeRobot Dataset v3(Hugging Face维护)已成为机器人版的"Parquet/Iceberg"——分片多episode文件、流式加载、与所有主流VLA模型(ACT、Diffusion Policy、π0、π0.5、GR00T N1.5、SmolVLA)原生集成。数据质量控制开始使用VLM agent(如基于Qwen3-VL的Robometer)作为自动审判官,判断轨迹是否成功、动作是否合理。

**核心难点:**高质量数据的定义本身没有统一标准。成功率、平滑度、多样性、覆盖度各有tradeoff。AgiBot World 2026把"错误恢复轨迹"也列为一等公民数据,是新趋势。

对应NVIDIA技术栈:

• LeRobot Dataset格式(事实标准,NVIDIA GR00T深度集成)

• Hugging Face Hub:数据集托管和分发

• NVIDIA NeMo Curator:大规模视频数据策划工具(本周不会用到,但需了解架构)

Layer 4 - 模型架构层:VLA模型

**这一层在解决什么问题:**选择/设计一个能将视觉观察+语言指令映射到机器人动作的神经网络架构。

**2026年的主流做法:**Vision-Language-Action (VLA)架构是事实标准,由三部分组成:

• Vision Encoder:通常是预训练的ViT或SigLIP,处理多视角RGB(有时加深度)

• Language-Vision Backbone:预训练的VLM(PaLM-E、Gemma、Qwen-VL等),提供语义理解和场景推理

• Action Head:把VLM的隐藏表示转成机器人动作。Flow Matching是当前主流(π0、SmolVLA、GR00T N1.5/N1.6),少量仍用Diffusion(Octo)或Discrete Token(RT-2、OpenVLA)。

**Flow Matching的本质:**把动作生成建模为从随机噪声到目标动作分布的连续流(vector field),训练一个网络预测这个流的"速度场"。相比Diffusion的多步去噪,Flow Matching用ODE求解,理论上可以单步完成,实际通常5-10步。

**核心难点:**跨具身泛化(不同机器人本体)、长程任务(动作链式累积误差)、多模态动作分布(同一任务的多种合理执行方式)。

对应NVIDIA技术栈:

• Isaac GR00T N1.5(及更新版本N1.6/N1.7):NVIDIA开源的人形机器人VLA基础模型,Hugging Face可下载。本周作为我们微调的主要backbone。

• 集成支持:GR00T原生支持LeRobot格式数据、Isaac Lab评测

Layer 5 - 训练层:预训练、微调与跨具身

**这一层在解决什么问题:**用产生的数据训练或微调VLA模型。完整训练成本极高(百万级GPU小时),实际项目通常做LoRA微调或Adapter微调。

2026年的主流做法:

• 预训练:基础模型实验室(PI、NVIDIA、Google)做的事,用百万小时级数据训练通用VLA

• Post-training/微调:应用方做的事,通常是LoRA(Low-Rank Adaptation)只训练少量参数,几小时到几天完成

• 跨具身训练策略:BeingBeyond 2026论文确认——naive地混合多本体数据会导致负迁移,需要用EEF-relative action representation等统一表示来缓解

• 训练监控:wandb或类似工具记录loss曲线、动作分布、评测指标

**核心难点:**超参数敏感(学习率、batch size、LoRA rank);过拟合风险高(数据量相对小);评测loop滞后(仿真评测每个epoch都做开销大)。

对应NVIDIA技术栈:

• GR00T微调框架(GR00T官方仓库提供训练脚本)

• PEFT库(Parameter-Efficient Fine-Tuning,LoRA实现)

• OSMO:云原生编排,多节点训练用(本周单机够用,了解即可)

Layer 6 - 评测层:Benchmark与性能分析

**这一层在解决什么问题:**训练出的模型必须在标准化测试集上量化性能。仅看训练loss不可靠,需要在仿真环境中跑实际任务,测量成功率、完成时间、动作平滑度等指标。

**2026年的主流做法:**Isaac Lab-Arena(NVIDIA与Lightwheel合作,2025年发布)是新一代评测标准,集成Libero、RoboCasa等行业基准,已集成到LeRobot。评测设计区分In-Distribution(与训练数据同分布)和Out-of-Distribution(光照变化、物体位置变化、新物体)两类,分别衡量拟合质量和泛化能力。

**核心难点:**仿真评测与真机评测的相关性(sim2real evaluation gap)。仿真高分不等于真机高分,但仿真评测是目前唯一可大规模做的方式。

对应NVIDIA技术栈:

• Isaac Lab-Arena:标准化评测框架

• LeRobot eval:与Isaac Lab-Arena互通的评测接口

• 基准集成:Libero、RoboCasa、ManiSkill等

Layer 7 - 部署层:推理优化与边缘运行

**这一层在解决什么问题:**训练好的模型最终要部署到机器人上实时运行。VLA模型通常2-7B参数,需要推理优化才能在边缘设备(如机器人本体的Jetson模块)以足够频率(30-100Hz)运行。

**2026年的主流做法:**模型量化(INT8/FP8)、推理引擎优化(TensorRT-LLM)、动作chunk预测减少调用频率(一次推理输出未来N步动作)。NVIDIA Jetson Thor(2025年发布,搭载Blackwell架构)是当前人形机器人的标准推理硬件。

**核心难点:**精度-延迟-功耗的三角tradeoff。VLA模型推理延迟需要小于100ms才能流畅控制。

对应NVIDIA技术栈:

• TensorRT-LLM:推理优化框架

• Jetson Thor:边缘推理硬件(本周做架构分析,不实际部署)

三、Pipeline 8层与NVIDIA技术栈对应总览

层级名称核心问题NVIDIA技术栈
L0资产层3D资产与机器人模型OpenUSD, SimReady, Physical AI Dataset
L1仿真层物理仿真与环境构建Isaac Sim, Isaac Lab, PhysX, Newton
L2数据生成层产生训练轨迹并视觉增强cuRobo, Cosmos Predict/Transfer/Reason
L3数据处理层格式化、策划、质量控制LeRobot Dataset v3, Hugging Face Hub, NeMo Curator
L4模型架构层VLA架构选择Isaac GR00T N1.5/N1.6/N1.7
L5训练层微调与跨具身策略GR00T微调框架, PEFT, OSMO
L6评测层Benchmark与性能分析Isaac Lab-Arena, LeRobot eval
L7部署层推理优化与边缘运行TensorRT-LLM, Jetson Thor

四、Pipeline如何串联起来:从0到1的搭建逻辑

理解每一层是基础,但更重要的是理解层与层之间的接口和数据流向。下面是从0到1搭建一个完整pipeline的逻辑链条。

数据流向(自下而上)

OpenUSD资产 → Isaac Lab环境实例 → cuRobo生成种子轨迹 → Cosmos视觉增强 → LeRobot格式数据集 → 加载到GR00T训练循环 → 微调后checkpoint → Isaac Lab-Arena评测 → TensorRT优化 → Jetson部署

控制流向(自上而下)

任务定义(语言指令、成功判据)→ 决定本体选择 → 决定环境设计 → 决定数据生成策略 → 决定数据量与质量要求 → 决定模型与训练超参 → 决定评测维度 → 决定部署目标

关键接口约定

**• 资产→仿真接口:**OpenUSD格式,含物理属性、关节定义、语义标签

**• 仿真→数据接口:**标准化的observation字典(多视角RGB、本体感觉、语言指令)+ action向量

**• 数据→训练接口:**LeRobot Dataset v3的episode结构,分片parquet存储

**• 训练→评测接口:**Hugging Face checkpoint格式,含模型权重+配置文件

**• 评测→部署接口:**ONNX或TensorRT engine,附量化校准数据

搭建顺序建议

第一原则:从最简单的端到端跑通开始,再迭代每一层的深度。

具体顺序:

**• 步骤1:**选定本体+任务,把空环境(不含数据生成、不含训练)在Isaac Lab里跑通,确认env.reset()和env.step()正常工作。

**• 步骤2:**用cuRobo或scripted policy在该环境里生成第一条成功轨迹,验证轨迹格式。

**• 步骤3:**把这条轨迹转LeRobot格式,加载到GR00T训练脚本里,跑1个epoch的微调(不求效果,求pipeline跑通)。

**• 步骤4:**把微调checkpoint加载到评测脚本里,跑10个测试场景,验证评测pipeline跑通。

**• 步骤5:**至此完成最小端到端,开始scale up——增加本体、增加轨迹数、加入Cosmos增强、加入域随机化、扩展评测集。

这种『端到端先跑通再scale』的顺序比『每一层做到极致再下一层』更不容易卡死,且能更早暴露层与层之间的接口问题。

五、本周结束需要掌握的Know-How清单

完成本周工作后,团队每个成员应该能独立讲清楚以下内容。这是"读过paper"和"亲手做过"之间的关键差距。

资产与仿真

• OpenUSD是什么,为什么是Physical AI的统一资产标准

• Isaac Sim与Isaac Lab的区别与各自定位

• URDF转USD的具体流程和常见坑

• 仿真物理引擎的选择逻辑(PhysX vs Newton vs MuJoCo)

• 域随机化的具体配置维度(视觉、物理、初始化)

数据生成与处理

• cuRobo motion planning的基本用法

• 合成数据生成的"种子轨迹+视觉增强"范式

• Cosmos三个子模型(Predict、Transfer、Reason)的功能区分与使用场景

• LeRobot Dataset v3格式的具体结构和分片策略

• 数据质量过滤的VLM-as-Judge方法

模型与训练

• VLA模型的三层架构(Vision Encoder + VLM Backbone + Action Head)

• Flow Matching与Diffusion Policy的本质区别

• GR00T N1.5的架构细节和输入输出格式

• LoRA微调的核心参数(rank、alpha、target modules)

• 跨具身负迁移现象与EEF-relative缓解方案

评测与部署

• Isaac Lab-Arena评测的基本流程

• ID/OOD测试集设计原则

• 成功率、平滑度等指标的实际计算方式

• VLA推理优化的方向(量化、TensorRT、动作chunk)

• Jetson Thor的硬件参数和VLA部署考虑

跨层认知

• 8层pipeline的数据流向和控制流向

• 各层之间的接口约定与数据格式

• 最小端到端先跑通再scale up的工程方法论

• 各层的核心难点与2026年的研究热点