Dexbotic调研：模块化VLA开源工具箱 VLA

Dexbotic调研：模块化VLA开源工具箱

在复杂的物理世界中执行任务，机器人需要同时具备三种能力：敏锐的视觉感知、强大的逻辑认知、以及精细的运动控制。在过去，这三者往往被杂糅在一个极其厚重的黑盒网络中，不仅训练成本高昂，且任何单一模块的改进都需要对整个系统进行重构。

Dexbotic 是由 Dexmal 团队开源的 Vision-Language-Action (VLA) 模型工具箱，基于 PyTorch 构建，专为具身智能（Embodied AI）研究而设计。 Dexbotic 2.0 直击这一痛点，在业界率先实现了 V（Vision Encoder，视觉编码器）、L（LLM，大语言模型）、A（Action Expert，动作专家）的彻底模块化解耦。

github地址：https://github.com/dexmal/dexbotic

感谢Mbot具身智能实验室hq同学对本文的研究与供稿支持

主要解决的问题——数据标准化，环境解耦，算法前沿化

VLA 领域的研究分散在各个机构，各自使用不同的深度学习框架和模型架构。这种差异给用户比较不同策略带来了很大麻烦——他们需要配置多套实验环境和数据格式，开发流程非常繁琐。此外，难以确保每个被比较的策略都被充分优化，导致比较结果不公平。

比如：开发者如果想对比 $\pi_0$ 和 CogACT，可能需要配置两个完全不同的 Conda 环境，甚至要处理不同的 Python 版本冲突，Dexbotic 的核心逻辑是“统一抽象”。它把不同的算法逻辑封装进统一的接口，就像给不同的电器配上了万能转换插头。

另一个问题是，许多现有 VLA 模型是基于过时的视觉语言模型（VLM）构建的，导致大多数用户无法受益于最新先进的 VLM。Dexbotic 的优势在于它的模块化架构。当社区出现更强的 VLM（如 Qwen-VL、Llama-3-Vision 或最新的 SigLIP）时，用户可以相对轻松地把这些“新引擎”换到 VLA 的“底盘”上，而不需要重写动作生成模块。

主要应用场景

机器人操作与导航 核心目标是开发能够完成机器人操作的模型，涵盖三个能力：视觉理解（处理机器人摄像头的 RGB 图像）、语言理解（解析自然语言任务描述）、动作生成（通过基于流的扩散去噪生成精确的机器人动作）。
主流机器人硬件部署 针对 UR5、Franka、ALOHA 等主流机器人，Dexbotic 提供统一的训练数据格式和部署脚本。
VLA 算法研究与复现 内置多种主流 VLA 模型的环境配置，允许用户通过简单设置即可复现、微调和推理前沿 VLA 算法（如 π0、CogACT 等）。
RL 后训练强化 已支持 RLinf 作为 RL 后训练后端，结合 VLA + 强化学习推进研究与应用。

Dexbotic 特点

Dexbotic是一个开源的VLA模型工具箱，旨在简化具身智能领域中VLA模型的开发、优化和比较。通过提供统一的框架，Dexbotic将VLM和动作专家(AE)模块化，支持多种VLA策略的复现，并能在单一环境下进行实验配置。工具箱提供强大的预训练模型，有效提升VLA策略的性能，解决了多样化的模型架构和实验环境配置问题。

关键特点

统一数据格式： 无论你是用 ALOHA 还是 UR5 采集的数据，进到这里都转换成标准格式。

统一训练与部署： 它内置了从数据预处理、分布式预训练、微调（Fine-tuning）到实机部署（Deployment）的全流程脚本。

统一模块化框架:Dexbotic将VLA模型分为VLM和AE两部分，VLM负责处理视觉和文本数据，生成多模态标记;AE则基于这些标记生成动作序列。通过标准化结构，Dexbotic简化了不同策略的对比和优化过程。

强大预训练模型:Dexbotic引入自研的DexboticVLM，优于传统的Llama2等模型，显著提升了VLA策略的效果。该模型支持离散和连续动作生成，用户可直接使用预训练模型进行训练或微调。

实验驱动开发框架:Dexbotic通过Exp脚本实现灵活的实验配置。用户可以通过修改脚本中的参数来调整实验设置，快速开发新策略，极大提升了实验的灵活性和可扩展性。云端与本地训练支持:Dexbotic支持在阿里云等大规模云平台进行训练，同时也可在本地使用RTX4090等消费级GPU进行训练，满足不同规模的用户需求。

多平台机器人部署:Dexbotic支持多种主流机器人平台(如UR5、Franka等)，并采用统一的数据格式(Dexdata)，确保不同平台的数据兼容性。开源的部署脚本可根据用户需求定制。

预训练模型:Dexbotic提供离散和连续两种预训练模型，分别适用于不同VLA任务。

Dexbotic-Base是为离散VLA策略设计的预训练模型，支持离散标记生成机器人动作;

Dexbotic-CoqACT等连续模型通过引入动作专家(AE)预测连续动作。这些模型已基于多个真实和模拟数据集进行训练，适应多种机器人任务。实验层:Dexbotic的实验层采用模块化配置，允许用户快速开发和测试不同VLA策略。实验脚本的灵活性使得用户可以根据不同任务和策略，修改模型、数据和训练参数，轻松进行定制化实验。

Dexbotic 核心特性与架构概览

Dexbotic 是一个专为具身智能（Embodied AI）设计的开源视觉-语言-动作（VLA）模型工具箱。其核心设计理念在于通过模块化和标准化的流程，加速机器人策略的开发与部署。

一、核心功能特性 (Main Features)

统一模块化 VLA 框架：兼容主流开源大模型接口，深度集成了具身操控（Manipulation）与导航（Navigation）任务，并预留了全身控制（Whole-body Control）接口。
强力预训练基座模型：开源了基于 Pi0 和 CogACT 等架构的高性能预训练模型，在 SimplerEnv、CALVIN 等仿真环境及真实机器人任务中表现卓越。
以实验为中心的开发模式：采用“分层配置 + 工厂注册 + 入口调度”的设计。用户仅需修改 Exp 脚本即可快速调整模型或任务，遵循“开闭原则”，兼顾系统的灵活性与稳定性。
全场景训练支持：适配性极强，既支持阿里云、火山引擎等大规模云端训练，也兼容 RTX 4090 等消费级显卡的本地训练需求。
广泛的硬件兼容性：支持 UR5、Franka、ALOHA 等主流机器人平台，提供统一的数据格式与通用部署脚本。

二、系统架构组成 (Basic Components)

Dexbotic 代码库由以下三大核心板块构成：

板块	核心职责	详细说明
Data (数据)	数据加工与转换	支持多种机器人原始数据的处理，并统一转换为 Dexdataset 标准格式。
Model (模型)	算法核心实现	实现各类 VLA 方法，包含视觉编码器（Vision Encoders）与投影器（Projectors）等关键组件。
Exp (实验)	配置与调度管理	提供默认实验配置。通过继承 base_exp（定义优化器、模型、训练器等基础参数）生成特定策略脚本（如 ABC_exp）。

三、工作流闭环

该框架通过 训练流水线 (Training Pipeline) 实现模型的高效迭代，并通过 推理服务 (Inference Service) 完成从算法到实体的落地，构建了从数据处理到策略部署的完整技术闭环。

Dexbotic调研：模块化VLA开源工具箱 VLA ​

主要解决的问题——数据标准化，环境解耦，算法前沿化 ​

主要应用场景 ​

Dexbotic 特点 ​

Dexbotic 核心特性与架构概览 ​

一、 核心功能特性 (Main Features) ​

二、 系统架构组成 (Basic Components) ​

三、 工作流闭环 ​