专业实盘配资 X Square Robot开源三项技术，补齐具身AI的“大脑”缺口

当全球各地的机器人公司争相展示人形机器人做后空翻、跑障碍赛、登台表演时专业实盘配资，一家中国企业正在追求一个更难实现、也可能更具深远意义的目标：让机器人在人们真实生活和工作的复杂、不可预测的环境中自主运作。

X Square Robot创始人兼CEO王倩表示，机器人行业的硬件基础已基本到位。人形机器人的运动能力、灵巧手和力控系统均已快速迭代，剩下的核心挑战在于智能本身。

"硬件基本已经就绪，"王倩说，"真正的瓶颈在于'大脑'。"

为填补这一空白，X Square Robot在过去数周内相继开源了三项技术：

Wall-OSS-0.5，一个视觉-语言-动作（VLA）模型；

WALL-WM，一个用于理解物理事件的世界动作模型；

XRZero-G0，一个无需真实机器人即可完成数据采集与训练的框架，旨在大幅降低数据成本。

VLA模型已成为具身AI领域的主流技术路径，但一个根本性问题始终悬而未决：预训练本身能否让机器人习得有用技能，还是仅仅为后续任务微调做铺垫？

Wall-OSS-0.5正是为回答这一问题而设计的。X Square Robot没有评估微调后的模型，而是将预训练模型直接部署到实体机器人上，并在17项真实任务中进行测试。

该系统在物体分拣、套环堆叠，乃至柔性物体操控等任务中均展现出优异的零样本性能。

模型的核心是一套"梯度桥接"训练框架。Wall-OSS-0.5不再将感知与控制拆分为独立模块，而是将机器人动作转化为动作Token，在预训练过程中与语言和视觉表征共同学习。这使感知、语言理解与动作生成能够在统一模型内协同演化。

研究还发现，动作训练不仅提升了操控能力，还增强了视觉定位性能，这表明物理交互可以加深模型对世界的理解。

尽管Wall-OSS-0.5展现了VLA预训练的潜力，X Square Robot认为单纯的模仿学习还远远不够。

大多数VLA系统只学习动作轨迹，并不真正理解物理因果关系。它们能够重复训练时见过的行为，但面对陌生情境时往往束手无策。

为解决这一局限，该公司推出了WALL-WM世界动作模型，将学习重心从固定动作序列转向有意义的物理事件，如伸手、抓取、抬起和放置等。

与将感知、语言和控制分开处理的传统架构不同，WALL-WM将视觉观测、语言描述和动作围绕真实世界事件进行统一对齐。其目标是让机器人不仅能执行动作，还能预测结果、推理物理变化，并在计划出现偏差时灵活调整。

X Square Robot表示，这一方法代表着向"能从经验中学习、持续深化对物理世界理解"的机器人迈出了重要一步。

如果说世界模型是大脑，那么数据就是燃料。

采集高质量的机器人演示数据成本高昂、耗时费力，且难以规模化。X Square Robot给出的答案是XRZero-G0——一套无需真实机器人即可完成数据采集与训练的软硬件一体化框架。

该系统整合了可穿戴交互界面、多视角感知、自动质量检测和真实机器人验证，在提升数据质量的同时大幅降低采集成本。

通过对照实验，X Square Robot发现，将10条无机器人演示数据与1条真实机器人演示数据相结合，其效果可媲美完全由真实机器人数据构建的数据集。

该公司还公开发布了超过2000小时的多模态数据，涵盖约3000项任务，以支持具身AI领域的广泛研究。

三项技术的联合发布，共同应对了具身AI面临的若干核心挑战。

Wall-OSS-0.5探索预训练能否直接产生可迁移的机器人技能；WALL-WM研究机器人如何对物理世界进行建模与推理；XRZero-G0则攻克了支撑两者的数据瓶颈问题。

三者合一，构成了一套覆盖数据、世界模型与机器人基础模型的全栈框架。

在CEO王倩看来，行业的关键转折点或许比多数人预期的更快到来。摆在眼前的挑战，已不再是教会机器人如何移动，而是教会它们如何理解所处的世界。

"具身智能的'顿悟时刻'，"她说，"可能比人们想象的近得多。"

Q&A

Q1：Wall-OSS-0.5是什么模型？它的核心技术是什么？

A：Wall-OSS-0.5是X Square Robot开源的一个视觉-语言-动作（VLA）模型。其核心是"梯度桥接"训练框架，将机器人动作转化为动作Token，在预训练阶段与语言和视觉表征共同学习，使感知、语言理解和动作生成在同一模型内协同完成。该模型在17项真实任务中直接以预训练状态部署，在物体分拣、套环堆叠和柔性物体操控等任务上均表现出色。

Q2：WALL-WM世界动作模型与传统VLA系统有什么区别？

A：传统VLA系统主要学习固定的动作轨迹，缺乏对物理因果关系的理解，遇到陌生情境容易失效。WALL-WM将学习重心转向真实物理事件（如伸手、抓取、抬起、放置），并将视觉观测、语言描述和动作围绕这些事件统一对齐，使机器人能够预测动作结果、推理物理变化，并在计划失败时灵活应对，而不仅仅是重复训练时的行为。

Q3：XRZero-G0如何降低具身AI的数据采集成本？

A：XRZero-G0是一套无需真实机器人的数据采集与训练框架，整合了可穿戴界面、多视角感知和自动质检等模块。实验表明，将10条无机器人演示数据与1条真实机器人数据结合，效果可媲美纯真实机器人数据集专业实盘配资，大幅降低了采集门槛。此外，该公司还公开了超过2000小时、涵盖约3000项任务的多模态数据，进一步支持学术界和产业界的研究。

辉煌优配官网提示：文章来自网络，不代表本站观点。