
当全球各地的机器人公司争相展示人形机器人做后空翻、跑障碍赛、登台表演时专业实盘配资,一家中国企业正在追求一个更难实现、也可能更具深远意义的目标:让机器人在人们真实生活和工作的复杂、不可预测的环境中自主运作。
X Square Robot创始人兼CEO王倩表示,机器人行业的硬件基础已基本到位。人形机器人的运动能力、灵巧手和力控系统均已快速迭代,剩下的核心挑战在于智能本身。
"硬件基本已经就绪,"王倩说,"真正的瓶颈在于'大脑'。"
为填补这一空白,X Square Robot在过去数周内相继开源了三项技术:
Wall-OSS-0.5,一个视觉-语言-动作(VLA)模型;
WALL-WM,一个用于理解物理事件的世界动作模型;
XRZero-G0,一个无需真实机器人即可完成数据采集与训练的框架,旨在大幅降低数据成本。
VLA模型已成为具身AI领域的主流技术路径,但一个根本性问题始终悬而未决:预训练本身能否让机器人习得有用技能,还是仅仅为后续任务微调做铺垫?
Wall-OSS-0.5正是为回答这一问题而设计的。X Square Robot没有评估微调后的模型,而是将预训练模型直接部署到实体机器人上,并在17项真实任务中进行测试。
该系统在物体分拣、套环堆叠,乃至柔性物体操控等任务中均展现出优异的零样本性能。
模型的核心是一套"梯度桥接"训练框架。Wall-OSS-0.5不再将感知与控制拆分为独立模块,而是将机器人动作转化为动作Token,在预训练过程中与语言和视觉表征共同学习。这使感知、语言理解与动作生成能够在统一模型内协同演化。
研究还发现,动作训练不仅提升了操控能力,还增强了视觉定位性能,这表明物理交互可以加深模型对世界的理解。
尽管Wall-OSS-0.5展现了VLA预训练的潜力,X Square Robot认为单纯的模仿学习还远远不够。
大多数VLA系统只学习动作轨迹,并不真正理解物理因果关系。它们能够重复训练时见过的行为,但面对陌生情境时往往束手无策。
为解决这一局限,该公司推出了WALL-WM世界动作模型,将学习重心从固定动作序列转向有意义的物理事件,如伸手、抓取、抬起和放置等。
与将感知、语言和控制分开处理的传统架构不同,WALL-WM将视觉观测、语言描述和动作围绕真实世界事件进行统一对齐。其目标是让机器人不仅能执行动作,还能预测结果、推理物理变化,并在计划出现偏差时灵活调整。
X Square Robot表示,这一方法代表着向"能从经验中学习、持续深化对物理世界理解"的机器人迈出了重要一步。
如果说世界模型是大脑,那么数据就是燃料。
采集高质量的机器人演示数据成本高昂、耗时费力,且难以规模化。X Square Robot给出的答案是XRZero-G0——一套无需真实机器人即可完成数据采集与训练的软硬件一体化框架。
该系统整合了可穿戴交互界面、多视角感知、自动质量检测和真实机器人验证,在提升数据质量的同时大幅降低采集成本。
通过对照实验,X Square Robot发现,将10条无机器人演示数据与1条真实机器人演示数据相结合,其效果可媲美完全由真实机器人数据构建的数据集。
该公司还公开发布了超过2000小时的多模态数据,涵盖约3000项任务,以支持具身AI领域的广泛研究。
三项技术的联合发布,共同应对了具身AI面临的若干核心挑战。
Wall-OSS-0.5探索预训练能否直接产生可迁移的机器人技能;WALL-WM研究机器人如何对物理世界进行建模与推理;XRZero-G0则攻克了支撑两者的数据瓶颈问题。
三者合一,构成了一套覆盖数据、世界模型与机器人基础模型的全栈框架。
在CEO王倩看来,行业的关键转折点或许比多数人预期的更快到来。摆在眼前的挑战,已不再是教会机器人如何移动,而是教会它们如何理解所处的世界。
"具身智能的'顿悟时刻',"她说,"可能比人们想象的近得多。"
Q&A
Q1:Wall-OSS-0.5是什么模型?它的核心技术是什么?
A:Wall-OSS-0.5是X Square Robot开源的一个视觉-语言-动作(VLA)模型。其核心是"梯度桥接"训练框架,将机器人动作转化为动作Token,在预训练阶段与语言和视觉表征共同学习,使感知、语言理解和动作生成在同一模型内协同完成。该模型在17项真实任务中直接以预训练状态部署,在物体分拣、套环堆叠和柔性物体操控等任务上均表现出色。
Q2:WALL-WM世界动作模型与传统VLA系统有什么区别?
A:传统VLA系统主要学习固定的动作轨迹,缺乏对物理因果关系的理解,遇到陌生情境容易失效。WALL-WM将学习重心转向真实物理事件(如伸手、抓取、抬起、放置),并将视觉观测、语言描述和动作围绕这些事件统一对齐,使机器人能够预测动作结果、推理物理变化,并在计划失败时灵活应对,而不仅仅是重复训练时的行为。
Q3:XRZero-G0如何降低具身AI的数据采集成本?
A:XRZero-G0是一套无需真实机器人的数据采集与训练框架,整合了可穿戴界面、多视角感知和自动质检等模块。实验表明,将10条无机器人演示数据与1条真实机器人数据结合,效果可媲美纯真实机器人数据集专业实盘配资,大幅降低了采集门槛。此外,该公司还公开了超过2000小时、涵盖约3000项任务的多模态数据,进一步支持学术界和产业界的研究。
辉煌优配官网提示:文章来自网络,不代表本站观点。