界面新闻记者 |
界面新闻编辑 | 文姝琪
3月10日,智元机器人发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action (ViLLA) 架构。该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助大量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助真机数据获得精细的动作执行能力,三者相结合,实现了可以利用人类视频学习,完成小样本快速泛化。
智元称,该模型可以降低具身智能门槛,并已经成功部署到智元多款机器人本体。
智元具身研究中心常务主任任广辉对界面新闻介绍,现有具身模型面临多个落地困境,包括泛化性差,到新场景时成功率大幅下降;扩展新任务时需要大量数据,落地成本高;不同本体的数据无法共用,数据成本高;模型无法持续进化等。
而现有的DP/ACT等具身小模型技能单一且无法快速学习新技能,GR-1/2等模型无法构建通用的场景感知、指令理解等能力,语义指令泛化受限,以及存在小样本泛化到新场景/新任务能力较弱等问题。
智元新推出的ViLLA架构大模型可以比较好地解决这些问题。基于该架构的GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
由于具有强大的泛化能力,GO-1能够在极少数据甚至零样本下泛化到新场景、新任务,使得后训练成本非常低。此外,GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。配智元一整套数据回流系统,GO-1可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。
在评测中,智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。
在成本方面,智元对界面新闻表示,目前机器人的研发成本中算力和数据是投入最大的两个方面,因此节约训练数据量对降低训练成本的效果显著。
“对机器人公司来说,如果不做大模型,是没有未来的。没有智能化、没有作业能力的机器人只是一个硬件,能做的事情非常有限。所以我们对于机器人大模型的投入是非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青对界面新闻强调,“就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”
他透露,DeepSeek等大模型的工作给智元带来了很大的启发。智元参考了通用能力预训练加垂类数据后训练的思路,但在机器人领域增加了Latent Planner和Action Expert的创新。他还提到,最近火热的Agent智能体在任务规划上同样有借鉴意义,长期来看智元可能会在机器人上融合Agent理念。
在多模态大模型方面,智元表示,已经与阶跃星辰合作,后续将围绕阶跃的多模态、推理和训练、工程化等底层模型能力进行深度的合作,将阶跃星辰多模态等能力赋能到机器人上面。
姚卯青表示,大模型在机器人行业的应用也会经历一个渐进式的过程。从一些较为容易入手、结构化场景较为明确的场景先进性落地探索,然后逐渐演化到一些半结构化和半开放的任务和场景,最终通过在各个行业、各个场景落地过程中收集到的数据,真正实现通用人工智能在物理世界的应用。
从时间上来说,他预判,未来1-2年,人形机器人能够在局部工业场景应用落地,机器人走进家庭还需要5年左右的时间。此外,机器人实现像人一样有通用能力的物理世界AGI(通用人工智能)还需要5-10年时间。
在机器人技术方向上,他认为其还处于比较早期的阶段,没有到收敛的程度。受制于数据的问题,机器人行业还无法完成完整的验证,这也是智元希望去主动开源的原因。
去年12月30日,智元机器人宣布开源汇集百万真实机器人数据的开源数据集AgiBot World(智元世界)。在GO-1发布的同时,智元也将技术博客、论文完全公开。一季度内,智元机器人还会面向核心用户开源GO-1模型。
姚卯青还向界面新闻等媒体称,在本体、硬件、算法都还没有收敛的情况下,大家急着“卷”价格战没有什么意义。对于最近受关注的9.9万元机器人话题,他认为人形机器人产业还是要看产品竞争力,如果在达不到给用户创造价值的时候打9.9万元,只会把整个行业变成一个很不健康的状态。
他透露,智元今年机器人出货量计划保持在数千台,营收数将保持数倍规模增长。今年1月,智元机器人刚刚宣布完成下线1000套通用具身机器人。
发表评论