710公海寰宇(中国)-小米开源首代机器人VLA大模型消费级显卡可实时推理

2026 / 05 / 28

710公海寰宇(中国)-小米开源首代机器人VLA大模型消费级显卡可实时推理

【CNMO科技动静】2月12日，小米正式对于外发布并开源首款呆板人VLA年夜模子Xiaomi-Robotics-0。该模子拥有47亿参数，兼具视觉语言理解与高机能及时履行能力，可于消费级显卡上实实际时推理，一举破解传统VLA模子推理延迟的行业痛点，于具身智能范畴刷新多项SOTA纪录。

小米开源首代机器人VLA大模型消费级显卡可实时推理

据CNMO相识，现有VLA模子虽依附年夜范围参数拥有精彩的泛化能力，但重大的推理延迟让呆板人于真什物理世界中反映痴钝。小米这次推出的Xiaomi-Robotics-0从架构设计入手实现冲破，其采用MoT混淆架构打造“年夜脑 + 小脑”双焦点系统，以多模态VLM年夜模子为视觉语言年夜脑，可理解人类恍惚指令并捕获高清视觉中的空间瓜葛；同时嵌入多层DiT作为动作履行小脑，经由过程天生“动作块”联合流匹配技能，保障呆板人动作的高频与精准，实现物理矫捷性的年夜幅晋升。

小米开源首代机器人VLA大模型消费级显卡可实时推理

为统筹模子的知识理解与实操能力，小米设计了跨模态预练习及后练习的两阶段练习系统。跨模态预练习经由过程Action Proposal机制对于齐VLM特性与动作空间，再冻结VLM专注练习DiT，让模子于学会操作的同时保留物体检测、逻辑推理等能力；后练习则采用异步推理模式解决真机“动作断层”问题，搭配Clean Action Prefix及Λ-shape Attention Mask技能，既包管动作轨迹的持续流利，又让模子更存眷及时视觉反馈，晋升对于情况变化的相应能力。

今朝，小米已经正式开源该模子的技能主页、代码和模子权重，秉持开源理念鞭策具身智能技能的行业成长，同时小米呆板人团队也开启人材招募，约请行业人士配合摸索物理智能的界限。

版权所有，未经许可不患上转载

-710公海寰宇(中国)

推荐阅读

2025 / 06 / 20

案例解码，智能破局，数云原力AI for Process系列直播日即将来袭！
2025 / 06 / 18

710公海寰宇(中国)数码×思科：AI实验室开幕，共启无限可能
2025 / 06 / 17

710公海寰宇(中国)数码郭为出席2025 INNOTECH大湾区科创投资论坛，再谈AI时代企业管理

版权所有2016-2025 710公海寰宇(中国)数码集团股份有限公司，保留一切权利。