三明治比围棋难一百倍，星动纪元登顶RoboChallenge给具身智能指了一条明路

阅读：16 更新时间：2026-05-26 17:32:00

做一份素食三明治的成功率是20%，擦一张桌子是60%。听上去像是幼儿园小朋友的期末成绩单，实际上这是全球顶级具身智能模型在RoboChallenge评测中的最优表现。星动纪元自研的Era0模型，在两个任务上不仅拿了最高分，还是Top8里唯一拿到非零成绩的模型。

围棋早就被AI碾压了，蛋白质折叠也被AI解了，让机器人在传送带上分拣包裹却还是一件让人捏把汗的事。莫拉维克悖论在上世纪八十年代就点破了这个矛盾：对人类来说，需要复杂推理的高阶认知任务，计算机反而容易实现；而那些看起来简单到不值一提的感知和运动技能，比如拿起一片生菜叶子而不把它捏烂，至今是机器人最大的噩梦。

RoboChallenge之所以让圈内人认真对待，不是因为又一个榜单出炉了，是它的评测设计踩中了具身智能行业最疼的那个痛点——纸面参数和真实能力之间的鸿沟。30个标准化任务、环境全程随机化、光照和物体摆放每次都不同、测试数据完全公开、杜绝现场调参作弊，这个设计本身就很像我们在做产品可靠性验证时的思路：不是测它在最优条件下能跑多好，是测它在最坏条件下还能不能跑。

做产品架构的人最怕一种情况——研发团队的报告写着"通过率95%"，客户现场的实际表现一塌糊涂。问题出在哪？出在测试条件和真实场景之间的差异没有被正视。实验室里的传送带是新的、光照是恒定的、包裹是标准的、干扰是不存在的，到了物流中心，设备老旧的传送带跑得一顿一顿的、窗外的太阳从早到晚在变、包裹的尺寸材质没有两个完全一样、工人在旁边走来走去。你的模型在95%的实验室通过率和10%的现场有效工作时间之间，隔着的不是5%的算法精度差距，是整个测试逻辑的偏差。RoboChallenge把测试条件拉向了真实场景这一侧，这在具身智能领域比一个新的算法架构更有建设性。

回过头看Era0的技术方案，数据层、模型层、工程层的系统联动设计，有一个架构师看了会很舒服的逻辑闭环。

数据层面，星动纪元建了一套量化数据质检标准操作流程，涵盖静止帧清理、异常数据筛查、元信息对齐和人工抽检。这个动作看起来不性感，但在产品工程里是决定生死的一环。工业设备产线上有一个铁律：传感器数据里的噪声不会因为你用了更强的算法就自动消失，它只会在推理环节以更难排查的方式冒出来。管道前面的污染，一定会在管道后面被放大。静止帧、异常动作、元信息错误这些看似琐碎的问题，如果不从源头清掉，在具身世界模型的训练阶段就会变成幽灵梯度——看起来loss在下降，实际上模型学到的东西已经被污染了。

系统思维的奠基人里特尔提出的"棘手问题"框架在这里有一个很贴切的应用。具身智能模型的训练数据治理本身就是一个棘手问题：数据规模越大，异常样本的边界就越模糊；质检标准越严格，可用的有效数据就变得越少；质检和数据量之间没有一个唯一最优解，只能在迭代中逼近一个相对合理的平衡点。星动纪元在数据治理上投入的量化和SOP化，说明他们不是在"处理数据"，是在"设计数据管道"——这是两个层次的事，前者是操作，后者是架构。

模型层面的两项技术选择也很有意思。视觉定位感知增强策略，在预训练阶段把目标位置的语义和几何信息同时标注进样本，相当于让模型从第一天起就把"这是什么东西"和"这东西在哪、怎么够到它"当成同一个问题来学。拆开来看，这是在解决具身智能最根本的一个难题：感知和行动之间的翻译层。传统架构里，视觉模块负责识别物体，运动规划模块负责计算路径，两个模块之间的接口就是信息损耗的加速器——视觉看到的丰富语义信息，传到运动模块就变成了一组坐标和力反馈参数。Era0把感知和定位在训练阶段就拉通，本质上是把损失最大化的那个接口给消解了。

短程时序记忆机制解决的则是另一类问题——非马尔可夫状态下的决策歧义。擦桌子这件事，如果只依赖当前单帧观测，模型看到的就是"桌面上有水渍"，至于这片水渍是自己刚擦出来的还是本来就有的、左边的区域已经擦过了还是没擦过，单纯从图像上分不出来。时序记忆让模型带着过去几帧的状态推演当前动作，相当于给决策加上了一个短期的上下文窗口。这个设计在产品工程里有一个很朴素的类比：产线上的自动检测设备也得带着前后几秒的状态做判断，单帧的异常信号大概率是噪声，连续多帧的异常才是真正的故障。人做决策的时候天然会记住刚才发生了什么，机器没有这个天然的上下文意识，就得在设计里补上。

工程层面的优化容易被当成"脏活累活"而一笔带过，但实际产品落地的时候，工程层往往是决定"能用还是不能用"的最后一道闸门。15赫兹频率训练提高效率、回放拟合验证暴露数据异常、动作插值减少抖动和误差累积、夹爪后处理提高抓取稳定性——这些操作拆开看都不复杂，加在一起的价值却是决定性的。做产品的人都懂一个规律：系统性能不是各组件最优值的简单相加，而是整个链条中最弱那一环的上限。数据治理好但推理不稳定，等于白做；模型架构好但夹爪控制精度不够，等于白做；视觉定位准但动作轨迹不平滑，等于白做。星动纪元在每一个可能出问题的节点上都做了针对性优化，这才是"系统级优化"的真实含义——不是每个环节都做到绝对的业内第一，是每个环节都不拖后腿。

这些年我们在开发工业设备产品的时候，反反复复踩过同一个坑：原型机在实验室里跑得流畅丝滑，到了客户现场第一天就出岔子。追查到最后，99%的情况不是核心技术有问题，是某个之前觉得不重要的环节在真实场景里变成了瓶颈。连接器在实验室的恒温下接触良好，到了车间四十度高温里松了；屏幕在实验室日光灯下看得清楚，到了有阳光直射的窗户边就花了；手指在办公室白板上写字的力度刚刚好，到了产线上戴着劳保手套就感应不到了。星动纪元从RoboChallenge到中国邮政的落地路径，能走得这么快，很大概率不是因为算法比别人强一个量级，是因为系统设计的完整性从头到尾没有漏掉任何一个看起来微小的环节。

中国邮政广州邮区中心是一个很好的试金石。快递分拣这个场景，表面的需求是"把包裹从这个传送带挪到那个传送带"，实际的问题是无穷无尽的不确定性。包裹的大小从信封到微波炉纸箱都有，材质从牛皮纸到气泡膜到软塑料袋都有，摆放角度每个都不一样，条形码有时候被胶带遮了一半、有时候被前一站的标签贴住了。这么大的变异范围，靠手写规则穷举是做不到的，靠单帧视觉推理的稳定率也上不去。Era0在物流场景里真正能打的地方，是三样能力的叠加：跨本体预训练让模型在快速适配具体分拣设备时不从头学起，视觉定位感知增强让机器人面对千奇百怪的包裹时抓得准，时序记忆让它在面对连续物料的决策不停滞。这三个能力加在一起，才构成一个能真正在物流中心连续工作的系统。

10%看起来不多。数据质量提升10%，感知精度提升10%，模型稳定性提升10%，工程损耗降低10%，十个环节各提升10%，系统整体效果翻两倍多。这个复合优化的逻辑在工业界是常识，在学术圈反而容易被忽略——因为学术论文里的消融实验通常只关注单变量变化的影响，很少有人去算全链路的叠加效应。星动纪元Q2要开启千台级批量交付，这个量级上的产品能力已经不是靠参数表上的一个数字撑起来的，是靠整条产品链上每一环的微优化堆积出来的。

从产品架构的角度看星动纪元的策略，还有一个被低估的决策是选择了通用基座加微调适配的技术路线。不做每个行业重新开发一套模型，而是在同一个基座上根据不同场景做轻量微调。这个思路和模块化产品设计里的平台策略是同一个逻辑——核心架构共用，场景差异化通过可配置模块来实现。制造业的装配、物流的分拣、酒店的服务，这三个场景对机器人能力的需求有大量交集：都需要物体识别、都需要抓取精度、都需要空间导航、都需要多步骤任务编排。用一套通用基座覆盖交集部分，再用微调适配各自场景的特殊需求，研发效率最高、数据利用率最高、迭代速度最快。

这个决策在工程上落地，有一个关键前提：基座必须在足够多样化的数据上训练过，泛化能力才能支撑多场景迁移。星动纪元积累的大规模跨本体预训练动作数据，覆盖的不仅是不同任务类型，还包括不同的机器人本体。能在同一个基座上兼容不同硬件平台，就要求模型内部对"什么是抓取、什么是移动、什么是放置"这些基础操作有一层抽象——这层抽象越干净，跨本体迁移的成本越低。在软件架构里，这是经典的分层抽象设计思想：底层对接硬件差异，上层保留操作的一致性接口。这件事做得好不好，直接决定了千台级交付时，不同批次、不同型号的硬件能不能共享同一套模型的迭代成果。

最后说一句坦诚的看法。具身智能行业现在处于一个很微妙的阶段，前几年大家都在争"能不能做"，一个demo视频就能融一轮钱；现在行业正在向"能不能用"过渡，demo不值钱了，客户现场的连续运行时长才是硬通货。在这个过渡期里，谁先把系统设计的完整性补上来——数据管道不漏、模型架构不偏、工程优化不省、场景适配不虚——谁就能先跨越从实验室到产业的鸿沟。RoboChallenge的冠军是这个方向的第一个信号，中国邮政的千台交付是这个方向的第一个验证，后面这条路上还有无数个看似微小但没有退路的环节等着。

10%一个环节，十个环节一叠加，差距就出来了。这件事朴素的让人想笑，难在没有人能跳过任何一个环节。

必一运动（中国官方网站）-必一专属运动平台