
一台机器人在货架前完成抓取,和它在一家真实药店里完成一笔线上订单,是两件难度完全不同的事。前者更像一道被控制过的动作题,后者会牵出商品摆放、订单流程、设备稳定性和现场管理。机器人真正进入真实世界后,困难往往来自同时出现的变量,而非单个动作突然失效。
NoeMatrix曾在内部搭过一间模拟药店,让机器人练习抓取商品。实验室里的动作更容易分解成可控步骤:识别货品、移动机械臂、抓取、放置。按照最初预期,内部测试已经做了不少,进入真实药店应该不会拖太久。
但结果并没有那么快。第一家零售药店的部署花了4个月,真实药店第一天就暴露出50多个问题。秦成在BEYOND Expo 2026物理AI峰会“感知融合:认知智能与物理执行的协同进化”炉边对话中提到,问题一部分来自硬件,另一部分来自药店本身的SOP(标准作业流程)和管理方式。
这类问题一多,药店就不再只是一个抓取测试。机器人要处理来自线上平台的O2O订单:找到商品、抓取商品、完成履约,并让药店运营结果持续改善。订单进来以后,货架、商品、流程和现场人员都会参与进来,机器人面对的是一串连续任务。
换到真实任务里,机器人要处理的不只是动作,还包括动作发生时的环境。秦成用拿起一瓶水解释Physical AI(物理AI)和digital AI(数字AI)的差别。屏幕里的AI更多处理语言、文本、代码或图片,用户给出意图,模型生成结果。机器人进入物理世界后,还要面对摩擦、重力、空间位置和力的变化。拿起一瓶水,对人而言几乎不需要停顿,换到机器人身上,会变成感知、规划、运动控制和力控的组合题。
这时,仅有一个更聪明的“大脑”并不够。VLA、world model(世界模型)这样的模型,需要和硬件、机械臂、运动控制一起工作。模型要判断水瓶在哪里、下一步怎样抓,硬件也要把动作稳定执行出来。中间任何环节跟不上,机器人在真实环境里连续工作都会变难。
而要让机器人适应这些变量,数据就会变成绕不开的问题。秦成把数据比作Physical AI的oil(石油)。自动驾驶之所以能够积累训练数据,是因为道路上已经有大量车辆长期运行。相比之下,真正进入物理世界并持续工作的机器人还不多,行业能用来训练模型的physical data(物理数据)也不够。
自然,这些数据很难只靠模拟环境补出来。团队过去三个月在中国6个城市组织约1700人采集真实context(上下文)数据。秦成强调,Physical AI需要的不只是简单操作记录,还要有real task(真实任务)、real scenario(真实场景)和real people(真实人群)。人在家里、食堂、餐厅里怎样移动、拿取、出错、修正,都会影响机器人未来怎样学习。

不过,真实数据不只记录顺利完成的动作,失败和修正同样重要。一个瓶子掉到地上,人会重新判断角度和力度,再把它拿回桌面。秦成提到,人并不只从书本、图片或视频里学习,也会从失误里调整动作。类似的mistake data(错误数据)进入训练体系后,机器人才更容易处理真实世界里的不标准状态。
到了真实部署阶段,系统协同的重要性会变得更明显。如今,那家药店里的机器人已经可以接近10小时无故障运行。这个进展背后,硬件、软件、部署工程师、算法架构师都需要一起处理问题,数据也要跟着真实运营不断回流。Physical AI更像一套系统工程,很难靠某个模型或某个硬件单独推进。
谈到未来三到五年时,秦成的判断反而比较克制。他认为,认知智能和Physical AI还处在early integration phase(早期融合阶段),行业每个月甚至每周都在变化。比起提前描摹几年后的形态,他更强调一步一步进入真实物理世界,把药店这样的具体场景跑通。
真正进入物理世界之后,机器人会不断遇到计划外的情况。它需要从这些情况里积累数据,也需要让模型、硬件和工程部署一起调整。Physical AI接下来的进展,或许就会藏在这些不太整齐的日常任务里。