数据飞轮神话:小时数并非智能护城河

越来越多机器人初创公司和投资者陷入一种危险叙事——只要堆砌更多遥操作小时与真实部署时间,就能自动形成有效的数据飞轮。然而,这种对“累计运行小时数”的迷信,可能忽视了数据质量与分布多样性的核心问题。

从棒球史到机器人学:重新定义关键指标

Garg 借鉴《点球成金》中的经典案例,指出2002年奥克兰运动家队以低预算赢得103场胜利的关键,在于用“上垒率”替代传统球探依赖的“打击率”。类似地,Physical AI 领域亟需摆脱表面指标,转向能反映真实智能潜力的评估维度。

三类数据的现实困境

Physical AI 数据可分为三类:观察数据(如视频,成本低但缺乏动作指令)、干预数据(状态-动作轨迹,直接但昂贵)、部署数据(真实场景遥测,常因场景结构化导致信息密度低下)。尤其在仓储、工厂等窄场景中,部署数据极易饱和,难以生成有效增量。

长尾样本才是高价值资产

真正推动模型泛化能力提升的,往往是失败、异常与边界条件等长尾样本。这类数据获取困难、处理复杂,却具备极高的信息密度。当前主流路径若仅依赖稳定场景的重复数据,将难以突破定制化陷阱。

新评估标准:每美元的新颖样本数

Garg 提出应转变评估口径,不再以总小时数衡量数据资产,而应关注“每美元买到的新颖样本数量”。资本配置应优先支持高多样性观察数据、跨任务干预数据,以及经过筛选的异常部署数据。

估值逻辑的深层重构

拥有更多设备、更长运行时间,并不等于构建了可持续的模型壁垒。真正难以复制的能力在于识别高价值长尾数据、判断数据饱和点,以及以低成本覆盖广泛任务分布。市场终将审视:这些运行时间里,到底产生了多少真正的新知识?