被征服的女明星1至55章,对话简智朱雁鸣:不卷《模型》【卷基】建,具身智能核心是{读懂}人的数据-兴和县振泓遥百货店

对话简智朱雁鸣:不卷《模型》【卷基】建,具身智能核心是{读懂}人的数据

2026-05-19 07:07:07 七绝2013 南阳火 / 魔炮党王动

「自动化」是具身数据行业的第一竞争力。

作者丨高景辉

编辑丨马晓宁

2026年的具身智能赛道,热闹非凡。各家机器人厂商都在秀Demo、拼算力,试图用海量数据教会机器人叠衣服、冲咖啡。但一个尴尬的现实是:我们似乎从未真正教会机器人"看懂"这个世界。

绝大多数机器人仍在模仿人类动作的表层轨迹,却不理解为什么拧不开瓶盖时要先擦擦手。这种认知缺失,像极了自动驾驶早期依赖高精地图的窘境——能应付固定场景,却处理不了充满不确定性的真实生活。

而阻碍具身智能真正进入生活的瓶颈,是数据。没有足够好用的数据,机器人就无法学习和训练,从而无法理解真实的世界。

于是,在行业集体陷入"做模型"的宏大叙事时,简智机器人选择去啃一根更小众、也更苦的骨头:具身数据基建。

"行业里不缺做模型的公司,缺的是数据,特别是从人类第一视角出发、包含思考与触觉反馈的闭环数据。"在简智机器人联创朱雁鸣看来,单纯靠模仿学习在物理AI里跑不通。如果给机器人喂的是缺乏因果链的"表演数据",训练出的模型往往只是机械的复读机,一旦遭遇长程任务或意外干扰,就会瞬间崩溃。

简智所做的,是一套关于"人"的全维度数据产品。他们自研从头、到手、到全身的高精度数据获取产品,深入家庭和商超做众包,去捕捉人类不经意的力反馈、多模态感知,甚至并反向分析出其行为背后的思维链。

在具身智能的底层逻辑里,数据不仅是燃料,更是构建认知的"第一性原理"。当大多数玩家热衷于"造车"时,简智为什么笃定要去建"电池厂"?未来具身智能的核心壁垒,究竟在算法还是在于那套关乎人类行为的"说明书"?

答案,远比我们想象的更硬核。

01

每一条技术路线,都有一个"CTO"

雷峰网:先从简智的创立开始吧,当时创立公司的初心是什么?

朱雁鸣:我们最初对具身智能行业有一种朦胧的热情。智驾本身也是一种具身智能,但更广义的具身智能可以做人类能做的所有事情,是对生产力的底层变革。所以我们在具身赛道中深入研究的时候,比较想去创造一些差异化的价值,这也是我们选择细分方向时候的一条准则。

我们在2025年7月成立时,更多在复盘整个具身智能产业中有哪些空白、不足,所以不想盲目追热点。我们细想下来行业里不缺做模型的公司,缺的是数据基建,特别是无本体或其他范式下的数据。

当时行业还没有大规模崇尚 UMI 或 EGO 概念,更多在通过运动控制快速出demo,或是用 VLA 的方式训练模型。但我们相信,scale up和数据驱动是智能通往终局的关键路径。而对于物理AI他所需要的数据也与之前不同,文本的世界是结构化的,但我们的生活场景每时每刻都在变化,是非结构化的世界,在此之上具身需要的是逐步替代人的能力。我们需要的是从 Human Data(人类行为数据)入手,构建一套从行动到思考再到反馈的闭环数据产品和平台。

雷峰网:简智核心团队来自智驾领域,这一背景带来了什么优势?

朱雁鸣:主要是认知层面的优势。泛 AI 领域里,真正实现落地的物理 AI 产品就是自动驾驶,其他 AI 落地大多停留在对话、图像生成层面。自动驾驶是真实在路上跑、服务于人,且在技术上实现了端到端、数据飞轮架构落地,这让我们对数据的 infra 有了深刻认知。

第一,模型算法迭代所需的数据,一定是伴随迭代的人类真实数据。今天具身领域,最需要被突破的方向是的预训练,让模型具备通识、泛化且跨本体的长任务执行能力,并低成本做广泛的落地。

在这个过程中,除了量大之外,更多是让数据"坐标系"与"人理解世界"对齐,这样才能更好的从行为到认知形成闭环。

而且在这个过程中,很多corner case非常有价值,比如人在操作时候收到干扰失败,又怎么去弥补的过程,这些是商业化的必备能力,而这些数据必须通过长时间的真实世界积累,而非人为枚举。

第二,是对数据闭环链路与商业闭环链路结合的思考。做自动驾驶时,数据成本非常低,因为每一台上路行驶的量产车,都在持续生产数据。但具身智能完全不同,它的数据无法天然获取,视频只是最简单的形式,要给模型做长期学习训练,触觉模态、人类思考链路等信息,无法单纯通过安装摄像头获取。这给了我们底层思考:要构建可行的数据链路,必须往更深处发力。智驾的数据生产基于已有的车辆,而具身数据的核心基础,是如何拥有能让人类在自然生活中生产全维度数据的设备。

第三,是长链路、高并发数据处理的经验。做自动驾驶时,每天回流的数据级别接近几百 T,大规模数据和行为需要长链路的清洗流程。这给我们的核心经验是,数据交付除了做好硬件,更重要的是应对长链条、大规模交付的能力,这需要在最开始就对硬件、数据链条、数据加工处理方式做完整的结构化设计。

雷峰网:简智现在团队大概有多少人?研发占比多少?

朱雁鸣:规模在140人左右,研发人员占比超过85%。

雷峰网:具身数据是一个交叉领域,对此简智在组织上有什么调整?

朱雁鸣:具身智能需要专业领域人才,更需要领域融合后的综合性创新,数据业务也是如此。所以我们结合各技术领域优势,每个领域预研出一条主线,这条线下的每个人都是CTO。

例如在数采设备上,涉及摄像头、触觉、IMU、磁编码器等,我们有类似CTO的角色做垂线预研,横向则由技术委员会组成,从生产加工到模态再到自动化链条,通过模型驱动拼出完整方案。成熟行业里,一个人很难全栈把所有事情规划清楚,当下的具身数据领域,更需要每个领域都有创新,实现 1+1>2 的效果。

雷峰网:简智现在招人一般会招哪些人?

朱雁鸣:我们第一优先级是模型方向的人才,但我们要的模型人才,不是做具身动作输出模型的人才,而是做 data 仿真模型的人才。核心工作是将采集到的人类行为数据,通过模型加工还原成接近人类整体感受的数据格式,这件事难度很高。

我们定义的 human data,核心要素包括人的第一视角图像、全身关节运动、手上的触觉,以及每个动作中的力反馈,这些维度可以完整描述人类绝大多数行为。比如拿起一杯水,包含看到水、接触水、拿起时胳膊感受到的力反馈、拧开瓶盖的全流程。

这里的核心难点是,每个模态由不同硬件收集,各硬件有不同的特征、频率,以及硬件本身特性导致的信息残缺,如何把它们还原成同一时间轴、同一时空坐标系下的完整数据。单纯靠人工、粗糙的时间对齐,都会影响数据质量和精度。

因此我们尝试用数据基础大模型(data foundation model)解决这个问题:把多模态输入注入模型,像训练自动驾驶端到端模型一样,通过真值系统评测输出与真实世界的匹配度,再根据 gap 反向优化模型能力。我们是行业内第一家不用大模型做具身动作模型,而是用模型解决数据问题的企业。

第二类核心人才,是底层硬件能力相关的人才,包括光学、嵌入式软件、PCB 板设计,以及自研触觉方案相关的底层研发人才。我们希望通过底层原理性创新,提升采集过程中的模态精度。上层数据和模型只能做交叉验证、基于已采集信息提升精度,而数据的底层对错,需要硬件质量来保证,这其中有很多围绕人类感受的底层原理创新需要做。

雷峰网:你们有数采工厂吗?需要专人管理吗?

朱雁鸣:我们采用众包模式,数据来自真实家庭和真实场景,没有用数采工厂方式,这是我们和其他企业不一样的地方,也是我们认为面向终局,大规模、高效采集真实数据的最终路径。

02

人的行为就是真值,

人能做出来的动作,机器人就应该能实现

雷峰网:具身数据赛道有细分方向,有的只卖数据,有的也卖设备,简智属于哪种?

朱雁鸣:我们本质上是一家数据解决方案公司,但会根据不同场景提供不同方案。很多面向 C 端的模型公司,落地场景偏生活化,这类数据可以公开获取,比如家庭机器人需要的各类家庭场景数据,我们可以通过众包实现,直接给这类客户提供数据方案。

另一类客户的场景是封闭、自有场景,比如工厂产线、封闭实验室,这类数据无法公开获取,数据所有权本质上在场景应用方手里。针对这类客户,我们会提供硬件设备方案和最高效的本地化部署闭环,让他们在自有场景中完成数据采集和生产。

雷峰网:有人认为设备是具身数据公司的核心壁垒,卖了设备别人就不买数据了,你们怎么看?

朱雁鸣:首先,数据和设备都很重要。设备是基建中的最底层,它决定了数据的模态数量、底层模态质量,设备的便捷性、成本,也决定了数据采集的规模化能力,但我不认为设备就是全部。

数据最终是服务于模型的,模型需要的不是单纯的视频,也不是多模态数据的简单打包,绝大多数核心工作,都发生在采集后的数据加工处理环节。现在绝大多数模型公司,哪怕是做预训练,都极度追求数据质量,数据质量会从底层影响模型的效果、精度、以及对因果关系的认知。

比如如果发生在餐馆,人会考虑是不是避让其他人的移动、绕开一些饭菜,如果只有动作表层的标注也是不够的,背后都有完整的因果驱动,我们需要给模型提供串联好全模态、稠密的COT过程,才能给模型提供有效的参考,让它更容易学习。

另一个核心原因是规模化。大批量设备采集的大批量数据,如何快速、高效、低成本地转化成可训练的 Token,才是核心难题,生产 100 台设备和 100 万台设备,是完全不同的难度。

雷峰网:刚刚提到家庭众包,具体是一种怎样的合作方式?

朱雁鸣:我们在众包模式上的运作很像 C 端公司。我们自己做了一款 APP,把设备给到每个家庭,用户通过 APP 了解采集任务,用我们的设备完成正常的家务动作即可,不需要对用户的操作做额外的教育和约束,用户的自然操作对模型来说反而更有价值,模型需要学习多样化的人类行为,才能补充场景盲点,因此行为上传后我们通过云端来识别、标注。

另外我们的设备在人机工程上也有明显优势,非常轻便,使用效率和人类正常干活的效率基本一致。用户完成操作后,通过 APP 上传采集的数据,我们基于数据回收情况给用户结算,整个流程自然且高效。

雷峰网:有没有工业或商业场景的众包?

朱雁鸣:有的。目前50%是家庭,30%是商超和工厂,10%是物流,剩下的10%是医疗、实验室等分散场景。

雷峰网:场景方会有隐私顾虑吗?

朱雁鸣:这个问题我们有完善的解决方案。首先,所有数据的隐私处理,都有一套标准化流程,包括地点、人脸、对方知识产权相关的信息,都会在数据售卖前完成脱敏处理,这是数据公司的基础义务。

第二,我们和每一个场景方、采集方合作时,都会在合作协议和费用说明里,明确标注双方的权利归属,我们获取的不是用户的个人信息,而是其在场景下的行为和操作数据,本身不会涉及过多个人隐私数据。

雷峰网:众包没有标准化流程,数据质量会不会参差不齐,给后期处理带来压力?

朱雁鸣:因为我们崇尚人的行为其实都是"真值",毕竟无论什么情况,人都是可以克服困难完成任务。因此关键在于真值上传后,是否

最新头条

实时推荐