被征服的女明星1至55章,对话简智朱雁鸣：不卷《模型》【卷基】建，具身智能核心是{读懂}人的数据-兴和县振泓遥百货店

「自动化」是具身数据行业的第一竞争力。

作者丨高景辉

编辑丨马晓宁

2026年的具身智能赛道，热闹非凡。各家机器人厂商都在秀Demo、拼算力，试图用海量数据教会机器人叠衣服、冲咖啡。但一个尴尬的现实是：我们似乎从未真正教会机器人"看懂"这个世界。

绝大多数机器人仍在模仿人类动作的表层轨迹，却不理解为什么拧不开瓶盖时要先擦擦手。这种认知缺失，像极了自动驾驶早期依赖高精地图的窘境——能应付固定场景，却处理不了充满不确定性的真实生活。

而阻碍具身智能真正进入生活的瓶颈，是数据。没有足够好用的数据，机器人就无法学习和训练，从而无法理解真实的世界。

于是，在行业集体陷入"做模型"的宏大叙事时，简智机器人选择去啃一根更小众、也更苦的骨头：具身数据基建。

"行业里不缺做模型的公司，缺的是数据，特别是从人类第一视角出发、包含思考与触觉反馈的闭环数据。"在简智机器人联创朱雁鸣看来，单纯靠模仿学习在物理AI里跑不通。如果给机器人喂的是缺乏因果链的"表演数据"，训练出的模型往往只是机械的复读机，一旦遭遇长程任务或意外干扰，就会瞬间崩溃。

简智所做的，是一套关于"人"的全维度数据产品。他们自研从头、到手、到全身的高精度数据获取产品，深入家庭和商超做众包，去捕捉人类不经意的力反馈、多模态感知，甚至并反向分析出其行为背后的思维链。

在具身智能的底层逻辑里，数据不仅是燃料，更是构建认知的"第一性原理"。当大多数玩家热衷于"造车"时，简智为什么笃定要去建"电池厂"？未来具身智能的核心壁垒，究竟在算法还是在于那套关乎人类行为的"说明书"？

答案，远比我们想象的更硬核。

每一条技术路线，都有一个"CTO"

雷峰网：先从简智的创立开始吧，当时创立公司的初心是什么？

朱雁鸣：我们最初对具身智能行业有一种朦胧的热情。智驾本身也是一种具身智能，但更广义的具身智能可以做人类能做的所有事情，是对生产力的底层变革。所以我们在具身赛道中深入研究的时候，比较想去创造一些差异化的价值，这也是我们选择细分方向时候的一条准则。

我们在2025年7月成立时，更多在复盘整个具身智能产业中有哪些空白、不足，所以不想盲目追热点。我们细想下来行业里不缺做模型的公司，缺的是数据基建，特别是无本体或其他范式下的数据。

当时行业还没有大规模崇尚 UMI 或 EGO 概念，更多在通过运动控制快速出demo，或是用 VLA 的方式训练模型。但我们相信，scale up和数据驱动是智能通往终局的关键路径。而对于物理AI他所需要的数据也与之前不同，文本的世界是结构化的，但我们的生活场景每时每刻都在变化，是非结构化的世界，在此之上具身需要的是逐步替代人的能力。我们需要的是从 Human Data（人类行为数据）入手，构建一套从行动到思考再到反馈的闭环数据产品和平台。

雷峰网：简智核心团队来自智驾领域，这一背景带来了什么优势？

朱雁鸣：主要是认知层面的优势。泛 AI 领域里，真正实现落地的物理 AI 产品就是自动驾驶，其他 AI 落地大多停留在对话、图像生成层面。自动驾驶是真实在路上跑、服务于人，且在技术上实现了端到端、数据飞轮架构落地，这让我们对数据的 infra 有了深刻认知。

第一，模型算法迭代所需的数据，一定是伴随迭代的人类真实数据。今天具身领域，最需要被突破的方向是的预训练，让模型具备通识、泛化且跨本体的长任务执行能力，并低成本做广泛的落地。

在这个过程中，除了量大之外，更多是让数据"坐标系"与"人理解世界"对齐，这样才能更好的从行为到认知形成闭环。

而且在这个过程中，很多corner case非常有价值，比如人在操作时候收到干扰失败，又怎么去弥补的过程，这些是商业化的必备能力，而这些数据必须通过长时间的真实世界积累，而非人为枚举。

第二，是对数据闭环链路与商业闭环链路结合的思考。做自动驾驶时，数据成本非常低，因为每一台上路行驶的量产车，都在持续生产数据。但具身智能完全不同，它的数据无法天然获取，视频只是最简单的形式，要给模型做长期学习训练，触觉模态、人类思考链路等信息，无法单纯通过安装摄像头获取。这给了我们底层思考：要构建可行的数据链路，必须往更深处发力。智驾的数据生产基于已有的车辆，而具身数据的核心基础，是如何拥有能让人类在自然生活中生产全维度数据的设备。

第三，是长链路、高并发数据处理的经验。做自动驾驶时，每天回流的数据级别接近几百 T，大规模数据和行为需要长链路的清洗流程。这给我们的核心经验是，数据交付除了做好硬件，更重要的是应对长链条、大规模交付的能力，这需要在最开始就对硬件、数据链条、数据加工处理方式做完整的结构化设计。

雷峰网：简智现在团队大概有多少人？研发占比多少？

朱雁鸣：规模在140人左右，研发人员占比超过85%。

雷峰网：具身数据是一个交叉领域，对此简智在组织上有什么调整？

朱雁鸣：具身智能需要专业领域人才，更需要领域融合后的综合性创新，数据业务也是如此。所以我们结合各技术领域优势，每个领域预研出一条主线，这条线下的每个人都是CTO。

例如在数采设备上，涉及摄像头、触觉、IMU、磁编码器等，我们有类似CTO的角色做垂线预研，横向则由技术委员会组成，从生产加工到模态再到自动化链条，通过模型驱动拼出完整方案。成熟行业里，一个人很难全栈把所有事情规划清楚，当下的具身数据领域，更需要每个领域都有创新，实现 1+1＞2 的效果。

雷峰网：简智现在招人一般会招哪些人？

朱雁鸣：我们第一优先级是模型方向的人才，但我们要的模型人才，不是做具身动作输出模型的人才，而是做 data 仿真模型的人才。核心工作是将采集到的人类行为数据，通过模型加工还原成接近人类整体感受的数据格式，这件事难度很高。

我们定义的 human data，核心要素包括人的第一视角图像、全身关节运动、手上的触觉，以及每个动作中的力反馈，这些维度可以完整描述人类绝大多数行为。比如拿起一杯水，包含看到水、接触水、拿起时胳膊感受到的力反馈、拧开瓶盖的全流程。

这里的核心难点是，每个模态由不同硬件收集，各硬件有不同的特征、频率，以及硬件本身特性导致的信息残缺，如何把它们还原成同一时间轴、同一时空坐标系下的完整数据。单纯靠人工、粗糙的时间对齐，都会影响数据质量和精度。

因此我们尝试用数据基础大模型（data foundation model）解决这个问题：把多模态输入注入模型，像训练自动驾驶端到端模型一样，通过真值系统评测输出与真实世界的匹配度，再根据 gap 反向优化模型能力。我们是行业内第一家不用大模型做具身动作模型，而是用模型解决数据问题的企业。

第二类核心人才，是底层硬件能力相关的人才，包括光学、嵌入式软件、PCB 板设计，以及自研触觉方案相关的底层研发人才。我们希望通过底层原理性创新，提升采集过程中的模态精度。上层数据和模型只能做交叉验证、基于已采集信息提升精度，而数据的底层对错，需要硬件质量来保证，这其中有很多围绕人类感受的底层原理创新需要做。

雷峰网：你们有数采工厂吗？需要专人管理吗？

朱雁鸣：我们采用众包模式，数据来自真实家庭和真实场景，没有用数采工厂方式，这是我们和其他企业不一样的地方，也是我们认为面向终局，大规模、高效采集真实数据的最终路径。

人的行为就是真值，

人能做出来的动作，机器人就应该能实现

雷峰网：具身数据赛道有细分方向，有的只卖数据，有的也卖设备，简智属于哪种？

朱雁鸣：我们本质上是一家数据解决方案公司，但会根据不同场景提供不同方案。很多面向 C 端的模型公司，落地场景偏生活化，这类数据可以公开获取，比如家庭机器人需要的各类家庭场景数据，我们可以通过众包实现，直接给这类客户提供数据方案。

另一类客户的场景是封闭、自有场景，比如工厂产线、封闭实验室，这类数据无法公开获取，数据所有权本质上在场景应用方手里。针对这类客户，我们会提供硬件设备方案和最高效的本地化部署闭环，让他们在自有场景中完成数据采集和生产。

雷峰网：有人认为设备是具身数据公司的核心壁垒，卖了设备别人就不买数据了，你们怎么看？

朱雁鸣：首先，数据和设备都很重要。设备是基建中的最底层，它决定了数据的模态数量、底层模态质量，设备的便捷性、成本，也决定了数据采集的规模化能力，但我不认为设备就是全部。

数据最终是服务于模型的，模型需要的不是单纯的视频，也不是多模态数据的简单打包，绝大多数核心工作，都发生在采集后的数据加工处理环节。现在绝大多数模型公司，哪怕是做预训练，都极度追求数据质量，数据质量会从底层影响模型的效果、精度、以及对因果关系的认知。

比如如果发生在餐馆，人会考虑是不是避让其他人的移动、绕开一些饭菜，如果只有动作表层的标注也是不够的，背后都有完整的因果驱动，我们需要给模型提供串联好全模态、稠密的COT过程，才能给模型提供有效的参考，让它更容易学习。

另一个核心原因是规模化。大批量设备采集的大批量数据，如何快速、高效、低成本地转化成可训练的 Token，才是核心难题，生产 100 台设备和 100 万台设备，是完全不同的难度。

雷峰网：刚刚提到家庭众包，具体是一种怎样的合作方式？

朱雁鸣：我们在众包模式上的运作很像 C 端公司。我们自己做了一款 APP，把设备给到每个家庭，用户通过 APP 了解采集任务，用我们的设备完成正常的家务动作即可，不需要对用户的操作做额外的教育和约束，用户的自然操作对模型来说反而更有价值，模型需要学习多样化的人类行为，才能补充场景盲点，因此行为上传后我们通过云端来识别、标注。

另外我们的设备在人机工程上也有明显优势，非常轻便，使用效率和人类正常干活的效率基本一致。用户完成操作后，通过 APP 上传采集的数据，我们基于数据回收情况给用户结算，整个流程自然且高效。

雷峰网：有没有工业或商业场景的众包？

朱雁鸣：有的。目前50%是家庭，30%是商超和工厂，10%是物流，剩下的10%是医疗、实验室等分散场景。

雷峰网：场景方会有隐私顾虑吗？

朱雁鸣：这个问题我们有完善的解决方案。首先，所有数据的隐私处理，都有一套标准化流程，包括地点、人脸、对方知识产权相关的信息，都会在数据售卖前完成脱敏处理，这是数据公司的基础义务。

第二，我们和每一个场景方、采集方合作时，都会在合作协议和费用说明里，明确标注双方的权利归属，我们获取的不是用户的个人信息，而是其在场景下的行为和操作数据，本身不会涉及过多个人隐私数据。

雷峰网：众包没有标准化流程，数据质量会不会参差不齐，给后期处理带来压力？

朱雁鸣：因为我们崇尚人的行为其实都是"真值"，毕竟无论什么情况，人都是可以克服困难完成任务。因此关键在于真值上传后，是否

对话简智朱雁鸣：不卷《模型》【卷基】建，具身智能核心是{读懂}人的数据

猜你喜欢

最新头条