能看美女全身都免费软件,提出DAA，[李彦]宏只是开了个{好头}-兴和县振泓遥百货店

抢夺 AI 时代的 " 定义权 "

不讨论其他，百度在趋势上的判断，一直是敏锐的。

5 月 13 日，Create2026 百度 AI 开发者大会召开。大会的开幕式上，李彦宏抛出了一个颇具 " 非共识 " 意味的判断：AI 时代的度量衡—— Daily Active Agents，" 日活智能体数 "，简称 DAA。

在李彦宏看来，Token 只是代表成本并不代表收益，衡量的是投入而非产出；而 DAA 对应移动互联网时代通用度量衡日活用户数（DAU）。" 衡量一个平台和生态的繁荣，更应该关注 DAA 这个指标，关注有多少 Agent 在给人类干活，并交付结果。" 李彦宏表示。

与此相应的是投入端的 "Token"。

2025 年末，奥地利开发者 Peter Steinberger 的 " 周末项目 "Clawdbot（后改名 OpenClaw）悄然上线。没人预料到，到了 2026 年 3 月，其星标数突破 25 万，成为 GitHub 有史以来获星最多的开源项目。更没想到的是，这只 " 龙虾 " 无心插柳间，为一直拿着锤子找钉子的 AGI 探索出了一条新路。

OpenClaw 将过去 ChatGPT 代表的 " 你问我答 "，升级为了 " 你说我做 "。于是，Token 调用量就会指数级增加。

黄仁勋敏锐地捕捉到了变化，率先提出了 "Token 工厂 " 的概念。北京时间 3 月 17 日凌晨，2026 年英伟达 GTC 大会上，黄仁勋强调，在这个全新的 AI 时代，Token 就是新的基础货币。他还补充表示：生成 Token 的成本与效率直接决定了科技企业的营收与生死。

黄仁勋的 " 五层蛋糕 "，来源：英伟达官网截图

这套叙事逻辑严丝合缝：Token 是 AI 时代的 " 电力 "，卖铲子的人理应用 " 用了多少电 " 来衡量生态的规模。

对英伟达来说，Token 这一指标没什么问题。

作为全球 T0 级别的芯片供应商，英伟达的 Token 叙事，完全符合其行业位置。站在芯片和算力基础设施层，Token 消耗越多，GPU 卖得越多。Token，确实是完美的收入度量衡。

然而，李彦宏提出的 DAA，对百度来说，也没什么问题。

百度的 DAA，则是站在应用和生态层。对应用层的企业而言，Token 是成本，只有交付结果才算价值。于是，李彦宏提出 DAA 这样的产出侧的度量衡，非常合理。

起点不等于终点。DAA 的提出，打破了原有 Token 叙事的固定框架，引发了更深层的追问和思考。比如，Token 不行，那它是一个完美指标吗？Token 叙事与 DAA 叙事各自的逻辑与盲区又是什么？除了这俩，还有哪些评估框架和指标？AI 时代的 " 北极星指标 "，究竟该长什么样？

从 Token 到 DAA，总算迈出了第一步

李彦宏提出 DAA，是一种进步。

1 月 19 日，Gartner 发布了一份名为《Token Consumption Is a Misleading Indicator of AI Market Leadership》的报告。报告中明确指出，虽然 Token 消耗量常被 AI 厂商用于展示规模和市场地位，但它存在严重的局限性。这些局限性包括，缺乏业务价值关联、结构性误导等。

但，这并没有成为 Token 攻城略地的阻碍。

当 Token 被注意到后，其用量就迅速成为衡量企业在 AI 上变革程度的行业共识。3 月，阿里成立以 " 创造 Token、输送 Token、应用 Token" 为核心目标的 Alibaba Token Hub 事业群。58 同城的姚劲波曾在接受采访时表示：现在公司每天消耗接近 2000 亿 Token，很快会突破 3000 亿。他明确告诉团队：Token 用得越多越好，哪怕压力大，58 同城也会不计成本。

同时，Token 的调用情况，也成为国内新模型发布后的重要评估标准之一。

3 月 11 日，Hunter Alpha 悄然上线 OpenRouter，标注为 "stealth provider"（隐身提供者），没有任何厂商标识。其后，Hunter Alpha 连续数日登顶，引来外界的关注和猜想。19 日，小米认领了 Hunter Alpha，证实其为旗舰模型 MiMo-V2-Pro 的内部测试版本。

而后，阿里也加入了这种新的发布形式。4 月上旬，一款名为 HappyHorse1.0 的匿名 AI 视频生成模型引发关注。第三方评测平台 Artificial Analysis 的 Video Arena 榜单上，超越字节跳动 Seedance 2.0、Google Veo 3 Fast 等视频模型，登顶文生视频、图生视频双赛道榜首。

不久，该模型被阿里 ATH 旗下创新事业部 " 认领 "。有不少观点认为：HappyHorse 的诞生，补足了阿里在视频生成模型上的空白，同时也是阿里云百炼平台撬动企业客户的战略入口，带动平台上的 Token 消耗。

甚至，Token 的使用量，成为一种很新的炫富方式。比如，每天消耗多少 Token、你能同时调度多少个 agent 运行、你的 token throughput（吞吐量）有多高，已成为工作和社交中的话题。

而李彦宏最核心的反驳点就是把叙事拉入到产出视角：Token 衡量的是 " 成本与投入 "，而不是 " 收益与产出 "。

Token 本质上类似于电力时代的 " 耗电量 " 或流量时代的 " 耗流量 "，它反映的是 AI 系统消耗了多少底层算力资源。单纯炫耀 Token 消耗量，等于在炫耀 " 我烧了多少钱、花了多少算力 "，这只能体现厂商的成本投入，却无法体现 AI 真正为用户创造了多少实际收益。

大模型爆发初期，AI 的应用还处于 Chatbot 阶段（聊天机器人），聊得越多自然 Token 消耗越大。但 Agent 时代，当 AI 的角色变成了一个 " 数字员工 "，那考核的点，则变成了它完成了多少事，任务完成度如何等等。

" 数字员工 "，也是员工。考核员工用耗电量，确实不合适，但所有 Agent 不分简易和完成质量，都抽象为 "1"，也不合理。

比如，有两个 Agent：一个 Agent 的作用是，每天定时帮你查一下天气、或者发一条早安问候的；另一个则能够接入企业 ERP 系统，全自动分析库存、独立向供应商下订单并跟进物流。

在 DAA 的统计口径下，这两者贡献的日活都是 "1"，这显然掩盖了两者在算力消耗、技术壁垒和商业价值上巨大的鸿沟。

同时，李彦宏提出 DAA 的初衷是强调 " 结果交付 "，但 DAA 这个指标本身只衡量了 " 活跃度 "。

比如，如果一个 Agent 每天被唤醒，但一直在产生 AI 幻觉、输出垃圾信息，或者在执行任务时陷入了死循环。从指标上看，它可能消耗了大量 Token，也贡献了一个完美的 DAA，但对用户来说，它不仅没有交付结果，反而帮了倒忙。

李彦宏提出的 DAA 解决了 " 出勤率 " 的问题，也有效地把大家的注意力从 " 卷模型参数、卷 Token 消耗 " 的军备竞赛中拉了出来，转而关注应用与落地。但对真正要付账单的企业来说，光是出勤是不够的。

走出 " 活跃 " 陷阱，还有很多第三选择

当英伟达说 " 万物皆 Token"，百度说 " 万物须交付 " 时，还有一群指标不在这场商业叙事争夺战中。

2024 年 6 月 17 日，Sierra Research 与普林斯顿大学联合团队在 arXiv 上投下了一颗深水炸弹—— τ-bench（Tau-bench）基准测试。

τ-bench 与主观的人类打分不同，它通过对比对话结束后的数据库最终状态与预期的目标状态来客观判定任务是否成功。在测试中，它不再只关心一个 AI 智能体某一次任务成功了没有，而是通过连续追问，检验 " 连续 k 次任务，它能不能一次都不搞砸？" 。

Pass^k（连续 k 次全成功概率）是其首创的指标。

这个指标的严格程度，来自一道简单的数学题。比如，一个单次成功率 90% 的智能体，乍听起来相当不错。但如果让它连续独立完成 8 次任务，要求全部成功？答案：0.9^8 ≈ 43%。连续 20 次呢？约 12%。

它反映的是，智能体在面对对话随机性时的可靠性与一致性。对企业应用而言，偶尔的满分远不如持续的稳健表现重要。

而其的测试环境也是真实的商业场景：航空票务系统和零售客服。结果显示，即使当时最先进的 GPT-4o，在航空领域的单次成功率也不足 50%。

Anthropic 很快针对 τ-bench 的挑战，作出了回应。

2025 年 3 月前后，Anthropic 在相关的技术文章中，明确讨论了如何通过引入自主思考环节来解决 Agent 在处理复杂、多步骤任务时的可靠性问题。

同时，为在 τ-bench 的 Pass^k 指标上取得突破，Anthropic 在 Claude 模型中引入了 " 自我反思（Self-reflection/Self-correction）" 和 " 扩展思维链（Extended Chain-of-Thought）" 机制，以提升连续成功的稳定性。

这表明，Pass^k 已从一个 " 事后评估 " 的指标，演变为一个 " 事前驱动 " 的研发目标。

对于 Token 叙事和 DAA 叙事来说，τ-bench 都是一个有力的修正：它告诉英伟达，Token 消耗再多、跑得再快，不等于跑得稳；它也告诉百度，DAA 再多、交付次数再高，不等于交付质量可靠。单次可用不是本事，连续可靠才是门槛。

如 τ-bench 的 Pass^k 这样的指标，还有很多。

比如，同为衡量任务交付与绝对可靠性评估的指标。Pass^k 外，还有 TGC/GCR（任务目标完成率）、MTR（多步任务韧性）。

普林斯顿等论文《τ-bench》提出 Pass^k，指出 Pass@k，即试 N 次对 1 次就行，是自欺欺人，真实世界要求极高的稳定性。

白皮书《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》中提出了 GCR 和 MTR，则强调无论 Agent 中间怎么思考，必须扛住多步骤干扰，交付最终结果。

而以上，还只是属于产出导向的技术指标。

各评估指标导向与解决问题情况，来源：公开论文综合

当 Agent 进入企业生产环境，不能不计代价地追求 " 成功率 "，必须在多个维度之间做出妥协和平衡。

如果你是某企业的采购，现在需要采购某 AI 相关的产品。" 聪明度 " 可能是其中一个重要指标，但更看重的是综合性价比。比如，一

提出DAA，[李彦]宏只是开了个{好头}

猜你喜欢

最新头条