你得太大了我可以尝一下吗,GoogleIO{之后}，AI的参照[系变]了-兴和县振泓遥百货店

当前，Coding 时代的行业共识已经确立。

" 尽管我们上调了 Token 价格，客户接受度依然很高，需求持续旺盛，甚至当前供应仍无法完全满足需求，仍有大量客户在排队等待服务。"

上周 2026 财年 Q4 财报会议上，阿里巴巴 CEO 吴泳铭用一番发言，道出 Coding 蛋糕的庞大。

AI 终于从发布会走进了企业的生产预算，阿里解决了第一个问题：AI 有没有真实需求？

第二个问题来自 Google：AI 下一步会长成什么样？

北京时间 5 月 20 日凌晨，Google I/O 2026 如期开场。

这届大会的亮点，无疑是智能体与多模态能力的展示。在 Gemini Omni Flash 的发布中，Google 对其有一段精确定义——支持任何模态的输入，生成任何模态的输出。

大会展示的视频输出只是一个开始，按照 Google 的规划，Omni 有能力实现文图音视的全模态输出，并基于 Gemini 的世界模型能力，生成重力、动力更精确的物理效果。

对 Google 来说，Omni 不再是一个视频模型，而是真正的超级内容创作入口，进而嵌入所有的创作者工作流程，创造一个比 Coding 想象空间更大的多模态应用市场。

相较编程，这是 AI 的真正富矿。从行业通用定价来看，每百万 tokens 的价格，视频模型要远高于图片和文本。这意味着，只要 token 调用量提升，视频将创造远超文本的 API 价值。

更重要的是，多模态正在迎来一个历史性的技术拐点。

对比早期文本模型 + 图像模型 + 视频模型的简单拼接模式，在 2026 年，以 Google Gemini Omni 为代表的统一基座全模态模型的出现，标志着行业即将进入一个全新的时代。

多模态，下一个 Token 拐点

OpenAI 首席执行官 Sam Altman 没想到的是，100 万用户规模的成绩，发布初的 ChatGPT 要 5 天实现，GPT-4o 图像生成只需要 1 个小时。

凭借高度还原的吉卜力画风，GPT-4o 生图功能上线即爆红，OpenAI 不得不限制免费资格，并恳求用户不要再疯狂生图，让团队睡个好觉。

今年发布的图像生成模型 Image 2，一小时全球新增用户破 180 万，再次打破 GPT-4o 纪录，一周时间内，全球活跃用户便超过 1.2 亿，带动 ChatGPT Plus 订阅量环比增长 23%。

年初 Google Nano Banana 2 的发布，则实现了全球测试屠榜的盛况。产品将一张 4K 多细节图的生成时间，从分钟级压缩到秒级。

截至目前，Nano Banana 系列累计生成图片已超过 500 亿张。媒体评价是，Google 正在终结 PS 时代。

毫无疑问，颠覆级的多模态模型，拥有一锤定音的市场影响力。

在去年的 Google I/O 大会上，VEO 3 一鸣惊人，切水果视频席卷了 TikTok，仅用半年时间，生成视频总量就突破 2.3 亿条，有媒体撰文称，VEO 3 挽救了谷歌的财报。

但更大的颠覆还在路上。

前几天有 Reddit 用户意外找到并分享了一则 Gemini Omni 的 Demo，瞬间引爆了全球 AI 社区：

教师一边讲课，一边在黑板上写下公式，全程声音、画面、板书文字精确流畅，丝滑至极。

有 X 用户的评价是，视频模型的 Nano Banana 时刻要来了。

Gemini Omni 的惊艳之处不仅于此，模型支持一键去除水印、替换物体并自适应光影，从演示效果看，其文字一致性、角色连贯性超越了过往所有视频模型。

跑出过火星文画面的 AI 用户都清楚，让 AI 做一个文字清晰准确的内容有多难，更不要说是数学公式，还是在课堂上边讲边写。

与 VEO 相比，Google Omni 是真正意义上全模态输入、全模态输出的模型，支持用户通过任意模态内容混合输入，生成高质量的视频，同时支持对话编辑。

这意味着，Google Omni 有能力将所有模态的分析与生成处理，在一个统一模型内部完成，而非调动多个系统后期整合。

按照 Google 的定义，Omni 是 Gemini 主架构的进化，将 Gemini 从诞生起就具备的原生多模态能力，从输入端扩展到了输出端。

相比之下，VEO 和 Nano Banana 并非独立产品，而是 Omni 身上的能力组件。

在现场演示中，Google 高管展示了具体编辑场景——用户输入 " 把背景换成雪地 "，模型就换掉视频环境；输入 " 改成从侧面跟拍的角度 "，画面运镜就随之改变；输入 " 加上旁白 "，视频就能生成解说及背景音乐。

自始至终，用户只要对话，就能像指挥员工一样修改视频，并精确到每一个细节，无需切换线程或重新上传。这就将 VEO 等上一代视频模型提示词生成、抽卡赌运气的模式完全改写。

DeepMind 首席执行官德米斯 · 哈萨比斯则表示，未来 Omni 将能完成任意模态的输入及输出功能，入口覆盖 Gemini 应用、Google Flow 和 YouTube Shorts，更强的 Omni 版本会在后续推出。

背后 Google 的野心昭然若揭。它要做一个真正的世界模型，没有媒介限制，没有模态隔阂，AI 可以用任何人类能理解的方式，和世界进行交互，用一个模型定义 AI 的未来形态。

支撑这个野心的，正是全模态能力。

很多人没意识到，统一基座的全模态模型，其实在研发效率上更有优势。

在执行跨模态任务时，文本理解的提升，可以反哺图像和视频质量，让生成内容更符合逻辑；图像和视频的训练数据，又可以帮助模型更好地理解物理世界，提升文本推理和常识判断能力。

这是 1+1>2 的正向循环。也能解释为何杨立昆、李飞飞等大牛坚持认为，多模态世界模型才是 AI 的未来路径。

过去市场盯着 Coding 看，对多模态认知不足，这一思维范式正在被推翻。

摩根士丹利在近期研报中指出，Minimax 的潜在价值被市场忽略，其 ARR 在 2026 年底将达到 10 亿美元。一个重要原因是，市场低估了多模态技术的商业价值，特别是大语言模型与多模态模型的相互促进。

这句话，点破了当前 AI 行业最大的视野盲区。

原生的五感全能战士？

看回国内市场，一轮技术驱动的增长正在酝酿中。

摩根士丹利指出，中国模型市场已经走到凸性爆发拐点，将复刻美国市场的超新星爆发速度。原因有二：一是模型能力已经接近甚至超越此前的美国头部产品，二是相比美国模型，中国模型定价普遍更有优势。

放眼国内市场，主要玩家的现阶段叙事逻辑高度趋同：争夺 Claude 平替这个生态位，再找独有优势，比如专攻长文本、专攻智能体、专攻推理，最后从订阅价格角度卷出优势，杀出红海。

但这并不是市场的全貌。

仍有玩家在技术路线上高度接近 Gemini Omni 的方向，有望率先在国内复刻这一生态位，就是 Minimax。

最近高盛发文将字节、阿里、Minimax 三家并列，依据是中国独立 AI 厂商中，Minimax 独一无二的全面全模态布局，以及其行业领先的高性价比、高灵活性计算架构。

高盛：中国多模态模型持续进军全球，关注 Hailuo 3

按照高盛的预测，M3 与 Hailuo 3 模型发布，将成为 Minimax 的重要里程碑，其文本 API 业务毛利率将达到 40%，多模态 API 业务毛利率达到 60-70%，高于同行水平。

瑞银则将 Minimax 的目标价设定为 1000 港元，原因是随着多模态能力潜力释放，不同模态间的协同研发，将带动训练成本的压缩，以及模型能力的快速提升。

换言之，多模态研发给 Minimax 带来的远不止产品矩阵，还包含更精细、高效的工程框架。这将令企业模型进一步降低门槛，从开发者向普通用户扩展。

摩根大通则给到 Minimax" 超配 " 评级，理由是 " 技术实力、多模态商业化潜力、全球可扩展性的罕见组合 "。

Minimax 不仅是国内唯一同时具备 " 文本 + 图像 + 视频 + 音频 + 音乐 " 全栈能力的独立大模型厂商，而且文本、语音、视频生成能力全部排在全球第一梯队。

过去的市场中，全模态很容易被误解成 " 功能表 "，文本、图片、视频、语音、音乐，五个格子都打勾，就叫全模态。

但事实上，全模态的真正价值，不在于 " 能做什么 "，而在于 " 这些能力能不能彼此增强 "。这是先天路线选择和后天补丁式升级的本质区别。

视频生成就是一个最好的例子。

文本模型说自己理解物理世界，很难验证。你让它写一篇关于苹果落地的文章，它能写得头头是道，但你永远不知道它是不是真的理解万有引力。

但视频生成不一样，一秒钟就能露馅。手的位置对不对？物体运动的轨迹符不符合物理规律？镜头切换是否连贯？文字是否清晰准确？音画是否同步？一个地方出错，用户立刻能看出来。

这是对大模型理解世界能力的终极考验。不仅要更强的空间理解能力，还要因果推理、长程一致性和多对象关系建模能力。并反过来提升文本、Agent 和工具调用性能。

换言之，统一基座全模态模型不是五个独立模型的简单相加，而是一个有机的整体。

这正是 Minimax 的路线，从 M 系列大语言模型，到海螺视频模型、Music 音频模型，这种全模态自研 + 全模态落地的完整性，在国内独立 AI 企业中属于独一份。

这种底层颠覆性的先天一体路线，使 Minimax 能在更低成本下实现更流畅的全感官智能。

摩根士丹利测算，通过基础设施优化，Minimax 在 8 卡 H800 推理服务器上，每分钟可产生约 1 美元收入，成本低于 0.3 美元，而行业平均水平只有约 0.5 美元 / 分钟。

招股书中有一段数据，成立以来，Minimax 只花了 5 亿美元，就站上全球多模态能力第一梯队，这个费用规模，只有 OpenAI 的约 1%。

文本大模型 M2 发布时在全球权威评测 Artificial Analysis 中，拿下开源第一的成绩，其综合推理成本也只有 0.53 美元 / 百万 Token，只有 Claude 4.5 Sonnet 的 8%，推理速度则是后者的两倍。

同时，在全模态模型的技术路线，Minimax 有能力让文、图、音、视频能力协同迭代，突破迭代效率、训练成本与模型性能的不可能三角。

去年发布的 Minimax 的视频模型，仅用约一个月时间，已帮助全球创作者累计生成视频超过 6 亿个；语音模型则凭借全球顶尖的超低延时，累计生成语音超过 2 亿小时。

换句话说，凭借稳居全球第一梯队的多模态模型能力，Minimax 模型早已成为全球多模态领域的核心基础设施。

Pure-Play 的增长拐点

对于投资者来说

GoogleIO{之后}，AI的参照[系变]了

猜你喜欢

最新头条