老师脱👙让学生摸🐻流白浆,谷歌2026IO发布GeminiOmni:主打对话式视频《编辑》(与物)理一致性-兴和县振泓遥百货店

谷歌2026IO发布GeminiOmni:主打对话式视频《编辑》(与物)理一致性

2026-05-20 13:08:45 牛顿也吃苹果啊 上帝不在天堂 / 无敌飞天猫

在 2026 年 Google I/O 大会上,谷歌正式推出 Gemini Omni,将其庞大的 AI 功能阵容进一步扩展。该模型旨在融合推理能力与媒体创作工具,实现跨格式内容的生成与编辑。

首发版本 Gemini Omni Flash 聚焦视频领域,设定了极具雄心的目标:支持用户通过文本、图像、音频或现有视频几乎任意类型的输入来创建内容。目前,Gemini Omni Flash 已通过 Gemini 应用、Google Flow、YouTube Shorts 以及 YouTube Create 上线,并计划随后向开发者和企业客户开放。

这一发布建立在谷歌此前 AI 视觉生成工作的基础之上。2025 年推出的 Nano Banana 已扩展了 Gemini 的图像处理能力,成为从修复老照片到将草图转化为概念图的实用工具。

对话式编辑与物理一致性

Gemini Omni 的核心理念在于简化编辑流程。谷歌表示,用户可通过自然语言指令修改视频,同时确保更改前后的一致性。系统能够保持角色可识别、场景连贯,动作逻辑不会因提示词改变而重置。

此外,该系统深化了对物理世界的理解,改进了对运动、重力及动力学的处理。例如,当人物触摸镜子时,倒影会呈现液体般的波动效果,或由气泡构成的雕塑能符合物理规律。谷歌试图借此将 Gemini Omni 定位为超越单纯视频生成器的创作平台,以对话式路径降低普通用户的使用门槛,应对激烈的 AI 媒体工具竞争。

未来,Gemini Omni 的功能边界将进一步拓展,预计将支持把照片、提示词、音乐和参考素材整合至单个项目中。

建立信任机制

面对创意 AI 带来的信任挑战,谷歌强调透明度措施。使用 Gemini Omni 生成的视频均嵌入 SynthID 水印技术,以便识别 AI 生成内容。同时,验证工具将在 Gemini、Chrome 和搜索服务之间协同工作,构成更广泛的信任体系。

在功能释放上,谷歌采取谨慎态度。用户初期可基于自身形象及声音创建视频化身,但涉及语音修改的高级功能仍处于安全审查阶段。这反映出主流 AI 公司在构建强大系统与建立用户信任之间面临的复杂平衡。

【来源:星途科讯】

最新头条

实时推荐