Google放招：4秒出图、对话式剪视频，多模态AI终于能用了

技术趋势2026-07-05 09:30:00

🤖 本文由 AI 生成，内容仅供参考。

6月30日，Google一口气掏了两个模型

说实话，这波Google的动作挺密。

6月30日，他们同时发布了 Nano Banana 2 Lite 和 Gemini Omni Flash，一个管图，一个管视频，而且都能通过API调用，不是停留在演示页面的玩具。

这个模型的核心卖点就两个字：快、便宜。

说白了，这是给高吞吐量流水线准备的。你要一天生成几千张图做A/B测试、做素材初稿，用这个不心疼。

它属于Nano Banana家族的"速度档"，上面还有Nano Banana 2（全能型）和Nano Banana Pro（专业精度型）。按需选就行。

这个更有意思。你用自然语言告诉它"把这段视频的背景换成海滩"、"让镜头从左往右推"，它就能改。

定价 $0.10/秒视频输出，和Veo 3.1 Fast一个价。

支持多模态输入——图、文字、视频都能喂进去，保持场景一致性。还能调用Gemini本身的知识库，比如它知道某种动物的生物学特征，能据此生成合理画面。

这才是关键。官方的演示思路是：

先用Nano Banana 2 Lite快速生成一张图，再把这张图丢给Omni Flash，让它动起来变成一段视频。图到视频，一条链走完。

Google放了几个demo应用：上传房间照片一键换装修风格再看动态效果，自拍换地标背景再生成动画片段。都是这个"先生图再动画化"的套路。

两个模型都内置 SynthID 水印，可以通过Gemini app、Chrome里的Gemini或Search验证内容是不是AI生成的。这点对商业用途挺重要——你总不想发出去的素材被平台打标时一脸懵。

多模态AI从"看着炫"进入"能用"的阶段了。

之前这类工具的问题是：要么太慢、要么太贵、要么效果不稳定没法放进生产流水线。Nano Banana 2 Lite把出图成本压到3分钱一张、Omni Flash让视频编辑能用对话完成——这两个组合起来，广告素材批量生成、电商商品视频、内容本地化这些场景，是真的能跑起来了。

当然，10秒视频的限制还在，角色一致性还没完全解决。但方向已经清楚了。