AInspiro
EN

Google放招:4秒出图、对话式剪视频,多模态AI终于能用了

技术趋势
🤖 本文由 AI 生成,内容仅供参考。

6月30日,Google一口气掏了两个模型

说实话,这波Google的动作挺密。

6月30日,他们同时发布了 Nano Banana 2 LiteGemini Omni Flash,一个管图,一个管视频,而且都能通过API调用,不是停留在演示页面的玩具。

先说Nano Banana 2 Lite:4秒出图

这个模型的核心卖点就两个字:快、便宜

  • 文本生成图,4秒搞定
  • 每张图成本 $0.034(按1K分辨率算)
  • 保留提示词遵循能力和图内文字渲染

说白了,这是给高吞吐量流水线准备的。你要一天生成几千张图做A/B测试、做素材初稿,用这个不心疼。

它属于Nano Banana家族的"速度档",上面还有Nano Banana 2(全能型)和Nano Banana Pro(专业精度型)。按需选就行。

再说Gemini Omni Flash:对话式剪视频

这个更有意思。你用自然语言告诉它"把这段视频的背景换成海滩"、"让镜头从左往右推",它就能改。

定价 $0.10/秒视频输出,和Veo 3.1 Fast一个价。

支持多模态输入——图、文字、视频都能喂进去,保持场景一致性。还能调用Gemini本身的知识库,比如它知道某种动物的生物学特征,能据此生成合理画面。

目前有几个限制

  • 单次只能生成10秒视频,更长的"即将推出"
  • 音频引用和场景延伸还没支持
  • 换场景时的角色一致性还有点问题

两个模型能串起来用

这才是关键。官方的演示思路是:

先用Nano Banana 2 Lite快速生成一张图,再把这张图丢给Omni Flash,让它动起来变成一段视频。图到视频,一条链走完。

Google放了几个demo应用:上传房间照片一键换装修风格再看动态效果,自拍换地标背景再生成动画片段。都是这个"先生图再动画化"的套路。

水印和溯源

两个模型都内置 SynthID 水印,可以通过Gemini app、Chrome里的Gemini或Search验证内容是不是AI生成的。这点对商业用途挺重要——你总不想发出去的素材被平台打标时一脸懵。


这事儿到底意味着什么

多模态AI从"看着炫"进入"能用"的阶段了。

之前这类工具的问题是:要么太慢、要么太贵、要么效果不稳定没法放进生产流水线。Nano Banana 2 Lite把出图成本压到3分钱一张、Omni Flash让视频编辑能用对话完成——这两个组合起来,广告素材批量生成、电商商品视频、内容本地化这些场景,是真的能跑起来了。

当然,10秒视频的限制还在,角色一致性还没完全解决。但方向已经清楚了。