谷歌 DeepMind 推出 Nano Banana Pro,超强图片生成能力

8 分钟阅读
谷歌 DeepMind 推出 Nano Banana Pro,超强图片生成能力
分享到:

2025 年 11 月 20 日,谷歌 DeepMind 正式发布全新图像生成与编辑模型 —— Nano Banana Pro。该模型基于 Gemini 3 Pro 构建,凭借先进的推理能力与实时信息整合优势,可生成含多语言清晰文本的精准视觉内容,目前已在 Gemini 应用、谷歌广告、谷歌 AI Studio 等多平台上线,为不同用户群体提供从创意设计到实用信息可视化的全方位解决方案。

Nano Banana Pro 的核心能力

作为此前 Nano Banana(基于 Gemini 2.5 Flash)的升级版本,Nano Banana Pro 在功能上实现全面突破。其核心优势首先体现在精准信息可视化上,依托 Gemini 3 Pro 的推理能力与谷歌搜索的海量知识库,可将手写笔记转化为图表、将数据生成信息图,甚至实时抓取天气、体育赛事等动态内容生成可视化报告。例如,输入 “String of Turtles” 的植物信息,模型能自动生成包含原产地(厄瓜多尔)、生长习性(附生植物,适合悬挂盆栽)、养护要点(明亮散射光、适度浇水)的完整信息图;针对 “印度小豆蔻茶(Elaichi Chai)” 的制作需求,可输出含食材清单、步骤拆解(煮水→加茶与香料→倒牛奶加糖→焖煮→过滤)及小贴士的分步指南图。

下图为小编亲测

其次,该模型在多语言文本生成与渲染上表现突出。无论是短标语、长段落,还是特定风格的字体(书法、复古印刷体),均能实现清晰识别与精准呈现,同时支持多语言本地化转换。例如,为 “柏林街道” 主题创作时,可将 “BERLIN” 一词融入建筑设计,使房屋轮廓巧妙构成字母形态;为饮料罐设计方案翻译时,能精准将英文文本转化为韩文,同时保留原有色彩与版式;甚至可生成 “WOODCHUCK(土拨鼠)” 绕口令主题图像,将文字与伐木场景深度融合,实现文本与视觉的创意结合。

一张黑白故事板草图,展示了电影场景中的远景镜头、中景镜头、特写镜头和主观视角镜头。

一个饮料营销活动概念,展示了英文文本到韩文的准确翻译和呈现。

在高保真视觉创作与编辑层面,Nano Banana Pro 提供更强大的细节控制与元素整合能力。一方面,支持最多 14 张图像素材融合,可保持 5 个人物形象的一致性,轻松实现 “草图转产品”“蓝图转 3D 实景” 等创作需求。例如,将 14 个毛绒角色素材整合为 “围坐观看复古电视” 的温馨场景,人物姿态、光影风格高度统一;另一方面,新增进阶创意控制功能,用户可调整相机角度、焦点、色彩分级,甚至实现 “白天转黑夜”“添加明暗对比效果” 等精细化编辑。如针对人物肖像,可生成强烈的明暗对比( chiaroscuro )效果,仅用局部光线突出眼部与颧骨细节,营造戏剧化视觉氛围。

通过组合多种元素打造生活场景。

AI 生成内容的识别机制

为确保 AI 生成内容的可追溯性,谷歌为 Nano Banana Pro 设置多重识别机制。所有由该模型生成的媒体内容,均嵌入不可见的 SynthID 数字水印,用户可通过 Gemini 应用上传图像,查询是否为谷歌 AI 生成(未来将扩展至音频、视频领域)。此外,免费用户与谷歌 AI Pro 订阅用户生成的图像,将带有可见的 “Gemini 闪光” 水印。

引用

文章结束
AI吧

AI吧团队

分享AI工具、技术实践和建站经验,帮助你在AI时代保持竞争力。

了解更多
版权声明
© 本平台所有原创内容著作权均归属AI吧所有。未经允许不得以任何形式转载、复制等。