时间:2025-08-27 20:27:58
昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。
据介绍,该模型具有「SOTA 的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度」。
从其名字也可以猜测,谷歌应该还有一个非 flash 的 gemini-2.5-image 模型 —— 其性能应该会更加强大,但速度会更慢。
可以看到,gemini-2.5-flash-image-preview 支持 32k 上下文,提供了温度(可以控制模型的创造力)以及一些高级设置。
然而,遗憾的是,该模型尚不支持对中文输入执行图像生成和编辑,而是会给出文本响应。
另外,在 Gemini 中,用户只需选择 2.5 Flash 并使用合适的提示词,也可以使用该模型。
大概计算下来,该模型生成每张图像的成本大约为 0.039 美元(约 0.28 元),远低于 OpenAI 的图像生成成本。
具体功能(尤其是图像编辑)上,谷歌官方博客介绍说他们尤其注重在不同图片间保持人物形象的一致性。
「我们知道,当你编辑自己或熟悉的人时,哪怕是细微的差别都会显得刺眼 ——『差一点但不完全一样』的效果就是感觉不对。正因如此,我们的最新更新专门针对这一点,让你的朋友、家人,甚至宠物,无论是尝试 60 年代的蜂窝头发型,还是给吉娃娃穿上芭蕾舞裙,都能始终看起来像他们自己。」
你只需要给 Gemini 一张照片,并告诉它你想要修改的地方,就能加上独特的个人风格。该模型可以帮你把自己和宠物放在同一张照片里,把房间背景换成新壁纸的效果,或者把你带到世界上任何你能想象的地方 —— 同时保持「你就是你」。完成后,你甚至可以把编辑过的照片再次上传到 Gemini,把新图变成一段有趣的视频。
换装或换场景:上传一张人物或宠物的照片,该模型会在任何新场景下都保持他们的外貌一致。你可以尝试不同的服装、职业,甚至看看你在另一个年代会是什么样子 —— 但始终还是你自己。
合成照片:你现在可以上传多张照片,把它们融合成一个全新的场景。比如,把你和狗狗的照片合成在篮球场上,生成一张完美的合影。
多轮编辑:你可以不断修改 Gemini 生成的图像。比如,从一间空房间开始,先刷墙,再加书架、家具或茶几。Gemini 会一路协助你,只改动你指定的部分,同时保留其余部分。
混合设计:把一张图的风格应用到另一张图的物体上。比如,把花瓣的颜色和质感应用到一双雨靴上,或者用蝴蝶翅膀的花纹设计一件连衣裙。
原生世界知识:该模型还能够利用 Gemini 的世界知识,从而解锁全新的应用场景。为了展示这一点,谷歌在 Google AI Studio 中构建了一个模板应用,它可以将一个简单画布变成交互式教育导师。
此外,谷歌还提到所有在 Gemini 应用中生成或编辑的图片都会带有可见水印,以及谷歌的隐形 SynthID 数字水印,以清晰标识它们是 AI 生成的。
该模型一上线就迎来了一波测试热潮,谷歌首席科学家 Jeff Dean 直接以身入局,将自己 P 成了一个足球运动员卡牌角色。
而在其文生图榜单上,字节跳动的即梦 3.0 和 OpenAI 的 GPT-4o 还有少量优势。
下面展示了在各个指标上更详细的分数,其中 gemini-2.5-flash-image-preview 在角色一致性、创意、图表、事物 / 环境等方面优势明显,而在风格化方面,GPT-4o 目前最为领先。
投稿或寻求报道:I产业动态 · 目录#AI产业动态上一篇将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步继续滑动看下一个轻触阅读原文
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
Copyright © 2012-2019 某某网络有限公司 版权所有 Powered by EyouCms备案号:琼ICP备88889999号