昨晚备受关注的图像生成与编辑模型 nano banana 正式揭开面纱。
不出所料该模型由谷歌开发并获得正式名称 gemini-2.5-flash-image-preview 官方介绍显示其具备”行业领先的图像生成与编辑能力、卓越的角色一致性以及超快速度”特性 根据命名推测谷歌可能还保留着性能更强但运算速度较慢的标准版 gemini-2.5-image 模型 目前该模型已在 Google AI Studio 和 Gemini API 平台开放预览服务 并提供免费试用机会 该模型支持 32k 上下文长度设置 并提供温度参数(用于调节创作自由度)等高级选项 不过目前尚不支持中文输入生成图像内容 在接收到中文指令时将返回文字回复 用户可通过 Gemini 平台选择 2.5 Flash 模型并配合恰当提示词进行操作 成本方面估算单张图像生成费用约 0.039 美元(约合人民币 0.28 元)显著低于 OpenAI 的同类产品 官方特别强调在图像编辑领域尤为注重跨画面角色特征一致性 用户上传照片并指定修改区域后 可在不同场景中保持人物或宠物形象稳定例如添加服饰变换职业 或呈现历史年代穿越效果 同时支持将编辑成果转化为视频 具体功能包括:场景迁移可将人物与宠物置于新环境 如篮球场合影;
多轮迭代允许逐步修改房间布局 添加家具时仅更新指定区域;
风格迁移可将花朵纹理应用到雨靴 或蝴蝶图案设计连衣裙 此外借助 Gemini 的世界知识库 还能创建交互式教育应用 所有输出内容均带有可见水印及 SynthID 隐形数字水印 明确标识 AI 生成属性 模型上线后迅速引发测试热潮 谷歌首席科学家 Jeff Dean 将自己虚拟化为足球卡牌角色 DeepMind 创始人 Demis Hassabis 也制作了专属形象照 在 Artificial Analysis 图像编辑排行榜上 gemini-2.5-flash-image-preview 以 1212 分登顶 而字节跳动即梦 3.0 和 OpenAI GPT-4o 在文生图领域仍具优势 LM Arena 最新投票数据显示该模型已在两项任务中均位列榜首 其角色一致性、创意表现及环境构建能力尤为突出 而风格化维度 GPT-4o 略占优势
评论列表 (0条):
加载更多评论 Loading...