OpenAI推出GPT Image 1.5模型，奥尔特曼晒图，多模态战略布局引关注-产业-智快网

OpenAI推出GPT Image 1.5模型，奥尔特曼晒图，多模态战略布局引关注

发布时间：2025-12-17 12:31 来源：快讯作者：冯璃月

OpenAI近日正式发布全新图像生成模型GPT Image 1.5，并同步在ChatGPT平台推出独立图像操作界面。这款被定位为"旗舰级"的视觉创作工具，不仅在图像质量上实现突破，更通过强化语义理解能力重新定义了AI绘图的技术边界。研发团队首次公开的架构显示，该项目汇聚了包括DALL-E创始人、Sora视频模型主导者在内的顶尖技术力量，标志着OpenAI在多模态领域进入战略整合阶段。

新模型最显著的技术突破在于提示词遵循能力。测试数据显示，在复杂场景描述下，GPT Image 1.5生成图像的语义匹配度较前代提升67%，尤其在人物特征保留、光影效果模拟等维度达到专业级水准。研发负责人Gabriel Goh演示的案例中，系统能根据"穿红色雨衣站在霓虹灯下的亚洲女性"这类长文本，精准生成符合要求的图像，同时保持面部特征的生物真实性。这种能力解决了长期困扰AI绘图的"理解偏差"问题，使创作过程更接近人类艺术家的思维方式。

产品化层面，ChatGPT新增的"Images"标签页整合了从创作到编辑的全流程工具。用户现在可以通过自然语言指令完成图像元素增减、位置调整等精细操作，系统支持最多20层图层叠加编辑。内置的32种风格滤镜和智能构图建议功能，显著降低了专业图像处理的技术门槛。移动端同步更新的侧边栏入口，使图像生成功能与文本交互形成无缝衔接，形成"创作-优化-输出"的完整闭环。

技术团队构成透露了OpenAI的战略布局。项目由DALL-E系列联合创始人Aditya Ramesh与视频生成模型Sora负责人Bill Peebles共同指导，这种跨模态技术融合的架构引发行业关注。多模态负责人Prafulla Dhariwal透露，新模型底层采用了改进的扩散变压器架构，在训练阶段引入了动态注意力机制，这使其能同时处理文本、图像、空间关系等多维度信息。首席研究官Mark Chen强调，这种技术路线为未来实现图像与视频的实时转换奠定了基础。

安全团队配置凸显OpenAI的审慎态度。由二十余名伦理学家、法律专家组成的内容治理小组，构建了包含敏感词过滤、版权检测、深度伪造识别的三重防护体系。测试阶段发现的月历日期错误等案例，已被纳入模型优化清单。产品负责人Adele Li表示，系统会为每张生成图像添加数字水印，并限制暴力、色情等12类敏感内容的生成，这些措施使GPT Image 1.5成为目前合规性最强的AI绘图工具之一。

市场反响超出预期。发布72小时内，全球用户通过ChatGPT生成的图像数量突破1.2亿张，其中35%的创作涉及商业用途。教育、广告、游戏等行业展现出强烈需求，某快消品牌利用新模型生成的动态包装设计，使产品点击率提升40%。API调用数据显示，开发者的平均图像生成成本较前代降低58%，这得益于团队在推理引擎优化上的突破。随着独立图像工作站的上线，ChatGPT正从语言交互平台向综合创作平台转型。

更多>同类内容