微软 宣布 MAI-Image-1,其第一个完全内部开发的图像生成模型。该模型将“很快”在 Copilot 和 Bing Image Creator 上可用,目前可以在 LMA竞技场 平台,最初是在该平台上进行基准测试的。在开发 MAI-Image-1 时,微软表示其团队致力于避免重复或通用风格化的输出。 “例如,我们优先考虑严格的数据选择和细致入微的评估,重点关注密切反映现实世界创意用例的任务,”公司声明解释道。该开发过程还纳入了创意产业专业人士的直接反馈,以告知模型的功能和整体改进。用于测试的平台 LMArena 的运行方式是让用户向两个匿名聊天机器人提出查询,然后投票选出最佳响应,直到确定获胜者。据报道,该模型擅长生成风景和逼真的图像。其具体优势包括准确捕捉生成场景中与光照、阴影和反射相关的复杂细节。微软指出,“与许多更大、更慢的模型相比”,这种高水平的性能尤其明显,表明其设计中对计算效率的重视。此功能将其定位为创建详细且逼真的视觉内容的工具。在 LMArena 文本到图像排行榜上,MAI-Image-1 以 1,096 分排名第 9。相比之下,谷歌的 Gemini-2.5-Flash(也称为 Nano-Banana)以 1,154 分排名第二,而 OpenAI 的模型以 1,123 分排名第七。该排行榜目前由中国科技公司浑源开发的人工智能模型Hunyuan-image-3.0领先。 MAI-Image-1 的创建是 Microsoft 更广泛的内部人工智能计划的一部分。该公司还开发了其他专有模型,包括用于自然语音生成的 MAI-Voice-1 和 Phi 系列小语言模型,旨在提高推理任务的性能。这一内部开发与公司对 OpenAI 的持续支持同时进行,其中包括为其单独的模型开发工作提供财务支持和必要的基础设施。这 AI图像生成 该领域正在经历一段激烈的活动时期。 OpenAI 的模型此前因其对吉卜力工作室艺术风格的惊人模仿而受到病毒关注,而谷歌的 Nano-Banana 则以其强大的 AI 编辑功能树立了新的标杆。 AIM 使用 LMArena 对微软的 MAI-Image-1、谷歌的 Gemini-2.5-Flash 和 OpenAI 的 GPT-image-1 进行了直接比较。这些模型的测试提示是“下午晚些时候,两个人在一家咖啡馆的窗边”。这项特定测试旨在评估每个模型处理混合光照、反射和阴影真实感的效果。用户可以在LMArena平台上提交类似的提示来自行测试这些模型。





