苹果推出MGIE：新型自然语言照片编辑工具

苹果研究团队推出了一款名为MGIE（MLLM-Guided Image Editing）的全新模型，使用户可以使用简单的语言描述他们想要在照片中进行的修改，而无需使用照片编辑工具。这款模型是与加州大学圣塔芭芭拉分校合作开发的，可以通过文字指令对图像进行剪裁、调整大小、翻转和添加滤镜。

MGIE模型可用于简单和更复杂的图像编辑任务，例如改变照片中特定对象的形状或调整亮度。它结合了两种使用多模态语言模型的方式。首先，它学会解释用户的指令，然后通过“想象”编辑后的效果（例如，在照片中要求天空更蓝，就会将图像中天空区域的亮度增加）。

在使用MGIE进行照片编辑时，用户只需要书写他们想要在图像中修改的内容。例如，在文章中演示了对比萨的编辑。输入指令“使其更健康”后，蔬菜配料被添加到了照片上。撒哈拉沙漠中的虎的照片看起来很暗，但是通过命令模型“增加对比度以模拟更多光线”，图像变得更亮。

研究人员在文章中表示：“MGIE采用了明确和对视觉敏感的图像编辑方面，而不是简短但含糊不清的指令，从而实现了更有意义的图像编辑。我们在编辑的不同方面进行了广泛的研究，并证明了我们的MGIE模型在保持竞争效率的同时有效提升了性能。我们还相信MLLM-guided架构可以为视觉和语言之间的未来研究做出贡献。”

根据VentureBeat的报道，苹果已经通过GitHub提供了MGIE的下载，并在Hugging Face Spaces网站上提供了演示。公司目前尚未透露该模型的具体计划，仅用于研究。其他生成图像的平台，如OpenAI的DALL-E 3，可以根据输入的文本执行简单的照片编辑任务。Adobe作为Photoshop的创建者，也拥有自己的AI编辑模型。他们的Firefly AI模型支持生成填充，可以向照片添加生成的背景。

与微软、Meta或谷歌等公司不同，苹果在生成式AI领域并不是主要参与者。然而，苹果公司的首席执行官蒂姆·库克表示，今年该公司计划在其设备中增加更多的AI功能。去年12月，苹果的研究人员发布了一个名为MLX的开源机器学习框架，旨在方便在苹果芯片上训练AI模型。

常见问题解答：

Q：苹果开发的MGIE模型是什么？
A：苹果与加州大学圣塔芭芭拉分校合作开发的MGIE（MLLM-Guided Image Editing）模型，可以通过文字指令对图像进行剪裁、调整大小、翻转和添加滤镜。用户可以用简单的语言描述他们想要在照片中进行的修改，而无需使用照片编辑工具。

Q：MGIE模型可以执行哪些图像编辑任务？
A：MGIE模型可以用于简单和更复杂的图像编辑任务，例如改变照片中特定对象的形状或调整亮度。用户还可以添加滤镜和进行其他调整。

Q：文章中描述的MGIE模型的操作方式是什么？
A：在使用MGIE模型进行照片编辑时，用户只需要书写他们想要在图像中进行的修改内容。例如，在编辑胡萝卜披萨的图片时，输入指令“使其更健康”会添加蔬菜配料。在编辑撒哈拉沙漠中的虎的照片时，通过输入“增加对比度以模拟更多光线”来使图像更亮。

Q：苹果对于MGIE模型有哪些计划？
A：苹果已将MGIE提供在GitHub上供下载，并在Hugging Face Spaces网站上提供了演示。然而，公司尚未公开具体的模型计划，目前仅用于研究。

Q：还有哪些公司拥有基于文本的图像编辑AI模型？
A：其他公司，如OpenAI的DALL-E 3模型和Adobe的Firefly AI模型，也拥有自己基于文本的图像编辑AI模型。

Q：苹果在其设备中的AI实施计划是什么？
A：苹果首席执行官蒂姆·库克表示，该公司计划在今年向其设备中增加更多的AI功能。苹果在生成式AI领域的参与度越来越高。

Q：苹果是否将MLX开源？
A：是的，苹果已经将MLX机器学习框架作为开源发布。该框架旨在方便在苹果芯片上训练AI模型。

摘自：VentureBeat

The source of the article is from the blog exofeed.nl

苹果推出MGIE：新型自然语言照片编辑工具

ByRoman Głogulski

ByRoman Głogulski

Related Post

Realme成为印度1亿部智能手机销售的中国品牌

人工智能在Windows 11中的新可能：Copilot与个人、企业用户的收益

You missed

关于6G安全的令人震惊的真相，没人谈论

用这个令人惊讶的新服务彻底改变您的商业运营

颠覆连接：爱立信准备主导企业网络吗？

这是航空旅行的未来吗？探索阿布扎比正在酝酿的变化！