MGIE: Nowe narzędzie edycji zdjęć przy użyciu języka naturalnego

苹果研究团队推出了一款名为MGIE(MLLM-Guided Image Editing)的全新模型,使用户可以使用简单的语言描述他们想要在照片中进行的修改,而无需使用照片编辑工具。这款模型是与加州大学圣塔芭芭拉分校合作开发的,可以通过文字指令对图像进行剪裁、调整大小、翻转和添加滤镜。

MGIE模型可用于简单和更复杂的图像编辑任务,例如改变照片中特定对象的形状或调整亮度。它结合了两种使用多模态语言模型的方式。首先,它学会解释用户的指令,然后通过“想象”编辑后的效果(例如,在照片中要求天空更蓝,就会将图像中天空区域的亮度增加)。

在使用MGIE进行照片编辑时,用户只需要书写他们想要在图像中修改的内容。例如,在文章中演示了对比萨的编辑。输入指令“使其更健康”后,蔬菜配料被添加到了照片上。撒哈拉沙漠中的虎的照片看起来很暗,但是通过命令模型“增加对比度以模拟更多光线”,图像变得更亮。

研究人员在文章中表示:“MGIE采用了明确和对视觉敏感的图像编辑方面,而不是简短但含糊不清的指令,从而实现了更有意义的图像编辑。我们在编辑的不同方面进行了广泛的研究,并证明了我们的MGIE模型在保持竞争效率的同时有效提升了性能。我们还相信MLLM-guided架构可以为视觉和语言之间的未来研究做出贡献。”

根据VentureBeat的报道,苹果已经通过GitHub提供了MGIE的下载,并在Hugging Face Spaces网站上提供了演示。公司目前尚未透露该模型的具体计划,仅用于研究。其他生成图像的平台,如OpenAI的DALL-E 3,可以根据输入的文本执行简单的照片编辑任务。Adobe作为Photoshop的创建者,也拥有自己的AI编辑模型。他们的Firefly AI模型支持生成填充,可以向照片添加生成的背景。

与微软、Meta或谷歌等公司不同,苹果在生成式AI领域并不是主要参与者。然而,苹果公司的首席执行官蒂姆·库克表示,今年该公司计划在其设备中增加更多的AI功能。去年12月,苹果的研究人员发布了一个名为MLX的开源机器学习框架,旨在方便在苹果芯片上训练AI模型。

常见问题解答:

Q:苹果开发的MGIE模型是什么?
A:苹果与加州大学圣塔芭芭拉分校合作开发的MGIE(MLLM-Guided Image Editing)模型,可以通过文字指令对图像进行剪裁、调整大小、翻转和添加滤镜。用户可以用简单的语言描述他们想要在照片中进行的修改,而无需使用照片编辑工具。

Q:MGIE模型可以执行哪些图像编辑任务?
A:MGIE模型可以用于简单和更复杂的图像编辑任务,例如改变照片中特定对象的形状或调整亮度。用户还可以添加滤镜和进行其他调整。

Q:文章中描述的MGIE模型的操作方式是什么?
A:在使用MGIE模型进行照片编辑时,用户只需要书写他们想要在图像中进行的修改内容。例如,在编辑胡萝卜披萨的图片时,输入指令“使其更健康”会添加蔬菜配料。在编辑撒哈拉沙漠中的虎的照片时,通过输入“增加对比度以模拟更多光线”来使图像更亮。

Q:苹果对于MGIE模型有哪些计划?
A:苹果已将MGIE提供在GitHub上供下载,并在Hugging Face Spaces网站上提供了演示。然而,公司尚未公开具体的模型计划,目前仅用于研究。

Q:还有哪些公司拥有基于文本的图像编辑AI模型?
A:其他公司,如OpenAI的DALL-E 3模型和Adobe的Firefly AI模型,也拥有自己基于文本的图像编辑AI模型。

Q:苹果在其设备中的AI实施计划是什么?
A:苹果首席执行官蒂姆·库克表示,该公司计划在今年向其设备中增加更多的AI功能。苹果在生成式AI领域的参与度越来越高。

Q:苹果是否将MLX开源?
A:是的,苹果已经将MLX机器学习框架作为开源发布。该框架旨在方便在苹果芯片上训练AI模型。

摘自:VentureBeat

The source of the article is from the blog exofeed.nl