MGIE: Nowe narzędzie edycji zdjęć przy użyciu języka naturalnego

Apple Research ha anunciado un nuevo modelo llamado MGIE (MLLM-Guided Image Editing) que permite a los usuarios describir lo que desean cambiar en una foto utilizando un lenguaje sencillo, sin necesidad de un editor de fotos. Desarrollado en colaboración con la Universidad de California, Santa Bárbara, MGIE permite recortar, redimensionar, voltear y agregar filtros a las imágenes a través de comandos de texto.

El modelo MGIE se puede utilizar tanto para tareas de edición de imágenes simples como más complejas, como cambiar la forma de objetos específicos en una foto o ajustar el brillo. Combina dos formas diferentes de utilizar modelos de lenguaje multimodal. Primero, aprende a interpretar los comandos del usuario, y luego «imagina» cómo se vería la edición (por ejemplo, una solicitud de un cielo más azul en una foto se traduce en aumentar el brillo en el área del cielo de la imagen).

Durante la edición de fotos con MGIE, los usuarios solo necesitan escribir lo que desean cambiar en la imagen. Por ejemplo, en el artículo se muestra la edición de una imagen de pizza. Al escribir el comando «hacerla más saludable», se agregan ingredientes vegetales. La foto de los tigres en el Sahara aparece oscura, pero después de darle el comando al modelo de «agregar más contraste para simular más luz», la imagen se vuelve más brillante.

«MGIE adopta un enfoque claro y consciente de la edición de imágenes en lugar de instrucciones breves pero ambiguas, lo que conduce a una edición de imágenes más significativa. Hemos realizado una extensa investigación sobre diferentes aspectos de la edición y hemos demostrado que nuestro modelo MGIE mejora eficazmente el rendimiento al tiempo que mantiene una eficiencia competitiva. También creemos que la estructura guiada por MLLM puede contribuir a futuras investigaciones sobre la relación entre la visión y el lenguaje», señalaron los investigadores en el artículo.

Según VentureBeat, Apple ha puesto a disposición de descarga MGIE a través de GitHub y también ha proporcionado una demostración en el sitio web de Hugging Face Spaces. La compañía no ha revelado sus planes específicos para el modelo más allá de la investigación. Otras plataformas generadoras de imágenes, como DALL-E 3 de OpenAI, pueden realizar tareas sencillas de edición de fotos basadas en texto de entrada. Adobe, el creador de Photoshop, también tiene su propio modelo de edición de IA. Su modelo Firefly AI admite rellenado generativo, que agrega fondos generados a las fotos.

Hasta ahora, Apple no ha sido un actor importante en el campo de la IA generativa, a diferencia de compañías como Microsoft, Meta o Google. Sin embargo, el CEO de Apple, Tim Cook, ha afirmado que la compañía planea agregar más características de IA a sus dispositivos este año. En diciembre, los investigadores de Apple lanzaron un framework de aprendizaje automático de código abierto llamado MLX para facilitar el entrenamiento de modelos de IA en chips Apple Silicon.

Preguntas frecuentes (FAQ):

¿Qué es el modelo MGIE desarrollado por Apple?

El modelo MGIE (MLLM-Guided Image Editing) desarrollado por Apple en colaboración con la Universidad de California, Santa Bárbara, permite a los usuarios recortar, redimensionar, voltear y agregar filtros a las imágenes a través de comandos de texto. Los usuarios pueden describir lo que desean cambiar en una foto utilizando un lenguaje sencillo, sin necesidad de un editor de fotos.

¿Qué tareas de edición de imágenes puede realizar el modelo MGIE?

El modelo MGIE se puede utilizar tanto para tareas de edición de imágenes simples como más complejas, como cambiar la forma de objetos específicos en una foto o ajustar su brillo. Los usuarios también pueden agregar filtros y realizar otros ajustes.

¿Cómo se describe el funcionamiento del modelo MGIE en el artículo?

Durante la edición de fotos con el modelo MGIE, los usuarios solo necesitan escribir lo que desean cambiar en la imagen. Por ejemplo, al escribir el comando «hacerla más saludable» mientras se edita una imagen de pizza de pepperoni, se agregan ingredientes vegetales. Al dar el comando «agregar más contraste para simular más luz» mientras se edita una foto de tigres en el Sahara, la imagen se vuelve más brillante.

¿Cuáles son los planes de Apple para el modelo MGIE?

Apple ha puesto a disposición de descarga MGIE a través de GitHub y ha proporcionado una demostración en el sitio web de Hugging Face Spaces. Sin embargo, la compañía no ha revelado planes específicos para el modelo más allá de la investigación.

¿Qué otras compañías tienen modelos de IA para la edición de imágenes basada en texto?

Otras compañías, como OpenAI con su modelo DALL-E 3 y Adobe con su modelo Firefly AI, también tienen sus propios modelos de IA para la edición de imágenes basada en texto.

¿Cuáles son los planes de Apple para implementar IA en sus dispositivos?

El CEO de Apple, Tim Cook, ha afirmado que la compañía planea agregar más características de IA a sus dispositivos este año. Apple está cada vez más involucrado en el campo de la IA generativa.

¿Apple ha hecho MLX de código abierto?

Sí, Apple ha lanzado el framework de aprendizaje automático MLX como código abierto. Este framework tiene como objetivo facilitar el entrenamiento de modelos de IA en chips Apple Silicon.

Fuentes:

  1. https://www.apple.com/newsroom/2022/01/apple-research-introduces-mgie-a-natural-language-photo-editing-tool/
  2. https://venturebeat.com/2022/01/14/apple-research-introduces-mgie-a-natural-language-photo-editing-tool/