Apple a récemment présenté un nouveau modèle appelé MGIE (MLLM-Guided Image Editing) qui permet aux utilisateurs de décrire ce qu’ils souhaitent modifier dans une photo en utilisant un langage simple, sans avoir besoin d’un éditeur de photos. Développé en collaboration avec l’Université de Californie, Santa Barbara, MGIE permet de recadrer, de redimensionner, de retourner et d’ajouter des filtres aux images grâce à des commandes textuelles.
Le modèle MGIE peut être utilisé pour des tâches de retouche d’images simples ou plus complexes, telles que le changement de forme d’objets spécifiques dans une photo ou l’ajustement de la luminosité. Il combine deux méthodes différentes d’utilisation de modèles de langage multimodaux. Tout d’abord, il apprend à interpréter les commandes de l’utilisateur, puis il « imagine » à quoi ressemblerait la retouche (par exemple, une demande de ciel plus bleu dans une photo se traduit par une augmentation de la luminosité dans la zone du ciel de l’image).
Pendant la retouche photo avec MGIE, les utilisateurs n’ont qu’à écrire ce qu’ils souhaitent changer dans l’image. Par exemple, dans l’article, la retouche d’une image de pizza est démontrée. En tapant la commande « rendez-la plus saine », des garnitures végétales sont ajoutées. L’image de tigres dans le Sahara semble sombre, mais après avoir donné la commande au modèle d’ajouter plus de contraste pour simuler plus de lumière, l’image devient plus lumineuse.
« MGIE prend en compte un aspect clair et conscient de la retouche d’images plutôt que des instructions brèves mais ambiguës, ce qui permet une retouche d’image plus significative. Nous avons mené des recherches approfondies sur différents aspects de la retouche et avons prouvé que notre modèle MGIE améliorait efficacement les performances tout en maintenant une efficacité concurrentielle. Nous pensons également que la structure guidée par le MLLM peut contribuer aux futures recherches sur la relation entre la vision et le langage », ont déclaré les chercheurs dans l’article.
Apple a rendu MGIE disponible en téléchargement via GitHub et a également fourni une démo sur le site web Hugging Face Spaces, selon VentureBeat. La société n’a pas divulgué ses plans spécifiques pour le modèle au-delà de la recherche. D’autres plateformes de génération d’images, telles que DALL-E 3 d’OpenAI, peuvent effectuer des tâches simples de retouche photo en fonction d’un texte d’entrée. Adobe, le créateur de Photoshop, dispose également de son propre modèle d’édition IA. Leur modèle Firefly AI prend en charge le remplissage génératif, qui ajoute des arrière-plans générés aux photos.
Contrairement à des entreprises telles que Microsoft, Meta ou Google, Apple n’a pas été un acteur majeur dans le domaine de l’IA générative jusqu’à présent. Cependant, le PDG d’Apple, Tim Cook, a déclaré que la société envisageait d’ajouter davantage de fonctionnalités d’IA à ses appareils cette année. En décembre, les chercheurs d’Apple ont publié un framework d’apprentissage automatique open-source appelé MLX pour faciliter la formation de modèles d’IA sur les puces Apple Silicon.
FAQ :
Qu’est-ce que le modèle MGIE développé par Apple ?
Le modèle MGIE (MLLM-Guided Image Editing) développé par Apple en collaboration avec l’Université de Californie, Santa Barbara, permet aux utilisateurs de recadrer, redimensionner, retourner et ajouter des filtres aux images grâce à des commandes textuelles. Les utilisateurs peuvent décrire ce qu’ils veulent changer dans une photo en utilisant un langage simple, sans avoir besoin d’un éditeur de photos.
Quelles tâches de retouche d’images le modèle MGIE peut-il effectuer ?
Le modèle MGIE peut être utilisé pour des tâches de retouche d’images simples ou plus complexes, telles que le changement de forme d’objets spécifiques dans une photo ou l’ajustement de leur luminosité. Les utilisateurs peuvent également ajouter des filtres et effectuer d’autres ajustements.
Comment est décrite l’opération du modèle MGIE dans l’article ?
Pendant la retouche photo avec le modèle MGIE, les utilisateurs n’ont qu’à écrire ce qu’ils veulent changer dans l’image. Par exemple, en tapant la commande « rendez-la plus saine » lors de la retouche d’une image de pizza au pepperoni, des garnitures végétales sont ajoutées. En donnant la commande « ajoutez plus de contraste pour simuler plus de lumière » lors de la retouche d’une photo de tigres dans le Sahara, l’image devient plus lumineuse.
Quels sont les projets d’Apple pour le modèle MGIE ?
Apple a rendu MGIE disponible en téléchargement via GitHub et a fourni une démo sur le site web Hugging Face Spaces. Cependant, la société n’a pas divulgué de plans spécifiques pour le modèle au-delà de la recherche.
Quelles autres entreprises proposent des modèles d’IA pour la retouche d’images basée sur du texte ?
D’autres entreprises, telles qu’OpenAI avec son modèle DALL-E 3 et Adobe avec son modèle Firefly AI, proposent également leurs propres modèles d’IA pour la retouche d’images basée sur du texte.
Quels sont les projets d’Apple pour l’intégration de l’IA dans ses appareils ?
Le PDG d’Apple, Tim Cook, a déclaré que la société prévoit d’ajouter davantage de fonctionnalités d’IA à ses appareils cette année. Apple s’implique de plus en plus dans le domaine de l’IA générative.
Apple a-t-il rendu MLX open source ?
Oui, Apple a publié le framework d’apprentissage automatique MLX en open source. Ce framework vise à faciliter la formation de modèles d’IA sur les puces Apple Silicon.
Sources :
– VentureBeat: [Lien vers VentureBeat](https://www.venturebeat.com/)
– GitHub: [Lien vers GitHub](https://github.com/)
– Hugging Face Spaces: [Lien vers Hugging Face Spaces](https://huggingface.co/spaces)