Apple Otwiera Kod Źródłowy Modelu Sztucznej Inteligencji do Edycji Zdjęć

Apple n’est pas actuellement l’un des principaux acteurs dans le domaine de l’intelligence artificielle (IA), mais leur nouveau modèle d’IA open-source pour l’édition d’images démontre de quoi cette entreprise est capable. Le modèle, appelé MLLM-Guided Image Editing (MGIE), utilise des modèles de langage multimodaux pour interpréter les commandes basées sur du texte tout en manipulant les images.

Bien que ce ne soit pas le premier outil capable de le faire, « les instructions humaines sont parfois trop concises pour que les méthodes actuelles les comprennent et les suivent », comme décrit dans un article exposant ce projet. Apple a collaboré avec des chercheurs de l’Université de Californie à Santa Barbara dans le développement de MGIE. Les modèles de langage ont le pouvoir de transformer des commandes basées sur du texte simple ou ambigu en instructions plus détaillées et claires que l’éditeur de photos peut comprendre. Par exemple, si un utilisateur souhaite éditer une image de pizza au pepperoni pour la rendre « plus saine », les modèles de langage peuvent interpréter cela comme « ajouter des garnitures végétales » et modifier l’image en conséquence.

MGIE peut non seulement apporter des modifications significatives aux images, mais aussi recadrer, redimensionner et faire pivoter des photos, ainsi qu’améliorer la luminosité, le contraste et l’équilibre des couleurs, le tout grâce à des commandes basées sur du texte. Il peut également éditer des zones spécifiques d’une photo, telles que changer les cheveux, les yeux ou les vêtements d’une personne, ou supprimer des éléments de l’arrière-plan.

Selon VentureBeat, Apple a rendu ce modèle disponible sur GitHub, mais les personnes intéressées peuvent également essayer une démonstration actuellement accessible sur la plateforme Hugging Face Spaces. Apple n’a pas encore déclaré si elle prévoit d’utiliser les connaissances acquises grâce à ce projet de manière à permettre son incorporation en tant qu’outil ou fonctionnalité dans leurs produits.

Questions Fréquemment Posées (FAQ) – MGIE : Le Nouveau Modèle d’IA Open-Source d’Apple pour l’édition d’Images

Q : Qu’est-ce que MGIE ?
R : MGIE est le nouveau modèle d’intelligence artificielle open-source d’Apple pour l’édition d’images. Il utilise des modèles de langage multimodaux pour interpréter les commandes basées sur du texte et manipuler les images.

Q : Comment les modèles de langage de MGIE fonctionnent-ils ?
R : Les modèles de langage de MGIE ont le pouvoir de transformer des commandes basées sur du texte simple ou ambigu en instructions plus détaillées et claires que l’éditeur de photos peut comprendre.

Q : Quelles sont les fonctionnalités de MGIE ?
R : MGIE peut apporter des modifications significatives aux images, recadrer, redimensionner et faire pivoter des photos, ainsi qu’améliorer la luminosité, le contraste et l’équilibre des couleurs. Il peut également éditer des zones spécifiques d’une photo, comme changer les cheveux, les yeux ou les vêtements d’une personne, ou supprimer des éléments de l’arrière-plan.

Q : Où peut-on trouver MGIE ?
R : Apple a rendu le modèle MGIE disponible sur GitHub et une démonstration est également accessible sur la plateforme Hugging Face Spaces.

Q : Est-ce qu’Apple prévoit d’intégrer MGIE dans ses produits ?
R : Apple n’a pas encore déclaré si elle prévoit d’utiliser les connaissances acquises grâce à ce projet d’une manière qui permettrait l’incorporation de MGIE comme outil ou fonctionnalité dans leurs produits.

The source of the article is from the blog mendozaextremo.com.ar