MGIE: Nowe narzędzie edycji zdjęć przy użyciu języka naturalnego

Apple Research opublikował nowy model, który umożliwia użytkownikom opisanie za pomocą prostego języka tego, co chcą zmienić na zdjęciu, bez konieczności korzystania z edytora zdjęć. Model MGIE, nad którym Apple współpracowało z Uniwersytetem Kalifornijskim w Santa Barbara, umożliwia przycinanie, zmianę rozmiaru, odwracanie i dodawanie filtrów do obrazów za pomocą tekstowych poleceń. MGIE, czyli MLLM-Guided Image Editing, może być stosowany do prostych i bardziej skomplikowanych zadań edycji obrazów, takich jak zmiana kształtu określonych obiektów na zdjęciu lub rozjaśnienie ich. Model łączy dwa różne sposoby użycia multimodalnych modeli językowych. Po pierwsze, uczy się interpretować polecenia użytkownika. Następnie „wyobraża sobie”, jak wyglądałaby edycja (na przykład prośba o bardziej niebieskie niebo na zdjęciu staje się zwiększeniem jasności na części obrazu przedstawiającej niebo).

Podczas edycji zdjęcia za pomocą MGIE, użytkownicy muszą tylko napisać, co chcą zmienić na obrazie. W artykule przykładowo wykorzystano edycję obrazu z pizzą pepperoni. Wpisanie polecenia „make it more healthy” dodaje warzywne dodatki. Zdjęcie tygrysów w Saharze wydaje się być ciemne, ale po poleceniu modelowi „add more contrast to simulate more light” obraz staje się jaśniejszy.

„Zamiast krótkich, ale niejednoznacznych wskazówek, MGIE obiera jasny i świadomy aspekt wizualny, prowadzący do sensownej edycji obrazu. Przeprowadziliśmy obszerne badania z różnych aspektów edycji i udowodniliśmy, że nasz model MGIE skutecznie poprawia wydajność przy zachowaniu konkurencyjnej efektywności. Wierzymy również, że oparta na MLLM struktura przewodnictwa może przyczynić się do przyszłych badań nad związkiem między widzeniem a językiem” – powiedzieli badacze w artykule.

Apple udostępniło MGIE do pobrania za pośrednictwem GitHub, ale również udostępniło demo na stronie Hugging Face Spaces, informuje VentureBeat. Firma nie podała, jakie są jej plany dotyczące tego modelu, poza badaniami. Niektóre platformy generujące obrazy, takie jak DALL-E 3 od OpenAI, mogą wykonywać proste zadania edycji zdjęć na podstawie wprowadzonych tekstów. Twórca Photoshopa, Adobe, również posiada własny model edytora AI. Jego model Firefly AI obsługuje generatywną wypełnienie, które dodaje generowane tła do zdjęć.

Apple nie był dotąd dużym graczem w dziedzinie generatywnej AI, w przeciwieństwie do takich firm jak Microsoft, Meta czy Google. Jednak dyrektor generalny Apple, Tim Cook, oświadczył, że w tym roku firma chce dodać więcej funkcji AI do swoich urządzeń. W grudniu badacze Apple udostępnili framework do uczenia maszynowego o otwartym kodzie źródłowym o nazwie MLX, aby ułatwić trenowanie modeli AI na chipach Apple Silicon.

FAQ:

1. Czym jest model MGIE opracowany przez Apple?
Model MGIE (MLLM-Guided Image Editing) opracowany przez Apple we współpracy z Uniwersytetem Kalifornijskim w Santa Barbara umożliwia przycinanie, zmianę rozmiaru, odwracanie i dodawanie filtrów do obrazów za pomocą tekstowych poleceń. Użytkownicy mogą opisywać za pomocą prostego języka to, co chcą zmienić na zdjęciu, bez konieczności korzystania z edytora zdjęć.

2. Jakie zadania edycji obrazów może wykonać model MGIE?
Model MGIE może być stosowany do prostych i bardziej skomplikowanych zadań edycji obrazów, takich jak zmiana kształtu określonych obiektów na zdjęciu lub rozjaśnienie ich. Użytkownicy mogą również dodawać filtry i dokonywać innych poprawek.

3. Jak działanie modelu MGIE opisane jest w artykule?
Podczas edycji zdjęć za pomocą modelu MGIE, użytkownicy muszą tylko napisać, co chcą zmienić na obrazie. Przykładowo, podanie polecenia „make it more healthy” podczas edycji obrazu z pizzą pepperoni dodaje warzywne dodatki. Podanie polecenia „add more contrast to simulate more light” podczas edycji zdjęcia tygrysów w Saharze sprawia, że obraz staje się jaśniejszy.

4. Jakie są plany firmy Apple dotyczące modelu MGIE?
Firma Apple udostępniła MGIE do pobrania za pośrednictwem GitHub oraz udostępniła demo na stronie Hugging Face Spaces. Nie podano jednak informacji na temat planów firmy dotyczących tego modelu, poza badaniami.

5. Jakie inne firmy posiadają modele AI do edycji obrazów na podstawie tekstów?
Inne firmy, takie jak OpenAI z modelem DALL-E 3 oraz Adobe z modelem Firefly AI, również mają swoje modele AI do edycji obrazów na podstawie tekstów.

6. Jakie są plany Apple dotyczące implementacji AI w swoich urządzeniach?
Dyrektor generalny Apple, Tim Cook, oświadczył, że w tym roku firma chce dodać więcej funkcji AI do swoich urządzeń. Apple staje się coraz bardziej zaangażowany w dziedzinę generatywnej AI.

7. Czy Apple udostępnił MLX jako otwarte źródło?
Tak, Apple udostępniło framework do uczenia maszynowego o nazwie MLX jako otwarte źródło. Framework ten ma ułatwić trenowanie modeli AI na chipach Apple Silicon.

The source of the article is from the blog regiozottegem.be