MGIE: Nowe narzędzie edycji zdjęć przy użyciu języka naturalnego

애플 연구팀은 MGIE (MLLM-Guided Image Editing)라고 불리는 새로운 모델을 선보였다. 이 모델은 사용자가 사진 편집기 없이 간단한 언어로 어떤 부분을 수정하고 싶은지 기술할 수 있게 해준다. 캘리포니아 대학교 산타바바라 캠퍼스와의 공동 개발로 이루어진 MGIE는 텍스트 명령을 통해 이미지의 자르기, 크기 조절, 뒤집기, 필터 추가 등의 작업을 수행할 수 있다.

MGIE 모델은 특정 사물의 모양을 변경하거나 밝기를 조절하는 것과 같은 심플하고 더 복잡한 이미지 편집 작업에 모두 사용될 수 있다. 이 모델은 두 가지 다른 형태의 멀티모달 언어 모델을 결합한다. 먼저, 사용자 명령을 해석하고, 그런 다음 편집 결과물을 “상상”한다 (예를 들어 사진에서 하늘의 색을 더 푸르게 하라는 요청은 이미지의 하늘 영역의 밝기를 증가시킨다).

MGIE를 사용하여 사진을 편집할 때, 사용자는 이미지에서 어떤 부분을 변경하고자 하는지 작성하기만 하면 된다. 예를 들어, 본 기사에서는 피자 이미지를 편집하는 과정이 설명되었다. “건강하게 만들어 주세요”라는 명령을 입력하면 야채 토핑이 추가된다. 사하라 사막에서 호랑이 사진을 어둡게 찍었지만, “더 많은 대비를 추가해서 더 많은 빛을 시뮬레이션해주세요”라는 명령을 내리면 이미지가 밝아진다.

애플의 연구진은 기사에서 “MGIE는 간결하지만 모호한 명령 대신 편집 이미지의 명확하고 시각적인 요소를 강조하며, 의미 있는 이미지 편집을 위한 연구를 수행했습니다. 우리는 편집의 다양한 측면에 대한 광범위한 연구를 수행하고 MGIE 모델이 경쟁력 있는 효율성을 유지하면서 동작을 향상시킴을 입증했습니다. 또한 MLLM-가이드 구조가 비전과 언어의 관계에 대한 미래 연구에 기여할 수 있다고 믿습니다”라고 말했다.

VentureBeat에 따르면, 애플은 MGIE를 GitHub를 통해 다운로드 할 수 있도록 하고 Hugging Face Spaces 웹사이트에서 데모도 제공했다. 애플은 연구 이상의 구체적인 모델 계획은 공개하지 않았다. OpenAI의 DALL-E 3와 같은 다른 이미지 생성 플랫폼은 텍스트 입력에 기반한 간단한 사진 편집 작업을 수행할 수 있다. 또한 포토샵의 제작자인 Adobe도 자체 AI 편집 모델을 보유하고 있다. 그들의 Firefly AI 모델은 생성적 채우기를 지원하여 사진에 생성된 배경을 추가할 수 있다.

지금까지 애플은 마이크로소프트, 메타 또는 구글과 같은 기업들과는 달리 생성적 AI 분야에서 주요 역할을 담당하지 않았다. 그러나 애플 CEO인 팀 쿡은 올해 기기에 더 많은 AI 기능을 추가할 계획이 있다고 밝혔다. 지난 12월, 애플 연구원들은 MLX라고 불리는 오픈 소스 머신 러닝 프레임워크를 공개하여 애플 실리콘 칩에서 AI 모델을 훈련시키기 위한 지원을 제공했다.

FAQ:

Q: 애플이 개발한 MGIE 모델이 무엇인가요?
A: 애플과 캘리포니아 대학교 산타바바라 캠퍼스가 공동으로 개발한 MGIE (MLLM-Guided Image Editing) 모델은 사용자가 사진 편집기 없이 간단한 언어를 사용하여 이미지를 자르기, 크기 조절, 뒤집기, 필터 추가할 수 있게 해줍니다.

Q: MGIE 모델은 어떤 이미지 편집 작업을 수행할 수 있나요?
A: MGIE 모델은 특정 사물의 모양을 변경하거나 밝기를 조절하는 것과 같은 심플한 작업부터 더 복잡한 이미지 편집 작업까지 다양하게 수행할 수 있습니다. 사용자는 필터를 추가하거나 다른 조정을 할 수도 있습니다.

Q: 기사에서 MGIE 모델의 작동 방식은 어떻게 설명되었나요?
A: MGIE 모델을 사용하여 사진을 편집할 때, 사용자는 이미지에서 어떤 부분을 변경하고자 하는지만 작성하면 됩니다. 예를 들어, 페퍼로니 피자 사진을 편집하는 중에 “건강하게 만들어 주세요”라는 명령을 입력하면 야채 토핑이 추가됩니다. 사하라 사막의 호랑이 사진에 “더 많은 대비를 추가해서 더 많은 빛을 시뮬레이션해주세요”라는 명령을 내리면 이미지가 밝아집니다.

Q: MGIE 모델에 대한 애플의 계획은 무엇인가요?
A: 애플은 MGIE를 GitHub를 통해 다운로드할 수 있도록 제공하였으며, Hugging Face Spaces 웹사이트에서 데모도 제공하였습니다. 그러나 애플은 연구 이상의 구체적인 모델 계획을 공개하지 않았습니다.

Q: 어떤 다른 기업들이 텍스트 기반 이미지 편집용 AI 모델을 가지고 있나요?
A: OpenAI의 DALL-E 3 모델이나 포토샵의 제작자인 Adobe의 Firefly AI 모델 등 기타 기업들도 텍스트 기반의 이미지 편집용 AI 모델을 보유하고 있습니다.

Q: 애플은 자신의 기기에 AI를 어떻게 구현할 계획인가요?
A: 애플의 CEO인 팀 쿡은 올해 기기에 더 많은 AI 기능을 추가할 계획이 있다고 밝혔습니다. 애플은 생성적 AI 분야에 점차적으로 참여하고 있습니다.

Q: 애플은 MLX를 오픈 소스로 공개했나요?
A: 네, 애플은 MLX 머신 러닝 프레임워크를 오픈 소스로 공개했습니다. 이 프레임워크는 애플 실리콘 칩에서 AI 모델을 훈련하는 것을 용이하게 하기 위한 목적을 가지고 있습니다.

정보 출처: VentureBeat (venturebeat.com)

The source of the article is from the blog mivalle.net.ar