Nowa Era Sztucznej Inteligencji: Lumiere - generator wideo oparty na tekście i obrazie

W styczniu 2023 roku Google Research wprowadził wysoko ceniony generator tekstu-na-obraz o nazwie DALL-E 2. Jednak teraz, ponad rok później, witamy nową technologię, która zrewolucjonizuje sposób tworzenia wideo – Lumiere, model generujący wideo na podstawie tekstu, napędzany przez sztuczną inteligencję.

W najnowszym artykule badawczym opublikowanym przez Google Research, Lumiere jest przedstawiany jako model zdolny do tworzenia wyjątkowo realistycznych wideo na podstawie podpowiedzi tekstowych i innych obrazów. Lumiere rozwiązuje jedno z głównych wyzwań związanych z generowaniem wideo, a mianowicie tworzenie “realistycznego, zróżnicowanego i spójnego ruchu”. Model generuje płynne wideo o wysokiej jakości i hiperrealizmie.

Innowacyjną architekturę modelu Lumiere stanowi Space-Time U-Net, który pozwala na generowanie tymczasowo rozszerzonych wideo w jednym przebiegu. Odróżnia go to od innych istniejących podejść, które polegają na syntezie odległych kluczowych klatek. To przyczynia się do osiągnięcia spójności w generowanych materiałach wideo, co jest unikalne w porównaniu do rozwiązań konkurencyjnych.

Lumiere może generować wideo na podstawie różnych wejść, takich jak tekst-na-wideo, które generuje wideo na podstawie podpowiedzi tekstowych, oraz obraz-na-wideo, które na podstawie obrazu i towarzyszących mu podpowiedzi ożywia fotografie w formie wideo. Model może również wprowadzać różnorodność do generowanych wideo, tworząc stylizowane efekty. Na przykład, na podstawie pojedynczego obrazu referencyjnego i podpowiedzi użytkownika, można wygenerować wideo w wybranym stylu.

Opisany model generuje nie tylko wideo, ale może też edytować istniejące nagrania. Dzięki różnym stylizacjom wizualnym można dostosować materiał do konkretnych podpowiedzi, animować konkretne obszary na obrazach, a nawet uzupełniać brakujące lub uszkodzone segmenty wideo.

Badacze porównali Lumiere do innych znaczących modeli generowania wideo opartego na tekście, takich jak ImagenVideo, Pika, ZeroScope i Gen2. Testerzy, nieświadomi, który model wygenerował konkretne wideo, oceniali jakość wizualną i płynność ruchu. Wyniki pokazały, że model Google osiągnął najlepsze rezultaty pod względem jakości generacji wideo zarówno na podstawie tekstu, jak i obrazów.

Model Lumiere nie jest jeszcze dostępny dla ogółu społeczeństwa, ale jeśli jesteś zainteresowany, możesz odwiedzić stronę internetową Lumiere, gdzie znajdziesz wiele przykładów działania tego modelu. Nowa era sztucznej inteligencji dopiero się zaczyna!