Google prezentuje narzędzie do generowania wideo oparte na sztucznej inteligencji

Google zaprezentował narzędzie do generowania wideo z wykorzystaniem sztucznej inteligencji o nazwie Lumiere. Jednak nie jest jasne, kiedy lub czy ktokolwiek spoza giganta wyszukiwania będzie mógł je wypróbować. Narzędzie to już zdobyło uwagę użytkowników.

Zespół badawczy Google opublikował wideo prezentujące Lumiere, nowy model konwersji tekstu na wideo. Według Inbar Mosseri, lidera zespołu, narzędzie “generuje spójne filmy wysokiej jakości za pomocą prostych tekstowych podpowiedzi”, trwających do pięciu sekund. Przykładowe podpowiedzi to “puszysty mały słoń noszący pomarańczowy kapelusz próbujący zrozumieć laptop” i “panda uciekająca jedząc popcorn w parku”.

Podczas gdy większość skupia się na generatywnej sztucznej inteligencji w zakresie generowania odpowiedzi tekstowych (np. ChatGPT) lub generowania statycznych obrazów (np. Dall-E), generowanie wideo na podstawie tekstowych podpowiedzi to z pewnością nowa granica. Jeśli Lumiere faktycznie może “demonstrować wyniki na światowym poziomie w generowaniu tekstu na wideo”, jak twierdzi Google, to być może do 2023 roku przekroczymy etap “horrorycznych abominacji” generowanych przez AI obrazów.

Jak pokazano na filmie, Lumiere ma zdolność generowania wideo na podstawie tekstu i obrazów oraz tworzenia wideo w stylu zgodnym z estetyką źródłową. Inne funkcje obejmują możliwość uzupełnienia brakujących wizualizacji w klipie wideo, takich jak animacja znanych dzieł sztuki, takich jak “Gwiaździsta noc” Vincenta van Gogha (“Film ze sztafażem obrazu Gwiaździsta noc z poruszającymi się chmurami”) czy “Mona Lisa” Leonarda da Vinci (“Zmęczona i ziewająca kobieta”). Wideo przedstawiające “Gwiaździstą noc” jest niemal bez skazy, podczas gdy “Mona Lisa” wydaje się bardziej śmiać niż ziewać.

Podczas gdy wiele przedstawionych zwierząt, takich jak “paśnikowy jeleń wśród pięknych dzikich kwiatów” i “szczęśliwy słoń noszący kapelusz urodzinowy idący pod wodą”, wygląda realistycznie, jest coś nie tak z niektórymi psami. Tekstury takie jak jamnik jeżdżący na deskorolce lub szczenię golden retrievera biegnącego w parku prawie mogą zostać wzięte za realne, ale ich twarze – a może oczy konkretnie – zdradzają fakt, że są to obrazy wygenerowane przez komputer.

Niemniej jednak narzędzia do edycji wideo mają ogromny potencjał. Używając pliku źródłowego i podpowiedzi takich jak “zrobiony z kolorowych klocków” lub “zrobiony z kwiatów”, użytkownicy mogą całkowicie zmienić styl przedstawiony na wideo. Dzięki takim podpowiedziom jak “noszący szlafrok”, “noszący kapelusz urodzinowy” lub “włażący w kalosze”, za pomocą Lumiere można dodać elementy małego kurczaczka do obrazu. To narzędzie może uczynić edycję wideo bardziej dostępną dla osób niezaznajomionych z projektowaniem graficznym.

Chociaż Lumiere wydaje się przyjazne dla użytkownika na podstawie dostarczonego materiału, techniczny opis jego działania nie jest prosty. Strona internetowa projektu opisuje Lumiere jako “model dyfuzji przestrzennoczasowej”, co brzmi jak coś, nad czym pracowałby Dr. Emmett Brown w filmie “Powrót do przyszłości”. Google Research twierdzi, że oznacza to, że model konwersji tekstu na obraz jest szkolony do generowania wideo poprzez przetwarzanie go w wielu skalach przestrzennoczasowych, co pomaga tworzyć filmy o “realistycznych, różnorodnych i spójnych ruchach”.

Według Google jest to poprawa w porównaniu do istniejących modeli, które “syntezują odległe klatki kluczowe, a następnie wprowadzają rozdzielczość czasową”. Jason Alan Snyder, Globalny Dyrektor Technologii w firmie Momentum Worldwide, wyjaśnił to jako “różnicę między oglądaniem przedstawienia kukiełkowego a doświadczaniem baletu w Lincoln Center”.

Dlatego Lumiere nie skupia się tylko na poszczególnych klatkach; tworzy płynne i płynące ruchy dla każdej klatki. Innymi słowy, jeśli pomyślimy o tradycyjnym sposobie tworzenia filmu, musielibyśmy tworzyć kluczowe sceny i wypełniać luki później. “Lumiere jest inny. Widzi cały film w swojej głowie, rozumie, jak postacie się poruszają, jak przedmioty się oddziałują, jak wszystko zmienia się w czasie” – powiedział Snyder. “To tak jak rysowanie całej animowanej książki naraz, zapewniając płynność na każdej stronie”.

Tylko czas pokaże, co przyniesie przyszłość. Tymczasem, jak fani filmu “Piękna i Bestia” wiedzą, Lumiere oznacza “światło” po francusku.

Najczęściej zadawane pytania (FAQ) dotyczące narzędzia Lumiere firmy Google:

1. Czym jest narzędzie Lumiere firmy Google?
Narzędzie Lumiere firmy Google to model konwersji tekstu na wideo, oparty na sztucznej inteligencji. Generuje wysokiej jakości filmy na podstawie prostych podpowiedzi tekstowych.

2. Jakie są funkcje narzędzia Lumiere?
Narzędzie Lumiere może generować wideo na podstawie tekstu i obrazów, tworzyć wideo w stylizowanym stylu oraz uzupełniać brakujące wizualizacje w klipie wideo. Może także animować znane dzieła sztuki, takie jak “Gwiaździsta noc” Vincenta van Gogha i “Mona Lisa” Leonarda da Vinci.

3. Jakie są korzyści wynikające z korzystania z narzędzia Lumiere?
Narzędzie Lumiere może ułatwić edycję wideo osobom niezaznajomionym z projektowaniem graficznym, umożliwiając zmiany stylu za pomocą prostych podpowiedzi tekstowych.

4. Jak działa narzędzie Lumiere?
Narzędzie Lumiere opiera się na modelu dyfuzji przestrzennoczasowej. Ten model generuje wideo, przetwarzając je w wielu skalach przestrzennoczasowych, tworząc filmy o realistycznym, różnorodnym i spójnym ruchu.

5. Czy narzędzie Lumiere jest dostępne dla osób spoza Google?
Nie jest jasne, kiedy lub czy narzędzie Lumiere będzie dostępne dla osób spoza Google. Obecnie narzędzie to jest przedstawiane jako projekt badawczy.

6. Jakie są potencjalne zastosowania narzędzia Lumiere?
Narzędzie Lumiere może być wykorzystywane w produkcji filmowej, reklamie, animacji, a nawet w rozrywce i sztuce.

7. Co oznacza “model dyfuzji przestrzennoczasowej”?
Model dyfuzji przestrzennoczasowej oznacza, że model konwersji tekstu na obraz generuje wideo, przetwarzając je w wielu skalach przestrzennoczasowych, tworząc filmy o realistycznym, różnorodnym i spójnym ruchu.

8. W czym Lumiere różni się od innych modeli generatywnej sztucznej inteligencji?
Lumiere generuje filmy, w których obrazy są płynnie, tworząc płynne i płynące ruchy, które wydają się realistyczne bez mechanicznych ruchów.

9. Jakie mogą być potencjalne wyzwania związane z narzędziem Lumiere?
Chociaż narzędzie Lumiere wydaje się obiecujące, techniczny opis jego działania może być złożony. Model jest nadal rozwijany jako projekt badawczy.

10. Skąd pochodzi nazwa Lumiere dla tego narzędzia?
Nazwa Lumiere pochodzi od francuskiego słowa oznaczającego “światło”.

Sugerowane linki:
– Google Research
– New Atlas

The source of the article is from the blog dk1250.com