Nowa era sztucznej inteligencji: Lumiere – generator wideo oparty na tekstach i obrazach

Článek zveřejněný v lednu 2023 prezentoval novou technologii špičkové umělé inteligence – DALL-E 2, která dokáže generovat obrázky na základě textových popisů. Ovšem o rok později přichází ještě inovativnější technologie, která změní způsob tvorby videí – Lumiere, model generující video na základě textových vstupů, poháněný umělou inteligencí.

Ve svém nejnovějším výzkumném článku publikovaném společností Google Research je Lumiere představen jako model schopný vytvářet mimořádně realistická videa na základě textových promptů a dalších obrázků. Lumiere se vypořádává s jedním z hlavních problémů spojených s generováním videí – tedy tvorbou „realistického, různorodého a souvislého pohybu“. Model generuje plynulá videa charakterizovaná vysokou kvalitou a hyperrealismem.

Inovativní architektura modelu Lumiere je nazývána Space-Time U-Net, která umožňuje generovat časově rozšířená videa během jediného průchodu. Tím se odlišuje od ostatních existujících přístupů, které se spoléhají na syntézu vzdálených klíčových snímků. To přispívá k dosažení konzistence ve vytvořeném video materiálu, což je v porovnání s konkurenčními řešeními unikátní.

Lumiere dokáže generovat videa na základě různých vstupů, jako je text-to-video, který generuje videa na základě textových promptů, a image-to-video, který na základě obrázku a jemu příslušejících promptů dokáže oživit fotografii ve formě videa. Model také dokáže do generovaných videí vnést různorodost vytvářením stylizovaných efektů. Například na základě jediné reference a promptů od uživatele je možné generovat videa ve zvoleném stylu.

Popisovaný model nejenže generuje videa, ale také dokáže upravovat již existující záznamy. S různými vizuálními stylizacemi lze materiál přizpůsobit konkrétním promptům, animovat určité části obrázků a dokonce doplňovat chybějící nebo poškozené úseky videa.

Výzkumníci porovnávali Lumiere s dalšími významnými modely generujícími video na základě textu, jako jsou ImagenVideo, Pika, ZeroScope a Gen2. Testeři, kteří nevěděli, který model generoval konkrétní videa, hodnotili jejich vizuální kvalitu a plynulost pohybu. Výsledky ukázaly, že model společnosti Google dosáhl nejlepších výsledků, pokud jde o kvalitu generování videa na základě textu i obrázků.

Model Lumiere zatím není veřejnosti přístupný, ale jestliže vás zajímá, můžete navštívit webové stránky Lumiere, kde najdete mnoho příkladů, jak tento model funguje. Nová éra umělé inteligence právě začíná!

Často kladené otázky (FAQ)

The source of the article is from the blog macholevante.com