Nowa era sztucznej inteligencji: Lumiere – generator wideo oparty na tekstach i obrazach

No início de 2023, o Google Research apresentou o aclamado DALL-E 2, um gerador de imagem a partir de texto. No entanto, agora, mais de um ano depois, recebemos uma nova tecnologia que revolucionará a forma como os vídeos são criados – Lumiere, um modelo de geração de vídeo baseado em texto e inteligência artificial.

No mais recente artigo de pesquisa publicado pelo Google Research, Lumiere é destacado como um modelo capaz de criar vídeos excepcionalmente realistas com base em descrições textuais e outras imagens. Lumiere aborda um dos principais desafios associados à geração de vídeos, a saber, criar “movimentos realistas, diversos e coerentes”. O modelo gera vídeos suaves, caracterizados por alta qualidade e hiper-realismo.

A arquitetura inovadora do modelo Lumiere é o Space-Time U-Net, que possibilita a geração de vídeos temporalmente estendidos em uma única passagem. Isso o diferencia de outras abordagens existentes que dependem da síntese de quadros-chave distantes. Isso contribui para alcançar consistência nos materiais de vídeo gerados, o que é único em relação a soluções concorrentes.

Lumiere pode gerar vídeos com base em diferentes entradas, como texto-para-vídeo, que gera vídeos a partir de descrições textuais, e imagem-para-vídeo, que utiliza uma imagem e suas descrições acompanhantes para dar vida a uma fotografia na forma de um vídeo. O modelo também pode introduzir diversidade nos vídeos gerados, criando efeitos estilizados. Por exemplo, com base em uma única imagem de referência e sugestões do usuário, vídeos podem ser gerados em um estilo escolhido.

O modelo descrito não apenas gera vídeos, mas também pode editar gravações existentes. Com várias estilizações visuais, é possível personalizar o material de acordo com sugestões específicas, animar áreas específicas em imagens e até preencher segmentos de vídeo faltantes ou danificados.

Pesquisadores compararam Lumiere a outros modelos notáveis de geração de vídeo baseada em texto, como ImagenVideo, Pika, ZeroScope e Gen2. Avaliadores, sem saber qual modelo gerou vídeos específicos, avaliaram a qualidade visual e a fluidez de movimento. Os resultados mostraram que o modelo do Google obteve os melhores resultados em termos de qualidade de geração de vídeo com base em texto e imagens.

O modelo Lumiere ainda não está disponível para o público em geral, mas se você estiver interessado, pode visitar o site Lumiere, onde encontrará muitos exemplos deste modelo em ação. A nova era da inteligência artificial está apenas começando!

FAQ

1. Como funciona o Lumiere?

O Lumiere é um modelo de geração de vídeo baseado em texto e imagem. Ele utiliza a inteligência artificial para criar vídeos realistas a partir de descrições textuais e outras imagens.

2. O Lumiere pode editar vídeos existentes?

Sim, o Lumiere também pode editar gravações existentes. Com várias estilizações visuais, é possível personalizar o material de acordo com sugestões específicas, animar áreas específicas em imagens e até preencher segmentos de vídeo faltantes ou danificados.

3. Quais são as principais vantagens do Lumiere em relação a outros modelos?

O Lumiere se destaca por sua capacidade de gerar vídeos com alta qualidade, fluidez de movimento e hiper-realismo. Sua arquitetura inovadora e abordagem única contribuem para a consistência nos vídeos gerados.

The source of the article is from the blog radiohotmusic.it