Categories: BlogIA nos negócios

Google Genie — um modelo de IA generativa que cria mundos totalmente interativos a partir de imagens | IA nos negócios #123

O que é o Google Genie?

Google Genie (https://sites.google.com/view/genie-2024/) é um modelo de mundo fundamental desenvolvido pela DeepMind. É um modelo de IA generativa treinado em mais de 30.000 horas de filmagens de jogos de plataforma 2D disponíveis publicamente. Sua característica principal é a capacidade de gerar ambientes totalmente interativos e jogáveis diretamente a partir de imagens únicas, fotos e até esboços desenhados à mão.

Fonte: Genie: Ambientes Interativos Generativos (https://arxiv.org/abs/2402.15391)

Como isso é possível? O Genie usa uma técnica de aprendizado não supervisionado no processo de adquirir a capacidade de controlar precisamente o ambiente com base apenas em filmagens de vídeo. Nenhuma marcação de ação humana é necessária. Usando um módulo especial de codificação de ações, ele captura mudanças sutis entre quadros de vídeo sucessivos e as mapeia para representações internas de movimento, como pular ou virar à esquerda. O modelo de dinâmica então gera o próximo quadro na sequência com base nas ações codificadas.

Como resultado, o Genie pode criar ambientes de jogo totalmente controláveis e interativos a partir de qualquer dado visual. Cada movimento do jogador gera um novo quadro único em tempo real, criando uma sessão jogável e suave. Esta é uma inovação realmente grande que nos permite criar mundos interativos inteiros a partir de imagens ou texto.

Por que o Genie é inovador?

A inovação do Genie reside na combinação de vários elementos-chave em um único modelo:

  • modelos de vídeo generativos, como Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) ou maskvit (https://arxiv.org/abs/2206.11894), que podem prever quadros futuros de uma sequência com base em quadros de entrada e texto, mas não oferecem capacidades de controle ativo,
  • modelos de mundo que se concentram em prever estados ambientais futuros com base nas ações de um agente, mas que requerem dados fornecidos por humanos,
  • aprendizado não supervisionado, que permite ao Genie aprender tanto a dinâmica ambiental quanto o espaço de ação apenas a partir de dados de vídeo brutos, sem rótulos de ação humana.

Embora cada uma dessas áreas tenha sido explorada antes, o Genie é o primeiro modelo a combiná-las para aprender ambientes controláveis diretamente a partir de filmagens de vídeo. Esta abordagem sem precedentes para ensinar modelos sem supervisão humana é uma inovação chave do Genie. Ela abre a porta para usar a vasta quantidade de vídeos disponíveis na Internet como fonte de treinamento para modelos de IA e quebra as barreiras associadas à disponibilidade limitada de dados rotulados.

A combinação de modelos de vídeo generativos, modelos de mundo e aprendizado não supervisionado em uma única solução representa um avanço fundamental no desenvolvimento da inteligência artificial. O Genie demonstra que sistemas avançados de IA podem aprender comportamentos e ambientes complexos diretamente de dados não estruturados, sem marcação manual. Este é um passo chave no caminho para alcançar a verdadeira Inteligência Geral Artificial (AGI).

Fonte: Google Genie (https://sites.google.com/view/genie-2024/)

Aplicações potenciais do Google Genie

As capacidades do Google Genie vão muito além de gerar videogames. Este modelo de IA pioneiro pode encontrar aplicações em muitos campos:

  • ferramenta para animadores – basta fazer o upload de uma imagem, esboço ou descrição curta em texto e o Genie gerará uma animação consistente,
  • recurso de treinamento ilimitado para agentes de IA – com sua capacidade de generalizar para domínios totalmente novos, o Genie oferece um pool infinito de desafios nos quais futuros sistemas de IA podem aprender. A falta de ambientes de treinamento diversos tem sido até agora uma das principais barreiras para o desenvolvimento de agentes de IA genéricos,
  • simulações físicas para robótica – pesquisas mostraram que o Genie é capaz não apenas de controlar robôs virtuais, mas também de realizar as propriedades físicas de objetos deformáveis. Isso pode ter enormes implicações para o desenvolvimento de robótica e simulações físicas,
  • aplicações nas indústrias criativas – o Genie pode facilitar a criação de instalações de arte interativas, exposições virtuais ou filmes. Basta fazer o upload de um esboço e o modelo gerará um mundo 3D totalmente controlável, pronto para exploração.

No entanto, os potenciais desafios e limitações dessa tecnologia não devem ser ignorados. No estágio atual de desenvolvimento, o Genie funciona melhor em domínios restritos, como jogos de plataforma 2D. A escalabilidade para ambientes 3D mais complexos exigirá pesquisa e otimização adicionais. Além disso, há o risco de que essa tecnologia possa ser abusada para criar conteúdo prejudicial ou perigoso. Portanto, é fundamental desenvolver uma estrutura ética e legal robusta para governar o desenvolvimento e uso de tais modelos de IA.

Fonte: Google Genie (https://sites.google.com/view/genie-2024/)

Resumo

Ao permitir a criação de ambientes totalmente interativos diretamente a partir de dados visuais, sem a necessidade de marcar ações manualmente, o Google Genie representa um verdadeiro avanço na inteligência artificial generativa. Este modelo de mundo fundamental dá o poder de expressar imagens na forma de realidades virtuais jogáveis que podem ser exploradas e controladas por um agente humano ou de IA.

O potencial do Genie é enorme – desde ferramentas para desenvolvedores de jogos, até uma fonte ilimitada de dados de treinamento para IA, até simulações físicas para robótica. Também é um passo importante no caminho para a AGI. À medida que modelos como o Genie continuam a evoluir, a fronteira entre os mundos real e virtual está se tornando mais fluida.

Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

View all posts →

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

Share
Published by
Robert Whitney

Recent Posts

O papel da IA na moderação de conteúdo | IA nos negócios #129

As empresas enfrentam o desafio de gerenciar uma vasta quantidade de conteúdo publicado online, desde…

10 hours ago

Análise de sentimento com IA. Como isso ajuda a impulsionar mudanças nos negócios? | IA nos negócios #128

Na era da transformação digital, as empresas têm acesso a uma quantidade sem precedentes de…

11 hours ago

Melhores ferramentas de transcrição de IA. Como transformar gravações longas em resumos concisos? | IA nos negócios #127

Você sabia que pode obter a essência de uma gravação de várias horas de uma…

13 hours ago

Geração de vídeo com IA. Novos horizontes na produção de conteúdo em vídeo para empresas | IA nos negócios #126

Imagine um mundo onde sua empresa pode criar vídeos envolventes e personalizados para qualquer ocasião…

15 hours ago

LLMOps, ou como gerenciar efetivamente modelos de linguagem em uma organização | IA nos negócios #125

Para aproveitar totalmente o potencial dos Modelos de Linguagem de Grande Escala (LLMs), as empresas…

18 hours ago

Automação ou aumento? Duas abordagens da IA em uma empresa | IA nos negócios #124

Em 2018, a Unilever já havia embarcado em uma jornada consciente para equilibrar as capacidades…

20 hours ago