Google Genie — um modelo de IA generativa que cria mundos totalmente interativos a partir de imagens | IA nos negócios #123

O que é o Google Genie?

Google Genie (https://sites.google.com/view/genie-2024/) é um modelo de mundo fundamental desenvolvido pela DeepMind. É um modelo de IA generativa treinado em mais de 30.000 horas de filmagens de jogos de plataforma 2D disponíveis publicamente. Sua característica principal é a capacidade de gerar ambientes totalmente interativos e jogáveis diretamente a partir de imagens únicas, fotos e até esboços desenhados à mão.

Fonte: Genie: Ambientes Interativos Generativos (https://arxiv.org/abs/2402.15391)

Como isso é possível? O Genie usa uma técnica de aprendizado não supervisionado no processo de adquirir a capacidade de controlar precisamente o ambiente com base apenas em filmagens de vídeo. Nenhuma marcação de ação humana é necessária. Usando um módulo especial de codificação de ações, ele captura mudanças sutis entre quadros de vídeo sucessivos e as mapeia para representações internas de movimento, como pular ou virar à esquerda. O modelo de dinâmica então gera o próximo quadro na sequência com base nas ações codificadas.

Como resultado, o Genie pode criar ambientes de jogo totalmente controláveis e interativos a partir de qualquer dado visual. Cada movimento do jogador gera um novo quadro único em tempo real, criando uma sessão jogável e suave. Esta é uma inovação realmente grande que nos permite criar mundos interativos inteiros a partir de imagens ou texto.

Por que o Genie é inovador?

A inovação do Genie reside na combinação de vários elementos-chave em um único modelo:

modelos de vídeo generativos, como Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) ou maskvit (https://arxiv.org/abs/2206.11894), que podem prever quadros futuros de uma sequência com base em quadros de entrada e texto, mas não oferecem capacidades de controle ativo,
modelos de mundo que se concentram em prever estados ambientais futuros com base nas ações de um agente, mas que requerem dados fornecidos por humanos,
aprendizado não supervisionado, que permite ao Genie aprender tanto a dinâmica ambiental quanto o espaço de ação apenas a partir de dados de vídeo brutos, sem rótulos de ação humana.

Embora cada uma dessas áreas tenha sido explorada antes, o Genie é o primeiro modelo a combiná-las para aprender ambientes controláveis diretamente a partir de filmagens de vídeo. Esta abordagem sem precedentes para ensinar modelos sem supervisão humana é uma inovação chave do Genie. Ela abre a porta para usar a vasta quantidade de vídeos disponíveis na Internet como fonte de treinamento para modelos de IA e quebra as barreiras associadas à disponibilidade limitada de dados rotulados.

A combinação de modelos de vídeo generativos, modelos de mundo e aprendizado não supervisionado em uma única solução representa um avanço fundamental no desenvolvimento da inteligência artificial. O Genie demonstra que sistemas avançados de IA podem aprender comportamentos e ambientes complexos diretamente de dados não estruturados, sem marcação manual. Este é um passo chave no caminho para alcançar a verdadeira Inteligência Geral Artificial (AGI).

Fonte: Google Genie (https://sites.google.com/view/genie-2024/)

Aplicações potenciais do Google Genie

As capacidades do Google Genie vão muito além de gerar videogames. Este modelo de IA pioneiro pode encontrar aplicações em muitos campos:

ferramenta para animadores – basta fazer o upload de uma imagem, esboço ou descrição curta em texto e o Genie gerará uma animação consistente,
recurso de treinamento ilimitado para agentes de IA – com sua capacidade de generalizar para domínios totalmente novos, o Genie oferece um pool infinito de desafios nos quais futuros sistemas de IA podem aprender. A falta de ambientes de treinamento diversos tem sido até agora uma das principais barreiras para o desenvolvimento de agentes de IA genéricos,
simulações físicas para robótica – pesquisas mostraram que o Genie é capaz não apenas de controlar robôs virtuais, mas também de realizar as propriedades físicas de objetos deformáveis. Isso pode ter enormes implicações para o desenvolvimento de robótica e simulações físicas,
aplicações nas indústrias criativas – o Genie pode facilitar a criação de instalações de arte interativas, exposições virtuais ou filmes. Basta fazer o upload de um esboço e o modelo gerará um mundo 3D totalmente controlável, pronto para exploração.

No entanto, os potenciais desafios e limitações dessa tecnologia não devem ser ignorados. No estágio atual de desenvolvimento, o Genie funciona melhor em domínios restritos, como jogos de plataforma 2D. A escalabilidade para ambientes 3D mais complexos exigirá pesquisa e otimização adicionais. Além disso, há o risco de que essa tecnologia possa ser abusada para criar conteúdo prejudicial ou perigoso. Portanto, é fundamental desenvolver uma estrutura ética e legal robusta para governar o desenvolvimento e uso de tais modelos de IA.

Fonte: Google Genie (https://sites.google.com/view/genie-2024/)

Resumo

Ao permitir a criação de ambientes totalmente interativos diretamente a partir de dados visuais, sem a necessidade de marcar ações manualmente, o Google Genie representa um verdadeiro avanço na inteligência artificial generativa. Este modelo de mundo fundamental dá o poder de expressar imagens na forma de realidades virtuais jogáveis que podem ser exploradas e controladas por um agente humano ou de IA.

O potencial do Genie é enorme – desde ferramentas para desenvolvedores de jogos, até uma fonte ilimitada de dados de treinamento para IA, até simulações físicas para robótica. Também é um passo importante no caminho para a AGI. À medida que modelos como o Genie continuam a evoluir, a fronteira entre os mundos real e virtual está se tornando mais fluida.

Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

View all posts →

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

Next Automação ou aumento? Duas abordagens da IA em uma empresa | IA nos negócios #124 »

Previous « ReALM. Um modelo de linguagem inovador da Apple? | IA nos negócios #121

Published by

Robert Whitney

21 hours ago

Google Genie — um modelo de IA generativa que cria mundos totalmente interativos a partir de imagens | IA nos negócios #123

O que é o Google Genie?

Por que o Genie é inovador?

Aplicações potenciais do Google Genie

Resumo

Robert Whitney

Recent Posts

O papel da IA na moderação de conteúdo | IA nos negócios #129

Análise de sentimento com IA. Como isso ajuda a impulsionar mudanças nos negócios? | IA nos negócios #128

Melhores ferramentas de transcrição de IA. Como transformar gravações longas em resumos concisos? | IA nos negócios #127

Geração de vídeo com IA. Novos horizontes na produção de conteúdo em vídeo para empresas | IA nos negócios #126

LLMOps, ou como gerenciar efetivamente modelos de linguagem em uma organização | IA nos negócios #125

Automação ou aumento? Duas abordagens da IA em uma empresa | IA nos negócios #124