Google Genie (https://sites.google.com/view/genie-2024/) é um modelo de mundo fundamental desenvolvido pela DeepMind. É um modelo de IA generativa treinado em mais de 30.000 horas de filmagens de jogos de plataforma 2D disponíveis publicamente. Sua característica principal é a capacidade de gerar ambientes totalmente interativos e jogáveis diretamente a partir de imagens únicas, fotos e até esboços desenhados à mão.
Fonte: Genie: Ambientes Interativos Generativos (https://arxiv.org/abs/2402.15391)
Como isso é possível? O Genie usa uma técnica de aprendizado não supervisionado no processo de adquirir a capacidade de controlar precisamente o ambiente com base apenas em filmagens de vídeo. Nenhuma marcação de ação humana é necessária. Usando um módulo especial de codificação de ações, ele captura mudanças sutis entre quadros de vídeo sucessivos e as mapeia para representações internas de movimento, como pular ou virar à esquerda. O modelo de dinâmica então gera o próximo quadro na sequência com base nas ações codificadas.
Como resultado, o Genie pode criar ambientes de jogo totalmente controláveis e interativos a partir de qualquer dado visual. Cada movimento do jogador gera um novo quadro único em tempo real, criando uma sessão jogável e suave. Esta é uma inovação realmente grande que nos permite criar mundos interativos inteiros a partir de imagens ou texto.
A inovação do Genie reside na combinação de vários elementos-chave em um único modelo:
Embora cada uma dessas áreas tenha sido explorada antes, o Genie é o primeiro modelo a combiná-las para aprender ambientes controláveis diretamente a partir de filmagens de vídeo. Esta abordagem sem precedentes para ensinar modelos sem supervisão humana é uma inovação chave do Genie. Ela abre a porta para usar a vasta quantidade de vídeos disponíveis na Internet como fonte de treinamento para modelos de IA e quebra as barreiras associadas à disponibilidade limitada de dados rotulados.
A combinação de modelos de vídeo generativos, modelos de mundo e aprendizado não supervisionado em uma única solução representa um avanço fundamental no desenvolvimento da inteligência artificial. O Genie demonstra que sistemas avançados de IA podem aprender comportamentos e ambientes complexos diretamente de dados não estruturados, sem marcação manual. Este é um passo chave no caminho para alcançar a verdadeira Inteligência Geral Artificial (AGI).
Fonte: Google Genie (https://sites.google.com/view/genie-2024/)
As capacidades do Google Genie vão muito além de gerar videogames. Este modelo de IA pioneiro pode encontrar aplicações em muitos campos:
No entanto, os potenciais desafios e limitações dessa tecnologia não devem ser ignorados. No estágio atual de desenvolvimento, o Genie funciona melhor em domínios restritos, como jogos de plataforma 2D. A escalabilidade para ambientes 3D mais complexos exigirá pesquisa e otimização adicionais. Além disso, há o risco de que essa tecnologia possa ser abusada para criar conteúdo prejudicial ou perigoso. Portanto, é fundamental desenvolver uma estrutura ética e legal robusta para governar o desenvolvimento e uso de tais modelos de IA.
Fonte: Google Genie (https://sites.google.com/view/genie-2024/)
Ao permitir a criação de ambientes totalmente interativos diretamente a partir de dados visuais, sem a necessidade de marcar ações manualmente, o Google Genie representa um verdadeiro avanço na inteligência artificial generativa. Este modelo de mundo fundamental dá o poder de expressar imagens na forma de realidades virtuais jogáveis que podem ser exploradas e controladas por um agente humano ou de IA.
O potencial do Genie é enorme – desde ferramentas para desenvolvedores de jogos, até uma fonte ilimitada de dados de treinamento para IA, até simulações físicas para robótica. Também é um passo importante no caminho para a AGI. À medida que modelos como o Genie continuam a evoluir, a fronteira entre os mundos real e virtual está se tornando mais fluida.
Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.
As empresas enfrentam o desafio de gerenciar uma vasta quantidade de conteúdo publicado online, desde…
Na era da transformação digital, as empresas têm acesso a uma quantidade sem precedentes de…
Você sabia que pode obter a essência de uma gravação de várias horas de uma…
Imagine um mundo onde sua empresa pode criar vídeos envolventes e personalizados para qualquer ocasião…
Para aproveitar totalmente o potencial dos Modelos de Linguagem de Grande Escala (LLMs), as empresas…
Em 2018, a Unilever já havia embarcado em uma jornada consciente para equilibrar as capacidades…