ReALM significa “Resolução de Referência Como Modelagem de Linguagem”, uma solução inovadora desenvolvida por pesquisadores da Apple. Assim, é um novo modelo de linguagem (Modelo de Linguagem Grande, LLM) que trata o problema do reconhecimento de referência como uma tarefa no campo da modelagem de linguagem.
ReALM converte efetivamente vários tipos de contexto em uma representação textual, que depois processa como parte de uma tarefa de linguagem. Isso pode incluir:
O que torna o ReALM diferente de outros modelos de reconhecimento de referência? Primeiro, a abordagem – em vez de depender do processamento de imagens, o ReALM opera no domínio do texto. Isso o torna muito mais leve e eficiente, o que deve permitir que ele funcione diretamente em dispositivos móveis, mantendo a privacidade do usuário.
A equipe de pesquisa da Apple comparou o ReALM aos modelos de linguagem mais poderosos do mercado hoje – GPT-3.5 e GPT-4 da OpenAI. Os resultados foram impressionantes. Em tarefas de reconhecimento de referência, a menor variante do ReALM alcançou uma precisão comparável à do GPT-4! Os modelos maiores do ReALM até superaram o GPT-4 no reconhecimento de referências a itens exibidos na tela (http://arxiv.org/abs/2403.20329).
O que explica essa vantagem? Primeiro, o ReALM é excelente com consultas específicas de domínio, como aquelas relacionadas a eletrodomésticos inteligentes. Isso ocorre porque o ReALM demonstra uma compreensão mais profunda do contexto ao ajustar o modelo para dados específicos de domínio.
Além disso, ao contrário do GPT-4, que treina principalmente com imagens de objetos reais, o ReALM se destaca em reconhecer elementos textuais e componentes de interfaces de usuário de aplicativos. E é a compreensão da interface que é crítica para a interação suave dos assistentes de voz com os aplicativos que usamos hoje.
Fonte: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
De fato, a integração do ReALM com a Siri poderia abrir um novo capítulo na interação humano-computador. Com o ReALM, a Siri será capaz de entender comandos que incluem referências a itens exibidos na tela do smartphone, bem como processos e aplicativos em execução em segundo plano. Mas quando essa opção estará disponível para os usuários? Isso ainda é desconhecido.
Ficamos com especulações baseadas nas capacidades técnicas do modelo. Então, como poderia funcionar uma Siri alimentada pelo ReALM? Por exemplo, se você estiver navegando em um site de listagens de empresas e ver uma empresa que lhe interessa, você poderia simplesmente dizer à Siri: “Ligue para esta empresa”, e o assistente – usando o ReALM para analisar o contexto – encontrará o número de telefone da empresa que você especificou e iniciará a chamada. Você nem precisa explicar exatamente qual empresa você quer dizer.
Isso é apenas o começo das possibilidades do ReALM. Comandos como “Reproduza a última playlist” permitiriam um controle intuitivo de aplicativos multimídia e dispositivos de casa inteligente. O ReALM também poderia permitir que a Siri entendesse o contexto das conversas e o histórico de comandos, para que o assistente respondesse adequadamente aos pedidos anteriores do usuário. Este é um passo em direção a agentes inteligentes, aproximando-nos não tanto de uma inteligência artificial que compreende nossos pedidos, mas de uma que sabe como executar comandos.
E isso é apenas o começo do que o ReALM pode fazer. Comandos como “toque a última playlist” permitiriam um controle intuitivo de aplicativos de mídia e dispositivos de casa inteligente. O ReALM também poderia permitir que a Siri entendesse o contexto das conversas e o histórico de comandos, para que o assistente respondesse de forma apropriada aos pedidos anteriores do usuário. Este é um passo em direção a agentes inteligentes, movendo-nos mais perto de não uma inteligência artificial que entende nossos pedidos, mas uma que sabe como executar comandos.
Infelizmente, os usuários de dispositivos Android terão que esperar. Atualmente, não há informações sobre os planos do Google para adicionar as capacidades do Gemini ao Google Assistant. Um aplicativo Google Gemini para dispositivos Android foi desenvolvido (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), mas ainda não está disponível fora dos Estados Unidos.
Fonte: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM é a abordagem inovadora da Apple para resolver o problema do reconhecimento de contexto por assistentes de voz. Em vez de depender do processamento de imagens, este modelo de linguagem converte diferentes tipos de contexto em uma representação textual, que depois processa em uma tarefa de linguagem. Essa abordagem garante não apenas alta precisão de reconhecimento, mas também a capacidade de operar em um dispositivo móvel enquanto mantém a privacidade do usuário.
Dar à Siri acesso ao ReALM pode proporcionar interações de voz mais naturais e contextuais, um passo importante em direção a assistentes verdadeiramente inteligentes. Com o ReALM, a Siri será capaz de responder instantaneamente a comandos relacionados a itens na tela, aplicativos e processos em segundo plano. Uma coisa é certa – melhorar a consciência contextual dos assistentes é a chave para criar interações de voz verdadeiramente inteligentes e naturais, e o ReALM é, sem dúvida, um passo importante nessa direção.
Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.
As empresas enfrentam o desafio de gerenciar uma vasta quantidade de conteúdo publicado online, desde…
Na era da transformação digital, as empresas têm acesso a uma quantidade sem precedentes de…
Você sabia que pode obter a essência de uma gravação de várias horas de uma…
Imagine um mundo onde sua empresa pode criar vídeos envolventes e personalizados para qualquer ocasião…
Para aproveitar totalmente o potencial dos Modelos de Linguagem de Grande Escala (LLMs), as empresas…
Em 2018, a Unilever já havia embarcado em uma jornada consciente para equilibrar as capacidades…