O que é IA multimodal?

A IA multimodal é uma forma altamente avançada de IA que imita a capacidade humana de interpretar o mundo usando conteúdo e dados de diferentes sentidos. Assim como os humanos entendem texto, imagens e sons, a IA multimodal integra esses diferentes tipos de dados para compreender o contexto e o significado complexo contido nas informações. Nos negócios, por exemplo, pode permitir uma melhor compreensão das opiniões dos clientes ao analisar tanto o que eles dizem quanto como expressam isso por meio do tom de voz ou da expressão facial.

Sistemas de IA tradicionais são tipicamente unimodais, o que significa que se especializam em um tipo de dado, como texto ou imagens. Eles podem processar grandes quantidades de dados rapidamente e identificar padrões que a inteligência humana não consegue captar. No entanto, eles têm limitações sérias. Eles são insensíveis ao contexto e menos habilidosos em lidar com situações incomuns e ambíguas.

É por isso que a IA multimodal vai um passo além, integrando modalidades. Isso permite uma compreensão mais profunda e interações muito mais interessantes entre humanos e IA.

O que a IA multimodal pode fazer?

Modelos de inteligência artificial desenvolvidos hoje empregam os seguintes pares de modalidades:

  • de texto para imagem – essa IA multimodal pode criar imagens com base em comandos textuais; essa é uma capacidade central do famoso Midjourney, do DALL-E 3 desenvolvido pela OpenAI, disponível no navegador como Bing Image Creator, do avançado Stable Diffusion ou da ferramenta mais jovem da família, Ideogram, que não apenas entende comandos textuais, mas também pode colocar texto em uma imagem:
  • IA Multimodal

    Fonte: Ideogram (https://ideogram.ai)

    Modelos de IA multimodal também são capazes de seguir pistas textuais e a imagem que estão “inspirados” simultaneamente. Eles oferecem resultados e variações de imagens criadas ainda mais interessantes e mais precisamente definidas. Isso é muito útil se você apenas quiser obter um gráfico ou banner ligeiramente diferente, ou adicionar ou remover um único elemento, como uma caneca de café:

    IA Multimodal

    Fonte: Ideogram (https://ideogram.ai)

  • De imagem para texto – a inteligência artificial pode fazer muito mais do que reconhecer e traduzir texto visto em uma imagem ou encontrar um produto semelhante. Ela também pode descrever uma imagem em palavras – como o Midjourney faz quando você digita o comando /describe, o Google Bard e o modelo da Salesforce (usado principalmente para criar descrições automatizadas de produtos e imagens em sites de e-commerce,
  • IA Multimodal

    Fonte: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • de voz para texto – a IA multimodal também potencializa comandos de voz no Google Bard, mas é melhor executada pelo Bing Chat, assim como pelo ChatGPT, graças ao seu excelente Whisper API, que lida com o reconhecimento e gravação de fala junto com pontuação em vários idiomas, o que pode, entre outras coisas, facilitar muito o trabalho de centros de atendimento ao cliente internacionais, além de preparar transcrições rápidas de reuniões e traduções de conversas comerciais em outros idiomas em tempo real,
  • de texto para voz – a ferramenta da ElevenLabs nos permite converter qualquer texto que escolhemos em uma fala com som realista, e até mesmo “clonagem de voz”, pela qual podemos ensinar a IA seu som e expressão para criar uma gravação de qualquer texto em um idioma estrangeiro para marketing ou apresentações a investidores estrangeiros, por exemplo,
  • de texto para vídeo – converter texto em vídeo com um avatar falante é possível nas ferramentas D-ID, Colossyan e Synthesia, entre outras,
  • de imagem para vídeo – gerar vídeos, incluindo videoclipes, a partir de imagens e pistas textuais já é possível hoje com o Kaiber, e a Meta anunciou o lançamento da ferramenta Make-A-Video em breve,
  • imagem e modelo 3D – esta é uma área particularmente promissora da IA multimodal, alvo da Meta e da Nvidia, que possibilita a criação de avatares realistas a partir de fotos, bem como a construção de modelos 3D de objetos e produtos pelo Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), com os quais, por exemplo, um produto prototipado bidimensional pode ser retornado à câmera com um lado diferente, uma visualização 3D rápida pode ser criada a partir de um esboço de um móvel, ou até mesmo uma descrição textual:
  • IA Multimodal

    Fonte: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • de imagem para movimento no espaço – esta modalidade faz com que a IA multimodal alcance além das telas para a zona da Internet das Coisas (IoT), veículos autônomos e robótica, onde dispositivos podem realizar ações precisas graças ao reconhecimento avançado de imagens e à capacidade de responder a mudanças no ambiente.

Há também experimentos com IA multimodal traduzindo música em imagens, por exemplo (https://huggingface.co/spaces/fffiloni/Music-To-Image), mas vamos dar uma olhada mais de perto nas aplicações comerciais da IA multimodal. Então, como a questão da multimodalidade se desenrola nos chatbots baseados em IA mais populares, ChatGPT e Google Bard?

Multimodalidade no Google Bard, BingChat e ChatGPT

O Google Bard pode descrever imagens simples e foi equipado com comunicação por voz desde julho de 2023, quando apareceu na Europa. Apesar da qualidade variável dos resultados de reconhecimento de imagem, essa tem sido até agora uma das forças que diferencia a solução do Google do ChatGPT.

O BingChat, graças ao seu uso do DALL-E 3, pode gerar imagens com base em comandos de texto ou voz. Embora não possa descrever em palavras as imagens anexadas pelo usuário, pode modificá-las ou usá-las como inspiração para criar novas imagens.

A partir de outubro de 2023, a OpenAI também começou a introduzir novos recursos de voz e imagem no ChatGPT Plus, a versão paga da ferramenta. Eles possibilitam ter uma conversa por voz ou mostrar uma imagem ao ChatGPT, para que ele saiba o que você está perguntando sem precisar descrevê-lo em palavras exatas.

Por exemplo, você pode tirar uma foto de um monumento enquanto viaja e ter uma conversa ao vivo sobre o que é interessante sobre ele. Ou tirar uma foto do interior da sua geladeira para descobrir o que você pode preparar para o jantar com os ingredientes disponíveis e pedir uma receita passo a passo.

3 aplicações da IA Multimodal nos negócios

Descrever imagens pode ajudar, por exemplo, a preparar o inventário de mercadorias com base em dados de câmeras de CCTV ou identificar produtos faltantes nas prateleiras das lojas. A manipulação de objetos pode ser usada para reabastecer os produtos faltantes identificados na etapa anterior. Mas como os chatbots multimodais podem ser usados nos negócios? Aqui estão três exemplos:

  1. Atendimento ao cliente: Um chat multimodal implementado em uma loja online pode servir como um assistente avançado de atendimento ao cliente que não apenas responde a perguntas por texto, mas também entende imagens e perguntas feitas por voz. Por exemplo, um cliente pode tirar uma foto de um produto danificado e enviá-la ao chatbot, que ajudará a identificar o problema e oferecer uma solução apropriada.
  2. Análise de mídias sociais: A inteligência artificial multimodal pode analisar postagens em mídias sociais, que incluem texto, imagens e até vídeos, para entender o que os clientes estão dizendo sobre uma empresa e seus produtos. Isso pode ajudar uma empresa a entender melhor o feedback dos clientes e responder mais rapidamente às suas necessidades.
  3. Treinamento e Desenvolvimento: O ChatGPT pode ser usado para treinar funcionários. Por exemplo, pode conduzir sessões de treinamento interativas que incluem texto e imagens para ajudar os funcionários a entender melhor conceitos complexos.

O futuro da IA multimodal nos negócios

Um grande exemplo de IA multimodal voltada para o futuro é a otimização dos processos de negócios de uma empresa. Por exemplo, um sistema de IA poderia analisar dados de várias fontes, como dados de vendas, dados de clientes e dados de mídias sociais, para identificar áreas que precisam de melhorias e sugerir possíveis soluções.

Outro exemplo é empregar IA multimodal para organizar a logística. Combinando dados de GPS, status do armazém lido a partir de uma câmera e dados de entrega para otimizar processos logísticos e reduzir custos de negócios.

Muitas dessas funcionalidades já são aplicadas hoje em sistemas complexos, como carros autônomos e cidades inteligentes. No entanto, elas não têm sido aplicadas em tal escala em contextos de negócios menores.

Resumo

A multimodalidade, ou a capacidade de processar múltiplos tipos de dados, como texto, imagens e áudio, promove uma compreensão contextual mais profunda e uma melhor interação entre humanos e sistemas de IA.

Uma questão em aberto permanece: quais novas combinações de modalidades podem existir em breve? Por exemplo, será possível combinar análise de texto com linguagem corporal, de modo que a IA possa antecipar as necessidades dos clientes analisando suas expressões faciais e gestos? Esse tipo de inovação abre novos horizontes para os negócios, ajudando a atender às expectativas dos clientes em constante mudança.

IA Multimodal

Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

View all posts →

AI in business:

  1. 6 plugins incríveis do ChatGTP que tornarão sua vida mais fácil
  2. Navegando novas oportunidades de negócios com o ChatGPT-4
  3. 3 escritores de IA incríveis que você deve experimentar hoje
  4. Atores sintéticos. Top 3 geradores de vídeo com IA
  5. Quais são as fraquezas da minha ideia de negócio? Uma sessão de brainstorming com o ChatGPT
  6. Usando o ChatGPT nos negócios
  7. Novos serviços e produtos operando com IA
  8. Postagens automatizadas em redes sociais
  9. Agendando postagens em redes sociais. Como a IA pode ajudar?
  10. O papel da IA na tomada de decisões empresariais
  11. Negócios de PNL hoje e amanhã
  12. Chatbots de texto assistidos por IA
  13. Aplicações de IA nos negócios - visão geral
  14. Ameaças e oportunidades da IA nos negócios (parte 2)
  15. Ameaças e oportunidades da IA nos negócios (parte 1)
  16. Qual é o futuro da IA segundo o McKinsey Global Institute?
  17. Inteligência artificial nos negócios - Introdução
  18. O que é PNL, ou processamento de linguagem natural nos negócios
  19. Google Translate vs DeepL. 5 aplicações de tradução automática para negócios
  20. Processamento automático de documentos
  21. A operação e as aplicações comerciais dos voicebots
  22. Tecnologia de assistente virtual, ou como conversar com a IA?
  23. O que é Inteligência de Negócios?
  24. Como a inteligência artificial pode ajudar com BPM?
  25. IA criativa de hoje e de amanhã
  26. Inteligência artificial na gestão de conteúdo
  27. Explorando o poder da IA na criação musical
  28. 3 ferramentas úteis de design gráfico com IA. IA generativa nos negócios
  29. IA e redes sociais – o que elas dizem sobre nós?
  30. A inteligência artificial substituirá os analistas de negócios?
  31. Ferramentas de IA para o gerente
  32. O mercado de trabalho futuro e as profissões que estão por vir
  33. RPA e APIs em uma empresa digital
  34. Novas interações. Como a IA está mudando a maneira como operamos dispositivos?
  35. IA multimodal e suas aplicações nos negócios