IA multimodal. Novos usos da inteligência artificial nos negócios | IA nos negócios #21

O que é IA multimodal?

A IA multimodal é uma forma altamente avançada de IA que imita a capacidade humana de interpretar o mundo usando conteúdo e dados de diferentes sentidos. Assim como os humanos entendem texto, imagens e sons, a IA multimodal integra esses diferentes tipos de dados para compreender o contexto e o significado complexo contido nas informações. Nos negócios, por exemplo, pode permitir uma melhor compreensão das opiniões dos clientes ao analisar tanto o que eles dizem quanto como expressam isso por meio do tom de voz ou da expressão facial.

Sistemas de IA tradicionais são tipicamente unimodais, o que significa que se especializam em um tipo de dado, como texto ou imagens. Eles podem processar grandes quantidades de dados rapidamente e identificar padrões que a inteligência humana não consegue captar. No entanto, eles têm limitações sérias. Eles são insensíveis ao contexto e menos habilidosos em lidar com situações incomuns e ambíguas.

É por isso que a IA multimodal vai um passo além, integrando modalidades. Isso permite uma compreensão mais profunda e interações muito mais interessantes entre humanos e IA.

O que a IA multimodal pode fazer?

Modelos de inteligência artificial desenvolvidos hoje empregam os seguintes pares de modalidades:

de texto para imagem – essa IA multimodal pode criar imagens com base em comandos textuais; essa é uma capacidade central do famoso Midjourney, do DALL-E 3 desenvolvido pela OpenAI, disponível no navegador como Bing Image Creator, do avançado Stable Diffusion ou da ferramenta mais jovem da família, Ideogram, que não apenas entende comandos textuais, mas também pode colocar texto em uma imagem:

Fonte: Ideogram (https://ideogram.ai)

Modelos de IA multimodal também são capazes de seguir pistas textuais e a imagem que estão “inspirados” simultaneamente. Eles oferecem resultados e variações de imagens criadas ainda mais interessantes e mais precisamente definidas. Isso é muito útil se você apenas quiser obter um gráfico ou banner ligeiramente diferente, ou adicionar ou remover um único elemento, como uma caneca de café:

Fonte: Ideogram (https://ideogram.ai)

De imagem para texto – a inteligência artificial pode fazer muito mais do que reconhecer e traduzir texto visto em uma imagem ou encontrar um produto semelhante. Ela também pode descrever uma imagem em palavras – como o Midjourney faz quando você digita o comando /describe, o Google Bard e o modelo da Salesforce (usado principalmente para criar descrições automatizadas de produtos e imagens em sites de e-commerce,

Fonte: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

de voz para texto – a IA multimodal também potencializa comandos de voz no Google Bard, mas é melhor executada pelo Bing Chat, assim como pelo ChatGPT, graças ao seu excelente Whisper API, que lida com o reconhecimento e gravação de fala junto com pontuação em vários idiomas, o que pode, entre outras coisas, facilitar muito o trabalho de centros de atendimento ao cliente internacionais, além de preparar transcrições rápidas de reuniões e traduções de conversas comerciais em outros idiomas em tempo real,
de texto para voz – a ferramenta da ElevenLabs nos permite converter qualquer texto que escolhemos em uma fala com som realista, e até mesmo “clonagem de voz”, pela qual podemos ensinar a IA seu som e expressão para criar uma gravação de qualquer texto em um idioma estrangeiro para marketing ou apresentações a investidores estrangeiros, por exemplo,
de texto para vídeo – converter texto em vídeo com um avatar falante é possível nas ferramentas D-ID, Colossyan e Synthesia, entre outras,
de imagem para vídeo – gerar vídeos, incluindo videoclipes, a partir de imagens e pistas textuais já é possível hoje com o Kaiber, e a Meta anunciou o lançamento da ferramenta Make-A-Video em breve,
imagem e modelo 3D – esta é uma área particularmente promissora da IA multimodal, alvo da Meta e da Nvidia, que possibilita a criação de avatares realistas a partir de fotos, bem como a construção de modelos 3D de objetos e produtos pelo Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), com os quais, por exemplo, um produto prototipado bidimensional pode ser retornado à câmera com um lado diferente, uma visualização 3D rápida pode ser criada a partir de um esboço de um móvel, ou até mesmo uma descrição textual:

Fonte: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

de imagem para movimento no espaço – esta modalidade faz com que a IA multimodal alcance além das telas para a zona da Internet das Coisas (IoT), veículos autônomos e robótica, onde dispositivos podem realizar ações precisas graças ao reconhecimento avançado de imagens e à capacidade de responder a mudanças no ambiente.

Há também experimentos com IA multimodal traduzindo música em imagens, por exemplo (https://huggingface.co/spaces/fffiloni/Music-To-Image), mas vamos dar uma olhada mais de perto nas aplicações comerciais da IA multimodal. Então, como a questão da multimodalidade se desenrola nos chatbots baseados em IA mais populares, ChatGPT e Google Bard?

Multimodalidade no Google Bard, BingChat e ChatGPT

O Google Bard pode descrever imagens simples e foi equipado com comunicação por voz desde julho de 2023, quando apareceu na Europa. Apesar da qualidade variável dos resultados de reconhecimento de imagem, essa tem sido até agora uma das forças que diferencia a solução do Google do ChatGPT.

O BingChat, graças ao seu uso do DALL-E 3, pode gerar imagens com base em comandos de texto ou voz. Embora não possa descrever em palavras as imagens anexadas pelo usuário, pode modificá-las ou usá-las como inspiração para criar novas imagens.

A partir de outubro de 2023, a OpenAI também começou a introduzir novos recursos de voz e imagem no ChatGPT Plus, a versão paga da ferramenta. Eles possibilitam ter uma conversa por voz ou mostrar uma imagem ao ChatGPT, para que ele saiba o que você está perguntando sem precisar descrevê-lo em palavras exatas.

Por exemplo, você pode tirar uma foto de um monumento enquanto viaja e ter uma conversa ao vivo sobre o que é interessante sobre ele. Ou tirar uma foto do interior da sua geladeira para descobrir o que você pode preparar para o jantar com os ingredientes disponíveis e pedir uma receita passo a passo.

3 aplicações da IA Multimodal nos negócios

Descrever imagens pode ajudar, por exemplo, a preparar o inventário de mercadorias com base em dados de câmeras de CCTV ou identificar produtos faltantes nas prateleiras das lojas. A manipulação de objetos pode ser usada para reabastecer os produtos faltantes identificados na etapa anterior. Mas como os chatbots multimodais podem ser usados nos negócios? Aqui estão três exemplos:

Atendimento ao cliente: Um chat multimodal implementado em uma loja online pode servir como um assistente avançado de atendimento ao cliente que não apenas responde a perguntas por texto, mas também entende imagens e perguntas feitas por voz. Por exemplo, um cliente pode tirar uma foto de um produto danificado e enviá-la ao chatbot, que ajudará a identificar o problema e oferecer uma solução apropriada.
Análise de mídias sociais: A inteligência artificial multimodal pode analisar postagens em mídias sociais, que incluem texto, imagens e até vídeos, para entender o que os clientes estão dizendo sobre uma empresa e seus produtos. Isso pode ajudar uma empresa a entender melhor o feedback dos clientes e responder mais rapidamente às suas necessidades.
Treinamento e Desenvolvimento: O ChatGPT pode ser usado para treinar funcionários. Por exemplo, pode conduzir sessões de treinamento interativas que incluem texto e imagens para ajudar os funcionários a entender melhor conceitos complexos.

O futuro da IA multimodal nos negócios

Um grande exemplo de IA multimodal voltada para o futuro é a otimização dos processos de negócios de uma empresa. Por exemplo, um sistema de IA poderia analisar dados de várias fontes, como dados de vendas, dados de clientes e dados de mídias sociais, para identificar áreas que precisam de melhorias e sugerir possíveis soluções.

Outro exemplo é empregar IA multimodal para organizar a logística. Combinando dados de GPS, status do armazém lido a partir de uma câmera e dados de entrega para otimizar processos logísticos e reduzir custos de negócios.

Muitas dessas funcionalidades já são aplicadas hoje em sistemas complexos, como carros autônomos e cidades inteligentes. No entanto, elas não têm sido aplicadas em tal escala em contextos de negócios menores.

Resumo

A multimodalidade, ou a capacidade de processar múltiplos tipos de dados, como texto, imagens e áudio, promove uma compreensão contextual mais profunda e uma melhor interação entre humanos e sistemas de IA.

Uma questão em aberto permanece: quais novas combinações de modalidades podem existir em breve? Por exemplo, será possível combinar análise de texto com linguagem corporal, de modo que a IA possa antecipar as necessidades dos clientes analisando suas expressões faciais e gestos? Esse tipo de inovação abre novos horizontes para os negócios, ajudando a atender às expectativas dos clientes em constante mudança.

Se você gosta do nosso conteúdo, junte-se à nossa comunidade de abelhas ocupadas no Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

View all posts →

Robert Whitney

Especialista em JavaScript e instrutor que orienta departamentos de TI. Seu principal objetivo é aumentar a produtividade da equipe, ensinando os outros a cooperar efetivamente enquanto codificam.

Next Como uma estratégia de operações impacta os projetos? »

Previous « Novas interações humanas — IA. Como a inteligência artificial está mudando a maneira como operamos dispositivos? | IA nos negócios #22

7 tipos de descanso que você deve ter para evitar o esgotamento

A pressão constante para alcançar KPIs, o estresse prolongado e a falta de equilíbrio entre…

59 minutes ago

Como uma estratégia de operações impacta os projetos?

Organizações de diversos setores realizam vários projetos complexos, ou seja, tarefas executadas por uma equipe…

2 hours ago

Novas interações humanas — IA. Como a inteligência artificial está mudando a maneira como operamos dispositivos? | IA nos negócios #22

Graças à inteligência artificial, provavelmente em breve poderemos esquecer o uso de um teclado. Por…

7 hours ago

IA multimodal. Novos usos da inteligência artificial nos negócios | IA nos negócios #21

O que é IA multimodal?

O que a IA multimodal pode fazer?

Multimodalidade no Google Bard, BingChat e ChatGPT

3 aplicações da IA Multimodal nos negócios

O futuro da IA multimodal nos negócios

Resumo

Robert Whitney

Recent Posts

7 tipos de descanso que você deve ter para evitar o esgotamento

Como uma estratégia de operações impacta os projetos?

Novas interações humanas — IA. Como a inteligência artificial está mudando a maneira como operamos dispositivos? | IA nos negócios #22

Hiperautomação e seus usos nos negócios | IA nos negócios #23

O mercado de trabalho futuro e as profissões emergentes | IA nos negócios #25

Como conduzir uma entrevista comportamental? Uma lista de verificação útil com 8 perguntas de exemplo