Desafio dos chatbots: qual IA famosa tem a melhor capacidade de interpretação?
Avaliação conduzida pelo Washington Post revela as capacidades e limitações de cinco chatbots em análise de textos complexos.
O Washington Post conduziu recentemente um teste para analisar a capacidade de compreender textos de cinco dos chatbots mais populares da atualidade. Entre os participantes estavam o ChatGPT, Claude, Copilot, Meta AI e Gemini.
O objetivo era verificar a confiabilidade dessas inteligências artificiais no processamento de diferentes tipos de conteúdo. Para isso, o exame incluiu textos de várias áreas, como literatura, pesquisa médica, contratos legais e discursos políticos.
Especialistas, incluindo alguns autores dos materiais lidos pelos chatbots, avaliaram as respostas. O resultado revelou surpresas e apontou falhas nas capacidades das IAs em interpretar e resumir informações complexas.
Análise literária e jurídica dos chatbots
A performance dos chatbots no campo da literatura deixou a desejar. Apenas Claude apresentou acertos consistentes sobre o livro “A Amante do Chacal”, de Chris Bohjalian.
Já em direito, a IA da Anthropic novamente se destacou, sendo elogiada por sua capacidade de sugerir alterações em contratos de locação.
Por outro lado, o Meta AI e o ChatGPT falharam ao tentar simplificar contratos. O advogado Sterling Miller criticou a abordagem “inútil” das IAs em resumos de uma linha que desconsideravam nuances importantes dos documentos.
Desempenho em medicina e política
Os chatbots se saíram melhor na área médica, especialmente o Claude, que recebeu a nota máxima ao resumir um artigo sobre covid longa. No entanto, o Gemini falhou ao omitir aspectos críticos de um estudo sobre a doença de Parkinson.
Na política, o ChatGPT foi o destaque. A inteligência artificial da OpenAI conseguiu identificar corretamente as falsas alegações de Donald Trump sobre as eleições de 2020.
Mesmo assim, os robôs tiveram dificuldade em capturar o tom dos discursos do ex-presidente americano.
Qual IA se saiu melhor, afinal?
O Claude emergiu como o vencedor geral com uma pontuação de 69,9, superando o ChatGPT, que alcançou 68,4. Apesar disso, nenhuma das IAs atingiu um desempenho superior a 70%, revelando limitações significativas na interpretação e análise de textos.
Assim, o teste indicou a necessidade de cautela ao utilizar chatbots para tarefas complexas. Embora úteis, eles não substituem o julgamento profissional em áreas como direito e medicina. É essencial considerar as limitações das IAs ao depender dessas ferramentas.