Desafio dos chatbots: qual IA famosa tem a melhor capacidade de interpretação?

Avaliação conduzida pelo Washington Post revela as capacidades e limitações de cinco chatbots em análise de textos complexos.

O Washington Post conduziu recentemente um teste para analisar a capacidade de compreender textos de cinco dos chatbots mais populares da atualidade. Entre os participantes estavam o ChatGPT, Claude, Copilot, Meta AI e Gemini.

O objetivo era verificar a confiabilidade dessas inteligências artificiais no processamento de diferentes tipos de conteúdo. Para isso, o exame incluiu textos de várias áreas, como literatura, pesquisa médica, contratos legais e discursos políticos.

Especialistas, incluindo alguns autores dos materiais lidos pelos chatbots, avaliaram as respostas. O resultado revelou surpresas e apontou falhas nas capacidades das IAs em interpretar e resumir informações complexas.

Análise literária e jurídica dos chatbots

A performance dos chatbots no campo da literatura deixou a desejar. Apenas Claude apresentou acertos consistentes sobre o livro “A Amante do Chacal”, de Chris Bohjalian.

Já em direito, a IA da Anthropic novamente se destacou, sendo elogiada por sua capacidade de sugerir alterações em contratos de locação.

Por outro lado, o Meta AI e o ChatGPT falharam ao tentar simplificar contratos. O advogado Sterling Miller criticou a abordagem “inútil” das IAs em resumos de uma linha que desconsideravam nuances importantes dos documentos.

Desempenho em medicina e política

Os chatbots se saíram melhor na área médica, especialmente o Claude, que recebeu a nota máxima ao resumir um artigo sobre covid longa. No entanto, o Gemini falhou ao omitir aspectos críticos de um estudo sobre a doença de Parkinson.

Na política, o ChatGPT foi o destaque. A inteligência artificial da OpenAI conseguiu identificar corretamente as falsas alegações de Donald Trump sobre as eleições de 2020.

Mesmo assim, os robôs tiveram dificuldade em capturar o tom dos discursos do ex-presidente americano.

Qual IA se saiu melhor, afinal?

O Claude emergiu como o vencedor geral com uma pontuação de 69,9, superando o ChatGPT, que alcançou 68,4. Apesar disso, nenhuma das IAs atingiu um desempenho superior a 70%, revelando limitações significativas na interpretação e análise de textos.

Assim, o teste indicou a necessidade de cautela ao utilizar chatbots para tarefas complexas. Embora úteis, eles não substituem o julgamento profissional em áreas como direito e medicina. É essencial considerar as limitações das IAs ao depender dessas ferramentas.

você pode gostar também