Tecnologia

Nem ChatGPT, nem Gemini: outra IA vence desafio com os maiores chatbots do mundo

Essa IA surpreendeu ao liderar competição de compreensão e análise de textos complexos

Por

Gabriel Yuri

Publicado há

21 horas atrás

(Imagem: Captura de Tela)

Em uma disputa organizada pelo Washington Post, os cinco principais chatbots do mercado: ChatGPT, Gemini, Claude, Meta AI e Copilot

Passaram por um teste de compreensão, raciocínio e precisão em diferentes áreas de conhecimento. O resultado surpreendeu: Claude, da empresa Anthropic, foi eleito o melhor modelo, superando nomes mais populares como ChatGPT e Gemini.

A competição foi realizada com o apoio de jurados especializados, incluindo autores de livros, médicos, advogados e jornalistas, que avaliaram o desempenho das IAs em 115 perguntas baseadas em leituras reais e testes de análise crítica.

Os testes foram complexos e reveladores

Cada chatbot foi desafiado a ler e interpretar quatro tipos de textos:

Um romance literário
Um relatório de pesquisa médica
Dois contratos jurídicos
Discursos do ex-presidente Donald Trump

Além de responder perguntas factuais, os bots precisaram recomendar alterações nos textos, identificar falhas argumentativas e até corrigir distorções em falas políticas.

Em quase todos os testes, apenas Claude não inventou (ou “alucinou”) informações, um erro comum em IAs generativas.

Desempenho por área

Literatura: Nenhuma IA se saiu bem, mas Claude foi o único a acertar todos os fatos sobre o livro analisado. O Gemini foi o mais criticado por erros e superficialidade.

Direito: Claude novamente liderou, ao compreender nuances e sugerir alterações relevantes nos contratos.

Medicina: Chatbots se saíram melhor nessa área, mas Claude foi o único a receber nota 10 pelo resumo de um artigo sobre covid longa.

Política: O ChatGPT foi o destaque, identificando corretamente distorções factuais em discursos de Trump, mas teve desempenho inferior em Direito, o que pesou no resultado final.

Resultado final:

No placar geral (de 0 a 100)

Claude: 69,9 pontos

ChatGPT: 68,4

Gemini: 49,7

Copilot: 49,0

Meta AI: 45,0

Segundo os avaliadores, o Claude foi o único que não cometeu nenhuma alucinação ao longo de todo o teste, além de apresentar respostas mais completas, analíticas e confiáveis.

Mesmo assim, nenhum dos chatbots passou da média de 70, mostrando que a tecnologia ainda tem limitações importantes, especialmente em áreas sensíveis como direito e saúde.

Para mais análises sobre inteligência artificial e tecnologia, siga: @todasasnoticiasbr