O mercado de inteligência artificial acaba de receber um alerta importante quanto à precisão de seus modelos mais populares. De acordo com um levantamento recente da Legal Guardian Digital, empresa especializada em SEO jurídico, o Google Gemini registrou o maior índice de informações incorretas entre os principais chatbots. Portanto, o estudo destaca que a ferramenta entrega dados factualmente errados em cerca de 32% das interações analisadas.

O Fenômeno das Alucinações e os Riscos para o Usuário
As chamadas “alucinações” ocorrem quando os modelos de linguagem perdem o padrão de confiabilidade e geram respostas plausíveis, porém falsas. Nesse sentido, o relatório explica que esses sistemas trabalham prevendo a próxima palavra mais provável em uma sequência. Consequentemente, quando o padrão falha, a IA acaba inventando nomes, datas ou valores para completar a lacuna, o que exige uma checagem humana constante e rigorosa.
A análise do ranking geral de desempenho, que considera critérios como satisfação do cliente e consistência, colocou o Perplexity AI no topo com 85 pontos de 100. Por outro lado, o Google Gemini amargou a oitava posição com apenas 41 pontos, ficando à frente apenas da Meta AI, que fechou a lista. De fato, até mesmo o popular ChatGPT decepcionou, ocupando o sexto lugar com uma pontuação mediana de 50.
Comparativo de Erros: ChatGPT e DeepSeek em Lados Opostos
Além disso, os dados revelam que o ChatGPT possui 30% de taxa de alucinação, o que representa mais que o dobro de chances de erro em comparação ao DeepSeek. O modelo chinês, inclusive, surpreendeu ao registrar apenas 14% de falhas factuais, mesmo tendo custado uma fração do investimento feito pela OpenAI. Nesse contexto, o DeepSeek e o ChatGPT dividem a liderança apenas no quesito de satisfação do cliente, com nota 4,7 de 5.
Disponibilidade e Consistência sob Análise
Quanto à estabilidade dos sistemas, apenas o Perplexity AI e o Grok mantiveram 100% de disponibilidade durante o período de testes. Em contrapartida, o modelo Claude apresentou o menor índice de uptime, registrando 98,68%. Nesse cenário, o destaque em qualidade e consistência das respostas foi para o Kimi, que alcançou a maior pontuação da categoria (4,3 de 5), superando concorrentes mais famosos.
Assim sendo, o relatório serve como um guia para os milhões de profissionais que utilizam essas ferramentas diariamente. Com efeito, a dependência excessiva desses modelos sem a devida verificação pode comprometer a precisão de trabalhos acadêmicos e profissionais. Resta agora aos grandes desenvolvedores aprimorarem seus algoritmos para reduzir esses índices e recuperar a confiança plena dos usuários globais.