Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Google Gemini

Google Gemini Lidera Taxa de Alucinação Revela Estudo

O mercado de inteligência artificial acaba de receber um alerta importante quanto à precisão de seus modelos mais populares. De acordo com um levantamento recente da Legal Guardian Digital, empresa especializada em SEO jurídico, o Google Gemini registrou o maior índice de informações incorretas entre os principais chatbots. Portanto, o estudo destaca que a ferramenta entrega dados factualmente errados em cerca de 32% das interações analisadas.

Google Gemini

O Fenômeno das Alucinações e os Riscos para o Usuário

As chamadas “alucinações” ocorrem quando os modelos de linguagem perdem o padrão de confiabilidade e geram respostas plausíveis, porém falsas. Nesse sentido, o relatório explica que esses sistemas trabalham prevendo a próxima palavra mais provável em uma sequência. Consequentemente, quando o padrão falha, a IA acaba inventando nomes, datas ou valores para completar a lacuna, o que exige uma checagem humana constante e rigorosa.

A análise do ranking geral de desempenho, que considera critérios como satisfação do cliente e consistência, colocou o Perplexity AI no topo com 85 pontos de 100. Por outro lado, o Google Gemini amargou a oitava posição com apenas 41 pontos, ficando à frente apenas da Meta AI, que fechou a lista. De fato, até mesmo o popular ChatGPT decepcionou, ocupando o sexto lugar com uma pontuação mediana de 50.

Comparativo de Erros: ChatGPT e DeepSeek em Lados Opostos

Além disso, os dados revelam que o ChatGPT possui 30% de taxa de alucinação, o que representa mais que o dobro de chances de erro em comparação ao DeepSeek. O modelo chinês, inclusive, surpreendeu ao registrar apenas 14% de falhas factuais, mesmo tendo custado uma fração do investimento feito pela OpenAI. Nesse contexto, o DeepSeek e o ChatGPT dividem a liderança apenas no quesito de satisfação do cliente, com nota 4,7 de 5.

Disponibilidade e Consistência sob Análise

Quanto à estabilidade dos sistemas, apenas o Perplexity AI e o Grok mantiveram 100% de disponibilidade durante o período de testes. Em contrapartida, o modelo Claude apresentou o menor índice de uptime, registrando 98,68%. Nesse cenário, o destaque em qualidade e consistência das respostas foi para o Kimi, que alcançou a maior pontuação da categoria (4,3 de 5), superando concorrentes mais famosos.

Assim sendo, o relatório serve como um guia para os milhões de profissionais que utilizam essas ferramentas diariamente. Com efeito, a dependência excessiva desses modelos sem a devida verificação pode comprometer a precisão de trabalhos acadêmicos e profissionais. Resta agora aos grandes desenvolvedores aprimorarem seus algoritmos para reduzir esses índices e recuperar a confiança plena dos usuários globais.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *