OpenAIs o3 and o4-mini alucinam muito mais do que modelos anteriores

De acordo com o cartão do sistema da OpenAI, seus modelos de raciocínio recém-lançados o3 e o4-mini têm taxas de alucinação mais altas do que o1, GPT-4o e GPT-4.5, mesmo que sejam supostamente melhores.



OpenAI’s o3 and o4-mini Hallucinate Higher Than Previous Models

Um problema preocupante apresentado no relatório técnico da OpenAI revela que seus mais novos modelos de raciocínio, o3 e o4-mini, têm taxas de alucinação significativamente mais altas do que o modelo o1. Segundo o relatório da TechCrunch, a avaliação PersonQA destacou que o índice de alucinação do o3 é de 33%, enquanto o o4-mini é de 48%.

Os modelos de raciocínio da OpenAI são anunciados como mais precisos do que seus modelos não-raciocinantes, como o GPT-4o e GPT-4.5, devido ao uso de mais computação para pensar mais antes de responder. No entanto, a empresa reconhece que mais pesquisas são necessárias para entender a causa do aumento das taxas de alucinação nos novos modelos.

As avaliações de benchmarks podem ser subjetivas e apresentar desafios na comparação de modelos de inteligência artificial. No entanto, as descobertas recentes da OpenAI levantam questões sobre a confiabilidade e precisão dos modelos de raciocínio em comparação com versões anteriores.


Artigo Original