OpenAI lança novos modelos de raciocínio simulado com acesso total a ferramentas

O novo modelo o3 aparece como “quase genial”, segundo um médico, mas ainda comete erros.


  • O modelo o3 da OpenAI é capaz de gerar hipóteses científicas complexas e úteis sob demanda
  • O o3 apresentou um desempenho superior em tarefas difíceis em comparação com o modelo o1
  • O o4-mini alcançou 92,7% de precisão na AIME 2025 e 69,1% de precisão na SWE-Bench Verified
  • Os modelos o3 e o4-mini mostraram fortes resultados em benchmarks de raciocínio visual
  • É importante ressaltar que os benchmarks fornecidos pela OpenAI não foram verificados independentemente

  • OPENAI LANÇA NOVOS MODELOS DE RACIOCÍNIO SIMULADO COM ACESSO TOTAL ÀS FERRAMENTAS

    No dia 16 de abril de 2025, a OpenAI anunciou o lançamento de dois novos modelos – o3 e o4-mini – que combinam capacidades de raciocínio simulado com acesso a funções como navegação na web e programação. Esses modelos marcam a primeira vez que os modelos focados em raciocínio da OpenAI podem usar todas as ferramentas do ChatGPT simultaneamente, incluindo análise visual e geração de imagens.

    Os novos modelos substituem seus predecessores, o1 e o3-mini, oferecendo melhor eficiência de custos e diferentes casos de uso: o3 foca em análise complexa, enquanto o4-mini, sendo uma versão menor do modelo SR da próxima geração “o4” (ainda não lançado), otimiza velocidade e eficiência de custos.

    Uma das características destaque desses novos modelos é sua capacidade de raciocínio simulado, que utiliza um processo “pensante” simulado passo a passo para resolver problemas. Além disso, os novos modelos determinam dinamicamente quando e como implantar auxílios para resolver problemas de vários passos.

    Conforme relatado, o modelo o3 da OpenAI tem gerado ideias novas e úteis. Testes preliminares indicam que o o3 pode atingir níveis de genialidade, com capacidade de gerar hipóteses científicas complexas sob demanda.

    Apesar das novidades, alguns benchmarks fornecidos pela OpenAI carecem de verificação independente. Uma avaliação inicial de um modelo o3 pré-lançamento por um laboratório independente de pesquisa de IA, Transluce, encontrou que o modelo exibiu tipos recorrentes de confabulações.


    Artigo Original