Benchmarks de IA baseados em crowdsourcing têm sérias falhas, dizem alguns especialistas

AI labs estão cada vez mais dependendo de plataformas de benchmarking crowdsourced, como Chatbot Arena, para sondar as forças e fraquezas de seus modelos mais recentes. No entanto, alguns especialistas afirmam que existem problemas sérios com essa abordagem do ponto de vista ético e acadêmico. Nos últimos anos, laboratórios como OpenAI, Google e Meta recorreram a essas plataformas para recrutar usuários para ajudar a avaliar as capacidades dos modelos que estão por vir.


  • O uso de benchmarks crowdsourced por laboratórios de AI está levantando preocupações éticas e acadêmicas
  • Expertos argumentam que plataformas como Chatbot Arena podem estar sendo manipuladas para promover resultados exagerados
  • A necessidade de benchmarks dinâmicos e transparentes é destacada como crucial para a avaliação de modelos de AI

  • Crowdsourced AI Benchmarks: Os problemas e as controvérsias

    É cada vez mais comum ver laboratórios de inteligência artificial utilizar plataformas de benchmarking crowdsourced para avaliar seus modelos mais recentes. No entanto, especialistas apontam sérias falhas éticas e acadêmicas nesse processo. Empresas como OpenAI, Google e Meta têm recorrido a essas plataformas para recrutar usuários e testar os limites de seus modelos, mas a validade desses benchmarks está sendo questionada.

    Emily Bender, professora de linguística da Universidade de Washington, levanta preocupações sobre plataformas como Chatbot Arena, onde voluntários interagem com modelos anônimos e escolhem suas respostas preferidas. Ela destaca a importância da validade do benchmark, questionando se a simples preferência dos usuários realmente reflete melhorias no modelo. Outro ponto de vista crítico vem de Asmelash Teka Hadgu, co-fundador da AI firm Lesan, que acredita que essas plataformas estão sendo usadas de forma exagerada pelas empresas de AI para promover resultados duvidosos.

    O artigo aponta para casos de controvérsia, como o envolvendo o modelo Maverick da Meta, que foi otimizado para se dar bem no Chatbot Arena, mas posteriormente lançou uma versão com desempenho inferior. Essas questões levantam a discussão sobre a necessidade de benchmarks dinâmicos, distribuídos e especificamente adaptados para diferentes casos de uso.

    Em conclusão, a validade e a ética por trás dos benchmarks crowdsourced estão sendo questionadas por especialistas da área. É importante que as empresas de AI repensem suas estratégias de avaliação de modelos e considerem métodos mais confiáveis e transparentes.

    Sobre Chatbot Arena:

    Chatbot Arena é uma plataforma de benchmarking crowdsourced que tem sido amplamente adotada por laboratórios de inteligência artificial para avaliar modelos de chatbots. No entanto, a validade e a confiabilidade desses benchmarks estão sendo criticadas por especialistas do setor.


    Artigo Original