Wikipedia tem uma solução para o dilúvio de bots de treinamento de IA que estão sobrecarregando seus servidores

A Wikimedia Foundation criou um conjunto de dados via Kaggle para desenvolvedores de IA utilizarem, em vez de sobrecarregar os servidores da Wikipedia com bots de scraping.


  • Bots de scraping consumiram 50% da largura de banda da Wikimedia Foundation
  • Parceria entre Wikimedia e Kaggle visa disponibilizar dados da Wikipedia de forma ética para desenvolvedores de IA
  • Iniciativa destaca a importância da ética no treinamento de modelos de inteligência artificial

  • Wikimedia Foundation lança dataset para IA em parceria com Kaggle

    A Wikimedia Foundation anunciou uma parceria com a empresa Kaggle, do Google, para disponibilizar um conjunto de dados beta com conteúdo estruturado da Wikipedia em inglês e francês. Essa iniciativa tem como objetivo deter o aumento de tráfego não-humano que vinha sobrecarregando os servidores da organização.

    Recentemente, o número de bots de IA que utilizam artigos da Wikipedia para treinamento tem gerado uma enorme pressão nos servidores da organização. Para resolver esse problema, a Wikimedia decidiu disponibilizar diretamente seus dados para os desenvolvedores de IA. O conjunto de dados foi lançado em 15 de abril e oferece informações limpas e pré-processadas dos artigos, permitindo o desenvolvimento de modelos, benchmarking e análises exploratórias.

    Segundo relatos, os bots que raspam páginas da Wikipedia e do Wikimedia Commons consumiram 50% da largura de banda da organização, causando um grande impacto em suas operações sem fins lucrativos. Com a nova abordagem de compartilhamento de dados, a Wikimedia espera desencorajar o uso excessivo de bots em suas páginas.

    Em um cenário onde empresas de IA possuem uma demanda insaciável por dados, a disponibilidade de conteúdo legalmente acessível da Wikipedia sob a licença Creative Commons Attribution-ShareAlike traz uma nova perspectiva ética para o treinamento de modelos de inteligência artificial. A parceria entre a Wikimedia e a Kaggle representa um passo inovador nesse sentido, permitindo que as empresas de IA utilizem dados da internet de forma mais ética e legal.

    Essa iniciativa demonstra a importância da colaboração entre organizações e empresas tecnológicas para garantir o uso responsável e sustentável dos dados online para fins de desenvolvimento de IA.


    Artigo Original