
Wikipedia tem uma solução para o dilúvio de bots de treinamento de IA que estão sobrecarregando seus servidores
A Wikimedia Foundation criou um conjunto de dados via Kaggle para desenvolvedores de IA utilizarem, em vez de sobrecarregar os servidores da Wikipedia com bots de scraping.
Wikimedia Foundation lança dataset para IA em parceria com Kaggle
A Wikimedia Foundation anunciou uma parceria com a empresa Kaggle, do Google, para disponibilizar um conjunto de dados beta com conteúdo estruturado da Wikipedia em inglês e francês. Essa iniciativa tem como objetivo deter o aumento de tráfego não-humano que vinha sobrecarregando os servidores da organização.
Recentemente, o número de bots de IA que utilizam artigos da Wikipedia para treinamento tem gerado uma enorme pressão nos servidores da organização. Para resolver esse problema, a Wikimedia decidiu disponibilizar diretamente seus dados para os desenvolvedores de IA. O conjunto de dados foi lançado em 15 de abril e oferece informações limpas e pré-processadas dos artigos, permitindo o desenvolvimento de modelos, benchmarking e análises exploratórias.
Segundo relatos, os bots que raspam páginas da Wikipedia e do Wikimedia Commons consumiram 50% da largura de banda da organização, causando um grande impacto em suas operações sem fins lucrativos. Com a nova abordagem de compartilhamento de dados, a Wikimedia espera desencorajar o uso excessivo de bots em suas páginas.
Em um cenário onde empresas de IA possuem uma demanda insaciável por dados, a disponibilidade de conteúdo legalmente acessível da Wikipedia sob a licença Creative Commons Attribution-ShareAlike traz uma nova perspectiva ética para o treinamento de modelos de inteligência artificial. A parceria entre a Wikimedia e a Kaggle representa um passo inovador nesse sentido, permitindo que as empresas de IA utilizem dados da internet de forma mais ética e legal.
Essa iniciativa demonstra a importância da colaboração entre organizações e empresas tecnológicas para garantir o uso responsável e sustentável dos dados online para fins de desenvolvimento de IA.