Wikipedia oferece a desenvolvedores de IA um conjunto de dados de treinamento para talvez afastar os bots rastreadores

Wikipedia está enfrentando problemas com os crawlers de IA – bots que estão raspando texto e multimídia da enciclopédia para treinar modelos de inteligência artificial generativa – que estão impactando seus servidores, levando a custos aumentados e tempos de carregamento mais lentos para os usuários humanos em alguns casos. Para tentar parar os bots de atacar o site público da Wikipedia e consumir muita largura de banda, a Fundação Wikimedia está oferecendo aos desenvolvedores de IA um conjunto de dados que podem ser usados gratuitamente. A organização se uniu ao Kaggle, uma plataforma de ciência de dados, para oferecer um lançamento beta de um conjunto de dados estruturados em inglês e francês para treinamento, desenvolvimento e ciência de dados.

Destacando que o conjunto de dados inclui “resumos, descrições curtas, dados em estilo infobox, links de imagem e seções de artigos claramente segmentadas.” Não há referências ou outros “elementos não literários”, como videoclipes. Apesar da falta de referências, a Wikimedia Enterprise (parte da Fundação Wikimedia que busca disponibilizar dados da Wikipedia por meio de APIs) diz que o conteúdo no conjunto de dados é licenciado gratuitamente sob Creative Commons, domínio público, etc., já que é todo da Wikipedia.


  • Crawlers de IA estão impactando negativamente os servidores da Wikipedia, aumentando custos e tornando o carregamento mais lento para os usuários.
  • Wikimedia Foundation está oferecendo dataset estruturado em parceria com Kaggle para desenvolvedores de IA.
  • Conteúdo do dataset é licenciado gratuitamente sob Creative Commons e domínio público.

  • Wikipedia oferece aos desenvolvedores de IA um conjunto de dados de treinamento

    A Wikipedia está tomando medidas para lidar com os bots de IA que estão impactando negativamente seus servidores, custando mais e tornando o carregamento mais lento para os usuários humanos. Em parceria com o Kaggle, a Wikimedia Foundation está disponibilizando um dataset em inglês e francês para uso de desenvolvedores de IA, com o objetivo de treinar modelos de inteligência artificial.

    Este conjunto de dados estruturados inclui informações como resumos, descrições curtas, dados em estilo infobox e links de imagem de artigos da Wikipedia. Apesar da falta de referências, o conteúdo é licenciado gratuitamente sob Creative Commons e domínio público.

    Sobre a Wikimedia Foundation

    A Wikimedia Foundation é a organização sem fins lucrativos encarregada de administrar a Wikipedia e outros projetos relacionados. Seu trabalho visa garantir que o conhecimento seja acessível a todos, promovendo a liberdade de expressão e o compartilhamento de informações.


    Artigo Original