Les entreprises d'IA contournent les normes web pour scraper les sites des éditeurs
Les entreprises d'IA contournent les normes web pour scraper les sites des éditeurs
De nombreuses entreprises d'intelligence artificielle contournent les protocoles web standard conçus pour bloquer le scraping non autorisé du contenu des sites des éditeurs. Cette révélation provient de TollBit, une startup spécialisée dans la licence de contenu, qui a signalé que plusieurs entreprises d'IA ignorent le protocole d'exclusion des robots ("robots.txt"). Ce protocole informe traditionnellement les robots d'indexation des parties d'un site qui sont hors limites, mais ces entreprises le contournent pour utiliser le contenu à des fins de formation et de génération de résumés dans les systèmes d'IA.
La question a attiré l'attention du public lorsque Forbes a accusé Perplexity, une startup de recherche en IA, de plagier ses articles d'investigation sans autorisation ni citation appropriée. Ce conflit souligne une tension plus large entre les entreprises technologiques et les sociétés de médias concernant la valeur du contenu et les droits de propriété intellectuelle à l'ère de l'IA générative.
TollBit vise à jouer le rôle de médiateur entre les entreprises d'IA et les éditeurs en offrant une plateforme pour négocier les frais de licence de contenu. Malgré ces efforts, de nombreux éditeurs restent préoccupés par les implications financières du scraping de contenu à grande échelle. La News Media Alliance, représentant plus de 2 200 éditeurs, a souligné le risque pour la capacité de l'industrie à monétiser le contenu et à soutenir le journalisme.
Alors que certains éditeurs ont engagé des actions en justice contre les entreprises d'IA pour violation des droits d'auteur, d'autres négocient des accords de licence. L'efficacité de "robots.txt" en tant qu'outil de protection du contenu est de plus en plus remise en question, et le débat sur l'utilisation équitable du contenu par les systèmes d'IA continue d'évoluer.