Le scraping de contenu ou web scraping est une technique informatique permettant à des bots de télécharger ou d'extraire (scraping désigne l'action d'extraire de données) tout le contenu d'un site web, souvent afin d'utiliser ce contenu à des fins malveillantes.
Cet article s'articule autour des points suivants :
Contenu associé
Qu'est-ce que la sécurité des applications web ?
Qu'est-ce qu'une attaque par ingénierie sociale ?
Attaque de l'homme du milieu
Attaque KRACK
Attaque par débordement de tampon
Abonnez-vous à theNET, le récapitulatif mensuel par Cloudflare des informations les plus populaires sur Internet !
Copier le lien de l'article
L'extraction de contenu, ou extraction web, fait référence au moment où un bot télécharge une partie ou la totalité du contenu d'un site web, à l'insu du propriétaire du site. L'extraction de contenu est une forme d'extraction de données. qui cible le contenu, qu'il s'agisse d'un visuel web original ou d'un curriculum vitae, en passant par une critique d'un restaurant. Dans la plupart des cas, l'extraction est effectuée par des bots automatisés capables de collecter des informations à grande échelle et rapidement.
L'extraction de contenu peut être utilisée à des fins légitimes, telles que l'agrégation de données pour l'optimisation des moteurs de recherche. Cependant, les bots d'extraction sont souvent utilisés pour réaffecter du contenu à des fins malveillantes, telles que la violation des droits d'auteur, la duplication du contenu pour l'optimisation des moteurs de recherche sur les sites web appartenant à l'attaquant et le vol de trafic organique. Ces bots peuvent également donner lieu à des analyses de l'utilisation faussées et à l'épuisement des ressources serveur.
Un bot d'extraction de site web envoie généralement une série de requêtes HTTP GET, puis copie et enregistre toutes les informations que le serveur web envoie en réponse, en parcourant la hiérarchie d'un site web jusqu'à ce qu'il ait copié tout le contenu.
Les extracteurs de contenu les plus sophistiqués peuvent utiliser JavaScript, par exemple pour remplir tous les formulaires d'un site web afin d'accéder au contenu contrôlé et de le télécharger. Les programmes et les API « d'automatisation du navigateur » permettent une interaction automatisée des bots avec les sites web et les API comme s'ils utilisaient un navigateur web traditionnel pour tenter de tromper le serveur du site web en lui faisant croire qu'un utilisateur humain accède au contenu.
Bien sûr, un individu peut copier et coller manuellement un site web entier, mais les bots peuvent explorer et télécharger tout le contenu d'un site web en quelques secondes, même pour les grands sites de e-commerce contenant des centaines ou des milliers de pages de produits.
Les bots peuvent extraire tout ce qui est affiché publiquement sur Internet : texte, images, code HTML, code CSS, etc. Les attaquants peuvent ensuite utiliser les données récupérées à diverses fins. Un exemple consiste à réutiliser du texte sur un autre site Web pour voler le classement du moteur de recherche du premier site Web ou pour tromper les utilisateurs. Un attaquant pourrait également utiliser le code HTML et CSS d'un site web pour reproduire l'apparence d'un site web légitime ou l'image de marque d'une autre entreprise. Les cybercriminels peuvent utiliser du contenu volé pour créer des sites web de phishing qui incitent les utilisateurs à entrer des données personnelles suite à leur ressemblance à la version réelle d'un autre site web.
L'extraction web peut nuire à l'activité de plusieurs entreprises.
L'extraction de prix fait référence au téléchargement de toutes les informations tarifaires d'un site web, souvent par une entreprise concurrente. Cela peut être dommageable si le concurrent ajuste ses prix pour les rendre plus favorables, incitant les consommateurs à effectuer leurs achats auprès de son concurrent plutôt que sur le site web d'origine (ayant subi l'extraction).
L'extraction de contacts consiste à analyser un site web à la recherche de coordonnées, telles que des numéros de téléphone et des adresses électroniques, puis à télécharger ces informations. Ce type d'extraction est souvent effectué dans le but de trouver de nouvelles cibles pour le spam.
Voir Qu'est-ce que le scraping de données ? pour en savoir plus.
Les solutions de gestion des bots peuvent identifier les modèles de comportement des bots et atténuer les activités d’extraction des bots, souvent à l’aide de l’apprentissage automatique. Le contrôle du volume des requêtes peut également aider à éviter l’extraction de contenu : il est improbable qu’un véritable utilisateur soit en mesure de demander le contenu de plusieurs centaines de pages en quelques secondes ou minutes, et tout « utilisateur » effectuant des requêtes aussi rapidement est probablement un bot. En outre, l’introduction de vérifications interstitielles que les bots ne sont pas en mesure de résoudre permet de distinguer les vrais utilisateurs des bots.
La solution de gestion des bots de Cloudflare protège votre site web contre le trafic lié aux bots malveillants, afin de tenir les bots d'extraction de contenu à distance. La solution de gestion des bots de Cloudflare, basée sur l'apprentissage automatique, peut identifier les bots à partir de logiques de comportement, ce qui réduit le nombre de points de friction pour les utilisateurs et de faux positifs. Pour que l'atténuation de l'extraction soit efficace, la détection des bots peut fonctionner conjointement avec les requêtes de contrôle du volume des requêtes et la gestion des difficultés avec Turnstile.
Les petites organisations peuvent également bloquer les attaques par extraction et obtenir une visibilité sur leur trafic lié aux bots grâce au mode Super Bot Fight, disponible avec les offres Cloudflare Pro et Business.
L’extraction de contenu, également appelée extraction web, est un processus automatisé par lequel un bot télécharge tout ou partie du contenu d’un site web. Bien qu’elle puisse être utilisée à des fins légitimes, telles que l’agrégation de données pour les moteurs de recherche, elle est souvent utilisée à des fins malveillantes.
Un bot d’extraction envoie généralement une série de requêtes HTTP GET au serveur d’un site web, puis copie et enregistre toutes les informations renvoyées en réponse. Les bots plus avancés peuvent interagir avec un site comme s’ils étaient des humains utilisant un navigateur, ce qui leur permet de remplir des formulaires pour accéder à du contenu protégé et le télécharger.
Les attaquants extraient du contenu pour diverses raisons malveillantes : violation des droits d’auteur, réutilisation de texte pour manipuler le classement d’un site web dans les moteurs de recherche, duplication du code HTML et CSS d’un site pour créer un site de phishing convaincant, ou encore vol de coordonnées pour des campagnes de spam.
L’extraction de contenu peut nuire à une entreprise de plusieurs manières. Les concurrents peuvent collecter les informations tarifaire pour casser les prix et détourner les ventes, par exemple. De plus, l’activité d’extraction peut fausser l’analyse de l’utilisation, nuire aux performances du site web en épuisant les ressources du serveur et augmenter considérablement les coûts de bande passante.
L’extraction de prix est un type spécifique d’extraction de contenu qui se concentre sur le téléchargement de toutes les informations tarifaires d’un site web. Cette pratique est souvent adoptée par les concurrents qui ajustent ensuite leurs propres prix pour mieux attirer les consommateurs.
Plusieurs méthodes permettent de prévenir l’extraction de contenu. Une solution de gestion des bots peut identifier et atténuer l’activité d’extraction, souvent en recourant à l’apprentissage automatique pour détecter le comportement des bots. Le contrôle du volume des requêtes peut également être efficace en bloquant tout « utilisateur » effectuant un nombre anormalement élevé de requêtes de pages en peu de temps.