Traiter l'évasion des bots dans le trafic en ligne
Stratégies pour détecter et combattre les bots evasifs en ligne.
― 9 min lire
Table des matières
- Le Problème des Bots Évasifs
- Méthodologie
- Conclusions sur les Taux d'Évasion
- L'Importance de l'Analyse des Incohérences
- Incohérences Spatiales
- Incohérences Temporelles
- Une Approche Basée sur les Données pour la Détection
- Applications Pratiques des Règles d'Incohérence
- Le Rôle des Attributs de Navigateur
- Mimétisme Comportemental et Techniques d'Évasion
- Le Défi des Réseaux Proxy
- Directions Futures dans la Détection des Bots
- Conclusion
- Source originale
- Liens de référence
Alors que les bots deviennent de plus en plus communs sur internet, les méthodes pour les détecter se sont aussi améliorées. Une méthode qui prend de l'ampleur est le "browser fingerprinting". Cette technique collecte divers éléments d'infos sur le navigateur d'un utilisateur pour créer une "empreinte" unique. Cependant, de nombreux bots apprennent à modifier leurs empreintes pour éviter d'être détectés. Cet article explore comment ces bots altèrent leurs empreintes, les défis que cela pose, et propose des moyens d'améliorer les méthodes de détection.
Le Problème des Bots Évasifs
Avec la montée en flèche de l'utilisation des bots, la complexité des techniques utilisées pour éviter la détection augmente aussi. Ces bots évasifs changent leurs empreintes en modifiant des Attributs spécifiques du navigateur. Ce changement les aide à se fondre dans la masse des utilisateurs réels. Il est donc essentiel de savoir à quel point ces altérations fonctionnent et quels attributs sont couramment manipulés.
L'augmentation des bots est impressionnante. En 2023, environ 47,5 % du trafic en ligne provenait des bots, la plupart s'adonnant à des activités malveillantes. Les fraudeurs utilisent ces bots pour commettre divers crimes en ligne, entraînant d'importantes pertes financières pour plusieurs secteurs. Il est crucial pour les entreprises de détecter et de bloquer ces bots afin de protéger leurs intérêts.
Méthodologie
Dans notre enquête, on a mis en place un "site piège" qui fait semblant d'être un site légitime. Notre but était d'attirer du trafic de bots. On a collaboré avec différents services qui prétendent livrer du trafic "réaliste et indétectable". En analysant les requêtes de ces bots, on a pu collecter des données sur la façon dont ils manipulent leurs empreintes.
On a collecté plus d'un demi-million de requêtes provenant d'environ 20 sources différentes, en suivant leurs taux d'Évasion par rapport à deux services commerciaux de détection de bots. Les taux d'évasion que nous avons découverts étaient notables. Beaucoup de bots ont échappé à la détection en modifiant divers attributs d'empreinte.
Conclusions sur les Taux d'Évasion
Notre site piège a reçu un grand nombre de requêtes, et un pourcentage alarmant a échappé à la détection. Par exemple, un système de détection a détecté environ 55 % des requêtes, tandis que l'autre en a capté environ 47 %. Cela indiquait qu'un nombre important de bots s'étaient déguisés en utilisateurs normaux.
Notre analyse a montré que les bots évasifs modifiaient souvent des attributs spécifiques d'empreinte. Cela incluait le changement de chaînes d'agent utilisateur, la modification des résolutions d'écran, et la simulation de comportements de navigation semblables à ceux des humains. La présence d'Incohérences dans les attributs du navigateur était un indicateur clair de manipulation.
L'Importance de l'Analyse des Incohérences
Au cours de notre recherche, nous avons découvert que les incohérences dans les attributs d'empreinte pouvaient servir d'indicateurs précieux pour détecter les bots évasifs. En analysant les requêtes, nous avons noté que les vrais navigateurs n'affichaient que rarement de telles incohérences. Par conséquent, reconnaître les motifs de manipulation devient essentiel pour améliorer les taux de détection.
Nous avons divisé les incohérences en deux catégories : spatiales et temporelles. Les incohérences spatiales se produisent lorsque différents attributs dans une seule requête entrent en conflit. En revanche, les incohérences temporelles surviennent lorsque le même appareil envoie plusieurs requêtes dans le temps avec des attributs contradictoires.
Incohérences Spatiales
On peut repérer les incohérences spatiales en examinant des paires d'attributs d'empreinte. Par exemple, si un bot prétend utiliser un iPhone tout en rapportant une résolution d'écran impossible, ce décalage soulève des soupçons. De telles incohérences peuvent aider à identifier les bots se faisant passer pour de vrais utilisateurs.
On a découvert que beaucoup des requêtes provenant de services qui faisaient la pub d'un trafic réaliste étaient pleines d'incohérences spatiales. Par exemple, la même chaîne d'agent utilisateur était associée à différentes résolutions d'écran qui ne correspondent pas à de vrais iPhones. Ce modèle indiquait que ces bots manipulaient leurs attributs de navigateur pour avoir l'air légitimes.
Incohérences Temporelles
Les incohérences temporelles montrent souvent que les bots essaient de créer l'illusion d'utiliser plusieurs appareils. Par exemple, si un seul appareil envoie plusieurs requêtes avec des spécifications matérielles différentes dans le temps, cette anomalie suggère une manipulation. Les utilisateurs réels ne changent généralement pas leurs caractéristiques de dispositif d'une requête à l'autre.
Notre étude a révélé que beaucoup de requêtes manquaient de cohérence dans des attributs comme la mémoire de l'appareil et les cœurs CPU. En analysant les requêtes du même utilisateur, on a souvent trouvé des valeurs différentes qui ne pouvaient raisonnablement pas être associées à un seul appareil.
Une Approche Basée sur les Données pour la Détection
Pour améliorer la détection des bots évasifs, on propose une approche semi-automatisée qui se concentre sur l'identification de ces incohérences. En utilisant à la fois des analyses spatiales et temporelles, on peut développer des règles qui détectent quand un appareil est susceptible de manipuler son empreinte.
Ces règles tirent parti des connaissances acquises en analysant des requêtes capturées précédemment. Elles peuvent être appliquées aux nouvelles requêtes entrantes, augmentant les chances d'identifier et de bloquer correctement les bots évasifs.
Applications Pratiques des Règles d'Incohérence
Les règles générées par notre méthode peuvent être directement employées par les services de détection de bots existants. En mettant en œuvre ces règles, les entreprises peuvent efficacement réduire les taux d'évasion des bots essayant d'exploiter les failles des systèmes de détection. Par exemple, notre évaluation a montré que appliquer ces règles d'incohérence pouvait considérablement améliorer les taux de détection des deux systèmes que nous avons utilisés.
De plus, le processus de capture d'attributs supplémentaires peut améliorer l'efficacité de la détection des bots. Plus on a de points de données, meilleures sont nos chances d'identifier des incohérences qui indiquent une manipulation.
Le Rôle des Attributs de Navigateur
Les attributs de navigateur jouent un rôle essentiel dans le fingerprinting et la détection des bots. Ces attributs incluent des informations telles que la version du navigateur, le système d'exploitation, les plugins installés, et même des spécifications matérielles comme la mémoire et les cœurs de CPU.
Les bots essaient souvent d'imiter des configurations courantes pour échapper à la détection. Par exemple, ils peuvent choisir de se présenter comme utilisant un navigateur web populaire comme Chrome ou Firefox, qui est fréquemment trouvé sur les appareils des vrais utilisateurs. En ciblant des attributs de navigateur communément acceptés, ils augmentent leurs chances d'être acceptés comme utilisateurs légitimes.
Mimétisme Comportemental et Techniques d'Évasion
Les bots évasifs utilisent diverses techniques au-delà de simplement changer les attributs du navigateur. Une stratégie significative est le mimétisme comportemental, où les bots simulent des comportements semblables à ceux des humains, comme des mouvements de souris et des motifs de défilement, pour se fondre plus crédiblement.
Ce mimétisme complique la tâche de détection des bots car ils peuvent sembler tout à fait comme un utilisateur humain naviguant sur un site. Les modèles d'apprentissage machine développés pour la détection doivent faire face à ces techniques sophistiquées, rendant de plus en plus difficile de distinguer les vrais utilisateurs des bots.
Le Défi des Réseaux Proxy
Une autre méthode courante que les bots utilisent pour éviter la détection est l'utilisation de réseaux proxy. En acheminant leur trafic à travers différentes adresses IP, les bots peuvent masquer leurs origines et échapper aux mécanismes de détection basés sur les IP. Cela complique les efforts de détection des systèmes qui s'appuient sur des listes noires d'IP pour filtrer le trafic de bots.
Notre analyse a indiqué qu'un nombre substantiel de requêtes provenait de services proxy connus, compliquant les efforts pour les identifier et les bloquer. La difficulté réside dans le fait que de nombreux utilisateurs réels peuvent également utiliser des services proxy, ce qui peut entraîner des faux positifs.
Directions Futures dans la Détection des Bots
Pour améliorer les systèmes de détection des bots, il est vital de rester à l'avance des tactiques utilisées par les bots évasifs. Une façon de le faire est de s'assurer que les systèmes de détection peuvent s'adapter rapidement aux nouvelles techniques d'évasion.
Incorporer des modèles d'apprentissage machine plus sophistiqués capables d'apprendre à partir de nouvelles données et d'évoluer avec les motifs changeants est crucial. De plus, explorer les attributs non modifiables, comme les caractéristiques physiques de l'appareil, peut offrir une solution plus robuste pour distinguer les bots des vrais utilisateurs.
Il reste un besoin urgent d'équilibrer une détection efficace des bots avec la vie privée des utilisateurs. À mesure que les techniques de détection deviennent plus invasives, nous devons également prendre en compte les implications des technologies renforçant la vie privée qui peuvent, de manière involontaire, signaler un comportement normal d'utilisateur comme suspect.
Conclusion
La bataille contre les bots évasifs est un défi constant qui nécessite une adaptation et une innovation continues dans les techniques de détection. Alors que les bots deviennent plus sophistiqués et utilisent une variété de méthodes pour éviter la détection, l'importance d'identifier les incohérences dans leurs empreintes de navigateur ne peut être trop soulignée.
En se concentrant sur les incohérences spatiales et temporelles, on peut développer des stratégies efficaces pour améliorer les systèmes de détection de bots. Cela, en combinaison avec des améliorations continues en apprentissage machine et analyse de données, aidera à créer un environnement en ligne plus sûr tout en veillant à ce que les utilisateurs réels ne soient pas affectés.
Grâce à des recherches et une collaboration continues, nous pouvons rester un pas en avance dans ce paysage en constante évolution de la fraude et de la tromperie en ligne.
Titre: FP-Inconsistent: Detecting Evasive Bots using Browser Fingerprint Inconsistencies
Résumé: As browser fingerprinting is increasingly being used for bot detection, bots have started altering their fingerprints for evasion. We conduct the first large-scale evaluation of evasive bots to investigate whether and how altering fingerprints helps bots evade detection. To systematically investigate evasive bots, we deploy a honey site incorporating two anti-bot services (DataDome and BotD) and solicit bot traffic from 20 different bot services that purport to sell "realistic and undetectable traffic". Across half a million requests from 20 different bot services on our honey site, we find an average evasion rate of 52.93% against DataDome and 44.56% evasion rate against BotD. Our comparison of fingerprint attributes from bot services that evade each anti-bot service individually as well as bot services that evade both shows that bot services indeed alter different browser fingerprint attributes for evasion. Further, our analysis reveals the presence of inconsistent fingerprint attributes in evasive bots. Given evasive bots seem to have difficulty in ensuring consistency in their fingerprint attributes, we propose a data-driven approach to discover rules to detect such inconsistencies across space (two attributes in a given browser fingerprint) and time (a single attribute at two different points in time). These rules, which can be readily deployed by anti-bot services, reduce the evasion rate of evasive bots against DataDome and BotD by 48.11% and 44.95% respectively.
Auteurs: Hari Venugopalan, Shaoor Munir, Shuaib Ahmed, Tangbaihe Wang, Samuel T. King, Zubair Shafiq
Dernière mise à jour: 2024-06-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.07647
Source PDF: https://arxiv.org/pdf/2406.07647
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.