Wildlife-Handel Bekämpfen Durch Datensammlung
Ein neuartiger Ansatz, um Wildtierhandel online zu verfolgen und zu analysieren.
― 6 min Lesedauer
Inhaltsverzeichnis
Wildlife-Trafficking ist ein ernstes Problem, das die Natur beeinträchtigt und auch den Menschen schaden kann. Viele illegale Wildtierprodukte werden online verkauft, was eine Herausforderung für die Behörden darstellt, die versuchen, diese Aktivitäten zu stoppen. Das Internet bietet den Schmugglern eine einfache Möglichkeit, ihre Produkte zu bewerben und zu verkaufen, was bedeutet, dass sie digitale Spuren hinterlassen. Indem wir diese Spuren untersuchen, können wir lernen, wie diese Netzwerke funktionieren und wie sie gestört werden können.
Allerdings ist es nicht einfach, Informationen über diese Anzeigen zu sammeln. Es gibt unzählige Produkte auf Online-Marktplätzen, und es kann schwer sein, herauszufinden, welche Anzeigen echte Wildtiere betreffen. Zudem macht die riesige Menge an Daten es wichtig, effektive Methoden zum Sammeln, Filtern und Speichern dieser Informationen zu haben.
Unser Ansatz
Wir haben eine neue Methode entwickelt, um Daten über Wildtierhandel im Internet zu sammeln. Unsere Methode beinhaltet eine Datensammlungspipeline, die automatisch relevante Anzeigen findet und sammelt. Diese Pipeline nutzt spezifische Tools, um nach Online-Anzeigen zu suchen und maschinelles Lernen, um zu identifizieren, welche Anzeigen relevant für den Wildtierhandel sind.
Mit diesem Ansatz haben wir einen Datensatz erstellt, der zu den grössten seiner Art gehört. Er umfasst fast eine Million Anzeigen, die von 41 verschiedenen Online-Marktplätzen stammen und 235 Wildtierarten in 20 Sprachen abdecken.
Die Herausforderung bei der Datensammlung
Online-Marktplätze sind voll mit Produkten, und nach wildtierbezogenen Anzeigen zu suchen, kann knifflig sein, weil viele nicht verwandte Artikel in den Suchergebnissen auftauchen können. Zum Beispiel könnte eine Suche nach "brasilianischem Blaupapagei" Postkarten oder Spielzeuge zurückbringen, statt echte Vögel. Das macht es wichtig, irrelevante Anzeigen herauszufiltern, um die Datensammlung zu verbessern.
Maschinelles Lernen kann helfen, die richtigen Anzeigen zu identifizieren, aber das Training dieser Modelle kann schwierig sein, weil es nicht viele beschriftete Daten gibt. Schmuggler versuchen auch, ihre Aktivitäten zu verstecken, was unsere Aufgabe noch komplizierter macht.
Um nützliche Daten zu sammeln, müssen wir unorganisierte Produktseiten nehmen und nützliche Informationen über die verkauften Artikel extrahieren, wie Titel, Preise und Bilder. Verschiedene Websites präsentieren diese Informationen auf unterschiedliche Weise, was eine konsistente Datenerfassung zur Herausforderung macht.
Aufbau der Datensammlungspipeline
Unsere Datensammlungspipeline ist darauf ausgelegt, Produktseiten von verschiedenen Websites zu sammeln und nützliche Informationen zu extrahieren. Wir haben Flexibilität angestrebt, damit die Pipeline für verschiedene Sammlungen angepasst werden kann, egal ob sie sich auf bestimmte Arten oder bestimmte Online-Plattformen konzentriert. Die gesammelten Daten werden in Cloud-Speicher gespeichert, was den Zugriff und die Analyse später erleichtert.
Um zu zeigen, wie gut unsere Pipeline funktioniert, haben wir über 34 Tage Daten gesammelt und dabei fast eine Million Anzeigen erhalten. Dieses Vorgehen beinhaltete die Verwendung eines Web-Crawlers, der von Seed-URLs ausgeht, um weitere Links zu finden und Produktseiten herunterzuladen.
Seed-Auswahl
Um Daten zu sammeln, haben wir mit einer Liste von "Seed"-URLs begonnen, die als Einstiegspunkte für unseren Crawler dienen. Durch die Verwendung spezifischer Schlüsselwörter, die sich auf bedrohte Arten beziehen, generierten wir zusätzliche URLs, um eine umfassende Abdeckung der wildtierbezogenen Anzeigen sicherzustellen. Wir arbeiteten mit Experten zusammen, um eine Liste bedrohter Tiere zu erstellen, die von internationalen Wildtierschutzbehörden bereitgestellt wurde.
Datensammlung
Der Web-Crawler, den wir verwendet haben, ist darauf ausgelegt, gezielte Crawls effizient durchzuführen, indem er sich nur auf relevante Links konzentriert. Er lädt die Seiten herunter und extrahiert Links daraus, was es uns ermöglicht, die Daten systematisch zu sammeln, ohne uns von irrelevanten Inhalten ablenken zu lassen.
Informations Extraktion
Sobald wir eine Reihe von Seiten mit Produktanzeigen haben, stehen wir vor der Aufgabe, wichtige Informationen zu extrahieren. Dazu gehören Details wie Preis und Verkäufer, die für die Analyse entscheidend sind. Wir nutzten unterschiedliche Strategien, um diese Daten aus den verschiedenen Formaten, die auf unterschiedlichen Seiten zu finden sind, zu extrahieren.
Um den Extraktionsprozess zu vereinfachen, verwendeten wir Tools, um HTML-Inhalte zu parsen und automatisch wichtige Attribute zu identifizieren. Ausserdem analysierten wir eingebettete Metadaten auf den Seiten, wenn verfügbar, was half, noch strukturierte Informationen zu sammeln.
Herausfiltern irrelevanter Produkte
Nach der Extraktion einer riesigen Menge an Daten sind nicht alle Produkte relevant. Viele Anzeigen betreffen keine echten Tiere oder Tierteile. Um dieses Problem anzugehen, implementierten wir Filtermethoden mithilfe von Textklassifikationstechniken, insbesondere durch maschinelle Lernmodelle. Dies ermöglicht es uns, Anzeigen basierend auf der Art des angebotenen Produkts zu klassifizieren.
Zum Beispiel haben wir einen Klassifikator trainiert, um zwischen echten Wildtierprodukten und Artikeln wie Spielzeugen oder Drucken zu unterscheiden. Ein Zero-Shot-Klassifizierungsansatz wurde verwendet, was bedeutet, dass wir keine beschrifteten Daten benötigten, um die Aufgabe effektiv in mehreren Sprachen durchzuführen.
Leistung der Sammlungspipeline
Unsere Pipeline hatte beträchtliche Herausforderungen, konnte jedoch eine erhebliche Menge an Daten sammeln. In 34 Tagen Betrieb sammelte der Crawler über 11 Millionen Seiten, mit einer durchschnittlichen Antwortzeit von etwa 700 Millisekunden pro Seite. Obwohl es möglich war, Daten schnell zu sammeln, achteten wir darauf, die Server, die die Seiten hosten, nicht zu überlasten.
Die gesammelten Daten zeigten, dass, obwohl viele Seiten abgerufen wurden, nur ein kleiner Prozentsatz Anzeigen für echte Wildtierprodukte enthielt. Das betonte die Notwendigkeit, eine Methode zu haben, um massive Datenmengen effizient zu durchforsten.
Datenanalyse
Die Datensätze, die wir zusammengestellt haben, enthalten Informationen wie die URL, die Domain und die Zeit der Datenerfassung. Jeder Datensatz gibt Einblicke in den Online-Wildtierhandel, einschliesslich Trends, welche Arten am häufigsten beworben werden und die Preisspanne über verschiedene Märkte hinweg.
Durch unser Filtersystem identifizierten wir über tausend Produkte als echte Tiere und zigtausende als Tierkörperteile. Obwohl der Klassifikationsprozess nicht perfekt ist, hebt er die Notwendigkeit automatisierter Methoden hervor, die mit der grossflächigen Datensammlung umgehen können.
Zukünftige Richtungen
Während unsere aktuelle Pipeline einen bedeutenden Schritt zum Verständnis des Wildtierhandels online darstellt, gibt es viele Bereiche zur Verbesserung. Wir planen, unsere Zero-Shot-Klassifizierungsmethoden zu optimieren und fortschrittlichere Modelle für höhere Genauigkeit zu erkunden.
Darüber hinaus hoffen wir, unsere Datensammlungsmethoden robuster zu gestalten, indem wir Techniken des tiefen Lernens integrieren. Dies könnte zuverlässigere Informationen ermöglichen, unabhängig davon, wie sich Websites im Laufe der Zeit ändern.
Fazit
Unsere Arbeit ist eine wichtige Initiative, um Daten über den Wildtierhandel in Online-Marktplätzen zu sammeln. Durch den Aufbau einer skalierbaren und flexiblen Datensammlungspipeline wollen wir wertvolle Einblicke in dieses kritische Thema liefern. Indem wir unseren Quellcode und unsere Methoden öffentlich teilen, hoffen wir, dass andere dazu beitragen, Datensätze zu erstellen und zu analysieren, die helfen können, den illegalen Wildtierhandel zu bekämpfen.
Durch fortlaufende Forschung beabsichtigen wir, unsere Techniken zu verfeinern und unsere Datensammlung zu erweitern. Der Kampf gegen den Wildtierhandel erfordert innovative Lösungen und Zusammenarbeit, und wir sind entschlossen, zu dieser wichtigen Sache beizutragen.
Titel: A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web
Zusammenfassung: Wildlife traffickers are increasingly carrying out their activities in cyberspace. As they advertise and sell wildlife products in online marketplaces, they leave digital traces of their activity. This creates a new opportunity: by analyzing these traces, we can obtain insights into how trafficking networks work as well as how they can be disrupted. However, collecting such information is difficult. Online marketplaces sell a very large number of products and identifying ads that actually involve wildlife is a complex task that is hard to automate. Furthermore, given that the volume of data is staggering, we need scalable mechanisms to acquire, filter, and store the ads, as well as to make them available for analysis. In this paper, we present a new approach to collect wildlife trafficking data at scale. We propose a data collection pipeline that combines scoped crawlers for data discovery and acquisition with foundational models and machine learning classifiers to identify relevant ads. We describe a dataset we created using this pipeline which is, to the best of our knowledge, the largest of its kind: it contains almost a million ads obtained from 41 marketplaces, covering 235 species and 20 languages. The source code is publicly available at \url{https://github.com/VIDA-NYU/wildlife_pipeline}.
Autoren: Juliana Barbosa, Sunandan Chakraborty, Juliana Freire
Letzte Aktualisierung: 2024-07-26 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.18898
Quell-PDF: https://arxiv.org/pdf/2407.18898
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.