Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni# Basi di dati

Combattere il traffico di animali selvatici tramite la raccolta di dati

Un nuovo modo per seguire e analizzare il traffico di animali selvatici online.

― 6 leggere min


Dati contro il trafficoDati contro il trafficodi animali selvaticicommercio animale online.Metodi innovativi per combattere il
Indice

Il traffico di animali selvatici è un grosso problema che danneggia la natura e può mettere a rischio le persone. Molti prodotti di animali selvatici illegali vengono venduti online, e questo crea difficoltà per le autorità che cercano di fermare queste attività. Internet offre un modo semplice per i trafficanti di pubblicizzare e vendere i loro prodotti, il che significa che lasciano tracce digitali. Studiare queste tracce ci permette di capire come funzionano queste reti e come possono essere interrotte.

Però, raccogliere informazioni su questi Annunci non è affatto semplice. Ci sono tantissimi prodotti sui mercati online e può essere difficile identificare quali annunci riguardano animali selvatici reali. Inoltre, la quantità enorme di dati rende fondamentale avere metodi efficaci per raccogliere, filtrare e archiviare queste informazioni.

Il Nostro Approccio

Abbiamo sviluppato un nuovo metodo per raccogliere dati sul traffico di animali selvatici online. Il nostro metodo prevede una Pipeline di Raccolta Dati che trova e raccoglie automaticamente annunci pertinenti. Questa pipeline utilizza strumenti specifici per cercare annunci online e modelli di machine learning per identificare quali annunci sono rilevanti per il traffico di animali selvatici.

Grazie a questo approccio, abbiamo creato un dataset che è uno dei più grandi della sua categoria. Comprende quasi un milione di annunci provenienti da 41 diversi mercati online e copre 235 specie di animali selvatici in 20 lingue.

La Sfida di Raccogliere Dati

I mercati online sono pieni di prodotti e cercare annunci legati agli animali selvatici può essere complicato perché potrebbero apparire molti articoli non correlati nei risultati di ricerca. Ad esempio, cercando "pappagallo blu brasiliano" potresti trovare cartoline o giocattoli invece degli uccelli veri. Questo rende importante filtrare gli annunci irrilevanti per migliorare gli sforzi di raccolta dati.

I modelli di machine learning possono aiutare a identificare gli annunci giusti, ma addestrarli può essere difficile perché non c'è molta data etichettata disponibile. I trafficanti poi cercano di nascondere le loro attività, aggiungendo un ulteriore livello di complessità al nostro compito.

Per raccogliere dati utili, dobbiamo prendere pagine di prodotti non organizzate ed estrarre informazioni utili sugli articoli in vendita, come titoli, prezzi e immagini. I diversi siti presentano queste informazioni in modi vari e questo rende l'estrazione dati coerente una sfida.

Costruire la Pipeline di Raccolta Dati

La nostra pipeline di raccolta dati è progettata per raccogliere pagine di prodotti da diversi siti e estrarre informazioni utili. Abbiamo puntato alla flessibilità affinché la pipeline possa essere adattata per varie raccolte, sia concentrandosi su specie specifiche che su piattaforme online particolari. I dati raccolti vengono archiviati nel cloud, rendendo facile l'accesso e l'analisi in seguito.

Per dimostrare quanto funziona bene la nostra pipeline, abbiamo raccolto dati per 34 giorni, ottenendo quasi un milione di annunci. Questo lavoro ha comportato l'utilizzo di un web crawler che parte da URL di partenza per trovare altri link e scaricare pagine di prodotti.

Selezione dei Seed

Per raccogliere dati, siamo partiti da una lista di URL "seed" che hanno servito come punti di ingresso per il nostro crawler. Usando parole chiave specifiche relative alle specie in pericolo, abbiamo generato ulteriori URL per garantire una copertura completa degli annunci legati agli animali selvatici. Abbiamo collaborato con esperti per creare una lista di animali in pericolo fornita da agenzie internazionali di protezione della fauna.

Raccolta Dati

Il web crawler che abbiamo usato è progettato per eseguire ricerche mirate in modo efficiente, concentrandosi solo sui link pertinenti. Scarica le pagine ed estrae link da esse, permettendoci di raccogliere dati sistematicamente senza essere distolti da contenuti irrilevanti.

Estrazione delle Informazioni

Una volta che abbiamo una serie di pagine con annunci di prodotti, affrontiamo il compito di estrarre informazioni chiave. Questo include ottenere dettagli come prezzo e venditore, che sono cruciali per l'analisi. Abbiamo utilizzato diverse strategie per estrarre questi dati dai vari formati trovati su siti diversi.

Per semplificare il processo di estrazione, abbiamo utilizzato strumenti per analizzare il contenuto HTML e identificare automaticamente gli attributi chiave. Inoltre, abbiamo analizzato i metadati incorporati nelle pagine quando disponibili, aiutando a raccogliere informazioni più strutturate.

Filtrare Prodotti Irrilevanti

Dopo aver estratto una grande quantità di dati, non tutti i prodotti sono rilevanti. Molti annunci non riguardano animali veri o parti di animali. Per affrontare questo problema, abbiamo implementato metodi di filtraggio utilizzando tecniche di classificazione testuale, in particolare attraverso modelli di machine learning. Questo ci permette di classificare gli annunci in base alla natura del prodotto in vendita.

Ad esempio, abbiamo addestrato un classificatore per distinguere tra prodotti di animali selvatici genuini e articoli come giocattoli o stampe. Abbiamo usato un approccio di classificazione zero-shot, il che significa che non avevamo bisogno di dati etichettati per svolgere il compito in modo efficace in più lingue.

Performance della Pipeline di Raccolta

La nostra pipeline ha affrontato notevoli sfide, ma è riuscita a raccogliere una quantità sostanziale di dati. In 34 giorni di operazione, il crawler ha recuperato oltre 11 milioni di pagine, con un tempo medio di risposta di circa 700 millisecondi per pagina. Anche se era possibile raccogliere dati rapidamente, abbiamo fatto attenzione a non sovraccaricare i server che ospitano le pagine.

I dati raccolti mostrano che, mentre molte pagine sono state recuperate, solo una piccola percentuale conteneva annunci per veri prodotti di animali selvatici. Questo ha sottolineato l'importanza di avere un metodo per setacciare enormi quantità di dati in modo efficiente.

Analisi dei Dati

I dataset che abbiamo compilato includono informazioni come URL, dominio e tempo di recupero dei dati. Ogni record fornisce spunti sul commercio online di animali selvatici, incluse le tendenze su quali specie sono più frequentemente pubblicizzate e la gamma di prezzi nei vari mercati.

Attraverso il nostro sistema di filtraggio, abbiamo identificato oltre mille prodotti come veri animali e decine di migliaia come parti di animali. Sebbene il processo di classificazione non sia perfetto, evidenzia la necessità di metodi automatizzati che possano gestire la raccolta di dati su larga scala.

Direzioni Future

Anche se la nostra attuale pipeline rappresenta un passo significativo per comprendere il traffico di animali selvatici online, ci sono molte aree di miglioramento. Abbiamo in programma di migliorare i nostri metodi di classificazione zero-shot ed esplorare modelli più avanzati per una maggiore accuratezza.

Inoltre, speriamo di rendere i nostri metodi di raccolta dati più solidi integrando tecniche di deep learning. Questo potrebbe consentire un'estrazione delle informazioni più affidabile, indipendentemente da come i siti web cambiano nel tempo.

Conclusione

Il nostro lavoro segna un'iniziativa importante per raccogliere dati sul traffico di animali selvatici nei mercati online. Costruendo una pipeline di raccolta dati scalabile e flessibile, miriamo a fornire spunti preziosi su questo problema critico. Condividendo il nostro codice sorgente e i metodi pubblicamente, speriamo che altri possano unirsi nella creazione e analisi di dataset che possano aiutare a combattere il commercio illegale di animali selvatici.

Grazie a ricerche continue, puntiamo a affinare le nostre tecniche ed espandere i nostri sforzi di raccolta dati. La lotta contro il traffico di animali selvatici richiede soluzioni innovative e collaborazione, e siamo determinati a contribuire a questa causa vitale.

Fonte originale

Titolo: A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web

Estratto: Wildlife traffickers are increasingly carrying out their activities in cyberspace. As they advertise and sell wildlife products in online marketplaces, they leave digital traces of their activity. This creates a new opportunity: by analyzing these traces, we can obtain insights into how trafficking networks work as well as how they can be disrupted. However, collecting such information is difficult. Online marketplaces sell a very large number of products and identifying ads that actually involve wildlife is a complex task that is hard to automate. Furthermore, given that the volume of data is staggering, we need scalable mechanisms to acquire, filter, and store the ads, as well as to make them available for analysis. In this paper, we present a new approach to collect wildlife trafficking data at scale. We propose a data collection pipeline that combines scoped crawlers for data discovery and acquisition with foundational models and machine learning classifiers to identify relevant ads. We describe a dataset we created using this pipeline which is, to the best of our knowledge, the largest of its kind: it contains almost a million ads obtained from 41 marketplaces, covering 235 species and 20 languages. The source code is publicly available at \url{https://github.com/VIDA-NYU/wildlife_pipeline}.

Autori: Juliana Barbosa, Sunandan Chakraborty, Juliana Freire

Ultimo aggiornamento: 2024-07-26 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.18898

Fonte PDF: https://arxiv.org/pdf/2407.18898

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili