Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Calcolo e linguaggio

Migliorare la classificazione delle gare pubbliche con un nuovo metodo

Un nuovo approccio migliora la classificazione delle gare pubbliche per un accesso e un'efficienza migliori.

― 6 leggere min


Rivisitare laRivisitare laclassificazione dellegarepubbliche.della classificazione per le gareUn nuovo metodo migliora l'accuratezza
Indice

Classificare i bandi pubblici è importante per le aziende e le autorità. Aiuta le aziende a decidere quali contratti perseguire e permette alle agenzie di controllare eventuali frodi. Nell'Unione Europea, c'è un sistema di Classificazione standard chiamato Vocabolario Comune degli Appalti (CPV). Tuttavia, questo sistema è usato solo per alcuni contratti, e molti bandi pubblici non hanno etichette CPV accurate o chiare.

Il processo di classificazione può essere difficile perché alcune Categorie si vedono raramente, mentre altre sono molto comuni. Per affrontare questo problema, proponiamo un nuovo metodo che utilizza un Modello linguistico per classificare questi bandi basandosi solo sulle loro descrizioni e etichette di categoria, senza bisogno di esempi precedenti.

Per sviluppare il nostro approccio, abbiamo utilizzato Dati di un servizio che raccoglie contratti pubblici in Italia negli ultimi 25 anni. I nostri risultati mostrano che il nostro modello performa meglio per categorie meno comuni rispetto ad altri metodi standard, e può persino prevedere categorie che non erano state viste durante l'addestramento.

L'importanza dei bandi pubblici

I bandi pubblici sono una parte significativa dell'economia. Rappresentano un grande volume di spesa all'interno dell'Unione Europea, contribuendo alla crescita economica e alla creazione di posti di lavoro. Poiché i bandi pubblici vengono pubblicati su vari siti web, molte aziende cercano modi per migliorare l'accesso a queste informazioni tramite la tecnologia.

Queste tecnologie si basano generalmente sulla raccolta e sul trattamento dei dati per migliorare la qualità e facilitarne l'accesso. Questo comporta azioni come la pulizia dei dati, il collegamento con altre fonti e l'aggiunta di contesto aggiuntivo. Un passo centrale per facilitare l'accesso a questi dati è la classificazione accurata.

Il Vocabolario Comune degli Appalti è stato creato per standardizzare il modo in cui i bandi pubblici vengono classificati. Copre una varietà di aree e attività per aiutare con la gestione delle inviti a gara, rendendo più facile per le aziende e le autorità pubbliche capire e interagire con il processo di gara.

Sfide nella classificazione

La tassonomia CPV è complessa e include numerose classi, rendendo difficile la classificazione. Ogni classe è rappresentata da un codice unico e da una descrizione. Tuttavia, molti bandi pubblici non includono etichette CPV, o le etichette che usano sono imprecise o troppo vaghe.

Migliorare la classificazione basata sul CPV può aiutare a fornire un migliore accesso ai dati sui bandi, beneficiando sia le istituzioni pubbliche che le aziende. Tuttavia, il compito è complicato per diversi motivi:

  1. Disponibilità dei dati: Spesso ci sono dati limitati disponibili per certe categorie, il che rende difficile imparare a classificarle accuratamente.

  2. Squilibrio nelle classi: Alcune categorie hanno molti esempi disponibili, mentre altre ne hanno molto pochi, rendendo difficile per un modello imparare dai dati.

  3. Struttura gerarchica: La tassonomia CPV non è piatta; ha una struttura dove alcune categorie sono più generali e altre più specifiche. Questo rende più difficile la classificazione poiché ci sono più opzioni tra cui scegliere.

  4. Informazioni fuorvianti: Molti bandi forniscono descrizioni vaghe o confuse, il che può rendere complicata la classificazione accurata.

Per affrontare queste sfide, proponiamo un nuovo modello che utilizza un modello linguistico per i compiti di classificazione, consentendo una gestione migliore delle categorie meno comuni.

Il nostro approccio

Il nostro approccio si concentra sull'uso di un modello linguistico pre-addestrato. Questo modello analizza la descrizione testuale del bando e la confronta con le etichette di categoria nella tassonomia CPV. L'obiettivo è stabilire una somiglianza tra i bandi e le etichette CPV, il che può aiutare nella classificazione.

Gli aspetti chiave del nostro metodo includono:

  1. Zero-Shot Learning: Il nostro modello può classificare i bandi senza bisogno di vedere esempi da certe categorie in anticipo. Impara dalle descrizioni delle categorie.

  2. Classificazione gerarchica: Teniamo conto della struttura della tassonomia CPV durante la classificazione, permettendo al modello di comprendere le relazioni tra le categorie.

  3. Uso di dati industriali: Abbiamo addestrato il nostro modello su dati reali raccolti da contratti pubblici in Italia, fornendo un set di dati robusto per il test.

  4. Raffinamento iterativo: Il nostro processo di classificazione prevede il controllo di più livelli all'interno della tassonomia. Se una categoria non sembra appropriata, il modello può valutare categorie più ampie.

Utilizzando questo approccio, possiamo potenzialmente migliorare significativamente la classificazione dei bandi pubblici.

Risultati chiave

Dopo aver addestrato e testato il nostro modello, abbiamo scoperto che performava meglio nella classificazione di categorie meno frequenti rispetto ai metodi tradizionali. Ecco alcuni dei risultati chiave:

  1. Performance migliorata: Il nostro modello ha ottenuto risultati migliori per le classificazioni di categorie che erano viste meno frequentemente nei dati di addestramento.

  2. Capacità per categorie non viste: Il modello poteva prevedere categorie che non aveva mai incontrato prima, il che è un vantaggio significativo per le applicazioni pratiche.

  3. Gestione dello squilibrio: Attraverso il nostro metodo, siamo riusciti a gestire efficacemente lo squilibrio nel dataset, dove alcune categorie erano rappresentate molto più di altre.

  4. Efficienza: Anche se il nostro modello era efficace, è anche più lento rispetto ad alcuni modelli di base. Questo significa che, mentre eccelle in accuratezza di classificazione, potrebbe esserci spazio per migliorare la velocità di elaborazione.

Sfide che abbiamo affrontato

Anche con i nostri risultati promettenti, abbiamo affrontato diverse sfide durante il nostro lavoro:

  1. Qualità dei dati: La qualità dei dati nel set di addestramento ha impattato significativamente le performance. Dati di migliore qualità migliorerebbero i risultati.

  2. Risorse computazionali: Il modello richiede una potenza computazionale significativa, rendendolo meno accessibile per le organizzazioni più piccole senza risorse adeguate.

  3. Integrazione con sistemi esistenti: Anche se il nostro modello performava bene, l'integrazione con i sistemi di classificazione esistenti ha sollevato domande sulla compatibilità e l'efficienza.

  4. Calibrazione dei risultati: Le uscite del modello possono variare a volte, il che significa che abbiamo bisogno di una calibrazione attenta per assicurarci che le previsioni siano affidabili.

Direzioni future

Anche se il nostro approccio mostra promesse, ci sono diverse aree per un lavoro futuro:

  1. Migliorare la velocità di elaborazione: Possiamo esplorare metodi per accelerare la classificazione senza compromettere l'accuratezza.

  2. Test più ampi: Testare in altre lingue e con set di dati diversi fornirà approfondimenti sulla generalizzabilità del modello.

  3. Integrazione di caratteristiche aggiuntive: Aggiungere più caratteristiche al modello, come dati sul comportamento degli utenti, potrebbe migliorare l'accuratezza.

  4. Collaborazione con gli stakeholder: Lavorare a stretto contatto con stakeholder del settore e del pubblico aiuterà a perfezionare il modello in base alle esigenze del mondo reale.

  5. Tecniche di addestramento avanzate: Sviluppare ulteriormente metodi di addestramento, come l'utilizzo di strategie di campionamento più sofisticate, potrebbe portare a risultati migliori.

Attraverso questi sforzi futuri, miriamo a migliorare l'efficacia del modello e assicurarci che soddisfi le esigenze di vari utenti nel settore degli appalti pubblici.

Conclusione

Classificare i bandi pubblici è un compito essenziale che supporta la trasparenza e l'efficienza nella spesa del settore pubblico. Il nostro modello offre un nuovo approccio a questa sfida sfruttando un modello linguistico per la classificazione gerarchica zero-shot, specificamente progettato per la tassonomia CPV.

Nonostante alcune sfide, i nostri risultati mostrano un significativo potenziale per migliorare la classificazione sia di categorie comuni che rare. Mentre ci guardiamo al futuro, lo sviluppo e il perfezionamento continui aiuteranno a rendere questo strumento ancora più efficace per coloro che sono coinvolti negli appalti pubblici. In definitiva, il nostro lavoro contribuisce a un migliore accesso ai bandi pubblici, beneficiando sia le aziende che le agenzie pubbliche.

Fonte originale

Titolo: Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy

Estratto: Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (Common Procurement Vocabulary, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from contrattipubblici.org, a service by SpazioDati s.r.l. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes.

Autori: Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando

Ultimo aggiornamento: 2024-05-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.09983

Fonte PDF: https://arxiv.org/pdf/2405.09983

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili