Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni

Migliorare la ricerca di esperti in politica con LDA

Uno studio su come usare LDA per raccomandazioni efficaci di esperti politici.

― 11 leggere min


LDA per Esperti PoliticiLDA per Esperti Politiciesperti in contesti politici.Usare LDA per migliorare la ricerca di
Indice

In molte organizzazioni politiche, come i parlamenti, spesso c'è bisogno di trovare politici che conoscano Argomenti specifici. Per farlo, dobbiamo prima creare dei profili di questi politici, che includano le loro aree di interesse. Queste informazioni possono essere raccolte automaticamente dai loro discorsi. Poiché un politico può essere esperto in diversi campi, possiamo creare dei subprofili per ogni area di competenza.

Questo studio introduce un nuovo modo di creare questi profili usando un metodo chiamato Allocazione di Dirichlet Latente (LDA). LDA aiuta a identificare i principali argomenti discussi nei discorsi politici e organizza i termini correlati in diversi subprofili basati sugli argomenti. Per fare questo, abbiamo utilizzato quindici misure di distanza e somiglianza per capire il miglior numero di argomenti discussi in un discorso. Risultato: queste misure si condensano generalmente in cinque strategie: Euclidea, Dice, Sorensen, Coseno e Overlap. I nostri test hanno mostrato che i punteggi di accuratezza delle strategie proposte erano solitamente migliori di quelli dei metodi standard usati per le raccomandazioni di esperti, e usare un numero appropriato di argomenti era fondamentale.

L'importanza di trovare esperti

Il contesto più ampio di questo lavoro riguarda i sistemi di raccomandazione basati sui contenuti che suggeriscono elementi agli utenti in base alle loro descrizioni testuali e preferenze individuali. Quando si tratta di raccomandare persone, stiamo cercando specificamente i migliori individui per gestire determinati compiti o problemi. Nel nostro caso, questi individui sono politici esperti in alcune aree.

Per esempio, un Membro del Parlamento (MP) seduto nella Commissione Agricoltura dovrebbe avere una profonda comprensione di vari problemi agricoli, come leggi pertinenti, problemi, iniziative, sussidi e tipi di colture in diverse località. Lo stesso vale per gli MP che servono in altre commissioni che si concentrano su salute, cultura, economia, istruzione e altro.

Quando qualcuno affronta un problema specifico, come il caldo eccessivo nelle aule alla fine dell'anno scolastico, o cerca informazioni sui livelli di rumore in aumento durante la notte nelle zone residenziali, il primo passo è identificare la persona giusta da contattare. Un approccio potrebbe essere usare motori di ricerca generali per trovare elenchi di politici, ma questo può richiedere tempo e risultare inefficace dato che le informazioni sono sparse e inaffidabili. In alternativa, un sistema specializzato di ricerca esperti può archiviare informazioni testuali sui politici, permettendo agli utenti di inviare query e ricevere un elenco di MP rilevanti. Questo sistema può aiutare gli utenti a contattare facilmente il politico giusto che può assisterli con i loro problemi.

Le informazioni testuali su ogni esperto includono i loro interessi e aree di competenza, che possono essere ottenute da varie fonti, come rapporti, documenti e trascrizioni dei loro discorsi nei dibattiti parlamentari. Analizzando queste informazioni, possiamo conoscere gli esperti in base a ciò che dicono.

Per raccomandare gli esperti giusti, dobbiamo rappresentare le loro aree di competenza in modo chiaro. Il modo più comune per farlo è utilizzare termini che descrivono i loro interessi e competenze. Quando un candidato ha interessi diversi, per esempio in salute, istruzione e ambiente, potrebbe non avere senso combinarli tutti in un unico profilo. Questo potrebbe portare a una sottorappresentazione di determinati argomenti. Separandoli in subprofili più focalizzati, possiamo fornire rappresentazioni più chiare e utili delle loro competenze.

Suddivisione dei profili per migliori raccomandazioni

L'obiettivo di questo Documento è trovare un metodo per suddividere un profilo unico e diversificato-creato da tutti i termini raccolti dai discorsi di un politico-in più subprofili focalizzati. Determinando accuratamente gli interessi di un candidato, possiamo offrire migliori raccomandazioni.

Per raggiungere questo, utilizzeremo LDA per identificare argomenti all'interno dei documenti associati ai politici. Uno studio precedente ha affrontato lo stesso problema utilizzando tecniche di clustering invece di modelli tematici.

In questo studio, miriamo a utilizzare LDA in modo diverso rispetto a come viene convenzionalmente combinato con la ricerca di esperti. La maggior parte degli approcci rappresenta documenti e profili usando vettori di termini (bag-of-words). Il nostro approccio utilizzerà un modello tematico come LDA per spostare la rappresentazione da termini a argomenti. Non solo separeremo i documenti in subdocumenti collegati a diversi argomenti, ma li terremo anche nello spazio dei termini piuttosto che convertirli nello spazio tematico. I subdocumenti appartenenti allo stesso argomento saranno quindi combinati per formare i subprofili. Poiché questo potrebbe portare a un numero eccessivo di subprofili per alcuni candidati, specialmente per quelli con termini limitati, abbiamo anche creato un metodo per semplificare questo processo selezionando solo gli argomenti più rilevanti.

Il focus del nostro studio si concentra sull'efficacia di LDA nella creazione di subprofili esperti in un contesto politico. I principali contributi includono:

  1. Indagare come LDA possa generare più subprofili tematici focalizzati per la ricerca di esperti in un contesto politico.
  2. Proporre una strategia per dividere i documenti in subdocumenti tematici distribuendo i termini in base alle matrici generate da LDA.
  3. Sviluppare un approccio sistematico per assegnare una selezione ottimale di argomenti a ciascun documento basato su misure di distanza e somiglianza.
  4. Condurre test approfonditi confrontando le nostre proposte con diversi modelli di riferimento.

Lavori correlati

I metodi per trovare esperti mirano a collegare individui con aree specifiche di competenza, e c'è stato un crescente interesse in questi sistemi, con molte applicazioni, tra cui:

  • Assegnare revisori ai documenti inviati per conferenze o riviste.
  • Identificare collaboratori adatti per progetti.
  • Trovare esperti in ambienti accademici, social media, organizzazioni o sul web più ampio.

Nei domini politici, quelli che hanno affrontato in precedenza la ricerca di esperti includono gli autori di questo studio.

Due approcci fondamentali nella ricerca di esperti sono:

  1. Metodi basati su profili, che costruiscono un profilo per ciascun esperto combinando documenti pertinenti.
  2. Metodi basati su documenti, che preservano i documenti relativi a un esperto come entità individuali e recuperano documenti pertinenti in base alle query degli utenti.

Nel nostro caso, utilizzeremo un approccio basato su documenti, poiché i documenti si riferiscono ai singoli discorsi degli MP. Anche se i metodi basati su documenti generalmente performano meglio, alcuni studi hanno mostrato risultati misti.

Nel nostro lavoro, ci concentreremo sui modelli tematici, specialmente LDA, poiché molti metodi esistenti utilizzano l'analisi semantica latente probabilistica (pLSA) nei sistemi di risposta a domande della comunità (CQA). Il modello pLSA può rappresentare gli utenti in base a distribuzioni tematiche aggregate delle loro domande o come documenti che riflettono le domande relative a un utente.

Nei modelli basati su documenti, le probabilità dei termini di query sono comunemente stimate utilizzando la massima verosimiglianza e il smoothing di Dirichlet. Tuttavia, alcuni metodi hanno integrato argomenti appresi da LDA provenienti da collezioni di documenti nelle rappresentazioni utente, migliorando il processo di ricerca esperti.

Esistono diversi altri modelli tematici, come il modello Author-Persona-Topic (APT), che può raccomandare revisori per documenti inviati rappresentando ciascun autore con una distribuzione su argomenti nascosti che riflettono vari ruoli.

L'obiettivo del nostro studio è esplorare un approccio specializzato che si concentri sulla creazione di subprofili omogenei dai discorsi degli MP.

Il processo di ricerca esperti usando l'analisi dei discorsi

Consideriamo una situazione in cui abbiamo un gruppo di potenziali candidati esperti e una collezione di documenti associati a loro. Nel nostro caso, i candidati saranno MP, e ogni documento è collegato ai loro discorsi nei dibattiti parlamentari.

Il nostro obiettivo è suddividere il profilo diversificato contenente termini da tutti i documenti relativi a un MP in subprofili tematici più focalizzati. Per fare questo, applicheremo prima LDA per identificare i vari argomenti all'interno della collezione di documenti.

Quando LDA viene utilizzato su una collezione di documenti, genera due matrici, dove:

  • Ogni voce indica la probabilità di un termine associato a un argomento.
  • Ogni voce riflette la probabilità di un argomento collegato a un documento.

Una volta che LDA ha identificato gli argomenti, il passo successivo è separare ciascun documento in più subdocumenti basati sui diversi argomenti discussi.

In questo esempio, se un documento affronta due argomenti, diciamo "Salute" e "Istruzione", i termini rilevanti per la salute dovrebbero andare principalmente in un subdocumento, mentre i termini relativi all'istruzione dovrebbero essere in un altro. Tuttavia, alcuni termini possono riferirsi a più argomenti, il che complica il processo di allocazione.

Il nostro metodo proposto distribuisce le occorrenze di ciascun termine tra i subdocumenti in base alle probabilità derivate da LDA. Calcoliamo queste probabilità utilizzando la relazione tra termini, documenti e argomenti.

Dopo aver applicato il processo di separazione, uniremo i subdocumenti collegati agli stessi argomenti per creare i subprofili dei candidati. Anche se potremmo generare un numero elevato di subprofili tramite questo metodo, possiamo applicare una strategia per ridurre il numero di subprofili selezionando solo argomenti rilevanti collegati a ciascun documento.

Selezionare il numero ottimale di subdocumenti

Selezionare il numero di argomenti può influenzare significativamente i risultati delle nostre scoperte. Pertanto, è importante affrontare questo in modo sistematico. Per fare ciò, stabiliremo una distribuzione di probabilità sugli argomenti e determineremo il miglior indice per selezionare gli argomenti più rilevanti.

Possiamo utilizzare varie misure di distanza e somiglianza per assisterci in questo compito. L'obiettivo principale è trovare un insieme adatto di argomenti che ci dia le migliori prestazioni.

Quando analizziamo diverse misure di distanza e somiglianza, troviamo diverse metriche interessanti, tra cui:

  • La misura di somiglianza Coseno.
  • Il coefficiente Dice.
  • L'indice di somiglianza Jaccard.
  • La distanza Euclidea.
  • Il coefficiente di sovrapposizione.

Nella nostra esplorazione delle misure di distanza e somiglianza, determiniamo che, mentre abbiamo numerosi modi per calcolare queste metriche, generalmente arriviamo a solo cinque diverse strategie di selezione.

Applicando queste strategie al nostro compito di ricerca esperti, possiamo ottenere un numero più accurato di subprofili per rappresentare efficacemente i candidati.

Condurre esperimenti

L'obiettivo principale di questo studio è determinare se l'uso di LDA per costruire subprofili di termini aiuta a migliorare la ricerca di esperti in un contesto politico. Per convalidare questo, ci basiamo su dati derivati dai Registri delle Procedure Parlamentari. Questa collezione contiene discorsi di varie iniziative discusse nel Parlamento Andaluso, comprese le contribuzioni di numerosi MP diversi.

Dividiamo i documenti in set di addestramento e test. Il set di addestramento viene utilizzato per eseguire LDA e creare subprofili, mentre il set di test viene utilizzato per valutare il sistema. Ripetiamo questo processo di campionamento più volte per garantire previsioni accurate.

Per misurare l'efficacia del nostro sistema, calcoliamo tre metriche standard di recupero delle informazioni: precisione, guadagno cumulativo scontato normalizzato (NDCG) focalizzato sui primi dieci MP e richiamo basato sul numero totale di MP rilevanti.

Analizzare le strategie di distribuzione

Una volta analizzato come i termini di intervento sono distribuiti tra i diversi argomenti, possiamo valutare come questo influisce sui subprofili creati per ciascun MP. Il modo in cui distribuiamo i termini può influenzare notevolmente il ranking di output degli MP, che è fondamentale per raccomandazioni efficaci.

Esaminando la dimensione dei subprofili generati utilizzando varie strategie di distribuzione, possiamo osservare delle tendenze. Specificamente, aumentando il numero di argomenti considerati, tende ad aumentare il numero di subprofili generati. Tuttavia, i termini medi contenuti in ogni subprofilo tendono a diminuire.

Questa osservazione è in linea con le aspettative: quando categorizziamo i discorsi degli MP in argomenti più specifici, possiamo riconoscere schemi di specializzazione. Questo aiuta a creare una comprensione più chiara delle competenze di ciascun MP.

Analizzando la presenza di piccoli subprofili-quelli contenenti meno di cinquanta termini-identifichiamo potenziali problemi di rappresentatività. Un numero elevato di questi piccoli subprofili può creare sfide nel determinare i politici più rilevanti.

Valutazione delle prestazioni

Dopo aver valutato l'efficacia delle diverse strategie di distribuzione, abbiamo discusso delle prestazioni di vari modelli, inclusi modelli basati su termini e su argomenti, oltre a modelli di deep learning. I nostri risultati suggeriscono che il dominio dei termini tende a dare risultati migliori rispetto al dominio degli argomenti.

Quando abbiamo condotto test sui nostri approcci proposti, abbiamo scoperto che le strategie di distribuzione generalmente superavano i modelli di riferimento. Tuttavia, il numero di argomenti scelti gioca un ruolo importante nella determinazione dell'efficacia complessiva.

Attraverso vari test, è stato evidente che, mentre ci sono punti di forza unici in ciascuna strategia di distribuzione, la strategia Sorensen si è particolarmente distinta per la creazione di profili più omogenei.

Conclusioni e direzioni future

Questa ricerca illustra come l'applicazione di LDA per estrarre termini dai discorsi impatti positivamente sulle raccomandazioni di esperti in un contesto politico. Abbiamo dimostrato che un approccio ben strutturato utilizzando LDA produce profili tematici preziosi. Le diverse strategie di distribuzione funzionano efficacemente per creare distribuzioni coerenti di termini tra gli argomenti.

Andando avanti, miriamo a esplorare come gli aspetti temporali possono influenzare la costruzione di questi subprofili. Inoltre, potremmo considerare di distribuire i termini dei documenti a livello di paragrafo invece che solo a livello di termine per catturare meglio gli argomenti essenziali all'interno di un discorso. Infine, siamo interessati ad applicare queste metodologie in vari ambiti oltre la politica per ulteriori convalidazioni.

Fonte originale

Titolo: LDA-based Term Profiles for Expert Finding in a Political Setting

Estratto: A common task in many political institutions (i.e. Parliament) is to find politicians who are experts in a particular field. In order to tackle this problem, the first step is to obtain politician profiles which include their interests, and these can be automatically learned from their speeches. As a politician may have various areas of expertise, one alternative is to use a set of subprofiles, each of which covers a different subject. In this study, we propose a novel approach for this task by using latent Dirichlet allocation (LDA) to determine the main underlying topics of each political speech, and to distribute the related terms among the different topic-based subprofiles. With this objective, we propose the use of fifteen distance and similarity measures to automatically determine the optimal number of topics discussed in a document, and to demonstrate that every measure converges into five strategies: Euclidean, Dice, Sorensen, Cosine and Overlap. Our experimental results showed that the scores of the different accuracy metrics of the proposed strategies tended to be higher than those of the baselines for expert recommendation tasks, and that the use of an appropriate number of topics has proved relevant.

Autori: Luis M. de Campos, Juan M. Fernández-Luna, Juan F. Huete, Luis Redondo-Expósito

Ultimo aggiornamento: 2024-01-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.10617

Fonte PDF: https://arxiv.org/pdf/2401.10617

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili