Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Recupero delle informazioni# Biblioteche digitali# Applicazioni

Valutazione degli Assegnamenti dei Revisori nei Sistemi di Peer Review

Uno studio su come migliorare la qualità della revisione tra pari attraverso metodi innovativi di valutazione degli incarichi.

― 7 leggere min


Osservazioni sul CompitoOsservazioni sul Compitodi Revisione tra Pariricerca.revisione migliorano la qualità dellaNuovi metodi per valutare i compiti di
Indice

Rivedere articoli scientifici è una parte fondamentale del processo di ricerca. Quando i ricercatori inviano il loro lavoro, hanno bisogno di esperti che valutino la qualità dei loro articoli. Assegnare i revisori agli articoli può essere molto complicato, specialmente quando ci sono molti articoli e revisori coinvolti. Non sempre è possibile assegnare il revisore giusto all'articolo giusto manualmente, quindi spesso si usano sistemi automatizzati per aiutare in questo compito.

L'importanza delle assegnazioni dei revisori

In molti settori, le conferenze sono la piattaforma principale per pubblicare ricerche. Grandi conferenze, come quelle nel campo dell'informatica, ricevono migliaia di invii ogni anno. Per gestire questo carico di lavoro, gli organizzatori fanno affidamento su sistemi automatizzati che considerano fattori come:

  • Le offerte, che sono preferenze espresse dai revisori su quali articoli vogliono rivedere.
  • La similitudine dei testi, che guarda a quanto il lavoro passato di un revisore corrisponde al nuovo articolo che potrebbe revisionare.
  • Le aree tematiche scelte sia dai revisori che dagli autori.

Questi sistemi mirano a creare assegnazioni che massimizzano la qualità delle revisioni combinando questi segnali in un punteggio unico.

Valutazione della qualità delle revisioni

Una domanda chiave è come valutare se le assegnazioni fatte da questi sistemi portano effettivamente a revisioni di alta qualità. Si presume spesso che abbinamenti migliori – basati sui fattori sopra menzionati – portino a revisioni migliori. Tuttavia, l'efficacia dei diversi metodi di assegnazione può essere difficile da determinare poiché i ricercatori di solito vedono solo le revisioni che derivano da un processo di assegnazione specifico. Ci sono modi limitati per confrontare i metodi differenti.

Un approccio per confrontare i metodi di assegnazione è condurre esperimenti controllati, noti come test A/B. Alcune conferenze hanno usato questi test per indagare vari aspetti del loro processo di revisione. Tuttavia, questi test possono essere costosi e potrebbero sovraccaricare il sistema di revisione paritaria, soprattutto quando servono molte revisioni.

Lavoro attuale

Il lavoro in corso propone un modo diverso per valutare le assegnazioni dei revisori utilizzando dati esistenti e casualità che potrebbero già essere presenti nei sistemi. Recenti algoritmi usati per prevenire la collusione tra revisori hanno introdotto un po' di casualità nelle assegnazioni, che può essere utile per questa valutazione.

Guardando a come queste assegnazioni casualizzate influenzano la qualità delle revisioni, possiamo ottenere spunti su diverse politiche per l'assegnazione dei revisori. Questo studio introduce nuovi metodi per analizzare queste assegnazioni affrontando alcune delle sfide legate all'uso di dati esistenti.

Metodologia

Assegnazione di revisione paritaria

Quando gli articoli vengono inviati, devono essere assegnati ai revisori. I metodi standard per fare queste assegnazioni si basano su punteggi di similitudine tra ogni revisore e articolo. Questi punteggi sono solitamente calcolati sulla base delle tre fonti di informazione menzionate prima.

L'obiettivo del processo di assegnazione è massimizzare la somma di questi punteggi di similitudine assicurandosi che ogni articolo riceva il numero appropriato di revisioni e che i revisori non superino i loro limiti. Questo viene spesso formulato come un problema di ottimizzazione.

Assegnazione casualizzata

Per prevenire la collusione tra i revisori, è stato introdotto un algoritmo di assegnazione casualizzata. Questo algoritmo limita la probabilità di assegnare a un revisore specifici articoli. Sebbene questa casualizzazione possa ridurre le ricompense attese della collusione, può anche diminuire la qualità complessiva delle coppie assegnate.

Un'idea chiave è che questa casualizzazione consente di osservare varie coppie revisore-articolo che potrebbero non essere state selezionate in un'assegnazione strettamente ottimale. Questo offre l'opportunità di valutare la qualità dei diversi metodi di assegnazione sfruttando tecniche di valutazione off-policy.

Valutazione delle politiche

Valutazione off-policy

L'idea principale dietro la valutazione off-policy è analizzare come diverse politiche di assegnazione dei revisori si comporterebbero sulla base dei dati generati da una politica attuale. In questo contesto, l'obiettivo è stimare la qualità attesa delle revisioni per vari metodi di assegnazione senza dover condurre nuovi esperimenti.

Per farlo, ci concentriamo su due aspetti importanti:

  1. L'effetto di cambiare i pesi nell'algoritmo di assegnazione.
  2. Il costo dell'introduzione della casualizzazione.

Questi due elementi sono cruciali per valutare come le modifiche nelle strategie di assegnazione potrebbero influenzare la qualità delle revisioni.

Affrontare le sfide

In pratica, l'uso della valutazione off-policy affronta alcune sfide, specialmente con le violazioni di positività. Questo accade quando vogliamo valutare politiche che potrebbero assegnare i revisori a coppie che non hanno più una probabilità positiva sotto la politica di assegnazione esistente. Per affrontare questo, vengono proposti nuovi metodi per l'identificazione parziale – basati su specifiche assunzioni.

Assunzioni di identificazione parziale

L'analisi sfrutta due importanti assunzioni riguardo alla relazione tra le caratteristiche revisore-articolo e la qualità delle revisioni:

  1. Monotonicità: Se una coppia revisore-articolo ha punteggi più alti in aree rilevanti rispetto a un'altra coppia, allora ci si aspetta anche che la qualità della revisione per la prima coppia sia più alta.

  2. Lipschitz Smoothness: Questa assunzione afferma che coppie simili basate sulle caratteristiche dovrebbero dare qualità delle revisioni simili.

Queste assunzioni aiutano a creare limiti sulla qualità attesa delle revisioni, portando a risultati più informativi.

Raccolta e analisi dei dati

Questo studio utilizza dati da due eventi che hanno implementato strategie di assegnazione casualizzate. L'obiettivo è valutare come diverse politiche influenzano la qualità delle revisioni.

Dati da TPDP

Il primo dataset proviene dal Workshop 2021 sulla Teoria e Pratica della Privacy Differenziale (TPDP). Questo workshop ha ricevuto 95 invii e aveva 35 revisori. Ogni articolo ha ricevuto tre revisioni e ai revisori è stato chiesto di offrire sui vari articoli, indicando la loro disponibilità a revisionare. La similitudine tra revisori e articoli è stata calcolata sulla base delle loro offerte e della similitudine testuale.

Dati da AAAI

Il secondo dataset proviene dalla Conferenza AAAI 2022, che ha avuto una scala molto più grande con 8.450 invii e 3.145 revisori. Simile al TPDP, anche i revisori in questa conferenza hanno fornito offerte e la loro esperienza è stata misurata.

Valutazione delle scelte progettuali

Usando questi dataset, il lavoro valuta due principali scelte progettuali:

  1. Come cambiare i pesi assegnati a diversi fattori (come offerte o similitudine testuale) influisce sulla qualità complessiva delle revisioni.
  2. L'impatto dell'introduzione della casualizzazione nel processo di assegnazione e come questo influisce sulla qualità delle revisioni.

Risultati sulla qualità delle revisioni

Le analisi rivelano che:

  • Le assegnazioni che pongono più peso sulla similitudine testuale portano a una qualità delle revisioni più alta.
  • L'introduzione della casualizzazione porta a una leggera riduzione della qualità delle revisioni.

Questi risultati sono promettenti per capire come ottimizzare meglio le assegnazioni delle revisioni mitigando al contempo potenziali frodi.

Implicazioni oltre la revisione paritaria

Sebbene questo lavoro si concentri sul sistema di revisione paritaria, i metodi sviluppati possono essere applicati anche ad altri sistemi di abbinamento. Questo include aree come i sistemi di raccomandazione, la pubblicità e l'assegnazione dei servizi di trasporto. Ci sono implicazioni più ampie su come le tecniche di valutazione off-policy possono migliorare vari sistemi di abbinamento algoritmico.

Conclusione

La valutazione dei metodi di assegnazione della revisione paritaria è cruciale per migliorare la qualità complessiva della ricerca pubblicata. Utilizzando tecniche di valutazione innovative, il lavoro fa luce su come diverse politiche possono influenzare la qualità delle revisioni senza la necessità di esperimenti costosi e invasivi.

Questo studio non solo avanza la nostra conoscenza dei sistemi di revisione paritaria, ma stabilisce anche un framework che può essere applicato in vari campi in cui è richiesto un abbinamento. La ricerca futura può ampliare queste scoperte analizzando altri fattori che possono influenzare la qualità delle assegnazioni, affinando ulteriormente le tecniche introdotte.

Migliorando continuamente i sistemi che supportano la revisione paritaria, possiamo assicurarci che i ricercatori ricevano valutazioni eque, portando a un progresso scientifico complessivo migliore.

Fonte originale

Titolo: Counterfactual Evaluation of Peer-Review Assignment Policies

Estratto: Peer review assignment algorithms aim to match research papers to suitable expert reviewers, working to maximize the quality of the resulting reviews. A key challenge in designing effective assignment policies is evaluating how changes to the assignment algorithm map to changes in review quality. In this work, we leverage recently proposed policies that introduce randomness in peer-review assignment--in order to mitigate fraud--as a valuable opportunity to evaluate counterfactual assignment policies. Specifically, we exploit how such randomized assignments provide a positive probability of observing the reviews of many assignment policies of interest. To address challenges in applying standard off-policy evaluation methods, such as violations of positivity, we introduce novel methods for partial identification based on monotonicity and Lipschitz smoothness assumptions for the mapping between reviewer-paper covariates and outcomes. We apply our methods to peer-review data from two computer science venues: the TPDP'21 workshop (95 papers and 35 reviewers) and the AAAI'22 conference (8,450 papers and 3,145 reviewers). We consider estimates of (i) the effect on review quality when changing weights in the assignment algorithm, e.g., weighting reviewers' bids vs. textual similarity (between the review's past papers and the submission), and (ii) the "cost of randomization", capturing the difference in expected quality between the perturbed and unperturbed optimal match. We find that placing higher weight on text similarity results in higher review quality and that introducing randomization in the reviewer-paper assignment only marginally reduces the review quality. Our methods for partial identification may be of independent interest, while our off-policy approach can likely find use evaluating a broad class of algorithmic matching systems.

Autori: Martin Saveski, Steven Jecmen, Nihar B. Shah, Johan Ugander

Ultimo aggiornamento: 2023-05-26 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.17339

Fonte PDF: https://arxiv.org/pdf/2305.17339

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili