Rivitalizzare l'Inferenza Fiduciale: Un Approccio Moderno
Quest'articolo parla del rinnovato interesse nell'inferenza fiduciale usando metodi generalizzati.
― 10 leggere min
Indice
L'inferenza fiduciale è un metodo nato nei primi anni del 1900. L'idea era di creare una distribuzione per un parametro basandosi solo sui dati, senza dover scegliere una distribuzione prior da prima. Negli anni, questo metodo è diventato meno popolare, specialmente in situazioni complesse con molte variabili. Tuttavia, nell'ultimo decennio, l'interesse per l'inferenza fiduciale è tornato a crescere. Questa rinascita è in parte dovuta all'idea di inferenza fiduciale generalizzata (GFI), che collega l'inferenza fiduciale agli intervalli di confidenza generalizzati.
La GFI offre un modo per trovare distribuzioni di confidenza approssimative basandosi solo sui dati. Questo capitolo mostrerà i vantaggi pratici dell'approccio fiduciale. Definiremo cos'è una distribuzione fiduciale generalizzata e dimostreremo le sue applicazioni attraverso diversi esempi.
L'inferenza fiduciale cerca di trovare un compromesso tra due punti di vista statistici comuni: metodi frequentisti e bayesiani. Questo approccio consente di creare una distribuzione per un parametro di riferimento basata solo sui dati, evitando la scelta a volte arbitraria delle distribuzioni prior. Funziona invertendo un algoritmo di generazione dei dati (DGA), che collega i dati ai parametri e a un componente casuale con una distribuzione nota. Risolvendo il DGA, possiamo derivare quella che è nota come distribuzione fiduciale generalizzata (GFD), che si basa solo sui dati e non richiede di usare il teorema di Bayes.
I vantaggi e le limitazioni della GFI sono ancora sotto indagine, ma la sua utilità pratica è evidente in vari campi. Recenti studi hanno applicato idee fiduciali a aree come bio-equivalenza, problemi di misurazione, esperimenti di laboratorio e confronti internazionali. Inoltre, la GFI si è rivelata utile in argomenti di ricerca moderni in statistica, tra cui regressione wavelet e stima di valori estremi. Ha anche portato nuove idee nella selezione di modelli lineari e nella selezione di grafi autoregressivi vettoriali.
Per illustrare l'argomento fiduciale, consideriamo un caso semplice di un'unica osservazione da una distribuzione normale con media nota. Qui, abbiamo una quantità casuale con una distribuzione nota, che è indipendente dalla media. Invertendo il DGA, attribuiamo una distribuzione al parametro. Anche se invertire il DGA in questo caso normale semplice è facile algebraicamente, farlo in situazioni più complesse può essere piuttosto difficile.
In generale, un DGA fluido può essere considerato come se si comportasse un po' come una funzione lineare vicino al valore osservato dei dati. Pertanto, per ogni realizzazione della quantità casuale, possiamo trovare un punto ben definito dove il DGA è più vicino al nostro valore osservato.
La GFD è determinata come la distribuzione del parametro basata sul teorema della funzione implicita dalla distribuzione della variabile casuale condizionata a un evento specifico. Per definire formalmente la GFD, possiamo usare i limiti. Definiamo l'inverso pseudo del DGA risolvendo un problema di ottimizzazione. Tipicamente, lavoriamo con la norma L1 o L2 per identificare il punto più vicino menzionato in precedenza. Anche se non è tecnicamente un inverso, questa quantità è sempre definita.
Successivamente, consideriamo piccoli valori della variabile casuale e definiamo un'altra variabile casuale. Questa ha una distribuzione troncata condizionata a coprire certi valori. Assumendo che la variabile casuale converga in distribuzione, la GFD può essere espressa come questa distribuzione limite.
Per le distribuzioni discrete, possiamo impostare la soglia in modo appropriato, mentre nei casi continui, utilizziamo il teorema della funzione implicita per trovare la distribuzione limite. Sotto condizioni di base, la distribuzione risultante ha una certa firma di densità basata su un operatore definito, che utilizza anche il riferimento della norma.
La GFD offre una chiara linea guida: definire un DGA che relazioni dati, parametri e una quantità casuale, e poi trovare l'inverso. Tuttavia, attuare questa idea nella pratica può essere sottile e richiede una considerazione attenta. Questo capitolo intende fornire una panoramica approfondita della GFI attraverso casi dettagliati.
In alcuni casi, risolvere il DGA potrebbe non portare a un singolo punto associato a una data realizzazione. Invece, potremmo trovare una distribuzione fiduciale su insiemi di parametri. Ci concentreremo su due scenari che coinvolgono dati normali multivariati e uno che coinvolge una distribuzione binomiale con un numero di prove sconosciuto. Questi esempi sono scelti non solo per la loro rilevanza, ma anche perché ci permettono di dimostrare soluzioni fiduciali generalizzate utilizzando strumenti moderni.
Condivideremo codici informatici disponibili per altri da utilizzare. Per gli algoritmi binomiali, forniremo pseudocodice completo.
In tutta questa discussione, ci riferiremo a molti intervalli di confidenza fiduciali approssimativi. Anche se usiamo il termine "confidenza", questi intervalli si relazionano strettamente agli intervalli credibili bayesiani. Ognuno di questi intervalli comporta definire una distribuzione su un parametro target e utilizzare questa distribuzione per creare un insieme che corrisponde a un livello di copertura desiderato. Invece di chiamare questi intervalli fiduciali "intervalli credibili", li chiameremo intervalli di confidenza approssimativi.
La cautela riguardo a questi intervalli essendo approssimativi deriva da vari motivi. Per i casi normali multivariati continui, utilizzeremo il campionamento Markov Chain Monte Carlo (MCMC) come strumento di stima per evitare calcoli complessi. Tecniche di campionamento simili saranno necessarie nei casi binomiali dove il numero di prove è incerto. Inoltre, con entrambi gli scenari binomiali, è necessaria un'approssimazione per affrontare questioni legate allo spazio campionario non limitato per i parametri.
Queste varie fonti di incertezza giustificano il chiamare questi intervalli "approssimativi". Il motivo principale per cui enfatizziamo questo è che la copertura potrebbe non essere sempre precisa. Questo concetto di "vicino ma non esatto" riflette le incertezze che gli intervalli di confidenza frequentisti possono incontrare basandosi su assunzioni di normalità. Utilizzeremo simulazioni per valutare se i nostri metodi computazionali producono copertura in pratica che si allinea con le nostre aspettative teoriche.
Le nostre simulazioni mostrano che nonostante queste approssimazioni, il metodo fiduciale regge per applicazioni pratiche.
Distribuzione Normale Multivariata
La stima della matrice di covarianza è un problema vitale in vari metodi multivariati. Esempi includono analisi discriminante, analisi delle serie temporali e analisi dei dati spaziali, per citarne alcuni. Recentemente, è emerso che il prior inverse Wishart comunemente utilizzato nei contesti bayesiani potrebbe non essere l'opzione migliore per tali stime. In particolare, il posteriore inverse Wishart può distorcere i valori propri della matrice di covarianza, impattando negativamente la stima.
Consideriamo uno scenario in cui abbiamo dati indipendenti e identicamente distribuiti con una certa matrice di covarianza. Il nostro obiettivo qui è fare inferenze su questa matrice di covarianza quando il parametro media è sconosciuto.
A tal fine, sono stati proposti due approcci principali per definire la GFD per questo modello. Entrambi partono da un DGA, che coinvolge vettori Gaussiani standard, ma differiscono nel modo in cui impostano la loro matrice. Un approccio utilizza una matrice triangolare inferiore, portando a una GFD che dipende dall'ordine arbitrario delle coordinate. L'altro approccio utilizza una matrice arbitraria per rimuovere questa dipendenza, anche se diventa sovraparametrizzato.
Proponiamo un DGA alternativo che evita i problemi di sovraparametrizzazione e non porta alla distribuzione Wishart. Il nostro approccio considera matrici ortogonali e matrici diagonali con elementi positivi. Questo ci consente di calcolare la GFD con una chiara struttura.
Il jacobiano derivato da questo approccio fornisce risultati semplificati, permettendo un facile calcolo degli intervalli di confidenza fiduciali generalizzati. Con il nostro metodo, possiamo creare efficacemente intervalli di confidenza fiduciali per la matrice di covarianza mentre la valutiamo rispetto alla vera matrice di covarianza.
Mentre conduciamo uno studio di simulazione, generiamo dati dalla distribuzione normale multivariata e calcoliamo la copertura dei nostri intervalli di confidenza fiduciali. Il nostro obiettivo è vedere quanto bene questi intervalli funzionano attraverso diversi parametri. Valutiamo la copertura empirica di questi intervalli, puntando a prestazioni che si allineano strettamente con la nostra copertura attesa.
I risultati empirici delle nostre simulazioni indicano che il nostro metodo è ragionevolmente efficace, dimostrando che l'approccio che abbiamo adottato per creare intervalli di confidenza fiduciali è valido.
Modello di Effetti Casuali Univariati Generalizzati
Continuando la nostra discussione sulla distribuzione normale multivariata, diamo un'occhiata a una parametrizzazione più vincolata nota come modello di effetti casuali univariati standard non bilanciato. La prima soluzione fiduciale è stata adattata a questo problema ma non ha consentito inferenze simultanee sugli effetti fissi.
Ora consideriamo un DGA più generale, che semplifica il problema inferenziale di fornire GFD per determinati parametri. Lavori precedenti hanno offerto GFD ben funzionanti, ma il nostro approccio fornisce un modo per ottenere questi intervalli senza calcoli estesi, consentendo inferenze simultanee.
Utilizzando la matrice jacobiana semplificata, possiamo derivare le quantità necessarie per implementare gli intervalli di confidenza fiduciali in modo più efficiente. I risultati delle nostre simulazioni su vari gruppi e valori dei parametri rivelano che il nostro metodo fiduciale generalizzato porta generalmente a stime conservative.
I nostri risultati dimostrano che l'approccio fiduciale generalizzato può essere eseguito in modo efficiente utilizzando strumenti software disponibili, producendo risultati accurati con uno sforzo computazionale minimo.
Distribuzione Binomiale
Quando si lavora con distribuzioni discrete come la distribuzione binomiale, i metodi precedenti non si applicano allo stesso modo. Per illustrare questo, prima delineiamo un caso in cui siamo interessati a una distribuzione binomiale con un parametro noto.
In questo scenario, definiamo un DGA che collega i nostri parametri sconosciuti con i dati attraverso variabili uniformi indipendenti. Dopo aver osservato i nostri dati, le variabili uniformi associate vengono sostituite con nuovi campionamenti. Risolvendo le equazioni pertinenti, possiamo trovare un intervallo per il nostro parametro sconosciuto.
Ciò che è essenziale qui è che l'approccio fiduciale per i dati discreti è ancorato a insiemi piuttosto che a singoli punti. Rispetto agli scenari di dati continui, possiamo interpretare questi insiemi utilizzando teorie come Dempster-Shafer, offrendo una comprensione più ricca delle relazioni sottostanti.
Per più osservazioni indipendenti da una distribuzione binomiale in cui un parametro è sconosciuto, cerchiamo probabilità fiduciali per insiemi ragionevoli di valori potenziali dei parametri. L'algoritmo che proponiamo inizia calcolando le probabilità per insiemi candidati basati sui dati osservati.
Passando alla situazione più complessa in cui entrambi i parametri sono sconosciuti, utilizziamo lo stesso framework DGA. Attraverso l'inversione della funzione di distribuzione, sviluppiamo un metodo per determinare la GFD, anche se dobbiamo assicurarci di limitare i nostri calcoli a un intervallo ragionevole per i parametri.
Implementando il metodo GFI in questo scenario, scopriamo che spesso porta a risultati che si avvicinano strettamente al posteriore bayesiano. La situazione avanza la nostra comprensione delle differenze tra i due approcci e fa luce sui punti di forza del metodo fiduciale.
Le simulazioni condotte per diverse dimensioni di dati mostrano che sia l'approccio fiduciale generalizzato che quello bayesiano producono risultati simili. Questo dà fiducia nella capacità dell'approccio fiduciale di modellare efficacemente l'incertezza nelle stime dei parametri.
Conclusione e Discussione
Il framework dell'inferenza fiduciale generalizzata presenta un'alternativa robusta per numerosi classici problemi inferenziali. Deriva con successo distribuzioni significative sui parametri target, basandosi esclusivamente sui dati senza presupporre prior arbitrari.
Nonostante le promesse del metodo fiduciale, ci sono ancora delle sfide, soprattutto quando si tratta di invertire il DGA in alcune applicazioni. Il lavoro futuro mira a sviluppare strumenti per automatizzare questo processo, rendendo l'inferenza fiduciale più accessibile a un pubblico più ampio.
Nel tempo, la GFI si è dimostrata un metodo efficace per affrontare le sfide statistiche moderne. Con chiare illustrazioni derivate da varie applicazioni, questa metodologia è pronta per affrontare efficacemente un ampio raggio di problemi statistici.
Titolo: Introduction to Generalized Fiducial Inference
Estratto: Fiducial inference was introduced in the first half of the 20th century by Fisher (1935) as a means to get a posterior-like distribution for a parameter without having to arbitrarily define a prior. While the method originally fell out of favor due to non-exactness issues in multivariate cases, the method has garnered renewed interest in the last decade. This is partly due to the development of generalized fiducial inference, which is a fiducial perspective on generalized confidence intervals: a method used to find approximate confidence distributions. In this chapter, we illuminate the usefulness of the fiducial philosophy, introduce the definition of a generalized fiducial distribution, and apply it to interesting, non-trivial inferential examples.
Autori: Alexander C. Murph, Jan Hannig, Jonathan P. Williams
Ultimo aggiornamento: 2023-02-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.14598
Fonte PDF: https://arxiv.org/pdf/2302.14598
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.