Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Nuovo strumento per identificare parenti genetici nella ricerca

SF-Relate migliora gli studi genomici identificando i parenti in modo sicuro ed efficiente.

― 6 leggere min


SF-Relate: StrumentoSF-Relate: StrumentoGenetico che Rispetta laPrivacycompromettere la privacy.parenti nella ricerca genomica senzaRivoluzionare l'identificazione dei
Indice

Gli studi collaborativi in genomica sono super importanti per far avanzare la nostra conoscenza nella ricerca biomedica. Unendo Dati Genetici da diverse fonti, i ricercatori possono scoprire cose preziose sulla salute umana. Però, condividere i dati genetici individuali è spesso ostacolato da preoccupazioni sulla Privacy. Questa limitazione può restringere i tipi di analisi che possono essere fatte insieme.

Le Sfide della Condivisione dei Dati

Molte collaborazioni ricorrono a metodi di analisi semplificati, dove passaggi fondamentali, come identificare gruppi di individui e assicurarsi della qualità dei dati, sono gestiti separatamente da ognuna delle parti coinvolte. Questa gestione indipendente dei dati può portare a perdere opportunità per scoprire relazioni genetiche critiche e intuizioni.

Una grande sfida in questi studi è identificare i parenti genetici attraverso diversi dataset. I parenti stretti possono distorcere i risultati, poiché la loro genetica condivisa può portare a conclusioni errate. Per le grandi biobanche, una percentuale significativa di individui può avere parenti all'interno dello stesso dataset. Questo significa che riconoscere e gestire queste relazioni è cruciale per l'integrità della ricerca.

L'Importanza di Identificare i Parent

Escludere i parenti stretti da un campione di studio è una prassi comune nella ricerca genetica. La loro presenza può introdurre bias e fattori confondenti, compromettendo l'accuratezza dei risultati. In una grande biobanca, circa il 32% dei partecipanti potrebbe avere un Parente di terzo grado o più vicino all'interno dello stesso dataset. Quindi, affrontare la parentela genetica può influenzare significativamente i risultati delle analisi.

Nonostante la sua importanza, identificare i parenti genetici in contesti collaborativi presenta diverse sfide. La maggior parte dei metodi attuali per analizzare i dati dipende dalla condivisione di informazioni aggregate tra le parti, rendendoli poco adatti per compiti che operano a livello individuale. Inoltre, i metodi sicuri esistenti, pur essendo in grado di effettuare calcoli congiunti senza condividere dati, mancano di soluzioni pratiche per rilevare i parenti.

Introduzione di SF-Relate

Per affrontare queste sfide, è stato sviluppato un nuovo strumento chiamato SF-Relate. Questo strumento mira a identificare i parenti genetici attraverso dataset separati mantenendo la privacy. Il processo funziona facendo categorizzare i campioni da ciascuna parte in gruppi, dove i campioni imparentati hanno più probabilità di finire nello stesso gruppo. Questo si ottiene attraverso una tecnica chiamata hashing sensibile alla località.

Una volta che i campioni sono stati raggruppati, solo gli individui all'interno dello stesso gruppo vengono confrontati per la parentela genetica. Questo approccio riduce efficacemente il numero di confronti necessari, rendendolo più veloce ed efficiente. Concentrandosi sui campioni imparentati, SF-Relate può identificare parenti genetici proteggendo al contempo le informazioni private.

Come Funziona SF-Relate

SF-Relate opera in due fasi principali.

Passo 1: Raggruppamento degli Individui

Nella prima fase, ogni ente partecipante utilizza metodi di hashing per ordinare i propri campioni in diversi gruppi in base alle loro somiglianze genetiche. L'obiettivo è garantire che i campioni imparentati abbiano maggiori probabilità di finire nello stesso gruppo. Questo meccanismo di raggruppamento previene confronti non necessari e riduce la quantità di dati da analizzare.

Adottando questo metodo, i campioni imparentati vengono riuniti, consentendo ai ricercatori di condurre analisi più mirate senza dover condividere dati sensibili. L'efficacia di questo raggruppamento dipende dal modo in cui i campioni vengono codificati e hashati.

Passo 2: Sicurezza nei Confronti

Nella seconda fase, le parti confrontano in modo sicuro i loro campioni raggruppati per determinare la parentela. Il processo coinvolge il calcolo dei coefficienti di parentela, che quantificano il grado di relazione genetica tra due individui. Questa valutazione viene eseguita utilizzando metodi di calcolo sicuri che garantiscono che i dati privati rimangano protetti.

Alla fine di questa fase, ciascuna parte riceve informazioni che indicano se i propri campioni hanno parenti vicini nel dataset dell'altra parte. Questo consente ai ricercatori di escludere individui imparentati dalle loro analisi, migliorando così l'accuratezza dei loro risultati.

Le Prestazioni di SF-Relate

Le ricerche dimostrano che SF-Relate può identificare con precisione i parenti genetici rimanendo efficiente, anche con grandi dataset. Lo strumento è stato testato con diversi dataset genomici, mostrando un'accuratezza quasi perfetta nel rilevare individui con parenti di terzo grado o più vicini.

In termini pratici, ci sono volute circa 14.5 ore per identificare i parenti tra un grande dataset composto da 200.000 campioni genomici. Straordinariamente, SF-Relate ha raggiunto questo obiettivo eseguendo solo una piccola frazione dei calcoli necessari per un metodo di confronto naif.

L'Impatto Maggiore di SF-Relate

SF-Relate è pronto a beneficiare significativamente la ricerca genomica collaborativa. Permettendo a più parti di identificare parenti nei loro dataset combinati senza dover condividere informazioni sensibili, apre porte per analisi più robuste. Questa capacità è particolarmente utile per le istituzioni che collaborano in varie iniziative di ricerca.

Oltre a identificare parenti, lo strumento aumenta il potenziale per risultati più accurati e affidabili negli studi genetici. Implementando SF-Relate, i ricercatori possono affrontare meglio i problemi legati a risultati confondenti causati da relazioni genetiche nascoste.

Analizzando Dataset

Per dimostrare la sua efficacia, SF-Relate è stato testato su diversi dataset genomici di varie dimensioni. Questi includono dati provenienti da programmi di ricerca significativi e biobanche, illustrando la sua adattabilità attraverso diverse popolazioni e contesti di ricerca.

Valutando l'accuratezza del rilevamento dei parenti utilizzando misure standard come richiamo e precisione, SF-Relate ha costantemente raggiunto tassi elevati nell'identificare parenti stretti su una gamma di dataset. Questa prestazione sottolinea l'utilità dello strumento nelle applicazioni del mondo reale, rafforzando il suo ruolo nell'avanzare la ricerca genomica.

Efficienza e Scalabilità

SF-Relate è stato progettato tenendo presente la scalabilità. Il processo in due fasi consente di gestire in modo efficiente grandi dataset mantenendo i costi computazionali sostenibili. Il tempo di esecuzione per l'elaborazione dei campioni cresce linearmente con la dimensione del dataset, indicando che lo strumento può espandersi per adattarsi a collezioni genomiche ancora più grandi.

Anche se la comunicazione tra le parti può comportare un significativo trasferimento di dati, lo strumento riesce a mantenere tempi di esecuzione e requisiti di sistema pratici. Questa scalabilità è cruciale in contesti collaborativi dove più parti potrebbero voler analizzare dataset estesi.

Esplorando Direzioni Future

Anche se SF-Relate ha mostrato risultati promettenti, ci sono ancora aree per ulteriori sviluppi. La ricerca futura potrebbe esaminare metodi per rilevare parenti oltre il terzo grado e integrare algoritmi avanzati che possano migliorare le prestazioni.

Inoltre, la possibilità di estendere SF-Relate per supportare più di due parti potrebbe trasformare gli sforzi collaborativi nella ricerca genomica. Sviluppando strategie innovative per accogliere questi scenari, lo strumento potrebbe facilitare una gamma più ampia di applicazioni nel rilevamento delle relazioni.

Conclusione

In sintesi, SF-Relate è uno strumento rivoluzionario che affronta una significativa sfida nella ricerca genomica collaborativa. Introdurre un modo sicuro ed efficace per identificare parenti genetici senza compromettere la privacy ha il potenziale di trasformare il modo in cui i ricercatori analizzano i dati genetici. La combinazione di elaborazione efficiente, rilevamento accurato e robuste misure di privacy posiziona SF-Relate come un asset prezioso nel futuro della genomica.

Con il continuo evolversi del settore, strumenti come SF-Relate saranno essenziali per sbloccare nuove intuizioni e avanzare la nostra comprensione della genetica in relazione alla salute e alle malattie. Attraverso sviluppi continui e collaborazioni, SF-Relate mira a supportare i ricercatori nella loro ricerca per svelare le complessità del genoma umano, assicurando nel contempo che gli standard etici e la privacy rimangano al centro dell'analisi genomica.

Fonte originale

Titolo: Secure Discovery of Genetic Relatives across Large-Scale and Distributed Genomic Datasets

Estratto: Finding relatives within a study cohort is a necessary step in many genomic studies. However, when the cohort is distributed across multiple entities subject to data-sharing restrictions, performing this step often becomes infeasible. Developing a privacy-preserving solution for this task is challenging due to the significant burden of estimating kinship between all pairs of individuals across datasets. We introduce SF-Relate, a practical and secure federated algorithm for identifying genetic relatives across data silos. SF-Relate vastly reduces the number of individual pairs to compare while maintaining accurate detection through a novel locality-sensitive hashing approach. We assign individuals who are likely to be related together into buckets and then test relationships only between individuals in matching buckets across parties. To this end, we construct an effective hash function that captures identity-by-descent (IBD) segments in genetic sequences, which, along with a new bucketing strategy, enable accurate and practical private relative detection. To guarantee privacy, we introduce an efficient algorithm based on multiparty homomorphic encryption (MHE) to allow data holders to cooperatively compute the relatedness coefficients between individuals, and to further classify their degrees of relatedness, all without sharing any private data. We demonstrate the accuracy and practical runtimes of SF-Relate on the UK Biobank and All of Us datasets. On a dataset of 200K individuals split between two parties, SF-Relate detects 94.9% of third-degree relatives, and 99.9% of second-degree or closer relatives, within 15 hours of runtime. Our work enables secure identification of relatives across large-scale genomic datasets.

Autori: Hyunghoon Cho, M. M.-H. Hong, D. Froelicher, R. Magner, V. Popic, B. Berger

Ultimo aggiornamento: 2024-02-20 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.02.16.580613

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.02.16.580613.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili