Una struttura di rete neurale sparsa scalabile per l'annotazione di tipi di cellule rare di singoli

Notizia

CasaCasa / Notizia / Una struttura di rete neurale sparsa scalabile per l'annotazione di tipi di cellule rare di singoli

Mar 14, 2023

Una struttura di rete neurale sparsa scalabile per l'annotazione di tipi di cellule rare di singoli

Communications Biology volume

Biologia delle comunicazioni volume 6, numero articolo: 545 (2023) Citare questo articolo

1312 accessi

15 Altmetrico

Dettagli sulle metriche

I metodi di annotazione automatica del tipo di cella sono sempre più utilizzati nell'analisi di sequenziamento dell'RNA di singola cellula (scRNA-seq) grazie ai loro vantaggi rapidi e precisi. Tuttavia, i metodi attuali spesso non riescono a tenere conto dello squilibrio dei set di dati scRNA-seq e ignorano le informazioni provenienti da popolazioni più piccole, portando a significativi errori di analisi biologica. Qui presentiamo scBalance, un framework di rete neurale sparsa integrato che incorpora tecniche di campionamento e abbandono del peso adattivo per attività di annotazione automatica. Utilizzando 20 set di dati scRNA-seq con diverse scale e gradi di squilibrio, dimostriamo che scBalance supera i metodi attuali nelle attività di annotazione sia intra che inter-set di dati. Inoltre, scBalance mostra un’impressionante scalabilità nell’identificazione di tipi cellulari rari in set di dati a milioni di livelli, come mostrato nel panorama delle cellule broncoalveolari. scBalance è anche significativamente più veloce degli strumenti comunemente utilizzati ed è disponibile in un formato intuitivo, rendendolo uno strumento superiore per l'analisi scRNA-seq sulla piattaforma basata su Python.

Dal primo stabilimento del sequenziamento dell'RNA a singola cellula (scRNA-seq) da parte di Tang et al. nel 20091, questa tecnologia è diventata rapidamente popolare tra gli scienziati in vari campi della ricerca biologica. Rispetto al tradizionale sequenziamento dell'RNA in massa che misura solo il livello medio di espressione genica dei campioni, scRNA-seq fornisce un metodo potente per profilare i trascrittomi a livello specifico della cellula. Pertanto, potrebbe consentire l’analisi delle singole cellule e fornire una visione più informativa sull’eterogeneità cellulare. Lo sviluppo della tecnologia scRNA-seq è stato ampiamente utilizzato in diverse aree di ricerca biologica, come la ricerca sul cancro2,3, l'analisi COVID4,5, la ricerca sulla biologia dello sviluppo6, ecc. In questi studi, scoprire e identificare le popolazioni cellulari è uno degli aspetti più critici compiti.

Tipicamente, l'annotazione del tipo di cellula prevede due passaggi: (1) raggruppamento delle cellule in diversi sottogruppi e (2) etichettatura manuale di ciascun gruppo con un tipo specifico in base ai geni marcatori precedentemente noti. Sono stati sviluppati numerosi algoritmi di apprendimento automatico non supervisionati, inclusi metodi classici basati sull’apprendimento automatico come Seurat7 e Scanpy8 e metodi basati sull’apprendimento profondo recentemente pubblicati, come scDHA9 e CLEAR10. Tuttavia, questi metodi possono essere dispendiosi in termini di tempo e onerosi. Per coloro che non hanno una conoscenza approfondita dei geni marcatori, questo approccio potrebbe costare molto più tempo del previsto. I metodi di annotazione automatica del tipo di cella, al contrario, non soffrono del processo di etichettatura manuale. Diversamente dai metodi non supervisionati, gli strumenti di identificazione automatica del tipo di cellula sono progettati principalmente sulla base di quadri di apprendimento supervisionato. Sfruttando le sue caratteristiche rapide e precise, stanno diventando strumenti predominanti per identificare i tipi di cellule negli esperimenti su singole cellule. Con il boom senza precedenti dell'atlante scRNA-seq ben annotato e la rapida promozione del progetto Human Cell Atlas11,12, gli strumenti di auto-annotazione si trovano ad affrontare una prospettiva più ampia che mai. Fino ad ora sono stati sviluppati e pubblicati 32 strumenti di auto-annotazione13. Ad esempio, SingleCellNet14 utilizza un classificatore a foresta casuale per risolvere le attività di annotazione multipiattaforma e tra specie. ACTINN15 implementa una semplice rete neurale artificiale per superare l'effetto batch.

Sebbene negli ultimi anni siano stati creati numerosi strumenti, la maggior parte di questi spesso non riesce a identificare l’intera popolazione a causa dell’esistenza di tipi cellulari rari. Dal punto di vista della composizione cellulare, i set di dati scRNA-seq sono sempre sbilanciati, che hanno tipi di cellule comuni e tipi di cellule rari. La popolazione rara è una piccola percentuale di cellule nel set di dati a cella singola. Ad esempio, la cellula dendritica di solito occupa l'1-5% delle cellule mononucleate del sangue periferico (PBMC), soprattutto in set di dati di grandi dimensioni16,17. Quando addestriamo uno strumento di annotazione automatica, il classificatore non è costantemente in grado di apprendere le informazioni, quindi è difficile identificare questi tipi di celle nel set di dati della query. Tuttavia, queste popolazioni rare possono essere cruciali, soprattutto nella ricerca sulle malattie18. Recentemente, alcuni metodi di rilevamento dei cluster hanno notato questo punto19,20 ma pochi metodi di classificazione si sono concentrati sullo squilibrio della popolazione cellulare. Nel frattempo, scopriamo anche che i metodi esistenti presentano altre due principali carenze. (1) Mancanza di scalabilità. Le recenti piattaforme sperimentali scRNA-seq consentono indagini su cellule a milioni di livelli21,22. In particolare, uno dei più recenti atlanti PBMC COVID ha raggiunto 1,5 milioni di cellule17. Pertanto, la limitazione della velocità di calcolo renderà i pacchetti di annotazione automatica scarsamente scalabili per il set di dati a milioni di livelli. Inoltre, i set di dati di riferimento su larga scala aggiungono ulteriori sfide per l’apprendimento di tipi di cellule rare nell’addestramento del classificatore, il che rende più difficile per i software attuali identificare i gruppi minori. L'articolo pubblicato più di recente ha elevato la scala di addestramento a 600 K cellule23, tuttavia, nessuno strumento pubblicato riporta con successo la scalabilità sull'atlante di cellule a milioni di livelli. (2) La compatibilità degli strumenti esistenti non è buona come previsto. Tra gli strumenti esistenti basati su Python, la maggior parte degli strumenti come ACTINN15, scPretrain24, scCapNet25 e MarkerCount26 sono basati su script. Considerando che Seurat e Scanpy sono entrambi pacchetti che possono essere scaricati da un repository software standard (ad esempio PyPI), l'esecuzione di uno script Python esterno sul server aggiungerà un ulteriore onere all'utente. Inoltre, alcuni strumenti non vengono più mantenuti o non è possibile utilizzarli. Tutte queste sfide insieme rendono necessario un nuovo strumento di annotazione che abbia una capacità equilibrata di etichettare i tipi di cellule maggiori e minori in modo scalabile.