Un nuovo studio propone l'identificazione tassonomica automatica basata sul set di dati di immagini fossili (> 415.000 immagini) e sulle reti neurali convoluzionali profonde

Notizia

CasaCasa / Notizia / Un nuovo studio propone l'identificazione tassonomica automatica basata sul set di dati di immagini fossili (> 415.000 immagini) e sulle reti neurali convoluzionali profonde

Nov 21, 2023

Un nuovo studio propone l'identificazione tassonomica automatica basata sul set di dati di immagini fossili (> 415.000 immagini) e sulle reti neurali convoluzionali profonde

Paleontology is a fascinating field that helps us understand the history of life

La paleontologia è un campo affascinante che ci aiuta a comprendere la storia della vita sulla Terra studiando le antiche forme di vita e la loro evoluzione. Tuttavia, una delle maggiori sfide nella ricerca paleontologica è il processo di identificazione tassonomica, dispendioso in termini di tempo e lavoro, che richiede una vasta conoscenza ed esperienza in un particolare gruppo tassonomico. Inoltre, i risultati dell’identificazione spesso devono essere più coerenti tra i ricercatori e le comunità.

Le tecniche di deep learning sono emerse come una soluzione promettente per supportare l’identificazione tassonomica dei fossili. In questo contesto, un gruppo di ricerca cinese ha recentemente pubblicato un articolo che esplora il potenziale del deep learning per migliorare l’accuratezza dell’identificazione tassonomica.

Il contributo principale di questo articolo è la creazione e la validazione di un ampio e completo set di dati di immagini fossili (FID) utilizzando web crawler e curation manuale. Il set di dati comprende 415.339 immagini di 50 diversi cladi di fossili, inclusi invertebrati, vertebrati, piante, microfossili e tracce fossili. Per classificare le immagini fossili è stata utilizzata una rete neurale convoluzionale (CNN) che ha raggiunto un'elevata precisione di classificazione, dimostrando il potenziale del FID per l'identificazione e la classificazione automatizzata dei fossili. Gli autori hanno inoltre reso pubblicamente disponibile il FID per uso e sviluppo futuri.

Questo studio indaga sperimentalmente l'uso dell'apprendimento di trasferimento con modelli addestrati su ImageNet per identificare e classificare i fossili nel Fossil Image Database (FID). Gli autori hanno scoperto che il congelamento di metà degli strati della rete come estrattori di funzionalità e l'addestramento degli strati rimanenti hanno prodotto le prestazioni migliori. L'aumento e l'abbandono dei dati si sono rivelati metodi efficaci per prevenire l'overfitting, mentre il frequente decadimento del tasso di apprendimento e le grandi dimensioni dei batch di addestramento hanno contribuito a una convergenza più rapida e a un'elevata precisione. Lo studio ha inoltre esaminato l’impatto dei dati sbilanciati sull’algoritmo e ha utilizzato metodi di campionamento per l’apprendimento sbilanciato. La qualità del set di dati era importante per un'identificazione accurata, con i microfossili che si comportavano bene grazie alla disponibilità di immagini di alta qualità, mentre alcuni fossili con scarsa conservazione e pochi campioni si comportavano male. Gli autori hanno anche scoperto che l'ampia diversità morfologica intraclasse di alcuni cladi ostacolava l'accuratezza dell'identificazione a causa della difficoltà dell'architettura DCNN nell'estrarre caratteristiche discriminative.

L'architettura Inception-ResNet-v2 ha raggiunto una precisione media di 0,90 nel set di dati di test quando si utilizza l'apprendimento del trasferimento. I microfossili e i fossili di vertebrati avevano la massima precisione di identificazione, rispettivamente di 0,95 e 0,90. Tuttavia, cladi come spugne, briozoi e tracce fossili, che presentavano varie morfologie o pochi campioni nel set di dati, avevano una precisione di identificazione inferiore a 0,80.

In conclusione, le tecniche di deep learning, in particolare il transfer learning, hanno mostrato risultati promettenti nel migliorare l’accuratezza e l’efficienza dell’identificazione tassonomica dei fossili. La creazione e la convalida di un set di dati di immagini fossili ampio e completo, come il Fossil Image Database (FID), è fondamentale per ottenere un'elevata precisione di identificazione. La sua disponibilità per l'uso e lo sviluppo pubblico è vantaggiosa per il progresso nel campo della paleontologia. Tuttavia, l’accuratezza dei modelli di deep learning dipende dalla qualità e dalla diversità del set di dati, con alcuni cladi che pongono sfide a causa della loro diversità morfologica intraclasse o della scarsa conservazione. Sono necessari ulteriori ricerche e sviluppi nelle tecniche di deep learning e nei set di dati di immagini fossili su larga scala per superare queste sfide e migliorare l’accuratezza e l’efficienza della ricerca paleontologica.

Inoltre, le tecniche di deep learning in paleontologia possono potenzialmente trasformare il campo oltre l’identificazione tassonomica. Queste tecniche possono estrarre più informazioni dai dati fossili, come la segmentazione e la ricostruzione dei fossili, l’integrazione dei dati fossili con altri tipi di dati e il rilevamento di modelli e anomalie in set di dati fossili su larga scala. Ciò amplia la nostra comprensione della storia della vita sulla Terra, aprendo la strada a scoperte e progressi entusiasmanti.