Etichettatura dei dati e rivoluzione dell'intelligenza artificiale (2023)

Blog

CasaCasa / Blog / Etichettatura dei dati e rivoluzione dell'intelligenza artificiale (2023)

Oct 30, 2023

Etichettatura dei dati e rivoluzione dell'intelligenza artificiale (2023)

What is Data labeling? Data labeling is employed for machine learning algorithms

Cos'è l'etichettatura dei dati?

L'etichettatura dei dati viene utilizzata dagli algoritmi di apprendimento automatico per identificare e comprendere correttamente gli oggetti. Il riconoscimento facciale, la guida autonoma, i droni aerei, la robotica, ecc. sono tutte aree in cui il machine learning si è dimostrato essenziale. I dati visivi (fotografici e cinematografici), sonori e testuali sono ora le categorie principali utilizzate nella raccolta e nell'etichettatura dei dati. Due fattori principali determinano l'efficacia di un sistema di intelligenza artificiale:

L'etichettatura dei dati, nella sua forma più semplice, insegna al sistema a riconoscere i veicoli fornendo esempi di varie automobili in modo che possa apprendere le caratteristiche condivise di ciascuna e identificare correttamente le auto nelle foto senza etichetta.

Come funziona l'etichettatura dei dati?

Il machine learning (ML) e il deep learning richiedono in genere enormi volumi di dati per fornire le basi per modelli di apprendimento affidabili. I dati che raccolgono per i loro sistemi di formazione devono essere etichettati per ottenere il risultato previsto.

Le etichette utilizzate per il riconoscimento delle caratteristiche dovrebbero essere descrittive, discriminanti e uniche se si vuole che l'algoritmo risultante sia affidabile. Un set di dati ben etichettato offre verificabilità che il modello ML può utilizzare per verificare la precisione delle sue previsioni e perfezionare il suo metodo.

Accuratezza e precisione sono le caratteristiche distintive di un algoritmo di prim'ordine. Un set di dati accurato è quello in cui etichette specifiche possono essere recuperate direttamente dai dati originali. Nella scienza dei dati, la qualità è definita come il grado in cui un set di dati è vero nel complesso.

Chiave per vincere

Sistemi o macchinari in grado di riconoscere modelli o funzionare in modo autonomo richiedono una formazione approfondita sotto forma di dati abbondanti e di alta qualità. Il CDAO, dove lavora Martell, è stato fondato nel dicembre 2021 per accelerare e ampliare l'uso dell'intelligenza artificiale e dell'analisi dei dati da parte del Dipartimento della Difesa. Dopo mesi di consolidamento del Centro congiunto di intelligenza artificiale, del Servizio digitale della difesa, di Advana e della posizione di Chief Data Officer, l'ufficio ha finalmente iniziato a funzionare a pieno regime a giugno.

Da molto tempo, l’esercito è interessato all’intelligenza artificiale per formulare giudizi migliori più rapidamente e aprire aree precedentemente inaccessibili a un’indagine che nessun soldato, marinaio o essere umano oserebbe esplorare.

Secondo uno studio del Government Accountability Office, all’inizio del 2021, il Dipartimento della Difesa stava lavorando su più di 685 progetti di intelligenza artificiale. Alcuni di questi programmi coinvolgevano importanti sistemi militari. Il mese scorso, l’Air Force ha selezionato la Howard University per condurre la ricerca sull’autonomia tattica, compreso il teaming con equipaggio e senza equipaggio, come parte di un contratto quinquennale da 90 milioni di dollari.

Il metodo incentrato sui dati ha i suoi svantaggi. In particolare, la strategia incentrata sul modello è l’unica scelta se il team è a corto di soldi e si sta cercando di evitare l’etichettatura gestita da esseri umani utilizzando interamente un set di dati preesistente. Nel frattempo, ci sono due opzioni di etichettatura: farlo internamente, che può essere molto costoso e dispendioso in termini di tempo, o esternalizzarlo, che a volte può essere un azzardo e in genere costa molto. L’etichettatura sintetica è un altro approccio che prevede la produzione di dati falsi per il machine learning, ma richiede molte risorse ed è quindi fuori dalla portata di molte piccole imprese. Pertanto, molti gruppi concludono che la strategia incentrata sui dati non vale lo sforzo richiesto, mentre, in realtà, hanno bisogno di essere più informati.

La strategia incentrata sui dati è efficace, ma solo se ci si impegna a lavorare con i dati. La buona notizia è che l'etichettatura dei dati non deve essere costosa o richiedere mesi, grazie alle tecniche di crowdsourcing. Il problema, tuttavia, è che sempre più persone devono essere informate di tali procedure, per non parlare del fatto che si sono evolute per avere successo. Nonostante gli inconvenienti, secondo la ricerca oltre l’80% dei professionisti del machine learning sceglie il percorso interno. E un recente sondaggio mostra che questi medici non utilizzano questa tecnica perché la preferiscono ad altre; lo usano perché non conoscono niente di meglio.