Che cos'è l'etichettatura dei dati?  (Definizione, esempi)

Notizia

CasaCasa / Notizia / Che cos'è l'etichettatura dei dati? (Definizione, esempi)

Oct 26, 2023

Che cos'è l'etichettatura dei dati? (Definizione, esempi)

Data labeling refers to the practice of identifying items of raw data to give

L'etichettatura dei dati si riferisce alla pratica di identificare elementi di dati grezzi per dare loro un significato in modo che un modello di apprendimento automatico possa utilizzare tali dati. Supponiamo che i nostri dati grezzi siano un'immagine di animali. In tal caso, ti consigliamo di etichettare tutti i diversi animali per il modello, inclusi uccelli, cavalli e conigli. Senza etichette adeguate, il modello di machine learning non saprà quali diversi tipi di dati sono presenti nell'immagine.

L'etichettatura dei dati è un passaggio essenziale prima dell'addestramento o dell'utilizzo di qualsiasi modello di machine learning. È coinvolto in molte applicazioni, come la visione artificiale, l'elaborazione del linguaggio naturale (NLP) e il riconoscimento di immagini e parlato.

Altro da Sara A. MetwalliChe cos'è la convalida dei dati?

Esistono due categorie principali di algoritmi di machine learning: supervisionati e non supervisionati.

Negli algoritmi di machine learning supervisionati, dobbiamo fornire all’algoritmo dati etichettati affinché possa apprendere e quindi applicare ciò che ha imparato ai nuovi dati. Più accurati sono i dati etichettati, migliori saranno i risultati dell'algoritmo. Nella maggior parte dei casi, l'etichettatura dei dati inizia con una persona (spesso chiamata "etichettatore") che prende alcune decisioni sui dati non etichettati affinché l'algoritmo possa apprenderle.

Diciamo che vogliamo che il nostro algoritmo identifichi gli alberi. Per addestrare il modello, all'etichettatore possono prima essere presentate delle immagini e deve rispondere "vero" o "falso", indicando se l'immagine contiene un albero. L'algoritmo utilizza quindi queste decisioni per identificare il modello dell'immagine, apprendere cos'è un albero e quindi utilizzarlo per prevedere se le immagini future contengono alberi.

Poiché l’etichettatura dei dati è essenziale per sviluppare un buon modello di machine learning, le aziende e gli sviluppatori la prendono molto sul serio. Tuttavia, l'etichettatura dei dati può richiedere molto tempo, quindi alcune aziende potrebbero esternalizzare o automatizzare il processo utilizzando uno strumento o un servizio.

Possiamo utilizzare vari approcci per etichettare i dati; la decisione tra questi approcci dipende dalla dimensione dei dati, dall'ambito del progetto e dal tempo necessario per completarlo. Un modo per classificare i diversi metodi di etichettatura è se l'etichettatura è effettuata da un essere umano o da un computer. Se sono gli esseri umani a effettuare l’etichettatura, può assumere una delle tre forme.

Questo approccio viene utilizzato nelle grandi aziende con molti data scientist esperti che possono lavorare sull’etichettatura dei dati. L'etichettatura interna è più sicura e accurata dell'outsourcing perché viene eseguita internamente senza inviare i dati a un appaltatore o fornitore esterno. Questo approccio protegge i tuoi dati dalla fuga o dall'uso improprio se l'agente di outsourcing è inaffidabile.

Questa opzione può essere la strada da percorrere per progetti di grandi dimensioni e di alto livello che richiedono più risorse di quelle che l’azienda può mettere a disposizione. Detto questo, è necessario gestire un flusso di lavoro freelance che può essere costoso e dispendioso in termini di tempo perché, in questi casi, le aziende assumono team diversi che lavorino in parallelo per portare a termine il lavoro in tempo. Per mantenere il flusso e la qualità del lavoro, tutti i team devono utilizzare un approccio simile nel fornire i risultati. Altrimenti, è necessario uno sforzo maggiore per inserire i risultati nello stesso formato.

In questo approccio, l’azienda o lo sviluppatore utilizza un servizio per etichettare i dati in modo rapido e ad un costo inferiore. Una delle piattaforme di crowdsourcing più famose è reCAPTCHA, che sostanzialmente genera CAPTCHA e chiede agli utenti di etichettare i dati. Quindi il programma confronta i risultati di diversi utenti e genera dati etichettati.

Tuttavia, se vogliamo automatizzare l'etichettatura e utilizzare un computer per farlo, possiamo utilizzare uno dei due metodi.

In questo approccio, generiamo dati sintetici utilizzando i dati originali per migliorare la qualità del processo di etichettatura. Sebbene questo approccio porti a risultati migliori rispetto all’etichettatura programmatica, richiede una grande potenza di calcolo perché è necessaria più potenza per generare più dati. Questo approccio è una buona scelta se l’azienda ha accesso a un supercomputer o a un computer in grado di elaborare e generare enormi quantità di dati in un lasso di tempo ragionevole.

Per risparmiare potenza di calcolo, questo approccio utilizza uno script per eseguire il processo di etichettatura invece di generare più dati. Tuttavia, l’etichettatura programmatica spesso richiede alcune annotazioni umane per garantire la qualità dell’etichettatura.