Quanto aperto

Notizia

CasaCasa / Notizia / Quanto aperto

Nov 01, 2023

Quanto aperto

Join top executives in San Francisco on July 11-12, to hear how leaders are

Unisciti ai massimi dirigenti a San Francisco l'11 e il 12 luglio per scoprire come i leader stanno integrando e ottimizzando gli investimenti nell'intelligenza artificiale per il successo. Saperne di più

L’etichettatura dei dati è uno degli aspetti fondamentali dell’apprendimento automatico. Spesso è anche un’area in cui le organizzazioni faticano a classificare accuratamente i dati e a ridurre potenziali distorsioni.

Con la tecnologia di etichettatura dei dati, un set di dati utilizzato per addestrare un modello di machine learning viene prima analizzato e gli viene assegnata un'etichetta che fornisce una categoria e una definizione di cosa trattano effettivamente i dati. Sebbene l’etichettatura dei dati sia una componente fondamentale del processo di apprendimento automatico, recentemente, secondo numerosi studi, si è rivelata anche altamente incoerente. La necessità di un’etichettatura accurata dei dati ha alimentato un vivace mercato di fornitori di etichettatura dei dati.

Tra le tecnologie di etichettatura dei dati più popolari c’è Label Studio open source, supportato dalla startup Heartex con sede a San Francisco. Il nuovo aggiornamento Label Studio 1.6 rilasciato oggi fornirà agli utenti nuove funzionalità per aiutare ad analizzare ed etichettare meglio i dati all'interno dei video.

Secondo Michael Malyuk, cofondatore e CEO di Heartex, la sfida per la maggior parte delle aziende dotate di intelligenza artificiale (AI) è avere buoni dati con cui lavorare.

Trasforma il 2023

Unisciti a noi a San Francisco l'11 e il 12 luglio, dove i massimi dirigenti condivideranno come hanno integrato e ottimizzato gli investimenti nell'intelligenza artificiale per raggiungere il successo ed evitare le insidie ​​​​comuni.

"Consideriamo l'etichettatura come una categoria più ampia di sviluppo di set di dati e Label Studio è una soluzione che in definitiva consente di eseguire qualsiasi tipo di sviluppo di set di dati", ha affermato Malyuk.

Sebbene la versione 1.6 di Label Studio abbia la capacità di un lettore video come nuova funzionalità principale, Malyuk ha sottolineato che la tecnologia è utile per qualsiasi tipo di dati inclusi testo, audio, serie temporali e video.

Uno dei maggiori problemi con qualsiasi approccio di etichettatura per tutti i tipi di dati è proprio la definizione delle categorie utilizzate per le etichette dei dati.

"Alcune persone possono nominare le cose in un modo, alcune persone possono nominare le cose in un modo diverso, ma essenzialmente significano la stessa cosa", ha detto Malyuk.

Ha spiegato che Label Studio fornisce tassonomie per le etichette tra cui gli utenti possono scegliere per descrivere un dato, sia esso un file di testo, audio o immagine. Se due o più persone nella stessa organizzazione etichettano gli stessi dati in modo diverso, il sistema Label Studio identificherà il conflitto in modo che possa essere analizzato e risolto. Label Studio fornisce sia un sistema di risoluzione manuale dei conflitti che un approccio automatizzato.

Il processo di etichettatura dei dati può spesso comportare lavoro manuale, con l'assegnazione di un'etichetta da parte di esseri umani o la verifica che un'etichetta sia accurata.

Esistono numerosi approcci per automatizzare il processo, la startup Lightly AI utilizza un modello di apprendimento automatico autocontrollato che può integrarsi con Label Studio. Poi ci sono fornitori che utilizzeranno un database vettoriale per convertire i dati in matematica, invece di utilizzare l'etichettatura dei dati per identificare i dati e le loro relazioni.

Malyuk ha affermato che i database vettoriali hanno i loro usi e possono essere efficaci per svolgere attività come le ricerche di somiglianza. Il problema, a suo avviso, è che l'approccio vettoriale non è altrettanto efficace con tipi di dati non strutturati come audio e video. Ha notato che un database vettoriale può utilizzare tipi di identificazione per oggetti comuni.

"Non appena inizi a deviare da quella conoscenza comune verso qualcosa che è un po' diverso, diventerà molto complicato senza l'etichettatura manuale", ha detto Malyuk.

I pregiudizi nell’intelligenza artificiale sono una sfida continua che molti nel settore stanno cercando di combattere. Alla base dell’apprendimento automatico ci sono i dati reali e anche il modo in cui i dati vengono etichettati può potenzialmente portare a distorsioni. I pregiudizi possono essere intenzionali e possono anche essere circostanziali.

"Se etichetti un set di dati molto soggettivo la mattina prima del caffè e poi di nuovo dopo il caffè, potresti ottenere risposte molto diverse", ha detto Malyuk.