Perché i dati rimangono la sfida più grande per i progetti di machine learning

Notizia

CasaCasa / Notizia / Perché i dati rimangono la sfida più grande per i progetti di machine learning

Nov 04, 2023

Perché i dati rimangono la sfida più grande per i progetti di machine learning

Join top executives in San Francisco on July 11-12, to hear how leaders are

Unisciti ai massimi dirigenti a San Francisco l'11 e il 12 luglio per scoprire come i leader stanno integrando e ottimizzando gli investimenti nell'intelligenza artificiale per il successo. Saperne di più

La qualità dei dati è alla base del successo dell’intelligenza artificiale (AI) aziendale. E di conseguenza, rimane la principale fonte di sfide per le aziende che desiderano applicare il machine learning (ML) nelle loro applicazioni e operazioni.

Secondo l’ultimo rapporto sullo stato dell’intelligenza artificiale di Appen, il settore ha compiuto progressi impressionanti nell’aiutare le imprese a superare gli ostacoli all’approvvigionamento e alla preparazione dei propri dati. Ma c’è ancora molto da fare a diversi livelli, compresa la struttura organizzativa e le politiche aziendali.

Il ciclo di vita dell’intelligenza artificiale aziendale può essere suddiviso in quattro fasi: sourcing dei dati, preparazione dei dati, test e implementazione del modello e valutazione del modello.

I progressi negli strumenti informatici e di machine learning hanno contribuito ad automatizzare e accelerare attività come la formazione e il test di diversi modelli di machine learning. Le piattaforme di cloud computing consentono di addestrare e testare contemporaneamente dozzine di modelli diversi di dimensioni e strutture diverse. Ma man mano che i modelli di machine learning crescono in numero e dimensioni, richiederanno più dati di addestramento.

Trasforma il 2023

Unisciti a noi a San Francisco l'11 e il 12 luglio, dove i massimi dirigenti condivideranno come hanno integrato e ottimizzato gli investimenti nell'intelligenza artificiale per raggiungere il successo ed evitare le insidie ​​​​comuni.

Sfortunatamente, ottenere dati di addestramento e annotare richiede ancora un notevole sforzo manuale ed è in gran parte specifico dell'applicazione. Secondo il rapporto di Appen, "mancanza di dati sufficienti per un caso d'uso specifico, nuove tecniche di apprendimento automatico che richiedono maggiori volumi di dati o i team non dispongono dei processi giusti per ottenere in modo semplice ed efficiente i dati di cui hanno bisogno".

"Per ottenere prestazioni accurate del modello sono necessari dati di addestramento di alta qualità; e set di dati grandi e inclusivi sono costosi", ha dichiarato a VentureBeat, Sujatha Sagiraju, chief product officer di Appen. "Tuttavia, è importante notare che i preziosi dati dell'intelligenza artificiale possono aumentare le possibilità che il tuo progetto passi dalla fase pilota alla produzione; quindi, la spesa è necessaria."

I team di ML possono iniziare con set di dati preetichettati, ma alla fine dovranno raccogliere ed etichettare i propri dati personalizzati per ampliare i propri sforzi. A seconda dell'applicazione, l'etichettatura può diventare estremamente costosa e richiedere molta manodopera.

In molti casi, le aziende dispongono di dati sufficienti, ma non riescono a gestire i problemi di qualità. Dati distorti, etichettati erroneamente, incoerenti o incompleti riducono la qualità dei modelli ML, il che a sua volta danneggia il ROI delle iniziative di intelligenza artificiale.

"Se si addestrano modelli ML con dati errati, le previsioni dei modelli saranno imprecise", ha affermato Sagiraju. "Per garantire che la loro intelligenza artificiale funzioni bene negli scenari del mondo reale, i team devono avere nel loro kit di formazione un mix di set di dati di alta qualità, dati sintetici e valutazione human-in-the-loop."

Secondo Appen, i leader aziendali sono molto meno propensi del personale tecnico a considerare l’approvvigionamento e la preparazione dei dati come le principali sfide delle loro iniziative di intelligenza artificiale. "Ci sono ancora divari tra tecnologi e leader aziendali nella comprensione dei maggiori colli di bottiglia nell'implementazione dei dati per il ciclo di vita dell'intelligenza artificiale. Ciò si traduce in un disallineamento delle priorità e del budget all'interno dell'organizzazione", secondo il rapporto Appen.

"Quello che sappiamo è che alcuni dei maggiori colli di bottiglia per le iniziative di intelligenza artificiale risiedono nella mancanza di risorse tecniche e di partecipazione da parte dei dirigenti", ha affermato Sagiraju. "Se dai un'occhiata a queste categorie, vedi che i data scientist, gli ingegneri del machine learning, gli sviluppatori di software e i dirigenti sono dispersi in aree diverse, quindi non è difficile immaginare una mancanza di strategia allineata a causa di priorità contrastanti tra i vari team all'interno dell'organizzazione."

La varietà di persone e ruoli coinvolti nelle iniziative di intelligenza artificiale rende difficile raggiungere questo allineamento. Dagli sviluppatori che gestiscono i dati, ai data scientist che si occupano di questioni sul campo e ai dirigenti che prendono decisioni aziendali strategiche, tutti hanno obiettivi diversi in mente e quindi priorità e budget diversi.