Clean Lab aperto

Notizia

CasaCasa / Notizia / Clean Lab aperto

Oct 27, 2023

Clean Lab aperto

Labeled data is essential for training supervised machine learning models, but

I dati etichettati sono essenziali per l'addestramento dei modelli di machine learning supervisionati, ma gli errori commessi dagli annotatori dei dati possono influire sull'accuratezza del modello. È prassi comune raccogliere più annotazioni per punto dati per ridurre gli errori di annotazione e stabilire un'etichetta di consenso più affidabile, ma questo approccio può essere costoso. Per ottimizzare il modello ML con un'etichettatura dei dati minima, è fondamentale determinare quali nuovi dati richiedono l'etichettatura o quali etichette attuali devono essere ricontrollate.

ActiveLab, un metodo di apprendimento attivo pubblicato di recente, è stato reso disponibile come strumento open source per aiutare in questo processo decisionale. ActiveLab aiuta a identificare i dati che richiedono etichettatura o rietichettatura per ottenere il massimo miglioramento nel modello ML rispettando un budget limitato per le annotazioni. I set di dati di addestramento generati utilizzando ActiveLab hanno prodotto modelli ML superiori rispetto ad altre tecniche di apprendimento attivo quando si lavora con un numero fisso di annotazioni.

ActiveLab affronta la questione cruciale di determinare se sia più vantaggioso ottenere un'annotazione aggiuntiva per un punto dati precedentemente etichettato o etichettare un'istanza completamente nuova dal pool senza etichetta. La risposta a questa domanda dipende dal grado di fiducia nelle annotazioni attuali. Nei casi in cui si ha una sola annotazione da parte di un annotatore inaffidabile o due annotazioni con risultati contrastanti, è fondamentale ottenere un'altra opinione attraverso la rietichettatura. Questo processo diventa particolarmente significativo quando le conseguenze negative dell'addestramento di un modello con dati etichettati in modo errato non possono essere risolte semplicemente etichettando nuovi punti dati dal pool senza etichetta.

I ricercatori hanno iniziato con un set di addestramento iniziale di 500 esempi etichettati e hanno addestrato un modello di classificazione per più cicli, tracciando la precisione del test dopo ogni iterazione. In ogni round sono state raccolte annotazioni aggiuntive per 100 esempi, scelte da questo set di 500 o da un pool separato di 1500 esempi inizialmente senza etichetta. Sono stati utilizzati vari metodi di apprendimento attivo per decidere quali dati etichettare/rietichettare successivamente. La selezione casuale è stata confrontata con Good Random, che dà priorità ai dati senza etichetta, nonché con Entropy e Incertainty, metodi popolari di apprendimento attivo basati su modelli. È stato utilizzato anche ActiveLab, che si basa sulle previsioni del modello per stimare quanto sarà informativa un'altra etichetta per ciascun esempio, tenendo conto del numero di annotazioni ricevute finora da un esempio e del loro accordo, nonché dell'affidabilità complessiva di ciascun annotatore rispetto a quelli addestrati. modello. Risultati simili sono stati trovati per altri modelli e set di dati di classificazione delle immagini, come dettagliato nel documento dei ricercatori sullo sviluppo di questo metodo.

Dai un'occhiata aCartaEGithub. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscrivertiil nostro subReddit da 15k+ ML,Canale Discordia, ENewsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.

Niharika è una stagista di consulenza tecnica presso Marktechpost. È una studentessa universitaria del terzo anno e attualmente consegue il suo B.Tech presso l'Indian Institute of Technology (IIT), Kharagpur. È una persona molto entusiasta con un vivo interesse per l'apprendimento automatico, la scienza dei dati e l'intelligenza artificiale e un'avida lettrice degli ultimi sviluppi in questi campi.

Github cartaceo. la nostra newsletter via email del canale Discord di SubReddit da 15.000 + ML