AI Day 2022: FSD semplificata

Blog

CasaCasa / Blog / AI Day 2022: FSD semplificata

Nov 18, 2023

AI Day 2022: FSD semplificata

Tesla held their AI Day 2022 event in Palo Alto, California earlier tonight,

Stasera Tesla ha tenuto l'evento AI Day 2022 a Palo Alto, in California, entrando in molti dettagli sui suoi ultimi sviluppi nel mondo dell'intelligenza artificiale. Parte della discussione è stata incentrata sulla guida completamente autonoma (FSD). Elon Musk aveva avvertito prima dell'evento che sarebbe stato molto tecnico e la cosa non ha deluso.

Qui esamineremo la sezione Full Self Driving dell'AI Day 2022 di Tesla cercando di semplificare i concetti.

Tesla ha iniziato la discussione con i numeri. Tesla ha finora creato 35 versioni con 281 diversi modelli di allenamento. Il numero più interessante condiviso sono le richieste pull totali (numero totale di volte in cui il codice è stato unito) 18.659.

FSD Beta ha utilizzato un totale di 4,8 milioni di set di dati.

Tesla è quindi passata a un diagramma di flusso che mostrerebbe come avrebbero trattato diversi argomenti all'interno del segmento Full Self Driving del Tesla AI Day 2022. I dati di addestramento che possono essere dati etichettati automaticamente, dati simulati o dal motore di dati, vengono inseriti in diversi Reti Neurali che vanno alla progettazione.

Ciascuno è stato trattato più approfonditamente nel corso della conferenza.

Si prega di abilitare JavaScript

Questa rete neurale decide cose come il controllo del gap. Immagina di svoltare a sinistra in un incrocio. C'è un pedone che attraversa la strada. Quando è sicuro circolare con l'auto? Pensa alla pianificazione come al prendere decisioni (c'è molto di più ma lo semplificheremo).

Tesla usa qualcosa che chiamano "ricerca di interazione". Controlla le corsie, l'occupazione (cosa sta succedendo in quelle corsie) e altri oggetti in movimento. Il primo strato della rete neurale guarda la corsia. Com'è la corsia?

Quindi si dirama (guarda) i semi non ostruiti (chi sta occupando la corsia) e si dirama verso le interazioni all'interno delle corsie; pedoni o oggetti.

Quindi pianifica la probabilità che tu intervenga. Ci sono controlli che si verificano come se finissi in una collisione? Ci sono conflitti con i dati?

Questa rete rileva cordoli, automobili, detriti sulla strada e solo previsioni generali su dove stanno andando le cose. Invece di utilizzare solo una rete di oggetti di base, questa rete crea una superficie percorribile; dove l'auto può circolare.

Usano immagini della fotocamera con foto grezze, non RGB standard. Estraggono le caratteristiche dalla foto e creano un modulo 3D con caratteristiche spaziali. Quindi passa attraverso la "deconvoluzione" per un output finale. Tesla voleva un output con una risoluzione più elevata, quindi utilizza "Uscite interrogabili" e "NeRF" con cui può creare ambienti 3D con immagini 2D.

Tesla utilizza anche set di dati etichettati come Auto. Ogni secondo catturano 400.000 video. Utilizzando l'estensione personalizzata Pytorch (framework di machine learning estremamente popolare), i dati passano dallo spazio di archiviazione alla GPU per l'addestramento. (Non sono esperto di hardware). Verificano con la verità fondamentale.

Devono utilizzare le previsioni poiché a volte non è possibile vedere le cose dall'altra parte dell'incrocio. Esiste un "componente di visione" che fornisce dati di input. Tesla aggiunge quindi un componente della mappa. Si tratta di dati della mappa stradale con informazioni sulla topografia. Si sono assicurati di notare che non si tratta di mappe HD; quindi ad esempio non sapranno in anticipo quando finisce la corsia. Tesla poi aggiunge qualcosa chiamato componente "linguaggio". Sono le posizioni delle corsie nello spazio 3D. Il componente linguistico ha una griglia di previsione che mappa tutte le corsie nello spazio 3D dato. Si ripete più e più volte fino alla fine del segmento. Questa previsione della corsia è necessaria, soprattutto perché tu e la Tesla potreste non vedere chiaramente la strada. Hai bisogno di previsioni.

Tesla è attualmente limitata a una cache di intersezione di 500.000 al giorno (limiti di archiviazione dei dati). Vogliono arrivare a 1 miliardo di incroci. Ovviamente i conti non funzionano tra il loro obiettivo e i loro limiti. Ora utilizzano la “ricostruzione” che si adatta meglio ed etichetta più velocemente rispetto all’approccio del 2020. Usano le etichettatrici automatiche per quasi tutte le attività della loro pianificazione. Etichetterà automaticamente anche in diverse condizioni meteorologiche come al buio, pioggia o nebbia.