Questo documento illustra le principali differenze tra i metodi di addestramento disponibili su Google Cloud. La scelta dipende dalle competenze del tuo team, dal livello di controllo di cui hai bisogno e dalle tue preferenze in termini di infrastruttura.
Con AutoML, puoi creare e addestrare un modello col minimo sforzo tecnico. Puoi utilizzare AutoML per prototipare rapidamente i modelli ed esplorare nuovi set di dati prima di investire nello sviluppo. Ad esempio, puoi usarlo per scoprire quali caratteristiche sono le migliori per un determinato set di dati.
Con l'addestramento personalizzato puoi creare un'applicazione di addestramento ottimizzata per i risultati desiderati. Hai il controllo completo sulle funzionalità dell'applicazione di addestramento, dai job a nodo singolo all'addestramento distribuito su più nodi. In particolare, puoi scegliere come target qualsiasi obiettivo, utilizzare qualsiasi algoritmo, sviluppare le tue funzioni di perdita o metriche oppure definire altre personalizzazioni.
Addestramento senza server di Colab Enterprise: si tratta di un approccio senza server in cui invii il job di addestramento e il provisioning, la gestione e il rilascio delle risorse di calcolo vengono eseguiti automaticamente. Google Cloud È ideale per la sperimentazione e per i job in cui non è necessaria una capacità garantita.
I cluster di addestramento di Colab Enterprise sono una funzionalità dell'addestramento personalizzato progettata per job di addestramento su larga scala e ad alte prestazioni. Ti consente di prenotare un cluster dedicato di risorse di calcolo potenti (come le GPU A100 o H100) per il tuo uso esclusivo, garantendo capacità e prestazioni per le attività di addestramento mission-critical e di lunga durata.
Con Ray su Agent Platform puoi utilizzare il framework di computing distribuito di Ray sull'infrastruttura. Google Cloud Ray su Agent Platform fornisce un ambiente gestito con risorse di calcolo configurabili, integrazione con servizi come Agent Platform Inference e BigQuery e opzioni di rete flessibili per lo sviluppo e l'esecuzione di workload distribuiti.
Utilizzando BigQuery, puoi addestrare i modelli utilizzando i dati di BigQuery direttamente in BigQuery. Utilizzando i comandi SQL, puoi creare rapidamente un modello e utilizzarlo per ottenere inferenze batch.
Per confrontare le diverse funzionalità e competenze richieste per ogni servizio, consulta la tabella seguente.
| AutoML | Addestramento senza server | Cluster di addestramento | Ray su BigQuery | BigQuery ML | |
|---|---|---|---|---|---|
| Sono richieste competenze di data science | No | Sì, per sviluppare l'applicazione di addestramento e gestire la preparazione dei dati. | Sì, per sviluppare l'applicazione di addestramento e gestire la preparazione dei dati. | È utile una conoscenza di base dei concetti di ML e dei flussi di lavoro dei dati. | No |
| Sono richieste conoscenze di programmazione | No, AutoML è senza codice. | Sì, per sviluppare l'applicazione di addestramento. | Sì, per sviluppare l'applicazione di addestramento. | Sì. | Sì. |
| Tempo per addestrare il modello | Minore. È necessaria una minore preparazione dei dati e non è richiesto alcuno sviluppo. | Maggiore. Comporta lo sviluppo del codice e il tempo di provisioning delle risorse on demand per ogni job. | Maggiore. Comporta lo sviluppo del codice, ma l'avvio del job è più rapido perché le risorse sono già riservate, eliminando le code e il tempo di provisioning. | Il tempo di addestramento dipende dalla logica del codice (preparazione e addestramento dei dati) e dal tempo di provisioning delle risorse. | Minore. Lo sviluppo del modello è rapido perché BigQuery ML sfrutta il motore di calcolo di BigQuery per l'addestramento, la valutazione e l'inferenza. |
| Esistono limitazioni degli obiettivi di machine learning | Sì. Devi scegliere come target uno degli obiettivi predefiniti di AutoML. | No | No | No | Sì |
| Le prestazioni del modello possono essere migliorate manualmente con l'ottimizzazione degli iperparametri | No, AutoML esegue alcune ottimizzazioni automatiche, ma non puoi modificare i valori. | Sì. Puoi ottimizzare il modello durante ogni sessione di addestramento per la sperimentazione e il confronto. | Sì. Puoi ottimizzare il modello durante ogni sessione di addestramento per la sperimentazione e il confronto. | Sì. Fornisci il codice di addestramento personalizzato, che ti consente di controllare completamente i valori degli iperparametri. | Sì. BigQuery ML supporta l'ottimizzazione degli iperparametri durante l'addestramento dei modelli. |
| Controllo degli aspetti dell'addestramento personalizzato | Limitato. Puoi specificare il budget per le ore di addestramento e attivare l'interruzione anticipata. | Sì. Specifichi il tipo di macchina Compute Engine, la dimensione del disco e l'immagine container per ogni job. | Sì. Hai il massimo controllo, riservando tipi di macchine ad alte prestazioni specifici (ad es. H100), configurazioni del disco e impostazioni della rete per il tuo uso esclusivo, garantendo la capacità. | Sì. Hai un controllo significativo, incluse immagini Docker personalizzate, tipi di macchine per nodi head e worker e il numero e il tipo di acceleratori (GPU). | No |
| Limiti delle dimensioni dei dati | Sì. I limiti delle dimensioni dei dati variano a seconda del tipo di set di dati. | No | No | No. Tuttavia, esiste una dimensione massima della risposta della query di 10 GB per le letture di BigQuery. | Sì. BigQuery ML applica le quote appropriate in base al singolo progetto. Per saperne di più, consulta Quote e limiti. |
Passaggi successivi
- Scegli un tutorial introduttivo per iniziare a utilizzare Vertex AI Training.
- Scopri di più sull'addestramento di un modello AutoML.
- Scopri di più sull' addestramento senza server di Colab Enterprise.
- Scopri di più sui cluster di addestramento di Colab Enterprise.
- Scopri di più su Ray su BigQuery.