Questo documento fornisce una panoramica della pipeline e dei componenti di AutoML end-to-end . Per scoprire come addestrare un modello con AutoML end-to-end, consulta Addestrare un modello con AutoML end-to-end.
Il flusso di lavoro tabulare per AutoML end-to-end è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all' API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Anziché avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Assemblaggio dei modelli
- Distillazione del modello
Vantaggi
Di seguito sono elencati alcuni dei vantaggi del flusso di lavoro tabulare per AutoML end-to-end :
- Supporta set di dati di grandi dimensioni , di più TB e con un massimo di 1000 colonne.
- Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Ti consente di ridurre le dimensioni del modello e migliorare la latenza con la distillazione o modificando le dimensioni dell'assemblaggio.
- Ogni componente AutoML può essere ispezionato in una potente interfaccia grafica delle pipeline che ti consente di visualizzare le tabelle dei dati trasformati, le architetture dei modelli valutati e molti altri dettagli.
- Ogni componente AutoML offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.
AutoML end-to-end su pipeline della piattaforma agentica Gemini Enterprise
Il flusso di lavoro tabulare per AutoML end-to-end è un'istanza gestita delle pipeline di Gemini Enterprise Agent Platform.
Gemini Enterprise Agent Platform Pipelines è un servizio serverless che esegue le pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue una parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il workflow della pipeline come un grafo diretto aciclico.
Panoramica della pipeline e dei componenti
Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per AutoML end-to-end :
I componenti della pipeline sono:
- split-materialized-data:
Suddividi i dati materializzati in un set di addestramento, un set di valutazione e un test set.
Input:
- Dati materializzati
materialized_data.
Output:
- Suddivisione dell'addestramento materializzato
materialized_train_split. - Suddivisione della valutazione materializzata
materialized_eval_split. - Test set materializzato
materialized_test_split.
- Dati materializzati
- merge-materialized-splits : unisce la suddivisione della valutazione materializzata e la suddivisione dell'addestramento materializzato.
automl-tabular-stage-1-tuner : esegue la ricerca dell'architettura del modello e ottimizza gli iperparametri.
- Un'architettura è definita da un insieme di iperparametri.
- Gli iperparametri includono il tipo di modello e i parametri del modello.
- I tipi di modelli considerati sono le reti neurali e gli alberi potenziati.
- Il sistema addestra un modello per ogni architettura considerata.
automl-tabular-cv-trainer : esegue la convalida incrociata delle architetture addestrando i modelli su diverse suddivisioni dei dati di input.
- Le architetture considerate sono quelle che danno i risultati migliori nel passaggio precedente.
- Il sistema seleziona circa dieci architetture migliori. Il numero esatto è definito dal budget di addestramento.
automl-tabular-ensemble : assembla le architetture migliori per produrre un modello finale.
- Il seguente diagramma illustra la convalida incrociata K-fold con bagging:
condition-is-distill : facoltativo. Crea una versione più piccola del modello di assemblaggio.
- Un modello più piccolo riduce la latenza e il costo dell'inferenza.
automl-tabular-infra-validator : verifica se il modello addestrato è valido.
model-upload : carica il modello.
condition-is-evaluation : facoltativo. Utilizza il test set per calcolare le metriche di valutazione.