Workflow tabulare per AutoML end-to-end

Questo documento fornisce una panoramica della pipeline e dei componenti di AutoML end-to-end . Per scoprire come addestrare un modello con AutoML end-to-end, consulta Addestrare un modello con AutoML end-to-end.

Il flusso di lavoro tabulare per AutoML end-to-end è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all' API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Anziché avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Assemblaggio dei modelli
  • Distillazione del modello

Vantaggi

Di seguito sono elencati alcuni dei vantaggi del flusso di lavoro tabulare per AutoML end-to-end :

  • Supporta set di dati di grandi dimensioni , di più TB e con un massimo di 1000 colonne.
  • Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Ti consente di ridurre le dimensioni del modello e migliorare la latenza con la distillazione o modificando le dimensioni dell'assemblaggio.
  • Ogni componente AutoML può essere ispezionato in una potente interfaccia grafica delle pipeline che ti consente di visualizzare le tabelle dei dati trasformati, le architetture dei modelli valutati e molti altri dettagli.
  • Ogni componente AutoML offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.

AutoML end-to-end su pipeline della piattaforma agentica Gemini Enterprise

Il flusso di lavoro tabulare per AutoML end-to-end è un'istanza gestita delle pipeline di Gemini Enterprise Agent Platform.

Gemini Enterprise Agent Platform Pipelines è un servizio serverless che esegue le pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue una parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il workflow della pipeline come un grafo diretto aciclico.

Panoramica della pipeline e dei componenti

Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per AutoML end-to-end :

Pipeline per AutoML Tables end-to-end 

I componenti della pipeline sono:

  1. split-materialized-data: Suddividi i dati materializzati in un set di addestramento, un set di valutazione e un test set.

    Input:

    • Dati materializzati materialized_data.

    Output:

    • Suddivisione dell'addestramento materializzato materialized_train_split.
    • Suddivisione della valutazione materializzata materialized_eval_split.
    • Test set materializzato materialized_test_split.
  2. merge-materialized-splits : unisce la suddivisione della valutazione materializzata e la suddivisione dell'addestramento materializzato.
  3. automl-tabular-stage-1-tuner : esegue la ricerca dell'architettura del modello e ottimizza gli iperparametri.

    • Un'architettura è definita da un insieme di iperparametri.
    • Gli iperparametri includono il tipo di modello e i parametri del modello.
    • I tipi di modelli considerati sono le reti neurali e gli alberi potenziati.
    • Il sistema addestra un modello per ogni architettura considerata.
  4. automl-tabular-cv-trainer : esegue la convalida incrociata delle architetture addestrando i modelli su diverse suddivisioni dei dati di input.

    • Le architetture considerate sono quelle che danno i risultati migliori nel passaggio precedente.
    • Il sistema seleziona circa dieci architetture migliori. Il numero esatto è definito dal budget di addestramento.
  5. automl-tabular-ensemble : assembla le architetture migliori per produrre un modello finale.

    • Il seguente diagramma illustra la convalida incrociata K-fold con bagging:

    bagging ensemble 

  6. condition-is-distill : facoltativo. Crea una versione più piccola del modello di assemblaggio.

    • Un modello più piccolo riduce la latenza e il costo dell'inferenza.
  7. automl-tabular-infra-validator : verifica se il modello addestrato è valido.

  8. model-upload : carica il modello.

  9. condition-is-evaluation : facoltativo. Utilizza il test set per calcolare le metriche di valutazione.

Passaggi successivi