Flusso di lavoro tabulare per la previsione

Questo documento fornisce una panoramica della pipeline e dei componenti del flusso di lavoro tabulare per la previsione. Per scoprire come addestrare un modello, consulta Addestra un modello con il flusso di lavoro tabulare per la previsione.

Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Combinazione di modelli

Vantaggi

Di seguito sono riportati alcuni vantaggi del flusso di lavoro tabulare per la previsione:

  • Supporta set di dati di grandi dimensioni fino a 1 TB e con un massimo di 200 colonne.
  • Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'ensemble.
  • Ogni componente può essere esaminato in una potente interfaccia grafica delle pipeline che consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri e hardware, visualizzare lo stato del processo, i log e altro ancora.

Previsione nelle pipeline di Gemini Enterprise Agent Platform

Il workflow tabellare per la previsione è un'istanza gestita di Gemini Enterprise Agent Platform Pipelines.

Gemini Enterprise Agent Platform Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue una parte del workflow della pipeline. Ad esempio, una pipeline può includere passaggi per dividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il workflow della pipeline come un grafo diretto aciclico.

Panoramica della pipeline e dei componenti

Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per la previsione:

Pipeline per la previsione 

I componenti della pipeline sono:

  1. training-configurator-and-validator: convalida la configurazione dell'addestramento e genera i metadati di addestramento.

    Input:

    • instance_schema: schema dell'istanza nella specifica OpenAPI, che descrive i tipi di dati dei dati di inferenza.
    • dataset_stats: statistiche che descrivono il set di dati non elaborato. Ad esempio, dataset_stats indica il numero di righe nel set di dati.
    • training_schema: Schema dei dati di addestramento nella specifica OpenAPI, che descrive i tipi di dati dei dati di addestramento.
  2. split-materialized-data: suddivide i dati materializzati in un set di addestramento, un set di valutazione e un set di test.

    Input:

    • materialized_data: Dati materializzati.

    Output:

    • materialized_train_split: suddivisione materializzata dell'allenamento.
    • materialized_eval_split: suddivisione della valutazione materializzata.
    • materialized_test_split: Set di test materializzato.
  3. calculate-training-parameters-2: calcola la durata prevista del runtime per automl-forecasting-stage-1-tuner.

  4. get-hyperparameter-tuning-results - Facoltativo: se configuri la pipeline in modo da ignorare la ricerca dell'architettura, carica i risultati dell'ottimizzazione degli iperparametri da un'esecuzione precedente della pipeline.

  5. Esegui la ricerca dell'architettura del modello e ottimizza gli iperparametri (automl-forecasting-stage-1-tuner) o utilizza i risultati dell'ottimizzazione degli iperparametri di un'esecuzione della pipeline precedente (automl-forecasting-stage-2-tuner).

    • Un'architettura è definita da un insieme di iperparametri.
    • Gli iperparametri includono il tipo di modello e i parametri del modello.
    • I tipi di modelli considerati sono le reti neurali e gli alberi potenziati.
    • Viene addestrato un modello per ogni architettura considerata.

    Input:

    • materialized_train_split: suddivisione materializzata dell'allenamento.
    • materialized_eval_split: suddivisione della valutazione materializzata.
    • artifact: risultati dell'ottimizzazione degli iperparametri di un'esecuzione precedente della pipeline. Questo artefatto è un input solo se configuri la pipeline in modo da ignorare la ricerca dell'architettura.

    Output:

    • tuning_result_output: Output dell'ottimizzazione.
  6. get-prediction-image-uri-2: genera l'URI dell'immagine di inferenza corretta in base al tipo di modello.

  7. automl-forecasting-ensemble-2: combina le migliori architetture per produrre un modello finale.

    Input:

    • tuning_result_output: Output dell'ottimizzazione.

    Output:

    • unmanaged_container_model: Modello di output.
  8. model-upload-2: carica il modello.

    Input:

    • unmanaged_container_model: Modello di output.

    Output:

    • model: modello Agent Platform.
  9. should_run_model_evaluation - Facoltativo: utilizza il test set per calcolare le metriche di valutazione.

Passaggi successivi