Tabular Workflows è un insieme di pipeline integrate, completamente gestite e scalabili per il machine learning end-to-end con dati tabulari. Sfrutta la tecnologia di Google per lo sviluppo di modelli e ti offre opzioni di personalizzazione per soddisfare le tue esigenze.
Vantaggi
- Completamente gestito: non devi preoccuparti di aggiornamenti, dipendenze e conflitti.
- Facile da scalare: non devi riprogettare l'infrastruttura man mano che i carichi di lavoro o i set di dati aumentano.
- Ottimizzato per le prestazioni: l'hardware giusto viene configurato automaticamente per i requisiti del flusso di lavoro.
- Profondamente integrato: la compatibilità con i prodotti della suite MLOps di Gemini Enterprise Agent Platform, come Gemini Enterprise Agent Platform Pipelines e Vertex AI Experiments, ti consente di eseguire molti esperimenti in un breve periodo di tempo.
Panoramica tecnica
Ogni flusso di lavoro è un'istanza gestita di Gemini Enterprise Agent Platform Pipelines.
Gemini Enterprise Agent Platform Pipelines è un servizio serverless che esegue le pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue una parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il workflow della pipeline come un grafo diretto aciclico.
Inizia
Nella maggior parte dei casi, definisci ed esegui la pipeline utilizzando l' Google Cloud SDK dei componenti della pipeline. Il seguente codice campione illustra questo processo. Tieni presente che l'implementazione effettiva del codice potrebbe essere diversa.
// Define the pipeline and the parameters
template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
…
optimization_objective=optimization_objective,
data_source=data_source,
target_column_name=target_column_name
…)
// Run the pipeline
job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
job.run(...)
Per i notebook e i colab di esempio, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.
Controllo delle versioni e manutenzione
Tabular Workflows ha un sistema di controllo delle versioni efficace che consente aggiornamenti e miglioramenti continui senza modifiche che causano interruzioni alle applicazioni.
Ogni flusso di lavoro viene rilasciato e aggiornato nell'ambito dell' Google Cloud SDK dei componenti della pipeline. Gli aggiornamenti e le modifiche a qualsiasi flusso di lavoro vengono rilasciati come nuove versioni di quel flusso di lavoro. Le versioni precedenti di ogni flusso di lavoro sono sempre disponibili tramite le versioni precedenti dell'SDK. Se la versione dell'SDK è bloccata, anche la versione del flusso di lavoro è bloccata.
Flussi di lavoro disponibili
Agent Platform fornisce i seguenti flussi di lavoro tabulari:
| Nome | Tipo | Disponibilità |
|---|---|---|
| Feature Transform Engine | Feature Engineering | Anteprima pubblica |
| AutoML end-to-end | Classificazione e regressione | In disponibilità generale |
| Previsione | Previsione | Anteprima pubblica |
Per ulteriori informazioni e notebook di esempio, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.
Feature Transform Engine
Feature Transform Engine esegue la selezione e le trasformazioni delle caratteristiche. Se la selezione delle caratteristiche è abilitata, Feature Transform Engine crea un insieme classificato di caratteristiche importanti. Se le trasformazioni delle caratteristiche sono abilitate, Feature Transform Engine elabora le caratteristiche per garantire che l'input per l'addestramento e l'erogazione del modello sia coerente. Feature Transform Engine può essere utilizzato da solo o insieme a uno qualsiasi de i flussi di lavoro di addestramento tabulare. Supporta sia i framework TensorFlow che quelli non TensorFlow.
Per saperne di più, consulta Feature engineering.
Flussi di lavoro tabulari per la classificazione e la regressione
Flusso di lavoro tabulare per AutoML end-to-end
Il flusso di lavoro tabulare per AutoML end-to-end è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all' API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Anziché avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Ensembling del modello
- Distillazione del modello
Vantaggi
- Supporta set di dati di grandi dimensioni , di più TB e con un massimo di 1000 colonne.
- Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Ti consente di ridurre le dimensioni del modello e migliorare la latenza con la distillazione o modificando le dimensioni dell'ensemble.
- Ogni componente AutoML può essere ispezionato in un'interfaccia grafica di pipeline potente che ti consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente AutoML offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.
Input-Output
- Accetta come input una tabella BigQuery o un file CSV da Cloud Storage.
- Produce un modello Agent Platform come output.
- Gli output intermedi includono statistiche e suddivisioni dei set di dati.
Per saperne di più, consulta Flusso di lavoro tabulare per AutoML end-to-end.
Flussi di lavoro tabulari per la previsione
Flusso di lavoro tabulare per la previsione
Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all' API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Anziché avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Ensembling del modello
Vantaggi
- Supporta set di dati di grandi dimensioni , fino a 1 TB e con un massimo di 200 colonne.
- Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Ti consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'ensemble.
- Ogni componente può essere ispezionato in un'interfaccia grafica di pipeline potente che ti consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.
Input-Output
- Accetta come input una tabella BigQuery o un file CSV da Cloud Storage.
- Produce un modello Agent Platform come output.
- Gli output intermedi includono statistiche e suddivisioni dei set di dati.
Per saperne di più, consulta Flusso di lavoro tabulare per la previsione.
Passaggi successivi
- Scopri di più sul flusso di lavoro tabulare per AutoML end-to-end.
- Scopri di più sul flusso di lavoro tabulare per la previsione.
- Scopri di più sui prezzi dei flussi di lavoro tabulari.
