Informazioni su Vertex AI Feature Store

Vertex AI Feature Store è un servizio di feature store gestito e nativo del cloud che è parte integrante di Vertex AI. Semplifica la gestione delle funzionalità di ML e i processi di pubblicazione online consentendoti di gestire i dati delle caratteristiche in una tabella o vista BigQuery. Puoi quindi pubblicare le funzionalità online direttamente dall'origine dati BigQuery.

Vertex AI Feature Store esegue il provisioning delle risorse che ti consentono di configurare l'erogazione online specificando le origini dati delle caratteristiche. Funge quindi da livello di metadati che interagisce con le origini dati BigQuery e fornisce i valori delle funzionalità più recenti direttamente da BigQuery per le previsioni online a bassa latenza.

In Vertex AI Feature Store, le tabelle o le viste BigQuery contenenti i dati delle caratteristiche formano collettivamente l'archivio offline. Puoi mantenere i valori delle caratteristiche, inclusi i dati storici, nell'archivio offline. Poiché tutti i dati delle funzionalità vengono gestiti in BigQuery, Vertex AI Feature Store non deve eseguire il provisioning di un archivio offline separato all'interno di Vertex AI. Inoltre, se vuoi utilizzare i dati nel negozio offline per addestrare i modelli ML, puoi utilizzare le API e le funzionalità di BigQuery per esportare o recuperare i dati.

Il flusso di lavoro per configurare e avviare l'erogazione online utilizzando Vertex AI Feature Store può essere riepilogato come segue:

  1. Prepara l'origine dati in BigQuery.

  2. (Facoltativo) Registra le origini dati creando caratteristiche e gruppi di caratteristiche.

  3. Configura l'archiviazione online e le risorse delle viste delle caratteristiche per connettere le origini dati delle caratteristiche con i cluster dell'erogazione online.

  4. Eroga i valori delle caratteristiche più aggiornati da una vista dedicata.

Modello dei dati e risorse di Vertex AI Feature Store

Questa sezione descrive i modelli di dati e le risorse associati ai seguenti aspetti di Vertex AI Feature Store:

Preparazione dell'origine dati in BigQuery

Durante la distribuzione online, Vertex AI Feature Store utilizza i dati delle funzionalità delle origini dati BigQuery. Prima di configurare il registro di caratteristiche o le risorse di pubblicazione online, devi archiviare i dati delle caratteristiche in una o più tabelle o viste BigQuery.

All'interno di una tabella o una vista BigQuery, ogni colonna rappresenta una funzionalità. Ogni riga contiene i valori delle funzionalità corrispondenti a un ID univoco. Per ulteriori informazioni su come preparare i dati delle funzionalità in BigQuery, consulta Prepara l'origine dati.

Ad esempio, nella figura 1, la tabella BigQuery include le seguenti colonne:

  • f1 e f2: colonne delle caratteristiche.

  • entity_id: una colonna ID contenente gli ID univoci per identificare ogni record della funzionalità.

  • feature_timestamp: una colonna timestamp.

Una visualizzazione delle funzionalità contenente le funzionalità f1 e f2 in un formato di serie temporale.
Figura 1. Esempio di origine dati BigQuery.

Poiché prepari l'origine dati in BigQuery e non in Vertex AI, in questa fase non devi creare risorse Vertex AI.

Configurazione del registro di caratteristiche

Dopo aver preparato le origini dati in BigQuery, puoi registrarle, incluse colonne di funzionalità specifiche, nel Feature Registry.

La registrazione delle funzionalità è facoltativa. Puoi pubblicare le funzionalità online anche se non aggiungi le origini dati BigQuery al registro delle funzionalità. Tuttavia, la registrazione delle funzionalità è vantaggiosa nei seguenti scenari:

  • I tuoi dati contengono più istanze dello stesso ID entità e devi prepararli in un formato di serie temporale con una colonna timestamp. Quando registri le caratteristiche, Vertex AI Feature Store cerca il timestamp e pubblica solo i valori delle caratteristiche più recenti.

  • Vuoi registrare colonne di caratteristiche specifiche da un'origine dati.

  • Vuoi aggregare colonne specifiche da più origini dati per definire un'istanza di visualizzazione delle funzionalità.

  • Vuoi monitorare le statistiche delle caratteristiche e rilevare la deviazione delle caratteristiche.

Esistono due tipi di risorse Vertex AI Feature Store nel Feature Registry:

Risorse del registro di caratteristiche per i dati delle caratteristiche

Per registrare i dati delle caratteristiche nel registro delle caratteristiche, devi creare le seguenti risorse Vertex AI Feature Store:

  • Gruppo di caratteristiche (FeatureGroup): una risorsa FeatureGroup è associata a una tabella o vista di origine BigQuery specifica. Rappresenta un raggruppamento logico di colonne di caratteristiche, rappresentate da risorse Feature. Un gruppo di funzionalità contiene anche una o più colonne di ID entità per identificare i record delle funzionalità. Se i dati delle funzionalità sono in formato di serie temporale, il gruppo di funzionalità deve contenere anche una colonna di timestamp. Per informazioni su come creare un gruppo di funzionalità, vedi Creare un gruppo di funzionalità.

  • Funzionalità (Feature): Una risorsa Feature rappresenta una colonna specifica contenente i valori delle funzionalità dell'origine dati delle funzionalità associata alla risorsa FeatureGroup padre. Per informazioni su come creare funzionalità all'interno di un gruppo di funzionalità, vedi Creare una funzionalità.

Ad esempio, la figura 2 mostra un gruppo di caratteristiche che include le colonne delle caratteristiche f1 e f2, provenienti da una tabella BigQuery associata al gruppo di caratteristiche. L'origine dati BigQuery contiene quattro colonne di caratteristiche. Due colonne vengono aggregate per formare il gruppo di caratteristiche. Il gruppo di funzionalità contiene anche una colonna ID entità e una colonna timestamp delle funzionalità.

Un gruppo di funzionalità contenente le funzionalità f1 e f2 nel formato delle serie temporali.
Figura 2. Esempio di un FeatureGroup contenente due colonne Feature provenienti da un'origine dati BigQuery.

Risorse del registro di caratteristiche per il monitoraggio delle caratteristiche

Le risorse di monitoraggio delle caratteristiche consentono di monitorare i dati delle caratteristiche registrati utilizzando le risorse FeatureGroupe Feature. Puoi creare le seguenti risorse relative al monitoraggio delle funzionalità:

  • Monitoraggio delle caratteristiche (FeatureMonitor): una risorsa FeatureMonitor è associata a una risorsa FeatureGroup e a una o più funzionalità all'interno di quel gruppo di funzionalità. Specifica la pianificazione del monitoraggio. Puoi creare più risorse di monitoraggio delle funzionalità per configurare pianificazioni di monitoraggio diverse per lo stesso insieme di funzionalità all'interno di un gruppo di funzionalità. Ad esempio, se le funzionalità f1 e f2 vengono aggiornate ogni ora, ma le funzionalità f3 e f4 vengono aggiornate ogni giorno, puoi creare due risorse di monitoraggio delle funzionalità per monitorare in modo efficiente queste funzionalità:

    • Monitoraggio delle caratteristiche fm1 che esegue un job di monitoraggio ogni ora sulle caratteristiche f1 e f2.

    • Monitoraggio delle funzionalità fm2 che esegue un job di monitoraggio ogni giorno sulle funzionalità f3 e f4.

  • Job di monitoraggio delle funzionalità (FeatureMonitorJob): Una risorsa FeatureMonitorJobcontiene le statistiche e le informazioni sulle funzionalità recuperate quando viene eseguito un job di monitoraggio delle funzionalità. Può anche contenere informazioni su anomalie, come la deviazione delle caratteristiche, rilevate nei dati delle caratteristiche.

Per saperne di più su come creare risorse di monitoraggio delle funzionalità, consulta Monitorare le funzionalità per rilevare anomalie.

Configurazione della pubblicazione online

Per pubblicare caratteristiche per le previsioni online, devi definire e configurare almeno un cluster di pubblicazione online e associarlo all'origine dati delle caratteristiche o alle risorse del Feature Registry. In Vertex AI Feature Store, il cluster di pubblicazione online è chiamato istanza negozio online. Un'istanza di archivio online può contenere più istanze di vista delle caratteristiche, dove ogni vista delle caratteristiche è associata a un'origine dati delle caratteristiche.

Risorse di pubblicazione online

Per configurare l'erogazione online, devi creare le seguenti risorse Vertex AI Feature Store:

  • Negozio online (FeatureOnlineStore): Una risorsa FeatureOnlineStore rappresenta un'istanza di cluster di erogazione online e contiene la configurazione dell'erogazione online, ad esempio il numero di nodi di erogazione online. Un'istanza dell'archivio online non specifica l'origine dei dati delle caratteristiche, ma contiene risorse FeatureView che specificano le origini dei dati delle caratteristiche in BigQuery o nel registro delle caratteristiche. Per informazioni su come creare un'istanza di negozio online, consulta Creare un'istanza di negozio online.

  • Visualizzazione delle caratteristiche (FeatureView): una risorsa FeatureView è una raccolta logica di caratteristiche in un'istanza di negozio online. Quando crei una visualizzazione delle funzionalità, puoi specificare la posizione dell'origine dati delle funzionalità in uno dei seguenti modi:

    • Associa uno o più gruppi di caratteristiche e caratteristiche dal Feature Registry. Un gruppo di funzionalità specifica la posizione dell'origine dati BigQuery. Una caratteristica all'interno del gruppo di caratteristiche punta a una colonna di caratteristiche specifica all'interno di quell'origine dati.

    • In alternativa, associa una tabella o una vista di origine BigQuery.

    Per informazioni su come creare istanze di visualizzazione delle funzionalità all'interno di un negozio online, consulta Creare una visualizzazione delle funzionalità.

Ad esempio, la figura 3 mostra una vista delle caratteristiche composta dalle colonne delle caratteristiche f2 e f4, che provengono da due gruppi di caratteristiche separati associati a una tabella BigQuery.

Una vista delle caratteristiche contenente le caratteristiche f2 e f4 provenienti da due gruppi di caratteristiche.
Figura 3. Esempio di un FeatureView contenente funzionalità di due gruppi di funzionalità separati.

Distribuzione online

Vertex AI Feature Store fornisce i seguenti tipi di pubblicazione online per le previsioni online in tempo reale:

  • L'erogazione online di Bigtable è utile per l'erogazione di grandi volumi di dati (terabyte di dati). È simile alla distribuzione online in Vertex AI Feature Store (legacy) e offre una memorizzazione nella cache migliorata. La distribuzione online tramite Bigtable non supporta gli incorporamenti. Se devi pubblicare grandi volumi di dati che vengono aggiornati di frequente e non devi pubblicare incorporamenti, utilizza la pubblicazione online di Bigtable.

  • La pubblicazione online ottimizzata (ritirata) consente di pubblicare online le funzionalità con latenze bassissime. La distribuzione online ottimizzata supporta anche la gestione degli incorporamenti.

    Per utilizzare la pubblicazione online ottimizzata, devi configurare un endpoint pubblico o un endpoint Private Service Connect dedicato.

Per scoprire come configurare la pubblicazione online in Vertex AI Feature Store dopo aver configurato le funzionalità, consulta Tipi di pubblicazione online.

Servizio offline per previsioni batch o addestramento del modello

Poiché non devi copiare o importare i dati delle funzionalità da BigQuery in un archivio offline separato in Vertex AI, puoi utilizzare le funzionalità di gestione ed esportazione dei dati di BigQuery per:

Per ulteriori informazioni sul machine learning con BigQuery, consulta Introduzione a BigQuery ML.

Termini di Vertex AI Feature Store

feature engineering
  • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche che possono essere utilizzate per addestrare modelli ML o per fare inferenze.

funzionalità
  • Nel machine learning (ML), una funzionalità è una caratteristica o un attributo di un'istanza o di un'entità che viene utilizzato come input per addestrare un modello di ML o per fare inferenze.

valore della caratteristica
  • Un valore della caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o di un'entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record delle caratteristiche corrispondente all'entità.

timestamp della funzionalità
  • Un timestamp della caratteristica indica quando è stato generato l'insieme di valori della caratteristica in un record di caratteristiche specifico per un'entità.

record di funzionalità
  • Un record di caratteristiche è un'aggregazione di tutti i valori delle caratteristiche che descrivono gli attributi di un'entità univoca in un momento specifico.

Termini relativi al Registro di caratteristiche

registro di caratteristiche
  • Un registro delle caratteristiche è un'interfaccia centrale per registrare le origini dati delle caratteristiche che vuoi utilizzare per le inferenze online. Per saperne di più, consulta la sezione Configurazione di Feature Registry.

feature group
  • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche e può essere considerata come un raggruppamento logico di colonne delle caratteristiche nell'origine dati.

esportazione delle caratteristiche
  • La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di distribuzione delle funzionalità: online e offline. La pubblicazione online recupera i valori delle caratteristiche più recenti di un sottoinsieme dell'origine dei dati delle caratteristiche per le inferenze online. L'erogazione offline o in batch esporta grandi volumi di dati delle funzionalità, inclusi i dati storici, per l'elaborazione offline, ad esempio l'addestramento del modello ML.

offline store
  • Lo store offline è una struttura di archiviazione che memorizza dati delle funzionalità recenti e storici, in genere utilizzati per l'addestramento di modelli di ML. Un archivio offline contiene anche i valori delle caratteristiche più recenti, che puoi utilizzare per le inferenze online.

negozio online
  • Nella gestione delle caratteristiche, un archivio online è una struttura di archiviazione per i valori delle caratteristiche più recenti da utilizzare per le inferenze online.

visualizzazione delle funzionalità
  • Una visualizzazione delle caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di negozio online. Una vista delle funzionalità archivia e aggiorna periodicamente i dati delle funzionalità del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche è associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.

Vincoli di località

Tutte le risorse di Vertex AI Feature Store devono trovarsi nella stessa regione o nella stessa località multiregionale dell'origine dati BigQuery. Ad esempio, se l'origine dati delle funzionalità si trova in us-central1, devi creare l'istanza FeatureOnlineStore solo in us-central1 o nella multi-regione US.

Metadati delle funzionalità

Vertex AI Feature Store è integrato con Dataplex Universal Catalog per fornire funzionalità di governance delle caratteristiche, inclusi i metadati delle caratteristiche. Le istanze dell'archivio online, le viste delle caratteristiche e i gruppi di caratteristiche vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità che cataloga i metadati di queste risorse. Puoi quindi utilizzare la funzionalità di ricerca dei metadati di Dataplex Universal Catalog per cercare, visualizzare e gestire i metadati di queste risorse. Per ulteriori informazioni sulla ricerca di risorse Vertex AI Feature Store, consulta Cercare metadati delle risorse in Data Catalog.

Etichette delle funzionalità

Puoi aggiungere etichette alle risorse durante o dopo la creazione. Per saperne di più sull'aggiunta di etichette alle risorse Vertex AI Feature Store esistenti, consulta Aggiornare le etichette.

Metadati della versione della risorsa

Vertex AI Feature Store supporta solo la versione 0 per le caratteristiche.

Monitoraggio caratteristiche

Vertex AI Feature Store ti consente di configurare il monitoraggio delle caratteristiche per recuperare le statistiche delle caratteristiche e rilevare anomalie nei dati delle caratteristiche. Puoi configurare pianificazioni di monitoraggio per eseguire periodicamente i job di monitoraggio oppure eseguire manualmente un job di monitoraggio. Per saperne di più sulla configurazione del monitoraggio delle funzionalità e sull'esecuzione dei job di monitoraggio delle funzionalità, vedi Monitorare le funzionalità per rilevare anomalie.

Gestione dell'embedding e recupero vettoriale

Il servizio online ottimizzato in Vertex AI Feature Store supporta la gestione degli incorporamenti. Puoi archiviare gli incorporamenti in BigQuery come array double regolari. Utilizzando le funzionalità di gestione degli incorporamenti di Vertex AI Feature Store, puoi eseguire ricerche di similarità vettoriale per recuperare le entità che sono i vicini più prossimi approssimati per un'entità o un valore di incorporamento specificato.

Per utilizzare la gestione degli incorporamenti in Vertex AI Feature Store, devi:

Per informazioni su come eseguire una ricerca di somiglianza vettoriale in Vertex AI Feature Store, consulta Eseguire una ricerca vettoriale per le entità.

Conservazione dei dati

Vertex AI Feature Store conserva i valori delle caratteristiche più recenti per un ID univoco, in base al timestamp associato ai valori delle caratteristiche nell'origine dati. Non esiste un limite di conservazione dei dati nel negozio online.

Poiché l'archivio offline viene sottoposto a provisioning da BigQuery, i limiti o le quote di conservazione dei dati di BigQuery potrebbero essere applicati all'origine dati delle funzionalità, inclusi i valori storici delle funzionalità. Scopri di più su quote e limiti in BigQuery.

Quote e limiti

Vertex AI Feature Store applica quote e limiti per aiutarti a gestire le risorse impostando limiti di utilizzo e per proteggere la community di utentiGoogle Cloud da picchi di utilizzo imprevisti. Per utilizzare in modo efficiente le risorse di Vertex AI Feature Store senza superare questi vincoli, consulta le quote e i limiti di Vertex AI Feature Store.

Prezzi

Per informazioni sui prezzi di utilizzo delle risorse per Vertex AI Feature Store, consulta la pagina Prezzi di Vertex AI Feature Store.

Tutorial su Notebook

Utilizza i seguenti esempi e tutorial per scoprire di più su Vertex AI Feature Store.

Servizio e recupero online delle funzionalità dei dati BigQuery con il servizio online Bigtable di Vertex AI Feature Store

In questo tutorial, imparerai a utilizzare Bigtable online serving in Vertex AI Feature Store per l'utilizzo e il recupero online dei valori delle funzionalità in BigQuery.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Servizio di funzionalità online e recupero dei dati BigQuery con il servizio online ottimizzato di Vertex AI Feature Store

In questo tutorial imparerai a utilizzare Optimized online serving in Vertex AI Feature Store per la gestione e il recupero dei valori delle funzionalità da BigQuery.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Servizio di funzionalità online e recupero di vettori dei dati BigQuery con Vertex AI Feature Store

In questo tutorial, imparerai a utilizzare Vertex AI Feature Store per la gestione online e il recupero di vettori di valori delle funzionalità in BigQuery.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Service Agents di Vertex AI Feature Store feature view

In questo tutorial imparerai ad attivare gli agenti di servizio della visualizzazione delle funzionalità e a concedere a ciascuna visualizzazione delle funzionalità l'accesso ai dati di origine specifici utilizzati.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Tutorial sull'ancoraggio di LLM basato su Vertex AI Feature Store

In questo tutorial, imparerai a dividere i dati forniti dall'utente in blocchi e poi a generare vettori di incorporamento per ogni blocco utilizzando un modello linguistico di grandi dimensioni (LLM) con funzionalità di generazione di incorporamenti. Il set di dati vettoriali di incorporamento risultante può quindi essere caricato in Vertex AI Feature Store, consentendo un rapido recupero delle funzionalità e un efficiente servizio online.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Crea un'applicazione RAG di AI generativa con Vertex AI Feature Store e BigQuery

In questo tutorial, imparerai a creare un sistema di ricerca vettoriale a bassa latenza per la tua applicazione di AI generativa utilizzando la ricerca vettoriale di BigQuery e Vertex AI Feature Store.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Configura il criterio IAM in Vertex AI Feature Store

In questo tutorial, imparerai a configurare un criterio IAM per controllare l'accesso alle risorse e ai dati archiviati in Vertex AI Feature Store.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub

Passaggi successivi