Prima di poter iniziare a pubblicare le caratteristiche online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle caratteristiche in BigQuery, come segue:
Crea una tabella o una vista BigQuery utilizzando i dati delle caratteristiche. Per caricare i dati delle caratteristiche in una tabella o vista BigQuery, puoi creare un set di dati BigQuery utilizzando i dati, creare una tabella BigQuery e poi caricare i dati delle caratteristiche dal set di dati nella tabella.
Dopo aver caricato i dati delle caratteristiche nella tabella o vista BigQuery, devi rendere questa origine dati disponibile per Vertex AI Feature Store per la pubblicazione online. Esistono due modi per connettere l'origine dati alle risorse di erogazione online, come gli archivi online e le istanze di visualizzazione delle caratteristiche:
Registra l'origine dati creando gruppi di caratteristiche e caratteristiche:puoi associare gruppi di caratteristiche e caratteristiche alle istanze di visualizzazione delle caratteristiche nel tuo negozio online. Puoi formattare i dati in uno dei seguenti modi:
Formatta i dati come una serie temporale includendo una colonna di timestamp delle caratteristiche. Vertex AI Feature Store pubblica solo i valori delle caratteristiche più recenti per ogni ID entità univoco, in base al timestamp delle caratteristiche in questa colonna.
Formatta i dati senza includere una colonna di timestamp delle caratteristiche. Vertex AI Feature Store gestisce i timestamp e pubblica solo i valori delle caratteristiche più recenti per ogni ID entità univoco.
Per informazioni su come creare gruppi di caratteristiche, vedi Creare un gruppo di caratteristiche. Per informazioni su come creare caratteristiche all'interno di un gruppo di caratteristiche, vedi Creare una caratteristica.
Pubblica direttamente le caratteristiche dall'origine dati senza creare gruppi di caratteristiche e caratteristiche:puoi specificare l'URI dell'origine dati nella visualizzazione delle caratteristiche. Tieni presente che in questo scenario non puoi formattare i dati come una serie temporale o includere i dati storici nell'origine BigQuery. Ogni riga deve contenere i valori delle caratteristiche più recenti corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.
Poiché Vertex AI Feature Store ti consente di gestire i dati delle caratteristiche in BigQuery e di pubblicare le caratteristiche dall'origine dati BigQuery, non è necessario importare o copiare le caratteristiche in un archivio offline.
Linee guida per la preparazione dell'origine dati
Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:
Includi le seguenti colonne nell'origine dati:
Colonne ID entità: l'origine dati deve avere almeno una colonna ID entità con valori
stringoint. Il nome predefinito per questa colonna èentity_id. Puoi anche utilizzare un nome diverso per questa colonna. La dimensione di ogni valore in questa colonna deve essere inferiore a 4 KB.Tieni presente che puoi anche designare un record di caratteristiche costruendo l'ID entità utilizzando le caratteristiche di più colonne. In questo scenario, puoi includere più colonne ID entità nell'origine dati. Il nome di ogni colonna ID entità deve essere univoco. Se registri l'origine dati creando gruppi di caratteristiche, imposta le colonne ID entità per ogni gruppo di caratteristiche. In caso contrario, se associ direttamente l'origine dati a una visualizzazione delle caratteristiche, configura le visualizzazioni delle caratteristiche per specificare le colonne ID entità.
Tieni presente che puoi includere più colonne ID in un'origine dati. In questo scenario, il nome di ogni colonna ID entità deve essere univoco. Puoi configurare i gruppi di caratteristiche o le visualizzazioni delle caratteristiche per costruire l'ID entità utilizzando i valori di ogni colonna per un record di caratteristiche.
Colonna di timestamp delle caratteristiche: facoltativa. Se registri l'origine dati utilizzando gruppi di caratteristiche e caratteristiche e devi formattare i dati come una serie temporale, includi una colonna di timestamp delle caratteristiche. La colonna di timestamp contiene valori di tipo
timestamp. Il nome predefinito per la colonna di timestamp èfeature_timestamp. Se vuoi utilizzare un nome di colonna diverso, utilizza il parametrotime_seriesper impostare la colonna di timestamp per il gruppo di caratteristiche.Se non specifichi una colonna di timestamp per formattare i dati come una serie temporale, Vertex AI Feature Store gestisce i timestamp delle caratteristiche e pubblica i valori delle caratteristiche più recenti.
Se associ direttamente un'origine dati BigQuery a una visualizzazione delle caratteristiche, la colonna
feature_timestampnon è obbligatoria. In questo scenario, devi includere solo i valori delle caratteristiche più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.Colonne di incorporamento e filtro: facoltative. Se vuoi utilizzare la gestione degli incorporamenti in un negozio online creato per l'erogazione online ottimizzata (deprecata), l'origine dati deve contenere le seguenti colonne:
Una colonna
embeddingcontenente array di tipofloat.(Facoltativo) Una o più colonne di filtro di tipo
stringo arraystring.(Facoltativo) Una colonna di affollamento di tipo
int.
Ogni riga dell'origine dati è un record completo di valori delle caratteristiche associati a un ID entità. Se manca un valore di caratteristica in una delle colonne, viene considerato un valore null.
Ogni colonna della tabella o vista BigQuery rappresenta una caratteristica. Fornisci i valori per ogni caratteristica in una colonna separata. Se associ l'origine dati a un gruppo di caratteristiche e a caratteristiche, associa ogni colonna a una caratteristica separata.
I tipi di dati supportati per i valori delle caratteristiche includono
bool,int,float,string,timestamp, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle caratteristiche di tipotimestampvengono convertiti inint64.L'origine dati deve trovarsi nella stessa regione dell'istanza del negozio online o in una multiregione che include o si sovrappone alla regione del negozio online. Ad esempio, se il negozio online si trova in
us-central, l'origine BigQuery potrebbe trovarsi inus-centraloUS.Sincronizza i dati in una visualizzazione delle caratteristiche prima dell'erogazione online per assicurarti di erogare solo i valori delle caratteristiche più recenti. Se utilizzi la sincronizzazione dei dati pianificata, potresti dover sincronizzare manualmente i dati nella visualizzazione delle caratteristiche. Tuttavia, se utilizzi la sincronizzazione continua dei dati con l'erogazione online ottimizzata, non devi sincronizzare manualmente i dati.
Passaggi successivi
Scopri come creare gruppi di caratteristiche e caratteristiche.
Scopri come creare una visualizzazione delle caratteristiche.
Tipi di erogazione online in Vertex AI Feature Store.