Prima di poter iniziare a pubblicare le funzionalità online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle funzionalità in BigQuery, nel seguente modo:
Crea una tabella o una vista BigQuery utilizzando i dati delle funzionalità. Per caricare i dati delle funzionalità in una tabella o una vista BigQuery, puoi creare un set di dati BigQuery utilizzando i dati, creare una tabella BigQuery e poi caricare i dati delle funzionalità dal set di dati nella tabella.
Dopo aver caricato i dati delle funzionalità nella tabella o nella vista BigQuery, devi rendere disponibile questa origine dati a Vertex AI Feature Store per la pubblicazione online. Esistono due modi per connettere l'origine dati alle risorse di pubblicazione online, come negozi online e istanze di visualizzazione delle caratteristiche:
Registra l'origine dati creando caratteristiche e gruppi di caratteristiche:puoi associare caratteristiche e gruppi di caratteristiche alle istanze di visualizzazione delle caratteristiche nel tuo negozio online. Puoi formattare i dati in uno dei seguenti modi:
Formatta i dati come una serie temporale includendo una colonna di timestamp delle funzionalità. Vertex AI Feature Store pubblica solo i valori delle caratteristiche più recenti per ogni ID entità univoco, in base al timestamp della caratteristica in questa colonna.
Formatta i dati senza includere colonne con timestamp delle funzionalità. Vertex AI Feature Store gestisce i timestamp e pubblica solo i valori delle caratteristiche più recenti per ogni ID entità univoco.
Per informazioni su come creare gruppi di funzionalità, vedi Creare un gruppo di funzionalità. Per informazioni su come creare funzionalità all'interno di un gruppo di funzionalità, vedi Creare una funzionalità.
Pubblica direttamente le caratteristiche dall'origine dati senza creare gruppi di caratteristiche e caratteristiche: puoi specificare l'URI dell'origine dati nella vista delle caratteristiche. Tieni presente che in questo scenario non puoi formattare i dati come serie temporali o includere dati storici nell'origine BigQuery. Ogni riga deve contenere gli ultimi valori delle caratteristiche corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.
Poiché Vertex AI Feature Store ti consente di gestire i dati delle funzionalità in BigQuery e di pubblicare le funzionalità dall'origine dati BigQuery, non è necessario importare o copiare le funzionalità in un archivio offline.
Linee guida per la preparazione delle origini dati
Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:
Includi le seguenti colonne nell'origine dati:
Colonne ID entità: l'origine dati deve avere almeno una colonna ID entità con valori
stringoint. Il nome predefinito di questa colonna èentity_id. Se vuoi, puoi utilizzare un nome diverso per questa colonna. Le dimensioni di ogni valore in questa colonna devono essere inferiori a 4 KB.Tieni presente che puoi anche designare un record di funzionalità costruendo l'ID entità utilizzando le funzionalità di più colonne. In questo scenario, puoi includere più colonne ID entità nell'origine dati. Il nome di ogni colonna dell'ID entità deve essere univoco. Se registri l'origine dati creando gruppi di caratteristiche, imposta le colonne ID entità per ogni gruppo di caratteristiche. In caso contrario, se associ direttamente l'origine dati a una vista delle caratteristiche, configura le viste delle caratteristiche per specificare le colonne ID entità.
Tieni presente che puoi includere più colonne ID in un'origine dati. In questo scenario, il nome di ogni colonna ID entità deve essere univoco. Puoi configurare i gruppi di funzionalità o le visualizzazioni delle funzionalità per creare l'ID entità utilizzando i valori di ogni colonna per un record di funzionalità.
Colonna timestamp della caratteristica: facoltativa. Se registri l'origine dati utilizzando gruppi di caratteristiche e caratteristiche e devi formattare i dati come serie temporale, includi una colonna di timestamp delle caratteristiche. La colonna del timestamp contiene valori di tipo
timestamp. Il nome predefinito della colonna del timestamp èfeature_timestamp. Se vuoi utilizzare un nome di colonna diverso, utilizza il parametrotime_seriesper impostare la colonna del timestamp per il gruppo di funzionalità.Se non specifichi una colonna timestamp per formattare i dati come serie temporali, Vertex AI Feature Store gestisce i timestamp per le funzionalità e fornisce i valori delle funzionalità più recenti.
Se associ direttamente un'origine dati BigQuery a una vista delle funzionalità, la colonna
feature_timestampnon è obbligatoria. In questo scenario, devi includere solo i valori delle caratteristiche più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.Incorporamento e filtro delle colonne: facoltativo. Se vuoi utilizzare la gestione dell'incorporamento in un negozio online creato per la pubblicazione online ottimizzata (ritirata), l'origine dati deve contenere le seguenti colonne:
Una colonna
embeddingcontenente array di tipofloat.(Facoltativo) Una o più colonne di filtro di tipo array
stringostring.(Facoltativo) Una colonna di affollamento di tipo
int.
Ogni riga nell'origine dati è un record completo di valori delle funzionalità associati a un ID entità. Se un valore della funzionalità è mancante in una delle colonne, viene considerato un valore nullo.
Ogni colonna della tabella o della vista BigQuery rappresenta una funzionalità. Fornisci i valori per ogni funzionalità in una colonna separata. Se associ l'origine dati a un gruppo di caratteristiche e a caratteristiche, associa ogni colonna a una caratteristica separata.
I tipi di dati supportati per i valori delle funzionalità includono
bool,int,float,string,timestamp, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle caratteristiche di tipotimestampvengono convertiti inint64.L'origine dati deve trovarsi nella stessa regione dell'istanza del negozio online o in una regione multipla che include o si sovrappone alla regione del negozio online. Ad esempio, se il negozio online si trova in
us-central, l'origine BigQuery potrebbe trovarsi inus-centraloUS.Sincronizza i dati in una vista delle caratteristiche prima della pubblicazione online per assicurarti di pubblicare solo i valori delle caratteristiche più recenti. Se utilizzi la sincronizzazione pianificata dei dati, potresti dover sincronizzare manualmente i dati nella visualizzazione della funzionalità. Tuttavia, se utilizzi la sincronizzazione continua dei dati con la pubblicazione online ottimizzata, non devi sincronizzare manualmente i dati.
Passaggi successivi
Scopri come creare gruppi di funzionalità e funzionalità.
Scopri come creare una visualizzazione delle funzionalità.
Tipi di servizio online in Vertex AI Feature Store.