Generazione autonoma di embedding

Questo documento descrive come utilizzare la generazione autonoma di incorporamenti per i tuoi dati, che consente a BigQuery di gestire una colonna di incorporamenti in una tabella in base a una colonna di origine. La colonna di origine deve avere un tipo di dati STRING o ObjectRef. Quando aggiungi o modifichi i dati nella colonna di origine, BigQuery genera o aggiorna automaticamente la colonna di embedding per questi dati utilizzando un modello di embedding di Agent Platform. Questa opzione è utile se vuoi che BigQuery mantenga gli incorporamenti quando i dati di origine vengono aggiornati regolarmente.

Gli incorporamenti sono utili per le moderne applicazioni di AI generativa come la Retrieval Augmented Generation (RAG), ma possono essere complessi da creare, gestire ed eseguire query. Puoi utilizzare la generazione autonoma di embedding per semplificare il processo di creazione, manutenzione ed esecuzione di query sugli embedding da utilizzare nelle ricerche di somiglianza e in altre applicazioni di AI generativa.

Ad esempio, puoi utilizzare query simili alla seguente per creare una tabella con la generazione di incorporamenti autonomi abilitata, inserire dati ed eseguire la ricerca semantica:

CREATE TABLE mydataset.products (
  name STRING,
  description STRING,
  description_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(description, connection_id => 'us.example_connection',
        endpoint => 'text-embedding-005')
      # Alternatively, you can use the syntax for a built-in model.
      # AI.EMBED(description, model => 'embeddinggemma-300m')
    ) STORED OPTIONS( asynchronous = TRUE ));

# Values in the description_embedding column are automatically generated.
INSERT INTO mydataset.products (name, description) VALUES
  ('Super slingers', 'An exciting board game for the whole family'), ...;

SELECT * FROM AI.SEARCH(TABLE mydataset.products, 'description', 'A really fun toy');

Prima di iniziare

Per abilitare la generazione autonoma di incorporamenti in una tabella, devi disporre delle autorizzazioni e della connessione necessarie e abilitare l'API Vertex AI per il tuo progetto.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per attivare la generazione autonoma di incorporamenti, chiedi all'amministratore di concederti i seguenti ruoli IAM:

  • Per utilizzare una risorsa di connessione: Utente BigQuery Connections (roles/bigquery.connectionUser) sulla connessione
  • Per creare o modificare una tabella: BigQuery Data Editor (roles/bigquery.dataEditor) nella tabella
  • Concedi al account di servizio della connessione il seguente ruolo in modo che possa accedere ai modelli ospitati negli endpoint di Agent Platform: Utente di Agent Platform (roles/aiplatform.user) nel progetto che contiene la connessione

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Crea una connessione e concedi l'autorizzazione a un account di servizio

Per attivare la generazione autonoma di embedding in una tabella, devi creare una connessione alle risorse Cloud. Poi, concedi il ruolo Utente piattaforma agente (roles/aiplatform.user) al account di servizio creato quando hai creato la connessione.

Creare una colonna di incorporamento generata automaticamente

Puoi creare una colonna di incorporamento generata automaticamente all'interno di una nuova tabella o aggiungerne una a una tabella esistente.

Crea una tabella con una colonna di incorporamento generata automaticamente

Puoi utilizzare la generazione autonoma di embedding per generare embedding utilizzando la funzione AI.EMBED in un'istruzione CREATE TABLE.

SQL

Utilizza un'istruzione CREATE TABLE per creare una tabella con una colonna di incorporamento generata automaticamente. Per creare la tabella:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, inserisci la seguente istruzione:

    CREATE TABLE DATASET_ID.TABLE (
      [COLUMN, ...]
      SOURCE_COL { STRING | ObjectRef },
      EMBEDDING_COL_NAME STRUCT<result ARRAY<FLOAT64>, status STRING>
        GENERATED ALWAYS AS (
          AI.EMBED(
            SOURCE_COL,
            {
              connection_id => CONNECTION_ID,
              endpoint => ENDPOINT |
              model => MODEL
            })
        )
        STORED OPTIONS (asynchronous = TRUE)
    );

    Sostituisci quanto segue:

    • DATASET_ID: il nome del set di dati in cui vuoi creare la tabella.
    • TABLE: il nome della tabella su cui creare la generazione di incorporamenti autonomi.
    • COLUMN, ...: eventuali colonne che la tabella deve contenere oltre alla colonna che vuoi incorporare automaticamente.
    • SOURCE_COL: il nome della colonna STRING o ObjectRef che vuoi incorporare automaticamente.
    • EMBEDDING_COL_NAME: il nome della colonna di incorporamento generata automaticamente.
    • CONNECTION_ID: un valore STRING che contiene il nome di una connessione da utilizzare, ad esempio my_project.us.example_connection. Devi concedere il ruolo Agent Platform User al account di servizio della connessione nel progetto in cui crei la tabella.
    • ENDPOINT: un valore STRING che specifica un endpoint del modello di text embedding di Agent Platform supportato da utilizzare per il modello di text embedding. Il valore dell'endpoint che specifichi deve includere la versione del modello, ad esempio text-embedding-005. Se specifichi il nome del modello anziché un URL, BigQuery ML identifica automaticamente il modello e utilizza l'endpoint completo del modello.
    • MODEL (anteprima): un valore STRING che specifica un modello di text embedding integrato. L'unico valore supportato è il modello embeddinggemma-300m. Se specifichi questo parametro, non puoi specificare i parametri endpoint o connection_id. Quando specifichi il parametro MODEL, i dati rimangono in BigQuery e gli slot vengono utilizzati per creare gli incorporamenti; nessun dato viene inviato ad Agent Platform e non vengono addebitati costi in Agent Platform.

  3. Fai clic su Esegui.

Per saperne di più su come eseguire le query, consulta Eseguire una query interattiva.

bq

Per creare una tabella con una colonna di incorporamento generata automaticamente utilizzando lo strumento a riga di comando bq, utilizza il comando bq mk con un file di schema JSON che definisce lo schema della tabella:

  1. Crea un file di schema JSON. L'esempio seguente mostra uno schema che crea una colonna di incorporamento basata su una colonna di origine. Questo esempio utilizza un endpoint Agent Platform per la generazione di embedding.

    [
      {
        "name": "SOURCE_COL",
        "type": "STRING"
      },
      {
        "fields": [
          {
            "mode": "REPEATED",
            "name": "result",
            "type": "FLOAT"
          },
          {
            "name": "status",
            "type": "STRING"
          }
        ],
        "generatedColumn": {
          "generationExpressionInfo": {
            "asynchronous": true,
            "generationExpression": "AI.EMBED(SOURCE_COL, connection_id => 'CONNECTION_ID', endpoint => 'ENDPOINT')",
            "stored": true
          },
          "generatedMode": "GENERATED_ALWAYS"
        },
        "name": "EMBEDDING_COL_NAME",
        "type": "RECORD"
      }
    ]
    

    Se utilizzi un modello integrato anziché un endpoint Agent Platform, utilizza una sintassi simile alla seguente per generationExpression:"AI.EMBED(SOURCE_COL, model => 'MODEL')"

    Per informazioni sui valori da utilizzare, consulta le descrizioni di SOURCE_COL, EMBEDDING_COL_NAME, CONNECTION_ID, ENDPOINT, e MODEL nella scheda SQL.

  2. Salva lo schema in un file, ad esempio schema.json.

  3. Crea la tabella utilizzando il comando bq mk --table:

    bq mk --table DATASET_ID.TABLE schema.json
    

Sostituisci quanto segue:

  • DATASET_ID: il nome del set di dati in cui vuoi creare la tabella.
  • TABLE: il nome della tabella su cui creare la generazione di incorporamenti autonomi.
  • COLUMN, ...: tutte le colonne che la tabella deve contenere oltre alla colonna che vuoi incorporare automaticamente.
  • STRING_COL: il nome della colonna STRING che vuoi incorporare automaticamente.
  • EMBEDDING_COL_NAME: Il nome della colonna di incorporamento generata automaticamente.
  • CONNECTION_ID: un valore STRING che contiene il nome di una connessione da utilizzare, ad esempio my_project.us.example_connection. Devi concedere il ruolo Utente della piattaforma agente al account di servizio della connessione nel progetto in cui crei la tabella.
  • ENDPOINT: un valore STRING che specifica un endpoint del modello di text embedding di Agent Platform supportato da utilizzare per il modello di text embedding. Il valore dell'endpoint che specifichi deve includere la versione del modello, ad esempio text-embedding-005. Se specifichi il nome del modello anziché un URL, BigQuery ML identifica automaticamente il modello e utilizza l'endpoint completo del modello.
  • MODEL (anteprima): un valore STRING che specifica un modello di text embedding integrato. L'unico valore supportato è il modello embeddinggemma-300m. Se specifichi questo parametro, non puoi specificare i parametri endpoint o connection_id.

    Quando specifichi il parametro MODEL, i dati rimangono in BigQuery e gli slot vengono utilizzati per creare gli incorporamenti; nessun dato viene inviato ad Agent Platform e non vengono addebitati costi in Agent Platform.

Aggiungere una colonna di incorporamento generata automaticamente a una tabella esistente

Puoi anche aggiungere una colonna di incorporamento generata automaticamente a una tabella esistente utilizzando un'istruzione ALTER TABLE ADD COLUMN.

SQL

Utilizza un'istruzione ALTER TABLE ADD COLUMN per aggiungere una colonna di incorporamento generata automaticamente a una tabella esistente. Per aggiungere la colonna, segui questi passaggi:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, inserisci la seguente istruzione:

    ALTER TABLE DATASET_ID.TABLE
      ADD COLUMN EMBEDDING_COL_NAME
        STRUCT<result ARRAY<FLOAT64>, status STRING>
        GENERATED ALWAYS AS (
          AI.EMBED(
            SOURCE_COL,
            {
              connection_id => CONNECTION_ID,
              endpoint => ENDPOINT |
              model => MODEL
            })
        )
        STORED OPTIONS (asynchronous = TRUE)
    ;

    Sostituisci quanto segue:

    • DATASET_ID: il nome del set di dati contenente la tabella.
    • TABLE: il nome della tabella a cui vuoi aggiungere la colonna di incorporamento generata automaticamente.
    • EMBEDDING_COL_NAME: il nome della colonna di incorporamento generata automaticamente.
    • SOURCE_COL: il nome della colonna STRING o ObjectRef che vuoi incorporare automaticamente.
    • CONNECTION_ID: un valore STRING che contiene il nome di una connessione da utilizzare, ad esempio my_project.us.example_connection.
    • ENDPOINT: un valore STRING che specifica un endpoint del modello di text embedding di Agent Platform supportato da utilizzare per il modello di text embedding.
    • MODEL (anteprima): un valore STRING che specifica un modello di text embedding integrato. L'unico valore supportato è il modello embeddinggemma-300m. Se specifichi questo parametro, non puoi specificare i parametri endpoint o connection_id. Quando specifichi il parametro MODEL, i dati rimangono in BigQuery e gli slot vengono utilizzati per creare gli incorporamenti; nessun dato viene inviato ad Agent Platform e non vengono addebitati costi in Agent Platform.

  3. Fai clic su Esegui.

Per saperne di più su come eseguire le query, consulta Eseguire una query interattiva.

bq

Per aggiungere una colonna di incorporamento generata automaticamente a una tabella esistente utilizzando lo strumento a riga di comando bq, utilizza il comando bq update con un file di schema JSON che definisce lo schema della tabella aggiornato:

  1. Recupera lo schema attuale della tabella e salvalo in un file come schema.json:
    bq show --schema --format=prettyjson DATASET_ID.TABLE > schema.json
    
  2. Modifica schema.json per aggiungere la definizione della nuova colonna di incorporamento generata automaticamente. L'esempio seguente mostra la definizione di una colonna di incorporamento basata su una colonna di origine. Questo esempio utilizza un endpoint Agent Platform per la generazione di embedding.

    [
      {
        "name": "SOURCE_COL",
        "type": "STRING"
      },
      {
        "fields": [
          {
            "mode": "REPEATED",
            "name": "result",
            "type": "FLOAT"
          },
          {
            "name": "status",
            "type": "STRING"
          }
        ],
        "generatedColumn": {
          "generationExpressionInfo": {
            "asynchronous": true,
            "generationExpression": "AI.EMBED(SOURCE_COL, connection_id => 'CONNECTION_ID', endpoint => 'ENDPOINT')",
            "stored": true
          },
          "generatedMode": "GENERATED_ALWAYS"
        },
        "name": "EMBEDDING_COL_NAME",
        "type": "RECORD"
      }
    ]
    

    Se utilizzi un modello integrato anziché un endpoint Agent Platform, utilizza una sintassi simile alla seguente per generationExpression:"AI.EMBED(SOURCE_COL, model => 'MODEL')"

    Per informazioni sui valori da utilizzare, consulta le descrizioni di SOURCE_COL, EMBEDDING_COL_NAME, CONNECTION_ID, ENDPOINT, e MODEL nella scheda SQL.

  3. Aggiorna la tabella utilizzando il comando bq update --table:

    bq update --table DATASET_ID.TABLE schema.json
    

    Sostituisci quanto segue:

    • DATASET_ID: il nome del set di dati contenente la tabella.
    • TABLE: il nome della tabella a cui vuoi aggiungere la colonna di incorporamento generata automaticamente.

Il job di generazione degli embedding in background inizia poco dopo la creazione o la modifica della tabella oppure dopo l'aggiornamento dei dati nella colonna di origine.

Per monitorare l'avanzamento della generazione degli incorporamenti, puoi utilizzare una query simile alla seguente:

SELECT
  COUNT(*) AS total_num_rows,
  COUNTIF(description_embedding IS NOT NULL
          AND description_embedding.status = '') AS total_num_generated_embeddings
FROM
  PROJECT_ID.DATASET_ID.TABLE;

Dopo aver creato la tabella con gli incorporamenti, puoi creare un indice vettoriale nella colonna STRUCT che contiene l'incorporamento generato automaticamente.

Esempio

Supponiamo che tu sia un grande rivenditore che vende molti prodotti diversi. Hai una tabella di nomi e descrizioni dei prodotti e vuoi aiutare i tuoi clienti a trovare i prodotti che stanno cercando. Le seguenti query mostrano come configurare la generazione autonoma di embedding per facilitare la ricerca semantica delle descrizioni dei prodotti.

Innanzitutto, crea un set di dati:

CREATE SCHEMA mydataset;

Successivamente, crea una tabella con la generazione di incorporamenti autonomi abilitata per contenere le informazioni sul prodotto. La colonna generata automaticamente si chiama description_embedding ed è basata sulla colonna description.

# Create a table of products and descriptions with a generated embedding column.
CREATE TABLE mydataset.products (
  name STRING,
  description STRING,
  description_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(description, connection_id => 'us.example_connection',
        endpoint => 'text-embedding-005')
      # Alternatively, you can use the syntax for a built-in model.
      # AI.EMBED(description, model => 'embeddinggemma-300m')
    ) STORED OPTIONS( asynchronous = TRUE )
);

La seguente query inserisce alcuni nomi e descrizioni di prodotti nella tabella. Non specificare un valore per description_embedding perché viene generato automaticamente.

# Insert product descriptions into the table.
# The description_embedding column is automatically updated.
INSERT INTO mydataset.products (name, description) VALUES
  ("Lounger chair", "A comfortable chair for relaxing in."),
  ("Super slingers", "An exciting board game for the whole family."),
  ("Encyclopedia set", "A collection of informational books.");

Se vuoi, puoi creare un indice vettoriale nella tabella per velocizzare la ricerca. Un indice vettoriale richiede più di tre righe, quindi la query seguente presuppone che tu abbia inserito dati aggiuntivi. Ogni volta che inserisci i dati, la colonna description_embedding viene aggiornata automaticamente.

CREATE VECTOR INDEX my_index
ON mydataset.products(description_embedding)
OPTIONS(index_type = 'IVF');

Infine, puoi utilizzare la funzione AI.SEARCH per eseguire la ricerca semantica sui tuoi prodotti per un giocattolo divertente:

# Search for products that are fun to play with.
SELECT base.name, base.description, distance
FROM AI.SEARCH(TABLE mydataset.products, 'description', "A really fun toy");

/*------------------+----------------------------------------------+----------------------+
 | name             | description                                  | distance             |
 +------------------+----------------------------------------------+----------------------+
 | Super slingers   | An exciting board game for the whole family. | 0.80954913893618929  |
 | Lounger chair    | A comfortable chair for relaxing in.         | 0.938933930620146    |
 | Encyclopedia set | A collection of informational books.         | 1.1119297739353384   |
 +------------------+----------------------------------------------+----------------------*/

Incorporamenti generati da ObjectRef colonne

Puoi aggiungere colonne di incorporamento generate per una colonna ObjectRef in una tabella.

L'esempio seguente mostra come creare una tabella con una colonna ObjectRef e poi aggiungere una colonna di incorporamento generata per quella colonna:

# Create a table with ObjectRef columns.
CREATE TABLE mydataset.images AS
SELECT
  REGEXP_EXTRACT(ref.uri, r'.*/(.*).jpg$') AS name,
  ref
FROM mydataset.object_table;

# Add a generated embedding column for the ObjectRef column.
ALTER TABLE mydataset.images
ADD COLUMN image_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
GENERATED ALWAYS AS (
  AI.EMBED(
    ref,
    connection_id => "us.my_connection",
    endpoint => "multimodalembedding@001")
)
STORED OPTIONS (asynchronous = true);

Visualizzare informazioni sulle colonne di incorporamento generate automaticamente

Per verificare che una colonna sia una colonna di incorporamento generata automaticamente, esegui una query sulla vista INFORMATION_SCHEMA.COLUMNS.

La seguente query mostra informazioni su tutte le colonne di incorporamento generate automaticamente:

SELECT *
FROM PROJECT_ID.DATASET_ID.INFORMATION_SCHEMA.COLUMNS
WHERE is_generated = 'ALWAYS';

Il campo generation_expression mostra la chiamata alla funzione AI.EMBED utilizzata per generare gli incorporamenti nella colonna.

Utilizzare la propria prenotazione

Per impostazione predefinita, BigQuery utilizza gli slot on demand per gestire l'elaborazione necessaria per mantenere la colonna di incorporamento generata. Per garantire prestazioni prevedibili e coerenti, puoi facoltativamente creare una prenotazione e impostare job_type su BACKGROUND. Quando è presente una prenotazione in background, BigQuery la utilizza per gestire la colonna di incorporamento generata.

Quote

Quando utilizzi un endpoint Agent Platform per la generazione di embedding specificando il parametro endpoint nella funzione AI.EMBED, BigQuery invia richieste ad Agent Platform per generare gli embedding. Queste richieste sono soggette alle quote per Agent Platform. La quota per le richieste al minuto per il modello di embedding influisce direttamente sul throughput dei job di generazione di embedding in background. Se la generazione di embedding è lenta, richiedi un limite di quota più elevato per Agent Platform seguendo le istruzioni riportate in Richiedere una quota più alta. Se specifichi il parametro model nella funzione AI.EMBED, gli incorporamenti vengono generati in BigQuery e non vengono inviate richieste ad Agent Platform, pertanto le quote di Agent Platform non vengono applicate.

Risoluzione dei problemi

La colonna dell'incorporamento generato contiene due campi: result e status. Se si verifica un errore quando BigQuery tenta di generare un embedding per una determinata riga della tabella, il campo result è NULL e il campo status descrive l'errore. Ad esempio, se la colonna di origine è NULL, anche l'incorporamento result è NULL e lo stato è NULL value is not supported for embedding generation.

Un errore più grave può bloccare la generazione dell'embedding. In questo caso, puoi interrogare la colonna async_generation_status nella visualizzazione INFORMATION_SCHEMA.COLUMNS per identificare l'errore di blocco.

Gli errori di blocco possono includere quelli che seguono:

  • Errori di autorizzazione negata
  • Errori non trovati
  • Errori relativi all'endpoint del modello di incorporamento non supportato
  • Errori relativi all'API Vertex AI non abilitata

Una volta completato il successivo job di generazione degli incorporamenti, la colonna async_generation_status viene cancellata.

La seguente query mostra come verificare la presenza di errori di blocco:

SELECT
  column_name,
  async_generation_status
FROM
  mydataset.INFORMATION_SCHEMA.COLUMNS
WHERE
  table_name = 'images';

Se la colonna image_embedding presenta un errore bloccante, il risultato è simile al seguente:

[
  {
    "column_name": "image_embedding",
    "async_generation_status": {
      "blocking_error": {
        "message": "<service_account> does not have the permission to access resources used by AI.EMBED. Please follow https://cloud.google.com/bigquery/docs/permissions-for-ai-functions to set up permissions.",
        ...
      }
    }
  }
]

Puoi anche eseguire query sulla visualizzazione INFORMATION_SCHEMA.JOBS per il job in background e visualizzare le informazioni nel campo error_result. L'ID job di un job di incorporamento in background ha il prefisso gc_. Ad esempio, la seguente query estrae tutti i job in background il cui risultato di errore non è NULL:

SELECT * FROM `region-REGION.INFORMATION_SCHEMA.JOBS` j
WHERE EXISTS (
  SELECT 1
  FROM unnest(j.referenced_tables) t
  WHERE
    j.project_id = 'PROJECT_ID'
    AND t.dataset_id = 'DATASET_ID'
    AND t.table_id = 'TABLE'
)
AND starts_with(job_id, 'gc')
AND error_result IS NOT NULL
ORDER BY j.creation_time DESC;

Monitorare i costi

I costi per la generazione autonoma di embedding rientrano nelle seguenti categorie.

Costi DML in background di BigQuery

Gli incorporamenti generati vengono scritti nella tabella utilizzando job DML in background. Per impostazione predefinita, BigQuery utilizza gli slot on demand per gestire questi job. Il progetto della tabella viene fatturato in base al modello di fatturazione on demand DML.

In alternativa, per garantire prestazioni prevedibili e coerenti, puoi creare una prenotazione e impostare job_type su BACKGROUND. Quando è presente una prenotazione in background, BigQuery la utilizza per eseguire i job DML in background. Inoltre, la prenotazione in background verrà fatturata per l'utilizzo del tempo dello slot da parte dei job DML in background.

Costi di Gemini Enterprise Agent Platform

La generazione autonoma di incorporamenti invia richieste a Gemini Enterprise Agent Platform, il che può comportare dei costi. Per monitorare i costi di Agent Platform sostenuti dai job di incorporamento in background, segui questi passaggi:

  1. Visualizza i report sulla fatturazione in fatturazione Cloudg.
  2. Utilizza i filtri per perfezionare i risultati.

    Per i servizi, seleziona Vertex AI.

  3. Per visualizzare gli addebiti per un job specifico, filtra per etichetta.

    Imposta la chiave su bigquery_ml_job e il valore sull'ID job del job di incorporamento. Tutti i job di incorporamento in background hanno il prefisso gc_.

Potrebbero essere necessarie fino a 24 ore prima che alcuni addebiti vengano visualizzati in fatturazione Cloud.

Limitazioni

  • Ogni tabella supporta al massimo una colonna di incorporamento generata automaticamente.
  • Le operazioni DML simultanee possono causare ritardi ed errori temporanei nella generazione di incorporamenti. Per migliorare le prestazioni e ridurre i costi, ti consigliamo di inserire i dati in batch ed evitare aggiornamenti DML frequenti.
  • Se utilizzi l'API di streaming legacy per importare i dati, potrebbero verificarsi alcuni ritardi prima dell'inizio della generazione degli incorporamenti.
  • Quando utilizzi l'API BigQuery Storage Write, i job di generazione di incorporamenti in background potrebbero non riuscire se è in esecuzione contemporaneamente un job di scrittura in streaming. In questo caso, la quota di Agent Platform e i costi DML in background vengono sprecati. L'utilizzo dell'API Storage Write causa anche job di generazione di incorporamenti simultanei sulla tabella, ma questo viene gestito da BigQuery e non vengono sprecati quota della piattaforma dell'agente o costi DML in background.
  • Per una velocità effettiva più elevata sugli endpoint remoti di Agent Platform, consigliamo di utilizzare modelli di text embedding anziché modelli Gemini. Per ulteriori informazioni, consulta la sezione Quote.
  • Non è presente alcuna indicazione che una colonna venga generata automaticamente quando visualizzi lo schema di una tabella utilizzando la console Google Cloud o il campo ddl della visualizzazione INFORMATION_SCHEMA.TABLES.
  • Se crei una copia, un clone o uno snapshot di una tabella con una colonna di incorporamento generata, vengono copiati solo i dati. La configurazione di generazione non viene applicata alla nuova tabella e gli aggiornamenti alla colonna di origine della nuova tabella non generano nuovi incorporamenti.
  • Se ripristini da uno snapshot una tabella per cui era attivata la generazione di incorporamenti autonomi, la configurazione della generazione di incorporamenti non viene ripristinata.
  • Quando utilizzi l'API BigQuery, puoi specificare solo la proprietà generatedColumn quando crei una nuova colonna. Non puoi aggiungere, aggiornare o rimuovere la proprietà generatedColumn in una colonna esistente.
  • Dopo aver creato la colonna degli incorporamenti generati, si applicano le seguenti limitazioni:

    • Non puoi eliminare o rinominare la colonna di origine, ma puoi comunque eliminare o rinominare la colonna di incorporamento generata. Se elimini la colonna di incorporamento, puoi eliminare o rinominare la colonna di origine.
    • Non puoi modificare il tipo di dati della colonna di origine o della colonna di incorporamento generata.
  • Non puoi specificare valori predefiniti per le colonne di incorporamento generate automaticamente.

  • Non puoi scrivere direttamente nelle colonne di incorporamento generate utilizzando questi metodi:

    • DML
    • Operazioni di scrittura in streaming
    • bq insert
    • bq load
    • bq copy -a
  • Le tabelle con colonne di incorporamento generate non supportano policy di sicurezza a livello di colonna, come i tag di policy.

  • Quando chiami una funzione di ricerca, ad esempio VECTOR_SEARCH o AI.SEARCH, le righe con incorporamenti mancanti nella tabella di base vengono ignorate durante la ricerca.

  • Non puoi creare un indice vettoriale partizionato in una tabella in cui è attivata la generazione di incorporamenti autonomi.

  • Se crei un indice vettoriale sulla colonna di embedding generata automaticamente, l'addestramento dell'indice inizia dopo che almeno l'80% delle righe ha generato embedding. Per controllare l'avanzamento della generazione degli incorporamenti:

    Esegui una query sulla percentuale di incorporamenti generati nella tabella:

    SELECT
      COUNTIF(description_embedding IS NOT NULL
      AND description_embedding.status = '') * 100.0 / COUNT(*) AS percent
    FROM PROJECT_ID.DATASET_ID.TABLE;
    

Passaggi successivi