Gestisci gli errori di quota chiamando ML.GENERATE_EMBEDDING in modo iterativo
Questo tutorial mostra come utilizzare la stored procedure pubblica bqutil.procedure.bqml_generate_embeddings di BigQuery per scorrere le chiamate alla funzione ML.GENERATE_EMBEDDING.
La chiamata iterativa della funzione consente di risolvere eventuali errori ripetibili che si verificano a causa del superamento delle quote e dei limiti che si applicano alla funzione.
Per esaminare il codice sorgente della procedura archiviata bqutil.procedure.bqml_generate_embeddings
in GitHub, consulta
bqml_generate_embeddings.sqlx.
Per ulteriori informazioni sui parametri e sull'utilizzo della stored procedure, consulta il
file README.
Questo tutorial ti guiderà attraverso le seguenti attività:
- Creazione di un modello remoto su un modello
text-embedding-005. - Iterando le chiamate alla funzione
ML.GENERATE_EMBEDDING, utilizzando il modello remoto e la tabella di dati pubblicibigquery-public-data.bbc_news.fulltextcon la stored procedurebqutil.procedure.bqml_generate_embeddings.
Autorizzazioni obbligatorie
Per eseguire questo tutorial, devi disporre dei seguenti ruoli Identity and Access Management (IAM):
- Crea e utilizza set di dati, connessioni e modelli BigQuery:
Amministratore BigQuery (
roles/bigquery.admin). - Concedi le autorizzazioni al account di servizio della connessione: Project IAM Admin
(
roles/resourcemanager.projectIamAdmin).
Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire le attività descritte in questo documento. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
- Crea un set di dati:
bigquery.datasets.create - Crea, delega e utilizza una connessione:
bigquery.connections.* - Imposta la connessione predefinita:
bigquery.config.* - Imposta le autorizzazioni del account di servizio:
resourcemanager.projects.getIamPolicyeresourcemanager.projects.setIamPolicy - Crea un modello ed esegui l'inferenza:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateDatabigquery.models.updateMetadata
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Vertex AI: You incur costs for calls to the Vertex AI model.
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Per ulteriori informazioni sui prezzi di BigQuery, vedi Prezzi di BigQuery.
Per saperne di più sui prezzi di Vertex AI, consulta la pagina Prezzi di Vertex AI.
Prima di iniziare
-
Nella console Google Cloud , nella pagina di selezione del progetto, seleziona o crea un progetto Google Cloud .
Ruoli richiesti per selezionare o creare un progetto
- Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico. Puoi selezionare qualsiasi progetto per il quale ti è stato concesso un ruolo.
-
Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto
(
roles/resourcemanager.projectCreator), che contiene l'autorizzazioneresourcemanager.projects.create. Scopri come concedere i ruoli.
-
Verifica che la fatturazione sia abilitata per il tuo progetto Google Cloud .
-
Abilita le API BigQuery, BigQuery Connection e Vertex AI.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (
roles/serviceusage.serviceUsageAdmin), che include l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.
Crea un set di dati
Crea un set di dati BigQuery per archiviare i modelli e i dati di esempio:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su Visualizza azioni > Crea set di dati.
Nella pagina Crea set di dati, segui questi passaggi:
In ID set di dati, inserisci
target_dataset.Per Tipo di località, seleziona Multi-regione e poi Stati Uniti (più regioni negli Stati Uniti).
Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.
Crea il modello di generazione di text embedding
Crea un modello remoto che rappresenti un modello text-embedding-005 Vertex AI ospitato:
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione:
CREATE OR REPLACE MODEL `target_dataset.embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS (ENDPOINT = 'text-embedding-005');
Il completamento della query richiede diversi secondi, dopodiché il modello
embeddingviene visualizzato nel set di datisamplenel riquadro Spazio di esplorazione. Poiché la query utilizza un'istruzioneCREATE MODELper creare un modello, non sono presenti risultati della query.
Esegui la stored procedure
Esegui la stored procedure bqutil.procedure.bqml_generate_embeddings, che
itera le chiamate alla funzione ML.GENERATE_EMBEDDING
utilizzando il modello target_dataset.embedding_model e la
tabella di dati pubblici bigquery-public-data.bbc_news.fulltext:
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione:
CALL `bqutil.procedure.bqml_generate_embeddings`( "bigquery-public-data.bbc_news.fulltext", -- source table "PROJECT_ID.target_dataset.news_body_embeddings", -- destination table "PROJECT_ID.target_dataset.embedding_model", -- model "body", -- content column ["filename"], -- key columns '{}' -- optional arguments encoded as a JSON string );
Sostituisci
PROJECT_IDcon l'ID progetto del progetto che utilizzi per questo tutorial.La stored procedure crea una tabella
target_dataset.news_body_embeddingsper contenere l'output della funzioneML.GENERATE_EMBEDDING.Al termine dell'esecuzione della query, verifica che non ci siano righe nella tabella
target_dataset.news_body_embeddingsche contengano un errore che può essere riprovato. Nell'editor di query, esegui la seguente istruzione:SELECT * FROM `target_dataset.news_body_embeddings` WHERE ml_generate_embedding_status LIKE '%A retryable error occurred%';
La query restituisce il messaggio
No data to display.
Esegui la pulizia
- Nella console Google Cloud , vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.