Genera text embedding utilizzando un modello aperto e la funzione AI.GENERATE_EMBEDDING
Questo tutorial mostra come creare un
modello remoto
basato sul
modello di text embedding open source Qwen3-Embedding-0.6B,
e come utilizzare questo modello con la
AI.GENERATE_EMBEDDING funzione
per incorporare le recensioni dei film dalla bigquery-public-data.imdb.reviews tabella pubblica.
Autorizzazioni obbligatorie
Per eseguire questo tutorial, devi disporre dei seguenti ruoli Identity and Access Management (IAM):
- Crea e utilizza set di dati, connessioni e modelli BigQuery: Amministratore BigQuery (
roles/bigquery.admin). - Concedi autorizzazioni al account di servizio della connessione: Amministratore IAM progetto (
roles/resourcemanager.projectIamAdmin). - Esegui il deployment e annulla il deployment dei modelli in Vertex AI: Amministratore Vertex AI (
roles/aiplatform.admin).
Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire le attività descritte in questo documento. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
- Crea un set di dati:
bigquery.datasets.create - Crea, delega e utilizza una connessione:
bigquery.connections.* - Imposta la connessione predefinita:
bigquery.config.* - Imposta le autorizzazioni del account di servizio:
resourcemanager.projects.getIamPolicyeresourcemanager.projects.setIamPolicy - Esegui il deployment e annulla il deployment di un modello Vertex AI:
aiplatform.endpoints.deployaiplatform.endpoints.undeploy
- Crea un modello ed esegui l'inferenza:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateDatabigquery.models.updateMetadata
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Vertex AI: You incur costs for calls to the Vertex AI model that's represented by the remote model.
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Per ulteriori informazioni sui prezzi di BigQuery, consulta la pagina Prezzi di BigQuery nella documentazione di BigQuery.
I modelli aperti di cui esegui il deployment su Vertex AI vengono addebitati per ora di macchina. Ciò significa che la fatturazione inizia non appena l'endpoint è completamente configurato e continua fino a quando non annulli il deployment. Per ulteriori informazioni sui prezzi di Vertex AI, consulta la pagina Prezzi di Vertex AI.
Prima di iniziare
-
Nella Google Cloud console, nella pagina di selezione del progetto, seleziona o crea un Google Cloud progetto.
Ruoli richiesti per selezionare o creare un progetto
- Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico: puoi selezionare qualsiasi progetto su cui ti è stato concesso un ruolo.
-
Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto
(
roles/resourcemanager.projectCreator), che contiene l'resourcemanager.projects.createautorizzazione. Scopri come concedere i ruoli.
-
Verifica che la fatturazione sia abilitata per il tuo Google Cloud progetto.
-
Abilita le API BigQuery, BigQuery Connection e Vertex AI.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Service Usage Admin (
roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.
Crea un set di dati
Crea un set di dati BigQuery per archiviare il tuo modello ML.
Console
Nella Google Cloud console, vai alla pagina BigQuery.
Nel riquadro Spazio di esplorazione, fai clic sul nome del progetto.
Fai clic su Visualizza azioni > Crea set di dati
Nella pagina Crea set di dati, segui questi passaggi:
In ID set di dati, inserisci
bqml_tutorial.Per Tipo di località, seleziona Multi-regione e poi seleziona Stati Uniti.
Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.
bq
Per creare un nuovo set di dati, utilizza il
bq mk --dataset comando.
Crea un set di dati denominato
bqml_tutorialcon la località dei dati impostata suUS.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Verifica che il set di dati sia stato creato:
bq ls
API
Chiama il datasets.insert
metodo con una risorsa del set di dati definita.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
Crea il modello remoto
Crea un modello remoto che rappresenti un modello Vertex AI ospitato:
Nella Google Cloud console, vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione:
CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS ( HUGGING_FACE_MODEL_ID = 'Qwen/Qwen3-Embedding-0.6B' );
Il completamento della query richiede fino a 20 minuti, dopodiché il modello qwen3_embedding_model viene visualizzato nel set di dati bqml_tutorial nel riquadro Spazio di esplorazione. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non vengono visualizzati i risultati della query.
Esegui il text embedding
Esegui il text embedding sulle recensioni dei film IMDB utilizzando il modello remoto e la funzione AI.GENERATE_EMBEDDING:
Nella Google Cloud console, vai alla pagina BigQuery.
Nell'editor di query, inserisci la seguente istruzione per eseguire il text embedding su cinque recensioni di film:
SELECT * FROM AI.GENERATE_EMBEDDING( MODEL `bqml_tutorial.qwen3_embedding_model`, ( SELECT review AS content, * FROM `bigquery-public-data.imdb.reviews` LIMIT 5 ) );
I risultati includono le seguenti colonne:
embedding: un array di valori double che rappresenta gli embedding generati.status: lo stato della risposta dell'API per la riga corrispondente. Se l'operazione è andata a buon fine, questo valore è vuoto.content: il testo di input da cui estrarre gli embedding.- Tutte le colonne della tabella
bigquery-public-data.imdb.reviews.
Annulla il deployment del modello
Se scegli di non eliminare il progetto come consigliato, devi
annullare il deployment del modello di embedding Qwen3 in Vertex AI per evitare
addebiti continui. BigQuery annulla automaticamente il deployment del modello dopo un periodo di inattività specificato (6,5 ore per impostazione predefinita).
In alternativa, puoi annullare immediatamente il deployment del modello utilizzando l'
ALTER MODEL istruzione,
come mostrato nell'esempio seguente:
ALTER MODEL `bqml_tutorial.qwen3_embedding_model` SET OPTIONS (deploy_model = false);
Per ulteriori informazioni, consulta la sezione Annullamento del deployment automatico o immediato del modello aperto.
Libera spazio
- Nella Google Cloud console, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare e fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Scopri come utilizzare i text embedding per la ricerca semantica e la Retrieval Augmented Generation (RAG).