Genera incorporaciones de texto con un modelo abierto y la función AI.GENERATE_EMBEDDING
En este instructivo, se muestra cómo crear un
modelo remoto
basado en el
modelo de incorporación de texto de código abierto Qwen3-Embedding-0.6B,
y, luego, cómo usar ese modelo con la
AI.GENERATE_EMBEDDING función
para incorporar reseñas de películas de la tabla pública bigquery-public-data.imdb.reviews.
Permisos necesarios
Para ejecutar este instructivo, necesitas los siguientes roles de Identity and Access Management (IAM):
- Crear y usar conjuntos de datos, conexiones y modelos de BigQuery: Administrador de BigQuery (
roles/bigquery.admin). - Otorgar permisos a la cuenta de servicio de la conexión: Administrador de IAM del proyecto (
roles/resourcemanager.projectIamAdmin). - Implementar y anular la implementación de modelos en Vertex AI: Administrador de Vertex AI (
roles/aiplatform.admin).
Estos roles predefinidos contienen los permisos necesarios para realizar las tareas de este documento. Para ver los permisos exactos que son necesarios, expande la sección Permisos necesarios:
Permisos necesarios
- Crear un conjunto de datos:
bigquery.datasets.create - Crear, delegar y usar una conexión:
bigquery.connections.* - Establecer la conexión predeterminada:
bigquery.config.* - Establecer permisos de la cuenta de servicio:
resourcemanager.projects.getIamPolicyyresourcemanager.projects.setIamPolicy - Implementar y anular la implementación de un modelo de Vertex AI:
aiplatform.endpoints.deployaiplatform.endpoints.undeploy
- Crear un modelo y ejecutar la inferencia:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateDatabigquery.models.updateMetadata
También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Vertex AI: You incur costs for calls to the Vertex AI model that's represented by the remote model.
Para generar una estimación de costos en función del uso previsto,
usa la calculadora de precios.
Para obtener más información sobre los precios de BigQuery, consulta Precios de BigQuery en la documentación de BigQuery.
Los modelos abiertos que implementas en Vertex AI se cobran por hora de máquina. Esto significa que la facturación comienza en cuanto se configura por completo el extremo y continúa hasta que anulas su implementación. Para obtener más información sobre los precios de Vertex AI, consulta la página Precios de Vertex AI.
Antes de comenzar
-
En la Google Cloud consola, en la página del selector de proyectos, selecciona o crea un Google Cloud proyecto.
Roles necesarios para seleccionar o crear un proyecto
- Seleccionar un proyecto: Para seleccionar un proyecto, no se requiere un rol de IAM específico. Puedes seleccionar cualquier proyecto en el que se te haya otorgado un rol.
-
Crear un proyecto: Para crear un proyecto, necesitas el rol de creador de proyectos
(
roles/resourcemanager.projectCreator), que contiene elresourcemanager.projects.createpermiso. Obtén más información para otorgar roles.
-
Verifica que la facturación esté habilitada para tu Google Cloud proyecto.
-
Habilita las APIs de BigQuery, BigQuery Connection y Vertex AI.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.
Crea un conjunto de datos
Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA.
Console
En la Google Cloud consola de, ve a la página BigQuery.
En el panel Explorador, haz clic en el nombre de tu proyecto.
Haz clic en Ver acciones > Crear conjunto de datos.
En la página Crear conjunto de datos, haz lo siguiente:
En ID del conjunto de datos, ingresa
bqml_tutorial.En Tipo de ubicación, selecciona Multirregión y, luego, selecciona EE.UU..
Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.
bq
Para crear un conjunto de datos nuevo, usa el
bq mk --dataset comando.
Crea un conjunto de datos llamado
bqml_tutorialcon la ubicación de datos establecida enUS.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Confirma que se haya creado el conjunto de datos:
bq ls
API
Llama al datasets.insert
método con un recurso de conjunto de datos definido.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
Crea el modelo remoto
Crea un modelo remoto que represente un modelo de Vertex AI alojado:
En la Google Cloud consola de, ve a la página BigQuery.
En el editor de consultas, ejecuta la siguiente declaración:
CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS ( HUGGING_FACE_MODEL_ID = 'Qwen/Qwen3-Embedding-0.6B' );
La consulta tarda hasta 20 minutos en completarse. Después de eso, el modelo qwen3_embedding_model aparece en el conjunto de datos bqml_tutorial en el panel Explorador. Debido a que la consulta usa una declaración CREATE MODEL para crear un modelo, no hay resultados de consultas.
Realiza la incorporación de texto
Realiza la incorporación de texto en reseñas de películas de IMDB con
el modelo remoto y la función AI.GENERATE_EMBEDDING:
En la Google Cloud consola de, ve a la página BigQuery.
En el Editor de consultas, ingresa la siguiente declaración para realizar la incorporación de texto en cinco reseñas de películas:
SELECT * FROM AI.GENERATE_EMBEDDING( MODEL `bqml_tutorial.qwen3_embedding_model`, ( SELECT review AS content, * FROM `bigquery-public-data.imdb.reviews` LIMIT 5 ) );
Los resultados incluyen las siguientes columnas:
embedding: Es un array de doble precisión para representar las incorporaciones generadas.status: Es el estado de la respuesta de la API para la fila correspondiente. Si la operación se realizó correctamente, este valor estará vacío.content: Es el texto de entrada del que se extraerán las incorporaciones.- Todas las columnas de la tabla
bigquery-public-data.imdb.reviews.
Anular implementación de modelo
Si decides no borrar tu proyecto como se recomienda, debes
anular la implementación del modelo de incorporación Qwen3 en Vertex AI para evitar que se siga
facturando. BigQuery anula automáticamente la implementación del modelo después de un período de inactividad especificado (6.5 horas de forma predeterminada).
Como alternativa, puedes anular la implementación del modelo de inmediato con la
ALTER MODEL declaración,
como se muestra en el siguiente ejemplo:
ALTER MODEL `bqml_tutorial.qwen3_embedding_model` SET OPTIONS (deploy_model = false);
Para obtener más información, consulta Anulación de implementación automática o inmediata de modelos abiertos.
Limpia
- En la Google Cloud consola, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que tú quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
¿Qué sigue?
- Obtén información para usar incorporaciones de texto para la búsqueda semántica y la generación mejorada por recuperación (RAG).