Obtén embeddings de texto de Vertex AI

En esta página, se describe cómo usar la API de incorporaciones de texto de Vertex AI para generar, almacenar y actualizar incorporaciones de texto para los datos almacenados en Spanner para bases de datos con dialecto de GoogleSQL y bases de datos con dialecto de PostgreSQL.

Un embedding de texto es una representación vectorial de datos de texto y se usa de muchas maneras para encontrar elementos similares. Interactúas con ellas cada vez que completas una Búsqueda de Google o ves recomendaciones cuando compras en línea. Cuando creas incorporaciones de texto, obtienes representaciones vectoriales de texto natural como arrays de números de punto flotante. Esto significa que a todo el texto de entrada se le asigna una representación numérica. Mediante la comparación de la distancia numérica entre las representaciones vectoriales de dos textos, una aplicación puede determinar la similitud entre el texto o los objetos representados por este.

Con la API de embedding de texto de Vertex AI, puedes crear un embedding de texto con IA generativa. En este instructivo, usarás el modelo de embedding de texto de Vertex AI para generar embeddings de texto para los datos almacenados en Spanner.

Para obtener más información sobre las incorporaciones de texto y los modelos compatibles, consulta Obtén incorporaciones de texto.

Objetivo

En este instructivo, aprenderás a realizar lo siguiente:

  • Registrar un modelo de embedding de texto de Vertex AI en un esquema de Spanner con instrucciones DDL
  • Hacer referencia al modelo registrado con consultas en SQL para generar incorporaciones a partir de los datos almacenados en Spanner

Precios

En este instructivo, se usan los siguientes componentes facturables de Google Cloud, incluidos:

  • Spanner
  • Vertex AI

Para obtener más información sobre los costos de Spanner, consulta la página de precios de Spanner.

Para obtener más información sobre los costos de Vertex AI, consulta la página de precios de Vertex AI.

Genera y almacena embeddings de texto

Según el modelo que uses, la generación de incorporaciones puede tardar un tiempo. Para cargas de trabajo más sensibles al rendimiento, la práctica recomendada es evitar la generación de incorporaciones en transacciones de lectura y escritura. En su lugar, genera las incorporaciones en una transacción de solo lectura con los siguientes ejemplos de SQL.

GoogleSQL

Registra un modelo de incorporaciones de texto en Spanner

En GoogleSQL, debes registrar un modelo antes de usarlo con la función ML.PREDICT. Para registrar el modelo de incorporación de texto de Vertex AI en una base de datos de Spanner, ejecuta la siguiente instrucción DDL statement:

CREATE MODEL MODEL_NAME
INPUT(
  content STRING(MAX),
  -- Optional: For models that support specifying task type.
  task_type STRING(MAX),
)
OUTPUT(
  embeddings
    STRUCT<
      statistics STRUCT<truncated BOOL, token_count FLOAT64>,
      values ARRAY<FLOAT64>>
)
REMOTE OPTIONS (
  endpoint = '//aiplatform.googleapis.com/projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME'
);

Reemplaza lo siguiente:

  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI
  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI

Spanner otorga los permisos adecuados automáticamente. Si no lo hace, revisa el control de acceso al extremo del modelo.

El descubrimiento y la validación de esquemas no están disponibles para los modelos de IA generativa. Debes proporcionar cláusulas INPUT y OUTPUT que coincidan con el esquema de los modelos. Para obtener el esquema completo del modelo de incorporación de texto, consulta Obtén incorporaciones de texto.

Genera incorporaciones de texto

Para generar incorporaciones, pasa un texto directamente a la ML.PREDICT función con el siguiente SQL:

SELECT embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT "A product description" as content)
);

Para generar incorporaciones para los datos almacenados en una tabla, usa el siguiente SQL:

SELECT id, embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT id, description as content FROM Products)
);

Para especificar el tipo de tarea y las dimensiones de salida, haz lo siguiente:

UPDATE Products p
SET description_embedding = (
  SELECT embeddings.values
  FROM ML.PREDICT(
    MODEL MODEL_NAME,
    (SELECT p.description as content, "RETRIEVAL_DOCUMENT" as task_type),
    STRUCT(768 AS outputDimensionality)
  ));

SELECT p.product_id, p.name, p.description, COSINE_DISTANCE(
    p.description_embedding,
    (
      SELECT embeddings.values 
      FROM ML.PREDICT(
        MODEL MODEL_NAME,
        (SELECT @user_query as content, "RETRIEVAL_QUERY" as task_type),
        STRUCT(768 AS outputDimensionality)
      ) 
    )
  ) AS distance
FROM Products p
ORDER BY distance
LIMIT 5;

Almacena incorporaciones de texto

Después de generar las incorporaciones en una transacción de solo lectura, almacénalas en Spanner para que se puedan administrar con tus datos operativos. Para almacenar las incorporaciones, usa una transacción de lectura y escritura.

Para las cargas de trabajo que son menos sensibles al rendimiento, puedes generar e insertar incorporaciones con el siguiente SQL en una transacción de lectura y escritura:

CREATE TABLE Products(
  id INT64 NOT NULL,
  description STRING(MAX),
  embeddings ARRAY<FLOAT32>,
) PRIMARY KEY(id);
INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT @Description as content)
);

PostgreSQL

Genera incorporaciones de texto

Para generar incorporaciones, pasa un texto directamente a la spanner.ML_PREDICT_ROW función con el siguiente SQL:

SELECT
  spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    '{"instances": [{"content": "A product description"}]}'::jsonb
  ) ->'predictions'->0->'embeddings'->'values';

Reemplaza lo siguiente:

  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI
  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

Para generar incorporaciones para los datos almacenados en una tabla, usa el siguiente SQL:

SELECT id, spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', description))))
  ) -> 'predictions'->0->'embeddings'->'values'
FROM Products;

Reemplaza lo siguiente:

  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI
  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

Para especificar el tipo de tarea y las dimensiones de salida, haz lo siguiente:

UPDATE Products p
SET description_embedding = spanner.float64_array(
  spanner.ML_PREDICT_ROW(
   'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    JSONB_BUILD_OBJECT(
      'instances', JSONB_BUILD_ARRAY(
        JSONB_BUILD_OBJECT(
          'content', p.description,
          'task_type', 'RETRIEVAL_DOCUMENT'
        )
      ),
      'parameters', JSONB_BUILD_OBJECT('outputDimensionality', 768)
    )
  )->'predictions'->0->'embeddings'->'values'
);

SELECT p.product_id, p.name, p.description, spanner.COSINE_DISTANCE(
    p.description_embedding,
    spanner.float64_array(
      spanner.ML_PREDICT_ROW(
        'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
        JSONB_BUILD_OBJECT(
          'instances', JSONB_BUILD_ARRAY(
            JSONB_BUILD_OBJECT(
              'content', $1,
              'task_type', 'RETRIEVAL_QUERY'
            )
          ),
          'parameters', JSONB_BUILD_OBJECT('outputDimensionality', 768)
        )
      )->'predictions'->0->'embeddings'->'values'
    )
  ) AS distance
FROM Products p
ORDER BY distance
LIMIT 5;

Reemplaza lo siguiente:

  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI
  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

Almacena incorporaciones de texto

Después de generar las incorporaciones en una transacción de solo lectura, almacénalas en Spanner para que se puedan administrar con tus datos operativos. Para almacenar las incorporaciones, usa una transacción de lectura y escritura.

Para las cargas de trabajo que son menos sensibles al rendimiento, puedes generar e insertar incorporaciones con el siguiente SQL en una transacción de lectura y escritura:

CREATE TABLE Products (
  id INT8 NOT NULL,
  description TEXT,
  embeddings REAL[],
  PRIMARY KEY(id)
);
INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, spanner.FLOAT32_ARRAY(spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', @Description)))
  ) -> 'predictions'->0->'embeddings'->'values'
));

Reemplaza lo siguiente:

  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI
  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

Actualiza las incorporaciones de texto

Para actualizar tus incorporaciones o transferir datos en tiempo real, usa la UPDATE (GoogleSQL y PostgreSQL) instrucción.

Para actualizar la tabla Products en el ejemplo anterior, usa el siguiente SQL:

GoogleSQL

UPDATE Products
SET
  description = @description,
  embeddings = (SELECT embeddings.values
                  FROM ML.PREDICT(MODEL MODEL_NAME, (SELECT @description as content))
              )
WHERE id = @id;

Reemplaza lo siguiente:

  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

PostgreSQL

UPDATE
  Products
SET
  description = $1,
  embeddings = spanner.FLOAT32_ARRAY(
    spanner.ML_PREDICT_ROW(
      'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
      JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', $1)))
    ) -> 'predictions'->0->'embeddings'->'values')
WHERE
  id = $2;

Reemplaza lo siguiente:

  • PROJECT: el proyecto que aloja el extremo de Vertex AI
  • LOCATION: la ubicación del extremo de Vertex AI
  • MODEL_NAME: el nombre del modelo de incorporación de texto de Vertex AI

¿Qué sigue?