Gerar embeddings de texto

A extensão google_ml_integration inclui funções de incorporação em dois namespaces diferentes: public e google_ml. Nesta página, descrevemos como gerar incorporações de texto usando funções desses namespaces.

A função embedding() no esquema public pode ser usada com qualquer modelo de incorporação da Vertex AI sem registrar o endpoint. Se quiser transmitir informações personalizadas, como o tipo de tarefa, registre o endpoint e use a função google_ml.embedding() no esquema google_ml. Para mais informações sobre como registrar um endpoint, consulte Registrar um modelo.

Como as incorporações funcionam

Imagine um banco de dados em execução no AlloyDB com as seguintes características:

  • O banco de dados contém uma tabela, items. Cada linha nesta tabela descreve um item que sua empresa vende.

  • A tabela items contém uma coluna, complaints. Essa coluna TEXT armazena reclamações do comprador registradas sobre cada item.

  • O banco de dados se integra ao Model Garden da Vertex AI, concedendo acesso aos modelos em inglês gemini-embedding-001.

Embora esse banco de dados armazene reclamações sobre itens, elas são armazenadas como texto simples, dificultando a consulta. Por exemplo, se você quiser saber quais itens têm mais reclamações de clientes que receberam a cor errada do produto, realize consultas SQL comuns na tabela, procurando várias correspondências de palavras-chave. No entanto, essa abordagem corresponde apenas às linhas que contêm essas palavras-chave exatas.

Por exemplo, uma consulta SQL básica, como SELECT * FROM item WHERE complaints LIKE "%wrong color%", não retorna uma linha em que o campo complaints contém apenas The picture shows a blue one, but the one I received was red.

Consultas SQL que usam embeddings com tecnologia LLM podem ajudar a retornar respostas semanticamente semelhantes para essas consultas. Ao aplicar embeddings, é possível consultar a tabela neste exemplo para itens em que as reclamações têm semelhança semântica com um determinado comando de texto, como It was the wrong color.

Para a geração básica de incorporações, selecione um dos seguintes esquemas.

A seguir