As incorporações são representações numéricas de texto, imagens ou vídeos que captam as relações entre as entradas. Os modelos de aprendizagem automática, especialmente os modelos de IA generativa, são adequados para criar incorporações através da identificação de padrões em grandes conjuntos de dados. As aplicações podem usar incorporações para processar e gerar linguagem, reconhecendo significados complexos e relações semânticas específicas do seu conteúdo.
A Vertex AI no Google Distributed Cloud (GDC) air-gapped suporta APIs Text Embedding para inglês e introdução de texto multilingue. A incorporação de texto funciona convertendo texto em matrizes de números de vírgula flutuante denominados vetores. Estes vetores foram concebidos para captar o significado do texto. O comprimento da matriz de incorporação é denominado dimensionalidade do vetor. Por exemplo, uma passagem de texto pode ser representada por um vetor que contenha centenas de dimensões. Em seguida, ao calcular a distância numérica entre as representações vetoriais de dois fragmentos de texto, uma aplicação pode determinar a semelhança entre os objetos.
Para ver uma lista dos modelos suportados, consulte o artigo Modelos de incorporações.
Para ver uma lista dos idiomas multilingues suportados, consulte o artigo Idiomas de incorporação de texto suportados.
Exemplos de utilização de incorporações de texto
Seguem-se alguns exemplos de utilização comuns para incorporações de texto:
- Pesquisa semântica: texto de pesquisa classificado por semelhança semântica.
- Classificação: devolve a classe de itens com atributos semelhantes ao texto indicado.
- Agrupamento: agrupe itens cujos atributos de texto sejam semelhantes ao texto indicado.
- Deteção de valores atípicos: devolve itens em que os atributos de texto estão menos relacionados com o texto fornecido.
- Interface de conversação: agrupe conjuntos de frases que podem originar respostas semelhantes, como num espaço de incorporação ao nível da conversa.
Exemplo de utilização: desenvolver um chatbot de recomendações de livros
Se quiser desenvolver um chatbot de recomendações de livros, a primeira coisa a fazer é usar uma rede neural profunda (DNN) para converter cada livro num vetor de incorporação, em que um vetor de incorporação representa um livro. Pode introduzir o título do livro ou o conteúdo de texto como entrada na RNN. Em alternativa, pode usar estes dois dados em conjunto, juntamente com quaisquer outros metadados que descrevam o livro, como o género.
As incorporações neste exemplo podem incluir milhares de títulos de livros com resumos e o respetivo género. Pode ter representações de livros como Cimeiras Borrascosas de Emily Brontë e Persuasão de Jane Austen que são semelhantes entre si (pequena distância entre a representação numérica). Em contrapartida, a representação numérica do livro O Grande Gatsby de F. Scott Fitzgerald estaria mais longe, uma vez que o período, o género e o resumo são menos semelhantes.
As entradas são a principal influência na orientação do espaço de incorporação. Por exemplo, se só tivéssemos entradas de títulos de livros, dois livros com títulos semelhantes, mas resumos muito diferentes, poderiam estar próximos. No entanto, se incluirmos o título e o resumo, estes mesmos livros são menos semelhantes (mais distantes) no espaço de incorporação.
Ao trabalhar com a IA generativa, este chatbot de sugestões de livros pode resumir, sugerir e mostrar-lhe livros de que pode gostar (ou não gostar) com base na sua consulta.
O que se segue?
- Saiba como obter incorporações de texto.