Tokenização

Esta página descreve como adicionar tokenização a tabelas. A tokenização é necessária para criar os tokens usados no índice de pesquisa.

A tokenização é o processo de transformar valores em tokens. O método usado para tokenizar um documento determina os tipos e a eficiência das pesquisas que os usuários podem fazer nele.

O Spanner oferece tokenizadores para texto em linguagem natural, substrings, texto literal, números e booleanos. O esquema do banco de dados usa o tokenizador que corresponde ao tipo de pesquisa necessário para a coluna. Os tokenizadores têm as seguintes características:

  • Cada tokenizador é uma função SQL que recebe uma entrada, como uma string ou um número, e argumentos nomeados para opções adicionais.
  • O tokenizador gera um TOKENLIST.

Por exemplo, uma string de texto The quick brown fox jumps over the lazy dog é tokenizada em [the,quick,brown,fox,jumps,over,the,lazy,dog]. Uma string HTML The <b>apple</b> is <i>red</i> é tokenizada em [the,apple,is,red].

Os tokens têm as seguintes características:

  • Os tokens são armazenados em colunas que usam o tipo de dados TOKENLIST.
  • Cada token é armazenado como uma sequência de bytes, com um conjunto opcional de atributos associados. Por exemplo, em aplicativos de texto completo, um token geralmente é uma única palavra de um documento de texto.
  • Ao tokenizar valores HTML, o Spanner gera atributos que indicam a importância de um token no documento. O Spanner usa esses atributos para pontuar e impulsionar termos mais destacados (como um cabeçalho).

Tokenizadores

O Spanner é compatível com as seguintes funções de tokenização:

  • O tokenizador de texto completo (TOKENIZE_FULLTEXT) produz tokens de palavras inteiras para consultas em linguagem natural.

    Exemplo

    Ambas as funções a seguir

    GoogleSQL

    TOKENIZE_FULLTEXT("Yellow apple")
    TOKENIZE_FULLTEXT("Yellow <b>apple</b>", content_type=>"text/html")
    

    PostgreSQL

    Este exemplo usa spanner.tokenize_fulltext.

    spanner.tokenize_fulltext("Yellow apple")
    spanner.tokenize_fulltext('Yellow <b>apple</b>', context_type=>'text/html')
    

    produzem os mesmos tokens: [yellow,apple].

  • O tokenizador de substrings (TOKENIZE_SUBSTRING) gera tokens para cada n-grama de cada palavra. Ele é usado para encontrar substrings de palavras em um texto.

    Exemplo

    GoogleSQL

    TOKENIZE_SUBSTRING('hello world', ngram_size_min=>4, ngram_size_max=>6)
    

    PostgreSQL

    Este exemplo usa spanner.tokenize_substring.

    spanner.tokenize_substring('hello world', ngram_size_min=>4, ngram_size_max=>6)
    

    Produz os seguintes tokens: [ello,hell,hello,orld,worl,world].

  • O tokenizador de n-gramas (TOKENIZE_NGRAMS) gera n-gramas de uma entrada sem dividi-la em palavras separadas. Ele é usado para acelerar predicados de expressão regular.

    Exemplo

    A função a seguir:

    GoogleSQL

    TOKENIZE_NGRAMS("Big Time", ngram_size_min=>4, ngram_size_max=>4)
    

    PostgreSQL

    Este exemplo usa spanner.tokenize_ngrams.

    spanner.tokenize_ngrams('big time', ngram_size_min=>4, ngram_size_max=>4)
    

    Produz os seguintes tokens: ["Big ","ig T","g Ti"," Tim", "Time"].

  • Os tokenizadores de correspondência exata (TOKEN e TOKENIZE_BOOL) são usados para pesquisar linhas que contêm um determinado valor em uma das colunas. Por exemplo, um aplicativo que indexa um catálogo de produtos pode querer pesquisar produtos de uma determinada marca e cor.

    Exemplos

    As seguintes funções:

    GoogleSQL

    TOKEN("hello")
    TOKEN(["hello", "world"])
    

    PostgreSQL

    Este exemplo usa spanner.token.

    spanner.token('hello')
    

    Produz os seguintes tokens: [hello].

    A função a seguir:

    GoogleSQL

    TOKENIZE_BOOL(true)
    

    PostgreSQL

    Este exemplo usa spanner.tokenize_bool.

    spanner.tokenize_bool(true)
    

    Produz o seguinte token: [y].

  • Os tokenizadores de números (TOKENIZE_NUMBER) são usados para gerar um conjunto de tokens que aceleram as pesquisas de comparação numérica. Para condições de igualdade, o token é o próprio número. Para condições de intervalo (como rating >= 3.5), o conjunto de tokens é mais elaborado.

    Exemplos

    As seguintes instruções de função:

    GoogleSQL

    TOKENIZE_NUMBER(42, comparison_type=>'equality')
    TOKENIZE_NUMBER(42, comparison_type=>'all', granularity=>10, min=>1, max=>100)
    

    PostgreSQL

    Este exemplo usa spanner.tokenize_number.

    spanner.tokenize_number(42, comparison_type=>'equality')
    spanner.tokenize_number(42, comparison_type=>'all', granularity=>10, min=>1, max=>100)
    

    Produza os seguintes tokens, respectivamente: "==42" e "==42", "[1,75]","[36, 45]","[36,55]","[36, 75]".

  • Tokenizadores JSON e JSONB (TOKENIZE_JSON e TOKENIZE_JSONB são usados para gerar um conjunto de tokens que aceleram a contenção de JSON e predicados de existência de chave, como doc[@key] IS NOT NULL (GoogleSQL) ou doc ? 'key' (PostgreSQL).

As funções de tokenização geralmente são usadas em uma expressão de coluna gerada. Essas colunas são definidas como HIDDEN para não serem incluídas nos resultados da consulta SELECT *.

O exemplo a seguir usa um tokenizador de texto completo e um tokenizador numérico para criar um banco de dados que armazena nomes e classificações de álbuns de música. A instrução DDL faz duas coisas:

  1. Define as colunas de dados AlbumTitle e Rating.
  2. Define AlbumTitle_Tokens e AlbumRating_Tokens. Essas colunas TOKENLIST tokenizam os valores nas colunas de dados para que o Spanner possa indexá-los.

    GoogleSQL

    CREATE TABLE Albums (
      AlbumId STRING(MAX) NOT NULL,
      AlbumTitle STRING(MAX),
      Rating FLOAT64,
      AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN,
      Rating_Tokens TOKENLIST AS (TOKENIZE_NUMBER(Rating)) HIDDEN
    ) PRIMARY KEY(AlbumId);
    

    PostgreSQL

    CREATE TABLE albums (
      albumid character varying NOT NULL,
      albumtitle character varying,
      albumtitle_Tokens spanner.tokenlist GENERATED ALWAYS AS (spanner.tokenize_fulltext(albumtitle)) VIRTUAL HIDDEN,
    PRIMARY KEY(albumid));
    

Sempre que os valores de base são modificados, AlbumTitle_Tokens e Rating_Tokens são atualizados automaticamente.

Tokenizar texto simples ou conteúdo HTML

A tokenização de texto é compatível com tipos de conteúdo de texto simples e HTML. Use a função TOKENIZE_FULLTEXT do Spanner para criar tokens. Em seguida, use a instrução DDL CREATE SEARCH INDEX para gerar o índice de pesquisa.

Por exemplo, a instrução DDL CREATE TABLE a seguir usa a função TOKENIZE_FULLTEXT para criar tokens de AlbumTitles na tabela Albums. A instrução DDL CREATE SEARCH INDEX cria um índice de pesquisa com o novo AlbumTitles_Tokens.

GoogleSQL

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  AlbumTitle STRING(MAX),
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN
) PRIMARY KEY(AlbumId);

CREATE SEARCH INDEX AlbumsIndex ON Albums(AlbumTitle_Tokens)

PostgreSQL

CREATE TABLE albums (
  albumid character varying NOT NULL,
  albumtitle character varying,
  albumtitle_tokens spanner.tokenlist
      GENERATED ALWAYS AS (spanner.tokenize_fulltext(albumtitle)) VIRTUAL HIDDEN,
PRIMARY KEY(albumid));

CREATE SEARCH INDEX albumsindex ON albums(albumtitle_tokens)

O processo de tokenização usa as seguintes regras:

  • A tokenização não inclui derivação ou correção de palavras escritas incorretamente. Por exemplo, em uma frase como "Um gato estava olhando para um grupo de gatos", o token "gato" é indexado separadamente do token "gatos". Em comparação com outros mecanismos de pesquisa que normalizam tokens durante gravações, o Spanner oferece uma opção para expandir a consulta de pesquisa e incluir diferentes formas de palavras. Para mais informações, consulte Modo de consulta avançado.
  • As palavras irrelevantes (como "um") são incluídas no índice de pesquisa.
  • A pesquisa de texto completo não diferencia maiúsculas de minúsculas. O processo de tokenização converte todos os tokens para minúsculas.

O processo de tokenização rastreia as posições de cada token no texto original. Essas posições são usadas mais tarde para corresponder a frases. As posições são armazenadas no índice de pesquisa junto com os docids.

O Google continua aprimorando os algoritmos de tokenização. Em alguns casos, isso pode levar a uma string a ser tokenizada de maneira diferente no futuro do que é tokenizada agora. Esperamos que esses casos sejam extremamente raros. Por exemplo, se houver uma melhoria na segmentação de idiomas chinês, japonês e coreano (CJK).

O argumento content_type especifica se o formato do conteúdo usa texto simples ou HTML. Use as seguintes configurações para definir o content_type:

  • Para a tokenização de texto, defina o argumento content_type como "text/plain". Essa é a configuração padrão.
  • Para a tokenização de HTML, defina o argumento content_type como "text/html". Sem esse argumento, as tags HTML são tratadas como pontuação. No modo HTML, o Spanner usa heurísticas para inferir a importância do texto na página. Por exemplo, se o texto está em um cabeçalho ou o tamanho da fonte. Os atributos compatíveis com HTML incluem small, medium, large, title e "link". Assim como a posição, o atributo é armazenado ao lado do token no índice de pesquisa. A tokenização não cria tokens para tags HTML.

Os atributos de token não afetam a correspondência nem os resultados da função SEARCH ou SEARCH_SUBSTRING. Eles são usados apenas para classificação.

O exemplo a seguir mostra como tokenizar texto:

GoogleSQL

CREATE TABLE T (
  ...
  Text STRING(MAX),
  Html STRING(MAX),
  Text_Tokens TOKENLIST
    AS (TOKENIZE_FULLTEXT(Text, content_type=>"text/plain")) HIDDEN,
  Html_Tokens TOKENLIST
    AS (TOKENIZE_FULLTEXT(Html, content_type=>"text/html")) HIDDEN
) PRIMARY KEY(...);

PostgreSQL

CREATE TABLE t (
  ...
  text character varying,
  html character varying,
  text_tokens spanner.tokenlist
      GENERATED ALWAYS AS (spanner.tokenize_fulltext(text, content_type=>"text/plain")) VIRTUAL HIDDEN,
  html_tokens spanner.tokenlist
      GENERATED ALWAYS AS (spanner.tokenize_fulltext(html, content_type=>'type/html')) VIRTUAL HIDDEN,
PRIMARY KEY(...));

Refinamento da detecção de idioma com o argumento language_tag

A tokenização detecta o idioma de entrada automaticamente por padrão. Quando o idioma de entrada é conhecido, um argumento language_tag pode ser usado para refinar esse comportamento:

GoogleSQL

AlbumTitle_Tokens TOKENLIST
  AS (TOKENIZE_FULLTEXT(AlbumTitle, language_tag=>"en-us")) HIDDEN

PostgreSQL

albumtitle_tokens spanner.tokenlist
      GENERATED ALWAYS AS (spanner.tokenize_fulltext(albumtitle, language_tag=>'en-us')) VIRTUAL HIDDEN

A maioria dos aplicativos deixa o argumento language_tag não especificado e usa a detecção automática de idioma. A segmentação para idiomas asiáticos, como chinês, coreano e japonês, não exige a definição do idioma de tokenização.

Os exemplos a seguir mostram casos em que o language_tag afeta a tokenização:

Função de tokenização Tokens produzidos
TOKENIZE_FULLTEXT("A tout pourquoi il y a un parce que") [a, tout, pourquoi, il, ya, un, parce, que]
TOKENIZE_FULLTEXT("A tout pourquoi il y a un parce que", \ language_tag=>"fr") [a, tout, pourquoi, il, y, a, un, parce, que]
TOKENIZE_FULLTEXT("旅 行") Dois tokens: [旅, 行]
TOKENIZE_FULLTEXT("旅 行", language_tag=>"zh") Um token: [旅行]

A seguir