Usar o perfil dos dados para dados não estruturados

Uma verificação de perfil de dados para dados não estruturados (UnstructuredDataProfileSpec) com tecnologia dos modelos Gemini 2.5 Pro da Vertex AI analisa as tabelas de objetos do BigQuery para transformar arquivos brutos e não estruturados no Cloud Storage (como PDFs) em recursos estruturados e pesquisáveis. Esse fluxo de trabalho independente foi criado para usuários que já têm tabelas de objetos do BigQuery e ajuda a orientar a extração com um comando personalizado. Se você estiver começando com arquivos brutos no Cloud Storage e quiser um fluxo de trabalho de descoberta automatizado, consulte Usar a verificação de descoberta para dados não estruturados.

Neste documento, descrevemos como configurar as permissões necessárias, preparar a tabela de objetos, criar uma verificação de perfil de dados para dados não estruturados usando a API REST, conferir os insights gerados, organizar perfis de gráficos e extrair os dados para o BigQuery.

Antes de começar

Antes de criar uma verificação do perfil de dados para dados não estruturados, verifique se você tem as permissões necessárias e as APIs ativadas.

Ativar APIs

Ativar as APIs a seguir no projeto:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

Funções necessárias para ativar APIs

Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

Ativar as APIs

Papéis e permissões necessárias

A inferência semântica de dados não estruturados é um recurso avançado de verificação do perfil de dados que opera em tabelas de objetos do BigQuery. Para configurar e executar a criação de perfil de dados não estruturados, você precisa atender às permissões básicas para acessar a tabela de objetos e conceder papéis adicionais para inferência semântica em vários agentes de serviço.

Funções básicas da tabela de objetos

Para acessar e consultar uma tabela de objetos do BigQuery, verifique se você e as contas de serviço usadas pelo Knowledge Catalog têm os seguintes papéis básicos do Identity and Access Management (IAM) no projeto:

  • Leitor de dados do BigQuery (roles/bigquery.dataViewer)
  • Usuário de conexão do BigQuery (roles/bigquery.connectionUser)

Para uma lista completa de pré-requisitos de tabelas de objetos, consulte Criar tabelas de objetos.

Outros papéis para inferência semântica

Além do acesso à tabela de base, verifique se você e as contas de serviço têm os seguintes papéis adicionais do IAM.

Resumo de outras identidades e papéis

Tipo de identidade Formato principal típico Papéis necessários do IAM Propósito principal
Usuário final Sua conta de usuário do Google Cloud
  • Editor do DataScan Dataplex
  • Editor de catálogo do Dataplex
  • Editor de dados do BigQuery
  • Usuário de jobs do BigQuery
Você usa esses papéis adicionais para configurar verificações, ver resultados gerados com IA, organizar perfis de grafos e acionar a extração de dados final.
Agente de descoberta do Dataplex Universal Catalog service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • Usuário da Vertex AI
  • Usuário de jobs do BigQuery
  • Leitor de dados do BigQuery
Esse agente de serviço gerenciado pelo Google usa essas funções adicionais para chamar a Vertex AI e gerar esquemas e metadados inferidos.
Conta de serviço de conexão do BigQuery Uma identidade exclusiva associada à sua conexão (por exemplo, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com)
  • Leitor de objetos do Storage (no bucket de origem)
  • Usuário da Vertex AI (no projeto)
Ele conecta o BigQuery ao armazenamento externo, permitindo que o BigQuery leia os arquivos brutos, crie tabelas de objetos e execute inferências de IA sem expor suas credenciais de usuário pessoais.
Conta de serviço de execução de pipeline (opcional) Uma conta serviço gerenciado pelo usuário
  • Editor de dados do BigQuery
  • Usuário de jobs do BigQuery
  • Usuário do BigQuery
  • Usuário da Vertex AI
Se você optar por extrair dados usando um pipeline automatizado, essa identidade vai executar os jobs em segundo plano para materializar as entidades geradas por IA em tabelas do BigQuery.
Conta de serviço padrão do Dataform (opcional) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • Criador de token da conta de serviço (concedido na conta de serviço de execução do pipeline)
Ao usar o método de extração de pipeline, o Dataform precisa de permissão para personificar sua conta de serviço de execução de pipeline e orquestrar o fluxo de trabalho.

Permissões e funções do usuário final

Para garantir que sua conta de usuário tenha as permissões necessárias para criar verificações, ver insights, organizar perfis de gráficos e extrair dados, peça ao administrador para conceder os seguintes papéis do IAM à sua conta de usuário no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para criar verificações, ver insights, organizar perfis de gráficos e extrair dados. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para criar verificações, ver insights, selecionar perfis de gráfico e extrair dados:

  • DataScans:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
    • dataplex.datascans.update
  • Extração de dados:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

O administrador também pode conceder à conta de serviço essas permissões com papéis personalizados ou outros papéis predefinidos.

Permissões e papéis do agente de serviço do Dataplex Discovery

O agente de serviço de descoberta do Dataplex é um agente de serviço que precisa de acesso para executar verificações e fazer inferências semânticas usando a Vertex AI.

Para garantir que o agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) tenha as permissões necessárias para executar verificações e fazer inferência semântica usando a Vertex AI, peça ao administrador para conceder os seguintes papéis do IAM ao agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para executar verificações e fazer inferência semântica usando a Vertex AI. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para executar verificações e fazer inferência semântica usando a Vertex AI:

  • Todos:
    • aiplatform.endpoints.predict
    • bigquery.datasets.create
    • bigquery.datasets.get
    • bigquery.tables.get
    • bigquery.tables.getData
    • storage.buckets.get
    • storage.objects.get
    • storage.objects.list

O administrador também pode conceder ao agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) essas permissões com papéis personalizados ou outros papéis predefinidos.

Permissões e papéis da conta de serviço de conexão do BigQuery

Uma conexão a recursos do Cloud do BigQuery permite que o Knowledge Catalog acesse dados não estruturados armazenados no Cloud Storage. Quando você cria uma conexão, o BigQuery cria automaticamente uma conta de serviço dedicada em seu nome. Essa conta de serviço serve como a identidade usada para se conectar à sua fonte de dados externa.

Por padrão, essa conta de serviço não tem permissões. Você precisa conceder explicitamente a essa conta de serviço os papéis do IAM necessários nos buckets do Cloud Storage que contêm seus dados. É possível usar uma conexão do BigQuery ou criar uma no mesmo local do bucket de origem do Cloud Storage. Para mais informações sobre como compartilhar conexões, consulte Compartilhar uma conexão com usuários.

Para garantir que a conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão) tenha as permissões necessárias para ler tabelas de objetos e executar inferências, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão):

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para ler tabelas de objetos e executar inferências. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para ler tabelas de objetos e executar inferências:

  • Todos:
    • storage.buckets.get no bucket que contém dados não estruturados
    • storage.objects.get no bucket que contém dados não estruturados
    • aiplatform.endpoints.predict no projeto

O administrador também pode conceder essas permissões à conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão) com papéis personalizados ou outros papéis predefinidos.

Papéis e permissões da conta de serviço de execução do pipeline (opcional)

Se você optar por extrair os dados inferidos usando um pipeline automatizado, crie ou forneça uma conta de serviço dedicada para executar o pipeline. Essa conta de serviço de execução atua como a identidade que autentica e executa as tarefas de extração de dados e análise em segundo plano no BigQuery. Além disso, é necessário conceder à conta de serviço padrão do Dataform permissão para personificar essa conta de serviço de execução.

Para garantir que a conta de serviço de execução do pipeline tenha as permissões necessárias para extrair as entidades e relações inferidas usando um pipeline, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço de execução do pipeline no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para extrair as entidades e os relacionamentos inferidos usando um pipeline. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para extrair as entidades e relações inferidas usando um pipeline:

  • Todos:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.jobs.create
    • aiplatform.endpoints.predict

O administrador também pode conceder essas permissões à conta de serviço de execução de pipeline com papéis personalizados ou outros papéis predefinidos.

Para garantir que a conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) tenha as permissões necessárias para representar a conta de serviço de execução do pipeline, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) na conta de serviço de execução do pipeline:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para representar a conta de serviço de execução do pipeline. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para representar a conta de serviço de execução do pipeline:

  • Todos: iam.serviceAccounts.getAccessToken

O administrador também pode conceder à conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) essas permissões com papéis personalizados ou outros papéis predefinidos.


Preparar a tabela de objetos

Uma verificação do perfil de dados para dados não estruturados opera diretamente em uma tabela de objetos do BigQuery. Antes de criar a verificação, confira se os dados não estruturados (como PDFs) estão armazenados em um bucket do Cloud Storage e se você criou uma tabela de objetos correspondente do BigQuery nesse bucket usando uma conexão a recursos do Cloud.

Verifique se você e a conta de serviço do Knowledge Catalog têm o papel Usuário de conexão do BigQuery (roles/bigquery.connectionUser) na conexão usada pela tabela de objetos.

Para mais informações sobre como criar tabelas de objetos e configurar a conexão necessária, consulte Criar tabelas de objetos.

Criar uma verificação de perfil de dados para dados não estruturados

Para extrair insights semânticos da sua tabela de objetos, crie uma verificação de perfil de dados para dados não estruturados (UnstructuredDataProfileSpec). Essa verificação usa modelos do Gemini 2.5 Pro da Vertex AI para analisar os arquivos não estruturados referenciados pela tabela de objetos e gerar metadados, esquemas e relações inferidos.

Nesta versão inicial, a criação de verificações é compatível exclusivamente com o uso da API REST.

Para criar uma verificação do perfil de dados para dados não estruturados usando a API REST, use o método dataScans.create com um unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região Google Cloud (precisa ser compatível com o Gemini 2.5 Pro).
  • DATASCAN: o nome da verificação do perfil de dados.
  • DATASET_ID e TABLE_ID: o nome do conjunto de dados e da tabela de objetos do BigQuery.

Parâmetros de especificação da verificação de perfil de dados

  • customizedPrompt: opcional. Um comando em linguagem natural que instrui o Gemini sobre entidades ou contexto de domínio específicos a serem extraídos (por exemplo, Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Por padrão, esse é uma string vazia (""). Há um limite no comprimento máximo de caracteres para comandos personalizados.

  • graphProfilePublishingEnabled: opcional. Se o perfil de gráfico inferido deve ser publicado automaticamente no catálogo após a conclusão da verificação. Por padrão, essa opção é false.

O Knowledge Catalog executa a verificação do perfil de dados e enriquece a entrada do catálogo com metadados gerados por IA. Esse processo geralmente leva alguns minutos para conjuntos de dados padrão.

Exemplo: extrair termos de contrato de PDFs do vendedor

O exemplo a seguir mostra uma solicitação de API REST para uma empresa de varejo de exemplo criando uma verificação do perfil de dados (seller-contracts-scan) para analisar PDFs de contratos de vendedores armazenados em uma tabela de objetos (seller_agreements_obj_table). Ele usa um comando personalizado para instruir o Gemini a extrair termos comerciais específicos, como taxas de comissão e condições de pagamento:

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Executar a verificação do perfil de dados

Se você configurou a verificação de perfil de dados para ser executada sob demanda, é necessário acionar manualmente a verificação para analisar seus dados não estruturados.

Para executar uma verificação de perfil de dados sob demanda usando a API REST, use o método dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a Google Cloud região em que a verificação do perfil de dados está localizada.
  • DATASCAN: o nome da verificação do perfil de dados.

Analisar os resultados da verificação de perfil de dados

Depois que a verificação do perfil de dados for concluída, o Knowledge Catalog vai gerar um perfil de gráfico com os esquemas inferidos para entidades e relacionamentos. É possível analisar esses resultados usando o console do Google Cloud ou a API REST.

Console

Se você ativou a publicação de perfis de gráficos no catálogo (graphProfilePublishingEnabled: true), é possível conferir a tabela de objetos e os gráficos semânticos inferidos no Knowledge Catalog:

  1. No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.

    Acesse Pesquisar

  2. Cole e pesquise a tabela de objetos cujo ID você configurou na verificação.

  3. Nos resultados da pesquisa, clique na tabela para abrir a página de entrada.

  4. Na guia Detalhes, em Aspectos, verifique a presença do aspecto Perfil de gráfico (dataplex-types.global.graph-profile). Esse aspecto contém os esquemas inferidos para entidades e relacionamentos.

  5. Clique na guia Insights. Na guia Insights, você pode conferir as seguintes informações:

    • Extração semântica: um banner indica que entidades e relações extraíveis foram detectadas. Ele inclui um botão Extrair para materializar os dados usando SQL ou implantação de pipeline.

    • Descrição: Um resumo legível por humanos gerado com IA explica o conteúdo dos dados não estruturados. Ele descreve os nós principais (entidades) descobertos e como eles se mapeiam uns aos outros por arestas (relações).

    • Pipelines: uma lista de pipelines de extração de dados implantados anteriormente associados a esse recurso. É possível conferir o nome de exibição, a região, a hora de criação e o usuário que criou o pipeline.

    • Entidades e relações inferidas. Um gráfico visual e interativo mostra a estrutura semântica descoberta dos seus dados não estruturados. O gráfico contém nós que representam entidades distintas, por exemplo, Recipe e Ingredient, e arestas que representam as conexões entre elas, por exemplo, HasAllergenStatus. Use a legenda para filtrar e analisar nós e arestas específicos.

    • Entidades: uma lista detalhada das principais entidades descobertas. É possível abrir cada uma para conferir a descrição gerada por IA e o esquema inferido, que inclui nomes de campos, tipos de dados e descrições de campos.

    • Relacionamentos: uma lista detalhada das conexões descobertas entre entidades. É possível abrir cada relacionamento para ver a descrição e o esquema que define como as entidades se relacionam.

REST

Para recuperar os resultados do perfil de gráfico diretamente da execução do job de verificação usando a API REST, use o método dataScans.jobs.get com view=full:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a Google Cloud região em que a verificação do perfil de dados está localizada.
  • DATASCAN: o nome da verificação do perfil de dados.
  • JOB_ID: o ID exclusivo da execução do job de verificação do perfil de dados.

O exemplo a seguir mostra a resposta para o job seller-contracts-scan, incluindo unstructuredDataProfileResult e graphProfile:

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Atualizar insights inferidos

Os insights inferidos são armazenados no catálogo do Knowledge Catalog como um aspecto anexado à tabela de objetos. É possível atualizar esses insights manualmente usando a API REST.

REST

Para atualizar insights inferidos usando a API REST, siga estas etapas:

  1. Crie um arquivo chamado payload.json e adicione o conteúdo JSON do aspecto que você quer atualizar. Exemplo:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            "nodeTypes": [],
            "edgeTypes": []
          }
        }
      }
    }
    
  2. Execute o comando a seguir no terminal.

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto. Por exemplo, example-project.
    • LOCATION: o local da entrada. Por exemplo, us-central1.
    • ENTRY_GROUP_ID: o ID do grupo de entradas, por exemplo, example-entry-group. Para tabelas de objetos do BigQuery, use @bigquery.
    • ENTRY_ID: o ID da entrada. Por exemplo, example-entry. Recupere esse ID na guia Visão geral da página de detalhes da entrada no console do Google Cloud .

Para mais informações e exemplos de código em outros idiomas, consulte Atualizar um aspecto de entrada.

Extrair dados para o BigQuery

É possível materializar as entidades e relações inferidas em tabelas ou visualizações estruturadas no BigQuery usando SQL ou um pipeline automatizado.

  1. No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.

    Acesse Pesquisar

  2. Pesquise a tabela de objetos gerada pela sua verificação.

  3. Nos resultados da pesquisa, clique na tabela para abrir a página de entrada.

  4. Clique na guia Insights.

  5. Na guia Insights, clique em Extração.

  6. Escolha um dos seguintes métodos com base nas suas necessidades analíticas e na escala dos dados não estruturados:

    • Extração por SQL:escolha essa opção para análises rápidas e ad hoc, conjuntos de dados pequenos a médios ou quando quiser uma abordagem sem infraestrutura usando modelos remotos do BigQuery.

      Para extrair usando SQL, siga estas etapas:

      1. Selecione Extrair por SQL.
      2. No painel Extrair com SQL, selecione um conjunto de dados de destino. O conjunto de dados precisa estar no mesmo local que a origem.
      3. Clique em Extrair.
      4. No editor do BigQuery, uma consulta pré-preenchida é aberta usando a função ML.PROCESS_DOCUMENT. Execute a consulta para criar tabelas e visualizações padrão.

      Para mais informações sobre como usar o SQL para extrair insights de documentos, consulte Processar documentos com a função ML.PROCESS_DOCUMENT.

    • Extrair por pipeline:escolha essa opção para processamento de dados em grande escala ou quando você precisar de uma lógica de nova tentativa robusta, tratamento de erros e orquestração automatizada para lidar com grandes volumes de documentos.

      Para extrair usando um pipeline, siga estas etapas:

      1. Selecione Extrair por pipeline.
      2. No painel Extrair com pipeline, insira um nome de exibição para o pipeline.
      3. Selecione uma região.
      4. Selecione um conjunto de dados de destino. O conjunto de dados precisa estar no mesmo local que a origem.
      5. Clique em Extrair. Isso cria um pipeline do BigQuery que orquestra a materialização de dados usando o Dataform.
      6. Execute todas as tarefas no pipeline para gerar visualizações estruturadas de nós e arestas.

      Para mais informações sobre a execução de fluxos de trabalho de dados, consulte Introdução ao Dataform.

Depois de extrair e materializar os insights semânticos no BigQuery, você pode realizar as seguintes tarefas:

  • Consulte os dados estruturados.Execute consultas SQL padrão nas tabelas recém-criadas para analisar as entidades e os relacionamentos extraídos.

  • Fazer junção com dados atuais. Combine os insights qualitativos extraídos dos seus arquivos não estruturados com os conjuntos de dados estruturados do BigQuery (como a junção de dados de faturas analisados com suas tabelas de contabilidade).

  • Analise insights de dados.Use o recurso Insights de dados no BigQuery Studio para gerar automaticamente perguntas em linguagem natural e consultas SQL para seus novos recursos estruturados.

  • Analise com o Gemini.Use o Gemini no BigQuery para fazer análises de conversação, resumir tendências ou criar painéis no Data Studio com base nos dados extraídos.

A seguir