Uma verificação de perfil de dados para dados não estruturados (UnstructuredDataProfileSpec) com tecnologia dos modelos Gemini 2.5 Pro da Vertex AI analisa as tabelas de objetos do BigQuery para transformar arquivos brutos e não estruturados no Cloud Storage (como PDFs) em recursos estruturados e pesquisáveis. Esse fluxo de trabalho independente foi criado para usuários que já têm tabelas de objetos do BigQuery e ajuda a orientar a extração com um comando personalizado. Se você estiver começando com arquivos brutos no Cloud Storage e quiser um fluxo de trabalho de descoberta automatizado, consulte Usar a verificação de descoberta para dados não estruturados.
Neste documento, descrevemos como configurar as permissões necessárias, preparar a tabela de objetos, criar uma verificação de perfil de dados para dados não estruturados usando a API REST, conferir os insights gerados, organizar perfis de gráficos e extrair os dados para o BigQuery.
Antes de começar
Antes de criar uma verificação do perfil de dados para dados não estruturados, verifique se você tem as permissões necessárias e as APIs ativadas.
Ativar APIs
Ativar as APIs a seguir no projeto:
dataplex.googleapis.combigquery.googleapis.comaiplatform.googleapis.com(Vertex AI)
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Papéis e permissões necessárias
A inferência semântica de dados não estruturados é um recurso avançado de verificação do perfil de dados que opera em tabelas de objetos do BigQuery. Para configurar e executar a criação de perfil de dados não estruturados, você precisa atender às permissões básicas para acessar a tabela de objetos e conceder papéis adicionais para inferência semântica em vários agentes de serviço.
Funções básicas da tabela de objetos
Para acessar e consultar uma tabela de objetos do BigQuery, verifique se você e as contas de serviço usadas pelo Knowledge Catalog têm os seguintes papéis básicos do Identity and Access Management (IAM) no projeto:
- Leitor de dados do BigQuery (
roles/bigquery.dataViewer) - Usuário de conexão do BigQuery (
roles/bigquery.connectionUser)
Para uma lista completa de pré-requisitos de tabelas de objetos, consulte Criar tabelas de objetos.
Outros papéis para inferência semântica
Além do acesso à tabela de base, verifique se você e as contas de serviço têm os seguintes papéis adicionais do IAM.
Resumo de outras identidades e papéis
| Tipo de identidade | Formato principal típico | Papéis necessários do IAM | Propósito principal |
|---|---|---|---|
| Usuário final | Sua conta de usuário do Google Cloud |
|
Você usa esses papéis adicionais para configurar verificações, ver resultados gerados com IA, organizar perfis de grafos e acionar a extração de dados final. |
| Agente de descoberta do Dataplex Universal Catalog | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
Esse agente de serviço gerenciado pelo Google usa essas funções adicionais para chamar a Vertex AI e gerar esquemas e metadados inferidos. |
| Conta de serviço de conexão do BigQuery | Uma identidade exclusiva associada à sua conexão (por exemplo, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com) |
|
Ele conecta o BigQuery ao armazenamento externo, permitindo que o BigQuery leia os arquivos brutos, crie tabelas de objetos e execute inferências de IA sem expor suas credenciais de usuário pessoais. |
| Conta de serviço de execução de pipeline (opcional) | Uma conta serviço gerenciado pelo usuário |
|
Se você optar por extrair dados usando um pipeline automatizado, essa identidade vai executar os jobs em segundo plano para materializar as entidades geradas por IA em tabelas do BigQuery. |
| Conta de serviço padrão do Dataform (opcional) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
Ao usar o método de extração de pipeline, o Dataform precisa de permissão para personificar sua conta de serviço de execução de pipeline e orquestrar o fluxo de trabalho. |
Permissões e funções do usuário final
Para garantir que sua conta de usuário tenha as permissões necessárias para criar verificações, ver insights, organizar perfis de gráficos e extrair dados, peça ao administrador para conceder os seguintes papéis do IAM à sua conta de usuário no projeto:
-
Criar verificações e conferir insights:
- Editor do DataScan do Dataplex (
roles/dataplex.dataScanEditor) - Editor do catálogo do Dataplex (
roles/dataplex.catalogEditor)
- Editor do DataScan do Dataplex (
-
Extraia dados usando SQL ou um pipeline:
- Editor de dados do BigQuery (
roles/bigquery.dataEditor) - Usuário de jobs do BigQuery (
roles/bigquery.jobUser)
- Editor de dados do BigQuery (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para criar verificações, ver insights, organizar perfis de gráficos e extrair dados. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para criar verificações, ver insights, selecionar perfis de gráfico e extrair dados:
-
DataScans:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list -
dataplex.datascans.update
-
-
Extração de dados:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
O administrador também pode conceder à conta de serviço essas permissões com papéis personalizados ou outros papéis predefinidos.
Permissões e papéis do agente de serviço do Dataplex Discovery
O agente de serviço de descoberta do Dataplex é um agente de serviço que precisa de acesso para executar verificações e fazer inferências semânticas usando a Vertex AI.
Para garantir que o agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) tenha as permissões necessárias para executar verificações e fazer inferência semântica usando a Vertex AI,
peça ao administrador para conceder os seguintes papéis do IAM ao agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) no projeto:
-
Todos:
- Usuário da Vertex AI (
roles/aiplatform.user) - Agente de serviço de descoberta do Dataplex (
roles/dataplex.discoveryServiceAgent) - Usuário de jobs do BigQuery (
roles/bigquery.jobUser) - Visualizador de dados do BigQuery (
roles/bigquery.dataViewer)
- Usuário da Vertex AI (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para executar verificações e fazer inferência semântica usando a Vertex AI. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para executar verificações e fazer inferência semântica usando a Vertex AI:
-
Todos:
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
bigquery.tables.get -
bigquery.tables.getData -
storage.buckets.get -
storage.objects.get -
storage.objects.list
-
O administrador também pode conceder ao agente de serviço de descoberta do Dataplex (geralmente service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)
essas permissões
com papéis personalizados ou
outros papéis predefinidos.
Permissões e papéis da conta de serviço de conexão do BigQuery
Uma conexão a recursos do Cloud do BigQuery permite que o Knowledge Catalog acesse dados não estruturados armazenados no Cloud Storage. Quando você cria uma conexão, o BigQuery cria automaticamente uma conta de serviço dedicada em seu nome. Essa conta de serviço serve como a identidade usada para se conectar à sua fonte de dados externa.
Por padrão, essa conta de serviço não tem permissões. Você precisa conceder explicitamente a essa conta de serviço os papéis do IAM necessários nos buckets do Cloud Storage que contêm seus dados. É possível usar uma conexão do BigQuery ou criar uma no mesmo local do bucket de origem do Cloud Storage. Para mais informações sobre como compartilhar conexões, consulte Compartilhar uma conexão com usuários.
Para garantir que a conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão) tenha as permissões necessárias para ler tabelas de objetos e executar inferências, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão):
-
Todos:
- Leitor de objetos do Storage (
roles/storage.objectViewer) no bucket que contém dados não estruturados - Usuário da Vertex AI (
roles/aiplatform.user) no projeto
- Leitor de objetos do Storage (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para ler tabelas de objetos e executar inferências. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para ler tabelas de objetos e executar inferências:
-
Todos:
-
storage.buckets.getno bucket que contém dados não estruturados -
storage.objects.getno bucket que contém dados não estruturados -
aiplatform.endpoints.predictno projeto
-
O administrador também pode conceder essas permissões à conta de serviço de conexão do BigQuery (recupere o ID na seção Informações de conexão dos detalhes da conexão) com papéis personalizados ou outros papéis predefinidos.
Papéis e permissões da conta de serviço de execução do pipeline (opcional)
Se você optar por extrair os dados inferidos usando um pipeline automatizado, crie ou forneça uma conta de serviço dedicada para executar o pipeline. Essa conta de serviço de execução atua como a identidade que autentica e executa as tarefas de extração de dados e análise em segundo plano no BigQuery. Além disso, é necessário conceder à conta de serviço padrão do Dataform permissão para personificar essa conta de serviço de execução.
Para garantir que a conta de serviço de execução do pipeline tenha as permissões necessárias para extrair as entidades e relações inferidas usando um pipeline, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço de execução do pipeline no projeto:
-
Todos:
- Editor de dados do BigQuery (
roles/bigquery.dataEditor) - Usuário de jobs do BigQuery (
roles/bigquery.jobUser) - Usuário do BigQuery (
roles/bigquery.user) - Usuário da Vertex AI (
roles/aiplatform.user)
- Editor de dados do BigQuery (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para extrair as entidades e os relacionamentos inferidos usando um pipeline. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para extrair as entidades e relações inferidas usando um pipeline:
-
Todos:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
-
O administrador também pode conceder essas permissões à conta de serviço de execução de pipeline com papéis personalizados ou outros papéis predefinidos.
Para garantir que a conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) tenha as permissões necessárias para representar a conta de serviço de execução do pipeline, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) na conta de serviço de execução do pipeline:
-
Todos:
Criador do token da conta de serviço (
roles/iam.serviceAccountTokenCreator)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para representar a conta de serviço de execução do pipeline. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para representar a conta de serviço de execução do pipeline:
-
Todos:
iam.serviceAccounts.getAccessToken
O administrador também pode conceder à conta de serviço padrão do Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com)
essas permissões
com papéis personalizados ou
outros papéis predefinidos.
Preparar a tabela de objetos
Uma verificação do perfil de dados para dados não estruturados opera diretamente em uma tabela de objetos do BigQuery. Antes de criar a verificação, confira se os dados não estruturados (como PDFs) estão armazenados em um bucket do Cloud Storage e se você criou uma tabela de objetos correspondente do BigQuery nesse bucket usando uma conexão a recursos do Cloud.
Verifique se você e a conta de serviço do Knowledge Catalog têm o papel Usuário de conexão do BigQuery (roles/bigquery.connectionUser) na conexão usada pela tabela de objetos.
Para mais informações sobre como criar tabelas de objetos e configurar a conexão necessária, consulte Criar tabelas de objetos.
Criar uma verificação de perfil de dados para dados não estruturados
Para extrair insights semânticos da sua tabela de objetos, crie uma verificação de perfil de dados para dados não estruturados (UnstructuredDataProfileSpec). Essa verificação usa modelos do Gemini 2.5 Pro da Vertex AI para analisar os arquivos não estruturados referenciados pela tabela de objetos e gerar metadados, esquemas e relações inferidos.
Nesta versão inicial, a criação de verificações é compatível exclusivamente com o uso da API REST.
Para criar uma verificação do perfil de dados para dados não estruturados usando a API REST, use o método
dataScans.create
com um unstructuredDataProfileSpec.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN { "description": "Data profile scan for unstructured data", "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "unstructuredDataProfileSpec": { "customizedPrompt": "", "graphProfilePublishingEnabled": false } }
Substitua:
PROJECT_ID: o ID do seu Google Cloud projeto.LOCATION: a região Google Cloud (precisa ser compatível com o Gemini 2.5 Pro).DATASCAN: o nome da verificação do perfil de dados.DATASET_IDeTABLE_ID: o nome do conjunto de dados e da tabela de objetos do BigQuery.
Parâmetros de especificação da verificação de perfil de dados
customizedPrompt: opcional. Um comando em linguagem natural que instrui o Gemini sobre entidades ou contexto de domínio específicos a serem extraídos (por exemplo,Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Por padrão, esse é uma string vazia (""). Há um limite no comprimento máximo de caracteres para comandos personalizados.graphProfilePublishingEnabled: opcional. Se o perfil de gráfico inferido deve ser publicado automaticamente no catálogo após a conclusão da verificação. Por padrão, essa opção éfalse.
O Knowledge Catalog executa a verificação do perfil de dados e enriquece a entrada do catálogo com metadados gerados por IA. Esse processo geralmente leva alguns minutos para conjuntos de dados padrão.
Exemplo: extrair termos de contrato de PDFs do vendedor
O exemplo a seguir mostra uma solicitação de API REST para uma empresa de varejo de exemplo criando uma verificação do perfil de dados (seller-contracts-scan) para analisar PDFs de contratos de vendedores armazenados em uma tabela de objetos (seller_agreements_obj_table). Ele usa um comando personalizado para instruir o Gemini a extrair termos comerciais específicos, como taxas de comissão e condições de pagamento:
POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
"description": "Data profile scan for seller PDF agreements",
"data": {
"resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
},
"executionSpec": {
"trigger": {
"onDemand": {}
}
},
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
}
}
Executar a verificação do perfil de dados
Se você configurou a verificação de perfil de dados para ser executada sob demanda, é necessário acionar manualmente a verificação para analisar seus dados não estruturados.
Para executar uma verificação de perfil de dados sob demanda usando a API REST, use o método
dataScans.run:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"
Substitua:
PROJECT_ID: o ID do seu Google Cloud projeto.LOCATION: a Google Cloud região em que a verificação do perfil de dados está localizada.DATASCAN: o nome da verificação do perfil de dados.
Analisar os resultados da verificação de perfil de dados
Depois que a verificação do perfil de dados for concluída, o Knowledge Catalog vai gerar um perfil de gráfico com os esquemas inferidos para entidades e relacionamentos. É possível analisar esses resultados usando o console do Google Cloud ou a API REST.
Console
Se você ativou a publicação de perfis de gráficos no catálogo
(graphProfilePublishingEnabled: true), é possível conferir a tabela de objetos e
os gráficos semânticos inferidos no Knowledge Catalog:
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Cole e pesquise a tabela de objetos cujo ID você configurou na verificação.
Nos resultados da pesquisa, clique na tabela para abrir a página de entrada.
Na guia Detalhes, em Aspectos, verifique a presença do aspecto Perfil de gráfico (
dataplex-types.global.graph-profile). Esse aspecto contém os esquemas inferidos para entidades e relacionamentos.Clique na guia Insights. Na guia Insights, você pode conferir as seguintes informações:
Extração semântica: um banner indica que entidades e relações extraíveis foram detectadas. Ele inclui um botão Extrair para materializar os dados usando SQL ou implantação de pipeline.
Descrição: Um resumo legível por humanos gerado com IA explica o conteúdo dos dados não estruturados. Ele descreve os nós principais (entidades) descobertos e como eles se mapeiam uns aos outros por arestas (relações).
Pipelines: uma lista de pipelines de extração de dados implantados anteriormente associados a esse recurso. É possível conferir o nome de exibição, a região, a hora de criação e o usuário que criou o pipeline.
Entidades e relações inferidas. Um gráfico visual e interativo mostra a estrutura semântica descoberta dos seus dados não estruturados. O gráfico contém nós que representam entidades distintas, por exemplo,
RecipeeIngredient, e arestas que representam as conexões entre elas, por exemplo,HasAllergenStatus. Use a legenda para filtrar e analisar nós e arestas específicos.Entidades: uma lista detalhada das principais entidades descobertas. É possível abrir cada uma para conferir a descrição gerada por IA e o esquema inferido, que inclui nomes de campos, tipos de dados e descrições de campos.
Relacionamentos: uma lista detalhada das conexões descobertas entre entidades. É possível abrir cada relacionamento para ver a descrição e o esquema que define como as entidades se relacionam.
REST
Para recuperar os resultados do perfil de gráfico diretamente da execução do job de verificação
usando a API REST, use o método
dataScans.jobs.get
com view=full:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"
Substitua:
PROJECT_ID: o ID do seu Google Cloud projeto.LOCATION: a Google Cloud região em que a verificação do perfil de dados está localizada.DATASCAN: o nome da verificação do perfil de dados.JOB_ID: o ID exclusivo da execução do job de verificação do perfil de dados.
O exemplo a seguir mostra a resposta para o job seller-contracts-scan, incluindo unstructuredDataProfileResult e graphProfile:
{
"name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
"uid": "123e4567-e89b-12d3-a456-426614174000",
"startTime": "2026-06-08T19:12:03.102Z",
"endTime": "2026-06-08T19:15:28.415Z",
"state": "SUCCEEDED",
"type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
},
"unstructuredDataProfileResult": {
"description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
"graphProfile": {
"nodeTypes": [
{
"name": "Seller Entity",
"description": "Discovered business entity representing the seller.",
"fields": [
{
"name": "seller_name",
"dataType": "STRING",
"description": "The legal name of the seller.",
"mode": "NULLABLE"
},
{
"name": "address",
"dataType": "STRING",
"description": "The physical or mailing address of the seller.",
"mode": "NULLABLE"
}
]
},
{
"name": "Commission Rate",
"description": "Discovered agreed commission rate terms.",
"fields": [
{
"name": "rate_percentage",
"dataType": "NUMBER",
"description": "The agreed commission percentage.",
"mode": "NULLABLE"
}
]
},
{
"name": "Payment Terms",
"description": "Discovered payment schedule and terms.",
"fields": [
{
"name": "billing_cycle",
"dataType": "STRING",
"description": "The agreed billing frequency or payment schedule.",
"mode": "NULLABLE"
}
]
}
],
"edgeTypes": [
{
"name": "AgreedCommission",
"description": "Defines the commission rate agreed by the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Commission Rate"
},
{
"name": "HasPaymentTerms",
"description": "Defines the payment terms applicable to the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Payment Terms"
}
]
}
}
}
Atualizar insights inferidos
Os insights inferidos são armazenados no catálogo do Knowledge Catalog como um aspecto anexado à tabela de objetos. É possível atualizar esses insights manualmente usando a API REST.
REST
Para atualizar insights inferidos usando a API REST, siga estas etapas:
Crie um arquivo chamado
payload.jsone adicione o conteúdo JSON do aspecto que você quer atualizar. Exemplo:{ "aspects": { "dataplex-types.global.graph-profile": { "data": { "nodeTypes": [], "edgeTypes": [] } } } }Execute o comando a seguir no terminal.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"Substitua:
PROJECT_ID: o ID do seu projeto. Por exemplo,example-project.LOCATION: o local da entrada. Por exemplo,us-central1.ENTRY_GROUP_ID: o ID do grupo de entradas, por exemplo,example-entry-group. Para tabelas de objetos do BigQuery, use@bigquery.ENTRY_ID: o ID da entrada. Por exemplo,example-entry. Recupere esse ID na guia Visão geral da página de detalhes da entrada no console do Google Cloud .
Para mais informações e exemplos de código em outros idiomas, consulte Atualizar um aspecto de entrada.
Extrair dados para o BigQuery
É possível materializar as entidades e relações inferidas em tabelas ou visualizações estruturadas no BigQuery usando SQL ou um pipeline automatizado.
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Pesquise a tabela de objetos gerada pela sua verificação.
Nos resultados da pesquisa, clique na tabela para abrir a página de entrada.
Clique na guia Insights.
Na guia Insights, clique em Extração.
Escolha um dos seguintes métodos com base nas suas necessidades analíticas e na escala dos dados não estruturados:
Extração por SQL:escolha essa opção para análises rápidas e ad hoc, conjuntos de dados pequenos a médios ou quando quiser uma abordagem sem infraestrutura usando modelos remotos do BigQuery.
Para extrair usando SQL, siga estas etapas:
- Selecione Extrair por SQL.
- No painel Extrair com SQL, selecione um conjunto de dados de destino. O conjunto de dados precisa estar no mesmo local que a origem.
- Clique em Extrair.
- No editor do BigQuery, uma consulta pré-preenchida é aberta usando a função
ML.PROCESS_DOCUMENT. Execute a consulta para criar tabelas e visualizações padrão.
Para mais informações sobre como usar o SQL para extrair insights de documentos, consulte Processar documentos com a função
ML.PROCESS_DOCUMENT.Extrair por pipeline:escolha essa opção para processamento de dados em grande escala ou quando você precisar de uma lógica de nova tentativa robusta, tratamento de erros e orquestração automatizada para lidar com grandes volumes de documentos.
Para extrair usando um pipeline, siga estas etapas:
- Selecione Extrair por pipeline.
- No painel Extrair com pipeline, insira um nome de exibição para o pipeline.
- Selecione uma região.
- Selecione um conjunto de dados de destino. O conjunto de dados precisa estar no mesmo local que a origem.
- Clique em Extrair. Isso cria um pipeline do BigQuery que orquestra a materialização de dados usando o Dataform.
- Execute todas as tarefas no pipeline para gerar visualizações estruturadas de nós e arestas.
Para mais informações sobre a execução de fluxos de trabalho de dados, consulte Introdução ao Dataform.
Depois de extrair e materializar os insights semânticos no BigQuery, você pode realizar as seguintes tarefas:
Consulte os dados estruturados.Execute consultas SQL padrão nas tabelas recém-criadas para analisar as entidades e os relacionamentos extraídos.
Fazer junção com dados atuais. Combine os insights qualitativos extraídos dos seus arquivos não estruturados com os conjuntos de dados estruturados do BigQuery (como a junção de dados de faturas analisados com suas tabelas de contabilidade).
Analise insights de dados.Use o recurso Insights de dados no BigQuery Studio para gerar automaticamente perguntas em linguagem natural e consultas SQL para seus novos recursos estruturados.
Analise com o Gemini.Use o Gemini no BigQuery para fazer análises de conversação, resumir tendências ou criar painéis no Data Studio com base nos dados extraídos.
A seguir
- Saiba como usar a verificação de descoberta para dados não estruturados.
- Saiba mais sobre como descobrir dados.
- Leia Sobre a criação de perfil de dados.