Com o plug-in de origem em lote do Cloud Storage, é possível ler dados de buckets do Cloud Storage e transferi-los para o Cloud Data Fusion para processamento e transformação adicionais. Ele permite carregar dados de vários formatos de arquivo, incluindo:
- Estruturado: CSV, Avro, Parquet, ORC
- Semiestruturado: JSON, XML
- Outros: texto, binário
Antes de começar
O Cloud Data Fusion geralmente tem duas contas de serviço:
- Conta de serviço de tempo de design: Agente de serviço da API Data Fusion do Cloud
- Conta de serviço de tempo de execução: Conta de serviço do Compute Engine
Antes de usar o plug-in de origem em lote do Cloud Storage, conceda a função ou as permissões a seguir a cada conta de serviço.
Agente de serviço da API Data Fusion
Essa conta de serviço já tem todas as permissões necessárias, e você não precisa adicionar outras.
Conta de serviço do Compute Engine
No seu projeto Google Cloud , conceda os seguintes papéis ou permissões do IAM à conta de serviço do Compute Engine:
- Leitor de bucket legado do Storage (
roles/storage.legacyBucketReader). Esse papel predefinido contém a permissãostorage.buckets.getnecessária. Leitor de objetos do Storage (
roles/storage.legacyBucketReader). Esse papel predefinido contém as seguintes permissões necessárias:storage.objects.getstorage.objects.list
Configurar o plug-in
- Acesse a interface da Web do Cloud Data Fusion e clique em Studio.
- Verifique se Pipeline de dados – lote está selecionado (não Tempo real).
- No menu Origem, clique em GCS. O nó do Cloud Storage aparece no pipeline.
- Para configurar a origem, acesse o nó do Cloud Storage e clique em Propriedades.
Insira as seguintes propriedades. Para uma lista completa, consulte Propriedades.
- Insira um Rótulo para o nó do Cloud Storage. Por exemplo,
Cloud Storage tables. Insira os detalhes da conexão. É possível configurar uma conexão única ou uma conexão reutilizável.
Nova conexão
Para adicionar uma conexão única ao Cloud Storage, siga estas etapas:
- Mantenha a opção Usar conexão desativada.
- No campo ID do projeto, deixe o valor como "Detecção automática".
No campo Tipo de conta de serviço, deixe o valor como Caminho do arquivo e o Caminho do arquivo da conta de serviço como detecção automática.
Conexão reutilizável
Para reutilizar uma conexão, siga estas etapas:
- Ative a opção Usar conexão.
- Clique em Procurar conexões.
Clique no nome da conexão, por exemplo, Padrão do Cloud Storage.
Opcional: se uma conexão não existir e você quiser criar uma nova conexão reutilizável, clique em Adicionar conexão e consulte as etapas na guia Nova conexão desta página.
No campo Nome de referência, insira um nome para usar na linhagem, por exemplo,
data-fusion-gcs-campaign.No campo Caminho, insira o caminho de leitura, por exemplo,
gs://BUCKET_PATH.No campo Formato, selecione um dos seguintes formatos de arquivo para os dados que estão sendo lidos:
- avro
- blob (o formato blob exige um esquema que contenha um campo chamado "body" do tipo bytes)
- csv
- delimitado
- json
- parquet
- text (o formato de texto exige um esquema que contenha um campo chamado "body" do tipo string)
- tsv
- O nome de qualquer plug-in de formato implantado no seu ambiente
Opcional: para testar a conectividade, clique em Gerar esquema.
Opcional: no campo Tamanho da amostra, insira o número máximo de linhas a serem verificadas para o tipo de dados selecionado, por exemplo,
1000.Opcional: no campo Substituir, insira os nomes das colunas e os respectivos tipos de dados a serem ignorados.
Opcional: insira Propriedades avançadas, como um tamanho mínimo de divisão ou um filtro de caminho de expressão regular (consulte Propriedades).
Opcional: no campo Nome do bucket temporário, insira um nome para o bucket do Cloud Storage.
- Insira um Rótulo para o nó do Cloud Storage. Por exemplo,
Opcional: clique em Validar e corrija os erros encontrados.
Clique em Fechar. As propriedades são salvas, e você pode continuar criando seu pipeline de dados no Cloud Data Fusion Studio.
Propriedades
| Propriedade | Ativada para macros | Propriedade obrigatória | Descrição |
|---|---|---|---|
| Rótulo | Não | Sim | O nome do nó no pipeline de dados. |
| Usar conexão | Não | Não | Procure uma conexão reutilizável com a origem. Para mais informações sobre como adicionar, importar e editar as conexões que aparecem quando você navega por elas, consulte Gerenciar conexões. |
| Conexão | Sim | Sim | Se a opção Usar conexão estiver ativada, o nome da conexão reutilizável selecionada vai aparecer nesse campo. |
| ID do projeto | Sim | Não | Usado somente quando a opção Usar conexão está desativada. Um identificador globalmente exclusivo para o projeto. O padrão é auto-detect. |
| Tipo de conta de serviço | Sim | Não | Selecione uma das seguintes opções:
|
| Em Service account file path, digite o caminho do arquivo da conta de serviço. | Sim | Não | Usado somente quando o valor do tipo de conta de serviço é Caminho do arquivo. O caminho no sistema de arquivos local da chave da conta de serviço
usada para autorização. Se os jobs forem executados em clusters do Serviço Gerenciado para Apache Spark, defina o valor como "detecção automática". Se os jobs forem executados em outros tipos de clusters, o
arquivo precisará estar presente em todos os nós do cluster. O padrão é auto-detect. |
| JSON da conta de serviço | Sim | Não | Usado apenas quando o valor do tipo de conta de serviço é JSON. O conteúdo do arquivo JSON da conta de serviço. |
| Nome de referência | Não | Sim | Nome que identifica exclusivamente essa origem para outros serviços, como linhagem e anotação de metadados. |
| Caminho | Sim | Sim | Caminho para os arquivos a serem lidos. Se um diretório for especificado, termine o
caminho com uma barra invertida (/). Por exemplo,
gs://bucket/path/to/directory/. Para corresponder a um padrão de nome de arquivo,
use um asterisco (*) como caractere curinga. Se nenhum arquivo for
encontrado ou correspondente, o pipeline vai falhar. |
| Formato | Não | Sim | Formato dos dados a serem lidos. O formato precisa ser um dos seguintes:
|
| Tamanho da amostra | Sim | Não | O número máximo de linhas investigadas para detecção automática do tipo de dados. O padrão é 1000. |
| Substituir | Sim | Não | Uma lista de colunas com os dados correspondentes em que a detecção automática de tipo de dados é ignorada. |
| Delimitador | Sim | Não | Delimitador a ser usado quando o formato é delimitado. Essa propriedade é ignorada para outros formatos. |
| Ativar valores cotados | Sim | Não | Define se o conteúdo entre aspas deve ser tratado como um valor. Essa propriedade é usada apenas para os formatos csv, tsv ou delimitado. Por exemplo, se essa propriedade for definida como
"true", o seguinte vai gerar dois campos: 1, "a, b, c".
O primeiro campo tem 1 como valor. O segundo tem
a, b, c. Os caracteres de aspas são cortados. O delimitador de nova linha não pode estar entre aspas.O plug-in pressupõe que as aspas estão entre chaves corretamente, por exemplo, "a, b, c". Não fechar uma citação ("a,b,c,) causa
um erro.O valor padrão é Falso. |
| Usar a primeira linha como cabeçalho | Sim | Não | Se a primeira linha de cada arquivo será usada como o cabeçalho da coluna. Os formatos compatíveis são text, csv, tsv e delimited. O padrão é False. |
| Tamanho mínimo da divisão | Sim | Não | Tamanho mínimo, em bytes, de cada partição de entrada. Partições menores aumentam o nível de paralelismo, mas exigem mais recursos e sobrecarga.
Se o valor do Formato for blob, não será possível dividir
os dados. |
| Tamanho máximo da divisão | Sim | Não | Tamanho máximo, em bytes, para cada partição de entrada. Partições menores aumentam o nível de paralelismo, mas exigem mais recursos e sobrecarga.
Se o valor do Formato for blob, não será possível dividir
os dados.O padrão é 128 MB. |
| Filtro de caminho de regex | Sim | Não | Expressão regular que os caminhos de arquivo precisam corresponder para serem incluídos na entrada. O caminho completo é comparado, não apenas o nome do arquivo. Se nenhum arquivo for fornecido, nenhuma filtragem será feita. Para mais informações sobre a sintaxe de expressão regular, consulte Padrão. |
| Campo "Caminho" | Sim | Não | Campo de saída para colocar o caminho do arquivo de onde o registro foi lido. Se não for especificado, o caminho não será incluído nos registros de saída. Se especificado, o campo precisa existir no esquema de saída como uma string. |
| Apenas nome do arquivo do caminho | Sim | Não | Se uma propriedade Campo de caminho estiver definida, use apenas o nome do arquivo e não o URI do caminho. O padrão é False. |
| Ler arquivos recursivamente | Sim | Não | Indica se os arquivos serão lidos recursivamente do caminho. O padrão é False. |
| Permitir entrada vazia | Sim | Não | Se é permitido um caminho de entrada que não contém dados. Quando definido como False, o plug-in vai gerar um erro quando não houver dados para ler. Quando definido como True, nenhum erro é gerado e zero registros são lidos. O padrão é False. |
| Arquivo de dados criptografado | Sim | Não | Se os arquivos estão criptografados. Para mais informações, consulte
Criptografia de arquivos de dados. O padrão é False. |
| Sufixo do arquivo de metadados de criptografia | Sim | Não | O sufixo do nome de arquivo para o arquivo de metadados de criptografia. O padrão é metadata. |
| Propriedades do sistema de arquivos | Sim | Não | Outras propriedades a serem usadas com o InputFormat ao ler os dados. |
| Codificação de arquivo | Sim | Não | A codificação de caracteres dos arquivos a serem lidos. O padrão é UTF-8. |
| Esquema de saída | Sim | Não | Se uma propriedade Campo de caminho for definida, ela precisará estar presente no esquema como uma string. |
Criptografia de arquivos de dados
Esta seção descreve a propriedade Criptografia de arquivo de dados. Se você definir como true, os arquivos serão descriptografados
usando o AEAD de streaming fornecido pela
biblioteca do Tink. Cada arquivo de dados precisa ser acompanhado de um arquivo de metadados com as informações de criptografia. Por exemplo, um arquivo de dados criptografados em
gs://BUCKET/PATH_TO_DIRECTORY/file1.csv.enc
precisa ter um arquivo de metadados em gs://BUCKET/
PATH_TO_DIRECTORY/file1.csv.enc.metadata. O arquivo de metadados contém um objeto JSON com as seguintes propriedades:
| Propriedade | Descrição |
|---|---|
kms |
O URI do Cloud Key Management Service usado para criptografar a chave de criptografia de dados. |
aad |
Os dados autenticados extras codificados em Base64 usados na criptografia. |
key set |
Um objeto JSON que representa as informações serializadas do conjunto de chaves da biblioteca Tink. |
Exemplo
/* Counting example */ { "kms": "gcp-kms://projects/my-key-project/locations/us-west1/keyRings/my-key-ring/cryptoKeys/mykey", "aad": "73iT4SUJBM24umXecCCf3A==", "keyset": { "keysetInfo": { "primaryKeyId": 602257784, "keyInfo": [{ "typeUrl": "type.googleapis.com/google.crypto.tink.AesGcmHkdfStreamingKey", "outputPrefixType": "RAW", "keyId": 602257784, "status": "ENABLED" }] }, "encryptedKeyset": "CiQAz5HH+nUA0Zuqnz4LCnBEVTHS72s/zwjpcnAMIPGpW6kxLggSrAEAcJKHmXeg8kfJ3GD4GuFeWDZzgGn3tfolk6Yf5d7rxKxDEChIMWJWGhWlDHbBW5B9HqWfKx2nQWSC+zjM8FLefVtPYrdJ8n6Eg8ksAnSyXmhN5LoIj6az3XBugtXvCCotQHrBuyoDY+j5ZH9J4tm/bzrLEjCdWAc+oAlhsUAV77jZhowJr6EBiyVuRVfcwLwiscWkQ9J7jjHc7ih9HKfnqAZmQ6iWP36OMrEn" } }
Notas de lançamento
A seguir
- Saiba mais sobre plug-ins no Cloud Data Fusion.