"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modelo do JDBC para o Cloud Storage

Use o modelo JDBC para Cloud Storage do Serviço gerenciado para Apache Spark para extrair dados de bancos de dados JDBC para o Cloud Storage.

Esse modelo aceita os seguintes bancos de dados como entrada:

MySQL
PostgreSQL
Microsoft SQL Server
Oracle

Use o modelo

Execute o modelo usando a CLI gcloud ou a API Serviço Gerenciado para Apache Spark.

gcloud

Antes de usar os dados do comando abaixo, faça estas substituições:

PROJECT_ID: obrigatório. O ID do seu projeto Google Cloud listado nas configurações do IAM.
REGION: obrigatório. região do Compute Engine.
SUBNET: opcional. Se uma sub-rede não for especificada, a sub-rede na REGIÃO especificada na rede default será selecionada.
Exemplo: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

JDBC_CONNECTOR_CLOUD_STORAGE_PATH: obrigatório. O caminho completo do Cloud Storage, incluindo o nome do arquivo, em que o JAR do conector JDBC está armazenado. Use os comandos a seguir para fazer o download dos conectores JDBC para upload no Cloud Storage:

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

SQL do Postgres:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

As seguintes variáveis são usadas para construir o JDBC_CONNECTION_URL obrigatório:

JDBC_HOST
JDBC_PORT
JDBC_DATABASE ou, para o Oracle, JDBC_SERVICE
JDBC_USERNAME
JDBC_PASSWORD

Crie o JDBC_CONNECTION_URL usando um dos seguintes formatos específicos do conector:

MySQL:

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

SQL do Postgres:

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server:

 
jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle:

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

DRIVER: obrigatório. O driver JDBC usado para a conexão:

MySQL:
```
com.mysql.cj.jdbc.Driver
        
```
SQL do Postgres:
```
org.postgresql.Driver
        
```

Microsoft SQL Server:

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle:

oracle.jdbc.driver.OracleDriver

FORMAT: obrigatório. Formato dos dados de saída. Opções: avro, parquet, csv ou json. Padrão: avro. Observação:se avro, adicione "file:///usr/lib/spark/connector/spark-avro.jar" à flag jars da CLI gcloud ou ao campo da API.
Exemplo (o prefixo file:// faz referência a um arquivo JAR do Serviço Gerenciado para Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... outros jars]
MODE: obrigatório. Modo de gravação para saída do Cloud Storage. Opções: append, overwrite, ignore ou errorifexists.
TEMPLATE_VERSION: obrigatório. Especifique latest para a versão mais recente do modelo ou a data de uma versão específica, por exemplo, 2023-03-17_v0.1.0-beta. Acesse gs://templates-binaries ou execute gcloud storage ls gs://templates-binaries para listar as versões disponíveis do modelo.
CLOUD_STORAGE_OUTPUT_PATH: obrigatório. Caminho do Cloud Storage em que a saída será armazenada.
Exemplo: gs://templates/jdbc_to_cloud_storage_output
LOG_LEVEL: opcional. Nível de geração de registros. Pode ser um de ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE ou WARN. Padrão: INFO.
INPUT_PARTITION_COLUMN, LOWERBOUND, UPPERBOUND, NUM_PARTITIONS: opcional. Se usado, todos os parâmetros a seguir precisam ser especificados:
- INPUT_PARTITION_COLUMN: nome da coluna de partição da tabela de entrada do JDBC.
- LOWERBOUND: limite inferior da coluna de partição da tabela de entrada do JDBC usado para determinar a amplitude da partição.
- UPPERBOUND:limite superior da coluna de partição da tabela de entrada do JDBC usado para decidir o incremento da partição.
- NUM_PARTITIONS::o número máximo de partições que podem ser usadas para paralelismo de leituras e gravações de tabelas. Se especificado, esse valor será usado para a conexão de entrada e saída do JDBC. Padrão: 10.
OUTPUT_PARTITION_COLUMN: opcional. Nome da coluna de partição de saída.
FETCHSIZE: opcional. Quantas linhas buscar por viagem de ida e volta. Padrão: 10.
QUERY ou QUERY_FILE: obrigatório. Defina QUERY ou QUERY_FILE para especificar a consulta a ser usada para extrair dados do JDBC.
TEMP_VIEW e TEMP_QUERY: opcional. É possível usar esses dois parâmetros opcionais para aplicar uma transformação do Spark SQL ao carregar dados no Cloud Storage. TEMPVIEW precisa ser igual ao nome da tabela usado na consulta, e TEMP_QUERY é a instrução de consulta.
SERVICE_ACCOUNT: opcional. Se não for fornecida, a conta de serviço padrão do Compute Engine será usada.
PROPERTY e PROPERTY_VALUE: opcional. Lista separada por vírgulas de pares propriedade do Spark=value.
LABEL e LABEL_VALUE: opcional. Lista separada por vírgulas de pares label=value.
JDBC_SESSION_INIT: opcional. Instrução de inicialização de sessão para ler modelos Java.
KMS_KEY: opcional. A chave do Cloud Key Management Service a ser usada para criptografia. Se uma chave não for especificada, os dados serão criptografados em repouso usando um Google-owned and Google-managed encryption key.
Exemplo: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

Execute o seguinte comando:

Linux, macOS ou Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --project="PROJECT_ID" \
    --region="REGION" \
    --version="1.2" \
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=JDBCTOGCS \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" \
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" \
    --templateProperty jdbctogcs.output.format="FORMAT" \
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" \
    --templateProperty jdbctogcs.sql="QUERY" \
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" \
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" \
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" \
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" \
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" \
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" \
    --templateProperty jdbctogcs.write.mode="MODE" \
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" \
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" \
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --project="PROJECT_ID" `
    --region="REGION" `
    --version="1.2" `
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=JDBCTOGCS `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" `
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" `
    --templateProperty jdbctogcs.output.format="FORMAT" `
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" `
    --templateProperty jdbctogcs.sql="QUERY" `
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" `
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" `
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" `
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" `
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" `
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" `
    --templateProperty jdbctogcs.write.mode="MODE" `
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" `
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" `
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

Windows (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --version="1.2" ^
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=JDBCTOGCS ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" ^
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" ^
    --templateProperty jdbctogcs.output.format="FORMAT" ^
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" ^
    --templateProperty jdbctogcs.sql="QUERY" ^
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" ^
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" ^
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" ^
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" ^
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" ^
    --templateProperty jdbctogcs.write.mode="MODE" ^
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" ^
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

PROJECT_ID: obrigatório. O ID do seu projeto Google Cloud listado nas configurações do IAM.
REGION: obrigatório. região do Compute Engine.
SUBNET: opcional. Se uma sub-rede não for especificada, a sub-rede na REGIÃO especificada na rede default será selecionada.
Exemplo: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

SQL do Postgres:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

As seguintes variáveis são usadas para construir o JDBC_CONNECTION_URL obrigatório:

JDBC_HOST
JDBC_PORT
JDBC_DATABASE ou, para o Oracle, JDBC_SERVICE
JDBC_USERNAME
JDBC_PASSWORD

Crie o JDBC_CONNECTION_URL usando um dos seguintes formatos específicos do conector:

MySQL:

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

SQL do Postgres:

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server:

 
jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle:

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

DRIVER: obrigatório. O driver JDBC usado para a conexão:

MySQL:
```
com.mysql.cj.jdbc.Driver
        
```
SQL do Postgres:
```
org.postgresql.Driver
        
```

Microsoft SQL Server:

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle:

oracle.jdbc.driver.OracleDriver

FORMAT: obrigatório. Formato dos dados de saída. Opções: avro, parquet, csv ou json. Padrão: avro. Observação:se avro, adicione "file:///usr/lib/spark/connector/spark-avro.jar" à flag jars da CLI gcloud ou ao campo da API.
Exemplo (o prefixo file:// faz referência a um arquivo JAR do Serviço Gerenciado para Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... outros jars]
MODE: obrigatório. Modo de gravação para saída do Cloud Storage. Opções: append, overwrite, ignore ou errorifexists.
TEMPLATE_VERSION: obrigatório. Especifique latest para a versão mais recente do modelo ou a data de uma versão específica, por exemplo, 2023-03-17_v0.1.0-beta. Acesse gs://templates-binaries ou execute gcloud storage ls gs://templates-binaries para listar as versões disponíveis do modelo.
CLOUD_STORAGE_OUTPUT_PATH: obrigatório. Caminho do Cloud Storage em que a saída será armazenada.
Exemplo: gs://templates/jdbc_to_cloud_storage_output
LOG_LEVEL: opcional. Nível de geração de registros. Pode ser um de ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE ou WARN. Padrão: INFO.
INPUT_PARTITION_COLUMN, LOWERBOUND, UPPERBOUND, NUM_PARTITIONS: opcional. Se usado, todos os parâmetros a seguir precisam ser especificados:
- INPUT_PARTITION_COLUMN: nome da coluna de partição da tabela de entrada do JDBC.
- LOWERBOUND: limite inferior da coluna de partição da tabela de entrada do JDBC usado para determinar a amplitude da partição.
- UPPERBOUND:limite superior da coluna de partição da tabela de entrada do JDBC usado para decidir o incremento da partição.
- NUM_PARTITIONS::o número máximo de partições que podem ser usadas para paralelismo de leituras e gravações de tabelas. Se especificado, esse valor será usado para a conexão de entrada e saída do JDBC. Padrão: 10.
OUTPUT_PARTITION_COLUMN: opcional. Nome da coluna de partição de saída.
FETCHSIZE: opcional. Quantas linhas buscar por viagem de ida e volta. Padrão: 10.
QUERY ou QUERY_FILE: obrigatório. Defina QUERY ou QUERY_FILE para especificar a consulta a ser usada para extrair dados do JDBC.
TEMP_VIEW e TEMP_QUERY: opcional. É possível usar esses dois parâmetros opcionais para aplicar uma transformação do Spark SQL ao carregar dados no Cloud Storage. TEMPVIEW precisa ser igual ao nome da tabela usado na consulta, e TEMP_QUERY é a instrução de consulta.
SERVICE_ACCOUNT: opcional. Se não for fornecida, a conta de serviço padrão do Compute Engine será usada.
PROPERTY e PROPERTY_VALUE: opcional. Lista separada por vírgulas de pares propriedade do Spark=value.
LABEL e LABEL_VALUE: opcional. Lista separada por vírgulas de pares label=value.
JDBC_SESSION_INIT: opcional. Instrução de inicialização de sessão para ler modelos Java.
KMS_KEY: opcional. A chave do Cloud Key Management Service a ser usada para criptografia. Se uma chave não for especificada, os dados serão criptografados em repouso usando um Google-owned and Google-managed encryption key.
Exemplo: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

Método HTTP e URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

Corpo JSON da solicitação:


{
  "environmentConfig": {
    "executionConfig": {
      "subnetworkUri": "SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template=JDBCTOGCS",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","jdbctogcs.jdbc.url=JDBC_CONNECTION_URL",
      "--templateProperty","jdbctogcs.jdbc.driver.class.name=DRIVER",
      "--templateProperty","jdbctogcs.output.location=CLOUD_STORAGE_OUTPUT_PATH",
      "--templateProperty","jdbctogcs.write.mode=MODE",
      "--templateProperty","jdbctogcs.output.format=FORMAT",
      "--templateProperty","jdbctogcs.sql.numPartitions=NUM_PARTITIONS",
      "--templateProperty","jdbctogcs.jdbc.fetchsize=FETCHSIZE",
      "--templateProperty","jdbctogcs.sql=QUERY",
      "--templateProperty","jdbctogcs.sql.file=QUERY_FILE",
      "--templateProperty","jdbctogcs.sql.partitionColumn=INPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctogcs.sql.lowerBound=LOWERBOUND",
      "--templateProperty","jdbctogcs.sql.upperBound=UPPERBOUND",
      "--templateProperty","jdbctogcs.output.partition.col=OUTPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctogcs.temp.table=TEMP_VIEW",
      "--templateProperty","jdbctogcs.temp.query=TEMP_QUERY",
      "--templateProperty","jdbctogcs.jdbc.sessioninitstatement=JDBC_SESSION_INIT"
    ],
    "jarFileUris": [
      "gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar", "JDBC_CONNECTOR_CLOUD_STORAGE_PATH"
    ]
  }
}

Para enviar a solicitação, expanda uma destas opções:

curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI do gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a esta:


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}