MySQL 到 BigQuery 範本

「MySQL 到 BigQuery」範本是一個批次管道，可將資料從 MySQL 資料表複製到現有的 BigQuery 資料表，這個管道會使用 JDBC 連線至 MySQL。為了增加多一層安全防護，您也可以傳遞 Cloud KMS 金鑰，以及使用 Cloud KMS 金鑰加密的 Base64 編碼使用者名稱、密碼和連線字串參數。如要進一步瞭解如何加密使用者名稱、密碼和連線字串參數，請參閱 Cloud KMS API 加密端點。

管道相關規定

在執行管道前，BigQuery 資料表必須已存在。
BigQuery 資料表必須具備相容的結構定義。
關聯資料庫必須可從 Dataflow 執行時所在的子網路存取。

範本參數

必要參數

connectionURL：JDBC 連線網址字串，例如，jdbc:mysql://some-host:3306/sampledb。能以 Base64 編碼字串傳入，然後使用 Cloud KMS 金鑰加密。例如：jdbc:mysql://some-host:3306/sampledb。
outputTable：BigQuery 輸出資料表位置。例如：<PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>。
bigQueryLoadingTemporaryDirectory：BigQuery 載入程序的暫存目錄。例如：gs://your-bucket/your-files/temp_dir。

選用參數

connectionProperties：JDBC 連線的屬性字串，字串格式必須為 [propertyName=property;]*。詳情請參閱 MySQL 說明文件中的「Configuration Properties」(https://dev.mysql.com/doc/connector-j/en/connector-j-reference-configuration-properties.html)。例如：unicode=true;characterEncoding=UTF-8。
username：JDBC 連線要使用的使用者名稱。可以傳入以 Cloud KMS 金鑰加密的字串，也可以是 Secret Manager 密鑰，格式為 projects/{project}/secrets/{secret}/versions/{secret_version}。
password：JDBC 連線使用的密碼。可以傳入以 Cloud KMS 金鑰加密的字串，也可以是 Secret Manager 密鑰，格式為 projects/{project}/secrets/{secret}/versions/{secret_version}。
query：要在來源上執行以擷取資料的查詢，請注意，部分 JDBC SQL 和 BigQuery 型別雖然名稱相同，但仍存在差異。請注意以下幾項重要的 SQL -> BigQuery 類型對應關係：DATETIME --> TIMESTAMP。如果結構定義不相符，可能需要進行型別轉換。例如：select * from sampledb.sample_table。
KMSEncryptionKey：用於解密使用者名稱、密碼和連線字串的 Cloud KMS 加密金鑰。如果傳入 Cloud KMS 金鑰，則必須加密使用者名稱、密碼和連線字串。例如：projects/your-project/locations/global/keyRings/your-keyring/cryptoKeys/your-key。
useColumnAlias：如果設為 true，管道會使用資料欄別名 (AS) 而非資料欄名稱，將資料列對應至 BigQuery。預設為 false。
isTruncate：如果設為 true，管道會在將資料載入 BigQuery 前截斷資料。預設值為 false，這會導致管道附加資料。
partitionColumn：如果指定 partitionColumn 和 table，JdbcIO 會在同一個資料表 (子查詢) 上使用範圍執行多個查詢執行個體，以平行讀取資料表。目前支援 Long 和 DateTime 分區資料欄。透過 partitionColumnType 傳遞資料欄類型。
partitionColumnType：partitionColumn 的類型，可接受 long 或 datetime。預設值為：long。
table：使用分區時要讀取的資料表。這個參數也接受以半形括號括住的子查詢。例如：(select id, name from Person) as subq。
numPartitions：分區數量。這個值會與上下限一起形成產生的 WHERE 子句運算式的分區步幅，用於平均分割分區資料欄。如果輸入值小於 1，系統會將數字設為 1。
lowerBound：要在分割區架構中使用的下限。如未提供，Apache Beam 會自動推斷支援的類型。datetime partitionColumnType 接受 yyyy-MM-dd HH:mm:ss.SSSZ 格式的下限。例如：2024-02-20 07:55:45.000+03:30。
upperBound：要在分割區架構中使用的上限。如未提供，Apache Beam 會自動推斷支援的類型。datetime partitionColumnType 接受 yyyy-MM-dd HH:mm:ss.SSSZ 格式的上限。例如：2024-02-20 07:55:45.000+03:30。
fetchSize：一次從資料庫擷取的資料列數。不適用於分區讀取作業。預設值為 50000。
createDisposition：要使用的 BigQuery CreateDisposition。例如 CREATE_IF_NEEDED 或 CREATE_NEVER。預設值為：CREATE_NEVER。
bigQuerySchemaPath：BigQuery JSON 結構定義的 Cloud Storage 路徑。如果 createDisposition 設為 CREATE_IF_NEEDED，則必須指定這個參數。例如：gs://your-bucket/your-schema.json。
outputDeadletterTable：用於儲存無法送達輸出資料表的訊息的 BigQuery 資料表，格式為 "PROJECT_ID:DATASET_NAME.TABLE_NAME"。如果該資料表不存在，系統會在管道執行時建立。如未指定這項參數，管道會在寫入錯誤時失敗。只有在 useStorageWriteApi 或 useStorageWriteApiAtLeastOnce 設為 true 時，才能指定這項參數。
disabledAlgorithms：以半形逗號分隔要停用的演算法。如果此值設為 none，則不會停用任何演算法。請謹慎使用這個參數，因為預設停用的演算法可能存在安全漏洞或效能問題。例如：SSLv3, RC4。
extraFilesToStage：以半形逗號分隔的 Cloud Storage 路徑或 Secret Manager 密鑰，用於在工作站中暫存檔案。這些檔案會儲存在每個工作站的 /extra_files 目錄中。例如：gs://<BUCKET_NAME>/file.txt,projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<VERSION_ID>。
useStorageWriteApi：如果為 true，管道會使用 BigQuery Storage Write API (https://cloud.google.com/bigquery/docs/write-api)。預設值為 false。詳情請參閱「使用 Storage Write API」(https://beam.apache.org/documentation/io/built-in/google-bigquery/#storage-write-api)。
useStorageWriteApiAtLeastOnce：使用 Storage Write API 時，指定寫入語意。如要使用至少一次語意 (https://beam.apache.org/documentation/io/built-in/google-bigquery/#at-least-once-semantics)，請將這個參數設為 true。如要使用僅一次語意，請將參數設為 false。只有在 useStorageWriteApi 為 true 時，這項參數才會生效。預設值為 false。

執行範本

控制台

前往 Dataflow 的「Create job from template」(依據範本建立工作) 頁面。

前往「依範本建立工作」

在「Job name」(工作名稱) 欄位中，輸入專屬工作名稱。
選用：如要使用區域端點，請從下拉式選單中選取值。預設區域為 us-central1。
如需可執行 Dataflow 工作的區域清單，請參閱「Dataflow 位置」。
從「Dataflow template」(Dataflow 範本) 下拉式選單中選取 the MySQL to BigQuery template。
在提供的參數欄位中輸入參數值。
按一下「Run Job」(執行工作)。

gcloud

在殼層或終端機中執行範本：

gcloud dataflow flex-template run JOB_NAME \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/MySQL_to_BigQuery \
    --parameters \
connectionURL=JDBC_CONNECTION_URL,\
query=SOURCE_SQL_QUERY,\
outputTable=PROJECT_ID:DATASET.TABLE_NAME,
bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS,\
connectionProperties=CONNECTION_PROPERTIES,\
username=CONNECTION_USERNAME,\
password=CONNECTION_PASSWORD,\
KMSEncryptionKey=KMS_ENCRYPTION_KEY

更改下列內容：

JOB_NAME：您選擇的不重複工作名稱
VERSION：您要使用的範本版本
您可以使用下列值：
- latest，使用範本的最新版本，該版本位於 bucket 中非依日期命名的上層資料夾：gs://dataflow-templates-REGION_NAME/latest/
- 版本名稱，例如 2023-09-12-00_RC00，可使用特定版本的範本，該範本會以巢狀結構存放在 bucket 中相應的依日期命名上層資料夾中：gs://dataflow-templates-REGION_NAME/
注意：範本的最新版本可能會隨著破壞性變更而有所更新。您的正式環境使用的範本應該來自最近依日期命名的上層資料夾，以免這些破壞性變更影響正式環境流程。
REGION_NAME：您要部署 Dataflow 工作的區域，例如 us-central1
JDBC_CONNECTION_URL：JDBC 連線網址
SOURCE_SQL_QUERY：要在來源資料庫執行的 SQL 查詢
DATASET：BigQuery 資料集
TABLE_NAME：BigQuery 資料表名稱
PATH_TO_TEMP_DIR_ON_GCS：臨時目錄的 Cloud Storage 路徑
CONNECTION_PROPERTIES：JDBC 連線屬性 (如有需要)
CONNECTION_USERNAME：JDBC 連線使用者名稱
CONNECTION_PASSWORD：JDBC 連線密碼
KMS_ENCRYPTION_KEY：Cloud KMS 加密金鑰

API

如要使用 REST API 執行範本，請傳送 HTTP POST 要求。如要進一步瞭解 API 和授權範圍，請參閱 projects.templates.launch。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
  "launchParameter": {
    "jobName": "JOB_NAME",
    "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/MySQL_to_BigQuery"
     "parameters": {
       "connectionURL": "JDBC_CONNECTION_URL",
       "query": "SOURCE_SQL_QUERY",
       "outputTable": "PROJECT_ID:DATASET.TABLE_NAME",
       "bigQueryLoadingTemporaryDirectory": "PATH_TO_TEMP_DIR_ON_GCS",
       "connectionProperties": "CONNECTION_PROPERTIES",
       "username": "CONNECTION_USERNAME",
       "password": "CONNECTION_PASSWORD",
       "KMSEncryptionKey":"KMS_ENCRYPTION_KEY"
     },
     "environment": { "zone": "us-central1-f" }
   }
}