本页面介绍如何创建和启动从 Amazon S3 到 Cloud Storage 的转移作业。
配置权限
在创建转移作业之前,您必须在 Amazon S3 存储桶上配置权限。如需了解详情,请参阅配置对来源的访问权限:Amazon S3。
您还必须为以下 Google Cloud 实体配置权限:
| 用于创建转移作业的用户账号 。这是登录 Google Cloud 控制台的 账号,或向 `gcloud` CLI 进行身份验证时指定的 账号。用户账号可以 是常规用户账号,也可以是用户代管式服务账号。 | |
Storage Transfer Service 使用的 Google 代管式服务 (也称为服务
代理)。此账号通常通过其电子邮件地址进行标识,该地址采用 project-PROJECT_NUMBER@storage-transfer-service.iam.gserviceaccount.com 格式。 |
如需查看相关说明,请参阅 无代理转移权限。
出站流量选项
Storage Transfer Service 提供了多种将 S3 数据转移到 Cloud Storage 的方法。
| 出站流量选项 | 说明 |
|---|---|
| 默认无代理 | 此选项使用从 S3 进行的托管式无代理转移。Amazon 会向您收取出站流量费用。
按照本页面的说明使用此选项。 |
| CloudFront 分配 | 使用 Amazon CloudFront 分配作为出站流量路径。与直接从 S3 转移相比,通过 CloudFront 转移数据可能有助于降低 AWS 出站流量费用。如需了解详情,请参阅
CloudFront 价格和 S3 出站流量费用
。
按照 通过 CloudFront 从 S3 转移中的说明设置 分配并创建转移作业。 |
| Google 管理的专用网络 | 通过 Google 管理的网络转移数据。您无需支付 S3 出站流量费用,而是按每 GiB 向 Google Cloud 支付费用。如需了解详情,请参阅价格
页面。您可能仍需支付 AWS 的操作费用(例如 LIST 或 GET 调用);如需了解详情,请参阅其价格。
所有项目通过托管式专用网络进行的转移作业共享相同的带宽。在用量高峰期,您的转移作业可能会变慢。与小文件相比,大文件的转移作业受到的影响更大。 按照本页面的说明使用此选项。在 Google Cloud 控制台中指定 托管式专用网络选项,或 在 REST API 中指定 managedPrivateNetwork字段。gcloud CLI 和客户端库不支持托管式专用网络转移。请参阅
支持的区域。 |
| 客户管理的专用网络 | 通过客户管理的专用网络转移数据。使用现有的跨云互连、合作伙伴互连,或购买并使用新连接。互连在 Google Cloud 和 Amazon S3 或 Azure 之间提供专用物理连接。
如需了解详情,请参阅 通过客户管理的专用网络从 AWS 或 Azure 转移 。 |
| 代理驱动型 | 适用于所有与 S3 兼容的存储服务,包括 Amazon S3。通过在有权访问 S3 存储分区的机器上安装代理软件,您可以控制网络路径和带宽。此选项需要代理和代理池。
按照 从与 S3 兼容的来源转移中的说明使用 此选项。 |
支持的区域
Storage Transfer Service 支持以下 Amazon S3 区域:
af-south-1ap-east-1ap-northeast-1ap-northeast-2ap-northeast-3ap-south-1ap-south-2ap-southeast-1ap-southeast-2ap-southeast-3 |
ap-southeast-4ca-central-1ca-west-1eu-central-1eu-central-2eu-north-1eu-south-1eu-south-2eu-west-1eu-west-2
|
eu-west-3il-central-1me-central-1me-south-1sa-east-1us-east-1us-east-2us-west-1us-west-2
|
us-gov-east-1us-gov-west-1
|
ap-east-1ap-northeast-1ap-northeast-2ap-northeast-3ap-south-1ap-south-2ap-southeast-1ca-central-1ca-west-1eu-central-1eu-central-2 |
eu-north-1eu-south-1eu-south-2eu-west-1eu-west-2eu-west-3us-east-1us-east-2us-west-1us-west-2
|
转移选项
以下 Storage Transfer Service 功能可用于从 S3 到 Cloud Storage 的转移作业
- 使用清单转移特定文件
- 您可以传递文件列表,供 Storage Transfer Service 对其执行操作。如需了解详情,请参阅 使用清单转移特定文件或 对象。
- 按前缀或最后修改时间过滤源对象
-
您可以选择根据 文件名和路径或最后修改时间,在转移作业中包含或排除对象。
前缀过滤条件在 “前缀过滤条件”中进行了说明。
基于时间的过滤条件包括:
- 自上次修改以来经过的最短时间和最长时间, 自上次修改以来。两者都接受以秒为单位的值,以过滤 对象,这些对象在特定时间段内被修改或未被修改。
- 自上次修改以来和上次修改之前,两者都接受 a dateTime 值。
请注意,S3 转移作业的基于时间的过滤条件依赖于 AWS 对“最后修改时间”的定义,即对象开始上传的时间。由于对象在上传完成之前不可用,因此您 可能会发现某些对象的最后修改时间符合您的过滤条件 但仍在上传。这些对象不会包含在您的 转移作业中。为避免任何问题,我们建议您执行以下操作:
- 不要使用基于时间的过滤条件,而是使用 事件驱动型 转移在对象可用时转移对象。
- 为防止在重复转移作业中遗漏对象,“最后修改 时间”回溯窗口应大于重复时间表。 例如,对于每小时运行一次的作业,两小时的回溯窗口可提供缓冲。
- 指定存储类别
- 您可以指定
Cloud Storage 存储类别,以用于目标
存储桶中的数据。如需了解 REST 详情,请参阅
StorageClass选项,或将--custom-storage-class标志与 Google Cloud CLI 搭配使用。请注意,如果目标 存储桶启用了 Autoclass,则系统会忽略所有存储类别设置。如果启用了 Autoclass,则转移到存储桶中的对象最初会 设置为 Standard Storage。
- 元数据保留
-
从 S3 转移文件时,Storage Transfer Service 可以 选择将某些特性以自定义元数据的形式保留。
如需详细了解可以保留哪些元数据以及如何配置转移作业,请参阅 元数据保留的 Amazon S3 到 Cloud Storage 部分。
- 事件驱动型转移
- Storage Transfer Service 可以侦听发送到 Amazon SQS 的 Amazon S3 事件通知,以自动转移来源位置中添加或更新的 数据。如需了解相关信息,请参阅 事件驱动型 转移。
- 日志记录和监控
- 您可以在 Cloud Logging 和 Cloud Monitoring 中查看从 S3 进行的转移作业。如需了解详情,请参阅 适用于 Storage Transfer Service 的 Cloud Logging 和 监控转移 作业。您还可以配置 Pub/Sub 通知。
创建传输作业
Storage Transfer Service 提供了多个界面,您可以通过这些界面创建转移作业。
请勿在转移作业名称中包含敏感信息,例如个人身份信息 (PII) 或安全数据。资源名称可能会传播到其他 Google Cloud 资源的名称,并且可能会向您项目之外的 Google 内部系统公开。
Google Cloud 控制台
进入控制台中的 Storage Transfer Service 页面。 Google Cloud
点击创建转移作业。 系统随即会显示创建转移作业 页面。
在来源类型 下,选择 Amazon S3 。
在目标类型 下,选择 Google Cloud Storage 。
选择时间安排模式。批量转移是一次性或按计划执行的。事件驱动型转移会持续监控来源,并在添加或修改数据时转移数据。
如需配置事件驱动型转移,请按照事件驱动型转移中的说明操作。
点击下一步。
在存储桶或文件夹名称字段中,输入数据源存储桶名称。
存储分区名称是其在 AWS 管理控制台中显示的名称。
如果您使用 CloudFront 分配从 S3 转移,请在 CloudFront 域名 字段中输入分配域名。例如
https://dy1h2n3l4ob56.cloudfront.net。如需配置 CloudFront 分配,请参阅 通过 CloudFront 从 S3 转移 。如需为此转移作业使用托管式专用网络 ,请选中该复选框。如需了解详情,请参阅出站流量选项。
选择 Amazon Web Services (AWS) 身份验证方法。如需了解详情,请参阅 配置对来源的访问权限:Amazon S3。
访问密钥:在访问密钥 ID 字段中输入访问密钥,在 与访问密钥关联的 Secret 在私有访问密钥字段中。
适用于身份联合的 AWS IAM 角色:在 AWS IAM 角色 ARN字段中输入您的 ARN,语法如下:
标准 AWS 区域
arn:aws:iam::AWS_ACCOUNT:role/AWS_ROLE_NAME
AWS GovCloud 区域
arn:aws-us-gov:iam::AWS_ACCOUNT:role/AWS_ROLE_NAME
替换以下内容:
AWS_ACCOUNT:无连字符的 AWS 账号 ID。AWS_ROLE_NAME:AWS 角色名称。如果您的组织使用路径来整理角色,请将路径与角色名称一起添加。例如,developers/transfer_user。
如需详细了解 ARN,请参阅 IAM ARN。
Secret 资源:选择此选项可使用保存在 Secret Manager 中的 Amazon 凭据 。从列表中选择一个 Secret,或 以以下格式手动输入一个 Secret:
projects/PROJECT_NUMBER/secrets/SECRET_NAME。
如果是事件驱动型转移,请输入 Amazon SQS 队列 ARN,格式如下:
标准 AWS 区域
arn:aws:sqs:us-east-1:1234567890:event-queue
AWS GovCloud 区域
arn:aws-us-gov:sqs:us-gov-east-1:1234567890:event-queue
- (可选)选择按前缀或最后修改日期过滤对象。如果您将文件夹指定为来源位置,则前缀过滤条件是相对于该文件夹的。例如,如果您的来源是
my-test-bucket/path/,则file的包含过滤条件会包含所有以my-test-bucket/path/file开头的文件。 点击下一步 。
在存储桶或文件夹 字段中,输入目标存储桶以及(可选)文件夹名称,或点击浏览 从当前项目的现有存储桶列表中选择一个存储桶。如需创建新存储桶,请点击
创建新存储桶。点击下一步 。
为转移作业选择设置。
在说明 字段中,输入转移作业的说明。最佳做法是输入有意义且唯一的说明,以便区分作业。
在元数据选项下,您可以选择使用默认选项,也可以点击查看和选择选项为所有受支持的元数据指定值。如需了解详情,请参阅元数据保留。
在何时覆盖下,选择以下选项之一:
如果不同:如果同名的源文件具有不同的 ETag 或校验和值,则覆盖目标文件。
始终:当源文件同名时,即使源文件相同,也始终覆盖目标文件。
在何时删除下,选择以下选项之一:
永不:永不从源或目标中删除文件。
在文件转移后从来源中删除文件:在文件转移到目标位置后,从来源中删除文件。如果源文件未转移(例如,因为它已存在于目标位置),则不会删除该源文件。
如果文件不在数据源中则从目标位置删除文件:如果目标 Cloud Storage 存储桶中的文件也不在数据源中,则从 Cloud Storage 存储桶中删除文件。
此选项可确保目标 Cloud Storage 存储桶与您的数据源完全匹配。
在通知选项下,选择 Pub/Sub 主题以及要通知的事件。如需了解详情,请参阅 Pub/Sub 通知。
点击下一步 。
选择时间安排选项:
从运行一次下拉列表中,选择以下选项之一:
运行一次:从您选择的时间开始运行一次转移作业。
每天运行:每天从您选择的时间开始,每天运行转移作业。
您可以输入可选的结束日期,或者将结束日期留空以持续运行转移作业。
每周运行:从您选择的时间开始,每周运行一次转移作业。
按自定义频率运行:按您选择的频率运行转移作业。您可以选择按照小时、天或周的固定间隔来重复运行转移作业。
您可以输入可选的结束日期,或者将结束日期留空以持续运行转移作业。
从立即开始下拉列表中,选择以下选项之一:
立即开始:点击创建后开始转移作业。
开始日期:在您选择的日期和时间开始转移作业。点击日历,以显示一个日历来选择开始日期。
要创建转移作业,请点击创建。
gcloud CLI
如需创建新的转移作业,请使用 gcloud transfer jobs create 命令。除非指定了时间表或 --do-not-run,否则创建新作业时会启动指定的转移作业。
gcloud CLI 不支持通过 CloudFront 或托管式专用网络进行转移。
gcloud transfer jobs create \
s3://S3_BUCKET_NAME gs://STORAGE_BUCKET_NAME \
--source-creds-file="relative_path/to/creds.json"
替换以下内容:
S3_BUCKET_NAME 是此转移作业的数据源。您可以 选择添加路径:
s3://S3_BUCKET_NAME/S3_FOLDER_PATHSTORAGE_BUCKET_NAME 是要转移 到的 Cloud Storage 存储桶。如需转移到特定目录,请指定
gs://STORAGE_BUCKET_NAME/STORAGE_FOLDER_PATH/,包括尾部斜杠。--source-creds-file指定机器上本地文件的相对路径,该文件包含转移来源的 AWS 凭据。内容必须采用以下 JSON 格式:{ "accessKeyId": string, "secretAccessKey": string }
其他选项包括:
--do-not-run可阻止 Storage Transfer Service 在提交命令后运行作业。如需运行作业,请更新作业以添加时间表,或使用jobs run来手动启动作业。--manifest-file指定 Cloud Storage 中 CSV 文件的路径,该文件包含要从来源转移的文件的列表。如需了解清单文件 的格式,请参阅 使用清单转移特定文件或对象。作业信息:您可以指定
--name和--description。时间表:您可以指定
--schedule-starts、--schedule-repeats-every和--schedule-repeats-until或--do-not-run。对象条件:您可以使用条件确定要转移的对象。这些条件包括
--include-prefixes和--exclude-prefixes以及--include-modified-[before | after]-[absolute | relative]中基于时间的条件。如果您为来源指定了文件夹,则前缀过滤条件是相对于该文件夹的。如需了解详情,请参阅按前缀过滤源对象。转移选项:指定是否覆盖目标 文件(
--overwrite-when=different或always),以及是否要在转移过程中或之后 删除某些文件(--delete-from=destination-if-unique或source-after-transfer);指定 要保留的元数据值(--preserve-metadata);(可选)为转移的对象设置存储类别 (--custom-storage-class)。通知:使用
--notification-pubsub-topic、--notification-event-types和--notification-payload-format配置 转移作业的 Pub/Sub 通知。Cloud Logging:使用
--log-actions和--log-action-states启用 Cloud Logging。如需了解详情,请参阅 适用于 Storage Transfer Service 的 Cloud Logging 。
如需查看所有选项,请运行 gcloud transfer jobs create --help 或参阅
gcloud 参考文档。
REST
以下示例展示了如何通过 REST API 使用 Storage Transfer Service。
使用 Storage Transfer Service API 配置或编辑转移作业时,必须采用世界协调时间 (UTC)。如需详细了解如何指定转移作业的时间表,请参阅 时间表。
创建转移作业时,请勿在 Amazon S3 存储桶来源名称中为 bucketName 添加 s3:// 前缀。
无代理转移
以下示例使用标准无代理配置创建转移作业。如需了解详情,请参阅 transferJobs.create 参考。
POST https://storagetransfer.googleapis.com/v1/transferJobs { "description": "DESCRIPTION", "status": "ENABLED", "projectId": "PROJECT_ID", "transferSpec": { "awsS3DataSource": { "bucketName": "AWS_SOURCE_NAME", "awsAccessKey": { "accessKeyId": "AWS_ACCESS_KEY_ID", "secretAccessKey": "AWS_SECRET_ACCESS_KEY" } }, "gcsDataSink": { "bucketName": "GCS_SINK_NAME" } } }
如需了解其他身份验证选项,请参阅 配置对来源的访问权限:Amazon S3 。
CloudFront 分配
如果您通过 CloudFront 分配从 S3 转移,请将分配域名指定为 transferSpec.awsS3DataSource.cloudfrontDomain 字段的值:
POST https://storagetransfer.googleapis.com/v1/transferJobs { "description": "DESCRIPTION", "status": "ENABLED", "projectId": "PROJECT_ID", "transferSpec": { "awsS3DataSource": { "bucketName": "AWS_SOURCE_NAME", "cloudfrontDomain": "https://dy1h2n3l4ob56.cloudfront.net", "awsAccessKey": { "accessKeyId": "AWS_ACCESS_KEY_ID", "secretAccessKey": "AWS_SECRET_ACCESS_KEY" } }, "gcsDataSink": { "bucketName": "GCS_SINK_NAME" } } }
托管式专用网络
如需使用 Google 管理的专用网络从 S3 转移,请指定 transferSpec.awsS3DataSource.managedPrivateNetwork 字段:
POST https://storagetransfer.googleapis.com/v1/transferJobs { "description": "DESCRIPTION", "status": "ENABLED", "projectId": "PROJECT_ID", "transferSpec": { "awsS3DataSource": { "bucketName": "AWS_SOURCE_NAME", "managedPrivateNetwork": TRUE, "awsAccessKey": { "accessKeyId": "AWS_ACCESS_KEY_ID", "secretAccessKey": "AWS_SECRET_ACCESS_KEY" } }, "gcsDataSink": { "bucketName": "GCS_SINK_NAME" } } }
客户端库
以下示例展示了如何通过 Go、Java、Node.js 和 Python 以编程方式使用 Storage Transfer Service。
以编程方式配置或修改转移作业时,必须采用世界协调时间 (UTC)。如需详细了解如何指定转移作业的时间表,请参阅时间表。
如需详细了解 Storage Transfer Service 客户端库,请参阅 Storage Transfer Service 客户端库使用入门。
将数据从 Amazon S3 转移到 Cloud Storage
本示例演示了如何将文件从 Amazon S3 转移到 Cloud Storage 存储桶。
创建转移作业时,请勿在 Amazon S3 存储桶来源名称中为 bucketName 添加 s3:// 前缀。
Storage Transfer Service 客户端库不支持通过 CloudFront 或托管式专用网络进行转移。
Go
Java
想要寻找较早的示例?请参阅 Storage Transfer Service 迁移指南。
Node.js
Python
想要寻找较早的示例?请参阅 Storage Transfer Service 迁移指南。