持続可能性のためにデータとストレージを最適化する

Last reviewed 2026-01-28 UTC

Well-Architected Framework のサステナビリティの柱におけるこの原則では、 のストレージ リソースのエネルギー効率とカーボンフットプリントを最適化するうえで役に立つ推奨事項が示されています。Google Cloud Google Cloud

原則の概要

保存されたデータは受動的なリソースではありません。データのライフサイクル全体を通してエネルギーが消費され、二酸化炭素が排出されます。保存されたデータ 1 GB ごとに、継続的に電源が供給され、冷却され、管理される物理インフラストラクチャが必要です。持続可能なクラウド アーキテクチャを実現するには、データを価値があるが環境に負荷のかかるアセットとして扱い、プロアクティブなデータ ガバナンスを優先します。

データの保持、品質、ロケーションに関する決定は、クラウドの費用とエネルギー消費量を大幅に削減するのに役立ちます。保存するデータを最小限に抑え、データを保存する場所と方法を最適化し、自動削除とアーカイブの戦略を実装します。データの散乱を減らすと、システム パフォーマンスが向上し、データの長期的な環境フットプリントが根本的に削減されます。

推奨事項

データのライフサイクルとストレージ リソースをサステナビリティのために最適化するには、以下のセクションの推奨事項を検討してください。

価値の高いデータを優先する

未使用、重複、または古い保存データは、基盤となるインフラストラクチャに電力を供給するためにエネルギーを消費し続けます。ストレージ関連のカーボンフットプリントを削減するには、次の手法を使用します。

重複を特定して排除する

複数の プロジェクトまたはサービス間でデータセットが不必要に複製されないようにするポリシーを確立します。 Google Cloud BigQuery データセットや Cloud Storage バケットなどの中央データ リポジトリを唯一の情報源として使用し、これらのリポジトリへの適切なアクセス権を付与します。

シャドウデータとダークデータを削除する

ダークデータ とは、ユーティリティまたは所有者が不明なデータです。シャドウデータ とは、データの不正なコピーを意味します。ストレージ システムをスキャンし、データ検出およびカタログ作成ソリューション (Knowledge Catalog など) を使用して、ダークデータ とシャドウデータを検出します。これらの検出結果を定期的に監査し、必要に応じてダークデータとシャドウデータをアーカイブまたは削除するプロセスを実装します。

AI ワークロードのデータ量を最小限に抑える

モデルのトレーニングと提供に必要な特徴量と処理済みデータのみを保存します。可能な場合は、データサンプリング、集計、合成データ生成などの手法を使用して、大規模な元データセットに依存せずにモデルのパフォーマンスを実現します。

データ品質チェックを統合する

データの取り込み時に、 Managed Service for Apache SparkDataflow、 Knowledge Catalog などのサービスを使用して、自動データ検証とデータ クリーニング パイプラインを実装します。 低品質のデータは、ストレージ容量の無駄につながります。また、後で分析や AI トレーニングにデータを使用する場合、不要なエネルギー消費につながります。

データの価値密度を確認する

ログや IoT ストリームなどの大容量データセットを定期的に確認します。必要な情報密度を維持し、物理ストレージ容量を削減するために、データを要約、集計、ダウンサンプリングできるかどうかを判断します。

バックアップの必要性を厳密に評価する

最小限の労力で再生成できるデータのバックアップの必要性を評価します。 このようなデータの例としては、中間 ETL の結果、一時的なキャッシュ、安定した永続的なソースから派生したトレーニング データなどがあります。バックアップは、一意のデータまたは再作成にコストがかかるデータのみを保持します。

ストレージ ライフサイクル管理を最適化する

データの有用性が低下したときに、データがエネルギー効率の高いストレージ クラスに移動するか、適切に廃止されるように、ストレージ ライフサイクルを自動化します。 次の手法を使用します。

適切な Cloud Storage ストレージ クラスを選択する

オブジェクトのライフサイクル管理を使用して、アクセス頻度に基づいて Cloud Storage 内のデータを低炭素ストレージ クラスに自動的に移行します。

  • Standard Storage は、現在の本番環境モデルなど、アクティブに使用されているデータセットのみに使用します。
  • 古い AI トレーニング データセットやアクセス頻度の低いバックアップなどのデータを Nearline Storage または Coldline Storage に移行します。
  • 長期保存には、大規模なエネルギー効率に最適化された Archive Storage を使用します。

アグレッシブなデータ ライフサイクル ポリシーを実装する

ログファイル、一時的なモデル アーティファクト、古い中間結果など、重要でないデータに対して、明確で自動化された有効期間(TTL)ポリシーを定義します。 ライフサイクル ルールを使用して、定義された期間の経過後にこのようなデータを自動的に削除します。

リソースのタグ付けを義務付ける

すべての Cloud Storage バケット、BigQuery データセット、Persistent Disk で一貫したリソースタグとラベルの使用を義務付けます。データの所有者、データの目的、保持期間を示すタグを作成します。組織のポリシー サービスの制約を使用して、保持期間などの必要なタグがリソースに適用されるようにします。タグを使用すると、ライフサイクル管理を自動化し、詳細な FinOps レポートを作成し、二酸化炭素排出量レポートを作成できます。

コンピューティング ストレージのサイズを適正化してプロビジョニング解除する

Compute Engine インスタンスに接続されている Persistent Disk を定期的に監査し、ディスクが過剰にプロビジョニングされていないことを確認します。スナップショットは、バックアップに必要な場合にのみ使用します。古い未使用のスナップショットを削除します。データベースの場合は、データ保持ポリシーを使用して、基盤となる Persistent Disk のサイズを削減します。

ストレージ形式を最適化する

分析ワークロードを提供するストレージの場合は、JSON や CSV などの行ベースの形式よりも、Parquet や最適化された Avro などの圧縮された列形式を使用します。列形式のストレージでは、物理ディスク容量の要件が大幅に削減され、読み取り効率が向上します。この最適化により、関連するコンピューティング オペレーションと I/O オペレーションのエネルギー消費量を削減できます。

リージョン指定とデータ移動を最適化する

データの物理的なロケーションと移動は、ネットワーク リソースの消費量とストレージに必要なエネルギーに影響します。次の手法を使用して、データのリージョン指定を最適化します。

低炭素ストレージ リージョンを選択する

コンプライアンス要件に応じて、カーボンフリー エネルギー(CFE)の割合が高いリージョンまたはグリッドの炭素集約度が低いリージョンにデータを保存します。 Google Cloud リソース ロケーションの組織のポリシーの制約を使用して、炭素排出量の多い リージョンでのストレージ バケットの作成を制限します。リージョンの CFE と炭素集約度 データについては、 Google Cloud リージョンの カーボンフリー エネルギー Google Cloud をご覧ください

レプリケーションを最小限に抑える

必須の障害復旧(DR)または高可用性(HA)の要件を満たす場合にのみ、リージョン間でデータを複製します。リージョン間およびマルチリージョンのレプリケーション オペレーションでは、データのエネルギー コストとカーボンフットプリントが大幅に増加します。

データ処理ロケーションを最適化する

ネットワーク データ転送のエネルギー消費量を削減するには、AI トレーニングや BigQuery 処理などのコンピューティング負荷の高いワークロードをデータソースと同じリージョンにデプロイします。

パートナーとお客様のデータ移動を最適化する

クラウド サービス、ロケーション、プロバイダ間で大量のデータを移動するには、 パートナーとお客様に Storage Transfer Service またはデータ共有 API の使用を推奨します。大量のデータダンプは避けてください。公開データセットの場合は、 リクエスタ払い バケットを使用して、データ転送と処理の費用と環境への 影響をエンドユーザーに転嫁します。